Modelos de Naclaje y Bancos de Items

Psicothema 2004. Vol. 16, n 3, pp.
519-525 ISSN 0214 - 9915 CODEN PSOTEG

www.psicothema.com Copyright 2004 Psicothema
Un test adaptativo informatizado para evaluar el conocimiento

de ingls escrito: diseo y comprobaciones psicomtricas
Julio Olea, Francisco Jos Abad, Vicente Ponsoda y M. Carmen Ximnez

Universidad Autnoma de Madrid
El presente artculo muestra el trabajo desarrollado para disear un test adaptativo informatizado que
evala el nivel de conocimientos de ingls escrito en castellano-parlantes. Se describe el proceso se-
guido para la elaboracin del banco de tems, la comprobacin de sus propiedades psicomtricas, el
ajuste obtenido al modelo logstico de tres parmetros y las principales caractersticas del algoritmo
adaptativo. Se aportan algunos resultados iniciales sobre la validez de los niveles de rasgo estimados.
Se comentan los resultados obtenidos en un estudio de simulacin, cuyo objetivo es comprobar algu-
nas propiedades de los niveles de ingls estimados (precisin y sesgo). Los primeros estudios de fia-
bilidad y validez han dado resultados satisfactorios.
A computerized adaptive test for the assessment of written English: Design and psychometric proper-
ties. This article describes the development of a computer adaptive test to assess the written English
level of Spanish speakers. A short description is given of the steps followed for the elaboration of the
item bank, the evaluation of its psychometric properties, the fit to the 3-parameter logistic model and
the main characteristics of the adaptive algorithm. Some initial results on the validity of estimated abi-
lity measures are provided. The article includes the results of a simulation study which aims to obtain
information on precision and bias of English level estimates. First results on reliability and validity are
encouraging.
En pases como Estados Unidos y Holanda, resulta cada vez tablecer: a) un procedimiento de arranque, a partir del cual se de-
ms familiar la aplicacin de tests adaptativos informatizados termina el primer tem a presentar, b) un mtodo estadstico (ba-
(TAIs) en contextos de evaluacin psicolgica y educativa. Prue- yesiano o mximo-verosmil) para estimar el nivel de rasgo provi-
bas tradicionales de tan amplia aplicacin en estos pases como el sional (y la precisin asociada a tal estimacin) de un sujeto tras
Test of English as a Foreign Language (TOEFL), el Graduate Re- cada una de sus respuestas, c) un procedimiento para seleccionar,
cord Exam (GRE) o el Armed Services Vocational Aptitude Bat- tras una estimacin provisional de rasgo, el siguiente tem a pre-
tery (ASVAB) disponen en la actualidad de versiones adaptativas sentar, y d) un criterio para dar por finalizada la prueba. Las di-
informatizadas. Exmenes de licenciatura, certificacin, acredita- versas opciones que se pueden elegir para establecer estos reque-
cin o admisin se realizan ya de forma usual mediante TAIs. rimientos, as como la conveniencia de cada una para objetivos de
Drasgow y Olson-Buchanan (1999) y Rojas (2001) exponen los evaluacin diferentes, sus ventajas e inconvenientes, pueden con-
desarrollos iniciales y las mejoras incorporadas a los principales sultarse en Olea y Ponsoda (2003).
TAIs operativos. En comparacin con los tests convencionales de longitud fija,
Propuestos inicialmente por Lord (1970, 1980) y puestos a mediante un algoritmo adaptativo se consigue una mejor adecua-
prueba por primera vez por Weiss (1974), la idea fundamental de cin entre la dificultad de los tems y el nivel de rasgo del sujeto,
un TAI es seleccionar de forma dinmica, mediante un algoritmo y por tanto una estimacin precisa de su nivel de rasgo con la pre-
aplicado en un ordenador, los tems ms apropiados para cada su- sentacin de pocos de tems y en un tiempo de aplicacin reduci-
jeto, segn el nivel que progresivamente va manifestando en la do. Adems, dado que diferentes sujetos reciben tems distintos,
prueba. A partir de un banco de tems calibrado desde alguno de los TAIs garantizan ms que los tests fijos que los tems no sean
los modelos de la Teora de la Respuesta al tem (TRI), la mayo- conocidos antes de la realizacin del test. Estos beneficios resul-
ra de los TAIs proceden mediante una estrategia de ramificacin tan especialmente importantes para los responsables de programas
variable para la seleccin progresiva de los tems, que requiere es- de evaluacin a gran escala, donde es necesario aplicar los tests de
forma continua a muestras numerosas de personas.
El desarrollo de un TAI hasta que se encuentra operativo es un
proceso laborioso y exige conocimientos y destrezas tcnicas im-
Fecha recepcin: 15-10-03 Fecha aceptacin: 27-1-04 portantes, as como una importante inversin de trabajo por parte
Correspondencia: Julio Olea de expertos en Psicometra, en el contenido sustantivo de la prue-
Facultad de Psicologa
ba y en Informtica (mucho ms si, como es nuestro caso, el test
Universidad Autnoma de Madrid
28049 Madrid (Spain) va a aplicarse a travs de Internet). En primer lugar, una vez ela-
E-mail: julio.olea@uam.es borado el banco de tems con la colaboracin de expertos en el te-
520 JULIO OLEA, FRANCISCO JOS ABAD, VICENTE PONSODA Y M. CARMEN XIMNEZ
ma objeto de evaluacin, la aplicacin de la TRI para la calibra- gora competencial a la que pertenecan. Para disponer de una pri-
cin del banco de tems exige obtener respuestas de muestras nu- mera aproximacin a la dificultad de cada tem, 5 profesores de in-
merosas de evaluados en los diferentes subtests establecidos. En gls nativos valoraron inicialmente la dificultad de cada tem asig-
segundo lugar, debe programarse un conjunto de algoritmos para nndole una puntuacin entre 1 y 4. Se obtuvo una medida inicial
la seleccin progresiva de los tems, para la estimacin de los ni- de dificultad sumando las puntuaciones tpicas de los 5 jueces en
veles de rasgo y para el clculo de la precisin obtenida en cada cada uno de los tems, que fue clasificada en 10 niveles (deciles)
momento. En tercer lugar, el TAI debe someterse a las oportunas de dificultad. Se decidi elaborar 15 subtests, cada uno formado
pruebas (empricas y mediante simulacin) para garantizar las propor 61 tems, 20 de los cuales forman el test de anclaje (comn pa-
piedades deseables de las estimaciones, as como para aportar da- ra todos los subtests) y 41 especficos de cada subtest. Tanto los
tos sobre su precisin y validez. Finalmente, su aplicacin a travs tems del test de anclaje como los propios de cada subtest se eli-
de Internet, si fuera el caso, exige un trabajo adicional de progra- gieron de forma que representaran adecuadamente la dificultad del
macin para preservar la seguridad del banco de tems y para rea- banco y la cantidad de tems que tena cada una de las 7 categoras
lizar el proceso de presentacin-seleccin de tems-estimacin de competenciales. Ms detalles sobre este proceso y algunas com-
rasgo en un tiempo imperceptible para el evaluando. De estas con- probaciones adicionales pueden consultarse en Olea, Abad y Pon-
sideraciones se sigue que no necesariamente un TAI es siempre la soda (2002).
mejor solucin. Es preciso analizar bien bajo qu circunstancias y Con objeto de obtener los primeros datos sobre las propiedades
objetivos de evaluacin resultan autnticamente eficaces (y renta- psicomtricas del banco y su ajuste a un modelo de TRI, se reali-
bles) este tipo de pruebas. Wainer (2000) realiza una interesante z un estudio piloto con el subtest 1, que se aplic a una muestra
reflexin sobre sus posibilidades y limitaciones. de 435 personas adultas espaolas de nivel heterogneo de domi-
El objetivo del presente artculo es mostrar el trabajo desarro- nio del idioma ingls: estudiantes de enseanza secundaria, estu-
llado para disear un TAI que pretende evaluar de manera fiable, diantes universitarios, estudiantes de filologa inglesa y profesores
vlida y eficiente el nivel de conocimientos de ingls escrito. Co- universitarios. Algunos de los resultados fundamentales de este es-
menzaremos describiendo el proceso seguido para la elaboracin tudio fueron: a) un coeficiente de 0.91 para el subtest completo
del banco de tems, la comprobacin de sus propiedades psicom- (61 tems) y de 0.81 para el test de anclaje (20 tems), b) un buen
tricas y el ajuste obtenido al modelo logstico de tres parmetros. ajuste de los tems al modelo logstico de 3 parmetros, c) una co-
Posteriormente, describiremos las opciones elegidas en la progra- rrelacin de Pearson de 0.75 entre las valoraciones iniciales de di-
macin del algoritmo adaptativo: procedimiento de arranque, m- ficultad obtenidas a partir del juicio de los expertos y el parmetro
todo de seleccin de tems, mtodo de estimacin de los niveles de b de los tems, d) un coeficiente de determinacin (R2 corregido)
rasgo, procedimientos aplicados para el control de las tasas de ex- de 0.40 entre la combinacin lineal de varios predictores (varia-
posicin de los tems y criterios de parada. Finalizaremos mos- bles de formacin en el idioma) y los niveles de rasgo estimados
trando algunas propiedades psicomtricas del TAI obtenidas em- mediante TRI.
pricamente (validez de las estimaciones de rasgo) y mediante un
estudio de simulacin (precisin y sesgo de las estimaciones). Aplicacin del banco de tems: subtests y participantes
El fin ltimo de la prueba es ordenar a los sujetos segn su ni-
vel de dominio del ingls escrito, de modo eficiente, y con las Cinco subtests (del n 2 al n 6, en total 225 tems) se aplicaron
condiciones de aplicacin que actualmente nos permiten las nue- a los estudiantes de primer curso de todas las facultades de la Pon-
vas tecnologas. El objetivo de eficiencia lo pretendemos cubrir tificia Universidad Catlica de Chile. Los responsables de esta
precisamente con la aplicacin adaptativa del banco de tems. universidad pretenden con esta aplicacin derivar a los estudiantes
con menor nivel de dominio del ingls a cursos especficos de for-
Construccin del banco de tems y anlisis de sus propiedades macin. Los encargados de la aplicacin fueron profesores de ca-
psicomtricas da curso, previamente instruidos de forma oral y escrita sobre el
procedimiento. Los subtests se aplicaron en soporte de papel y l-
Elaboracin del banco y diseo de anclaje piz, dando un tiempo global de 60 minutos para completar la prue-
ba. En total participaron 3.224 estudiantes, asignados aleatoria-
Dos especialistas en filologa inglesa, con la colaboracin de tres mente a uno de los 5 subtests (n2= 665, n3= 660, n4= 645, n5= 636,
profesores de Psicometra, elaboraron un banco inicial de 635 n6= 618), de tal forma que disponemos de las respuestas de la
tems, cada uno de los cuales consta de una frase donde faltan cier- muestra global a los 20 tems de anclaje, y de los tamaos mues-
tas palabras (el hueco se marca con un asterisco) y 4 opciones de trales referidos para los 41 tems propios de cada subtest.
respuesta, una de las cuales es la correcta. Para ello, se sigui un Al acabar la sesin los estudiantes informaron sobre a) el tipo
marco terico funcional-cognitivo, donde se consideraran aspectos de colegio donde estudiaron la enseanza media (bilinge-ingls u
de competencia en el discurso, que incluyeran el dominio del idio- otros), b) su nivel autopercibido en el idioma (en lectura, escritu-
ma en situaciones comunicativas especficas, junto a otros que re- ra y conversacin) y c) su formacin (educacin primaria y se-
flejaran estrictamente la competencia gramatical con el idioma. Ca- cundaria, academias, familia, estancias en pases anglosajones y
da uno de los tems se clasific en una de 7 categoras de compe- otros).
tencia diferentes, incluyendo cada una varias subcategoras de con-
tenido (hasta un total de 46): aspectos formales, morfologa, mor- Anlisis psicomtrico y estudio de unidimensionalidad
fosintaxis, pragmtica, lxico, sintaxis y categoras compuestas.
Pensando en la aplicacin emprica del banco para su posterior Se realizaron varios estudios sobre las propiedades psicomtri-
calibracin, se estableci un diseo de anclaje donde se tuviera en cas del test de anclaje y de los diferentes subtests. En los cinco
consideracin: a) la dificultad previsible de los tems, y b) la cate- subtests, el nmero medio de aciertos est comprendido entre 28.4
UN TEST ADAPTATIVO INFORMATIZADO PARA EVALUAR EL CONOCIMIENTO DE INGLS ESCRITO: DISEO Y COMPROBACIONES PSICOMTRICAS 521
y 32.2, y la desviacin tpica lo est entre 13.0 y 14.5. A pesar de Ajuste, equiparacin y estimacin de parmetros
la asignacin aleatoria de los sujetos a los diferentes subtests, el
nmero medio de aciertos result significativamente distinto Para la aplicacin del modelo de TRI se eliminaron en primer
(p<0.01) en los cinco subtests, lo que indica la necesidad de pro- lugar algunos tems siguiendo algunos criterios psicomtricos cl-
ceder a la equiparacin de la mtrica de los parmetros de los sicos (p.e., tems con correlaciones biseriales bajas o tems en los
tems y de los sujetos, que por otra parte estaba ya prevista en el que escoger alguna opcin incorrecta correlacionaba positivamen-
diseo de anclaje establecido. El menor coeficiente result ser te con la puntuacin total) y observando la adecuacin psicomtri-
0.94 y el mayor, 0.96. En el test de anclaje, de 20 tems frente a los ca de las funciones de respuesta de las opciones. Estas funciones de
61 de cada subtest, el valor del coeficiente result menor (0.87). respuesta de los tems se obtuvieron mediante el procedimiento no
La consistencia interna de los diferentes subtests y del test de an- paramtrico de suavizar con un ncleo (kernel smoothing) imple-
claje, as como los valores medios obtenidos para las correlaciones mentado en el programa TestGraf (Ramsay, 1991, 2000).
biseriales tem-total, indican una fuerte covariacin media entre Siguiendo los criterios clsicos de forma estricta, convena eli-
los tems que componen cada una de las pruebas. Dado que la lon- minar 51 tems (4 del test de anclaje). Sin embargo, se comprob
gitud de cada uno de los subtests es considerable, queda poco mar- que en algunos casos se trataba de tems difciles en los que, lgi-
gen para la mejora de su consistencia interna. camente, la funcin de respuesta de la opcin correcta era cre-
Respecto al estudio de la unidimensionalidad, y dados los ta- ciente slo para un intervalo estrecho de habilidad (los sujetos de
maos muestrales disponibles, se realizaron estudios factoriales muy alta habilidad) y/o la funcin de respuesta de la opcin inco-
exploratorios y confirmatorios para el test de anclaje y estudios rrecta era creciente pero posiblemente slo para el intervalo de ha-
factoriales nicamente exploratorios para cada uno de los subtests. bilidad analizado (siendo posiblemente rechazada por sujetos con
Para el estudio de la unidimensionalidad del test de anclaje se mayor nivel de habilidad). Por ello, y considerando la posibilidad
obtuvieron las races latentes de la matriz de correlaciones tetra- futura de implementar un procedimiento politmico de puntua-
cricas con las comunalidades en la diagonal principal, mediante cin, 41 de estos tems (todos los del test de anclaje) se mantuvie-
el mtodo de extraccin de mnimos cuadrados generalizados. Se ron para el estudio del ajuste mediante la TRI.
obtuvieron tres races latentes con valores superiores a 1 (1= 9.1, En segundo lugar, se calibraron los tems segn el modelo lo-
% de varianza= 45.6; 2= 1.2, % de varianza= 6.2; 3= 1.1, % de gstico de 3 parmetros (mtrica normal). Para calibrar en la mis-
varianza= 5.3). El cociente entre las dos primeras races latentes ma mtrica los tems de todos los subtests se utiliz el diseo de
fue 7.32. Asimismo, bajo la solucin unifactorial, nicamente un calibracin concurrente, en el que las respuestas a tems no apli-
1.63% de los residuos fueron superiores a 0.10. cados a los sujetos se consideran como datos perdidos. En estudios
El anlisis factorial confirmatorio se llev a cabo mediante el de simulacin realizados con un diseo de anclaje similar al del
programa LISREL (versin 8.51) ponindose a prueba el modelo presente trabajo, la calibracin concurrente ha mostrado un rendi-
de un factor. Dadas las caractersticas de las variables, se utiliz el miento similar a la calibracin separada con equiparacin poste-
mtodo de extraccin de factores de mnimos cuadrados pondera- rior (Hanson y Bguin, 2002). Los parmetros fueron estimados
dos (WLS) que lleva a cabo los anlisis a partir de la matriz de co- por el procedimiento mximo-verosmil marginal bayesiano im-
varianzas asintticas (Muthen, 1984). La solucin factorial con- plementado en el programa BILOG (Mislevy y Bock, 1990). Las
vergi en un proceso de 9 iteraciones. Todos los parmetros esti- omisiones se trataron como respuestas fraccionalmente correctas.
mados (ij) resultaron significativos (p<0.05) con magnitudes que Para la distribucin del nivel de habilidad se asumi una distribu-
oscilaron entre 0.29 y 0.88. Algunos de los ndices de bondad de cin normal (media= 0; desviacin tpica= 1). La distribucin a
ajuste obtenidos fueron: 2170= 500.52 (p<0.05), 2/gl= 2.94, GFI= priori inicial para los parmetros a era log-normal (media= 0.75;
0.99, RMR= 0.05, NNFI= 0.95 y RMSEA= 0.025 (p>0.05). Todos desviacin tpica= 0.12), para los parmetros b, normal (media= 0;
estos indicadores, fundamentalmente el ndice NNFI (non-normed desviacin tpica= 2) y para el parmetro c se utiliz una distribu-
fit index), que no depende del tamao muestral empleado, y el n- cin beta (alpha= 76; beta= 226; es decir, con media el recproco
dice RMSEA (root mean square error of approximation), junto a del nmero de alternativas y desviacin tpica 0.025). Abad, Olea,
su prueba de significacin para la hiptesis nula RMSEA 0.05, Ponsoda, Ximnez y Mazuela (enviado) muestran la importancia
nos llevan a concluir que existe un buen ajuste global de los datos de elegir bien las distribuciones a priori.
al modelo de un factor. Al analizar el ajuste de los tems al modelo de 3 parmetros, se
Para el estudio de la unidimensionalidad de los cinco subtests encontr que 18 tems (10 de los cuales haban resultado ya pro-
no pudo emplearse el mismo procedimiento que para el test de an- blemticos siguiendo los criterios clsicos) se mostraron desajus-
claje, dado que las matrices de correlaciones tetracricas no resultados tomando como criterio para el desajuste su valor 2 (p<.01)
taron positivas definidas y el tamao muestral no permite estimar acompaado de residuos grandes para algunos niveles de habili-
la matriz de covarianzas asintticas. Alternativamente, se utiliz el dad y/o funciones de respuesta empricas no montono-crecientes.
programa NOHARM (Fraser, 1988) que estima los parmetros j Se mantuvieron todos los tems de anclaje. Por lo tanto, el banco
y j del modelo de factor comn y la matriz de covarianzas resi- final se compone de 197 tems.
dual de los tems (McDonald, 1999). Los valores del ndice RMSR La mayor parte de los valores del parmetro de discriminacin
(root mean square residual) oscilaron entre 0.0047 y 0.0075 e in- a se encontraron entre 0.83 y 1.90 (media= 1.30; desviacin tpi-
dican un buen ajuste para el modelo de un factor. Asimismo, tam- ca= 0.32). Para el parmetro de dificultad b, el 90% de los valores
bin se obtuvieron las races latentes para cada uno de los subtests son medio-altos y se encuentran entre 1.26 y 2.16 (media= 0.23;
de 61 tems. En todos ellos se obtuvieron trece races latentes con desviacin tpica= 1.00). Para el parmetro de pseudo-azar c, la
valores mayores que 1, siendo la primera notablemente superior a distribucin se hallaba centrada en torno al valor 0.20 (media=
las restantes. El cociente entre las dos primeras races latentes to- 0.21; desviacin tpica= 0.02) con la mayor parte de los valores
ma valores entre 7.44 y 12.13. entre 0.16 y 0.25; este valor refleja la calidad de las opciones in-
correctas, puesto que es inferior a 1/4 (recordemos que los tems puestas comienza a aplicarse el mtodo mximo-verosmil. Para
tienen 4 opciones incorrectas). La nica correlacin significativa, cada nivel de rasgo estimado se obtiene el error tpico asociado; es
con nivel de significacin del 1%, ocurri entre los parmetros a decir, el valor inverso de la raz cuadrada de la informacin que
y c (-0.369), lo que implica que los tems ms discriminativos son aportan para el ltimo nivel de rasgo estimado los tems presenta-
ms difciles para los sujetos con bajo nivel de habilidad. dos hasta ese momento.
Seleccin de tems: tras la estimacin (o asignacin) de un va-
Funcin de informacin lor provisional, el algoritmo elige como siguiente tem, entre los
que no se han presentado todava al sujeto, el que resulta ms in-
Una de las herramientas ms importantes para caracterizar un formativo para dicho nivel de rasgo. En el algoritmo se aplica, por
banco de tems es su funcin de informacin. La funcin de infor- tanto, el mtodo de seleccin de tems de mxima informacin.
macin impone una cota a la mxima precisin que puede obte- Para el control de la exposicin de los tems, se establecen tres
nerse mediante el TAI. En la figura 1 se muestra la funcin de in- restricciones: a) en los 5 primeros tems que se presentan no son
formacin para el presente banco. Para el rango de habilidad entre aplicables tems con parmetros a mayores que 1, en lnea con lo
1.5 y 3 el error tpico de medida alcanzable si se aplicaran los 197 propuesto por Chang y Ying (1999); b) tambin en los 5 primeros
tems del banco est por debajo de 0.2. El banco de tems funcio- tems que se presentan, se aplica el mtodo de McBride y Martin
na mejor para niveles de habilidad medio-altos. Claramente, los (1983), que consiste en seleccionar como primer tem uno al azar
niveles de habilidad por debajo de 2.5 no pueden ser estimados entre los 5 ms informativos; como segundo, otro al azar entre los
con precisin (errores tpicos mayores que 0.5). 4 ms informativos;, y as hasta el 5, a partir del cul se selec-
ciona siempre el ms informativo para el ltimo nivel estimado;
Algoritmo adaptativo c) para todos los tems se establece una tasa mxima de exposicin
del 25%, de modo que un tem deja temporalmente de presentarse
El banco final est por tanto formado por 197 tems y sus co- cuando ha sido aplicado al 25 % de los sujetos. Con las restriccio-
rrespondientes parmetros estimados (a, b y c). Mediante C++ nes a y b vistas se intenta controlar la tasa de exposicin de tems
Builder se dise un algoritmo para la presentacin-seleccin su- muy discriminativos en las fases iniciales del test, cuando los valo-
cesiva de tems, que tiene las siguientes caractersticas: res estimados de pueden alejarse bastante del nivel verdadero del
Procedimiento de arranque: para comenzar la prueba, se elige evaluado; sin esta primera restriccin, podramos aplicar ineficaz-
un nivel de rasgo de una distribucin normal truncada entre -1 y mente tems muy informativos para niveles de rasgo alejados del
+1, aplicando como primer tem el que resulta ms informativo pa- que tiene realmente el evaluado. Con la tercera restriccin preten-
ra dicho nivel. Es, por tanto, un procedimiento de arranque aleato- demos limitar la tasa mxima de exposicin al 25% e incrementar,
rio entre niveles medios de rasgo, algo usual cuando se piensa de paso, las tasas de los tems no demasiado utilizados, En algn
aplicar el test en contextos en los que no se tiene informacin pre- TAI hasta el 80 % de los tems del banco no se aplican nunca o ca-
via sobre el nivel de rasgo de los evaluados. si nunca (Hornke, 2000), lo que afecta a la seguridad del banco.
Estimacin de los niveles de rasgo: en el algoritmo se incluye Procedimiento de parada: el programa permite al responsable
un procedimiento de estimacin de mxima verosimilitud, emple- de la aplicacin establecer diferentes criterios de parada: criterio
ando el mtodo de aproximacin numrica de Newton-Raphson. fijo (estableciendo un nmero prefijado de tems para todos los su-
Como es conocido, mientras se produce un patrn constante de jetos, con lo cual las diferentes estimaciones tendrn distinta pre-
respuestas (todo aciertos o todo errores) no es posible realizar es- cisin), variable (prefijando un nivel de error tpico para todos los
ta estimacin. Mientras ocurre esto, el programa asigna una pro- sujetos, de tal manera que la presentacin de tems finaliza cuan-
visional obteniendo el punto medio entre el ltimo nivel de rasgo do el error desciende del valor preasignado), o mixto (combinan-
estimado y 2 (si se ha dado un acierto) o -2 (si se ha fallado el do ambos criterios simultneamente; es decir, parar la aplicacin
tem). Este procedimiento es una variante del propuesto por Dodd cuando se presentan k tems o cuando el error tpico desciende del
(1990). En el momento en que aparece variabilidad en las res- valor preestablecido).
110 2 Propiedades psicomtricas

100
Precisin
90
80 1.5
Para estudiar las propiedades psicomtricas del test se realiz
70
un estudio de simulacin. Se simularon 10.000 sujetos de una dis-
Error tpico
60 tribucin normal discretizada en 17 niveles de habilidad entre -4 y

I()
1
50 4. Para cada sujeto se simulaban 3 tests adaptativos de longitud fi-
40 ja (30 tems): a) sin tasa mxima de exposicin, b) fijando la tasa
30 0.5 mxima de exposicin al 40% de las aplicaciones, y c) fijando la
20 tasa mxima de exposicin al 25%. En los tres casos se mantuvie-
10 ron las restricciones a y b comentadas anteriormente.
0 0 En la tabla 1 se muestran las tasas de exposicin de los tems.
-3.0
-2.5
-2.0
-1.5
-1.0
-0.5
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Si la aplicacin de los tems fuera aleatoria el valor esperado para

las tasas de exposicin sera del 15%. Puede observarse que, si no
Figura 1. Funcin de informacin y error tpico de estimacin para el se fija una tasa mxima, el 27 % de los tems son aplicados al me-
banco de 197 tems nos la cuarta parte de las veces y el 6% ms del 40% de la veces.
Imponiendo una tasa mxima de exposicin del 40%, el 27% an- mos omitido esta informacin en la tabla 2, pero result evidente
terior aumenta ligeramente al 28%. En ambas condiciones ms del que los resultados globales expuestos no son extrapolables fuera
35% de los tems se aplican menos del 5 % de las veces. Estos da- del rango de habilidad entre -1 y 2.
tos muestran claramente la necesidad de imponer restricciones
mayores en la exposicin. Imponiendo una tasa mxima del 25 %, Validez
el 47% de los tems son aplicados entre el 20 y el 25% de las ve-
ces y slo el 27% de los tems son aplicados menos del 5 % de las Las primeras pruebas de validez se realizaron a partir de los
veces. datos obtenidos en el cuestionario comentado en la Introduccin.
La tabla 2 muestra el porcentaje de personas que cumplira el Se realizaron 5 ANOVAs siendo la variable dependiente el valor
criterio de parada (error tpico inferior a 0.30) en funcin del n- estimado para cada estudiante a partir de sus respuestas al sub-
mero de tems aplicado. Puede observarse que aproximadamente test correspondiente (las cinco Fs encontradas resultaron signifi-
el 85 % de los sujetos son evaluados con precisin adecuada con cativas, p<0.001): a) con la variable independiente tipo de cole-
menos de 20 tems. Slo 7 % de los sujetos no cumplen ese crite- gio, los niveles de rasgo medios fueron 0.50 (colegio bilinge-in-
rio de parada, independientemente de la imposicin o no de tasa gls) y -0.24 (otros colegios). El tamao del efecto (2) fue 0.10.
mxima de exposicin. b) con la variable independiente formacin, los niveles de rasgo
La tabla 2 tambin muestra el sesgo y RMSE obtenidos. El ses- medio fueron -0.16 (slo colegio), 0.24 (colegio+academia), 0.57
go observado es pequeo. A partir de 20 tems se alcanza, en pro- (colegio+familia) y 1.18 (colegio+extranjero). El tamao del
medio, una precisin adecuada (RMSE <0.30). El coeficiente de efecto fue 0.09. c) con la variable independiente autoevaluacin
fiabilidad (correlacin al cuadrado entre el nivel de habilidad real de la lectura, los niveles de rasgo medio fueron -1.16 (nada), -
y el estimado) es aceptable incluso con 15 tems. Por otro lado, el 0.86 (sencillo), -0.13 (con esfuerzo), 0.94 (bien) y 1.64 (bilin-
efecto de limitar la tasa mxima de exposicin de los tems apenas ge). El tamao del efecto fue 0.46. d) con la variable indepen-
deteriora los niveles de precisin. diente autoevaluacin de la escritura, los niveles de rasgo medio
Una de las ventajas principales de la TRI es que nos propor- fueron -1.30 (nada), -0.64 (sencillo), 0.03 (con esfuerzo), 0.90
ciona el nivel de precisin obtenido por cada nivel de rasgo. He- (bien) y 1.77 (bilinge). El tamao del efecto fue 0.49. e) con la
Tabla 1
Tasas de exposicin de los tems para las condiciones sin control de la tasa mxima de exposicin y con control (25% y 40%). Para cada condicin se presenta el nmero
de tems (f), el porcentaje (%) y el porcentaje acumulado (% ac) con una determinada tasa
Sin control de la tasa mxima de exposicin Tasa mxima: 40% Tasa mxima: 25 %
Tasa f % % ac f % % ac f % % ac
0.00-0.05 73 37.1 037.1 70 35.5 035.5 54 27.4 027.4

0.05-0.10 19 09.6 046.7 19 09.6 045.2 19 09.6 037.1
0.10-0.15 16 08.1 054.8 15 07.6 052.8 11 05.6 042.6
0.15-0.20 19 09.6 064.5 22 11.2 064.0 20 10.2 052.8
0.20-0.25 17 08.6 073.1 15 07.6 071.6 93 47.2 100.0
0.25-0.30 16 08.1 081.2 18 09.1 080.7
0.30-0.35 11 05.6 086.8 12 06.1 086.8
0.35-0.40 14 07.1 093.9 26 13.2 100.0
0.40-0.45 06 03.0 097.0
0.45-0.50 04 2.0 099.0
0.50-0.55 01 0.5 099.5
0.55-0.60 01 0.5 100.0
Tabla 2
Porcentaje de personas que cumplen el criterio de parada, RMSE, sesgo y coeficiente de fiabilidad segn el nmero de tems aplicados (15, 20, 25 o 30) y el control
sobre la tasa mxima de exposicin, en la muestra total de sujetos simulados
Sin control de la tasa mxima de exposicin Tasa mxima: 40% Tasa mxima: 25 %
15 20 25 30 15 20 25 30 15 20 25 30
Porcentajes
65 87 91 93 66 88 92 94 52 83 91 93
RMSE
0.35 0.29 0.25 0.23 0.35 0.29 0.25 0.23 0.37 0.30 0.27 0.24
Sesgo
0.02 0.01 0.00 0.00 0.02 0.01 0.00 0.00 0.03 0.01 0.00 0.00
2^
r
0.89 0.92 0.94 0.94 0.89 0.92 0.93 0.94 0.88 0.91 0.93 0.94
variable independiente autoevaluacin de la conversacin, los (1998), con una tasa del 25%. Los resultados obtenidos no son del
niveles de rasgo medio fueron -1.23 (nada), -0.66 (sencillo), 0.25 todo satisfactorios, pues el porcentaje de tems infrautilizados si-
(con esfuerzo), 1.01 (bien) y 1.76 (bilinge). El tamao del efec- gue siendo muy alto. Garca Morn y Revuelta (2003) han com-
to fue 0.53. probado que un mtodo que consigue a la vez controlar la tasa m-
En los cinco anlisis se observa que los niveles de rasgo medios xima (Sympson-Hetter) y reducir la infrautilizacin (progresivo,
se incrementan a medida que lo hacen los niveles de cada una de de Revuelta y Ponsoda, 1998) resulta mejor que el descrito en es-
las variables independientes. Todas las comparaciones mltiples tas pginas. El nuevo mtodo se ha probado adems en condicio-
post hoc (estadstico DHS de Tukey) resultaron significativas nes en las que hay control de contenidos. Es decir, la eleccin de
(p<0.05). En los valores de los tamaos del efecto (2) puede ob- tems se hace de forma tal que cada test administrado presenta un
servarse un mayor poder predictivo de las autoevaluaciones del ni- nmero similar de tems de cada rea de contenidos.
vel de ingls que de las variables relacionadas con la formacin en La principal ventaja de los TAIs es su eficiencia: consiguen
el idioma. medidas precisas con muchos menos tems que los tests tradicio-
Adicionalmente se puso a prueba mediante AMOS (versin nales. Nuestro TAI mide con una precisin aceptable con solo 20
4.01) un modelo estructural para obtener la capacidad predictiva tems a ms del 80% de nuestros sujetos simulados. En los casos
de las estimaciones de rasgo con relacin a una variable latente de de niveles de ingls extremos, en especial los muy bajos, necesi-
nivel informado de ingls, donde tuvieran saturaciones positivas tamos ms tems para alcanzar la precisin deseada. La precisin
las 5 variables evaluadas en el cuestionario. Algunas medidas de obtenida ha resultado similar tanto si se controla la tasa mxima
ajuste del modelo fueron: 2/gl= 4.599, AGFI = 0.992, RMSEA = como si no.
0.037. Las estimaciones de los pesos estandarizados se recogen en Se han realizado unos primeros estudios de validez y hemos
la figura 2. Puede comprobarse que la correlacin entre las esti- comprobado que los tems del banco se relacionan como caba es-
maciones de nivel de ingls y el factor latente de nivel informado perar con las respuestas a un cuestionario en el que se preguntaba
de ingls es 0.81. por el tipo de formacin recibida para el aprendizaje del ingls. La
correlacin entre el rasgo latente nivel informado de ingls, obte-
Conclusiones nido a partir de las respuestas al cuestionario, y los niveles de ras-
go estimado es de 0.81. Es evidente, no obstante, que hay que ha-
Las pginas precedentes detallan los pasos realizados para la cer ms estudios de validacin.
obtencin de un TAI de ingls escrito: la elaboracin del banco, el Wainer (2000) muestra el crecimiento exponencial que ha teni-
diseo de anclaje, el ajuste y calibracin del banco, y las caracte- do el nmero de TAIs administrado durante la ltima dcada, y sus
rsticas del programa que estima el nivel de ingls y selecciona los repercusiones econmicas, sociales y cientficas. Una reflexin in-
tems. teresante del trabajo es que precisamente los TAIs se estn aplican-
Los primeros TAIs operativos pusieron de manifiesto la nece- do en programas de evaluacin en los que no son necesariamente
sidad de mecanismos de control de la exposicin; pues si no, mu- la mejor opcin. En nuestro pas, sin embargo, el inters por los
chos tems muestran sobreexposicin (son presentados a un por- TAIs, que sepamos, no termina de salir de los recintos universita-
centaje inadmisiblemente alto de sujetos) o infrautilizacin (no se rios (Rojas, 2001). En este sentido, nuestro TAI es una novedad. En
presentan casi nunca o nunca, reduciendo en la prctica inadmisi- colaboracin con el Instituto de Ingeniera del Conocimiento de la
blemente el tamao del banco). El TAI propuesto ha incorporado Universidad Autnoma de Madrid (Ponsoda, Olea, Abad, Aguado,
el procedimiento de control restrictivo de Revuelta y Ponsoda Lpez y Daz, 2003), nuestro test, con el nombre eCat, ha sido
Enseanza e
media
0,39
Formacin e
0,35
Nivel informado 0,82

estimada de ingls Lectura e
0,81
0,86
Escritura e
e 0,89
Conversacin e
Figura 2. Modelo estructural para obtener la regresin del nivel informado de ingls sobre la estimada
puesto a disposicin de las empresas para la evaluacin eficiente Agradecimientos

del ingls escrito. El test eCaT puede administrarse por internet o
instalarse en la red local (http://www.iic.uam.es/flash/eCatiic- Este trabajo ha sido financiado por los proyectos DGES
flash.html). BSO2002-1485 y DGES BSO2000-0058.
Referencias
Abad, F.J., Olea, J., Ponsoda, V., Ximnez, M.C. y Mazuela, P. Efecto de McDonald, R.P. (1999). Test theory: a unified treatment. Mahwah, NJ:
las omisiones en la calibracin de un test adaptativo informatizado. LEA.
Metodologa de las Ciencias del Comportamiento. Enviado. Mislevy, R.J. y Bock, R.D. (1990). BILOG 3: Item analysis and test sco-
Chang, H.H. y Ying, Z. (1999). a-stratified multistage computerized adap- ring with binary logistic models [computer program]. Chicago: Scien-
tive testing. Applied Psychological Measurement, 20, 213-229. tific Software, Inc.
Dodd, B.G. (1990). The effect of item selection procedures and stepsize on Muthen, B. (1984). A general structural equation model with dichotomous
computerized adaptive attitude measurement using the rating scale mo- ordered categorical and continuos latent variables indicators. Psycho-
del. Applied Pychological Measurement, 14, 355-366. metrika, 49, 115-132.
Drasgow, F. y Olson-Buchanan, J.B. (1999). Innovations in computerized Olea, J., Abad, F.J. y Ponsoda, V. (2002). Elaboracin de un banco de
assessment. Mahwah, NJ: Erlbaum. tems, prediccin de la dificultad y diseo de anclaje. Metodologa de
Fraser, C. (1988). NOHARM: A computer program for fitting both unidi- las Ciencias del Comportamiento, Vol. especial, 427-430.
mensional and multidimensional normal ogive models of latent trait Olea, J. y Ponsoda, V. (2003). Tests adaptativos informatizados. Madrid:
theory. NSW: University of New England. UNED, Coleccin Aula Abierta.
Garca Morn, J.R. y Revuelta, J. (2003). Mtodos para controlar la sobre- Ponsoda, V., Olea, J., Abad, F.J., Aguado, D., Lpez, F. y Daz, J.
exposicin e infrautilizacin de tems en tests adaptativos informatiza- (2003). eCat. Computerized Adaptive Test para la evaluacin del ni-
dos. VIII Congreso de Metodologa de las Ciencias Sociales y de la Sa- vel de conocimientos de ingls escrito. VIII Congreso de Metodolo-
lud. 16 a 19 de septiembre de 2003. Valencia. ga de las ciencias Sociales y de la Salud. 16 a 19 de septiembre. Va-
Hanson, B.A. y Beguin, A.A. (2002). Obtaining a common scale for IRT lencia.
item parameters using separate versus concurrent estimation in the Ramsay, J.O. (1991). Kernel smoothing approaches to nonparametric item
common-item equating design. Applied Psychological Measurement, characteristic curve estimation. Psychometrika, 56, 611-630.
26(1), 3-24. Ramsay, J.O. (2000). TestGraf 98: A program for the graphical analysis of
Hornke, L.F. (2000). Item response times in computerized adaptive testing. multiple choice test and questionnaire data. Descargable en la siguien-
Psicolgica, 21, 175-189. te direccin: http://www.psych.mcgill.ca/faculty/ramsay.html.
Lord, F.M. (1970). Some test theory for tailored testing. En W.H. Holtz- Revuelta, J. y Ponsoda, V. (1998). A comparison of item exposure control
man (Ed.), Computer assisted instruction, testing and guidance. (pp. methods in computerized adaptive testing. Journal of Educational Me-
139-183). New York: Harper and Row. asurement , 35(4), 311-327.
Lord, F.M. (1980). Applications of Item Response Theory to practical tes- Rojas, A. (2001). Pasado, presente y futuro de los tests adaptativos infor-
ting problems. Hillsdale, NJ: LEA. matizados: entrevista con Issac Bejar. Psicothema, 13, 685-690.
McBride, J.R. y Martin, J.T. (1983). Reliability and validity of adaptive Wainer, H. (2000). Computer Adaptive Tests: Whither and whence. Psico-
ability tests in a military setting. En D.J. Weiss (Ed.), New horizons in lgica, 21, 121-133.
testing: Latent trait test theory and computerized adaptive testing (pp. Weiss, D.J. (1974). Strategies of adaptive ability measurement. Research
223-236). New York: Academic Press. report 74-5. Dep. Of Psychology, University of Minnesota.

Modelos de Naclaje y Bancos de Items

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Modelos de Naclaje y Bancos de Items

Transféré par

Droits d'auteur :

Formats disponibles

Psicothema 2004. Vol. 16, n 3, pp.

519-525 ISSN 0214 - 9915 CODEN PSOTEG

Un test adaptativo informatizado para evaluar el conocimiento

Julio Olea, Francisco Jos Abad, Vicente Ponsoda y M. Carmen Ximnez

110 2 Propiedades psicomtricas

60 tribucin normal discretizada en 17 niveles de habilidad entre -4 y

Si la aplicacin de los tems fuera aleatoria el valor esperado para

0.00-0.05 73 37.1 037.1 70 35.5 035.5 54 27.4 027.4

Nivel informado 0,82

puesto a disposicin de las empresas para la evaluacin eficiente Agradecimientos

Vous aimerez peut-être aussi