Las Pruebas ENLACE

ANEXO
Las pruebas ENLACE

para educacin bsica
Una evaluacin para el Instituto Nacional
para la Evaluacin de la Educacin
Las pruebas ENLACE
para educacin bsica
Una evaluacin para el Instituto Nacional
para la Evaluacin de la Educacin
Felipe Martnez Rizo

Coordinador
Luis ngel Contreras Nio Eugenio Gonzlez

Jess M. Jornet Meli Ma. Regina Martnez Casas
J. Felipe Martnez Fernndez Francisco E. Reyes Jimnez
Lucrecia Santibez Guillermo Solano Flores
Marianne Sandy Taut Agustn Tristn Lpez
Universidad Autnoma de Aguascalientes
ANEXO
Cuaderno de investigacin
40
Las pruebas ENLACE para educacin bsica
Una evaluacin para el Instituto Nacional para la Evaluacin de la Educacin
Primera edicin, 2015

ISBN : En trmite
Coordinador
Felipe Martnez Rizo
Luis ngel Contreras Nio, Eugenio Gonzlez,

Jess M. Jornet Meli, Ma. Regina Martnez Casas,
J. Felipe Martnez Fernndez, Francisco E. Reyes Jimnez,
Lucrecia Santibez, Guillermo Solano Flores,
Marianne Sandy Taut, Agustn Tristn Lpez
D.R. Instituto Nacional para la Evaluacin de la Educacin

Barranca del Muerto 341, Col. San Jos Insurgentes,
Del. Benito Jurez; C.P. 03900 Mxico, D.F.
Editora
Mara Norma Ordua Chvez
Correccin de estilo
Hugo Soto de la Vega
Formacin
Martha Alfaro Aguilar
Impreso y hecho en Mxico.

Distribucin gratuita. Prohibida su venta.
Consulte el catlogo de publicaciones en lnea: www.inee.edu.mx
La elaboracin de esta publicacin estuvo a cargo de la Direccin General

de Difusin y Fomento de la Cultura de la Evaluacin. El contenido,
la presentacin, as como la disposicin en conjunto y de cada pgina
de esta obra son propiedad del INEE . Se autoriza su reproduccin parcial
o total por cualquier sistema mecnico o electrnico para fines
no comerciales y citando la fuente de la siguiente manera:
Martnez Rizo, F. (Coord.) (2015). Las pruebas ENLACE para educacin

bsica. Una evaluacin para el Instituto Nacional para la Evaluacin
de la Educacin. Mxico: INEE .
ndice
Presentacin ................................................................................................................... 7
Introduccin ................................................................................................................. 11
Alineacin a los referentes .......................................................................................... 22

Aspectos psicomtricos ............................................................................................... 57
Atencin a la diversidad cultural ................................................................................ 79
Aplicaciones ................................................................................................................. 95
Usos y consecuencias ................................................................................................. 118
Conclusiones y recomendaciones ............................................................................. 164
Referencias bibliogrficas.......................................................................................... 168
Anexos
Criterios y subcriterios de evaluacin ............................................................................................... 173
Microanlisis de reactivos de Espaol .............................................................................................. 181
Microanlisis de reactivos de Matemticas....................................................................................... 191
5
DIRECTORIO
JUNTA DE GOBIERNO
Sylvia Irene Schmelkes del Valle

CONSEJERA PRESIDENTA
Eduardo Backhoff Escudero

CONSEJERO
Gilberto Ramn Guevara Niebla

CONSEJERO
Margarita Mara Zorrilla Fierro

CONSEJERA
Teresa Bracho Gonzlez

CONSEJERA
Presentacin
En diciembre de 2009 la Universidad Autnoma de Aguascalientes (UAA ) y el Instituto

Nacional para la Evaluacin de la Educacin (INEE) firmaron un convenio que establece las bases
para que ambas instituciones se apoyen para el cumplimiento de sus objetivos, buscando el
mejoramiento de la calidad de la educacin en Mxico, incluyendo actividades de investigacin,
evaluacin y difusin de resultados. En ese marco, el INEE encomend a la UA A la realizacin
del Estudio de validacin de las pruebas ENLACE y EXCALE de educacin bsica, para lo cual el
1 de octubre de 2013 se firm un Anexo de Ejecucin del convenio mencionado.
Dicho Anexo de Ejecucin, con base en el cual se lleva a cabo el trabajo al que se refiere este
informe, precisa que el estudio de validacin de las pruebas ENLACE y E XCALE de educacin
bsica analizar varios aspectos de la calidad de dichas pruebas, con base en la documenta-
cin que sobre su diseo, aplicacin, resultados y la utilizacin y consecuencias de los mismos
aporten la SEP y el INEE y, en la medida en que sea necesario, en informacin adicional propor-
cionada por personas de la SEP, el INEE y los sistemas educativos de las entidades federativas
del pas, en relacin con aspectos de los que no haya elementos suficientes en la informacin
documental que se recabe.
El estudio incluir recomendaciones que tengan en cuenta las mejores prcticas internaciona-
les... de manera que el desarrollo del sistema nacional de evaluacin de Mxico, en lo relativo a
educacin bsica, incluya evaluaciones de aprendizajes en gran escala que, por la calidad de su
diseo y aplicacin, as como por el uso que se haga de sus resultados, contribuyan en la mayor
medida posible al propsito de mejorar la calidad de la educacin mexicana.
Se precisa que el Estudio deber comprender al menos cinco aspectos:
1. La alineacin al currculo de la educacin bsica de Mxico, revisando el grado en que

las pruebas atienden adecuadamente y segn la naturaleza de una evaluacin en gran
escala, los campos formativos, las asignaturas y los niveles de demanda cognitiva consi-
derados en los planes y programas de estudio de la educacin bsica nacional.
2. Los aspectos tcnicos de las pruebas, como la calidad de los reactivos que las integran,
la de las versiones de las pruebas, las escalas y modelos psicomtricos utilizados, las
tcnicas de equiparacin, entre otros.
3. La forma en que las pruebas atienden las diferencias culturales y lingsticas que hay
entre los estudiantes de un sistema educativo de grandes dimensiones, en un pas que
se define como multicultural, y las implicaciones de lo anterior.
4. La forma en que se llevan a cabo las aplicaciones de las pruebas, tanto censales como
muestrales, y las implicaciones que tienen para la calidad de los resultados.
5. La forma en que se difunden los resultados de las pruebas, los anlisis de factores aso-
ciados y el uso que se hace de dichos resultados, as como las consecuencias que ha
trado consigo su utilizacin en el sistema educativo.
7
El trabajo comprendera cuatro etapas, que terminaran en noviembre de 2013, y en marzo, julio
y septiembre de 2014, respectivamente.
El Anexo de Ejecucin sealaba tambin que la UAA debera proponer al INEE a diez especialis-
tas, mexicanos y extranjeros, formando cinco parejas, cada una a cargo del anlisis de uno de
los aspectos del estudio, y precisaba el perfil que deberan tener los propuestos. La Universidad
propuso al Instituto a los autores de este trabajo y el INEE comunic a la UAA su aprobacin
de las personas propuestas. En el informe entregado en noviembre de 2013 se puede ver el
programa detallado de trabajo y, en anexo, las hojas de vida de los participantes.
Los cinco apartados principales de este documento presentan el anlisis hecho por los especia-
listas en relacin con los criterios anteriores. El anlisis se hizo entre diciembre de 2013 y marzo
de 2014, e implic las siguientes actividades:
En diciembre de 2013 y enero de 2014 cada par de especialistas trabaj revisando la

documentacin sobre ENLACE proporcionada por la Direccin General de Evaluacin de
Polticas Educativas de la SEP, cuyo detalle se present en el primer informe entregado
el 30 de noviembre de 2013.
En paralelo, personal de la UAA transcribi las entrevistas que se hicieron en la etapa
anterior a funcionarios de las secretaras de educacin de diez estados de la repblica
y el Distrito Federal, as como a los de las instancias de la SEP y el INEE a cargo de las
pruebas ENLACE y E XCALE .
De diciembre 2013 a marzo 2014 el personal de la UAA envi tambin cuestionarios a
los responsables de educacin bsica, y los de planeacin y evaluacin, de todas las en-
tidades federativas y sistematiz sus respuestas. Se revisaron cinco diarios de circulacin
nacional y se rescataron notas sobre la difusin de resultados de ENLACE .
El 7 de febrero los cinco subgrupos de especialistas enviaron al coordinador una primera
versin del anlisis de ENLACE basado en de los criterios que les correspondieron.
El coordinador conjunt los avances recibidos en un documento integrado, que se envi
en archivo magntico al grupo el 12 de febrero.
La primera versin del documento integrado se discuti en una reunin presencial de
todos los miembros del grupo los das 14 y 15 de febrero. En esta ocasin todos los es-
pecialistas pudieron dar su opinin sobre cualquier aspecto considerado en la validacin
de las pruebas ENLACE de educacin bsica. Asistieron a la reunin la Lic. Ana Mara
Aceves y el Lic. Carlos Goi, de la DGEP de la SEP, con el propsito de aclarar las dudas
que les plantearan los miembros del grupo. Se acord que los especialistas mandaran al
coordinador listas con solicitudes de informacin adicional que se haran llegar a la DGEP.
El 24 de febrero el coordinador envi al INEE la lista de solicitudes de informacin, que al
da siguiente se hizo llegar a la DGEP.
El 28 de febrero la DGEP hizo llegar al INEE los elementos de los que dispona de la infor-
macin que se le solicit.
Del 17 de febrero al 15 de marzo los especialistas prepararon una segunda versin del
anlisis de ENLACE respecto a los criterios que corresponden a cada subgrupo, y el coor-
dinador prepar la presentacin y la introduccin de este informe.
El 16 de marzo los cinco subgrupos hicieron llegar al coordinador sus respectivos productos.
Del 17 al 19 de marzo, con los elementos recibidos y los preparados por l mismo, el
coordinador elabor una versin integrada del segundo informe, que envi a los espe-
cialistas en archivo magntico el mismo 19 de marzo.
8
El 22 de marzo tuvo lugar una reunin virtual en la que todos los especialistas hicieron
observaciones a la versin integrada recibida.
El coordinador incorpor las observaciones hechas en la reunin virtual y las que hicieron
llegar los miembros del grupo y con ello integr esta versin del segundo informe, que
se envi al INEE el 31 de marzo de 2014.
Debe subrayarse que el informe entregado en marzo de 2014 no tena el carcter de versin final
del anlisis de las pruebas ENLACE encomendado al grupo de autores que lo suscribimos, por
dos tipos de razones:
La brevedad de los tiempos disponibles para el trabajo, acotados por los momentos en
que se recibi la informacin documental de que se dispuso y la informacin adicional
recabada por el personal de la UAA .
Y porque la formulacin de las consideraciones que haramos al INEE en cuanto al futuro
que creemos deseable para la evaluacin de aprendizajes deberan tener en cuenta el
anlisis de las pruebas ENLACE , pero tambin el de las de E XCALE, que seran objeto de
la atencin del grupo en la etapa siguiente del proyecto, de abril a junio de 2014.
En consecuencia, al final del proyecto los informes previos se podran modificar para incluir ele-
mentos que complementaran los de los informes entregados al fin de cada etapa, enriqueciendo
o matizando algunos puntos en particular. Por otra parte, los cambios que el INEE y la UAA acor-
daron hacer al convenio, para incluir entre las pruebas a analizar las de ENLACE para educacin
media superior, hicieron que las etapas se extendieran a cinco, y la entrega de los productos
finales se fijara para el 19 de diciembre de 2014.
Por todo lo anterior, esta nueva versin del informe sobre ENLACE que se entrega en diciembre
de 2014, junto con el informe final, retoma el informe de marzo con ligeras modificaciones,
como se prevea. Las ms importantes se refieren a los apartados I y II, como resultado del ajuste
que se hizo de los criterios y subcriterios correspondientes, por lo que en esta versin algunos
puntos de dichos apartados se han reubicado.
Reiteramos que nuestros anlisis y valoraciones se refieren siempre a nuestro objeto de estudio
en este informe las pruebas ENLACE y de ninguna manera a las numerosas personas involucra-
das en su desarrollo, su aplicacin y el procesamiento de resultados. Adems, el trabajo que se nos
encomend tiene un propsito claro de carcter tcnico, y no uno de rendicin de cuentas, para
el que sera indispensable otro enfoque, ya que las deficiencias que se hayan podido identificar
pudieron deberse en buena medida a las dimensiones de los operativos, as como a los tiempos y
otros condicionantes externos, pese a las intenciones y los esfuerzos de las personas responsables.
Por ltimo sealamos que este informe y los dems del proyecto son producto del trabajo colec-
tivo del grupo, si bien cada par de especialistas tuvo una participacin principal en el apartado
que le corresponda. Los momentos de discusin colectiva permitieron enriquecer las aportacio-
nes de cada persona con la visin del resto, lo que llev a un grado de consenso considerable,
aunque no absoluto.
Felipe Martnez Rizo

Aguascalientes, diciembre de 2014
Presentacin 9
Introduccin
Un paso inicial obligado para emprender el trabajo que se encomend al grupo de

autores de este informe, fue precisar la nocin de validacin, que remite de inmediato a las
de confiabilidad y validez. stas son las cualidades bsicas de toda buena medicin, pero se
trata de dos nociones muy complejas, que han evolucionado a lo largo de un siglo y que an
hoy diferentes especialistas entienden de distinta manera, por lo que consideramos necesario
explicitar nuestra propia comprensin y la forma en que las aplicaremos en nuestro trabajo.
L A VALIDEZ
Aunque hay autores que cuestionan la utilidad de la nocin, debido a la diversidad de formas
de entenderla, la opinin que compartimos est de acuerdo en que la cualidad fundamental de
una medicin es, precisamente, la validez que, como se ver en seguida, supone la confiabili-
dad, sin reducirse a ella.
Hasta los aos cincuenta del siglo XX el concepto de validez se enfocaba a la prediccin de un
criterio particular, como muestra la definicin de Guilford: en un sentido general, una prueba
es vlida para cualquier cosa con la que se correlaciona (Messik, 1989: 18).
En 1966 la American Psychological Association (APA ) y la American Educational Research Asso-

ciation (AERA ) publicaron la primera versin de sus Standards for Educational and Psychological
Tests, en la que se distinguan tres tipos de validez: de contenido, de criterio (concurrente o
predictiva), y de constructo.
Un lustro ms tarde uno de los grandes autores del campo define la validacin como el proceso
de examinar la exactitud de una prediccin especfica o una inferencia hecha a partir de la pun-
tuacin de una prueba o de los resultados de un instrumentos de medicin, como cuestionarios,
observaciones y calificaciones de desempeo (Cronbach, 1971: 433).
Este autor sealaba que el trmino validacin de una prueba refleja una comprensin imprecisa
del concepto. El investigador no valida una prueba, sino la interpretacin de datos derivados de
un procedimiento especfico. Un instrumento puede usarse de diferentes maneras. Una prueba
de lectura, por ejemplo, puede ser usada para seleccionar a los aspirantes de cierta carrera pro-
fesional, para planear instruccin remedial en lectura, para medir la efectividad de un programa
de enseanza, entre otras posibilidades. Dado que cada uso se basa en una interpretacin dife-
rente, la evidencia que justifica una utilizacin puede tener poca relevancia para otra. Y al tener
cada interpretacin su propio grado de validez no se puede llegar a la simple conclusin de que
una determinada prueba es vlida sin ms.
En las dcadas de 1970 y 1980 las definiciones de validez se centraron en los tipos menciona-
dos: de contenido, criterio (predictiva y concurrente) y constructo, con preponderancia creciente
11
del ltimo. Luego el foco de la validez se centr en el significado o interpretacin de los puntajes
obtenidos con un instrumento de medicin, pero se mantuvo el nfasis en la validez de construc-
to, como la esencia de una concepcin unitaria de validacin, que se resume en la conclusin de
Cronbach (1988): toda validacin es una sola.
A fines de la dcada de 1980, segn Messick, la validez de contenido se valora cuando se

analiza qu tan bien un instrumento muestrea el contenido, situaciones o asignaturas sobre las
que se debern sacar conclusiones. Se basa en el juicio profesional acerca de la relevancia del
contenido que incluye una prueba para medir un dominio de inters y si las tareas que solicita
la prueba representan adecuadamente dicho dominio.
La validez de criterio se evala al comparar los puntajes de la prueba con una o ms variables
externas llamadas criterio, que pueden ser medidas al mismo tiempo o posteriormente que
se considera proveen una medicin diferente de las conductas o caractersticas en cuestin.
La validez de constructo es evaluada al indagar el grado en que un instrumento mide un cons-

tructo o variable compleja latente. Se basa en la integracin de toda evidencia que apoye
la interpretacin o significado de las puntuaciones, que no son consideradas equivalentes al
constructo que se mide, sino que son posibles indicadores de una variable latente.
La validez de constructo subsume la de contenido relevancia y representacin de un dominio y

la de criterio, porque la informacin que se obtiene mediante ellas contribuye a la interpretacin
de los puntajes. Por tanto, la validez de constructo incluye la mayora de las evidencias de validez.
Una evidencia particular se refiere a la validez de escala que tiene dos vertientes:
Por una parte, la eleccin de la escala especial para cada proyecto, que permite reportar en
ella los resultados globales y parciales, sin utilizar porcentajes o notas 0-10. En la validez de
escala, los conceptos de validez de la prueba (contenido, criterio y constructo) se extienden a
la propia escala de manera que tambin se asocie con el constructo, permitiendo representar
diferencias de desempeo de las personas y los tems.
Por otra parte, la validez de escala (validez prctica o de utilidad de la escala), que se refiere
a las evidencias que se aportan para demostrar que el instrumento cuenta con tems en toda
la gama de dificultades, y preferentemente con una distribucin uniforme, lo cual proporciona
una garanta de que no hay sesgo a priori (una prueba fcil o una prueba difcil desde el diseo);
que se cubre toda la escala de medidas para todos los sustentantes desde el de menor hasta el
de mayor competencia; y que el diseo no presenta saltos y apilamientos de reactivos, redu-
ciendo la validez de la medida en algunos de los puntos de la escala. (Bond y Fox, 2001; Dawis,
1987; Johnson, 2004; Linacre, 2006; Tristn y Vidal, 2007; Wright y Stone, 2004)
Aunque hay diferentes fuentes y mezclas de evidencias que soportan las inferencias realizadas
a partir de las puntuaciones, la validez es un concepto unitario que siempre refiere al grado en
que la evidencia emprica y el fundamento terico apoyan lo adecuado de las interpretaciones
y acciones realizadas a partir de las puntuaciones de un instrumento (Messick, 1989: 13).
Adems la validez es cuestin de grado, no de todo o nada. Con el tiempo la evidencia de

validez se puede fortalecer o debilitar por nuevos hallazgos, y las proyecciones de las posibles
12
consecuencias sociales de las evaluaciones se transforman a partir de la evidencia sobre con-
secuencias reales en la actualidad y las cambiantes condiciones sociales. Entonces, inevitable-
mente, la validez es una propiedad en evolucin, y la validacin un proceso continuo.
En la versin ms reciente de los Standards for Educational and Psychological Testing la validez se
define como el grado en que evidencia y teora respaldan las interpretaciones de los puntajes de
una prueba y los usos que se pretende hacer de ellos (AERA-APA- NCME, 1999: 9). Esta definicin
coincide con la visin de Messick (1989) y la ms reciente de Kane (2006), en el sentido de que el
proceso de validacin debe enfocarse a la interpretacin y los usos de las puntuaciones obtenidas
mediante un instrumento de medicin.
Kane, uno de los principales tericos del tema, seala que validar una interpretacin o uso de
los puntajes de una prueba es evaluar la plausibilidad de las afirmaciones que se harn a partir
de esos puntajes. Por lo tanto, la validacin requiere una clara declaracin de los propsitos
para los que se emplearn las interpretaciones y usos de los resultados (2013: 1).
Este mismo autor seala que el enfoque de validacin basada en evidencias se apoya en ocho
ideas, de las cuales la primera es que lo que se valida no es una prueba en s misma o sus pun-
tajes sino la interpretacin de stos y el uso que se haga de ellos. En este documento conviene
destacar otras dos de esas ideas: que las afirmaciones ms ambiciosas requieren de mayores
evidencias que las soporten que las menos ambiciosas; y que las afirmaciones ms ambiciosas
como las inferencias sobre constructos o las causalessuelen ser ms tiles que las afirmacio-
nes menos ambiciosas, pero son ms difciles de validar.
Las conceptualizaciones actuales de validez incluyen las consecuencias sociales e individuales

deseadas y no previstas que trae consigo el uso de una prueba (Kane, 2013; Moss, 2008;
Sireci, 2013). La validez de consecuencias apareci en los estndares AERA -APA - NCME de
1999, pero ya Messick consideraba irnico que los estudios de validez pusieran poca atencin a
los usos y consecuencias de los resultados de pruebas, ya que la validez al inicio se conceba en
trminos funcionales: qu tan bien la prueba hace la tarea para la que fue diseada.
Una dimensin ms de la nocin es la que denota la expresin validez cultural, definida como
el grado en que el diseo, el proceso de desarrollo y el contenido de una prueba toman en
consideracin la forma en que factores de naturaleza cultural, lingstica y socioeconmica dis-
tintos de los constructos de inters influyen en la manera en que se interpreta el contenido de
los tems y la forma en que se responden (cfr. Basterra, Trumbull y Solano-Flores, 2011). Messick
apuntaba ya que el proceso que siguen los sujetos al responder una prueba es un aspecto de
la validez, distinto tanto de la validez de contenido como de la que tiene que ver con la estruc-
tura interna y externa del test o con las consecuencias de su uso. Anticipaba as una dimensin
a la que solo en tiempos recientes se presta atencin, si bien esta es creciente.
L A CONFIABILIDAD
El concepto de confiabilidad fue introducido por el psiclogo britnico Charles Spearman, quien
lo defini como el coeficiente de correlacin entre una mitad y la otra de varias mediciones
de la misma cosa (Stanley, 1971: 370).
Introduccin 13
Thorndike comenzaba definiendo la confiabilidad a partir de su opuesto, diciendo:
Cada vez que medimos algo... esa medicin tiene cierta cantidad de error aleatorio, grande
o pequeo, pero omnipresente... las discrepancias pueden expresarse en millas o en millo-
nsimas de milmetro, pero aparecern siempre, si las unidades son suficientemente finas
en relacin con la precisin de las medidas. El que conjuntos repetidos de medidas nunca
se dupliquen exactamente es lo que se quiere decir con la expresin no confiabilidad.
Al mismo tiempo, medidas repetidas de una serie de objetos o individuos mostrarn, por
lo general, cierta consistencia... lo opuesto a la variacin a la que nos acabamos de referir,
y que designaremos como confiabilidad (Thorndike, 1951, p. 560).
Thorndike permite distinguir dos cualidades relacionadas pero no idnticas de una medicin, su
precisin y su consistencia, al sealar que se puede calcular el tamao de los errores de medi-
cin mediante la desviacin estndar de la distribucin de los resultadosel error estndar de
la medicin o estimar la consistencia entre dos conjuntos de puntuaciones, segn su correla-
cin, mediante un coeficiente de confiabilidad.
A partir de trabajos de Kelley desde la dcada de 1920, Thorndike explica la relacin entre
coeficiente de confiabilidad y error de medicin, que ayuda a evitar interpretaciones simplistas
del primero, ya que coeficientes de confiabilidad altos, de 0.8 y 0.9, corresponden a errores de
medicin de 0.45 y 0.32. Con un nmero considerable de casos y diferencias pequeas de los
puntajes de cada uno, lo anterior implica que habr importantes traslapes entre los interva-
los de confianza, haciendo poco claros los ordenamientos de los resultados.
Stanley presenta frmulas para el clculo de la confiabilidad en situaciones particulares, mos-

trando las ventajas y desventajas de cada una as como la equivalencia de algunas, incluyendo
la ms conocida, el coeficiente alfa, introducido en 1951 por Cronbach. (Stanley, 1971)
Dos dcadas ms tarde Feldt y Brennan presentan 12 coeficientes de consistencia interna para
casos particulares (subdivisin de una prueba en dos, tres o ms partes), y presentan la Teora
de la Generalizabilidad (TG), basada en trabajos de Cronbach y otros desde la dcada de 1960
(1989: 115). La TG , para ellos:
...puede ser vista como una extensin y liberalizacin de la teora clsica, que se logra
bsicamente gracias a la aplicacin del anlisis de varianza a los datos de la medicin.
En la teora clsica el error de medicin se ve como una entidad unitaria, global, aunque
se reconoce que se deriva de una combinacin de fuentes. En contraste, los modelos y
mtodos de la teora de la generalizabilidad se interesan por los errores derivados de esas
mltiples fuentes como entidades separadas... (1989: 127-128)
Recientemente Haertel seala que los principios clsicos y de la TG siguen siendo vlidos, y se-
ala que las teoras o modelos de respuesta al tem constituyen una forma distinta de abordar
la confiabilidad. (2006: 99-103)
En otro trabajo reciente, Brennan seala que, al igual que ocurre con la validez, la confiabilidad
tampoco es una propiedad que se pueda predicar de una prueba u otro instrumento cualquiera
de obtencin de informacin. La consistencia con la que se define la nocin se refiere a los datos
que se obtienen, los puntajes de los alumnos que sustentan una prueba o las respuestas que se
dan a una encuesta.
14
Brennan considera las implicaciones que tiene para la comprensin de la nocin de confia-
bilidad la nocin de rplica, en el sentido de un proceso de medicin que duplique lo ms
exactamente que sea posible las condiciones de una aplicacin previa. Las palabras en cursiva
de la frase anterior parten de la idea de que es imposible conseguir una rplica perfecta, ya
que una nueva aplicacin implicar inevitablemente cambio en al menos algunos aspectos
del proceso. Esta idea es similar a la que forma el centro de la Teora de la Generalizabilidad,
la de que no hay un solo tipo de error en el resultado de cualquier medicin sino varios, que
se pueden derivar de mltiples fuentes: el instrumento, desde luego, pero tambin las oca-
siones en que se hace una aplicacin, incluyendo la original y sus rplicas, los aplicadores o
calificadores, entre otras. Por ello Brennan sostiene que la nocin de rplica es fundamental
para la definicin de confiabilidad, que l expresa como sigue: la confiabilidad es una medida
del grado de consistencia de los puntajes de los sustentantes en las rplicas del procedimiento
de medicin (Brennan, 2001: 296). Es el procedimiento completo de medicin, y no solo el
instrumento, lo que puede afectar la consistencia de los resultados. Brennan concluye:
En mi opinin no puede haber respuestas significativas a las preguntas sobre la confiabi-

lidad sin una consideracin expresa de la naturaleza de las rplicas (planeadas y efectivas)
de un procedimiento de medicin. Por lo tanto un marco coherente para conceptualizar,
calcular e interpretar la confiabilidad requiere que se responda la pregunta de qu consti-
tuye una rplica de un procedimiento de medicin. (Brennan, 2001: 313)
RELACIN ENTRE VALIDEZ Y CONFIABILIDAD
Se acepta generalmente que puede haber confiabilidad sin validez, pero no al contrario: la ausen-
cia de confiabilidad impide que haya validez. Para comprender esta idea conviene remitirse a la
definicin ms sencilla de validez, que dice que sta consiste en medir realmente lo que se quiere.
Puede parecer ilgico que alguien pueda medir algo que no quiere, pero si se reflexiona sobre
la complejidad de muchas variables que se estudian en ciencias humanas, as como en su ca-
rcter no evidente sino latente (constructo), se podr estar de acuerdo en que las definiciones
operacionales de esas variables, y los indicadores en que se concretan, no siempre reflejan
adecuadamente la realidad subyacente, por lo que la informacin que se podr obtener con un
instrumento desarrollado a partir de tales operacionalizaciones medir en realidad algo distinto
de lo que el investigador pretenda medir. Esa medicin podr ser consistente, o sea que podr
tener confiabilidad, pero carecer de validez.
Ahora bien: la falta de confiabilidad de una medicin indica que la proporcin de error o de ruido
en la informacin obtenida es demasiado grande. La ausencia de confiabilidad indica que no se
est midiendo en realidad ninguna variable, ni la que se pretenda ni otra, ya que los resultados
se deben al azar tanto o ms que a cualquier factor determinado.
Para decirlo de otra forma: la falta de confiabilidad implica tambin ausencia de validez. Por
ello una buena validacin no podr considerarse suficiente si no incluye un slido anlisis de
la confiabilidad.
Introduccin 15
LA VALIDACIN COMO CUIDADO INTEGRAL
DE LA CALIDAD DE UNA MEDICIN
El marco de referencia adoptado por el grupo se basa en las ideas sintetizadas en los prrafos an-
teriores, as como de un enfoque para la validacin que proponan hace casi dos dcadas Crooks,
Kane y Cohen:
La validez es la cualidad ms importante de una evaluacin educativa (assessment), pero

frecuentemente se descuida su valoracin. El enfoque paso-por-paso que se sugiere ofre-
ce una gua estructurada a quienes deban validar evaluaciones educativas. El proceso de
una evaluacin educativa se describe como una cadena de ocho etapas eslabonadas en-
tre s: administracin de la prueba, calificacin, agregacin de resultados, generalizacin,
extrapolacin, juicios de valor, decisiones e impacto. Valorar la validez del conjunto im-
plica considerar con cuidado las amenazas a la validez asociadas a cada eslabn. En una
forma que busca ser ilustrativa ms que exhaustiva se describen y ejemplifican algunas
de esas amenazas para cada eslabn. El modelo de la cadena sugiere que la validez del
conjunto se ve limitada por el eslabn ms dbil, y que los esfuerzos por hacer particular-
mente fuertes solo algunos eslabones pueden ser estriles e incluso dainos. Se muestra
tambin que el modelo de la cadena y la lista de amenazas pueden ser tiles al planear
una evaluacin educativa. (1996)
La tabla 1 sintetiza los pasos que implica el uso de una prueba para evaluar del aprendizaje,
desde el desarrollo del instrumento hasta la toma de decisiones con base en los resultados.
Los pasos incluyen los que mencionan Crooks, Kane y Cohen pero se aaden otros. Con las
adecuaciones necesarias, la serie de pasos se puede aplicar a cualquier proceso de obtencin
de informacin emprica mediante instrumentos estructurados. Se distinguen cinco etapas cada
una de las cuales comprende tres pasos particulares.
Tabla 1Pasos de una evaluacin de aprendizajes mediante pruebas
Etapas Pasos particulares

Precisin del propsito(s) de la evaluacin
Planeacin de la evaluacin Definicin de la poblacin objetivo y, en su caso, la muestra
Decisiones tcnicas: tipo de prueba, modelo psicomtrico...
Definicin de los dominios a evaluar
Diseo de los instrumentos Especificacin de esos dominios
Diseo de las pruebas: tems, escalas, niveles de logro...
Reproduccin de las pruebas
Recoleccin de la informacin Seleccin y capacitacin de aplicadores
Aplicacin misma
Calificacin de respuestas
Procesamiento de la informacin Agregacin de resultados
Generalizacin, extrapolacin
Juicios de valor
Usos de los resultados Decisiones
Impacto
Fuente: Elaboracin propia.
16
La nocin del eslabn ms dbil a la que alude el texto de Crooks, Kane y Cohen es importante:
basta con que un paso tenga fallas graves para que el resultado se vea comprometido, aunque
todos los dems pasos sean adecuados. Un error grave de impresin, irregularidades fuertes en
la aplicacin, problemas de logstica o fallas en la calibracin de un lector ptico pueden distor-
sionar los resultados de la aplicacin de una prueba bien diseada, que use un modelo psico-
mtrico muy slido, con un sofisticado muestreo y otras cualidades tcnicas. Lo mismo puede
decirse si se utiliza una clave de respuestas equivocada, o si se cometen errores importantes al
analizar los datos. Tambin se puede llegar a juicios de valor injustos con informacin correcta
y sta no basta para evitar la toma de decisiones que generen resultados contraproducentes o
produzcan daos considerables.
As pues, una validacin completa de evaluaciones como ENLACE y E XCALE no se puede reducir
a revisar la calidad de los instrumentos: debe incluir la aplicacin, el procesamiento de la infor-
macin y el uso de resultados, lo que para hacerse a fondo implica tiempos amplios y el trabajo
de numerosos investigadores.
LOS CRITERIOS UTILIZADOS EN EL TRABAJO
En un contexto de tiempo y recursos limitados el trabajo no puede ser exhaustivo, pero s pre-
tendemos ofrecer un conjunto de juicios suficientemente sustentados en la informacin docu-
mental a que tuvimos acceso y en la que obtuvimos mediante entrevistas con personal a cargo
de las pruebas y con funcionarios de algunas entidades federativas y/o cuestionarios aplicados
en la mayor parte de estas.
Consideramos que las conclusiones a las que pudimos llegar estn sustentadas con suficiente
solidez en tales evidencias, y permitirn tener una idea bastante completa sobre las pruebas
a las que se refiere el proyecto y, en el caso de este informe, en particular sobre las prue-
bas ENLACE de educacin bsica.
Inicialmente, a partir de una revisin de la literatura especializada, se lleg a una propuesta de

72 criterios particulares que seran la base para llevar a cabo el estudio, sin contar tres criterios
adicionales de carcter general. De esos criterios 11 se referan a la alineacin de las pruebas al
currculo; 16 a aspectos psicomtricos de las pruebas; 12 a la atencin a la diversidad; 16 tenan
que ver con las aplicaciones y sus implicaciones para confiabilidad y validez; y 17 se referan a
los usos y consecuencias de las pruebas. A lo largo del trabajo el listado de criterios definido
inicialmente se modific, con 59 criterios y 102 subcriterios. Con el ajuste final se lleg a un
conjunto de 58 criterios y 97 subcriterios para las cinco reas que cubri el estudio, como sigue:
Tabla 2reas, criterios y subcriterios utilizados
reas Criterios Subcriterios

Alineacin a los referentes 11 25
Aspectos psicomtricos 8 33
Atencin a la diversidad 12
Aplicaciones 16 39
Usos y consecuencias 11
TOTALES 58 97
Introduccin 17
La lista de los 58 criterios, sin los subcriterios, es la siguiente:
ALINEACIN A LOS REFERENTES

1. Se cuenta con un documento que revisa la teora del contenido (curricular u otro) y es el
marco terico que orienta el desarrollo de la prueba.
2. Se presenta evidencia de la forma en que se definen las especificaciones de la prueba
en trminos de objetivos, competencias u otro referente.
3. Se explica el procedimiento usado para determinar la importancia relativa de los con-
tenidos que se decidi evaluar, o se incluye anlisis de unidades del dominio y su
densidad diferencial.
4. Se asegura la representatividad de los tems y las subescalas respecto a los subdominios
y el dominio definidos.
5. Se cuida la alineacin en cuanto a la complejidad cognitiva del contenido.
6. Existe un documento manual o gua de redaccin o diseo de reactivos en el que se
especifican y justifican los procedimientos para formularlos.
7. Los reactivos son diseados por un comit seleccionado teniendo en cuenta la espe-
cializacin acadmica, laboral y su representatividad respecto a la diversidad del pas, y
estuvo coordinado por una persona calificada.
8. Existe un manual o gua para el anlisis de reactivos que seala los criterios de acepta-
cin, revisin y modificacin.
9. Hay un comit de revisin calificado para aplicar lo que define el manual.
10. La revisin de tems incluye anlisis de calidad tcnica, congruencia tem-contenido,
posibles fuentes de sesgo y concordancia de juicio de revisores.
11. Se cuida la alineacin de la prueba en general.
A SPECTOS PSICOMTRICOS
1. Se documentan las evidencias relativas a los diversos tipos de validez que se consideran
usualmente en la medida en que sean aplicables.
2. Se cuenta con anlisis integrales de los procesos y mtodos utilizados para desarrollar
las pruebas, definiendo equivalencia y periodicidad.
3. Se documentan los procedimientos utilizados para la calibracin de las pruebas y para
el anlisis psicomtrico.
4. Se ofrece informacin sobre la confiabilidad de las pruebas.
5. Se documentan los procedimientos para el anlisis psicomtrico de los tems y para el
cuidado de su calidad.
6. Se ofrecen evidencias sobre la calidad de los bancos de tems.
7. Se informa sobre los procedimientos seguidos para la calificacin de los sujetos que
responden las pruebas.
8. Se justifica lo relativo al establecimiento de los niveles de desempeo y la interpretacin
de resultados de las pruebas.
18
ATENCIN A LA DIVERSIDAD
1. El marco conceptual de la prueba toma en cuenta cmo la efectividad en el aprendizaje,

la enseanza y la evaluacin de un contenido estn influidos por la experiencia socio-
cultural del estudiante y su familiaridad con la lengua y el dialecto en que se administran
las pruebas.
2. Como parte del desarrollo de la prueba se establecen las caractersticas de la poblacin
objetivo, que consideran la diversidad cultural y lingstica del pas y los mltiples con-
textos y escenarios culturales y ambientales.
3. Como parte del desarrollo se usan referentes tericos y conceptuales sobre cultura
y lengua y se establecen procedimientos para tomar en consideracin la diversidad cul-
tural, lingstica y socioeconmica del estudiantado.
4. Los documentos que establecen tipos y formatos de los tems proporcionan lineamientos
para asegurar que la informacin grfica y contextual incluida en los tems sea familiar
para la mayora del estudiantado y reflejen una amplia variedad de contextos culturales.
5. Los equipos a cargo de desarrollar tems son multidisciplinarios; adems de expertos en
contenido incluyen a profesionales con especialidades en el rea de la cultura (antrop-
logos, lingistas) y maestros de minoras culturales y lingsticas y de escuelas rurales y
de nivel socioeconmico bajo.
6. Las muestras de estudiantes con los que se pilotean versiones preliminares de la prueba
incluyen submuestras representativas de las minoras culturales, lingsticas y socioeco-
nmicas del pas.
7. El desarrollo de la prueba incluye entrevistas cognitivo-culturales a alumnos de diversos
grupos culturales, lingsticos y socioeconmicos, para investigar si interpretan igual el
contenido de muestras representativas de los tems.
8. El proceso de revisin con jueces considera fuentes de sesgo cultural, lingstico y so-
cioeconmico en muestras representativas de los tems.
9. Se hacen anlisis de funcionamiento diferencial de una muestra de tems para diversos
grupos focales: estudiantes de distintos grupos indgenas, de nivel socioeconmico bajo
y de zonas rurales.
10. Se hacen anlisis con Teora de la Generalizabilidad para determinar la confiabilidad
y validez de las generalizaciones de calificaciones obtenidas con el mismo conjunto
de tems para distintos grupos de estudiantes definidos por grupo tnico, localidad y
nivel socioeconmico.
11. Los tiempos y calendarios de las actividades que buscan tomar en cuenta la diversidad
cultural, lingstica y socio-econmica son razonables y factibles.
12. El desarrollo de las pruebas incluye mecanismos de correccin y mejora con base en la
informacin obtenida al realizar la validacin cognitivo-cultural, la revisin, los anlisis
de sesgo y los estudios de generalizabilidad.
APLICACIONES
1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicacin
censal o como marco muestral.
2. Cuando proceda, las muestras se disean utilizando diseos slidos; los estratos se
definen con base en argumentos tericos defendibles.
3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el
que se planific.
Introduccin 19
4. Se verifica que la muestra obtenida concuerde con la planificada dentro de mrge-
nes aceptables.
5. Se planifica todo lo necesario para estandarizar la aplicacin, con formas y materiales
que aseguren la comparabilidad de los datos.
6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la recolec-
cin de datos, en todos los niveles.
7. Se fijan lmites realistas de la carga de responder pruebas y cuestionarios de contexto
para que no sea excesiva tomando en cuenta los sujetos.
8. Se busca motivar a sujetos para que no respondan preguntas a la ligera.
9. Se desarrollan procedimientos para lidiar con la no-respuesta o rechazo a responder a
la prueba y se entrena al personal de aplicacin para ello.
10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de fraude
y se entrena al personal de aplicacin para seguirlos.
11. Se manejan procedimientos para asegurar la calidad de las aplicaciones.
12. Hay manuales que detallan aspectos a cuidar para crear archivos segn normas inter-
nacionales: introduccin de datos; identificadores de alumnos, maestros o escuelas; va-
riables a incluir, cdigos vlidos, de datos faltantes o respuestas no aplicables; formato,
estructura de archivos, limpieza, etc.
13. Hay personal calificado para manejar los datos y se le entrena en todos los aspectos del
trabajo, asegurando que est familiarizado con procedimientos aceptados para manejar
datos y que comprende la importancia de recolectar y capturar la informacin con el
cuidado necesario para que los anlisis posteriores se hagan sobre informacin de la
mejor calidad posible.
14. Se llevan a cabo procedimientos para maximizar la calidad de las bases de datos que
concentran los resultados de la aplicacin.
15. Hay procedimientos para asegurar que la lectura de respuestas y todos los pasos del
procesamiento y verificacin de los datos son confiables.
16. La coordinacin del estudio es notificada de cualquier inconsistencia en los datos.
Toda modificacin que resulte de la resolucin de inconsistencias deber ser aprobada
y documentada.
USOS Y CONSECUENCIAS
1. Se presentan argumentos lgicos o tericos y evidencia emprica que respalde los usos y
consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un
apoyo terico o emprico.
2. Se documenta y evala el grado en que se producen las consecuencias previstas y/o
deseables de la prueba.
3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanis-
mos de difusin y acceso para todas las partes sin discriminacin.
4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la ade-
cuada interpretacin y utilizacin de los resultados.
5. Se informa a los usuarios sobre los propsitos y caractersticas de la prueba, lo que pue-
de o no medir y los usos y consecuencias previstas. Se ofrecen ejemplos e informacin
suficiente sobre la interpretacin de los resultados.
6. Se utiliza lenguaje claro y preciso sin jerga tcnica innecesaria; se explican trminos
tcnicos en lenguaje claro y comprensible.
7. Se ofrece marco normativo para evaluar el desempeo de los examinados. Se describe
el perfil y caractersticas de la poblacin de referencia.
20
8. Se da informacin para minimizar posibilidad de interpretaciones incorrectas. Se notan
limitaciones y errores comunes al comparar aos, dominios, grupos o niveles de agre-
gacin. Se usan categoras precisas que no estigmaticen.
9. Se advierte sobre usos para los que no existe suficiente evidencia de validez. Aunque
no se pueden prever todos los usos o interpretaciones inapropiadas, se busca identificar
y acotar los ms probables.
10. Se documenta la existencia de usos o consecuencias imprevistas, ya sean adecuadas/
positivas, o inadecuadas/negativas.
11. Cuando existe evidencia confiable de usos inapropiados estos se investigan en grado y
detalle adecuado. Si estos usos persisten se informa a los usuarios y se intenta tomar
acciones correctivas.
La lista completa de criterios y subcriterios puede verse en el anexo 1.
Al final del informe se presentan las referencias que se utilizaron en todos los apartados, as
como otros anexos, que incluyen el microanlisis de reactivos de Espaol (anexo 2) y de reacti-
vos de matemticas (Anexo 3) hechos para el apartado de validez cultural.
No se incluyen otros anexos que se hicieron llegar al INEE con la versin del informe entregada
en marzo de 2014, que fueron las transcripciones de las entrevistas que se hicieron a funciona-
rios de la SEP, el INEE y las entidades federativas, as como de las respuestas a los cuestionarios
que se recibieron de las entidades.
Las cinco partes principales de este informe que se encuentran en las pginas siguientes pre-
sentan los anlisis hechos por los pares de especialistas, aplicando los criterios mencionados.
Introduccin 21
1 Alineacin a los referentes
CONSIDERACIONES PREVIAS
El anlisis se ha llevado a cabo teniendo en cuenta los siguientes aspectos:
Las pruebas censales presentan un condicionante inicial que influye de manera decisiva
en la representatividad del dominio curricular que pretenden evaluar: los imperativos
logsticos llevan a que deban ser pruebas de una longitud limitada, por lo que cualquier
prueba censal parte de este hndicap.
No obstante lo anterior, el grado de representatividad puede atenderse de formas ms
o menos rigurosas. En este sentido, nos centramos en el anlisis del grado en que los
procesos utilizados se han desarrollado con el rigor suficiente como para asegurar un
adecuado nivel de calidad.
La prueba ENLACE viene desarrollndose desde 2006 y hasta el 2013. De este modo,
y tal como comentaremos posteriormente, se aprecia una evolucin importante en sus
procesos metodolgicos. En cualquier caso, desde nuestro punto de vista, no se trata
de realizar una valoracin histrica de su diseo, sino de comprobar el nivel de calidad
que la prueba ha alcanzado en la actualidad.
Por este motivo, entendemos que las evidencias de mayor vala para valorar la calidad de
la prueba son los manuales de 2012 y el recientemente difundido de 2013. Las evidencias
anteriores, se utilizan como medio para comprender y/o explicar mejor los factores que
se han ido dando en su diseo y que impactan de manera positiva o negativa en su cali-
dad actual. En cualquier caso, este comit ha tenido en cuenta todas ellas.
A NLISIS DEL CURRCULO CUYO DOMINIO SE EVALA
1 Se cuenta con un documento que revisa la teora del contenido curricular y es el mar-
co terico que orienta el desarrollo de la prueba.
tt El documento incluye un anlisis de las reas del currculo que evaluar la prueba, que pre-
cise los subdominios y contenidos, as como competencias y niveles de demanda cognitiva
que se debern cubrir.
Un elemento clave para valorar el grado en que ENLACE deviene del contenido curricular y
su marco terico es la inestabilidad del currculum en Mxico. Como referencia contextual,
nicamente se seala que durante el periodo de diseo y desarrollo de la prueba el currculo
vari en numerosas ocasiones, incluso presentando cambios que se anunciaron un da hbil
antes del comienzo del ao escolar.
22
Esta falta de estabilidad curricular, sin duda, ha constituido un hndicap importante para los
constructores de la prueba.
De este modo, durante el periodo 2006-2013, que cubre el lapso en que se desarrollaron las pruebas
ENLACE, el currculum nacional de la educacin bsica experiment continuas transformaciones.
Esta dinmica curricular impuso en cada ocasin retos importantes al grupo de trabajo de la
Direccin General de Evaluacin de Polticas (DGEP) de la Secretara de Educacin Pblica (SEP)
que desarroll las pruebas. Los autores de ENLACE fueron conscientes de dichas transforma-
ciones y dan cuenta de ellas en los manuales tcnicos que facilitaron, y que sintetizan (Docu-
mento ANALISIS_2012_2013.pptx) en la lnea del tiempo que aparece a continuacin, en la que
tambin indican los impactos que en cada ocasin tuvieron los cambios curriculares sobre el
desarrollo de las pruebas (ver cuadro 1.1).
Cuadro 1.1
Fuente: Documento ANALISIS_2012_2013.pptx
Adems, cada uno de los manuales tcnicos de ENLACE presenta una seccin denominada
Marco terico de diseo de las pruebas ENLACE , en la que se presentan aspectos generales
sobre las dimensiones explcitas e implcitas que se evalan en las asignaturas de Espaol, ma-
temticas y en la rotativa correspondiente que se evala cada cuatro aos (ciencias, formacin
cvica y tica, historia y geografa).
De manera adicional, se observa una clara evolucin hacia mayores niveles de calidad tcnica en
el aspecto que aqu comentamos. De este modo, si se examina el Manual de 2013, las eviden-
cias del anlisis realizado estn claramente estructuradas y expuestas.
Alineacin a los referentes 23

Por otra parte, segn se seala en los manuales tcnicos de ENLACE , el proceso de desarro-
llo de las pruebas siempre estuvo intensamente acompaado por el personal de la Direccin
General de Desarrollo Curricular (DGDC) de la SEP, quienes a su vez fueron los responsables de
los cambios curriculares sealados y de su difusin en el medio educativo nacional. Esta estra-
tegia de trabajo conjunto (desarrolladores del currculum y diseadores de prueba), aunque no

resulta habitual, en gran medida asegura la continuidad entre el currculum y la prueba.
En consecuencia, puede decirse con certeza que siempre se cont con documentacin que ex-
pusiera la teora del contenido curricular y que fuera el marco terico que orientara el desarrollo
de la prueba.
El segundo elemento clave para valorar el modo en que se ha asegurado por parte de los di-
seadores de ENLACE que la prueba representa adecuadamente los subdominios curriculares
y los niveles de demanda cognitiva que representan para el alumnado, se encuentra en la me-
todologa seguida a tal efecto.
Las referencias metodolgicas que se identifican en la literatura y que se postulan como reque-
rimientos metodolgicos para este cometido se sitan en el mbito de desarrollo de pruebas
referidas a un criterio (Madaus & Kellaghan, 1992; Hambleton, 1994; Nitko, 1994; 1995; Li &
Sireci, 2005; Cizek, 2007; Sireci, 2009). En este marco de trabajo los procesos a considerar para
asegurar la representatividad son, al menos:
Anlisis explcito (y debidamente documentado) del currculum como universo de medi-

da. Ello implica el uso de algn procedimiento de anlisis y estructuracin del dominio
curricular, aportando como evidencia los dominios y subdominios implicados y las rela-
ciones entre ellos y sus contenidos.
El resultado del anlisis debe proveer un marco de referencia de la prueba que se evi-
dencia en una tabla que refleje su estructura, as como en tablas de especificaciones en
las que se deben contemplar diversos elementos del contenido y del nivel de demanda
cognitiva que constituye cada unidad curricular para el alumnado.
Dicho anlisis debe ser realizado por un comit de especialistas, y debe ser validado
posteriormente por un comit diferente del anterior. En la composicin de los comits
se recomienda la presencia de especialistas diversos, entre ellos los que representan la
diversidad socio-educativa y cultural, en este caso de Mxico.
Adicionalmente, se requiere que se explicite el modo en que los comits son capacitados
para llevar a cabo estas tareas, as como se deban producir los procesos de juicio y el
establecimiento de decisiones (consenso intersubjetivo, sntesis cuantitativa)
Una vez revisadas todas las evidencias aportadas al respecto, podemos realizar los siguientes
comentarios y sealar sus evidencias:
Todos los manuales tcnicos de ENLACE incluyen una seccin denominada Tablas de
especificaciones y un anexo denominado Tablas generales de contenidos para todos los
grados, que presentan muestras de tablas y las tablas completas en el MT 2013, que
incluyen reas curriculares, subdominios y contenidos especficos de cada materia que se
evalan en el examen.
No obstante, salvo en el caso de las tablas del 2013, no se ha seguido un procedi-
miento homogneo por materias, ni por niveles y aos. De este modo, la estructura
24
del dominio a evaluar se presenta en formatos diferentes y con niveles de desarrollo
desigual, tanto en las materias de una misma asignatura, como entre las materias de
asignaturas y aos diferentes.
Al respecto, obsrvense en los cuadros I.2 a I.6 fragmentos de cinco tablas que aparecen en el
manual tcnico ENLACE de 2012; la primera del tercer grado de primaria de Espaol; la segunda
del quinto grado de primaria de Espaol; la tercera del tercer grado de primaria de matemticas;
la cuarta del quinto grado de primaria de matemticas; y la quinta del tercer grado de primaria
de ciencias (asignatura rotativa cuyo dominio se evalu ese ao).
Cuadro 1.2
Fuente: Manual Tcnico ENL ACE 2012

Cuadro 1.3
Cuadro 1.4
26
Cuadro 1.5
Cuadro 1.6
Ms all de diferencias de estilo en las tablas, se evidencian diferentes niveles de es-

tructuracin del dominio a evaluar, desde enunciados simples a manera de objetivos de
aprendizaje sin contexto curricular explcito (como en el caso de las especificaciones
de ciencias naturales), hasta ubicacin del contenido a evaluar en el mbito curricular
que corresponde, explicitacin de la prctica social del lenguaje en que opera su aprendi-
zaje e identificacin del aprendizaje esperado que se logra con su dominio (como en la
tabla de quinto grado de primaria de Espaol).
Sera preferible que todas las estructuras del dominio curricular a evaluar fueran tan
explcitas como en el ltimo caso. Aunque no se documentan los motivos por los que
no se adopt un esquema similar en todas las asignaturas (salvo vagas referencias a la

diversidad de enfoques que tienen los tericos en los distintos campos del conocimien-
to [Manual Tcnico 2012: 26]), se reporta que Las tablas de contenido para cada grado
se encuentran en los documentos de base preparados por la Subsecretara de Educacin
Bsica (la DGDC, MT 2012: 178), por lo que la determinacin del contenido a evaluar en
ENLACE siempre ha estado a cargo de esa dependencia (MT 2009: 75), responsable a su
vez del currculo de la educacin bsica. Una excepcin a esta condicin son la tablas que
aparecen en el Manual Tcnico 2013, donde por primera vez se afirma que:
Las tablas de especificaciones son construidas por el personal tcnico de la Direccin
General de Evaluacin de Polticas y revisadas por el personal de la Direccin General
de Desarrollo Curricular de la Secretara de Educacin Pblica, de acuerdo con los con-
tenidos establecidos en los planes y programas de estudios oficiales vigentes en todo el
pas (MT 2013: 21).
En cuanto a los comits de anlisis del Dominio Curricular, que deberan actuar de modo
independiente y sucesivo, que mencionamos como estrategia fundamental para la va-
lidacin de este tipo de pruebas, puede observarse que, salvo lo que se comenta en el
punto anterior, no se ha procedido de este modo. Se evidencia que la DGDC ha sido juez
(quien desarrolla el currculum) y parte (quien decide lo que es importante evaluar en
ENLACE ), sin contraparte (dado que la DGEP y sus consejos directivo y tcnico asumieron
desde el principio que esa era una tarea que le corresponda realizar a la DGDC). Con esta
forma de proceder, se olvida un factor sustantivo de validacin.
Cabe sealar que ni la DGDC ni la DGEP han documentado las decisiones para determi-
nar lo que es importante evaluar, ni han sentido la necesidad de adoptar un esquema de
representacin del dominio curricular a evaluar que resulte explcito y equivalente, a la
vez que respete el enfoque terico de las diferentes asignaturas.
En sntesis la situacin descrita no corresponde con las prcticas de anlisis curricular y deteccin y
estructuracin del contenido importante a evaluar en una prueba de estas caractersticas. Tampo-
co se han basado en una estrategia de validacin del anlisis del universo de medida que incluya
aportes de validacin de grupos interdisciplinarios de especialistas (en currculo, la disciplina cuyo
dominio se evala, psicometra, operacin del currculum en las aulas, en lenguaje, en cultura y en
teora cognoscitiva), que acten de manera independiente y sucesiva. Por ello, entendemos que el
procedimiento seguido no permite asegurar la representatividad del contenido a evaluar.
ALINEACIN DE LA PRUEBA CON EL CURRCULO
2. Se presentan evidencias de la forma en que se definieron las especificaciones de la

prueba en trminos de objetivos, competencias u otro referente curricular.
Otro factor imprescindible que permite trabajar en favor de la consecucin de la validez de

contenido es el anlisis del dominio educativo, tanto en su estructura (subdominios que lo
integran), como en relacin con las especificaciones de contenido que permiten orientar el
diseo de reactivos. Esta estrategia es habitual en pruebas referidas al currculo. Debe incluir,
por tanto, dos tipos de informacin: estructural de la prueba, y especificaciones de unidades
del dominio.
28
Eso permite obtener una visin precisa del universo de medida, a partir del cual, posterior-
mente, se podr orientar el muestreo de contenidos (Jornet y Surez, 1989a; 1989b). Orienta
pues, las dimensiones o subdimensiones implicadas (un diseo curricular no necesariamente
es unidimensional, y puede representarse en una prueba), la densidad diferencial del dominio
(cantidad y relevancia de elementos observable).
En cuanto a si esta forma de actuacin metodolgica se dio en el diseo de ENLACE, en los

cuadros I.2 y I.3 que se presentaron antes tambin puede apreciarse que en un mismo cuadro
se presentan juntos elementos de la estructura del dominio del contenido curricular a evaluar
(que corresponden a la tabla de especificaciones de la prueba) y los de la especificacin de la
tarea evaluativa para evaluar el dominio de cada contenido (especificaciones de tems). Aun-
que en la prctica regular en cualquier formato para desarrollar especificaciones de tems se
incluye la estructura bsica en la que se ubica el contenido a evaluar, en este caso el diseo
de la tabla no permite observar de manera independiente la estructura de la prueba, para
poder referirla al dominio curricular.
Hasta 2008 el manual tcnico de ENLACE distingua ambos componentes del desarrollo de
las pruebas, a los que denominaba Elaboracin de tablas de contenidos y Elaboracin de tablas
de especificaciones (Ver por ejemplo los manuales tcnicos 2007 [MT04, pgs. 4.2 y 4.14 a la
4.22] y 2008 [MT04, pgs. 4.3 y 4.16 a la 4.21]). En los manuales de los aos 2009, 2010, 2011
y 2012 ambos componentes se ubicaban en una misma tabla; y para el caso del manual tcnico
de ENLACE 2013, las tablas de especificaciones de la prueba (que consideran ya el nuevo curr-
culum de 2011) vuelven a aparecer en una seccin independiente. Lo anterior puede observarse
en los cuadros I.7 y I.8.
Aunque las tablas de especificaciones anteriores se definieron en trminos de referentes curricu-

lares, en cada prueba aparecen distintos y no siempre se trata de los referentes relevantes que se
establecen explcitamente en el Acuerdo 592 de la SEP (DOF, 2011), por el que se articul en 2011
la educacin bsica del pas con un nuevo currculum en todos los niveles educativos.
Por ejemplo, obsrvese el referente fundamental que establece para ENLACE el Acuerdo 592:
La migracin de la Evaluacin Nacional del Logro Acadmico en Centros Escolares de Educa-
cin Bsica (ENLACE) hacia una evaluacin cuyo referente sean los Estndares Curriculares y
los aprendizajes esperados (DOF, 2011, artculo octavo transitorio). As, en un caso se incluyen los
aprendizajes esperados y en otro no; en ninguna de las tablas aparece el eje (en Matemticas)
o el mbito (en Espaol) curriculares a los que pertenecen los contenidos a evaluar; en un caso
se detalla el aspecto a evaluar y en otro no; en un caso se define el nivel de relevancia del con-
tenido a evaluar y en otro no, entre otras diferencias entre las tablas.
No obstante, cabe sealar que en el manual tcnico de ENLACE 2013 se aprecia un claro esfuer-
zo por dar a las tablas de especificaciones de la prueba un estilo y formato ms homogneos
(vanse por ejemplo los cuadros I.7 y I.8), tanto entre las materias de cada asignatura, como
entre las propias asignaturas, as como por incorporar los referentes del nuevo currculum que
aparecen en el Acuerdo 592 de la SEP.

Cuadro 1.7
Cuadro 1.8
30
tt Se presenta la estructura del dominio curricular completo de donde se muestrea el conte-
nido de la prueba as como la estructura del dominio curricular evaluado.
Tal como sealamos en el criterio anterior, un elemento sustantivo para orientar el desarrollo de
una prueba es la estructura del dominio educativo a evaluar (el currculum), y el anlisis acerca
de la estructura de la prueba. Si se dispone de ambos elementos, puede analizarse mediante
comits de juicio si la estructura de la prueba responde adecuadamente a la estructura del
universo de medida. El anlisis que puede proveer un comit acerca de este aspecto, constituye
pues una evidencia de validez.
Como ya se coment cuando efectuamos la valoracin bajo el criterio 1, esta fase del proceso de
desarrollo de pruebas de gran escala referidas a un criterio tambin est documentada en la lite-
ratura especializada, en la cual se establece la necesidad de que haya dos grupos independientes
de especialistas en ambos casos con expertos en currculum, en evaluacin, en la operacin del
currculum en la aulas, en la teora cognoscitiva, en aspectos culturales y en la disciplina cuyo
dominio se evala: por una parte, los que analicen el currculum y detecten el contenido im-
portante a evaluar; por la otra, los que juzguen tales decisiones con base en protocolos tcnicos
definidos previamente por los desarrolladores de la prueba; estos ltimos debern facilitar los
trabajos de ambos comits y, a la vez, servirn como hilo conductor de stos y los de otros comi-
ts especializados que participan en la construccin del instrumento.
Respecto a los procesos llevados a cabo para el desarrollo de ENLACE , como ya sealamos an-
teriormente, la DGEP afirma en todos los manuales tcnicos de ENLACE que la DGDC (que es
la dependencia responsable de desarrollar el currculum nacional), fue la instancia que se encar-
g de definir el contenido a evaluar en las pruebas, por lo que son los autores de las tablas de
contenidos que se han presentado hasta este punto.
Sin embargo, con excepcin de los manuales tcnicos de ENLACE 2007 y 2013 que las presentan
todas, estas y otras tablas aparecen en el cuerpo de los manuales o en los anexos correspon-
dientes como extractos o como ejemplos que ilustran el producto que la DGDC elabor. De este
modo nunca se presenta, para ninguna asignatura o materia que se evala, el dominio curricular
completo, ni bien la estructura del dominio curricular que evala cada prueba.
Tampoco aparece en ningn manual, anexo o documento referido, la documentacin del pro-
ceso que sigui la DGDC o bien la DGEP para determinar en cada caso el contenido a evaluar o
los criterios en que se basaron para determinarlo.
A pesar de ello, se tiene evidencia de un estudio que encarg la DGEP a una instancia exter-
na para analizar el nuevo currculum de 2011, desarrollar la estructura del dominio curricular
completo de las asignaturas de matemticas y Espaol, e identificar en ellas una propuesta de
estructura del dominio curricular a evaluar en cada una de las materias de ambas asignaturas.
Aunque la DGEP no incluy en el manual tcnico de ENLACE 2013 los resultados y productos de
dicho trabajo, se hace una referencia a l en el documento denominado ANALISIS_2012_2013.
pptx, que entreg dicha dependencia. En todo caso, la DGEP no incluy en el manual tcnico
de ENLACE 2013 los resultados y productos de dicho trabajo.

En sntesis, la falta de documentacin sobre el proceso que se sigui para determinar el conteni-
do a evaluar, es una carencia importante que afecta a la posible valoracin del grado de validez
de contenido de las pruebas.
3. Se explica el procedimiento usado para determinar la importancia relativa de conte-

nidos cuyo dominio se decidi evaluar, o se incluye un anlisis de las unidades del
dominio curricular y su densidad diferencial.
La composicin de cualquier prueba referida a un diseo curricular se debe apoyar en criterios

de seleccin de los contenidos, que reflejen la importancia diferencial de los mismos, como
expresin de la relevancia de los aprendizajes logrados. Este aspecto, que comnmente se
identifica en la literatura como densidad diferencial del dominio curricular es difcil de llevar a la
prctica. De hecho, aunque se ha formulado como concepto desde hace aos (Jornet y Surez,
1989a), bien es cierto que existen pocas aproximaciones metodolgicas que lo resuelvan de
manera satisfactoria.
Generalmente, se basan en valoraciones que realizan comits de especialistas que indican el

peso diferencial que cada rea del dominio curricular debera tener en la prueba, y ello sirve para
seleccionar la cantidad de reactivos que se utilizan al respecto. Recientemente se han propuesto
alternativas de indicadores de sntesis (Viveros, Contreras & Caso, 2013) que permiten acercarse
a una valoracin de estas caractersticas, y orientar de una manera ms eficiente la estructura-
cin de la prueba en relacin al universo de medida.
As, la determinacin de la importancia relativa de los contenidos curriculares es un procedi-

miento crucial para definir el dominio a evaluar en una prueba. Diversos autores (Sireci, 2009;
Cizek, 2007; Pope, citado por Cizek, 2007; Li y Sireci, 2005; Haynes, Richard y Kubany, 1995;
Nitko, 1994; Guion, 1977) enfatizan la necesidad de identificar blancos curriculares de primer
orden, dada la imposibilidad de evaluar en una sola ocasin (examen) el dominio de todo lo que
se debi haber aprendido (currculum), ni siquiera todo lo que es relevante. De ah la importan-
cia de seleccionar una muestra de contenido que represente el dominio curricular, especialmente
lo que es ms significativo en l, desde el punto de vista de la formacin pretendida. Los autores
destacan tambin la necesidad de que un comit independiente de especialistas, con un perfil
similar a los que se mencionaron antes, convalide las decisiones que adoptaron quienes decidie-
ron lo que es importante evaluar; y que para ello examinen los criterios y procedimientos que
siguieron para arribar a tales conclusiones.
En el caso de las pruebas ENLACE , y al igual que se coment en los dos puntos anteriores, se
desconocen los procedimientos que siguieron o los criterios que utilizaron los especialistas de la
DGDC para determinar la importancia relativa de contenidos o para decidir el dominio de con-
tenido a evaluar en cada prueba. El anlisis de las tablas de contenido que aparecen ms arriba
muestra que enfatizaron aspectos diferentes del currculum y que adoptaron criterios tambin
diferentes para determinar lo que era relevante en cada caso.
No obstante, existen evidencias en los manuales tcnicos de ENLACE 2012 y 2013 espe-
cialmente en la mencionada presentacin ANALISIS_2012_2013.pptx que entreg la DGEP ,
de que se ponder la importancia relativa de los contenidos e, incluso, se refiere el uso de un
ndice de densidad acadmica (IDA ) asociado a contenidos curriculares. Lo anterior se muestra
32
en la ltima de las tablas que se presentaron anteriormente y en las tres tablas que se presentan
a continuacin (ver cuadros 1.9 a 1.11).
Cuadro 1.9
Cuadro 1.10

Cuadro 1.11
Fuente: Presentacin ANALISIS_2012_2013.pptx
En cuanto a la necesidad de que un comit independiente de especialistas convalide las deci-

siones que adoptaron quienes decidieron lo que es importante evaluar, la nica referencia al
respecto es lo sealado en el Manual Tcnico 2013, donde se refiere que las especificaciones
de las pruebas fueron construidas por el personal tcnico de la DGEP y luego revisadas por el
personal de la DGDC (MT 2013: 21). Como ya se seal, si bien existen evidencias de que esos
aspectos se consideraron en ENLACE , no se documenta cmo se llevaron a cabo los proce-
sos mencionados, lo que constituye una debilidad en la validacin de contenido que, en todo
caso, podra subsanarse si se aportaran evidencias al respecto.
tt Se justifican tcnicamente ajustes a la ponderacin de tems y subescalas.
Salvo la mencin del ndice de densidad acadmica que se asoci diferencialmente a contenidos
cuyo dominio fue evaluado en 2012 y 2013, no se encontr informacin acerca de la justifi-
cacin tcnica de los ajustes a la ponderacin de tems y subescalas. Las escalas y subescalas
quedan como producto del software de calificacin pero no se reportan. Por su parte, las pon-
deraciones son definidas en forma apriorstica por los diseadores de la prueba y por conside-
raciones que se hacen durante el proceso de validacin, pero no hay estudios experimentales
para realizar ajustes o demostrar la pertinencia de los valores propuestos por los especialistas.
Por ejemplo, se podra realizar anlisis factorial o de ecuaciones estructurales para disponer de
un anlisis factorial confirmatorio u otro tipo de estudio.
34
tt Se justifica metodolgicamente el tamao de la prueba y sus partes (nmero de reactivos),
cumpliendo la ponderacin indicada en las tablas de especificaciones. Si se maneja una
justificacin administrativa esta se debe definir claramente.
El tamao de la prueba se justifica metodolgicamente con base en dos dimensiones. La primera

se refiere a los contenidos a cubrir en la evaluacin. El tamao segn esta dimensin se justifica
con base en los anlisis de contenidos y curriculares que se llevan a cabo a fin de seleccionar los
tpicos de la prueba y desarrollar los reactivos que la conformarn. La segunda dimensin del
tamao de la prueba se relaciona con la cantidad de preguntas o reactivos que son aplicados
a cada uno de los individuos. Esto es importante dado que, por su carcter censal, la cantidad
de preguntas necesarias para cubrir los contenidos de la prueba es mucho mayor de lo que en
forma realista puede ser aplicado dentro del esquema del horario escolar, y la cantidad de tems
que pueden ser respondidos por los estudiantes sin elevar los niveles de fatiga y/o bajar el nivel
de inters al responder.
En el caso de ENLACE no se cuenta con una justificacin metodolgica para el dimensiona-

miento de la prueba (nmero de reactivos) y de sus partes, porque las tablas de especificaciones
estn definidas en nmero de tems y no de ponderaciones, ni se tiene un estimado del error
terico propuesto. Tampoco se presenta un estudio especfico sobre fatiga de los estudiantes
que se relacione directamente con el tamao de la prueba.
4. Se asegura la representatividad de los tems y las subescalas respecto a los subdomi-

nios y el dominio curricular definidos.
tt Para especificar el dominio a evaluar se presenta un anlisis lgico y emprico de la re-

presentacin de tems y subescalas respecto a los subdominios evaluados y al dominio
curricular completo.
El anlisis de reactivos se orienta desde dos perspectivas: lgica y emprica. La primera de ellas
se apoya en la participacin de comits de jueces (especialistas en contenidos, docentes frente
a grupo, especialistas en medicin/evaluacin), que deben valorar caractersticas tales como
la representatividad del tem respecto del contenido a evaluar, su calidad tcnica (indepen-
dencia de errores sistemticos), su independencia de sesgo, etc. Por tanto afecta de manera
directa la validez de contenido de la prueba. Las comprobaciones empricas pretenden aportar
informacin acerca de si los tems se comportan de acuerdo con la estructuracin dimensio-
nal terica que haya orientado el desarrollo de la prueba. Se solapa, en parte, con el anlisis
que deviene de los ensayos piloto, aunque en este punto enfatizamos el anlisis respecto a la
revisin lgica, dado que el segundo aspecto se trata tambin en el apartado de desarrollo
de la prueba.
En el apartado 2.3, Diseo, produccin, calibracin y piloteo de los reactivos del Manual de
ENLACE (2013), se indica que:
La produccin de los reactivos de la prueba pasa por estas fases: construccin (a cargo
de especialistas de contenido), validacin (encargada a jueces expertos, independientes de
los diseadores y constructores), piloteo y calibracin (aplicacin en condiciones controla-
das de muestras de reactivos a estudiantes del grado siguiente al de la poblacin objeto

y anlisis de la calidad de los reactivos por medio de modelos psicomtricos). Finalmente,
los reactivos que pasan exitosamente todos estos procesos, se incorporan al banco de
reactivos Para la validacin se sigue un modelo de emisin de dictamen por jueces,
que son expertos en contenido, quienes se encargan de determinar la calidad individual y
colectiva de los reactivos construidos; deben verificar que cada uno responda a las normas
de construccin y que, en su conjunto, constituyan una muestra representativa y suficiente
del dominio de conocimientos a evaluar (p.23).
A este respecto, y centrndonos en la revisin lgica, hay que sealar los siguientes aspectos:
Se hace referencia a que la construccin la realizan expertos en contenido (no se indica

nada respecto a la participacin de otro tipo de especialistas).
Tampoco se indica el modo en que se seleccionaron los jueces ni sus perfiles, aspecto
importante cuando se trata de disear una prueba nacional que deba funcionar con
equidad en un pas tan diverso sociocultural y econmicamente.
Tampoco se aporta informacin acerca de la metodologa de jueceo (caractersticas a
valorar en los tems, criterios de toma de decisiones)
No se ha encontrado referencia alguna en los manuales tcnicos de ENLACE o en los
anexos y documentos presentados, sobre los criterios y procedimientos que emple la
DGDC, o bien la DGEP, para analizar la representacin de tems y subescalas respecto
a los subdominios evaluados y al dominio curricular completo cuyo dominio fue evaluado
en cada edicin de la prueba.
Respecto a la representatividad de subescalas o subdominios, las tablas anteriores y otras
que se muestran en los manuales tcnicos de ENLACE ofrecen fragmentos y ejemplos de
subdominios referidos a dominio del currculum vigente, para los que se indica en cada
caso un determinado nmero de tems destinados a evaluar el dominio de los contenidos
correspondientes. Sin embargo, con excepcin de los manuales 2007 y 2013, en las de-
ms ediciones de la prueba no se cuenta con evidencia suficiente para emitir un juicio de
valor fundado sobre la representatividad de tems y subescalas respecto a los subdominios
y el dominio curricular completo que fueron definidos por la DGDC o la DGEP.
Respecto a comprobaciones empricas que pudieran aportar informacin acerca de si los tems se
comportan de acuerdo con la estructuracin dimensional terica que haya orientado el desarro-
llo de la prueba, como se observ en el segundo subcriterio del criterio anterior, la representativi-
dad de tems y escalas respecto a los subdominios y el dominio curricular completo, que se bas
en operaciones de juicios, pudo haberse complementado con estudios empricos y estadsticos
como el anlisis factorial confirmatorio o el modelamiento de ecuaciones estructurales, a fin de
observar la pertinencia de la estructura de contenidos propuesta por los especialistas.
5. Se cuida la alineacin en lo relativo a la complejidad cognitiva del contenido.
tt Se utilizan taxonomas u otros sistemas de clasificacin de la demanda cognitiva de los

tems, en relacin con lo establecido en el currculo.
tt Se refiere el uso de protocolos verbales con examinados para verificar que la complejidad
cognitiva real corresponda a la esperada.
36
En cualquier prueba de rendimiento o logro acadmico, un elemento fundamental en su ela-
boracin es la determinacin de un modelo taxonmico o sistema de clasificacin, que per-
mita regular el grado de demanda cognitiva que supone para el alumnado cada contenido en
la forma en que es evaluado.
La relacin de lo que se espera a nivel curricular y el modo en que se evala es clave para la va-
lidacin de contenido. En este sentido, en los manuales tcnicos de ENLACE se establece que el
modelo de especificaciones se organiza en tres dimensiones explcitas y una categora implcita,
y que la segunda dimensin explcita corresponde a niveles de complejidad, definidos por una
taxonoma o clasificacin de demandas cognitivas.
El Manual de ENLACE 2013, por ejemplo, dice: La segunda dimensin explcita corresponde a
los niveles de complejidad, definidos por una taxonoma o por una clasificacin de las deman-
das cognitivas. Esta dimensin es necesaria para definir la dosificacin de reactivos con la cual
construir el Banco Nacional de Reactivos y la organizacin de la prueba misma (p.97).
Adems, se establece que al definir los enunciados de la tabla de especificaciones, se deben

usar redacciones en trminos operativos no siendo admisibles descripciones de contenidos ais-
lados (uso genrico del tipo uso de signos de puntuacin); los enunciados deben detallar el
propsito y alcance de la prueba y deben referirse a un componente de habilidad o de compe-
tencia, o sea la habilidad subyacente o constructo en trminos de nivel taxonmico.
De igual modo, los manuales tcnicos sealan que para la construccin de los reactivos de
ENLACE se exigen normas por parte de la DGEP a los diseadores, entre las cuales se indica
que los reactivos deben corresponder al objetivo y nivel taxonmico asignados en la tabla de
especificaciones, que la taxonoma que se debe utilizar es la propuesta por Benjamn Bloom y
que infringir esta norma representa un error crtico. De hecho las tablas de especificaciones de
varios exmenes incluyen una columna donde se especifica el nivel al que debe dominarse cada
contenido, como se ilustra en la siguiente tabla.
Cuadro 1.12
Fuente: Manual Tcnico de ENL ACE 2008

No obstante, como se puede apreciar en varias de las tablas que se han mostrado hasta ahora
y en la gran mayora de las tablas que se presentan en los manuales tcnicos, queda claro que
no es necesariamente en las tablas de especificaciones de las pruebas donde se especifican los
niveles de demanda cognitiva que deben tener los tems para evaluar el dominio de los conte-
nidos segn lo establece el currculum.
En consecuencia, la tarea de definir el nivel cognitivo al que se debe dominar cada contenido
parece haber recado en los elaboradores de los tems, quienes debieron interpretar el conte-
nido y establecer el nivel de demanda cognitiva que le corresponda. En todo caso, de lo que s
hay evidencia en los manuales tcnicos de ENLACE de 2009, 2010 y 2011, es que cada tem tuvo
asignado un nivel taxonmico, el cual qued registrado en la base de datos del Banco Nacional
de Reactivos en la seccin denominada Ficha tcnica del reactivo, como puede apreciarse en
la figura que se presenta en el cuadro 1.13.
Cuadro 1.13
Fuente: Banco Nacional de Reactivos de ENL ACE (2010)
38
Finalmente, no existe evidencia o alguna referencia en los manuales tcnicos de ENLACE , sus
anexos o los documentos referidos, respecto al uso de protocolos verbales con examinados para
analizar la complejidad cognitiva de los tems.
ESPECIFICACIN, GENERACIN Y ESCRITURA DE TEMS
6. Existe un documento, manual o gua de redaccin o diseo de reactivos en el que se

especifican y justifican los procedimientos para formularlos.
Otro elemento bsico a tener en cuenta en el diseo de pruebas es la redaccin de tems. Cier-
tamente los reactivos deben representar las unidades del dominio educativo (universo de medi-
da) que se consideran relevantes en la evaluacin como muestra del desempeo. Para que ese
objetivo se cumpla es importante que se estructure el procedimiento de escritura de tems, de
manera que se atienda con rigor si los reactivos representan el contenido a evaluar y si stos se
adaptan al nivel de desempeo que se espera que pueda darse en la enseanza como expresin
de las oportunidades de aprendizaje que se brindan a los alumnos.
Por ello es fundamental que los escritores de reactivos tengan una formacin adecuada y refe-
rentes claros que les permitan homogeneizar la produccin de tems y ajustarla a los niveles de
calidad requeridos.
Para conseguir este cometido, el procedimiento ms adecuado es que se disponga de un Ma-

nual de Escritura de Reactivos, diseado al efecto (ajustado al propsito y contenido de la
prueba a disear), y que contenga todos los elementos necesarios para que los diseadores de
reactivos puedan llegar a interiorizar el tipo de produccin de tems que se espera de ellos. As,
deben incluirse suficientes recomendaciones y ejemplos.
Al respecto, los criterios que hemos considerado en el comit se describen y comentan a

continuacin.
tt Elmanual describe y da ejemplos de todos los tipos de reactivos que tendr la prueba, indi-
cando cmo clasificarlos y justificarlos y haciendo referencia a la relevancia de las respuestas
de los examinados para el dominio pretendido.
En la documentacin aportada por la DGEP, se mencionan los siguientes documentos: Normas

para la Construccin de Reactivos de Opcin Mltiple; Normas de Presentacin y Estilo; y,
Normas para la Presentacin y el Estilo en la Redaccin de Reactivos de Opcin Mltiple.
En el documento de Normas para la Construccin de Reactivos de Opcin Mltiple, a travs de

cinco pginas se aportan normas y recomendaciones para el diseo de este tipo de reactivos.
El documento fue elaborado por la DGEP, si bien parece contener recomendaciones genricas,
y no dispone de ejemplos que apoyen la exposicin de las normas, por lo que parece que se ha
extrado de algn manual genrico.
Se cuenta con recomendaciones para el diseo del reactivo, de la base y de las opciones, pero con
referencia a otros documentos normativos, algunos de los cuales no estn disponibles. En todos

los manuales tcnicos se indica que Para la construccin de los reactivos se exigen normas por
parte de la DGEP para los diseadores. El incumplimiento de las normas para la construccin de
reactivos genera tres tipos de errores menores, mayores y crticos y se hace referencia a estas
normas (como se dijo varias de ellas no disponibles): planteamiento de los reactivos, planteamien-
to de la base, planteamiento de las opciones.
Al respecto se citan como referencias: Manual de gestin de la calidad, Norma (ISO 9001:2000)
NMX-CC-9001:2000 IMNC Sistema de Gestin de la Calidad, Normas para la Construccin
de Reactivos de Opcin Mltiple, Normas de Presentacin y Estilo, Normas para la Presenta-
cin y el Estilo en la redaccin de Reactivos de Opcin Mltiple, y Elaboracin de instrumentos
de Medicin.
La documentacin faltante es fundamental para respaldar este punto, porque se pueden en-
contrar otros portales de Internet con materiales de estudio preparados por la SEP, con enfoque
didctico, pero no fueron proporcionados para este proyecto, siendo informacin a revisar en
cuanto a pertinencia y vigencia.
Tambin en el Manual Tcnico 2012 se hace una referencia al anlisis dimensional de los domi-
nios en funcin de una taxonoma, que es necesaria para distinguir entre los diferentes niveles de
complejidad de los reactivos que, a su vez, se asocia con la demanda cognitiva de la prueba en
cada una de las subreas. La taxonoma se explica a los diseadores de reactivos y a los revisores,
pero la relacin con la lista de desempeos parece desvinculada o parcial. Esto es de importancia
porque se indica que: Los reactivos que se construyen deben corresponder al objetivo y nivel
taxonmico asignados en la tabla de especificaciones. Infringir esta norma representa un error
crtico (p.90). As, no hay evidencia suficiente de que se den pautas a los diseadores de reac-
tivos para justificar y clasificarlos, ni respecto al modo en que se evidencie la relevancia de las
respuestas de los examinados.
tt El manual usa tablas o modelos de especificaciones precisas como gua para homogeneizar
el diseo de los tipos de tems: formato o documento donde los diseadores de reactivos
hagan la captura y la modificacin.
En el Manual Tcnico 2007 se muestra un formato para la captura del reactivo (ver cuadro 1.14)
que se denomina Ficha tcnica del reactivo.
Aunque dicho formato ya no aparece en los manuales posteriores, es el que se sigui utilizando
para registrar despus el tem elaborado en el banco de reactivos (ver cuadros 1.13, 1.15 y 1.16),
el cual ha cambiado de formato con el tiempo y sirve a su vez como el insumo principal que
utilizan despus los jueces-revisores al evaluar los reactivos.
40
Cuadro 1.14
ASIGNATURA: NIVEL: GRADO: NMERO DE EXAMEN:

CONTENIDOS
TIPO DE TEXTO: QU EVALUAR: PROPSITO:
CURRICULARES:
REACTIVO:
A)
B)
C)
D)
JUSTIFICACIN:
A)
B)
C)
D)
NM. INVENTARIO: FECHA: AUTOR:
Fuente: Manual Tcnico de ENL ACE 2007
Cuadro 1.15

Cuadro 1.16
42
tt Elmanual fue desarrollado especialmente para la prueba de que se trate y tiene en cuen-
ta sus particularidades; no es aceptable un manual genrico o tomado de otro sistema
de evaluacin.
En los manuales tcnicos de ENLACE hay informacin bsica sobre las clases de reactivos:
individual, padres, hijos, pero no se cuenta con documentos citados en ellos y que se supone
se entregan a los diseadores y revisores de tems, donde posiblemente se encuentra esta in-
formacin especfica.
El documento sobre Normas para la Construccin de Reactivos de Opcin Mltiple, est suscrito
por la DGEP. Los restantes documentos mencionados son generales sobre orientaciones de calidad
y desarrollo de pruebas, pero no contienen referencias especficas para el diseo de reactivos.
Con todo, su contenido es genrico, reflejando normativas usuales que pueden encontrarse
en manuales de medicin en general o de diseo de reactivos en particular, por lo que no
se advierte una especificacin suficiente que relacione el planteamiento de normas y recomen-
daciones de manera particular para las pruebas ENLACE .
7. Los reactivos son diseados por un comit seleccionado teniendo en cuenta la espe-
cializacin acadmica, laboral y su representatividad respecto a la diversidad del pas,
y estuvo coordinado por una persona calificada en medicin y evaluacin
Los expertos en diseo de tems como Guttman (1969), Bormuth (1970), Hively (1974), Roid y
Haladyna (1982), Haladyna y Downing (1988), Tiemann y Markle (1990), Solano-Flores (1993),
y Downing y Haladyna (2006) establecen que, para propiciar el desarrollo de tareas evaluativas
vlidas, en el grupo que elabore los tems debe haber personas con el perfil profesional, acad-
mico, laboral y sociocultural adecuado, incluyendo:
Especialistas en el contenido curricular del rea, asignatura y materia cuyo dominio se

evala: analistas, asesores tcnicos y consultores acadmicos.
Especialistas en operacin del currculo en escuelas y aulas, como directivos escolares y
profesores en servicio con experiencia y reconocidos.
Especialistas en lingstica, para velar que los usos del lenguaje no incrementen innece-
sariamente la complejidad de los tems.
Especialistas en teora cognitiva del aprendizaje, para cuidar que no se altere la comple-
jidad cognitiva pretendida de los tems.
Especialistas en la disciplina del dominio curricular que se evala, para vigilar que no se
afecte el conocimiento disciplinario.
Representantes de grupos sociales que potencialmente pueden verse afectados por los
tems y la prueba, para identificar ofensa, penalizacin injusta y sesgo socioeconmico
y cultural en los tems.
Expertos en evaluacin y medicin educativas, que coordinan los trabajos del grupo y
supervisan el apego a estndares psicomtricos.
Adems de cuidar su perfil y representatividad debe proporcionarse una capacitacin tcnica

a los elaboradores de tems, la cual incluye contextualizar su participacin dentro del proceso
general para desarrollar el examen y revisar a profundidad los materiales elaborados por los

grupos que realizaron previamente la planeacin de las pruebas, como las tablas de especi-
ficaciones de cada examen y las correspondientes especificaciones de tems. Tambin incluye
revisar aspectos conceptuales y metdicos necesarios para el desarrollo de los reactivos, como
la elaboracin de cada tem de conformidad estricta con su correspondiente especificacin, el
uso de reglas de escritura y revisin de las preguntas del examen y de reactivos de opcin mlti-
ple, los mtodos para generar tems equivalentes, el anlisis de conceptos y procedimientos y el
uso taxonomas del dominio cognoscitivo, todo ello para armar una tarea evaluativa que resulte
vlida para explorar el dominio de cada contenido que se juzg importante evaluar.
Por ltimo, la capacitacin del grupo de elaboradores de tems incluye disponer de materiales
especficos como manual de capacitacin, formatos y otros elementos necesarios para el desa-
rrollo de los tems.
tt El
comit fue formado especficamente para realizar su labor, considerando todos los ele-
mentos caractersticos del tipo de prueba a disear.
En todos los manuales tcnicos se indica la integracin del comit de diseadores de tems,
pero no se cuenta con una lista detallada que indique su representatividad, ni los antecedentes
acadmicos y laborales de cada especialista, lo cual ayudara mucho a verificar el nivel de con-
tundencia de las evidencias disponibles.
Al respecto, se sabe que los elaboradores de tems fueron siempre personal externo a la DGEP,
pues en todos los manuales (2007, p. 4- 29; 2008, p. 4-29; 2009, p. 99; 2010, p. 97; 2011, p.
83; 2012, p. 85; y 2013, p.105) se afirma que Los reactivos que integran las pruebas de ENLACE
fueron elaborados por personal contratado por la DGEP conforme a las normas establecidas al
respecto por esta misma dependencia.
En todos los manuales se afirma, adems, que:
la fase de elaboracin de reactivos implic la conformacin de grupos de trabajo

por cada asignatura (Espaol y Matemticas y la tercera asignatura rotativa) cada grupo
se dividi en subgrupos para atender los grados escolares contemplados en el proyecto se
nombr un coordinador por cada asignatura y un responsable por cada grado/asignatura.
Sin embargo, no se cuenta con evidencia que lo confirme.
En cuanto a la metodologa que utilizaron para disear los tems, en los manuales se afirma que:
Sin excepcin, los grupos de trabajo abordaron la elaboracin de reactivos de acuerdo con
las siguientes etapas: 1. Anlisis de las tablas de especificaciones. 2. Elaboracin de reactivos.
3. Discusin de reactivos. 4. Integracin de los reactivos al banco.
En el MT de 2013 (p: 82) se describen brevemente las fases de desarrollo de la prueba (ver cuadro
I.17), pero no se aporta informacin especfica sobre los procesos que venimos comentando.
Aunque se describen brevemente tales etapas, poco se sabe sobre cmo fueron capacitados
esos grupos, cmo desarrollaron su trabajo o qu materiales tcnicos utilizaron para apoyar
sus actividades. Al respecto, las nicas evidencias disponibles son el breve manual del trabajo
de los especialistas ya mencionado y el producto de su trabajo; es decir los tems elaborados
que se ilustran en los manuales y los que aparecieron en la pgina web de la DGEP tras haber
sido liberados todos los tems.
44
Cuadro 1.17 Extracto de las fases aqu analizadas
Fuente: Manual Tcnico de ENL ACE 2013.
tt La capacitacin de los redactores de tems incluy procesos metodolgicos y referencias a las

taxonomas o sistemas de clasificacin cognitiva usados para especificar el dominio a evaluar.
Como ya se seal, aunque se defini el uso de la taxonoma de Bloom no todas las tablas de
especificaciones de las pruebas que aparecen en los manuales tcnicos incluyen una columna
donde se establezca el nivel taxonmico asociado a cada contenido.
Tambin llama la atencin el hecho de que se mencione la taxonoma de Bloom como referen-
cia, y no su revisin ms actualizada, que simplifica y facilita el diseo de pruebas (Anderson y
Krathwohl, 2001). Una de las crticas ms frecuentes que se ha hecho a la Taxonoma de Bloom
es su complejidad para ser aprovechada particularmente por el profesorado para el diseo de
pruebas. Aspecto que mejora sustancialmente la revisin de Anderson y Krathwohl.
En consecuencia, la definicin del nivel cognitivo al que se debe dominar cada contenido parece
haber sido en ltima instancia responsabilidad de los elaboradores de los tems, quienes para ello
debieron interpretar el contenido y establecer el nivel de demanda cognitiva que le corresponda.
Adems de las pocas tablas que incluyen la columna con los niveles taxonmicos, en todos los
manuales tcnicos se observa que cada tem tuvo asignado un nivel taxonmico, el cual como
ya se dijo qued registrado en la base de datos del Banco Nacional de Reactivos en la seccin
Ficha tcnica del Reactivo, como puede apreciarse en los cuadros 1.13 y 1.18.
Control de la calidad de los tems por el comit de revisin
La validacin de tems mediante juicios de expertos es una etapa fundamental del proceso
de desarrollo de instrumentos de evaluacin del aprendizaje que ha sido ampliamente docu-
mentada por diversos autores (Hambleton, 1993; Nitko, 1994, 1995; Popham, 1990; Jornet y
Surez, 1990; Solano-Flores et al., 2001; 2003), los cuales definen un perfil de especialistas
similar al de quienes desarrollan los tems, mismos que en conjunto representen la disciplina
involucrada, el currculum cuyo dominio se evala, la operacin curricular en aulas y escuela,
la lingstica, la teora cognoscitiva, la psicometra y los grupos socioculturales que puedan ser
afectados por el tratamiento que se dio a los tems de la prueba.

Las principales acciones que deben realizar dichos especialistas incluyen analizar cuidadosa-
mente el alineamiento de cada uno de los reactivos elaborados con la correspondiente espe-
cificacin de tems que lo produjo, as como la correspondencia de ambos con el currculum y
con los dems productos de la planeacin del examen. Adems debern detectar en cada tem
los errores de naturaleza conceptual, fallas al cumplir la normatividad de la redaccin tcnica,

sesgos, complejidad cognitiva innecesaria, falta de representatividad curricular y otras fallas que
pueden presentar, as como de manera congruente y responsable sugerir modificaciones en los
reactivos que permitan mejorarlos.
En definitiva, se trata de que un comit independiente del anterior, revise cuidadosamente los
reactivos con la finalidad de liberarlos de posibles errores sistemticos.
Existe un manual o gua para el anlisis de reactivos que seala los criterios de acep-
tacin, revisin y modificacin.
La capacitacin del grupo de jueces que evala los tems requiere disponer de un manual que in-
cluya protocolos y criterios de trabajo para revisar aspectos tcnicos de orden conceptual y proce-
dimental sobre validacin de tems, como son los tipos de evidencias de validez relacionadas con
el proceso de validacin de tems y los mtodos que se pueden emplear para obtener tales eviden-
cias; la estructura del formato de evaluacin que emplearn; los lineamientos normativos a que
debern ajustarse y los procedimientos especficos que utilizarn para llevar a cabo la evaluacin.
Un aspecto adicional a considerar cuando se trabaja con comits de juicio es la identificacin

de la composicin de los mismos, sealando roles y aspectos a considerar por cada comit.
Por ejemplo, en el anlisis de congruencia tem-objetivo pueden priorizarse especialistas en
currculum que, a su vez, puedan valorar claramente si los niveles de demanda cognitiva que
se plantean en los reactivos corresponden a los del currculum previsto. En el caso de docen-
tes frente a grupo, pueden valorar la claridad de la formulacin, y si los reactivos representan
adecuadamente los niveles de demanda cognitiva que corresponden a las oportunidades de
aprendizaje que se proporcionan en las aulas, y as sucesivamente.
En todos los casos es necesario que un especialista en medicin/evaluacin coordine los procesos
de los comits y asesore, en caso de duda, a los jueces. Por ello, la estructura de los comits es im-
portante considerarla y plasmarla en relacin con las tareas que han realizado cada uno de ellos.
De la buena asociacin entre estructura y tipologa de comit y tarea asignada, deviene buena
parte de la consecucin de validez de los reactivos.
tt Presenta la estructura con las funciones representadas en el comit evaluador.
No hemos encontrado evidencias documentales en las que se plasme la estrategia de compo-

sicin de comits, ni su relacin con las tareas asignadas. No obstante, y como comentamos
en el punto siguiente, s que se recaban las especialidades de los jueces (aspecto que queda
documentado en el sistema informtico que se desarroll para capturar las valoraciones de re-
activos). Con todo, entendemos que muy posiblemente la composicin de comits dependiera
de criterios de oportunidad (dado que se advierte en todo el proceso la necesidad de responder
con urgencia a las demandas de diseo de la prueba), como seleccin de especialistas y profe-
sorado disponible, relacionado con la SEP o alguna institucin que colaborara en la tarea.
46
tt El manual describe procedimientos/criterios para revisar tems por jueceo.
Entre los documentos aportados por la DGEP se incluyen dos de ellos relacionados especfica-
mente con este aspecto: el Manual del usuario juez y una sntesis de las opiniones de un grupo
de jueces que elaboraron un dictamen sobre los tems de una prueba.
El Manual de usuario-Juez es un documento de 14 pginas que ofrece una gua para apoyar al
usuario del Sistema Nacional de Reactivos, de manera que pueda darse de alta en el sistema
informtico y navegar por la aplicacin a fin de ingresar, incorporar sus datos personales y la-
borales para establecer su perfil como juez, e ingresar al rea donde puede localizar los tems
asignados que le corresponde dictaminar, as como registrar sus juicios sobre cada uno de ellos.
Para efectuar esto ltimo, se le indica que debe seleccionar sus respuestas a las preguntas pre-
sentadas, seleccionar un dictamen entre varios posibles (Aceptado, Aceptado con observaciones
y Rechazado), agregar una observacin y activar la emisin del dictamen.
Aunque en realidad no se trata de un manual tcnico para la capacitacin del grupo de jueces
que incluya aspectos conceptuales, procedimientos, criterios y otros de los elementos antes men-
cionados que son necesarios para la validacin de tems, se observa que hay algunos temas que
estn relacionados. Por ejemplo, en las cuadros 1.18 y 1.19 aparecen dos secciones de la interfaz
que muestran ciertos aspectos que forman parte del proceso de validacin de tems mediante
juicios, como el nombre del contenido cuyo dominio evala el tem, el nivel taxonmico, si se
trata de un multireactivo y por ello depende de informacin contextual. Adems incluye tres
secciones de preguntas: generales sobre el tem, sobre la base de tem y sobre las opciones de
respuesta (en el cuadro 1.18), as como una ilustracin del tipo de preguntas que debe responder
el juez y la forma en que debe responderlas (en el cuadro 1.19).
Respecto al documento Sntesis de opiniones jueces-dictamen, aunque en l no se ofrece

mucha informacin al parecer presenta la forma en que se calcul el grado de acuerdo entre
los juicios formulados por tres jueces que elaboraron un dictamen sobre cada uno de los
tems de una prueba. Como puede observarse en el cuadro 20, para cada tem se promedi
la suma de los dictmenes de los jueces y el resultado determin finalmente el rechazo o la
aceptacin del tem.
No obstante, en el trabajo con comits de juicio hay que tener en cuenta que se trabaja con un
nmero reducido de observaciones, por lo que la sntesis basada en el promedio no es habitual-
mente el descriptivo de eleccin.
De usarse, es conveniente que se acompae del Cociente de Variacin, que nos aportara informa-
cin acerca del grado de variabilidad de las respuestas de los jueces a cada reactivo. Ello ayuda a
decidir acerca de si el acuerdo mostrado por el promedio es representativo o no. En caso de que
no sea as, suele optarse por la mediana o, incluso, por la moda.
Asimismo, es conveniente que se incluya un anlisis de consistencia de jueces, al menos para

grupos de reactivos que midan reas de contenido, por ejemplo, cuando valoran tems de
aritmtica, o de geometra. Esa medida de consistencia puede sustentarse en la Correlacin
Intraclase entre jueces, en el coeficiente de concordancia W de Kendall, en la Kappa de Cohen
o en un anlisis logstico de facetas. No hemos encontrado evidencia documental acerca de
este tipo de acercamiento, por lo que puede entenderse que la sntesis de juicio se ha basado
en aproximaciones dbiles, y que ha estado poco trabajada para una prueba de alto impacto.

Cuadro 1.18
Fuente: Sistema informtico de la DGEP. Manual del usuario-juez
Cuadro 1.19
Fuente: Sistema informtico de la UPEPE . Manual del usuario-juez
48
Respecto al documento Sntesis de opiniones jueces-dictamen, aunque en l no se ofrece mu-
cha informacin al parecer presenta la forma en que se calcul el grado de acuerdo entre los
juicios formulados por tres jueces que elaboraron un dictamen sobre cada uno de los tems de una
prueba. Como puede observarse en el cuadro 1.20, para cada tem se promedi la suma de los
dictmenes de los jueces y el resultado determin finalmente el rechazo o la aceptacin del tem.
No obstante, en el trabajo con comits de juicio hay que tener en cuenta que se trabaja con un
nmero reducido de observaciones, por lo que la sntesis basada en el promedio no es habitual-
mente el descriptivo de eleccin.
De usarse, es conveniente que se acompae del Cociente de Variacin, que nos aportara infor-
macin acerca del grado de variabilidad de las respuestas de los jueces a cada reactivo. Ello ayuda
a decidir acerca de si el acuerdo mostrado por el promedio es representativo o no. En caso de
que no sea as, suele optarse por la mediana o, incluso, por la moda.
Asimismo, es conveniente que se incluya un anlisis de consistencia de jueces, al menos para gru-
pos de reactivos que midan reas de contenido, por ejemplo, cuando valoran tems de aritm-
tica, o de geometra. Esa medida de consistencia puede sustentarse en la Correlacin Intraclase
entre jueces, en el coeficiente de concordancia W de Kendall, en la Kappa de Cohen o en un
anlisis logstico de facetas. No hemos encontrado evidencia documental acerca de este tipo de
acercamiento, por lo que puede entenderse que la sntesis de juicio se ha basado en aproxima-
ciones dbiles, y que ha estado poco trabajada para una prueba de alto impacto.
Cuadro 1.20
Fuente: Documento Sntesis de opiniones jueces-dictamen, aportado por la DGEP.
Otro factor clave para trabajar en pro de la validez de los reactivos y la prueba, es la cualificacin
de los integrantes de los comits de revisin.

La cualificacin, en este caso, entendemos que se apoya, al menos, en tres grandes factores: a)
profesional (dependiendo de la tarea a realizar, deberan ser especialistas en currculum, profeso-
rado frente a grupo con experiencia y formacin evaluativa, lingistas), y b) diversidad geo-
grfica (como garanta para representar la diversidad de situaciones socioculturales, econmicas
y escolares de Mxico), y c) diversidad en cuanto a modalidad educativa en que realizan su traba-

jo en el caso de profesorado frente a grupo (como garanta para representar adecuadamente
los factores caractersticos que pueden influir o darse en cada modalidad).
De este modo, los criterios de seleccin de revisores deberan contemplar al menos los fac-
tores mencionados.
tt Se utilizaron criterios de seleccin de jueces con un perfil acadmico y laboral preciso y con
representatividad de la diversidad del pas.
Se debe suponer que los evaluadores son representativos y experimentados, especialistas en

las asignaturas, con experiencia en evaluacin, construccin y anlisis de reactivos. Al respecto
los manuales tcnicos sealan: el jueceo se ha realizado con la participacin de profesores de
las 32 entidades federativas del pas, adems de profesores del SNTE y de las reas Estatales
de Evaluacin (MT 2012: 93; 2013:113). Tambin sealan que en los talleres de jueceo se ha
contado con la participacin de personal de la Sociedad Matemtica Mexicana, de la Direccin
General de Desarrollo Curricular, del SNTE y del INEE (MT 2012: 94; 2013:113). Se indica ade-
ms que hasta 2008 el INEE defini el perfil de los jueces, proporcion el software para la vali-
dacin y coordin el proceso de jueceo de reactivos, que la DGEP coordin los trabajos y junto
con el ILCE se sistematiz el proceso (MT 08: pgs. 4-40 a 4-44), y que en aos 2012 y 2013 el
proceso de validacin de reactivos fue llevado por la Subsecretara de Educacin Bsica, y que
la DGEP se ocup de sistematizar la informacin resultante (MT 2013:86).
En los manuales tcnicos se seala la participacin numerosa de especialistas de asignatura

capacitados para ser diseadores y validadores, pero no se proporcionan listas de los jueces, ni
tampoco hay evidencias del programa de capacitacin, como el temario o el nmero de horas
de cada taller. No obstante, en el Manual Tcnico 2008 se detalla un procedimiento desarro-
llado por el INEE que se oper con 55 profesores de 32 entidades para revisar: 1) representati-
vidad del dominio de los contenidos curriculares, 2) formulacin de cada reactivo, 3) presencia
de sesgos (MT08: pgs. 4-40 a 4-44).
tt El comit de revisin est formado por jueces diferentes al del de escritura de tems.
Aunque no existen pruebas documentales de la tipologa de comits y su composicin concreta,

se entiende que este criterio se tuvo en cuenta, a partir de los documentos observados (MT,
documentacin de revisores). No obstante, es evidente la debilidad de la falta de estructuracin
y documentacin disponible al respecto.
tt Se detalla el procedimiento que se sigui para capacitar a los evaluadores.
Ms all de los documentos mencionados en puntos anteriores acerca de la existencia de un

documento para apoyar la redaccin de reactivos de eleccin mltiple, y del procedimiento
desarrollado por el INEE hasta 2008 para revisar la representatividad del dominio de los conte-
nidos curriculares, la formulacin de cada reactivo y la presencia de sesgos (MT08: pgs. 4-40 a
50
4-44), no se ha encontrado evidencia documental acerca de los procesos que se llevaron a cabo
para capacitar a los evaluadores de reactivos.
nicamente se ha observado la plataforma de captura de informacin que se les facilitaba, en

la que existen indicaciones acerca de los elementos de los reactivos a revisar (base, alternativas
distractores), pero no se incluyen criterios definidos, ni ejemplos de buenas y deficientes
prcticas de elaboracin de reactivos.
10. El sistema de revisin lgica de cada tem incluye:
tt Anlisis de calidad tcnica: claridad en la formulacin, adecuacin al marco de prueba.

tt Anlisis de la congruencia tem-contenido o tem-objetivo (subdominio).
tt Anlisis de posibles fuentes de sesgo de cada reactivo: gnero, diversidad cultural y otras.
tt Anlisis de concordancia de juicio para la seleccin de reactivos o procedimientos para esti-
mar la confiabilidad de los juicios de los evaluadores.
La revisin lgica de reactivos es un aspecto central para asegurar la validez. Se trata de eliminar
posibles errores sistemticos, previamente a su pilotaje. En cualquier caso, la revisin de reacti-
vos puede realizarse de diversas maneras: analticas o sintticas.
En las pruebas de alto impacto, que son referencia acerca de niveles de personas, y que se
aplican a gran escala (en contextos socioculturales, econmicos y escolares muy diversos), el
enfoque ms adecuado es el analtico, en que se gua la revisin a realizar aportando a los
jueces revisores criterios especficos sobre los cules centrar su atencin al revisar los reactivos.
As, se atienden tanto caractersticas de calidad tcnica (formulacin, base del tem, existencia
de respuesta correcta, calidad de distractores), como su adecuacin a la unidad del dominio
curricular que pretender medir, y la posibilidad de detectar elementos socioculturales y lings-
ticos que puedan ser fuente de funcionamiento diferencial de tems (DIF ) y, en su caso, puedan
considerarse sesgos (como factores indeseables en las pruebas que afectan a la justicia y equi-
dad de la evaluacin).
En el caso de ENLACE, revisando la documentacin y manuales tcnicos, si bien se aprecia una fase
de revisin de reactivos, no se especifica una gua de criterios en los cuales sustentar la revisin.
Como ya se indic, en los manuales tcnicos se menciona que los elementos a revisar son la
representatividad del dominio de los contenidos curriculares, la formulacin de cada reactivo y
la presencia de sesgos. Tambin se seala que hay criterios de congruencia de los tems a revisar
y la congruencia entre los contenidos y los programas.
Adems se refieren criterios para aceptar, modificar, dejar sin observaciones o rechazar los tems
y lo mismo para los reactivos de las pruebas matriciales, pero hay el inconveniente de que a
partir de 2012 ya no se realiz el taller de jueceo, sino que los reactivos fueron sometidos a un
proceso de validacin directa por la Subsecretara de Educacin Bsica de la SEP (en 2012) o de
la DGEP (en 2013).

Por ello, al no encontrar evidencia documental suficiente al respecto, entendemos que el enfo-
que de revisin que se ha utilizado ha sido sinttico, es decir, una valoracin de cada reactivo
en cuanto a sus caractersticas de definicin (base, alternativas), pero que no se ha guiado en
funcin de ninguna especificacin diferencial de criterios.
De hecho, en el formulario de sntesis que se aporta como documento de reporte de la revisin

de reactivos, cada juez otorga una nica valoracin al reactivo (aceptacin/revisin/rechazo),
si bien en observaciones puede explicitar los motivos de la decisin, y elementos de mejora.
Con todo, entendemos que es una debilidad en el diseo de la prueba.
Por otra parte, no se cuenta con anlisis de sesgo, DIF, habilidad lectora o velocidad de lectura
respecto de la prueba y otras implicaciones que son parte sustancial de la identificacin de la
calidad mtrica de la prueba, por una parte, y por otra como demostracin de que no se indu-
cen errores sistemticos en contra de personas o grupos en particular.
Los anlisis de DIF o DPF (funcionamiento diferencial de tems o de personas), estn pendientes
desde el MT 2007, donde fue sealada su necesidad; por ello no se tiene la justificacin de que
no se necesita hacer una equivalencia o anlisis contextual por sexo, modalidad escolar, regin
o poblaciones especficas, uso de lenguaje o grficas especficas. En el MT (2012:60) se afirma
que la SEP encarga estudios especiales a agencias o instituciones de apoyo, pero no se cuenta
con los reportes.
Respecto a la estimacin de la confiabilidad de los juicios de los evaluadores, ya observamos en

el segundo subcriterio del criterio 8, la existencia del documento Sntesis de opiniones jueces-
dictamen, en el cual se presenta cmo se calcul el grado de acuerdo entre los juicios formu-
lados por tres jueces que elaboraron el dictamen sobre cada tem de la prueba, y en el cuadro
I.20 se advierte que para cada tem se promedi la suma de los dictmenes de los jueces y que
el resultado determin finalmente el rechazo o la aceptacin del tem. Sin embargo, como se-
alamos, la sntesis de juicio basada en el promedio es una aproximacin dbil a la confiabilidad
de los juicios que no corresponde a una prueba de estas caractersticas.
El alineamiento de la prueba al currculum, junto con la relevancia y representatividad del con-

junto de los tems que la integran respecto al currculum, son los criterios fundamentales para
asegurar la obtencin de evidencias de validez relacionadas con el contenido del instrumento.
Por ello constituyen los referentes principales para guiar tanto su desarrollo como su evaluacin.
La idea de alineamiento de la prueba hace referencia tanto a la correspondencia, como al ajuste
o armonizacin entre los productos de su planeacin.
As al evaluar el alineamiento de la prueba se busca, en particular, identificar la correspondencia

y ajuste de cada tem con la especificacin que lo produjo; de ambos componentes con el con-
tenido cuyo dominio se juzg importante evaluar; y de los tres componentes con el subdominio
en que se ubica el blanco curricular cuyo dominio se evala. En general, se busca determinar si
el conjunto de tems desarrollados se corresponden y armonizan con el conjunto de especifica-
ciones de tems a partir de los cuales se generaron; si ambos componentes permiten dar cuenta
52
del dominio del universo de medida que llamamos prueba; y si a su vez tales componentes y
relaciones constituyen un cmulo de evidencias que permiten hacer inferencias vlidas acerca
del dominio del universo de contenido que llamamos currculum.
tt Tras analizar los tems del pilotaje y desechar los que no cumplan los criterios, se verifica que
el contenido de las pruebas a aplicar corresponda al dominio curricular en todos los aspectos
y niveles de demanda cognitiva planeados.
En los manuales se comenta que, dada la alta volatilidad de la prueba, en el pre-test se incluye
una cantidad suficientemente grande de reactivos para piloteo a fin de poder calibrarlos, y con
ello asegurar la construccin de las pruebas del ao siguiente en condiciones de comparabili-
dad (MT 2012:24).
Por otra parte, se indica que tras la validacin que hacen los jueces de la calidad individual y
colectiva de los reactivos construidos se verifica que, en su conjunto, constituyan una muestra
representativa y suficiente del dominio de conocimientos a evaluar. (MT 2012:25).
Adems se seala que el equipo que opera las pruebas piloto se encarga de la revisin de la
prueba y la construccin del examen, basndose en las especificaciones de los contenidos y en
los criterios y las consideraciones estadsticas (MT 2012:60).
Por otro lado se especifica que para la construccin de las pruebas definitivas se eligen los reac-
tivos partiendo de las calibraciones de la validacin y del piloteo, y que este trabajo es realizado
por la DGEP y lo presenta a otras instancias del Consejo Tcnico para su anlisis y consenso.
(MT 2012:65)
En cuanto a la mencin de algn procedimiento para garantizar que se preservan los niveles
de demanda cognitiva de los tems cuando sustituyen a otros que los tenan especificados pero
fueron eliminados tras el pilotaje, no se encontr alguna indicacin o referencia.
tt Se cuida la alineacin tems-test-currculum, tems-test-estndares de interpretacin y, de

ser posible, tems-test-enseanza e tems-test-evaluacin en aula.
Todos los manuales tcnicos, algunos documentos incluidos en el CD que entreg la DGEP y
la pgina web de dicha dependencia, ofrecen varios tipos de evidencias que muestran que se
cuidaron diferentes tipos de alineamiento.
El estatus relativo de ciertas evidencias ya se coment en puntos anteriores, como el caso de la ela-
boracin de las tablas de especificaciones de las pruebas por parte de los diseadores del currcu-
lum y su revisin en ocasiones por el personal de la DGEP, y en otras (por lo menos en las pruebas
aplicadas en 2013) su elaboracin por la DGEP y revisin a cargo la DGDC de la SEP (MT 2013: 21).
Tambin es el caso de los reactivos que se disearon a partir de especificaciones de tems

cuando estas fueron incluidas en dichas tablas y cuyo alineamiento se supone que fue revisado
por los jueces que dictaminaron esos reactivos, as como del estudio que comision la DGEP a
una instancia externa para analizar el currculum y detectar el contenido importante a evaluar
que sirvi de base para que la DGEP estructurara las tablas de especificaciones que fueron
revisadas posteriormente por especialistas de la DGDC, el cual se mencion en el criterio 2 del
presente documento.

En estos y en muchos otros casos de observa preocupacin por buscar la correspondencia y
armonizacin de los tems con la prueba y el currculum.
En cuanto al alineamiento de los tems y pruebas con aspectos de la operacin curricular como
la instruccin y la evaluacin en el aula, no se incluyen evidencias acerca de que se haya estu-

diado la alineacin de la formulacin de reactivos con los modos en que se trabaja en el aula,
ni en cuanto a la enseanza, ni en relacin al modo en que son habitualmente evaluados los
estudiantes. Este aspecto es muy relevante, pues las distancias entre los enfoques metodolgi-
cos didcticos usuales y los modos de evaluacin en el aula, pueden ser factores que expliquen
diferencias en cuanto al desempeo del alumnado. Es, pues, una fuente de invalidez que no
est controlada.
Lo que s pudimos observar en la pgina de la DGEP en Internet es una seccin denominada

Apoyos para el uso pedaggico de los resultados ENLACE , que contiene un documento para
cada grado y materia evaluada, el cual est dirigido a los docentes e incluye cinco apartados
donde se ofrecen datos de la medicin practicada por ENLACE que se vinculan estrechamente
con el trabajo en el aula. En esta seccin se incluye un procedimiento que se recomienda para
el diseo de estrategias didcticas a partir del anlisis de las caractersticas tcnicas de la prue-
ba, como el grado de dificultad de los reactivos en cada subdominio curricular, los resultados
obtenidos en la evaluacin por los alumnos segn la modalidad educativa y por opcin de res-
puesta elegida en cada tem (ver cuadro 1.21), as como orientaciones generales y sugerencias
didcticas para utilizar la informacin en el aula. Sin embargo, este aspecto entendemos que
est ms relacionado con el intento de dar mayor utilidad al uso de los resultados de evaluacin
por parte del profesorado.
Cuadro 1.21
Fuente: Pgina web de la DGEP : Seccin Apoyos para el uso pedaggico de resultados ENL ACE.
54
tt Se dispone de una metodologa para demostrar la validez de contenido (cualitativa y cuan-
titativa) de la prueba.
tt Se muestran evidencias para fundamentar la validez de contenido.
La metodologa para construir la prueba a partir de los bancos disponibles no parece estandari-
zada (por ejemplo por muestreo del banco de tems, aleatorio, estratificado o de otro tipo, aso-
ciado a la tabla de validez de contenido), porque se aclara que la construccin del instrumento
es por eleccin a criterio del diseador de la prueba, con el mejor reactivo posible.
Posteriormente la prueba pasa a revisin y validacin de expertos para admitir que la muestra
de tems es pertinente, relevante y suficiente, segn se establece en las especificaciones, pero
esto no garantiza la distribucin de tems en la escala.
Tomando en consideracin los documentos proporcionados en cuanto a los procesos que se

siguieron para la elaboracin de los reactivos en particular y el diseo y estructuracin de la
prueba en general, al igual que los estadsticos calculados y presentados para documentar
la confiabilidad y dimensionalidad de la prueba, podemos afirmar que se han encontrado pocas
evidencias tanto cualitativas como cuantitativas respecto a la validez de contenido de la prueba.
CONCLUSIN
Despus de examinar la documentacin que aport la DGEP sobre las pruebas ENLACE desarro-
lladas entre 2006 y 2013, el grupo que examin dichas evidencias mediante la aplicacin de los
criterios evaluativos considerados en este apartado, arrib a las siguientes conclusiones generales:
1. Las pruebas referidas a un criterio se sustentan en anlisis pormenorizados del Dominio

Educativo que requieren el concurso de comits de jueces constituidos de acuerdo a cri-
terios que aseguren la validez de la traduccin del Universo de Medida en una prueba.
En el caso de ENLACE no se utilizaron estas metodologas, ni se document explcita-
mente los procesos que se utilizaron en todos los casos.
2. Este anlisis fue llevado a cabo por el mismo grupo de especialistas que desarroll el
currculum en la DGDC, lo que permiti asegurar una continuidad entre el universo de
medida y su explicitacin en forma de prueba. Esta forma de actuacin, aunque no es
la ms recomendable desde el punto de vista mtrico, estimamos que constituye una
garanta suficiente para contar, en cada edicin de pruebas, con un marco terico ac-
tualizado que ofreci una continuidad entre el currculum y las pruebas.
3. No obstante, la situacin anterior no propici un desarrollo apropiado de aspectos tc-
nicos cruciales para la planeacin de las ENLACE , como son la representatividad de los
dominios y subdominios del contenido a evaluar, las especificaciones de cada prueba
y las especificaciones de tems para normar su diseo; en tales casos no se siguieron
procedimientos homogneos y, al parecer, no se incluyeron estrategias de validacin
basadas en grupos independientes de especialistas interdisciplinarios, por lo que los
correspondientes productos resultaron desiguales e incompletos. As, entendemos que
es posible que la representatividad en las pruebas (en especial las de Espaol) de los
dominios evaluados, sea parcial, no exhaustiva. En todo caso, la falta de documentacin
no permite hacer una valoracin ms precisa sobre estos procesos.
4. El procedimiento que se sigui para seleccionar los contenidos a evaluar tampoco est
bien documentado. Se desconoce, en general, cmo se determin la importancia relativa

de los contenidos que se consideraron importantes para ser evaluados. Del mismo modo,
este comit no ha encontrado evidencias acerca de si fue considerada (y de qu forma)
la complejidad cognitiva involucrada en su dominio. Aunque hay evidencias de que se
tuvieron en cuenta tales aspectos en la construccin de las pruebas, particularmente en
los manuales tcnicos de 2012 y 2013 y en el Banco Nacional de Reactivos, no las hay
acerca de que se procediera de manera sistemtica y rigurosa. Por su parte, en el caso
del uso de protocolos verbales con examinados para analizar la complejidad cognitiva de
los tems, no se encontr evidencia alguna.
5. En general, las evidencias disponibles muestran que las fases de desarrollo y validacin
de los tems de las pruebas son las mejor logradas, entre las que se evalan en este apar-
tado. Sin embargo, existen muchos aspectos particulares en los cuales se observan limi-
taciones importantes que no se esperara encontrar en una prueba de gran escala con
las caractersticas de ENLACE . Las principales incluyen la escasa informacin disponible
sobre los perfiles de quienes disearon los tems o de quienes los validaron mediante
juicios, que permita observar sus antecedentes, representatividad y nivel de pericia;
el carcter genrico los manuales, formatos y procedimientos que se utilizaron para
la capacitacin de ambos grupos o para realizar sus actividades; as como la insuficiente
descripcin de los procedimientos tcnicos que operaron al realizar sus actividades.
6. En cuanto al alineamiento de las pruebas al currculum, se observ un claro inters por
buscar la correspondencia y armonizacin de los tems con la prueba y el currculum,
pero las evidencias disponibles no son suficientes para asegurar que ello se logr.
En sntesis, estimamos que las evidencias de validacin en el aspecto a que hacemos referencia,
son dbiles. Mxime si consideramos el gasto que supone realizar una prueba de estas carac-
tersticas en un pas de las dimensiones poblacionales como es Mxico, y el impacto que tiene
a nivel poltico y poblacional. Los aspectos relativos a la validacin de constructo y contenido,
son indisociables de los relativos a los de la validez consecuencial, por lo que cobran especial
relevancia las debilidades detectadas.
56
2 Aspectos psicomtricos
La prueba ENLACE -Bsica (en adelante ENLACE - B ) producida desde el ao 2007 por
la propia Secretara de Educacin Pblica se ha documentado en una serie de manuales tcnicos
hasta el ao 2013, donde se encuentra la informacin disponible del proyecto. A pesar de la
frecuencia anual de los manuales tcnicos y de la abundante informacin contenida en ellos,
la documentacin de la prueba deja pendientes muchos elementos que no se detallan en dichos
manuales, ni se tienen disponibles en otros materiales complementarios (investigaciones, pro-
yectos de anlisis, informes internos), los cuales son muy escasos y limitados, aunque deberan
haberse producido en mayor nmero, amplitud y formalidad por tratarse de una prueba de
alcance nacional.
Debido a esta insuficiencia de documentacin, se tiene muy poca evidencia del uso que se hace
de los resultados de las pruebas. De hecho algunos de estos usos son inconvenientes o no previs-
tos por el proyecto, pero se sabe que son realizados por asociaciones civiles o por los medios de
comunicacin, a pesar de las advertencias de la propia SEP para desalentar el uso indebido de las
bases de datos.
Sin lugar a dudas, la falta de documentacin formal de respaldo a los aspectos que se indican
en los manuales tcnicos como faltantes, son la principal debilidad de ENLACE-B, y esto incide
de forma notable al analizarse los aspectos tcnicos objeto de este captulo.
Varios elementos relacionados con la logstica y el manejo administrativo de los materiales, as

como la produccin de los reportes son cubiertos razonablemente bien por los responsables de
la SEP, en algunos casos con nfasis en el cumplimiento de estndares de gestin de la calidad
de procesos y servicios internos (en particular ISO 9000), lo cual es encomiable pero no suficien-
te desde el punto de vista de los criterios de calidad tcnica de las pruebas.
Algunos tpicos son medulares para garantizar que las pruebas satisfacen estndares mnimos
de diseo, se mencionan en diversos materiales pero se documentan de forma insuficiente o
inapropiada. As por ejemplo, no es suficiente afirmar que se hace un proceso de equipara-
cin, describirlo en un esquema y dar unos cuantos resultados, si no se cuenta con el estudio
realizado en ese sentido. A veces se citan estudios no disponibles o dejando al lector solo una
conjetura de que se realizaron debidamente. Por ello no es admisible la repeticin de los mismos
resultados que aparecen desde el manual 2007, dado el impacto que tienen estas pruebas en
cada estudiante y en las actividades acadmicas.
57
CRITERIOS TCNICOS SOBRE LA CALIDAD DE LAS PRUEBAS
1. Evidencias tcnicas de validez de las pruebas

tt Se describe el procedimiento seguido para el anlisis de validez de criterio, al menos en una

de sus formas (predictiva, concurrente o discriminante) y se reportan los valores obtenidos.
No se cuenta con un documento explicativo correctamente realizado; se menciona la produccin

de pruebas (denominadas alfa y gama) que serviran para comparaciones con la forma operativa
y que, a su vez, deberan respaldarse con un modelo terico en un reporte tcnico, pero no se
cuenta con l (solo estn disponibles algunas presentaciones en formato Power point, lamenta-
blemente sin el debido rigor metodolgico). En los manuales tcnicos se menciona que se hizo un
anlisis factorial y que las dimensiones se obtuvieron a partir de las comunalidades de los reactivos
ubicados por debajo del primer punto de corte, pero no se cuenta con datos contundentes de
que ese estudio se haya hecho, en cambio se tienen archivos con formato de presentaciones con
conclusiones y sugerencias donde no se aprecia una sistematizacin de los datos.
Los manuales tcnicos detallan los criterios fundamentales para seleccionar los contenidos pro-
gramticos en Espaol y Matemticas: 1) relevancia; 2) documentabilidad; 3) plausibilidad; 4) con-
tinuidad y; 5) abarcabilidad. Para Ciencias naturales se consideraron adems estos factores: 6)
esencialidad; 7) continuidad; 8) aplicabilidad; 9) actualidad; 10) interdisciplinariedad. No aparece
ninguna mencin a que haya este tipo de criterios utilizados para otras materias, con ello se pierde
una evidencia que permita fundamentar el diseo de la prueba.
En cuanto a la validez de criterio, se recibi informacin muy incompleta sobre un estudio que
relacion los resultados de ENLACE con los de una prueba de Australia (denominada SEP-ISA )
que toma como criterio un conjunto de reactivos de la prueba PISA , lo cual no deja de ser un
buen propsito si no se puede contar con la documentacin de manera formal, ya que no
vienen datos formalizando el estudio, solo algunas diapositivas en una presentacin a la cual
le faltan explicaciones y aclaraciones, lo cual hace suponer que se trata de informacin propor-
cionada por el autor durante su presentacin verbal. Adicionalmente se menciona en forma
descriptiva un estudio realizado en combinacin con PISA para la cohorte de 2012, con lo que
se afirma que:
Los resultados preliminares permiten llegar a la conclusin de que la correlacin entre la prueba
ENLACE y la prueba PISA es del mismo orden que las correlaciones observadas entre las sub-
dimensiones del dominio matemtico. Una consecuencia importantsima es que los datos de
ENLACE pueden ser utilizados para realizar predicciones acerca del posible comportamiento
de una cohorte respecto de la prueba PISA .
Esta conclusin debe acompaarse del estudio debidamente documentado y formalizado. Para
estudiar la validez tomando como criterio una poblacin de referencia de otro grado escolar
se plantea un anlisis de ganancia educativa, ms con nfasis de realizar la equiparacin de las
pruebas. Este aspecto solo queda en planteamiento al no contarse con la informacin comple-
tamente desarrollada y documentada.
58
tt Hay evidencia documental del anlisis de la validez de escala de la prueba y su pertinencia
en relacin con el constructo y el modelo del perfil a evaluar.
En los MT 2007 y 2008 se incluyeron evidencias grficas relativas a la validez de escala pero no
se volvieron a reportar despus. Sin embargo se hace una referencia contradictoria al respecto:
por un lado se habla de que las dificultades de los tems se distribuyen de manera uniforme
para reforzar la validez (esta prctica tiene el propsito de obtener medidas en todo el domi-
nio del perfil, con un orden de error uniforme), pero por otro lado se establece que la prueba
de referencia deseable est formada por tems de dificultad p=0.5 (equivalente a b=0 para el
modelo de la TRI ), con lo cual se refuerza la confiabilidad. Evidentemente, ambos modelos son
incompatibles y debera ser explicada la diferencia desde el punto de vista de los diseadores,
as como hacer estudios que demuestren la pertinencia de un modelo sobre el otro. Este criterio
con predominancia de la confiabilidad y los beneficios que se suponen por utilizarlo, son erra-
dos. Es claro que el diseo de la prueba debe incluir preguntas a lo largo del continuo, sobre
todo atendiendo a que se establecen puntos de corte en distintos tramos de la distribucin.
El utilizar 0.5 como criterio de diseo se pone en competencia contradictoria con la necesidad
de incluir preguntas de distintos contenidos y distintas demandas cognitivas.
Otra consecuencia que tambin puede catalogarse como inconveniente, es que con un diseo
con tems de valores cercanos a p=0.5 se obtienen distinciones muy finas pero irrelevantes al
centro de la distribucin y, al mismo tiempo, distinciones muy gruesas en los extremos de la distri-
bucin. Independientemente de que la prueba sea criterial, normativa o de otro tipo, si se tiene el
propsito y necesidad de medir el desempeo de los estudiantes en un conjunto de constructos
(competencias, habilidades o destrezas cognitivas), siempre debe haber preguntas que se disper-
sen a lo largo del continuo de la distribucin.
tt Se presenta documentacin que muestra cmo se realiz el proceso para analizar la validez
de constructo de la prueba y se presentan los resultados.
Se dispone de tablas descriptivas de los objetivos o competencias esperadas, definidos por in-
tervalos, lo cual puede interpretarse como reforzamiento de los posibles constructos definidos
en ENLACE . Las tablas son incompletas al incluir solamente algunos ejemplos, aunque podra
suponerse que la SEP cuenta con la totalidad de descriptores.
Se debe apuntar que la presentacin de las tablas es heterognea. Se puede justificar que estas
diferencias son atribuibles al tipo de materia y al grado escolar, pero estas diferencias tienen un
problema implcito porque conducen a criterios que no permiten justificar que se afirme que
ENLACE permite homologar las competencias en la escala vertical. Suponiendo que se haya
podido hacer esta homologacin, no se encuentra disponible la documentacin pertinente.
Sobre el diseo de las pruebas en trminos de los constructos se cuenta con informacin par-
cial e incompleta. En particular se dificulta comprender los archivos de Excel donde aparecen
los valores de las dificultades de los reactivos en porcentajes de aciertos y con los parmetros
de la TRI , pero falta informacin acerca del nmero de personas que contestan en cada caso,
as como el modelo muestral que permite la seleccin de tems en cada versin y la forma de
integrar estos reactivos en la prueba.
Aspectos psicomtricos 59
En el MT 2007 se observ la necesidad de llevar a cabo el anlisis de validez de constructo
(pudiendo ser por jueceo, por anlisis estadstico o mixto), que es un tipo de anlisis que aporta
evidencias de la calidad del diseo. No se tiene evidencia contundente de que se haya realiza-
do este tipo de anlisis, aunque aparecen citas en los siguientes MT indicando que se hicieron
anlisis de validez concurrente con varias pruebas. Como ya se cit previamente, se present un
material que describe un estudio realizado en combinacin con PISA para la cohorte de 2012
(proyecto SEP-ISA ), donde establece la similitud de ENLACE con la prueba internacional, lo cual
es interesante pero, al mismo tiempo, problemtico, dado el diferente marco de referencia de
ambas pruebas y de la poblacin a la que se aplican. El estudio no est debidamente formaliza-
do y no se cuenta con un reporte, artculo o anexo completo.
2. Anlisis integral de los procesos y mtodos para el desarrollo y construccin de las

pruebas, definiendo equivalencia y periodicidad.
tt Se indica el procedimiento seguido para construir las pruebas a partir de las especificaciones
y del banco de tems.
En el MT 2012 se indica que para el diseo se plantean dos instrumentos de caractersticas dis-
tintas: 1) Prueba operativa, censal, para las dos asignaturas principales y una asignatura rotativa.
ENLACE se organiza en subpruebas (una por asignatura), divididas en secciones, aplicadas en
dos das consecutivos y en varias sesiones diarias de 45 minutos. 2) Pre-test muestral con diseo
matricial, equivalente a la operativa presentada en 6 formas. El nmero de reactivos depende de
la sesin y las asignaturas se presentan en forma contrabalanceada en cada forma.
El detalle del diseo a partir del banco no est claramente definido, ms adelante se hace un
comentario sobre la informacin disponible acerca del banco de reactivos.
tt Se reportan pasos para producir formas o versiones de la prueba y delimitar su vigencia en

el tiempo o segn sedes o localidades.
La metodologa para construir la prueba a partir de los bancos disponibles no parece estandari-
zada, de tal modo que no est claro, por ejemplo, que se haga un muestreo del banco de tems,
aleatorio, estratificado o de otro tipo, asociado a la tabla de validez de contenido. En cambio se
aclara que la construccin del instrumento es por eleccin a criterio del diseador de la prue-
ba, con el mejor reactivo posible. Como no se cuenta con la evidencia documental acerca del
inventario de reactivos, no es posible juzgar la pertinencia de este procedimiento para localizar
al mejor reactivo posible.
En una siguiente etapa, la prueba pasa a revisin y validacin de expertos, quienes estn encar-
gados de admitir que la muestra de tems es pertinente, relevante y suficiente, segn se establece
en las especificaciones. Este procedimiento tampoco garantiza la manera en que se realiz la dis-
tribucin de tems en la escala. Sin embargo, en algunos documentos se menciona que se hacen
pruebas paralelas, lo que hace suponer que tambin se seleccionan tems a fin de que la forma
resultante sea paralela a la operativa, pero no se encontr evidencia al respecto.
A reserva de lo que se comenta ms adelante en la seccin relativa a los bancos de reactivos,

puede citarse en este momento que el MT 2012 indica los pasos para construir los bancos de
60
tems: construccin de reactivos, validacin (revisin interna), ajustes a reactivos, organizacin de
reuniones de jueces, taller de jueces, validacin por jueces (revisin externa), ajustes por jueces
a los tems. Se indican tambin los pasos para la produccin de pruebas: seleccin de reactivos,
ensamblado de la prueba, revisin de pruebas. Todas estas etapas pueden clasificarse como pasos
genricos que deben sistematizarse para disponer de un manual de construccin especfico.
tt Se cuenta con la metodologa de diseo que se utiliz para obtener versiones equivalen-
tes y reportar los valores de diseo y experimentales que demuestren dicha equivalencia.
No es aceptable reportar los resultados de la prueba sin evidencias de equivalencia entre
versiones o formas.
La equivalencia de versiones se presenta en forma esquemtica, sin evidencias cuantitativas de

dicha equivalencia porque el proceso es subjetivo y, por lo que se indica en el procedimiento
de elegir el mejor reactivo posible la decisin queda a cargo del diseador. Debido a que los
tems se divulgan al terminar la aplicacin, la vigencia de las formas se garantiza solo para el ao
del estudio, esto justific desde un principio plantear un modelo de equiparacin con personas
comunes, para no depender de reactivos comunes entre pruebas de dos aos consecutivos. Al
optar por un esquema de equiparacin de poblacin comn se debi de documentar el proceso
porque se afirma en el MT 2012 que actualmente se encuentra en construccin un esquema
de equiparacin vertical, pero no se proporcionan evidencias contundentes de esto. Tambin
se establece en el MT, sin documentacin apropiada, que el diseo de equiparacin cada ao se
construye una prueba paralela a la del ao anterior que, despus de ser debidamente validada
por jueces y sometida a piloteo, es aplicada en forma matricial a una muestra controlada de
la misma poblacin a la que se aplica la forma operativa de ENLACE (MT 2012: 101).
Por lo anterior, la equivalencia desde el punto de vista conceptual no est claramente definida,
aunque se dispone de ejemplos de tablas de especificaciones para las asignaturas y grados. Se
aprecia que las tablas que fueron diseadas con criterios heterogneos, adems de tratarse de dis-
tintas materias; debido a estas diferencias es difcil homologar la escala vertical de competencias
que se propone por parte del proyecto ENLACE. Indican que: Si bien el INEE aport, en el inicio de
ENLACE, un modelo de especificacin a seguir para la presentacin de las tablas, en la actualidad
presentan estructuras diversas, dados la orientacin y el enfoque de las distintas asignaturas que
se exploran.
En la seccin 1 de este informe se seala la importancia de contar con una descripcin detalla-
da de la prueba que contraste los componentes de competencia con los niveles taxonmicos,
conocido como test blueprint o marco de referencia de la prueba, pero para el diseo de las
pruebas solo se cuenta con la lista de temas y el nmero de tems (bajo el ttulo de estructura
de la prueba, pero sin referencia a niveles taxonmicos o dominios cognitivos), por ello no se
pueden garantizar las cualidades de diseo de cada versin de la prueba que permitiran dispo-
ner de pruebas comparables por diseo.
Aparentemente el piloteo de preguntas intenta resolver el problema con aplicaciones en es-

tudiantes de grado diferente y cuyos resultados de calibracin del ao anterior sirven para la
aplicacin siguiente. Por lo tanto, la utilidad del piloto se enfoca ms a una pre-calibracin que
a una equivalencia de versiones. Debido a que no se dispone del diseo mtrico de la prueba,
en trminos de distribucin de los tems, se est dejando al proceso matemtico de calibracin
la responsabilidad de garantizar la equivalencia de las versiones.
En las presentaciones de Power Point proporcionadas hay unas grficas que pretenden explicar
el proceso de equivalencia, pero carecen de documentacin y explicaciones, por lo que se hace
muy dudosa su interpretacin y le resta seriedad al proceso de igualacin, si es que se realiza.
No se dispone de los valores experimentales de las equivalencias, en su lugar se presenta la

correlacin entre las calibraciones de los reactivos operativos y las calibraciones considerando
operativos y pre-test juntos. Esta equiparacin no parece haberse actualizado desde 2007 y
no se presenta como ejemplo sino como modelo metodolgico. Al igual que otras partes, la
documentacin disponible se encuentra en un formato de presentacin (archivos de Power
Point), lo cual no permite analizar convenientemente el procedimiento seguido y los resultados.
Tambin se presentan esquemas de anclaje entre pruebas, que no incluyen formulaciones o expli-
caciones sobre la forma de calificacin, que se supone est asociada con el software empleado,
pero falta informacin a este respecto. Hay una mencin acerca del valor pequeo de los errores
(por ser un anlisis censal y por la cantidad de personas que intervienen en el estudio).
Por otra parte hay un estudio de equiparacin que se trata de justificar con un modelo bootstrap,
que puede ser apropiado al caso pero del cual falta informacin que permita identificar las ca-
ractersticas del modelo. El modelo bootstrap requiere definir el nmero de muestras, el nmero
de elementos en la muestra, la cantidad de posibles repeticiones consideradas para el proceso;
sin embargo, no se da informacin sobre esto, lo cual no permite valorar su pertinencia.
Conviene aadir que, en cuanto a la equiparacin por medio de correlaciones entre pruebas,
la correlacin no implica que se est midiendo lo mismo ni que se deba tratar una escala como
si fuese vertical. Por ejemplo, la correlacin en TIMSS entre Matemticas y Ciencias es > 0.8,
pero no se podra argumentar que miden lo mismo, aunque exista cierta comunalidad entre las
asignaturas. Igualmente debe anotarse que es de dudosa utilidad emplear alumnos en grados
superiores para evaluar las preguntas de la prueba operativa. Las preguntas se deben evaluar
con la poblacin focal para la que se aplicarn. Aparte de la escasa pertinencia de las compa-
raciones con una poblacin superior, no queda claro cmo se hace para evaluar las preguntas
del ltimo grado.
tt La periodicidad de las aplicaciones se justifica con criterios terico-metodolgicos o logsti-

cos sustantivos, distinguindolos de criterios polticos o de opinin.
ENLACE se propone con una periodicidad anual organizada en dos reas sustantivas de com-
petencias generales del currculum educativo (matemticas y Espaol). Se alternan cuatro
materias (Historia, Geografa, Ciencias, Educacin Cvica y tica) a lo largo de cuatro aos.
La justificacin de esta periodicidad y eleccin de temas aparece enunciada en forma bsica
general, porque no se tiene evidencia de que haya habido un acuerdo de Consejo, o una
instruccin secretarial, por ejemplo. Por las caractersticas de ENLACE que depende de la au-
toridad federal de educacin, esto puede parecer suficiente para los fines del MT, pero pudo
documentarse mejor para esta evaluacin.
Se justifica realizar una aplicacin censal anual para cubrir el propsito de retroalimentar a alum-
nos, padres y maestros. La oportunidad de la prueba como fuente de informacin para las
personas y usuarios involucrados, es una cualidad deseable de una prueba de alcance nacio-
nal como ENLACE . Por ello no queda muy clara la forma en que sta puede intervenir en la
retroalimentacin, porque si bien es claro que la prueba cubre lo que se ve en el ciclo escolar,
62
es muy probable que no se cuente con tiempo para que el estudiante, el docente y la escuela
puedan realizar nuevas experiencias de aprendizaje dentro del curso y se tendra que pensar en
la utilizacin de los resultados para los siguientes cursos. La oportunidad de la prueba queda
en entredicho si se deja al inters personal de los estudiantes (o los padres de familia) la consulta
de la pgina web de la SEP para identificar los aciertos y deficiencias de cada quien y tomar
medidas correctivas para un curso que ya termin.
En el MT 2012 se indica:
ENLACE es, as, un programa fundamental que la Secretara de Educacin Pblica (SEP)
desarrolla ante las exigencias actuales de rendicin de cuentas proporciona informa-
cin a los estudiantes, padres de familia, docentes, directivos de las instituciones educa-
tivas y a la sociedad en general, respecto del logro acadmico de los alumnos del Sistema
Educativo Nacional.
Obsrvese que si el propsito de ENLACE es reportar el estado del Sistema Educativo Nacional,
entonces sera ms pertinente una prueba muestral que una prueba censal (por oportunidad,
costo, logstica, entre otros aspectos); en cambio, si el propsito de la prueba es informar a las
personas oportunamente, la aplicacin censal con fines diagnsticos sera ms apropiada que
una prueba de fin de curso en unas competencias genricas.
tt Se especifica y justifica el marco metodolgico que integra en forma coherente los procesos
y mtodos que guan el desarrollo de la prueba.
Hay informacin general de planeacin de la prueba y detalles de actividades, propsitos y

mtodos y aparecen los nombres de las personas que integran el Consejo Tcnico de ENLACE .
En cambio, no se cuenta con la normativa para la eleccin, permanencia y funciones de los
consejeros ni se tienen bitcoras o informes de las reuniones o productos del consejo, lo cual
es requerido para una prueba de alcance nacional como es ENLACE .
Es posible que exista la informacin pero no se cont con ella para esta revisin. Debe advertirse
que hay varias decisiones de criterio que no estn justificadas de ninguna forma en la docu-
mentacin, por ejemplo: la metodologa para establecer las especificaciones, los acuerdos para
el enfoque de las dos reas de competencia (matemtica y lenguaje), la definicin de las otras
reas de evaluacin (por ejemplo Ciencias), la metodologa para definir los puntos de corte y la
forma de determinar dichos puntos, entre otros que deberan tener documentacin apropiada,
misma que no es motivo de divulgacin al pblico en general pero que s debi haber estado
disponible para el comit evaluador.
tt Se especifica y justifica el modelo psicomtrico usado para guiar desarrollo de la prueba.
En el MT se indica que la prueba debe tener confiabilidad y validez, por lo que los diseadores
de ENLACE justificaron la necesidad de la TRI de tres parmetros, sin plantearse la pertinencia del
uso mixto que se tiene con las corridas de ITEMAN (anlisis con modelo clsico) o al no utilizar
otros modelos como el de Rasch.
No es un defecto el uso de un modelo logstico de tres parmetros, ni tampoco es un inconve-

niente combinarlo con el modelo clsico. Debe entenderse que el problema que se apunta aqu es
que no se cuenta con el modelo metodolgico que justifique esta forma de abordar la calificacin.
En el MT se dice que la calidad de las pruebas se garantiza por el soporte tcnico de una
metodologa empleada a nivel internacional enfocada a la confiabilidad y validez de los instru-
mentos, en especial sobre propiedades estadsticas, consistencia interna de las respuestas de
los sujetos y parmetros psicomtricos de los reactivos (dificultad y discriminacin) y se afirma
que se realizan estudios especiales por parte de agencias o instituciones de apoyo. Sin embar-
go, contrariamente a esa afirmacin, no hay evidencias contundentes que se hayan realizado
los estudios que justifiquen todos los aspectos esperados, en algunos se tienen estudios pero
puede decirse que son escasos, sin referencia clara de haberse publicado y tampoco se tienen
como informes de proyecto interno.
Hay aspectos de planeacin no cumplidos para ser una prueba de alcance nacional, en particu-
lar porque se apuntaron varios aspectos en los MT 2007 y 2008, que fueron ignorados en los
siguientes MT. En caso de haberse resuelto las sugerencias no se cuenta con evidencia de ello.
tt Hay manuales tcnicos que orientan de manera detallada todos los procesos involucrados
en el desarrollo de la prueba.
El caso de ENLACE-B es ejemplar en el sentido de que se cuenta con manuales tcnicos de cada
ao. El esfuerzo en su produccin debe mejorarse en trminos de actualizacin del contenido y
de la fundamentacin metodolgica del desarrollo de las pruebas, junto con datos que permi-
tan comprobar el respaldo tcnico del proyecto, y cambios a travs del tiempo.
Se cuenta con MT de 2007 a 2013 que, en general, proporcionan elementos suficientes para dar
fundamentacin y soporte al proyecto. El MT no es definitivo porque:
a) Las revisiones de las pruebas y de los propios manuales no atienden las recomendaciones
de las versiones 2007 y 2008. Es de observar que las sugerencias contenidas en esas edi-
ciones simplemente se quitaron a partir de 2009 sin atender las indicaciones ni resolver
los problemas planteados o los aspectos a mejorar.
b) Falta documentacin que no se complet en las versiones de 2008 en adelante, lo cual
era de importancia principal para el desarrollo de esta evaluacin convocada por el INEE.
c) No se incluyen numerosos estudios tcnicos requeridos para demostrar la pertinencia de
varios puntos de importancia para el desarrollo y aplicacin del proyecto, en cuanto al
diseo de las pruebas, la equiparacin de versiones, los anlisis de funcionamiento dife-
rencial y de sesgo, entre otros ms.
d) Se aprecian elementos y datos obtenidos a partir de los resultados de la primera aplica-
cin que se conservaron de la versin 2007 o 2008, y que en versiones posteriores no se
actualizaron correctamente.
Si se toma como referencia definitiva el manual tcnico 2013 que detalla los propsitos, usos,
y audiencias previstas de la prueba ENLACE , se aprecia que dichos usos previstos no se sinteti-
zan explcitamente. Por ejemplo, el MT hace mencin en repetidas ocasiones de gran nmero
y variedad de objetivos que busca la prueba y los beneficios que ofrece a los diversos actores
(alumnos, maestros, directores, autoridades, y sociedad en general). Sin embargo, tanto el ma-
nual, como los materiales que lo acompaan, as como otros disponibles en el portal web de
la SEP, presentan muy limitada evidencia terica y emprica con la cual resulta difcil respaldar
especficamente los usos propuestos y consecuencias previstas. Los documentos ofrecen argu-
mentos generalmente superficiales y vagos sobre la metodologa de diseo y produccin de las
pruebas; tambin afirman que las pruebas ofrecen beneficios de su uso, pero tpicamente no
64
se sustentan directamente en razonamientos o argumentos lgicos o tericos, y menos an en
evidencia emprica.
3. Calibracin y anlisis psicomtrico de las pruebas
tt Se presentan los procedimientos psicomtricos utilizados para determinar sesgo, funciona-

miento diferencial e impacto adverso de la prueba.
No se cuenta con anlisis de sesgo, funcionamiento diferencial, influencia de la habilidad lectora

o de la velocidad de lectura respecto de la prueba y otras implicaciones que son parte sustancial
de la identificacin de la calidad mtrica de la prueba, por una parte, y por otra como demos-
tracin de que no se inducen errores sistemticos en contra de personas o grupos en particular.
tt Se describen los anlisis efectuados para detectar influencias de factores diversos en la

calidad de la medicin, como la habilidad de lectura o escritura, la comprensin espacial,
la ansiedad, etc.
No se encontr informacin sobre este criterio, en cambio aparecen resultados de la prueba

operativa, en cuanto a la versin global. No aparecen anlisis de distractores en los resultados
de la prueba, anlisis factorial o de otro tipo para respaldar la eleccin de los constructos o la
demostracin de la unidimensionalidad. No hay un anlisis de subescalas ni versiones.
Estos anlisis son exigibles por estndares de calidad de pruebas y, sobre todo, porque la homo-
geneidad o heterogeneidad de los tems se refleja al agruparse en conglomerados temticos o
de competencias por el constructo propuesto en las tablas de especificaciones.
Lo que se puede encontrar es el conjunto de aspectos tericos de diseo con criterio de ex-
perto, lo cual se relaciona con los puntos de validez del captulo previo o con las decisiones de
interpretaciones de la influencia de factores culturales tratado en otro captulo de este trabajo.
4. Confiabilidad de las pruebas
tt Se describen los procedimientos usados para calcular la confiabilidad de las subescalas y

versiones de la prueba. En particular se reportan los resultados del clculo de consistencia
interna de la prueba y sus subescalas.
Aparecen algunos resultados de confiabilidad con la versin global de la prueba operativa pero
no se cuenta con anlisis de subescalas ni versiones. Todos los anlisis se realizaron con alfa de
Cronbach. En el MT se reportan valores de anlisis de las pruebas en forma de tablas y tambin
en otros documentos se reportan valores obtenidos de estudios diversos, como por ejemplo el
estudio general relacionado con la copia en la prueba, aunque puede decirse que es un estudio
genrico y no relacionado exclusivamente con ENLACE .
Este anlisis de consistencia interna realizado con alfa de Cronbach es un procedimiento que
brinda valores aceptados por lo general en pruebas nacionales e internacionales, a pesar de sus
limitaciones. En cambio, no hay evidencia del uso de otro tipo de modelos para la confiabilidad
pudiendo ser pertinentes otros modelos como el uso de la teora G, la separacin logstica, salvo
una mencin y un par de imgenes de las correlaciones pre-test/pos-test sin evidencia de su
manejo sistemtico en la construccin de la prueba.
Un aspecto importante a destacar es que no se dispone de informacin sobre el clculo de la

confiabilidad de los puntos de corte (o el error de medida correspondiente), ni tampoco se cuen-
ta con referencias de tipo jueceo en estos puntos ni la interpretacin cualitativa de los intervalos
que se definen. Todos estos aspectos se refieren especficamente a la confiabilidad criterial para
los puntos de corte. Hay varios modelos para determinar estos valores de confiabilidad, por
ejemplo, se podra haber considerado el uso de la frmula de Livingston.
Del mismo modo que no se tiene informacin sobre la escala y la distribucin de los reactivos
en relacin con la validez de la escala, tampoco se tienen elementos para definir el manejo de
los casos de personas con resultados extremos (cero aciertos y totalidad de aciertos) con los
cuales se incrementa la desviacin estndar. Estos se manejan con las tcnicas de estimacin
de mxima verosimilitud (MML ) que maneja el programa utilizado para la calificacin (BILOG) y
que dan puntajes razonables a los alumnos que califiquen con 0% o 100% por medio de un
modelo matemtico de extrapolacin.
Dado que hay una prueba nica, si sera conveniente presentar de alguna manera la distribucin
de frecuencia de los puntajes, pero no puede utilizarse la curva caracterstica de la prueba para
relacionar los aciertos brutos con la medida, por utilizarse el modelo de tres parmetros de la TRI.
Debido a que los puntos de corte se definen por un esquema emprico, los valores de ubicacin
de tales puntos debieran ser diferentes en cada aplicacin a menos que se garantice la equi-
valencia perfecta entre ellas o la igualacin por procedimiento matemtico, en cualquier caso
es necesario contar con el error de medida (o el intervalo de confianza) en el punto de corte.
De hecho el error estndar parece obtenido de la teora clsica y no de la TRI, porque todo indica
que es procedente de las salidas del software ITEMAN. Al no contarse con informacin metodo-
lgica ni valores de referencia en este sentido, tampoco se dispone de informacin relativa a los
valores obtenidos con el software BILOG para el error de medida y que aporten elementos para
determinar el error de diseo. No es un problema en s mismo el uso de estos programas, sino la
falta de informacin en los manuales tcnicos que justifiquen los modelos de clculo, las interpre-
taciones y los valores de aceptacin para que sean comunicados a los usuarios de los resultados.
En la documentacin proporcionada se indica que La prueba ENLACE en su conjunto pre-

senta valores extraordinariamente altos de confiabilidad (4. JOS LUIS GAVIRA Datos tcnicos
ENLACE.ppt), pero en realidad puede verse que los valores de alfa observada son acepta-
bles, es decir, no son extraordinarios ni tampoco son malos, porque estn muy prximos
de los de alfa terica que puede obtenerse en funcin del nmero de tems, la distribucin
terica de dificultades de los tems y la desviacin estndar real proporcionada por el estudio.
Se observan en cambio dos puntos que influyen en los resultados:
En todos los casos es muy alto el valor promedio de la correlacin punto biserial. A diferencia de
0.24 que se puede calcular con los datos de la hoja de Excel proporcionada: ResAnlisisGama-
Alfa.xls, en este reporte se proporcionan medias de 0.27 a 0.56.
66
En las pruebas se tienen puntajes que ocupan prcticamente la totalidad de la escala, lo cual
es muy interesante para garantizar que se cubre todo el rango de competencias, pero al mismo
tiempo induce a que la desviacin estndar sea grande y con ello se incrementa el valor de alfa
de Cronbach para un conjunto dado de tems.
No se demuestra en las evidencias proporcionadas que se hayan eliminado las personas extre-
mas, especialmente con 0 aciertos, no se indica cuntos son, tampoco se aclara si son valores de
0 por respuesta incorrecta o por omisiones de estudiantes que no se presentaron a la prueba.
Los siguientes son ejemplos de algunos datos proporcionados en la presentacin:
Espaol
3 6 3 secundaria
2006 2007 2008 2006 2007 2008 2006 2007 2008
nm. tems 52 50 52 64 64 64 64 64 64
media 27.3 24.5 25.4 27.3 24.5 25.4 27.5 27.9 28.4
media% 53 49 49 47 51 54 43 44 44
desv est 9.2 8.1 9.4 9.2 8.1 9.4 8.9 8.3 7.1
rpb media 0.37 0.44 0.48 0.35 0.46 0.50 0.29 0.35 0.32
alfa 0.88 0.84 0.88 0.88 0.89 0.91 0.83 0.81 0.75
alfaterica 0.88 0.85 0.88 0.85 0.80 0.85 0.84 0.81 0.73
Matemticas
3 6 3 secundaria
2006 2007 2008 2006 2007 2008 2006 2007 2008
nm. tems 50 50 50 61 61 61 74 74 74
media 25.2 24.1 28.2 25.9 25.1 30.8 26.8 23.8 30.2
media% 51 48 56 43 41 51 36 32 41
desv est 9.2 8.1 9.4 9.8 9.8 11.5 9.6 8.2 10.6
rpb media 0.40 0.49 0.56 0.34 0.44 0.51 0.27 0.32 0.39
alfa 0.90 0.88 0.91 0.87 0.87 0.91 0.84 0.79 0.87
alfaterica 0.89 0.88 0.91 0.88 0.88 0.91 0.84 0.77 0.87
tt Se dispone de resultados de correlacin con aplicaciones repetidas.
Salvo unas menciones en el manual tcnico no se encontraron evidencias contundentes. Es de

notar que estas menciones aparecen en el MT 2009 y se repiten las mismas grficas y valores
hasta el MT 2013, lo cual no aporta una evidencia actualizada y aceptable para la documenta-
cin del proyecto.
Este criterio es importante aunque la prueba se aplique solo una vez al ao y los cuadernillos se
distribuyan entre los participantes. En ENLACE-B hay reactivos que se aplican en forma piloto y
despus pasan a formar parte de la prueba operativa. En este sentido se manejan como pre-test
y post-test cuyas calibraciones se usan para calificar las pruebas operativas.
Es posible que el cambio de contexto y circunstancias en las que se realizan las dos aplicaciones
pueda cambiar las propiedades de las preguntas, por lo que sera prudente verificar la transfe-
ribilidad de las calibraciones.
tt Hay un reporte con valores de separacin del modelo logstico empleado.
No se dispone de este dato. Todos los anlisis de confiabilidad estn hechos con alfa de Cronbach,
pero los anlisis con la TRI no presentan la evidencia de la confiabilidad calculada de otra forma.
El software de anlisis de la TRI en principio debe emitir un valor de confiabilidad obtenida a

partir de los modelos logsticos, pero no queda claro si es que se consider como no pertinente
reportar esta informacin y solo usar alfa.
tt Se reporta la metodologa para el clculo del error de diseo de la prueba y de sus subes-
calas, o de sus partes o secciones y se reportan los resultados obtenidos en las aplicaciones.
No se cuenta con una justificacin metodolgica para el dimensionamiento de la prueba (nme-

ro de reactivos) y de sus partes, porque las tablas de especificaciones estn definidas en nmero
de tems y no de ponderaciones, ni se tiene un estimado del error terico propuesto. En conse-
cuencia, no se reportan los resultados por partes o secciones, ni los valores del error de medida
de la prueba y de las secciones. Desde el MT 2007 se tienen consideraciones tericas acerca del
error de medida en funcin del nmero de tems, pero se sugera realizar los estudios para obte-
ner los valores experimentales, pero no se cuenta con ellos en la documentacin proporcionada.
tt Se presenta la metodologa usada para el anlisis de funcionamiento diferencial y de sesgos

asociados con las personas, con las pruebas y con las subescalas. Se reportan los resultados
de los estudios realizados para determinar posibles sesgos.
No se atiende este punto en ninguno de los documentos proporcionados. En las versiones de

MT 2007 y 2008 se indica la necesidad de realizar estudios de DIF (funcionamiento diferencial
de los tems) por gnero, ambiente o contexto sociocultural, discapacidad, entre otros. No se
atendi esta sugerencia y se elimin el comentario de los otros manuales tcnicos. Tampoco
se dispone de anlisis de DPF (funcionamiento diferencial de personas), pendiente desde el MT
2007. Debido a esto se carece de una justificacin respecto a que no se necesite hacer una
equivalencia o anlisis contextual de las escalas ajustando los rangos de valores por sexo, mo-
dalidad escolar, regin o poblaciones especficas, uso de lenguaje o grficas especficas. Esto
se complementa con la discusin del grupo encargado del anlisis de validez cultural. En el MT
(2012:60) se afirma que la SEP encarga estudios especiales a agencias o instituciones de apoyo
pero no se cuenta con los reportes.
Hay menciones acerca de la presencia de sesgos, pero no refiere la realizacin de estudios pro-
pios de la SEP, en cambio se cita que se encargan estudios especiales de factores asociados al
rendimiento a otras instituciones, pero se cuenta con escasa informacin.
El uso de grficos en los tems es correcto desde el punto de vista tcnico, pero debe justifi-
carse que no afecta la forma de interpretarse o de responder de estudiantes hacia los cuales
pudiera producir un funcionamiento diferencial, por ejemplo dibujos de ambiente urbano que
estudiantes de ambiente rural no comprendan o viceversa, grficos que no sean comprensi-
bles por estudiantes dbiles visuales (de hecho, no hay mencin a la forma de trabajar con
estudiantes ciegos).
Para lidiar con el problema de sesgo, durante el proceso de jueceo los especialistas deben
explorar la calidad de los reactivos, principalmente: 1) la representatividad del dominio de los
contenidos curriculares que los estudiantes deben poseer, 2) la formulacin correcta de cada
68
reactivo, 3) la ausencia de sesgo aparente por el cual pudieran favorecerse los resultados hacia
algn grupo de estudiantes, especialmente por gnero y por grupo social.
La copia es uno de los factores al que se le da mayor inters en los MT. Se tienen efectivamente
estudios de factores asociados, o de copia, pero no se encuentra un estudio sobre DIF. Sobre
la copia se utilizan dos modelos: K-Index (para personas) y Scrutiny (para grupos), que se com-
binan con una simulacin realizada para dictaminar el valor de probabilidad aceptable para
determinar que hubo copia en un saln o sede. Estos estudios se reportan de forma interna a
la SEP y no parece tener implicaciones administrativas en la calificacin de los estudiantes, del
grupo o de la institucin, por lo que se indica en el MT2013: Cabe sealar, en este marco, que
no se cuenta con esquemas de penalizacin o sanciones administrativas a los estudiantes o
docentes que contengan copias potenciales, aunque en el documento Normas operativas
se establece:
4.20 En la calificacin del examen se utiliza un programa para detectar la copia as como
el dictado de respuestas. Los alumnos o docentes que incurran en estas acciones gene-
rarn que sus resultados no sean considerados para obtener el puntaje o nivel de logro
individual, de grupo, escuela, modalidad, municipio, estado y nacional, por lo que es muy
importante se erradiquen dichas prcticas.
Igualmente se tiene en la Gua para el docente-aplicador: En la calificacin del examen se

utiliza un programa para detectar la copia y el dictado de respuestas. Los alumnos que incurran
en estos casos no son considerados para obtener resultados de grupo, escuela, modalidad, mu-
nicipio, entidad y nacional, por lo que es muy importante que no se permita la copia.
CRITERIOS TCNICOS SOBRE LA CALIDAD DE LOS TEMS

Y DE LOS BANCOS DE REACTIVOS
5. Anlisis psicomtrico y de calidad de los tems
tt Se cuenta con un documento que describe el modelo de calibracin de reactivos y los crite-
rios para su aceptacin, revisin y modificacin.
En la documentacin revisada no se encontr una presentacin formal del modelo de calibracin

de reactivos y solo se citan elementos aislados sobre los criterios para su aceptacin, revisin y
modificacin. Se entiende que los resultados del piloteo de tems se analizan con los programas
especializados ITEMAN y BILOG, lo cual deja la responsabilidad del dictamen a los dos progra-
mas citados y no a los criterios de los especialistas encargados del diseo de las pruebas.
Es cierto que en dichos programas se puede contar con las frecuencias de respuesta global y por
opcin de cada tem, pero esto no implica que esta informacin se utilice en alguna forma dentro
del proceso de calibracin.
Convendra aadir que si bien el modelo utilizado para calibrar inicialmente las preguntas es
muy eficiente, sufre la desventaja de utilizar un criterio imperfecto en el clculo de los par-
metros (ver p. 102 del MT 2012); en la piloto se calibran las formas b16 junto a la Forma A,
pero en esta calibracin entran todos los tems, inclusive los que se eliminarn posteriormen-
te por defecto.
Lo que se debe hacer es una primera seleccin de las preguntas aceptables y utilizar solo esas
para la calibracin y el establecimiento de los parmetros de las preguntas. Se debera hacer un

anlisis de DRIFT, que estudia los cambios paulatinos en el comportamiento de los parmetros
de los tems, lo que significara una recalibracin de las preguntas para establecer si la escala
se desva de su origen.
Los criterios cambiaron entre los MT a partir de 2009 por lo que ha evolucionado el conjunto
de elementos propuestos para eliminar reactivos, con nfasis en el uso de la correlacin punto
biserial que se espera sea superior a 0.3 y que la dificultad de los reactivos est en el intervalo de
0.1 a 0.9. En el caso del modelo logstico se incluye el desajuste por c2 con significancia mayor
(sic) a 5% y se revisan cuando se tienen una significancia de hasta 10%; los que tienen medidas
superiores a 10 o inferiores a -3 (lo cual es un intervalo sesgado inexplicablemente), cuando el
parmetro 1 sea menor a 0.1 o el parmetro c superior a 0.2 y por tener una correlacin punto-
biserial negativa (dada por BILOG), pero, adicionalmente se dice que son rechazados los reacti-
vos cuya curva caracterstica no presenta un comportamiento razonable (pendiente negativa o
alguna tendencia dudosa) a criterio del revisor. Este ltimo criterio subjetivo debera eliminarse
dados los otros citados previamente que son sistemticos y objetivos. Solo aparece un ejemplo
grfico en los diversos MT, siendo de escasa evidencia respecto del proceso que se realiza en el
proyecto para dictaminar los tems.
tt Se explicitan los procedimientos utilizados para efectuar el anlisis de tems (dificultad, dis-
criminacin, ajuste [fit], distractores, dimensiones, etctera)
Aparecen resultados de la prueba operativa, en versin global, pero sin incluir anlisis de dis-
tractores, anlisis factorial o de otro tipo. Como ya se indic previamente, no hay un evidencia
de anlisis de los tems en las subescalas ni en las versiones. Estos anlisis son exigibles por
estndares de calidad de pruebas y, sobre todo, porque la homogeneidad o heterogeneidad de
los tems se refleja al agruparse en conglomerados temticos o de competencias por el cons-
tructo propuesto en las tablas de especificaciones.
Considrese, por ejemplo, que la prueba est formada por dos grandes reas que miden com-
petencias de lenguaje y de matemtica. Un propsito educativo muy laudable sera que los
estudiantes dominaran ambas reas de la misma manera, pero la realidad es que se trata de
constructos disjuntos, de tal modo que no necesariamente se tiene una alta correlacin entre
ellos. Por esta circunstancia, es evidente que un tem tiene mejor correlacin con el conjunto
de reactivos del constructo del cual forma parte y ello puede implicar una baja correlacin con
la prueba completa.
En conclusin, tiene ms sentido analizar por separado los tems de matemtica y dictaminar
sus propiedades mtricas en su constructo que un anlisis global. Del mismo modo, en el rea
de matemtica se pueden tener subreas disjuntas (aritmtica, lgebra, geometra y trigonome-
tra) igual que en el rea de lenguaje (gramtica, ortografa, comprensin de textos literarios y
no literarios, historia de la literatura). No se cuenta con evidencia de que se hayan realizado los
anlisis por los temas en forma separada.
70
Ya se cit que las versiones de pre-test se disean con un modelo matricial con el propsito de cu-
brir temas especficos en muestras controladas de estudiantes, as como equiparar entre pruebas
y calibrar tems que se utilizarn en el siguiente ao. Entonces, puede decirse que los parmetros
psicomtricos pueden variar respecto de los que se tienen en la prueba operativa censal, especial-
mente si se calibran en forma global y no como parte del tema del cual forman parte.
6. Calidad y gestin de los bancos de reactivos
tt Se cuenta con una normativa para revisar, corregir y desechar reactivos en funcin de los re-
sultados de la calibracin, tomando en cuenta un conjunto de varios parmetros y evidencias.
No se cuenta con una normativa para el mantenimiento de los bancos de reactivos. En el MT

se menciona que hay criterios para ello, pero no se indican los valores de referencia en forma
sistemtica, deben localizarse dentro del texto. Si se considera la informacin disponible en el
MT se puede considerar como no convincente.
En el MT2013 aparecen los criterios para aceptar y rechazar reactivos (citados en el punto pre-
vio) que incluyen el ajuste al modelo logstico, curva caracterstica con pendiente negativa o de
comportamiento poco claro en su grfica, dificultades extremas y correlacin reactivo-prueba.
Para la primera etapa del piloteo inicial se seleccionan los reactivos que tienen los mejores resulta-
dos del jueceo, para conformar 6 formas diferentes para cada grado (30 en total). Las formas 1 y 4,
2 y 5, 3 y 6 son equivalentes, es decir contienen reactivos que miden las mismas especificaciones.
Para la segunda etapa solo se pilotean los reactivos que han tenido que ajustarse, con base en
los resultados del jueceo y de la primera etapa de piloteo, para tener al menos uno con buenos
indicadores estadsticos.
Para seleccionar los mejores reactivos se ha considerado como criterio valores mayores a 0.30 en
discriminacin y correlacin biserial, independientemente del porcentaje de respuestas correctas.
Para el piloteo con muestras controladas en las ltimas sesiones de la prueba operativa aplicada
durante las jornadas nacionales, se han dispuesto 6 formas por grado y asignatura con reactivos
que son calibrados con sujetos comunes al resto del instrumento.
Las calibraciones se combinan con el proceso de jueceo para establecer los reactivos que se
conservan en el Banco entre las versiones de pre-test y operativa. Se preparan tablas con el
inventario de los reactivos y sus calibraciones para la inclusin posterior en el diseo de las
pruebas definitivas.
tt Es posible revisar los inventarios del banco de reactivos, debidamente clasificados y con
valores psicomtricos o edumtricos. No es aceptable que la prueba carezca de inventario o
que haya reactivos sin calibracin.
Se satisface este criterio en forma parcial, porque en el MT 2007 y 2008 se incluy informa-
cin acerca de los reactivos (se habla de los reactivos de 3 opciones hasta 3 de primaria) y los
inventarios que estn en resguardo confidencial en la Direccin y se incluye una tabla con el
inventario de tems. En MT 2008 se tiene una tabla procedente de la base de datos del banco
informtico. Esta informacin fue retirada de los siguientes MT.
Es de suponer que el sistema de captura debe permitir obtener los inventarios en todo momento.
tt Se cuenta con una normativa para el uso de los reactivos, indicando su vigencia en el ban-
co o en las versiones, forma de almacenamiento en medio informtico o fsico y forma de
actualizacin para uso posterior.
Debe recordarse que, por razones de transparencia, al terminar la aplicacin se distribuye la

prueba a todos los alumnos evaluados, lo que conlleva a la volatilidad del banco de tems.
Sobre esta prctica se discute la ventaja de mantener confidencial y debidamente resguardado
el banco de tems (para garantizar la seguridad del proceso, evitar la degradacin de la calidad
mtrica de los tems y reducir el costo de su diseo), en contraposicin a distribuirlos abierta-
mente para aumentar la credibilidad del proceso, demostrar transparencia y reducir el costo de
resguardo del banco. No hay un acuerdo general en ninguno de los dos sentidos.
Para contrarrestar los usos indebidos, se han elaborado materiales de apoyo que recomiendan
los usos apropiados, con fines pedaggicos, y que tratan de evitar usos para los cuales no est
hecha la prueba. Esta prctica de distribuir el instrumento ha hecho que no parezca til contar
con una gua de preparacin para los sustentantes, pero podra ser interesante rescatar el con-
cepto de produccin de las guas que se han hecho con fines didcticos.
No se encontr una gua de interpretacin general para la prueba, aunque hay materiales de
apoyo en el portal de la SEP que pudieran considerarse como suplentes de esta necesidad.
La gua de interpretacin, disponible en el reporte impreso, ayuda al alumno y a los padres a
identificar la respuesta correcta de cada reactivo, los errores en las respuestas incorrectas y
la forma de interpretar la clasificacin de los niveles y subniveles de logro. Guas semejantes
a stas se tienen en pruebas nacionales e internacionales, como en los informes de PISA.
CRITERIOS TCNICOS SOBRE LA CALIFICACIN

Y LOS NIVELES DE DESEMPEO
tt Est disponible el documento que explica la forma en que se asign calificacin a estudian-
tes (normativa, criterial u otra).
Es una prueba de calificacin criterial, relativa a las competencias descritas en las tablas de
especificaciones y con el modelo de calificacin y puntos de corte asociado a criterio de jueces.
La calificacin se realiza con el modelo clsico usando ITEMAN y con el software Bilog siguiendo
el modelo de tres parmetros de la TRI que es un modelo descriptivo, no invariante (depende de
cuntos y cules tems se contestan por la persona) y posteriormente debe hacerse el cambio
de escala para reportar la calificacin en el intervalo 200-800.
Debe hacerse notar que los valores (sumando y factor) para el cambio de escala de las medidas
logsticas se reportan en cada MT, pero no se han actualizado los datos, lo cual debe demos-
trarse en caso de que las pruebas mantengan sus parmetros mtricos o modificarse en caso
contrario. Se tiene una mencin en el MT acerca de un estudio comparativo entre grados para
72
estimar la ganancia educativa, pero no se cuenta con evidencias de ello, con lo que se pierde
tambin la ventaja de disponer de una escala fija.
tt Se cuenta con la explicacin del diseo de la escala de la prueba y la forma de calcular los
puntajes en dicha escala (por modelo clsico o logstico), con penalizacin o sin correccin
por azar, entre otros posibles criterios.
Al disear la escala se entiende que hay una traslacin de la media a 500 puntos y un escala-
miento de la desviacin estndar a 100 puntos, en el MT se indican los valores de traslacin y
escala que, en principio, se entiende que deberan cambiar con las aplicaciones por utilizarse
el modelo descriptivo de la TRI , pero se han mantenido a lo largo de los aos para Espaol
y Matemticas, y los de las materias rotativas se reportan incorrectamente.
Esta parte parece descuidada y debera mejorarse. Estos elementos, en principio, permiten re-
portar medidas con referencia a criterio, pero no se cuenta con una declaracin clara sobre el
carcter de calificacin criterial de ENLACE . Por esta circunstancia combinada con la asignacin
de puntos de corte sin sustento cualitativo, se tiene una incompatibilidad entre escala y refe-
rencia para reportar los niveles de desempeo. Una vez que se tiene una escala, su aplicacin
puede servir solamente para reportar medidas de la prueba global o para obtener medidas
en cada subprueba. No se emiten resultados parciales (por ejemplo por tema) en la escala 200-
800 y no se hace ningn detalle en este sentido.
No se tiene evidencia de que se asigne ninguna penalizacin ni correccin por azar.
Se explica el procedimiento para obtener la calificacin global como combinacin de diversos

instrumentos o partes de la prueba. No es aceptable la asignacin global como promedio
de promedios.
No se detalla una escala para las calificaciones parciales. Se entiende que se entrega informacin
por cada rea evaluada en funcin de aciertos y errores, pero la escala solo se aplica al global.
Al parecer la calificacin global no se obtiene como promedio de las puntuaciones parciales.

Aunque ENLACE no consiste de varios instrumentos diferentes, s se puede considerar como
mltiple por las asignaturas y reas que explora, por lo que posiblemente sea de importancia
reportar puntajes en las subpruebas.
8. Niveles de desempeo e interpretacin de resultados
tt Existe el marco terico-metodolgico basado en currculo que justifica la organizacin en

niveles de desempeo como estndares o sistema de interpretacin de puntajes, junto con
el procedimiento de asignacin del valor del punto de corte en la escala.
No se encontr informacin relevante para este criterio, en principio las especificaciones fueron
definidas por los responsables de currculum de la SEP, como se indica en el captulo previo de
este reporte. En cambio, se encontr informacin escueta en un grfico o esquema que ilustra
la particin del continuo de medicin en niveles. Por ejemplo en las pginas 51 y 52 del MT 2012
solo se esquematiza la forma de establecer los puntos de corte, pero este criterio se refiere no
al punto mismo sino a la especificacin del estndar educativo relacionado con cada intervalo
definido por los puntos de corte.
Esto tambin tiene implicaciones en los estudios longitudinales y de ganancia, que deberan
tomar en cuenta el conjunto de especificaciones curriculares y el cambio que han tenido en el

sistema educativo sexenal.
tt Se dispone de respaldo documental que especifica el procedimiento (criterial o mixto) para

determinar los niveles de desempeo o estndares.
Este criterio no se satisface. La prueba se plantea como criterial pero la informacin que des-
cribe el procedimiento seguido es muy escueta y presentada solo en una secuencia grfica que
muestra el concepto general del proceso, pero no proporciona evidencias de su realizacin.
Se reportan puntos de corte desde el MT 2007 sin demostracin acerca de la forma de obtener-
los (con un exceso de decimales).
Puede pensarse que para determinar los puntos de corte se sigue un procedimiento por jueceo,
el cual debe sustentarse con una verificacin emprica en referencia a la poblacin y a la prueba
misma. No se cuenta con documentacin de estos anlisis.
tt Los estndares desarrollados a partir de comits de jueces, cuentan con el anlisis del domi-
nio curricular y/o tienen en cuenta consecuencias empricas de la identificacin de puntajes
de corte.
El MT 2007 explica el esquema para definir tres puntos de corte (cuatro niveles de logro) y men-
ciona que se hizo un anlisis factorial, del que no hay evidencia. Los parmetros de referencia
para los puntos de corte no se han cambiado desde 2007 en Espaol y Matemticas y se han
incluido los de otras asignaturas pero en forma descuidada, repitiendo datos o presentndolos
sin justificar respecto a mantener los puntos a lo largo del tiempo y sin el soporte del anlisis
factorial anunciado.
En este caso faltara contar con estudios completos que sealen las proporciones de alumnos
clasificados en cada nivel que deben ser, a su vez, revisados por los jueces a fin de asegurarse
que los puntos de corte dividan a los estudiantes en grupos que puedan ser interpretados y
distinguibles, frente al dominio curricular en trminos de las definiciones de las competencias
establecidas para la prueba y justificar los descriptores de cada nivel.
tt Lospuntos de corte se validan con procesos de juicio o mixto (juicio-emprico); se demuestra

experimentalmente su ubicacin y se reporta el intervalo de confianza correspondiente.
No se tiene demostracin de este aspecto. En el MT se dispone de la tabla con valores de corte

que permiten obtener el intervalo de cada nivel, lo cual es diferente del intervalo de confianza
de los puntos de corte que no se tienen disponibles. Por ejemplo, al asignar el punto de corte
en 500 puntos se puede tener el intervalo de confianza de 497 a 503 puntos, de tal modo que
todos los estudiantes que caen en dicho intervalo recibirn el mismo tratamiento. El intervalo
de confianza se obtiene en funcin del error de medida en el punto de corte.
tt Hay evidencia emprica de que los niveles de desempeo estn bien graduados y discriminan
bien en relacin a contenido de prueba.
74
No se dispone de evidencia al respecto, fuera de la definicin de los puntos de corte como se
indic en el criterio anterior.
Se cuenta con la metodologa y evidencia del proceso realizado para describir el significado
de los niveles de desempeo o del conjunto de competencias por nivel en trminos de los
puntos de corte.
No se cuenta con documento detallado de los desempeos por nivel para las competencias y
contenidos propuestos en la prueba. En cambio, s se cuenta con descripciones de desempeo
por dificultad de los reactivos y por materia en el portal de la SEP.
tt Se tiene el documento que detalla los desempeos por nivel para las competencias y con-
tenidos propuestos en la prueba, as como otras interpretaciones pertinentes a partir de los
resultados de las pruebas.
En el MT 2012 (Pg. 28 a 49, 69 a 85) solo existen las tablas de especificaciones generales de
la prueba y descripciones por dificultad de los tems, pero no estn organizadas por niveles
de desempeo respecto de los puntos de corte. Se indic en el MT 2007 que es algo a comple-
tar pero no se ha realizado.
Las descripciones de desempeo por dificultad de los reactivos tambin se encuentran disponi-
bles las tablas por materia en la pgina web siguiente:
http://www.dgep.sep.gob.mx/Brow-AES/APOYOS12/Pedagogico2012/UP2012-3.as
tt Los integrantes de los comits encargados de definir los niveles de desempeo son selec-
cionados por sus perfiles acadmicos y/o laborales y por su representatividad dentro de la
diversidad cultural del pas; dichos integrantes pasan por un proceso de capacitacin orien-
tado al manejo de la metodologa a utilizar.
Con base en las descripciones contenidas en los MT, se debe suponer que los evaluadores son
representativos y experimentados, especialistas en las asignaturas, con experiencia en evalua-
cin, construccin y anlisis de reactivos. Al respecto los manuales tcnicos sealan: el jueceo
se ha realizado con la participacin de profesores de las 32 entidades federativas del pas, ade-
ms de profesores del SNTE y de las reas Estatales de Evaluacin (MT 2012: 93; 2013:113).
Dicen tambin que en los talleres de jueceo se ha contado con la participacin de personal de
la Sociedad Matemtica Mexicana, de la Direccin General de Desarrollo Curricular, del SNTE y
del INEE (MT 2012: 94; 2013:113). Se indica tambin que hasta 2008 el INEE defini el perfil
de los jueces, proporcion el software para la validacin y coordin el proceso de jueceo de
reactivos, que la DGEP coordin los trabajos y junto con el ILCE se sistematiz el proceso (MT 08:
pgs. 4-40 a 4-44), y que en aos 2012 y 2013 el proceso de validacin de reactivos fue llevado
por la Subsecretara de Educacin Bsica, y que la DGEP se ocup de sistematizar la informacin
resultante (MT 2013:86).
En los manuales tcnicos se seala la participacin numerosa de especialistas de asignatura

capacitados para ser diseadores y validadores, pero no se proporcionan listas de los jueces, ni
tampoco hay evidencias del programa de capacitacin, como el temario o el nmero de horas
de cada taller. No obstante, en el Manual Tcnico 2008 se detalla un procedimiento desarrolla-
do por el INEE que se oper con 55 profesores de 32 entidades para revisar: 1) representatividad
del dominio de los contenidos curriculares, 2) formulacin de cada reactivo, 3) presencia de
sesgos (MT08: pgs. 4-40 a 4-44).
CONCLUSIONES
La prueba ENLACE-B, como otras pruebas estandarizadas que se producan anteriormente por
la SEP, ha cumplido con algunos propsitos favorables de apoyo a la educacin y a la cultura
de la evaluacin en Mxico, en especial porque algunas asociaciones no gubernamentales
y los medios de comunicacin han empezado a hacer uso de los resultados de la prueba y
han identificado varias formas de reportar resultados en los distintos niveles de agregacin,
dependiendo del usuario a quien se dirigen. No obstante, esta prctica debe ser revisada y
atendida por las autoridades porque, como se ha comentado en el cuerpo del reporte de este
Comit, se sabe que varios usos no son apropiados por no estar contemplados en los prop-
sitos de diseo, lo cual reduce o perjudica la utilidad de la informacin que se ha distribuido y
manejado entre la sociedad. Por ello es importante aclarar a las autoridades y a la sociedad en
general, que es un acierto que diversos grupos de personas y miembros de la sociedad utilicen
los resultados de la evaluacin, pero con todo cuidado y solo dentro de lo que se ha planeado
en el proyecto de evaluacin.
Otro acierto interesante se asocia con el diseo de ENLACE, que se plantea como un conjunto
de instrumentos organizados en torno a un cuerpo base con preguntas referidas a competen-
cias generales del currculum y una parte matricial para piloteo y equiparacin. No queda duda
de la necesidad de utilizar tems de opcin mltiple para producir la prueba censal y calificarla
en forma automtica. No est por dems insistir a los usuarios que est fuera de discusin la
pertinencia de esta prueba en comparacin con otro tipo de instrumento (portafolio, pruebas
de ensayo, produccin de materiales de estudio en equipo), adems de la conveniencia del
tipo de tem para poder explorar una gama amplia de contenidos o competencias e incidir en
una mayor informacin para reportar y retroalimentar al estudiante, al maestro, a los padres
de familia, a las autoridades.
Es importante que este tipo de pruebas cuente con uno o varios consejos o comits integrados
por docentes y especialistas en diversa reas, con experiencia y reconocimiento en el medio.
Junto con este grupo de personas y la base de informacin que permite disear las pruebas con
referencia al currculum y a los criterios de desempeo, se puede sustentar la validez y objeti-
vidad de las pruebas. Igualmente, los comits ayudarn a identificar los niveles de desempeo
de las competencias, siguiendo un proceso que deber formalizarse con evidencia adicional
sobre las reuniones de los especialistas, la forma en que se fijan los contenidos, desempeos y
cualidades de los niveles reportados.
Una de las fortalezas de ENLACE es la existencia de los manuales tcnicos que publica la UPEPE
desde 2007 con periodicidad anual (independientemente de que deben ser completados y res-
paldados con la informacin pertinente ms all de afirmaciones generales). El Manual Tcnico
(MT ) proporciona informacin completa sobre el diseo, la construccin de los tems, la aplica-
cin, la calibracin, la equiparacin de pruebas, la interpretacin de los resultados, cubriendo
los atributos de validez, objetividad y confiabilidad requeridos para el proyecto de evaluacin.
Los manuales disponibles se organizan en dos partes: la primera con aspectos de inters para el
76
pblico general y la segunda con datos ms especficos y detallados con orientacin a un pbli-
co ms especializado. En el manual se incluyen elementos que favorecen revisar la evolucin de
la prueba en tpicos como el diseo, la atencin a problemas de copia, la referencias a ligas
de sitios de Internet de la SEP donde se pueden conseguir datos adicionales y resultados de
estudios realizados. Uno de los puntos importantes es que el manual tcnico explica el alcance
de las pruebas, aclara los usos pertinentes sobre los que se responsabiliza la SEP y seala usos
indebidos que se deben evitar.
No est por dems destacar dentro de los puntos positivos de ENLACE-B, el enorme esfuerzo
administrativo ligado a la aplicacin, que incluye la logstica de distribucin, seguridad, lectura,
calificacin y emisin de reportes.
Las debilidades fueron enmarcadas en los criterios detallados previamente. Puede apuntarse,
inicialmente, que debido a la difusin de los reportes proporcionados por la SEP, la disponibili-
dad de pruebas, datos y bases informativas diversas en el sitio web, se ha incurrido en usos no
pertinentes para el proyecto, los cuales, evidentemente, no son imputables a la SEP.
Una limitacin es que el diseo se ha enfocado a un perfil de competencias de tipo genri-

co en Espaol y Matemticas, lo que puede ocultar el currculum educativo o pasarlo a un
segundo plano. Ese punto es fundamental especialmente hoy por hoy que se exige que las
pruebas estandarizadas no se enfoquen solo a la exploracin de conocimientos factuales y
conceptuales. Para evitar este sesgo de apreciacin se debe mejorar el diseo de las tablas
de especificaciones, donde se detallen los niveles taxonmicos y la dosificacin respecto de
ellos. Las tablas de validez de contenido o de especificaciones deberan homogeneizarse para
reconocer un criterio de construccin de los instrumentos para el proyecto ENLACE y dar una
continuidad al proceso de evaluacin en los diversos niveles educativos y las asignaturas.
Se debe revisar el procedimiento para determinar los puntos de corte, mejorar su presenta-
cin en los manuales tcnicos (sin llegar al abuso en el nmero de decimales) y demostrando
la razn para mantener constantes los valores a lo largo del tiempo o modificarlos segn sea
el caso conforme se revisen las especificaciones de las pruebas.
La lista de usos indebidos de ENLACE se ha discutido en varias secciones de este reporte, lo

cual implicar que la SEP insista entre sus diversos usuarios para evitar este tipo de aplicaciones
inconvenientes que abren posibilidades pero limitan la generalidad y utilidad de la prueba en
otros mbitos.
La SEP hizo un trabajo importante de certificacin de algunos de sus procesos, pero no se debe
confundir este proceso de metaevaluacin de ENLACE con base en estndares de medicin y eva-
luacin del logro, con los procesos de revisin con normas ISO. La certificacin ISO fue tramitada
para la documentacin de la lectura, calificacin y construccin de instrumentos de medicin,
que tienen un propsito de tipo administrativo y documental y que no aportan elementos nece-
sarios para la evaluacin tcnica objeto de este trabajo.
Es importante terminar los estudios esbozados o propuestos en los manuales tcnicos (por ejem-
plo anlisis factoriales para identificar constructos y dimensiones mtricas de las pruebas). Igual-
mente, se tienen que realizar los estudios y documentos faltantes, entre los que se pueden citar:
a) Estudios
Validez de criterio, en particular de validez concurrente con otras pruebas.
Dimensiones y subescalas que se miden con la prueba. Pueden utilizarse modelos fac-
toriales, por jueceo o mixtos. Este trabajo debe hacerse en colaboracin con los respon-
sables curriculares que definen las especificaciones de las pruebas y el marco terico
acadmico del proyecto.
Error de medida, determinado con modelo clsico o con TRI , porque es un dato funda-
mental para juzgar la calidad de la medicin que se realiza con los instrumentos.
Sesgos de diversos tipos y de funcionamiento diferencial de los tems y estudios de
factores asociados a los resultados de ENLACE. La carencia de este tipo de estudios
impacta otros aspectos de la calidad de la prueba, como se cita en el captulo sobre
aspectos culturales.
Equiparacin entre versiones de un mismo ao y en pruebas longitudinales. La informa-
cin disponible en presentaciones digitales deben respaldarse con los estudios y presen-
tar formalmente los resultados de la equiparacin.
Anlisis multinivel que contengan variables explicativas de los resultados de los estu-
diantes, tomando en cuenta los anidamientos por saln, escuela, entidad, entre otros
posibles niveles.
Reporte de los procesos de anlisis y deteccin de copia, junto con la logstica de aplica-
cin frente a las posibles actividades fraudulentas, desde la enseanza dirigida en clase
a responder de cierta forma, el dictado de respuestas en el momento de la aplicacin o
la adaptacin de los enfoques educativos en ciertos planteles.
b) Manuales
Diseo de la muestra piloto debidamente justificado tanto para el marco poblacional
como para los reactivos a considerar en las pruebas matriciales.
Diseo y calibracin de reactivos, separado del manual tcnico, con elementos espec-
ficos de diseo de tems su forma de analizar y dictaminar la calidad, tanto con modelo
clsico como de la TRI , el conjunto de criterios de aceptacin para los tems calibrados, la
seleccin de tems y los criterios de aceptacin para el banco de reactivos.
Calificacin y de interpretacin de resultados, en combinacin con las justificaciones
descriptivas de las competencias asociadas con los niveles.
Manejo y respaldo que se tiene con los bancos de tems y los sistemas administrativos
relacionados con ellos. Deben incluirse los inventarios considerando la clasificacin tem-
tica, la complejidad y los valores mtricos, porque su ausencia no permite juzgar acerca
de su calidad. Igualmente se requiere complementar la muy escasa informacin sobre los
sistemas informticos de almacenamiento de los tems y de la generacin de pruebas.
En todos los casos es imprescindible acompaar los estudios y manuales con referencias for-
males y publicaciones debidamente organizadas, as como explicaciones de los modelos, al-
goritmos, frmulas y criterios bien definidos, con lo cual se brindara el soporte completo al
proyecto, evitando el uso indiscriminado de presentaciones en Power Point y hojas de Excel, que
no son documentos formales de apoyo al proyecto.
78
3 Atencin a la diversidad cultural
Los autores de este apartado tuvieron a su cargo examinar el aspecto de validez

cultural, nocin que se define como el grado en que el diseo, el proceso de desarrollo y el con-
tenido de una prueba toman en consideracin la forma en que factores culturales, lingsticos
y socioeconmicos no relacionados con los constructos de inters influyen en la manera en que
los estudiantes interpretan el contenido de los tems y la forma en que responden a esos tems
(Solano-Flores, 2013; Solano-Flores y Nelson-Barber, 2001).
Se propusieron los siguientes criterios de validez cultural: 1) Marco conceptual de la prueba; 2)

Especificacin de las poblaciones; 3) Estrategia para considerar diversidad cultural, lingstica
y socioeconmica; 4) Especificacin de tems; 5) Profesionales involucrados en el desarrollo de
los tems; 6) Representacin de poblaciones diversas en las muestras de estudiantes piloto; 7)
Validacin cognitivo-cultural; 8) Revisin; 9) Anlisis de sesgo; 10) Estudios de generalizabilidad;
11) Tiempos y calendarios y; 12) Mecanismos de correccin.
Los autores examinaron la prueba ENLACE de acuerdo con los criterios de validez cultural antes
mencionados, usando la documentacin de la prueba que entreg la DGEP de la SEP, y que el
INEE puso a disposicin de los miembros del comit, va su sitio web.
Dicha documentacin incluy los manuales tcnicos de las pruebas, bases de datos, reportes de
estudios especiales, y presentaciones a diversas audiencias de las caractersticas de la prueba.
Dichos documentos abarcan un perodo de seis aos, del 2007 al 2012.
A fin de contar con ms informacin que permitiera evaluar la validez cultural de las pruebas
se efectu el microanlisis de una muestra de los reactivos ENLACE. Dichos reactivos fueron
seleccionados aleatoriamente del conjunto de reactivos publicados por la Secretara de Edu-
cacin Pblica en los manuales intitulados Apoyos para el uso pedaggico de los resultados
ENLACE publicados en diciembre de 2012 por la Direccin General de Evaluacin de Polticas
(SEP, 2011-2012a,b,c,d,e,f,g). Tales documentos fueron entregados a los docentes de todo el
pas durante el ciclo escolar 2012-2013 con la finalidad de ayudarlos a preparar al alumnado
para la presentacin de la prueba ENLACE en el mes de abril de 2013. Estos materiales tienen,
entre otros propsitos, el de promover la apropiacin del estudio ENLACE, a travs de (...)
los instrumentos de medicin empleados... En total, los materiales contienen una seleccin
de 376 reactivos de Espaol y 391 reactivos de Matemticas. La tabla 3.1 muestra el nmero de
reactivos por rea de contenido y grado escolar.
79
Tabla 3.1 Nmero total de reactivos de Espaol y Matemticas incluidos en los Apoyos para el
uso pedaggico de los resultados ENLACE
Primaria Secundaria
rea de
Contenido Tercero Cuarto Quinto Sexto Primero Segundo Tercero

Espaol 52 54 56 49 52 59 51
Matemticas 49 50 57 66 62 58 49
Fuente: Elaboracin propia.
Para cada reactivo, los materiales dan informacin sobre el contenido evaluado y sobre el desem-
peo de los alumnos, como porcentaje de los que respondieron correctamente (valor p). Adems
del total nacional se reportan datos desagregados en cuatro tipos de escuela: Particular, General,
Indgena y CONAFE. Los materiales no informan sobre los aos de aplicacin de ENLACE en que
se basan los datos. Es importante mencionar la posible existencia de error en estos datos. Los
materiales de todos los grados incluyen las cuatro categoras en los datos sobre el desempeo
de los estudiantes. Sin embargo, las categoras Indgena y CONAFE solo operan en los niveles de
preescolar y primaria.
La muestra aleatoria consisti en 29 reactivos, 14 de Espaol y 15 de Matemticas. Dentro de cada

rea de contenido, dos de los reactivos seleccionados pertenecan a cada uno de los siete gra-
dos escolares reportados en el documento mencionado de Apoyos (SEP, 2011-2012a,b,c,d,e,f,g)
de tercero al sexto de primaria y primero al tercero de secundaria. Un reactivo adicional se
analiz en el caso de Matemticas tercer grado. Este tamao de la muestra representa cerca del
cuatro por ciento de los reactivos incluidos en los materiales.
A partir de los resultados observados en esta muestra aleatoria de reactivos, es posible tener
una idea del porcentaje de reactivos en la poblacin total de reactivos en las que es probable
que haya errores que afecten la validez cultural de la prueba.
Se emple la tcnica del microanlisis de reactivos (Solano-Flores y Trumbull, 2003), que puede
ser definida como el razonamiento sobre la manera en que las propiedades de los reactivos y
las caractersticas lingsticas, culturales y sociales de los examinados operan en combinacin
y afectan la validez cultural al influir en la manera en que los estudiantes los interpretan. Este
anlisis es integral, multidisciplinario y basado en juicios. Dadas las limitaciones de tiempo y re-
cursos no se efectuaron anlisis empricos que examinaran la correlacin entre medidas de error
de diseo de los reactivos y medidas de desempeo. Tal estudio supondra la participacin de
diversos profesionales y el empleo de muestras ms grandes de reactivos.
Para cada reactivo se examinaron los aspectos gramaticales, pragmticos, semnticos y de con-
tenido que, en combinacin, pueden afectar el desempeo de los estudiantes, especialmente
los indgenas o hablantes primarios de lenguas indgenas, estudiantes de nivel socioeconmico
bajo o estudiantes de zonas rurales. A continuacin se redact una narrativa que describe las
caractersticas problemticas del reactivo.
Los anexos I y II presentan, respectivamente, el microanlisis de cada uno los 29 reactivos

de Matemticas y Espaol seleccionados. Cada microanlisis contiene el reactivo y la infor-
macin de desempeo, tal y como se les reporta en los Apoyos y la narrativa que sintetiza
80
el microanlisis. Para cada reactivo incluido se reporta la pgina del material de Apoyos
correspondiente en que el reactivo apareci.
Adems de los retos lingsticos por diseo inadecuado, se observa en los reactivos una va-
riedad de problemas de contenido, organizacin y redaccin. Entre los ms serios hay: 1) des-
contextualizacin de la informacin que se le presenta para resolver problemas; 2) uso de un
registro (lenguaje acadmico, convenciones de notacin) ajeno al usado en Mxico; 3) ms de
una posible respuesta correcta en reactivos de opcin mltiple; 4) ausencia de opcin correcta
en esos reactivos; 5) informacin errnea; 6) informacin incompleta; 7) palabras faltantes y,
por ende, oraciones incomprensibles; 8) complejidad innecesaria de informacin contextual;
9) redaccin-estilo y lxico inusuales en textos mexicanos, y; 10) diseo defectuoso de las ilus-
traciones. Estos problemas, que son relevantes para la evaluacin vlida de cualquier sector
poblacional, pueden presentar retos an ms serios para poblaciones minoritarias. No es difcil
apreciar que estos problemas derivan de la falta de cumplimiento con los criterios de validez
cultural que revel el anlisis de la documentacin de ENLACE .
A peticin del INEE, la DGEP proporcion unos material adicionales que fueron tambin analiza-
dos. Este informe integra los resultados obtenidos a partir tanto de los documentos iniciales como
de los documentos adicionales de acuerdo con cada uno de los doce criterios de validez cultural.
1. Marco conceptual de la prueba. Considera cmo la efectividad en el aprendizaje,

cultural del estudiante y su familiaridad con la lengua y el dialecto en que se admi-
nistran las pruebas.
No se encontr ningn documento que presente el marco conceptual de ENLACE . Los docu-
mentos que contienen informacin cercana relevante al marco conceptual de la prueba son
los manuales tcnicos. Dichos documentos son comunes a las reas de contenido (Espaol,
Matemticas, asignatura variable) y abordan el aspecto conceptual del contenido evaluado de
cada una de estas reas de una manera muy superficial, en menos de una pgina, y no hacen
mencin alguna de los factores socioculturales, lingsticos y epistemolgicos que influyen el
aprendizaje y la evaluacin de un contenido.
Sumada a lo anterior, la informacin sobre la organizacin del contenido tiene serias deficien-
cias, independientemente de que no considera aspectos socioculturales, lingsticos y epis-
temolgicos. Por ejemplo las matrices de contenido no presentan cruces de rea temtica y
habilidad, sino cruces de reas temticas con niveles de desempeo. Esta deficiencia impide que
se tenga una visin compleja y detallada de los contenidos.
La revisin minuciosa de las nuevas evidencias cedidas por la DGEP confirma lo expuesto en la
entrega previa. No se encontr un marco conceptual de ENLACE , y mucho menos un marco que
considere la condicin multilinge y pluricultural de la poblacin escolar. Las breves menciones
que se hacen a las primarias indgenas se refieren a los posibles problemas durante la aplicacin.
En el MT 2012 el marco conceptual se limita a la descripcin de la metodologa para la elaboracin

de la prueba, su planeacin, algunos criterios para el diseo de reactivos y consideraciones sobre
Atencin a la diversidad cultural 81

su aplicacin. Se menciona brevemente, cuando se seala su carcter censal, que incluye a es-
cuelas de todas las modalidades, pero no enuncian posibles variables de naturaleza sociocultural.
2. Especificacin de las poblaciones. Como parte del desarrollo de la prueba se estable-

cen las caractersticas de la poblacin objetivo que consideran la diversidad cultural y
lingstica del pas y los mltiples contextos y escenarios culturales y ambientales.
No se encontr en los documentos revisados alguno que presente un marco de muestreo pobla-
cional. Tampoco se encontr ningn documento que identifique los principales grupos lingsti-
cos, tnicos, o socioeconmicos de estudiantes a los que se aplica la prueba. En los cuestionarios
de contexto de ENLACE se pregunta al estudiante si habla alguna lengua indgena, sin que se
especifique de qu lengua se trata. No hay preguntas que permitan conocer a profundidad el
perfil lingstico de los estudiantes como el tipo de bilingismo que maneja. Entre los documen-
tos adicionales no se encontr ninguno que presente o reporte alguna visin conceptual de la
diversidad lingstica y cultural en el pas, que permita asegurar la representacin estadstica
equitativa de distintos grupos demogrficos en el proceso de desarrollo de ENLACE .
3. Estrategia para considerar diversidad cultural, lingstica y socioeconmica. Como

parte del desarrollo de la prueba se hace uso de referentes tericos y conceptuales
sobre cultura y lengua y se establecen procedimientos para tomar en consideracin
la diversidad, cultural, lingstica y socioeconmica del estudiantado mexicano.
En ningn documento revisado se encontr una metodologa o el uso de un marco terico

para abordar la diversidad cultural, lingstica, socioeconmica y regional del pas. Una bs-
queda automtica de trminos como indgena y lengua, asociados a la diversidad cultural
y lingstica permiti corroborar que los documentos analizados no consideran, ni siquiera
tangencialmente, la diversidad poblacional del pas y los distintos estratos poblacionales que
deben ser tomados en cuenta para planear y pilotear una prueba.
Entre los documentos que se proporcionaron para la segunda ronda de revisin, no se encontr
tampoco ninguna evidencia del uso de tales referentes conceptuales.
El nico documento en el cual se encontr alguna alusin a condiciones particulares sobre la

aplicacin de ENLACE en escuelas a las que asisten nios indgenas es el Manual para el Coordi-
nador de aplicacin. Muestra controlada. Sin embargo, las dos menciones (p. 6 y p.14) se limitan
a dar indicaciones sobre la posible dificultad de los estudiantes hablantes de lengua indgena
para comprender las instrucciones o el contenido de los reactivos. En ambos casos la instruccin
se limita a aprobar la traduccin del contenido por parte de los aplicadores cuidando de no
incluir en dicha traduccin indicaciones sobre la respuesta correcta: En escuelas de educacin
indgena los docentes-aplicadores debern apoyar a los alumnos en caso de que no compren-
dan alguna palabra o texto de la prueba, explicando en lengua indgena si es necesario, limitan-
do su respuesta a explicar solo su significado (p.6).
82
Ms adelante (p. 14), el documento incluye consideraciones sobre la aplicacin de la prueba a
una muestra AAE en escuelas de educacin indgena, escuelas unitarias y multigrado, y la aplica-
cin a estudiantes con necesidades especiales. Sin embargo, tales consideraciones son relevantes
a las dificultades que pudieran presentarse durante la aplicacin de la prueba y no son parte de
un diseo o procedimiento sistemtico que tome en cuenta la diversidad.
ESPECIFICACIN DE TEMS
4. Especificacin de tems. Los documentos que establecen los distintos tipos y forma-
tos de los tems a incluir en la prueba proporcionan lineamientos para asegurar que
la informacin grfica y contextual incluida en los tems sea familiar para la mayora
del estudiantado y reflejen una amplia variedad de contextos culturales.
Al igual que con el marco conceptual, no se encontr en los documentos examinados una me-
todologa rigurosa que permita el desarrollo sistemtico de los reactivos. Debido a la ausencia
de esa metodologa, no existe mencin alguna de acciones que deben tomarse para asegurar
que los formatos de los reactivos consideren la diversidad regional, de gnero, cultural, lin-
gstica y socioeconmica del pas. Independientemente del descuido de estos aspectos, las
especificaciones que se proporcionan para elaborar reactivos son extremadamente generales,
lo que provoca que se les interprete de maneras muy distintas por los autores de los reacti-
vos. La ausencia de especificaciones detalladas para la elaboracin de reactivos provoca una
variedad tremenda entre los reactivos que se consideran como del mismo tipo y contribuye
sustancialmente a la varianza de error.
Entre los documentos que se proporcionaron para la segunda ronda de revisin no se encontr
ninguna evidencia del uso de tales referentes conceptuales.
Existen documentos Excel, con vistas previas del banco de reactivos que describen los distin-
tos tipos de problemas con un formato como el siguiente:
Estructura 123351- Resolver un problema que implique clculo de potencias con expo-
nente negativo. (5 Vista previa Banco ENLACE MAT_8)
Tales descripciones son muy generales y no especifican los componentes de los tems y sus rela-
ciones ni dan informacin suficiente para que los autores de tems determinen los contextos de
los tems y sus niveles de complejidad de una manera sistemtica. Tal informacin dista mucho
de dar atencin a cualquier aspecto cultural o lingstico de los tems.
A continuacin se presenta un ejemplo del nivel ms detallado que se observ en documentos

que de alguna manera especifican las caractersticas de los reactivos continuacin. El fragmento
del documento que aparece en el cuadro 3.1 muestra simplemente, y de manera muy sucinta,
los aprendizajes esperados y el tipo de reactivo que se ha de desarrollar:

Cuadro 3.1
T G Contenidos Aprendizajes esperados Seleccin

6.1.6 Clculo de distancias reales a
Describe rutas y calcula la distancia
travs de la medicin aproximada S
real de un punto a otro en mapas.

de un punto a otro en un mapa.
5.3.7 Identificacin de mltiplos y
submltiplos del metro cuadrado No
y las medidas agrarias. Resuelve problemas que implican
6.3.4 Relacin entre unidades del conversiones del Sistema Internacional
Sistema Internacional de Medidas (SI) y el Sistema Ingls de Medidas.
S
Medida
y las unidades ms comunes del

6 Sistema Ingls.
6.5.5 Relacin entre el decmetro
cbico y el litro. Deduccin de otras
equivalencias entre unidades de
volumen y capacidad para lquidos Resuelve problemas que implican
y otros materiales. Equivalencia entre usar la relacin entre unidades cbicas S
unidades del Sistema Internacional y unidades de capacidad.
de Medidas y algunas unidades
socialmente conocidas, tales como
(barril, quilates, quintales, etc.).
Entre los documentos proporcionados para la segunda ronda de revisin se encontr uno que
potencialmente podra contener informacin sobre la especificacin de tems. Se trata del do-
cumento, Normas para la construccin de reactivos de opcin mltiple, de solo cinco pginas,
que contiene reglas para asegurar que el formato de los reactivos sea consistente.
Desafortunadamente, aunque son tiles para los autores de reactivos, las reglas que contiene
este documento no son suficientes para asegurar un desarrollo sistemtico de los reactivos.
Esto se puede corroborar con los hallazgos en los microanlisis a los que se hace referencia en
la primera seccin de este apartado.
5. Profesionales involucrados en el desarrollo de los tems. Los equipos de profesionales

a cargo de desarrollar los tems son multidisciplinarios; adems de los expertos en
contenido, dichos equipos incluyen a profesionales con especialidades en el rea de
la cultura e idioma (p.ej., antroplogos y lingistas) y a maestros de minoras cultura-
les y lingsticas y de escuelas rurales y de nivel socioeconmico bajo.
ninguna informacin sobre las caractersticas de los individuos que participaron en el desarrollo
de las pruebas ENLACE . nicamente en el Manual para el Coordinador de aplicacin: Muestra
controlada, se menciona la inclusin de docentes-aplicadores indgenas, pero en ninguno de los
documentos sobre diseo o evaluacin de reactivos se menciona esta posibilidad. Llama la aten-
cin el hecho de que en, la mencin que se hace a la posibilidad de problemas de comprensin
por parte de los estudiantes de escuelas de educacin indgena, se presupone que los docentes-
aplicadores conocen la lengua que hablan los nios cuando est documentado en la literatura
sobre la educacin indgena en Mxico que existe una gran cantidad de profesores bilinges
mal ubicados o con manejo deficiente de la lengua que hablan sus alumnos (COMIE, 2013).
84
6. Representacin de poblaciones diversas en muestras de estudiantes para piloto. Las
muestras de estudiantes con los que se pilotean versiones preliminares de la prueba
incluyen submuestras representativas de las minoras culturales, lingsticas y socioe-
conmicas del pas.
No se encontr mencin alguna de que las pruebas se hayan piloteado con muestras represen-
tativas de grupos culturales, lingsticos y socioeconmicos diversos. Esta falla se relaciona con
la falta de una estrategia para abordar la diversidad poblacional del pas. Entre los documentos
que se proporcionaron para la segunda ronda de revisin no se encontr evidencia de la inclu-
sin del empleo de muestras representativas de distintos sectores poblacionales de los alumnos.
No se encontr ningn documento que desarrolle estos temas. Al parecer, los criterios que se
utilizaron para normar el diseo de reactivos no contemplaron las particularidades de la pobla-
cin escolar en Mxico (ver documento Normas para la construccin de reactivos).
Desde la perspectiva de quienes analizaron la documentacin de la prueba, Piloteo de Reactivos

para 2013: Gua para el Coordinador de aplicacin es el documento en que se debiera propor-
cionar informacin sobre la inclusin de poblaciones minoritarias en el proceso de piloteo de los
reactivos. Desafortunadamente, tal documento contiene solamente un conjunto de normas a se-
guir cuando los responsables visitan las escuelas para aplicar versiones piloto de las pruebas, pero
no especifica ningn procedimiento para asignar sistemticamente diversos grupos lingsticos y
culturales a los distintos reactivos y determinar fuentes posibles de sesgo.
7. Validacin cognitivocultural. Como parte del desarrollo de la prueba se efectan en-

trevistas cognitivoculturales para investigar si estudiantes de diversos grupos cultura-
les, lingsticos y socioeconmicos interpretan de la misma manera el contenido de
muestras representativas de los tems de la prueba.
En los documentos iniciales no se encontr evidencia de que, como parte del desarrollo de las
pruebas, se hagan entrevistas cognitivo-culturales con grupos socioeconmicos, lingsticos o
culturales, o que se tomen en cuentas potenciales diferencias regionales o por gnero.
En los documentos que se proporcionaron adicionalmente tampoco se hallaron evidencias de que

se haya efectuado alguna forma de validacin cultural. De hecho, se encontr muy poca evidencia
de que se hayan examinado aspectos de cualquier forma de validez.
El documento que podra haber proporcionado cierta gua a los autores de reactivos para conside-
rar aspectos cognitivos culturales es el Procedimiento de Construccin de Pruebas de Medicin.
Se trata de un documento prescriptivo que lista las actividades que se han de seguir para el desa-
rrollo de pruebas, pero no detalla tales actividades.
En el segmento transcrito a continuacin, se aprecia que la validez de los reactivos se atiende

como una serie de pasos no detallados. El nfasis en el aspecto operacional minimiza el aspecto
conceptual de la validez e impide tratar a profundidad cualquier aspecto de validez, relacionado
o no con diversidad lingstica o cultural.

Cuadro 3.2
Recibe del Subdirector de Elaboracin de Instrumentos los pa-

quetes con las tarjetas reactivo y materiales de apoyo.
Revisa que los reactivos no presenten problemas de contenido.

Revisa la congruencia entre la informacin del reactivo y la refe-
Valida reactivos rea de Control
rencia bibliogrfica citada.
construidos de Calidad (ACC)
Verifica que los reactivos cumplan con las normas de construc-
cin establecidas.
Propone ajustes a los reactivos que presenten problemas.
Emite una opinin tcnica acerca de la calidad de los reactivos.
En la informacin de los cuestionarios contextuales nicamente se incluye una pregunta sobre

el uso de alguna lengua indgena en la escuela y/o el hogar, pero, como ya se mencion ante-
riormente, no existe algn espacio para especificar de qu lengua se trata.
8. Revisin. Hay un proceso de revisin con jueces que considera fuentes de sesgo
cultural, lingstico y socioeconmico en muestras representativas de los tems.
En la documentacin revisada inicialmente no se encontr ninguna mencin a procesos de revi-

sin basada en juicio de expertos para monitorear y asegurar la calidad de los reactivos, ni mucho
menos en relacin con fuentes potenciales de sesgo cultural, lingstico o socioeconmico.
ninguna evidencia de que se haya utilizado un procedimiento sistemtico y exhaustivo para la
revisin de tems, y mucho menos para que esta revisin haya considerado aspectos culturales,
lingsticos y socioeconmicos.
En el Manual del usuario-juez no se incluye alguna mencin sobre temas vinculados a la diversidad
lingstica, social y cultural en el pas. Los elementos que se incluyen en su pgina 13 para juzgar
el valor de los reactivos son los siguientes:
86
Cuadro 3.3
Entre los documentos que la DGEP proporcion se encontraron documentos Excel que con-
tienen los comentarios de un grupo de revisores a los reactivos. Estos documentos no son
producto de un procedimiento de revisin que se haya llevado a cabo de manera sistemtica y
regular. Ms bien, son el resultado de una serie de presiones polticas. La revisin documental
revel que en el ao 2011 se convoc a un grupo de expertos de la Coordinacin de Educacin
Intercultural y Bilinge (DGEIB), La Direccin General de Educacin Indgenas (DGEI ) y el Institu-
to Nacional de Lenguas Indgenas (I NALI) para revisar los contenidos de los reactivos despus de
una denuncia presentada ante la Comisin Nacional para prevenir la discriminacin (CONAPRED)
por parte de un docente chiapaneco que denunci a la pruebe ENLACE como discriminatoria
hacia los estudiantes indgenas. Este colectivo analiz reactivos de las asignaturas de Matemti-
cas, Espaol y Ciencias Naturales, seleccionados de forma aleatoria, correspondientes a los siete
grados evaluados por la prueba.
Un resumen del producto de dicho grupo se presenta en el documento intitulado Comentarios

a tems, que no incluye la metodologa que se sigui para el anlisis. Tal documento solamen-
te proporciona informacin sobre el grado, los comentarios al reactivo y la manera en que se
atendi o no la observacin.
Llama la atencin que muchas de las observaciones se refirieron a particularidades en el uso del
espaol y sobre errores gramaticales. Algunas de ellas incluyen sugerencias sobre vocabulario
que no es frecuente en el espaol de Mxico y, las menos, al uso de expresiones que tienen
implicaciones culturales como el uso de rarmuri en vez de tarahumara o que pudieran ser
mejor formuladas para su comprensin por parte de los alumnos bilinges. Sorprende que casi
la cuarta parte de las observaciones tiene que ver con reactivos que no tienen una respuesta

correcta o tienen ms de una. Tal observacin coincide con los hallazgos en los microanlisis de
reactivos descritos en la primera seccin de este apartado.
El documento referido tampoco incluye conclusiones sobre la pertinencia lingstica y/o cultu-
ral de reactivos ENLACE. A travs de comunicaciones personales con dos de sus miembros, se
supo que a este grupo de trabajo no se le pidi alguna reflexin adicional sobre el conjunto
de la prueba, las condiciones de aplicacin en las escuelas rurales, indgenas o CONAFE, o los
retos para su desempeo entre los estudiantes que acuden a la escuela en condiciones pre-
carias, como pudiera ser el caso de escuelas ubicadas en campos para jornaleros agrcolas o
escuelas unitarias o multigrado.
Como se muestra en los ejemplos siguientes, aunque bien intencionado, el ejercicio de revisin de
reactivos no tuvo un respaldo conceptual o metodolgico slido. La visin de lo que es cultural se
limita a aspectos superficiales. Adems no se reporta la metodologa seguida, ni se documenta
quines fueron los individuos que participaron en este nico intento de revisin de reactivos.
El siguiente ejemplo presenta los comentarios a un reactivo de Espaol. El comentario del

revisor es tan corto y poco elaborado que no se puede desprender de l ninguna pieza til
de retroalimentacin.
Cuadro 3.4 PO ESP
No se comprende si el revisor demanda que

se desarrolle ampliamente la informacin
referente a la lengua de los huicholes en la
monografa que se presenta. El texto dice:
Las races de la lengua huichola estn basa-
das en el nhuatl, el pima, el yaqui, el cora y
P. 34, Muy bien detallado lo cultural, el tepehuano. Es decir, la monografa fuente
4 34 X
texto pero nada de lo lingstico. incluye informacin lingstica. Cabe sealar
que dicha informacin procede de las mo-
nografas publicadas en Red escolar ILCE. Es
importante destacar que la estructura y con-
tenido de la monografa incluida en la prue-
ba corresponde a que presenta el libro de
texto gratuito correspondiente en la p. 37.
Como muestra el siguiente ejemplo, los comentarios de los revisores de tems reflejan alguna
preocupacin por los grupos indgenas, pero esta preocupacin parece referida solo a su repre-
sentacin en el contenido de pasajes literarios.
Cuadro 3.5
La DEAPE no considera que se incurra en

La lectura de esta prueba re- discriminacin en contra de los alumnos de
fiere a un personaje no exis- los contextos rural e indgena al presentar un
P. 7,
6 7 tente en un entorno indgena X texto que se refiere a la labor de un bombe-
texto
y rural. [Beatriz Rodrguez y ro. Menos aun cuando el material consiste
Jorge Ramrez] en una entrevista a travs de la cual un bom-
bero explica sus actividades.
El siguiente es un ejemplo de un comentario pertinente, aunque no se relaciona con el

sesgo psicomtrico:
88
Cuadro 3.6
La opcin C incluye la expresin

negrita refirindose a la
sirvienta. Es una expresin
cariosa pero que puede ser
discriminatoria hacia los afro-
Atendida. Se propone la sustitucin del tr-
8 13 143 descendientes. Sugiero sacar X
mino SIRVIENTA por ANA.
esa frase y cambiarla por el
nombre de la sirvienta. Tambin
es un estereotipo poner a la
gente de servicio domestico
como negritas
El siguiente ejemplo de Matemticas, ilustra cmo, en algunos casos, el inters por no causar
sesgo est guiado por concepciones errneas o sin fundamento de los grupos indgenas.
Cuadro 3.7
Son de cultura urbana. El con- La especificacin alude a la equivalencia del

texto del problema no es cer- Sistema Internacional con medidas del Siste-
6 5 18 X
cano para algunas comunida- ma Ingles y se requiere contextualizar de la
des. No conocen el ftbol. manera planteada.
El siguiente ejemplo es en Ciencias Naturales. Es uno de los pocos casos en que se encontr un
comentario que proporcionara un anlisis suficientemente detallado que condujera al mejora-
miento del tem:
Cuadro 3.8
La opcin correcta depende

del contexto, para el urbano la
ms comn sera la opcin C, Atendida, se sustituy ambulancia por
3 60 X
sin embargo en contextos rura- mdico.
les e indgenas, la B y la D tam-
bin seran posibles acciones.
9. Anlisis de sesgo. Se efecta el anlisis del funcionamiento diferencial de una muestra

representativa de tems para diversos grupos focales: estudiantes de distintos grupos
indgenas, estudiantes de distintas zonas geogrficas, de nivel socioeconmico bajo
y de zonas rurales.
El material analizado inicialmente no incluye informacin sobre funcionamiento diferencial de al

menos una muestra de reactivos. Aunque se han hecho estudios tcnicos, se enfocan principal-
mente a equiparamiento. No se encontr evidencia de que se hayan conducido estudios para
analizar sesgo en distintos grupos poblacionales, a pesar de que en los manuales se menciona la
necesidad de considerar potenciales sesgos por factores culturales, socioeconmicos y gnero.

El Manual para el Coordinador de aplicacin. Muestra controlada (pg. 14) incluye informacin
sobre la posibilidad de aplicar esta muestra en escuelas de educacin indgena, entre alumnos
con discapacidad, en escuelas unitarias y multigrado. Sin embargo el documento no da infor-
macin sobre el porcentaje de escuelas con estas caractersticas incluidas en la muestras con-
trolada, ni los hallazgos sobre potenciales sesgos por razones de tipo lingstico, cultural, por
gnero, discapacidades o por la condicin de ruralidad o migracin de los estudiantes.
Existen documentos (por ejemplo, E4H_CAL1) en los que se reportan los niveles de dificultad de
los tems por rea de contenido y grado. Sin embargo, no se encontr en ninguno de esos docu-
mentos ninguna evidencia de que se hayan efectuado anlisis de sesgo, o de que los datos sobre
dificultad hayan sido desagregados por grupo de inters para determinar posibles diferencias
sistemticas en los puntajes entre grupos demogrficos debidas a factores no relacionados con
los constructos medidos.
Entre el conjunto de documentos que se proporcionaron para la segunda ronda de revisin se en-
contr uno, que contiene lo ms cercano a lo que podra ser el anlisis de diferencias sistemticas
entre distintos grupos de inters. Tal documento es el Informe de Ganancia Educativa 2010-2013
de las pruebas ENLACE. Este documento contiene anlisis de la ganancia educativa en las tres
reas de contenido de ENLACE. Dicho documento fue presentado por el CENEVAL a la Direccin
General Adjunta de Programas Especiales y para la Direccin de Programas para la Administracin
Pblica. Presenta la informacin de ganancia educativa basndose principalmente en estadsticas
descriptivas muy bsicas, comparando cohortes de estudiantes de acuerdo con el criterio de mar-
ginacin econmica.
Aunque el documento presenta informacin importante, ste no reporta informacin basada

en estadstica inferencial sobre el anlisis de las diferencias entre poblaciones desagregadas por
distintos criterios, incluyendo etnicidad y compara resultados de de tercero de secundaria con
los resultados de ENLACE MS .
10. Estudios de generalizabilidad. Se efectan anlisis de generalizabilidad para determi-

nar la confiabilidad y validez de las generalizaciones de calificaciones obtenidas con
el mismo conjunto de tems para distintos grupos de estudiantes definidos por grupo
tnico y lingstico, localidad y nivel socioeconmico.
Ni en el primer grupo de materiales ni en el segundo se encontr evidencia alguna de que se ha-

yan efectuado estudios de generalizabilidad para examinar confiabilidad y validez con respecto
a lengua, o para comparar la generalizabilidad de las medidas de desempeo acadmico entre
distintos grupos culturales, lingsticos y socio-econmicos.
11. Tiempos y calendarios. Los que se refieren a actividades que tienen como objeti-
vo considerar la diversidad cultural, lingstica y socioeconmica son razonables
y factibles.
90
La informacin sobre tiempos y calendarios que se encontr en los documentos revisados ini-
cialmente no permite determinar si stos hacen posible considerar adecuadamente la diversidad
cultural, lingstica y socioeconmica (por ej. para identificar distintas muestras poblacionales y
asegurar su participacin en las fases piloto del desarrollo de las pruebas).
En cuanto a los materiales adicionales, en el Manual para el Coordinador de aplicacin. Mues-

tra controlada 2013 (el ultimo con que se cuenta) se incluye el calendario para que se realice
la prueba.
Como se puede ver a continuacin (pginas 4 y 5 del documento), dicho calendario es rgido
y no prev contingencias de naturaleza cultural o siquiera climtica, a pesar de que la prueba
se realiz al inicio de la temporada de lluvias en la mitad sur de pas, en donde vive la mayor
parte de la poblacin indgena mexicana.
Cuadro 3.9
En la pgina 6 nicamente se incluyen consideraciones para ajustar los calendarios en las escue-
las de turno vespertino o en donde las clases no empiezan a las 8:00 de la maana.

92
Cuadro 3.10
12. Mecanismos de correccin. El proceso de desarrollo de pruebas incluye mecanismos
de correccin y mejoramiento de las pruebas con base en la informacin obtenida
respecto a validacin cognitivo-cultural, la revisin, los anlisis de sesgo y los estu-
dios de generalizabilidad de los tems.
No se encontr en los documentos revisados inicialmente la existencia de mecanismos de co-

rreccin que permitan refinar los procedimientos de desarrollo de las pruebas con base en
resultados de los anlisis de sus propiedades tcnicas.
Esta ausencia de mecanismos de correccin es, en parte, consecuencia de la ausencia de estu-

dios de sesgo y de generalizabilidad, y de entrevistas cognitivoculturales y procedimientos de
revisin que debieran efectuarse como parte rutinaria del desarrollo de las pruebas.
Como se discuti en relacin con el criterio de Revisin, el nico ejercicio de revisin para temas
vinculados a la pertinencia lingstica y cultural dio como resultado una recomendacin de la
CONAPRED y solamente se hizo con un puado de reactivos, y casi solamente en cuanto a su
fraseo y al uso del espaol de Mxico.
No existe evidencia de que, como resultado de este trabajo, se revisara el procedimiento para su
desarrollo con el fin de minimizar problemas de discriminacin, sesgo potencial, etctera. Solo
se realizaron ajustes mnimos al contenido de un pequeo conjunto de reactivos con la finalidad
de evitar el uso de trminos que pudieran resultar discriminatorios.
A pesar de que varias de las observaciones se centraron en la presuposicin del conocimiento

de la realidad urbana por parte de los estudiantes, se respondi por parte de la DGEP que dicha
informacin forma parte de los contenidos de los libros de texto, ignorando la potencial influen-
cia del contexto de los estudiantes en sus respuestas.
Este tipo de ejercicios de revisin hubieran podido dar lugar a una nueva generacin de pruebas
adecuadas para atender el diagnstico educativo de la poblacin lingstica y culturalmente
diversa en Mxico, lo cual formara parte de sus derechos a recibir una educacin acorde a esta
condicin segn dicta la Ley General de Derechos Lingsticos de los Pueblos Indgenas en su
artculo 13.
CONCLUSIN
Estos resultados revelan que las pruebas ENLACE-B no cumplen satisfactoriamente ninguno
de los criterios de validez cultural. Es muy importante mencionar que, en gran medida, las de-
ficiencias observadas no solamente estn directamente relacionadas con los temas de validez
cultural, sino que son deficiencias que no debieran existir en ninguna prueba, aun cuando la
poblacin estudiantil fuera homognea culturalmente y no existieran desigualdades sociales.
Los anlisis de ejemplos de tems revelan una consideracin muy limitada de los aspectos de
validez cultural y serias limitaciones en los documentos que guiaron el desarrollo de las pruebas
ENLACE (p. ej., marco conceptual, especificaciones de reactivos, marco de muestreo).

Estudios ms detallados permitiran identificar los principales tipos de errores de los reactivos
para determinar la manera en que las limitaciones (o la ausencia) de documentos normativos de
la prueba influyen en la calidad de los reactivos.
Con base en la documentacin analizada inicialmente se identificaron deficiencias en las

pruebas y los procedimientos para su desarrollo que limitan seriamente su validez cultural
y, en general, su validez. El anlisis de la documentacin adicional confirma las conclusiones
anteriores: no existe evidencia de un tratamiento sistemtico de la diversidad lingstica, cul-
tural y socioeconmica en el pas. Ante la ausencia de documentos normativos que prescriban
acciones y procedimientos especficos para tratar tal diversidad, los comentarios se basan en
documentos cuyo contenido podra haber incluido el tratamiento de estos temas.
Las limitaciones identificadas derivan en gran medida de la falta de documentos normativos que
permitan una prctica sistemtica en el desarrollo de las pruebas Enlace. Entre los principales
documentos cuya ausencia afecta a la calidad de dichas pruebas estn:
1. Un marco conceptual de la prueba para cada rea de contenido que proporcione

una visin de la naturaleza de los contenidos a evaluar y su interseccin con habili-
dades genricas.
2. Un documento de especificacin de reactivos que proporcione informacin detallada
las caractersticas de los tems a desarrollar, con un nivel de detalle tal que asegure
que factores idiosincrticos entre los elaboradores de pruebas no influyan en el nivel
de complejidad de los reactivos.
3. Un documento de marco muestral de la prueba que defina la estructura sociodemo-
grfica y tnica de la poblacin estudiantil y que permita la identificacin de los gru-
pos sociales, tnicos y lingsticos muestras de los cules debern incluir en todas las
etapas de desarrollo de las pruebas.
94
4 Aplicaciones
La aplicacin de las pruebas es un paso crucial dentro del proceso de desarrollo

(Downing, 2010). Es en esta etapa en la que se hacen llegar los cuadernillos con los tems ge-
nerados a los sustentantes, se promueve su respuesta, se recolecta la informacin y se realizan
anlisis sobre el comportamiento de los tems. De la manera en la cual se realice esta etapa,
depender la validez de los puntajes y la utilidad que tengan para el cumplimiento de los pro-
psitos con los que la prueba fue creada (Downing, 2010).
Las estandarizacin de las aplicaciones es recomendada para controlar la mayor cantidad de

variables extrnsecas que puedan afectar las respuestas de los sustentantes. La estandarizacin
implica que se ha definido e implementado un mismo procedimiento relacionado con las indi-
caciones, condiciones de la prueba y su calificacin (AERA, APA, & NCME, 2014, p. 111). Esta
estandarizacin es de gran importancia para asegurar que los sustentantes tienen la misma
oportunidad de demostrar su talento al momento de responder la prueba. Las limitaciones de
una prueba con respecto a la estandarizacin de sus procedimientos pueden poner en riesgo
la generacin de puntajes comparables, la medicin del constructo y, por lo tanto, la utilidad e
interpretacin de los puntajes (AERA et al., 2014).
Algunos autores sealan que condiciones laxas, inseguras, o no estandarizadas de administra-

cin de una prueba pueden invalidar la interpretacin de los puntajes para algunos o todos los
examinados y estropear el trabajo realizado en las otras etapas del proceso de desarrollo de la
prueba (Downing, 2010, p. 163).
En general, se busca que en esta etapa se eliminen las condiciones que podran invalidar los
resultados, sus interpretaciones y su uso para el cumplimiento de los propsitos de la prueba.
Esto comprende procesos que se llevan a cabo antes, durante y despus de la aplicacin.
Antes de la aplicacin, es importante que se garantice que se cuenta con un listado de es-
cuelas actualizado y confiable, sea para una aplicacin censal o como marco muestral; que las
muestras utilizadas en la aplicacin estn basadas en diseos slidos, y en las que los estratos
hayan sido definidos con base en argumentos tericos defendibles; y, que se hayan diseado
procedimientos para verificar que los sustentantes a los que se aplica la prueba sean los que
se planificaron. Adems es necesario que se lleve a cabo un minucioso proceso de planeacin
de la aplicacin, incluyendo la generacin de manuales que hayan sido probados en campo,
la definicin de un cronograma detallado, identificacin del personal de las escuelas que par-
ticipar en la aplicacin, precisin de requisitos y procedimientos para garantizar confidenciali-
dad y seguridad de materiales de evaluacin as como de las respuestas de los sustentantes, y
mecanismos para controlar la calidad de la aplicacin. Finalmente, en esta etapa se selecciona
y capacita al personal de aplicacin, esto involucra la definicin de criterios estandarizados para
su reclutamiento, seleccin y entrenamiento; la definicin de procedimientos de entrenamiento
que aseguren el adecuado conocimiento de los materiales y el dominio de las funciones que
95
realizarn en campo, la documentacin de estos procesos, y la definicin de procedimientos
para monitorear la aplicacin de las pruebas.
Durante la aplicacin de las pruebas se busca que no haya irregularidades que puedan afectar
las respuestas de los alumnos. Comprende, principalmente: motivar la respuesta de los alumnos;
contar con procedimientos estandarizados para lidiar con la no respuesta y prevenir y enfrentar
la copia o cualquier tipo de fraude; implementar mecanismos de control de calidad que permitan
asegurar que las condiciones de administracin de la prueba sean estandarizadas, que se realicen
conforme a lo planificado y se aseguren los materiales y las respuestas de los alumnos.
Despus de la aplicacin, es importante que se establezcan y lleven a cabo procedimientos

sistematizados para la preparacin del procesamiento de datos que retomen las experiencias y
prcticas internacionales. Tambin requiere que se asegure que se cuenta con personal califi-
cado para el manejo de los datos y hayan sido entrenados en todos los aspectos de su trabajo,
asegurando que est familiarizado con los procedimientos tcnicos aceptados para el manejo
de los datos y que comprenden su importancia, para que los anlisis posteriores se hagan sobre
informacin de la mejor calidad posible. La conformacin y verificacin de las bases de datos
es crucial en esta etapa, focalizando en la estructura de la base de datos, la asignacin de
identificadores a los sustentantes, y el comportamiento de las respuestas de los sustentantes a
cada uno de los tems. Finalmente, la documentacin de los procesos y la definicin de proce-
dimientos para notificar y documentar irregularidades son fundamentales para la validacin del
proceso de aplicacin.
En este captulo se presentan los hallazgos principales del anlisis sobre la validez de las apli-
caciones de ENLACE-B. Los hallazgos se presentan justamente de acuerdo a los diferentes mo-
mentos del proceso de administracin de las pruebas:
Antes de la aplicacin
Seleccin de la muestra
Planeacin de las aplicaciones
Seleccin y capacitacin del personal de aplicacin
Durante la aplicacin
Minimizacin de carga, motivacin, no respuesta y fraude
Procedimientos para el control de calidad de las aplicaciones
Despus de la aplicacin
Preparacin del procesamiento de datos
Procesamiento y verificacin de datos
Notificacin de irregularidades
Para la valoracin de los criterios, se utiliz informacin de diferente naturaleza. En primer

lugar se revisaron los documentos electrnicos proporcionados por la Direccin General de
Evaluacin de Polticas (DGEP) al Instituto Nacional para la Evaluacin de la Educacin (INEE);
tambin se revisaron los documentos disponibles en la pgina web de Enlace Bsica (http://
www.enlace.sep.gob.mx/ba/). Se condujeron entrevistas semiestructuradas en diez entidades
federativas (Aguascalientes, Colima, Distrito Federal, Durango, Estado de Mxico, Guanajuato,
Nuevo Len, Veracruz, Yucatn y Zacatecas) y se aplic un cuestionario en lnea dirigido a
los responsables de las reas Estatales de Evaluacin de todas las entidades federativas que fue
96
respondido en 26 entidades, por un total de 31 informantes.1 La informacin recuperada se
incorpor tambin en la valoracin de los criterios.
La creciente participacin de diversos pases latinoamericanos en las principales evaluaciones

estandarizadas internacionales ha posibilitado comparar las prcticas nacionales en la materia,
compartir experiencias, adoptar criterios de calidad relativamente homogneos e identificar
oportunidades de mejora.
CRITERIOS DE VALIDEZ ANTES DE LA APLICACIN
Seleccin de muestra (aplicable a ENLACE para muestra controlada)
De acuerdo con la documentacin disponible y particularmente segn lo planteado consistente-

mente en los manuales de ENLACE para las diversas aplicaciones que ha habido, las bases de da-
tos de escuelas y estudiantes se conforman a partir de la informacin provista por las entidades
federativas, no de un sistema de informacin central. Es responsabilidad de cada estado la actua-
lizacin de sus bases de datos, por lo tanto, la confiabilidad del listado depender de la precisin
de las bases de datos generadas por cada estado en el periodo que son solicitadas por la SEP.
En el cuestionario en lnea, informantes de 8 de las 26 entidades que lo respondieron sealaron

estar en desacuerdo con la siguiente afirmacin: El nivel de actualizacin de las bases de datos
de escuelas y estudiantes (censo escolar, formato 911) sobre las cuales se basa la SEP para llevar
a cabo la aplicacin es adecuado. Las razones principales que dieron ante este problema, fue la
falta de actualizacin debida a la fecha en que se solicitan las bases de datos, que no permite re-
gistrar la movilidad y desercin estudiantil, las escuelas de reciente creacin y la baja de escuelas.
Teniendo en cuenta que en la informacin proporcionada no se encuentra mencin a la perio-

dicidad en que debe llevarse a cabo la actualizacin y en qu momento se cierra el proceso y
se remiten los archivos para impresin y transporte de materiales, es probable que el proceso
de actualizacin de las bases de datos incida en que se presenten importantes oscilaciones en
el censo de escuelas y estudiantes (particularmente en el intervalo comprendido entre 2010
y 2013 en el que en cada ao vari la tendencia; ver http://www.enlace.sep.gob.mx/noticias/
noticia_2/).
De acuerdo con la informacin proporcionada en el cuestionario aplicado en lnea a las reas

Estatales de Evaluacin, se identific que en la aplicacin 2013, se solicit el envo de la base
de datos en enero del mismo ao. Hacer la solicitud en esa fecha implica que los movimien-
tos de alumnos que transcurren entre ese momento y la aplicacin no se registran y se limita
Las entidades que dieron respuesta al cuestionario aplicado en lnea fueron: Aguascalientes, Baja California, Baja
1
California Sur, Campeche, Chiapas, Chihuahua, Coahuila, Colima, Distrito Federal, Durango, Estado de Mxico, Gua-
najuato, Guerrero, Hidalgo, Jalisco, Michoacn, Morelos, Nayarit, Nuevo Len, Oaxaca, Puebla, Quertaro, Quintana
Roo, San Luis Potos, Sinaloa, Sonora, Tabasco, Tamaulipas, Tlaxcala, Veracruz, Yucatn y Zacatecas.
Aplicaciones 97
su oportunidad de responder la prueba, pues en el Manual del Coordinador de aplicacin se
seala que a los alumnos que no cuenten con hojas de respuesta personalizadas se les tendr
que informar que solo podrn resolver el examen en lnea posterior al periodo de aplicacin
nacional (no se pueden utilizar hojas de respuesta personalizadas de alumnos que no asistieron
o se dieron de baja del plantel).2 La mayora de los informantes que respondieron el cuestionario
en lnea (19 de 31) seal estar totalmente de acuerdo o de acuerdo con la afirmacin El nivel
de actualizacin de las bases de datos de escuelas y estudiantes (censo escolar, formato 911)
sobre las cuales se basa la SEP para llevar a cabo la aplicacin es adecuado; 11 informantes
estuvieron en desacuerdo. Dentro de los comentarios emitidos sobre las bases de datos, dos
informantes sealaron que la fecha establecida para entrega de la base de datos la consideran
anticipada y otros sugirieron alternativas de mejora de distinta naturaleza, como se puede ver
a continuacin: ampliar el tiempo de validacin de las bases de datos; revisar los tiempos en
que se solicitan las bases de datos; proyectar los cambios derivados de los movimientos de la
matrcula y el estado de las escuelas; establecer mecanismos para hacer frente la movilidad
escolar y las altas de nuevas escuelas; solicitar la actualizacin mensual de la base de datos de
los alumnos y escuelas; considerar un perodo previo a la aplicacin de ENLACE para incluir las
altas de los alumnos; consolidar un Registro Nacional de Escuelas, Alumnos y Docentes que
permita su actualizacin permanente en lnea (sistema nico de informacin actualizada).
Es probable que el estado de la base de datos tenga que ver con algunas irregularidades que se
presentan durante la aplicacin, en particular con la correspondencia de las cajas y hojas de res-
puesta entregadas en cada escuela, y la suficiencia de cuadernillos y hojas de respuesta. A este
respecto, en el cuestionario en lnea, 17 de 26 entidades sealaron que en la ltima aplicacin
se presentaron irregularidades de este tipo, dentro de las cuales, sealaron: en 11 entidades
reportaron insuficiencia de cuadernillos, en 2 de ellas faltaron cuadernillos para grupos com-
pletos; en 9 entidades faltaron hojas de respuesta, en 3 de estos casos las hojas de respuesta
pertenecan a otras escuelas; y, en una entidad reportaron haber recibido cajas mal etiquetadas.
2. Cuando proceda, las muestras se disearn utilizando diseos slidos; los estratos se
definirn con base en argumentos tericos defendibles
ENLACE no cuenta con un diseo muestral, al ser una prueba censal. Sin embargo, hay una
muestra controlada que se utiliza dentro de ENLACE para realizar un piloteo inicial y uno sub-
secuente de reactivos con una muestra de sujetos por asignatura-grado. Los manuales tcnicos
proveen algo de detalle sobre las frmulas para disear las dos muestras utilizadas en ENLACE:
1) una muestra para validar (pilotear) reactivos (este ejercicio se realiza antes de la aplicacin
nacional), y 2) una muestra controlada para la aplicacin del pre-test (que se lleva a cabo du-
rante la aplicacin de ENLACE). En este apartado nos referiremos a estas dos muestras como
muestra para pilotaje y muestra controlada.
Cabe hacer notar que, en general, los manuales estn redactados de forma que generan
confusin acerca de las muestras que se emplean y como se calculan. Por ejemplo se refiere
a ambas muestras como controladas. En la p. 137 en el Recuadro, la SEP se refiere a las dos
Cabe sealar que aunque se hace esta precisin, en el cuestionario en lnea, algunas entidades reportaron haber sido
2
autorizados para que los alumnos sin hojas de respuesta registraran sus respuestas en el cuadernillo, y stas despus
fueron capturadas en una plataforma especfica.
98
muestras empleadas como general y controlada pero no queda claro a cual se refiere
cada una de ellas.
O bien, se explica un diseo muestral en un apartado (por ej. Aleatorio simple nacional), y des-
pus se presenta informacin para sugerir que lo que realmente se ejecuta es un diseo distinto
(estratificado por escuelas, utilizando como marco de referencia nicamente algunos estados).
A continuacin se describe el diseo seguido para establecer cada una de las dos muestras utiliza-
das por ENLACE , segn lo que se puede apreciar en los manuales tcnicos consultados.
El diseo de la muestra para pilotaje de reactivos sigue un modelo de muestreo aleatorio simple,
con frmulas y diseo estndar. El tamao de muestra de 5,000 sujetos (individuos) bajo dicho
esquema de muestreo aleatorio simple proporciona un error de 1% lo cual es muy adecuado.
El Manual Tcnico de 2009 menciona que los diseos de las muestras controladas (para probar
tems), son supervisadas por la DGEP. Aunque el diseo es correcto dados los supuestos, hay
dos puntos que pudieran debilitar la utilidad de la muestra para este ejercicio de validez y para
la generacin de variables de contexto de alumnos, padres y docentes.
Primero, en algunos aos (por ej. 2013), la muestra para pilotaje, por razones de costo, se
realiza nicamente con sujetos en el Estado de Mxico y el Distrito Federal. Aunque no es una
muestra representativa, el Manual Tcnico argumenta las razones por las cuales es todava
vlida: Una muestra representativa de todos los estados y caractersticas de la poblacin pue-
de ser atractiva para darle mayor validez al piloteo, pero producira un costo muy alto para el
proyecto, con un impacto poco interesante en los resultados (Manual Tcnico ENLACE, 2013).
En este punto, valdra la pena ser ms explcitos sobre por qu en este caso el costo no justi-
fica el beneficio. Durante reuniones con personal de DGEP, se coment que en otros aos la
muestra incluye escuelas de otros estados. Esto no est detallado en los manuales tcnicos.
Segundo, la descripcin del manual (se revis 2009, 2012 y 2013) no provee suficiente detalle
para asegurar que el muestreo, tanto para la muestra de pilotaje como la controlada, realmente
sea aleatorio simple (i.e. tomando como marco muestral sujetos individuales todos con la misma
probabilidad de ser seleccionados). En el manual de 2013 se dice que la muestra controlada la
conforman escuelas, y no alumnos (p. 116). Por lo tanto, parece ser que la muestra se aseme-
ja ms a un muestreo de conglomerados, que a una muestra aleatoria simple de sujetos (alum-
nos). Valdra la pena que los manuales aclararan este punto. Si ste fuera el caso, convendra
especificar cmo se seleccionan los conglomerados (escuelas o aulas) para entender qu tipo de
poblacin representan. En el manual de 2013, por ejemplo, no se especifica claramente cmo
se seleccionan las escuelas de la muestra, ya que la discusin tcnica de diseo se hace con la
consideracin de que el muestreo se hace con base a sujetos (alumnos). El manual tcnico de
2008 hace un llamado a SEP que justificase el diseo muestral (por conglomerados) y obtuviera
el error de muestreo (utilizando la aproximacin al utilizar un diseo de muestreo simple). Sin
embargo, en los manuales subsecuentes se sigue planteando la frmula de muestreo simple (que
se utiliz como referencia) sin plantear la frmula realmente utilizada ni proveer ms detalles al
respecto de los errores.
Con respecto a la muestra controlada para el pre-test (la prueba que calibra los reactivos del
ao siguiente) esta se aplica de manera matricial por lo que los resultados relevantes son a nivel
de aula (para luego validar tems a nivel grado-asignatura). El manual de 2009, por ejemplo, en
la p. 115, alude a esto (se refiere a una aplicacin donde todos los alumnos en un aula forman
Aplicaciones 99
parte de la muestra controlada). Sin embargo, no se detalla cmo se selecciona esta muestra
(se revis manual del 2009 y 2013).
3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que
se planific.
El manual del coordinador de aplicacin de la muestra controlada especifica que el coordinador

de la aplicacin de la muestra deber verificar que las pruebas extra y las hojas de respuestas
(prellenadas) coincidan con el folio asignado en ENLACE . Si la hoja no est prellenada, deber
llenarse ah mismo con la informacin proporcionada por el director. Al final de la aplicacin
se verifica que las personas que llenaron las hojas y las estn entregando coincidan con la lista
contenida en el Formato para el Control de la Aplicacin en el Aula (este formato es firmado
por el coordinador de la aplicacin y el docente aplicador en el aula).
Los formatos de control de aplicacin en la escuela, tambin proveen un espacio para anotar si
el nmero de alumnos evaluado por grado coincide con el nmero que estaba planeado en la
lista. Estos formatos son firmados por el Coordinador de la Aplicacin y el director de la escue-
la y se envan sellados a la DGEP con copia a las reas estatales de evaluacin y a cada escuela.
El acta de entrega, recepcin e irregularidades hace constar cualquier discrepancia en este
proceso. Esa acta es firmada por el coordinador de la aplicacin, el director y dos testigos
(un docente y un padre de familia).
tt En aplicaciones muestrales el manual que precisa los pasos para seleccionar la muestra, si
se manejarn aulas intactas o submuestras de alumnos en cada aula; la forma de manejar
escuelas de reemplazo si las hay y los porcentajes aceptables de exclusiones y no respuesta.
Los pasos para seleccionar la muestra se especifican en el manual. La muestra para pilotaje de
reactivos se calcula como 5,000 sujetos ms 8-10% asumiendo merma. No se encontraron pre-
visiones si alguna escuela se pierde de la muestra controlada por razones de errores en logstica
u otros. No encontramos previsiones para prdida de muestra en la muestra controlada del
pre-test o como asegurar que la muestra sea la misma que se dise inicialmente (los manuales
carecen de detalle acerca del diseo de la muestra controlada para el pre-test).
En aplicaciones censales el manual precisa el porcentaje admisible de faltantes y qu se hace

en ese caso.
No se dan particulares al respecto.
4. Se verifica que la muestra obtenida concuerde con la planificada dentro de mrgenes

aceptables.
tt Se documentan en detalle los pasos para la seleccin de la muestra.
Los pasos para seleccionar la muestra se especifican de manera breve en el manual. Como se
coment anteriormente, en algunos pasos, especialmente en lo que concierne al diseo por
100
conglomerados y los errores muestrales subsecuentes para las muestras de pilotaje de reactivos,
se necesita ms detalle. Adems, no se provee detalle suficiente sobre el proceso de seleccin
de la muestra controlada para el pre-test.
tt Hay una verificacin de la muestra por una instancia externa.
Los manuales especifican que los diseos de las muestras controladas (pre-test) son super-
visadas por la DGEP. Se menciona tambin que un experto internacional, contratado por esa
direccin, es el que llega al clculo final. Sin embargo, no se proveen detalles acerca de esta
verificacin externa.
tt Hay encuesta o sistema de aseguramiento de la calidad de la muestra.
El Manual de la Planeacin de la Calidad se utiliza para todas las aplicaciones de instrumentos

de DGEP. Esto aplica para la elaboracin de instrumentos y exmenes as como para la lectura
y calificacin. Dicho manual sigue las normas de calidad ISO 9000:2000 e ISO 9001:2000.
Las normas especifican los parmetros aceptados para el aseguramiento de la calidad de todas
las etapas del proceso, incluyendo la muestra. Sin embargo, hay que recalcar que este tipo de
monitoreo de calidad (va procedimientos ISO) no es prctica comn para programas de eva-
luacin de largo alcance como sera ENLACE . Segn lo que conocemos, no hay otro programa
internacional o nacional (PISA, TIMSS, PIRLS, SABER ) que utilice este tipo de normas de asegu-
ramiento de la calidad, toda vez que los estndares tcnicos aplicables especficamente a este
asunto, son establecidos por los organismos que lideran los respectivos proyectos.
PLANEACIN DE LAS APLICACIONES
5. Se planifican todos los puntos necesarios para hacer la aplicacin de manera estan-
darizada, con formas y materiales que aseguren comparabilidad de los datos.
tt Hay manuales de aplicacin, probados en campo, que precisen las actividades a desarrollar
por cada participante; se describen las variaciones aceptables.
Hay manuales impresos, cuyo contenido incluye elementos generalmente aceptados para este
tipo de aplicaciones, por ejemplo: la descripcin de las normas operativas, los materiales que se
utilizarn durante la capacitacin, y las funciones que debern realizar antes, durante y despus
de la aplicacin. No obstante, podran mejorarse incluyendo mayores detalles relativos a la con-
duccin de la aplicacin y el manejo de eventualidades.
Los manuales impresos tambin podran complementarse con otros materiales de apoyo que
tengan como objetivo asegurar el dominio de los procesos, por ejemplo, videos con anima-
ciones, grficas, y sonido. Esto ltimo, permitira contar con herramientas ms didcticas, en
procura de una mejor capacitacin del personal de campo, que redundara en una mayor estan-
darizacin en el ejercicio de sus labores. Esto es crucial, teniendo en cuenta que en el proyecto
participan ms de un milln de personas y las variaciones, desconocimiento o implementacin
no apropiada conforme a lo previsto inciden en los resultados.
Aplicaciones 101
tt Hay un cronograma detallado de todos los pasos del proceso.
En los manuales tcnicos de las diversas aplicaciones se hace referencias generales a los pasos
del proceso de aplicacin, desde la organizacin administrativa de recursos humanos hasta la
entrega de los archivos de lectura.
Estos asuntos se detallan de mejor manera en el manual tcnico correspondiente a la aplicacin

de 2013. Versiones previas fueron ms agregadas. Se establecen las funciones de cada parti-
cipante en el proceso, aunque no se mencionan fechas. Dada la complejidad de los procesos
de aplicacin, se recomienda que se establezcan tiempos aproximados que sirvan como una
referencia comn para todas las entidades federativas (e.g. 90 das antes de la aplicacin
las entidades federativas debern haber enviado la versin definitiva de su base de datos).
Se identifica a personal de las escuelas que tendr que ver con la aplicacin (directores, maes-
tros) para contar con su cooperacin.
En los manuales se establecen mecanismos de comunicacin con algunos actores de la escuela

que participarn en la aplicacin, en especfico, con el director y los Padres-observadores: el
Coordinador regional elabora los oficios de notificacin a cada escuela y las cartas compromiso
para Padres-observadores (Manual para el c 2013); y, la semana previa a la aplicacin, el director
convoca a dos padres de familia de cada grupo evaluado para que participen como observado-
res (Manual para el Coordinador de la aplicacin 2013). En los manuales no se precisan acciones
previas con respecto a los docentes aplicadores.
Es importante mencionar que la capacitacin a los docentes, padres de familia y miembros del
Consejo Escolar de Participacin Social tiene lugar el mismo da de la aplicacin cuando se les
entregan las guas diseadas por la SEP.3 Al inicio de cada da de aplicacin, los directores sea-
lan a los padres de familia las funciones que debern cumplir. A los docentes, el Coordinador de
aplicacin les describe las funciones a realizar y los formatos que tendrn que completar. Estas
medidas pueden restringir la capacidad de reaccin ante eventualidades y/o incidir en el rigor
en la aplicacin de los estndares previstos para la conduccin de la prueba.
Por otra parte, el grado de libertad de las entidades federativas con relacin al perfil del perso-
nal que se vincule al proceso puede tener un impacto no deseado en la aplicacin. En el manual
de 2013, pgina 141 se menciona: Si se contrat personal para supervisin y apoyos diversos,
el estado define las caractersticas del personal a contratar, requisitos, forma de contratarlos.
Es recomendable que se establezcan normativas generales acerca del personal a participar en la
aplicacin, que sean seguidas homogneamente por los Estados.
tt Se precisan requisitos de confidencialidad y seguridad de materiales y respuestas.
Se establece: Para la impresin de materiales de ENLACE realizada por la CONALITEG , se siguen

las especificaciones de control y seguridad que ellos mismos establecen, bajo la supervisin de
personal de la DGEP
Las versiones electrnicas de estos documentos son enviadas antes de la aplicacin, pero, por lo general solo se impri-
3
men aqullos manuales que sern entregados a la estructura intermedia de las entidades (Coordinadores regionales
Centros de Desarrollo Educativo, Supervisores, Enlaces Regionales y Coordinadores de Aplicacin).
102
Es recomendable que para la impresin de pruebas los estndares de control y seguridad sean
establecidos por un ente externo al impresor, no solo supervisados. En cuanto a aplicacin
controlada debe haber refuerzos en todas las etapas, antes, durante y despus del proceso.
Las irregularidades manifestadas por 17 entidades en el cuestionario en lnea (de 26 entidades
que los respondieron), con respecto a los materiales que llegan a las escuelas, hacen evidente la
necesidad de medidas que garanticen el control, cuidado y confidencialidad de los materiales.
Es recomendable que las medidas busquen eliminar la variacin en decisiones que toman en
la entidad ante faltantes de materiales. Por ejemplo, ante la falta de cuadernillos en la ltima
aplicacin, algunas entidades optaron por reproducirlos y otras por dividir los cuadernillos en
dos partes, entregando alternadamente las secciones en el grupo para que alcanzaran a dar
respuesta. Existen riesgos en la reproduccin de los cuadernillos dentro y fuera de la escuelas,
que ponen en peligro la confidencialidad de los materiales y tambin que su ensamblaje sea el
previsto por los diseadores. Con respecto a las hojas de respuesta las entidades que reportaron
haber recibido una cantidad insuficiente de este material tomaron las siguientes diferentes me-
didas: que los alumnos registraran sus respuestas en cuadernillos y posterior captura para envo
a DGEP ; devolver a los alumnos a sus casas para que despus contestaran la prueba en lnea.
Podra considerarse un operativo independiente de distribucin y recoleccin de materiales

que asegure su llegada el da de la aplicacin a cada escuela, de manera que se minimicen
riesgos operativos, tales como acceso inapropiado, manipulacin o sustraccin de cuader-
nillos y hojas de respuestas. Esto tiene un impacto financiero, pero convendra por mayor
seguridad de los tems a ser aplicados en un futuro. En cuanto al retorno de las hojas de
respuestas, nicamente se encontr referencia a que ellas son entregadas para lectura ptica
dos semanas despus de la aplicacin.
Es necesario que se den a conocer ms detalles acerca de este proceso, a efectos de poder
conceptuar.
tt Se precisa la forma en que debern documentarse todos los pasos de la aplicacin y las
incidencias que se puedan presentar.
Hay previsiones de orden general sobre pasos de la aplicacin y posibles contingencias. Se

menciona un formato para consignar lo relativo a eventualidades o desviaciones del proceso, sin
embargo, el registro de las irregularidades en el formato es abierto. Para analizar en detalle la
aplicacin se requiere una tipificacin de los casos presentados en una aplicacin y su frecuen-
cia, esto seguramente requerir que en futuras aplicaciones los formatos incluyan categoras
especficas de irregularidades que se buscan controlar y se mantenga la oportunidad para el
registro abierto de otro tipo de irregularidades.
Es fundamental que todos los actores del proceso tengan claridad sobre la importancia del
cuidadoso diligenciamiento de las actas de entrega y recepcin de materiales, as como de las
irregularidades, de tal manera que faciliten la evaluacin del proceso.
Hay procedimientos de aseguramiento de la calidad de la aplicacin.
El Manual de la Planeacin de la Calidad se utiliza para todas las aplicaciones de instrumentos

de DGEP. Esto aplica para la elaboracin de instrumentos y exmenes as como para la lectura
y calificacin. Dicho manual sigue las normas de calidad ISO 9000:2000 e ISO 9001:2000. No
obstante lo anterior, es fundamental que los procedimientos de aseguramiento de calidad se
Aplicaciones 103
desarrollen en apego especficamente a los estndares aplicables a evaluaciones estandarizadas
de la educacin. Como se coment anteriormente, los sistemas de evaluacin educativa de gran
escala no suelen circunscribirse a procesos de control de calidad tipo ISO. En su lugar, se utilizan co-
mits de expertos en evaluacin educativa, tanto nacionales como internacionales, con experiencia
en los organismos tcnicos en la materia, quienes pueden proveer de una revisin externa objetiva
y emitir un juicio colegiado acerca de la calidad de la prueba y sus procesos.
Las normas especifican los parmetros aceptados para el aseguramiento de la calidad de todas
las etapas del proceso. Los procedimientos estn establecidos en los manuales para cada actor
del proceso (se denominan guas y son consistentes en el tiempo).
El rol del observador como garante independiente es fundamental para la calidad de la aplica-
cin, pero es insuficiente, teniendo en cuenta las observaciones y recomendaciones formuladas
por las entidades federativas, tales como:
Revisin acuciosa de los originales mecnicos para evitar errores de impresin.

Distribucin oportuna a las entidades federativas.
Mejorar formatos para que sean entendibles para los usuarios.
Revisar contenido de guas y manuales.
Empaquetamiento adecuado y conforme a lo planificado, que asegure la suficiencia de
materiales para las escuelas.
Asegurar que los materiales estn completos y claros.
SELECCIN Y CAPACITACIN DEL PERSONAL DE APLICACIN
6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la reco-
leccin de datos, en todos los niveles.
tt Hay criterios para reclutar y entrenar aplicadores y apoyos.

Los lineamientos generales sobre la materia estipulan que los estados definirn lo pertinente
en cuanto al reclutamiento y entrenamiento de aplicadores y apoyos. Es recomendable que
se establezcan criterios de aplicacin general y estandarizados acerca del perfil del personal
y que se verifique su cumplimiento por parte de monitores externos a las aplicaciones en una
muestra aleatoria de escuelas en visitas no anunciadas.
tt Se recluta y capacita a suficiente personal de reemplazo.
No se cuenta con informacin especfica sobre este criterio en relacin a los Coordinadores de
Aplicacin en las escuelas y los Aplicadores en Aula. Teniendo en cuenta que la aplicacin en
aula es conducida por docentes, parece asumirse que no hay inconvenientes en la consecucin
de aplicadores de reemplazo en caso de necesidad, aunque no puede asegurarse en todos los
casos. Podra ser particularmente necesario que se contemplen aplicadores en aula de reempla-
zo cuando las entidades implementen estrategias de intercambio de docentes entre escuelas de
la misma zona o regin (por ejemplo, Aguascalientes fue una de las entidades que en la aplica-
cin del 2013 implement la estrategia de intercambio de docentes entre escuelas).
104
Con respecto a los Coordinadores de Aplicacin en las escuelas, se hace evidente la necesidad
de contemplar personal de reemplazo, pues es personal externo a las Secretaras de Educacin
o Institutos de Educacin de las entidades federativas, y podran enfrentar imprevistos para
asistir a la aplicacin en particular cuando se trata de escuelas ubicadas en localidades aisladas
o alejadas de su lugar de residencia o donde reciben los materiales.
tt La capacitacin incluye oportunidad de practicar con los instrumentos.
No se cuenta con informacin especfica sobre el particular. Con respecto a los docentes que
dirigen la aplicacin en aula, dado que su capacitacin se imparte el da de la aplicacin, es muy
probable que no haya tiempo suficiente para conocer cartulas, formatos e indicaciones que
tendrn que dar a los alumnos para responder la prueba en detalle.
Es recomendable programar capacitaciones a aplicadores antes del da de la aplicacin, de ma-

nera que puedan ultimarse detalles de importancia.
tt La formacin de capacitadores y/o el entrenamiento del personal que asegurar la calidad

del proceso se maneja centralmente o, en todo caso, se cuidar de forma que se asegure su
adecuado funcionamiento.
Se ha implementado una estrategia de capacitacin en cascada que responde a las necesidades

bsicas del proyecto. No hay informacin acerca del monitoreo a su implementacin.
Es importante sealar que no se encontraron orientaciones para la implementacin de la capa-

citacin, solo los materiales a utilizar con diversos actores. De hecho, uno de los informantes
que respondi el cuestionario en lnea seal: La entidad nicamente recibe materiales de for-
ma digital [antes de la aplicacin] y es toda la orientacin que se recibe, a partir de los manuales
y normas se disea en la entidad el formato de capacitacin que se utiliza al interior del estado.
Se recomienda reforzar la estrategia de capacitacin presencial basada en medios impresos
mediante el uso de la tecnologa.
tt Se llevan registros de las sesiones de entrenamiento de aplicadores.
No hay informacin sobre el particular.
tt Se monitorean las actividades en campo por personal de la instancia central y/o externo,
y se registran problemas detectados.
Existe el rol de observador de las aplicaciones, ejercido por los padres de familia. En la gua
se especifica que deben observar: que las cajas lleguen selladas a la escuela; los maestros no
apliquen el examen al grupo de alumnos que regularmente atienden; el Docente-aplicador d
las instrucciones a los alumnos; los alumnos no copien, ni se comuniquen entre s; el Docente-
aplicador recupere todos los materiales y los entregue al Coordinador de aplicacin. Se les pide
que cualquier irregularidad la comuniquen al Director de la escuela y/o al Coordinador de la apli-
cacin. En la gua no se precisan otros medios para comunicar o documentar las irregularidades.
Tambin los miembros del Consejo Escolar de Participacin Social participan como observa-
dores de la aplicacin. Se solicita que al menos un miembro de las siguientes instancias que lo
conforman est presente durante cada da de la aplicacin (pueden variar entre das): padres
Aplicaciones 105
de familia y/o representantes de sus asociaciones, maestros y/o representantes de su organi-
zacin sindical, directivos de la escuela, ex alumnos y miembros de la comunidad interesados
en el desarrollo de la propia escuela. De manera general, se les pide que verifiquen el cumpli-
miento de las normas y respondan la hoja de registro de la observacin. No se proporcion el
formato de la hoja de registro de la observacin de la aplicacin 2013; sin embargo, en funcin

de la revisin de un formato de la aplicacin 2011, se advierte que se les solicita dar seguimien-
to a los aspectos que se muestran en el siguiente cuadro:
Cuadro 1 Aspectos que supervisan los Consejos Escolares de Participacin Social (CEPS)
Primer da Segundo da
Revisin de la gua del aplicador con los docentes.
Participacin de padres de familia como supervisores de la aplicacin en cada grupo.
Intercambio de docentes al interior de la escuela
Respeto del tiempo de cada sesin en la aplicacin de la prueba
Induccin de respuestas por parte del docente aplicador y acciones implementadas en respuesta a este
comportamiento (reconvenir al docente aplicador; sustituir al docente aplicador; cancelar la aplicacin de la
prueba en grupo y asentar en acta de irregularidades; ninguna accin).
Comunicacin entre alumnos para resolver la prueba y acciones realizadas ante este comportamiento
(reconvenir al docente aplicador; sustituir al docente aplicador; cancelar la aplicacin de la prueba en grupo y
asentar en acta de irregularidades; ninguna accin).
Permanencia de docentes en los salones durante la aplicacin, y acciones ante ausencia de docentes
(reconvenir al docente aplicador; sustituir al docente aplicador; ninguna accin).
Permanencia del coordinador de aplicacin durante

Sellado y resguardo de materiales todos los das de la aplicacin
al final de la jornada. Nmero de miembros del CEPS que participaron
durante la aplicacin (de cada instancia)
Fuente: Elaboracin propia, con base en: http://portal2.edomex.gob.mx/ieval_edu/evaluacionesnacionales/enlace_basi-

ca/resultados_2013/groups/public/documents/edomex_archivo/ieval_edu_pdf_eb2013.pdf (diapositiva 43)
El formato donde registran las observaciones los miembros del CEPS es de lectura ptica, lo
cual permitira suponer que la sistematizacin de respuestas, anlisis y generacin de reportes
es uno de sus productos, sin embargo, no se proporcionaron reportes relacionados con este
formato. Sera de utilidad conocer un compilado de los reportes a efectos de analizarlos y for-
mular recomendaciones.
Es importante sealar que aunque en la Gua de Observacin. Consejo Escolar de Participacin

Social, se precisan de manera general los aspectos a dar seguimiento, no se dan orientaciones
para su realizacin, es decir, no se especifica de qu manera se debern organizar los dife-
rentes miembros del Consejo Escolar de Participacin Social que funjan como observadores
y que acciones debern realizar. Los problemas detectados durante la aplicacin tambin son
registrados por los Coordinadores de Aplicacin, y algunas entidades implementan estrategias
propias para monitorear las actividades en campo. Sin embargo, esto depende de cada entidad
federativa. Se recomienda que se den orientaciones para realizar un proceso de monitoreo
estandarizado en todas las entidades.
tt Se hacen ejercicios de retroalimentacin y revisin de materiales y procesos que recojan la

experiencia del personal en campo.
106
No hay informacin al respecto. Estos ejercicios son fundamentales para formular planes de
mejora, incluyendo aportes de todos los roles de la aplicacin.
Anlisis del cumplimiento de los criterios de validez antes de la aplicacin
En general, se encontr informacin suficiente para sustentar la mayora de los criterios de vali-
dez. En los siguientes subcriterios, no se cont con informacin para su valoracin:
En aplicaciones censales el manual precisa el porcentaje admisible de faltantes y qu se

hace en ese caso.
Pasos detallados para la seleccin de la muestra.
Se recluta y capacita a suficiente personal de reemplazo.
La capacitacin incluye oportunidad de practicar con los instrumentos.
Se llevan registros de las sesiones de entrenamiento de aplicadores.
Se hacen ejercicios de retroalimentacin y revisin de materiales y procesos que recojan
la experiencia del personal en campo.
CRITERIOS DE VALIDEZ DURANTE LA APLICACIN
Minimizacin de carga, motivacin, no respuesta y fraude.
7. Se fijan lmites realistas sobre la carga de responder pruebas y cuestionarios de con-

texto para que no sea excesiva tomando en cuenta los sujetos.
tt Se utilizan los resultados de la aplicacin piloto para revisar que los estimados de carga sean
realistas y aceptables.
tt En los manuales tcnicos se determinan los detalles de los pilotajes y el uso de la informacin
obtenida a travs de ellos para la aplicacin de las pruebas. A partir del anlisis del compor-
tamiento de los tems en los pilotajes puede determinarse la extensin de la prueba.
tt Se simplifican los procedimientos y se describen en forma clara y cuidadosa, siempre buscan-
do minimizar la carga para los sujetos.
Los procedimientos se han mantenido estables en el tiempo. Su descripcin es sencilla y no

genera una carga importante para los estudiantes que toman la prueba.
tt En los cuestionarios de contexto para estudiantes se evita preguntar datos que se pueden
obtener de otras fuentes.
En los cuestionarios se indaga por datos que solo pueden ser provistos por los alumnos. Cabe
recalcar que los cuestionarios de contexto nicamente se aplican a una muestra de alumnos,
pero son bastante extensos (129 tems para primaria y 142 para secundaria).
tt Se agenda la aplicacin en horarios convenientes para los sujetos.
Aplicaciones 107
Los horarios estn previstos tanto para jornada matutina como vespertina y son congruentes
con la jornada escolar a la que usualmente asisten los estudiantes. Las fechas de aplicacin de
la prueba forman parte del calendario escolar oficial.
8. Se busca motivar a los sujetos para que no respondan las preguntas de la prueba
a la ligera.
tt Se informa ampliamente a los sujetos de la evaluacin acerca de los propsitos del estudio
y cmo se utilizarn sus datos.
De acuerdo con la informacin provista, hay un amplio despliegue de medios masivos de comu-
nicacin, con el propsito de difundir los propsitos e importancia de ENLACE para la sociedad
mexicana en su conjunto.
Adicionalmente, hay previsiones explcitas sobre el particular en los diversos manuales. Por
ejemplo, a travs del instructivo para el Docente-aplicador se comunica a los estudiantes que la
prueba contribuir a mejorar la educacin del pas, se especifican las asignaturas que se evalua-
rn, se detalla que no se afectarn sus calificaciones individuales, a la vez que se les incentiva a
hacer su mejor esfuerzo.
9. Se desarrollan procedimientos para lidiar con la no-respuesta o el rechazo a respon-

der a la prueba y se entrena al personal de aplicacin para seguirlos.
No se cuenta con informacin sobre el particular. Es necesario que haya previsiones explcitas
acerca del manejo de las situaciones de no-respuesta o de rechazo a responder la prueba, in-
cluyendo revisin de las hojas de respuestas devueltas antes de culminar el tiempo disponible y
recorrido constante del saln.
Dado que ENLACE no es un estudio de investigacin sino parte de la evaluacin oficial que
realiza la SEP, el rechazo a participar no debera ser un problema.
10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de frau-
de y se entrena al personal de aplicacin para seguirlos.
En algunos de los manuales de aplicacin hay instrucciones relacionadas con la copia, el dictado
y la induccin de respuestas, como se ilustra en el siguiente cuadro:
108
Cuadro 2 Instrucciones relacionadas con copia y otras formas de fraude.
Documento Instrucciones
Se seala que [n]o est permitido que el Docente-aplicador dicte

Gua para padres
o sugiera las respuestas.
Se solicita que durante la aplicacin observen [q]ue los docentes

Gua de observacin. Consejo
aplicadores y/o los padres observadores no induzcan las respuestas
Escolar de Participacin Social
de los alumnos, ni permitan la comunicacin entre ellos.
Se seala que [e]n caso de detectar acciones de copia o

dictado de respuestas por parte de alumnos y/o docentes,
Manual del Coordinador de
es muy importante anotarlo en el Acta de Entrega Recepcin e
aplicacin
Irregularidades, dado que: SER CANCELADA LA APLICACIN
AL GRUPO.
Se solicita que informe al Director de la escuela que si se detecta

copia (similitud de respuestas) impactar en los resultados,
de Carrera magisterial, del Docente-aplicador en el grupo, del
Docente que atiende regularmente al grupo y del propio Director
del plantel.
Se solicita que describa en el acta de irregularidades cuando

observe o le reporten que en algn grupo se permiti la copia
o que se dictaron las respuestas.
Fuente: Elaboracin propia en funcin de los documentos sealados.
Como se observa en el cuadro 2, los comportamientos de fraude no son referidos de manera

consistente para todos los actores, y no se contemplan otras formas de fraude tales como
suplantacin de identidad y sustraccin de materiales de evaluacin. Por otro lado, no se dan
indicaciones sobre la manera de detectar estos comportamientos y no se sealan medidas para
prevenirlos, por ejemplo: estipular requerimientos para identificacin de los estudiantes, cons-
truir mapas para la ubicacin de los estudiantes en las aulas, asignar a los sustentantes a asien-
tos especficos, requerir un espacio adecuado entre asientos proveer un monitoreo continuo
del proceso (AERA et al., 2014, p. 117), restringir el acceso de celulares, tabletas, reproducto-
res de audio o video y dems elementos electrnicos al sitio de aplicacin para evitar que los
sustentantes u otros participantes puedan transmitir, recibir o copiar informacin de la prueba.
No existen esquemas de penalizacin o sanciones administrativas a los estudiantes o docentes
aplicadores que infringen la normatividad establecida.
En la preparacin de los datos, la SEP aplica un algoritmo de deteccin de copia que se men-
ciona en los manuales. Se habla del uso de un software comercial que se utiliza al respecto,
sin proveer mucho ms detalle o descripcin acerca del proceso de deteccin. No se proveen
tampoco evidencias concretas de los estudios realizados para detectar copia y sus resultados,
incluyendo reportes de la probabilidad de copia esperada segn el nmero de personas y el
nmero de reactivos, entre otros.
Al respecto cabe mencionar que hay una sancin indirecta en la utilidad de estos resultados
para Carrera magisterial. En el caso de docentes que utilizan los resultados de ENLACE para
conformar su puntaje de Aprovechamiento Escolar en Carrera magisterial, los resultados en
alumnos donde se detecta copia son calificados como con cero puntos. Por lo tanto, no cuen-
tan para el promedio del resultado del docente que se utiliza en Carrera magisterial.
Aplicaciones 109
En la aplicacin de la muestra controlada el manual del Coordinador de la Aplicacin es muy
explcito que [e]n caso de detectar acciones de copia o dictado de respuestas por parte de
alumnos y/o docentes, es muy importante anotarlo en el Acta de entrega-recepcin e irregu-
laridades, dado que: SER CANCELADA LA APLICACIN AL GRUPO (nfasis en el original).
PROCEDIMIENTOS DE CONTROL DE CALIDAD EN LAS APLICACIONES
tt Se recluta y entrena a monitores que lleven a cabo actividades de control externo de calidad,
observando la recoleccin de datos en un subconjunto de los sitios.
Hay esfuerzos de aseguramiento de calidad basados en la gestin de padres de familia, miem-

bros de los Consejos Escolares de Participacin Social y observadores externos (vinculados a la
Confederacin Patronal de la Repblica Mexicana, COPARMEX ). Se desconoce el procedimiento
que se sigue para entrenar a observadores externos. En relacin a los padres de familia y los
miembros del Consejo Escolar de Participacin Social, el momento de capacitacin coincide con
la aplicacin misma, lo que podra representar una desventaja para el dominio de sus funciones.
Se recomienda que la capacitacin a estos monitores sea estandarizada y previa a la aplicacin.
En algunas entidades federativas implementan procedimientos especficos para el control de

calidad de la aplicacin, sin embargo, son definidos por ellos mismos. Tambin en este sentido,
se requieren orientaciones que permitan estandarizar los procesos de monitoreo que llevan a
cabo las entidades, de tal manera que se puedan capitalizar sus resultados.
tt Sino es viable se hacen entrevistas presenciales o por telfono de control de calidad con
aplicadores y dems personal involucrado en la aplicacin.
La Oficina de Servicios Federales de Apoyo en la Educacin (OSFAE) de la Secretara de Edu-

cacin Pblica entrevista a los diversos actores involucrados, con el propsito de evaluar la
aplicacin. Sin embargo, no se encontraron reportes de la evaluacin de las OSFAE.
Se hace revisin de control de calidad en una muestra aleatoria de los datos recolectados para
asegurar que se hayan llenado completa y correctamente.
Los procedimientos de Calificacin de la DGEP incluyen:
1. Verificar que las cantidades de registros contenidos en las bases de datos correspondan
con la cantidad que el usuario reporta.
2. Verificar que la cantidad de informacin de las escuelas tenga correspondencia con los
datos histricos.
3. Se resumen los resultados de cada etapa de aplicacin para monitorear el estatus de las
actividades y para identificar y corregir las causas de problemas de calidad.
No hay informacin sobre el particular. Es fundamental conocer los reportes que haya sobre estos
asuntos para analizarlos y proponer mejoras a los procesos que incidan en la calidad de la aplicacin.
110
Anlisis del cumplimiento de los criterios de validez durante la aplicacin
La aplicacin en general, cuenta con procedimientos preestablecidos estandarizados. Sin em-

bargo, las condiciones de la capacitacin y entrenamiento para docentes aplicadores en aula,
padres de familia y miembros del Consejo Escolar de Participacin Social (realizadas el mismo
da de la aplicacin y con procedimientos definidos por cada entidad federativa), podra implicar
que el proceso de aplicacin no garantizara su estandarizacin y por tanto repercutiera en los
resultados y la manera en que pueden ser interpretados. En particular, se recomienda desarrollar
procedimientos para identificar la no respuesta de los alumnos, comportamientos indicadores de
copia y otras formas de fraude, y la definicin de estrategias estandarizadas para enfrentarlos.
Por otro lado, no se cont con informacin para valorar los siguientes criterios:
Se hacen ejercicios de retroalimentacin y revisin de materiales y procesos que recojan

la experiencia del personal en campo.
Se resumen resultados de cada etapa de aplicacin para monitorear el estatus de las
actividades e identificar y corregir causas de problemas de calidad.
CRITERIOS DE VALIDEZ DESPUS DE LA APLICACIN
Preparacin del procesamiento de los datos
12. Hay manuales que detallan los aspectos a cuidar para crear archivos de datos se-
gn normas internacionales: cmo introducir los datos; asignar identificadores a
alumnos-maestros-escuelas; variables a incluir, cdigos vlidos, de datos faltantes
o respuestas no aplicables; formato de datos, estructura de archivos, limpieza,
entre otros.
El MT 2013 detalla el proceso para lectura ptica de los resultados, as como las bases de datos
que se utilizan en el proceso (base de datos de lectura ptica, de respuestas correctas y de
alumnos sustentantes). Despus se detalla muy brevemente el resultado del proceso de califi-
cacin, fase de lectura ptica (archivo de salida del software BILOG). El manual tambin detalla
que los procesos de lectura y calificacin han sido certificados bajo la norma ISO, por lo que
tienen una dinmica de garanta para sus procedimientos (Manual 2013: p. 158). Se proveen
los cdigos de documentacin de dichos procesos. Segn las normas de la certificacin ISO esto
implicara que se ha desarrollado documentacin de todos los procesos as como produccin
de evidencias de que dichos procesos se estn cumpliendo. En algunos casos se pueden reque-
rir mtricas de cumplimiento que se puedan monitorear. En los manuales consultados no se
observaron las evidencias de cumplimiento que ISO hubiera requerido, aunque la certificacin
puede tomarse como prueba de que dichas evidencias existen y se produjeron para el proceso
de certificacin.
El proceso de lectura inicia al recoger las hojas de respuesta de los alumnos y entregarlas al rea
de Informtica para su lectura. Despus, el rea de informtica genera un archivo de texto con-
teniendo un registro por cada estudiante. El rea de lectura y verificacin procede a verificar los
archivos identificando presencia de respuestas en blanco o doble respuesta, sobre las cuales se
Aplicaciones 111
hace una depuracin para eliminarlas de la calibracin inicial de reactivos. Despus, el resultado
se entrega al rea de Lectura responsable para su anlisis y revisin.
No hay en el manual detalles especficos sobre cmo introducir los datos, o el formato y es-
tructura de los archivos, as como limpieza. Tampoco se detalla el procedimiento para asig-
nar identificadores a alumnos (se asume que se ingresan con nmero de folio y CCT, y con
algn identificador de aula que despus pueda ser cruzado con el docente para fines de Carrera
magisterial, aunque esto no se describe en el manual).
13. Se cuenta con personal calificado para el manejo de los datos y se les entrena en
todos los aspectos de su trabajo, asegurando que est familiarizado con los procedi-
mientos aceptados para manejar datos y que comprende la importancia de recolectar
y capturar la informacin con el cuidado necesario para que los anlisis posteriores se
hagan sobre informacin de la mejor calidad posible.
El manual describe cmo se dividen las funciones o reas del proceso de lectura: recepcin,
lectura y validacin y captura. El manual especifica que [u]na persona de cada una de las reas
sea nombrado como responsable del proceso correspondiente. No hay en el manual detalles
especficos al respecto de la seleccin y capacitacin de dicho personal. La DGEP es acompaada
por asesores externos en la parte de procesamiento y calificacin de resultados, pero no se en-
contraron reportes del anlisis de procesamiento de datos y calificacin de resultados.
concentran los resultados de la aplicacin. En particular se asegura que:
tt La estructura de los datos se apegue a la de los instrumentos.
Los Procedimientos de lectura ptica y calificacin de la DGEP incluyen previsiones generales

sobre el particular.
tt Los datos tengan suficientes redundancias para permitir control de calidad.
El manual no brinda detalles al respecto.
tt Las bases tengan identificadores nicos consistentes para que alumnos y escuelas y, en su
caso, maestros o directores, puedan relacionarse.
El manual describe en varios puntos que todas las hojas de respuesta cuentan con folio que
debe coincidir con el cuadernillo. La DGEP tiene procedimientos para asegurar que cada fo-
lio sea nico y no existan folios repetidos o no utilizados (en blanco; ver Procedimiento de
Calificacin-Referencia a punto de la norma ISO 9001:2000: 7.5).
Las hojas de respuesta vienen prellenadas con la informacin de los nios (incluyendo folio y
nmero). Entre las funciones del Docente-aplicador est registrar el grupo, nombres, apellidos
y folio para cada alumno en un formato de control, y verificar que el nio que aparece en la
112
hoja prellenada sea el que toma el examen y lo entrega. En cuanto a las bases de datos con la
CURP que se ligan a los folios desde la etapa de prellenado de las hojas de respuesta, la DGEP
proporcion informacin sobre el porcentaje de registros de la CURP incorrectos o en blanco
que proveen las entidades. Siete entidades reportan CURP incorrectos o en blanco por encima
del 5% de sus registros. Las dems tienen CURP en blanco o irregulares que representan me-
nos del 5% de los registros. Sin embargo, la DGEP no proporcion detalles sobre la consistencia
de los folios o pruebas que se hayan hecho para asegurar que sean nicos y que correspondan
a los nios evaluados, ms all de lo que verifica el docente. No se muestra evidencia indepen-
diente o externa sobre el resultado de su propio proceso de verificacin.
tt Selleven a cabo verificaciones aleatorias de submuestras de las bases de datos para verificar
que se cumplan los puntos anteriores.
El documento Procedimiento de Calificacin-Referencia a punto de la norma ISO 9001:2000:7.5

especifica que se deben hacer verificaciones para asegurar que las bases de datos coincidan con
la base de datos original y que no haya datos en blanco. Sin embargo, no se especifica un pro-
cedimiento especfico (i.e. revisin de submuestras) para llevar esto a cabo.
tt Se documenten todas las actividades de preparacin de datos.
El proceso est verificado con la norma ISO. El manual contiene algo de documentacin acerca
de los procesos (diagramas de flujo, descripcin de los pasos involucrados), pero se percibe
insuficiente, al menos en lo que fue entregado a este comit de validacin.
Procesamiento y verificacin de los datos
15. Se cuenta con procedimientos para asegurar que la lectura de las respuestas y todos
los pasos del procesamiento y verificacin de los datos son confiables.
tt Durante la lectura de los datos se hacen dobles verificaciones en forma sistemtica para
garantizar la confiabilidad del proceso.
El manual 2013 especifica que la verificacin del proceso de lectura que realiza la DGEP inclu-
ye la revisin manual de una muestra de hojas elegidas al azar de los diferentes paquetes y se
lleva una bitcora de los casos atendidos y de la cantidad de incidencias detectadas y resueltas
(p. 159). No se detalla qu hacer en caso de que las incidencias detectadas sean mayores de
cierto nmero o proporcin. Tampoco se proporcion documentacin con los reportes de estos
anlisis que realizan.
tt En caso de que la lectura de datos se haga en forma descentralizada se asegura que se cum-
plan los estndares en todos los sitios.
La lectura se hace centralmente, por la DGEP en una parte de las entidades federativas y en el
resto en forma descentralizada. No se muestran evidencias de que se verifique el cumplimiento
de los estndares en todos los sitios.
Aplicaciones 113
tt Se revisa que la estructura de bases se apegue a la acordada, las variables estn en rangos
vlidos y los identificadores sean nicos e ntegros.
El MT 2103 especifica:
El anlisis y calibracin de reactivos se realiza utilizando un software comercial sugerido

por el experto externo asesor del proyecto... Una vez depurada la clave de respuestas, se
eliminan los reactivos con deficiencias mtricas y que no satisfacen los criterios de calidad
establecidos para el proyecto; con los reactivos aceptados se procede a la calificacin, para
obtener la puntuacin de cada alumno.
Tambin describe que cuando para llevar a cabo esta revisin se debe contar con los resultados
preliminares en formato de Excel y con un formato para anotar las observaciones y decisiones
que se tomen respecto de los reactivos, de la prueba y los parmetros con los que se realiza la
calificacin. Es conveniente conocer un formato aplicado con informacin real de una aplica-
cin a efectos de determinar si es suficiente, o en caso contrario, proponer mejoras.
tt Se contrastan archivos de datos con instrumentos y cuestionarios.
El MT 2013 no tiene detalles al respecto.
tt Se calculan estadsticas analticas para cada tem.
En el anexo al captulo de diseo de la prueba, el MT presenta estadsticas agregadas para los

tems, incluyendo alpha, media biserial, error estndar, entre otras, las cuales son producidas
por el software de anlisis estadstico que se utiliza. Esto lleva a pensar que s se hacen esta-
dsticas analticas para cada tem.
tt Se calculan estadsticas descriptivas para todas las variables para revisar que no haya valores
extremos o faltantes; si hay se reportan para revisin.
La calificacin despus de la lectura ptica incluye transformar variables en las escalas definidas
segn las calibraciones ancladas con base en los resultados anteriores. Se realizan reuniones con
el personal de DGEP y asesores externos para revisar los resultados de las calibraciones actuales
y revisar posibles discrepancias. El software que utiliza la DGEP produce anlisis estadsticos por
tem. El anexo al captulo 4 presenta estadsticas de las pruebas, incluyendo grficas con ejemplos
de reactivos que se ajustan o no a la curva caracterstica para cada grado. En este punto se realiza
un anlisis de probabilidad de copia para emitir un reporte especfico para autoridades de cada
plantel donde se presenta el caso. El manual presenta un diagrama con las etapas del proceso.
tt Se documentan todos los pasos del proceso.
El manual detalla el procedimiento de lectura y calificacin, pero no da evidencia para determi-

nar si se realiz segn estipulado (reporte de incidencias detectadas, anomalas en procesos) ni
de resultados del proceso (nmero de hojas verificadas aleatoriamente, observaciones con da-
tos faltantes o en blanco). No se reportan los casos de copias detectados ni las aulas o escuelas
notificadas por ello.
114
16. La coordinacin del estudio deber ser notificada de cualquier inconsistencia en los
datos. Toda modificacin que resulte de la resolucin de inconsistencias deber ser
aprobada y documentada.
Hay actas para anotar, en cada escuela, irregularidades detectadas. El acta debe ser firmada
por el director, un testigo docente y un padre observador; el coordinador regional debe firmar
de recibido. No se proporcion informacin sobre el procesamiento de esas actas por parte de
la DGEP, los reportes que generan o las decisiones que se derivan del anlisis de irregularidades
detectadas. El manual detalla varias instancias en el proceso de lectura y calificacin donde
se deben reportar incidencias u errores encontrados a DGEP. Sin embargo algunos de estos pro-
cesos son circulares (DGEP hace revisin aleatoria y reporta a s misma si hubo irregularidades).
En las reuniones para anlisis de reactivos despus de la lectura ptica se habla de revisin de
posibles discrepancias y de que se deber anotar las observaciones y decisiones que se tomen
respecto a los reactivos, de la prueba y los parmetros con los que se realiza la calificacin
(MT 2013: 160), pero no queda claro quin aprueba dicha resolucin.
Anlisis del cumplimiento de criterios de validez despus de la aplicacin.
Los procedimientos de lectura ptica y calificacin de la DGEP se han formulado de acuerdo

con la norma ISO y tienen previsiones generales para su adecuado control. A este respeto, es
fundamental que los procedimientos de aseguramiento de calidad atiendan especficamente a
los estndares aplicables a evaluaciones estandarizadas de la educacin.
Para evaluar los procesos posteriores a la aplicacin sera a importante explicitar en la docu-
mentacin del proyecto lo necesario para que se cumpla con los criterios de que los datos
tengan suficientes redundancias para permitir control de calidad y de que se lleven a cabo
verificaciones aleatorias, de submuestras de las bases de datos para verificar que se cumplan
los puntos anteriores.
CONCLUSIN
La aplicacin de la prueba de ENLACE-B requiere de una amplia coordinacin entre el nivel

federal, estatal y las escuelas. Se percibe un gran esfuerzo realizado por la DGEP para asegurar
diversos aspectos crticos de la aplicacin, especialmente en lo concerniente al involucramien-
to de diversos actores a nivel escuela como son docentes, directores y padres de familia, as
como observadores externos.
Existen manuales para el coordinador de la aplicacin as como otros actores clave del proceso
y se percibe un esfuerzo por controlar (a travs del reporte de varios actores) todos los aspectos
de la aplicacin.
Aplicaciones 115
Por los reducidos tiempos entre la aplicacin y la lectura y anlisis de la informacin, algunas
etapas del proceso requieren mayor atencin y verificacin para asegurarse que la aplicacin se
lleve a cabo en la prctica como est planeada en los manuales y otros documentos.
En general, no se encontr suficiente informacin que permita confirmar, de manera externa,

que los procesos se llevan a cabo como estn estipulados, aunque los procedimientos de certifi-
cacin tcnicos llevan a suponer que as es. Hacen falta reportes de resultados de los diferentes
procesos y las decisiones que fueron tomadas.
Se requiere fortalecer los procesos de conformacin y verificacin de las bases de datos de

escuelas y alumnos por parte de los estados, para garantizar la consistencia de lo informacin y
evitar oscilaciones como las que hubo entre 2010 y 2013 (periodo en el que en cada ao vari la
tendencia). Con este mismo propsito, la DGEP podra implementar controles adicionales a los
existentes para asegurar que las variaciones que se presenten en el censo se encuentren dentro
de mrgenes preestablecidos y de no ser as, alertar oportunamente al estado correspondiente.
Lo anterior contribuira a optimizar el dimensionamiento de los recursos requeridos para la im-
plementacin del proyecto, con su correspondiente impacto en costos y validez de resultados.
La aplicacin cumple algunos, pero no todos los criterios de validez segn lo planteado en este
documento (el cual plantea criterios segn la mejor prctica a nivel internacional). Los estn-
dares y manuales son consistentes en general a lo largo del tiempo. Hay procedimientos de
aseguramiento de la calidad y de control a nivel aula, escuela y entidad. Se levantan reportes
y constancias de irregularidades firmadas por el aplicador, coordinador, director y, en algunos
formatos, padres de familia que sirven de testigos. No obstante, se percibe que se requieren
controles de calidad ms estrictos en fases cruciales del proceso que involucren proveer ms
detalle tcnico sobre el diseo y proceso, as como llevar a cabo verificaciones aleatorias o rea-
lizadas por terceras personas (por ejemplo en el diseo y seleccin de la muestra, las aplicacio-
nes en aula, el procesamiento de lectura ptica, la verificacin de bases de datos provenientes
de los estados, o la seleccin y diseo de la muestra controlada).
El diseo de instrumentos de evaluacin, as como la lectura ptica y la calificacin estn elevados

a norma tcnica de calidad, no as la aplicacin propiamente dicha. Teniendo en cuenta su impor-
tancia para la validez de los resultados, todo lo relacionado con la aplicacin, sus procesos previos
y posteriores amerita el mayor rigor que operacional y financieramente sea posible conferirle.
No se evidencia la existencia de un proceso sistemtico de mejora continua ni se dispuso de

un reporte consolidado de las irregularidades tpicas, su tratamiento y las lecciones aprendidas
luego de cada aplicacin como insumo para fortalecimiento de la siguiente.
Aunque los resultados de las escuelas con patrones de copia no se utilizan para la evaluacin de
Carrera Magisterial (es decir, se cancelan y no cuentan para la evaluacin docente),4 y a pesar
de que los reportes de copia se recopilan por medio de las formas de control, no se perciben
esfuerzos que podran ayudar a desmotivar esas irregularidades, contribuyendo a elevar la va-
lidez de la aplicacin. Tampoco se encontraron medidas para identificar, prevenir y enfrentar
otras formas de fraude.
4
No encontramos evidencia para sustentar este proceso en los manuales tcnicos de ENL ACE ni en los Lineamientos
de Carrera magisterial, pero en conversaciones con funcionarios de DGEP as como en documentacin preparada por
ellos mismos para efectos de esta revisin, se pudo constatar esta prctica.
116
En el manual de 2013, pgina 141 se menciona: [s]i se contrat personal para supervisin y
apoyos diversos, el estado define las caractersticas del personal a contratar, requisitos, forma
de contratarlos. Es recomendable que se establezcan normativas generales acerca del personal
a ser seguidas homogneamente por los Estados.
En relacin a los cuestionarios de contexto, se sugiere revisar su extensin tomando en conside-

racin el uso real de la informacin que de ellos se obtiene.
Los informes de aplicacin, sesiones de entrenamiento y manejo de novedades en la operacin

de campo se gestionan manualmente. Teniendo en cuenta el tamao de la poblacin atendida,
se requiere contar con herramientas tecnolgicas apropiadas, que permitan determinar las opor-
tunidades de mejora y su impacto logstico, enriqueciendo el proceso en general.
Aplicaciones 117
5 Usos y consecuencias
OBJETIVO Y MARCO CONCEPTUAL
En este apartado se presentan los resultados de un anlisis detallado de la evidencia

disponible relativa a los usos y consecuencias de la prueba ENLACE (Evaluacin Nacional de
Logro Acadmico en Centros Escolares), frecuentemente denominado en la literatura especia-
lizada como anlisis de validez consecuencial. Se busca revisar evidencia de que se dan usos
apropiados y previstos a los resultados de la prueba, que estos estn teniendo los efectos y
consecuencias previstas, y que por el contrario no se estn dando usos inapropiados y que
conlleven consecuencias negativas.
La nocin de validez relativa a usos y consecuencias de las pruebas combina un amplio rango
de consideraciones tericas, psicomtricas, y prcticas, y su aplicacin (en general o en casos
particulares) es un tema en constante evolucin que se discute activamente en la literatura
especializada (Lissitz, 2009). En este trabajo se conceptualiza la validez consecuencial de ma-
nera amplia, y no ceida a un modelo de medicin particular. Esto se refleja en el convenio
de ejecucin entre INEE y UAA que incluye en este apartado la forma en que se difunden los
resultados de las pruebas, los anlisis de factores asociados y el uso que se hace de dichos resul-
tados, as como las consecuencias que ha trado consigo su utilizacin en el sistema educativo
mexicano.1 Dado que este estudio se conceptualiza primordialmente desde la perspectiva de la
poltica educativa, se considera que el uso de la prueba determina directamente su significado
y consecuencias (Welner, 2013), sin importar necesariamente si esto corresponde a la definicin
especifica de validez dentro de algn modelo psicomtrico. Sin embargo, es importante dife-
renciar la evaluacin del uso de un instrumento en el contexto de una poltica educativa que se
busca aqu, de la evaluacin general del impacto social de esta poltica en un sentido amplio,
que este estudio de validez no pretende abordar.
CRITERIOS DE VALORACIN
Los criterios de valoracin que se proponen se basan en los estndares de AERA , APA y NCME
(1999) que ofrecen los lineamientos profesionales ms ampliamente establecidos a nivel inter-
nacional. Adicionalmente se incluyen elementos de los estndares del Educational Testing Servi-
ce (2000) que adems de la calidad de la prueba atienden lo relativo a equidad y consecuencias
1
El anlisis de factores asociados se entiende aqu como un monitoreo de patrones y tendencias a nivel sistmico
para propsitos de investigacin, o toma de decisiones sobre programas o polticasa diferencia de anlisis a nivel del
individuo que pertenecen al tema de validez de constructo.
118
(Standards for Quality and Fairness); y los del Centro Nacional de Evaluacin para la Educacin
Superior de Mxico (2000) que adems tocan lo relativo a comunicacin de resultados y capa-
cidad de interpretacin. Finalmente se incluye una publicacin reciente del Banco Mundial que
considera factores que inciden en distintos tipos de usos (Kellaghan, Greaney y Scott Murray,
2009). De estas tres fuentes se sintetizaron una serie de criterios que se engloban en cuatro
aspectos de validez de uso y consecuencias, a saber: 1) Soporte para interpretaciones, usos
y consecuencias previstas; 2) Acceso equitativo y capacidad de interpretacin y uso; 3) Comuni-
cacin que facilite la buena interpretacin de los resultados, y 4) Interpretaciones, usos y con-
secuencias imprevistas. En la elaboracin de este reporte se definieron inicialmente 16 criterios
especficos que luego se redujeron a 11 para eliminar redundancias y alinear las distintas fuentes
de evidencia ms directamente a los criterios.
Tabla 5.1 Criterios de valoracin: validez relativa a usos y consecuencias
A. Soporte para interpretaciones, usos y consecuencias previstas

1. Se presentan argumentos lgicos o tericos y evidencia emprica que respalde los usos y consecuencias
previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un apoyo terico o emprico.
2. Se documenta y evala el grado en que se producen las consecuencias previstas y/o deseables de la prueba.
B. Acceso equitativo y capacidad de interpretacin y uso
3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanismos de difusin
y acceso para todas las partes involucradas sin discriminacin.
4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la adecuada interpretacin
y utilizacin de los resultados.
C. Comunicacin que facilite la buena interpretacin de los resultados
5. Se informa a los usuarios sobre los propsitos y caractersticas de la prueba, lo que puede o no medir, y los
usos y consecuencias previstas. Se ofrecen ejemplos e informacin suficiente sobre la interpretacin deseable
(o correcta) de los resultados.
6. Se utiliza lenguaje claro y preciso sin jerga tcnica innecesaria; se explican trminos tcnicos en lenguaje
claro y comprensible para una audiencia general.
7. Se ofrece un marco normativo para evaluar el desempeo de los examinados. Se describe el perfil y
caractersticas de la poblacin de referencia.
8. Se ofrece informacin para minimizar la posibilidad de interpretaciones incorrectas. Se notan limitaciones
y errores comunes de interpretacin al comparar diferentes pruebas, aos, dominios, grupos, o niveles de
agregacin. Se usan categoras precisas que no den lugar a estigma.
D. Interpretaciones, usos y consecuencias imprevistas
9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque no se pueden prever
todos los usos o interpretaciones inapropiadas, se busca identificar y acotar los ms factibles o probables).
10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/positivas,
o inadecuadas/negativas).
11. Cuando existe evidencia confiable de usos inapropiados estos se investigan en grado y detalle adecuado.
Si estos usos persisten se informa a los usuarios y se intenta tomar acciones correctivas.
Fuente: Adaptado de AERA /APA / NCME (1999), ETS (2000), CENEVAL (2000).
Es importante sealar que aunque estos criterios reflejan aspectos concretos de calidad tcnica
de la prueba, a diferencia de aspectos psicomtricos u operativos, estos no se pueden evaluar
directamente en trminos cuantitativos o procedimentales exactos. Por el contrario, la evalua-
cin de criterios aqu requiere juicios de grado basados en evidencia terica y emprica, que se
refieren a caractersticas que no necesariamente son observables de manera directa y confiable,
y que ocurren en el contexto complejo de un sistema de pruebas de gran alcance que se usa para
propsitos especficos. Es evidente, por ejemplo, que el grado de escrutinio tcnico necesario
es mayor en el caso de una prueba de alto impacto que implica consecuencias serias para los
sujetos implicados, que en una prueba diagnstica sin consecuencias (AERA, APA, NCME, 1999).

Igualmente compleja es la evaluacin de usos o consecuencias no propuestas fuera del control
del desarrollador. En el contexto de una prueba nacional del tipo y alcance de ENLACE , el orga-
nismo responsable de satisfacer los criterios de calidad que se delinean es el sistema educativo
federal en conjunto, no solo el departamento encargado de aspectos tcnicos de desarrollo
lo que adems concuerda con la nueva ley de educacin que establece que las evaluaciones con
consecuencias para individuos son responsabilidad de la SEP.
Las acciones de otros actores del sistema educativo tales como asociaciones civiles, prensa, o in-
cluso gobiernos estatales se consideran y evalan como externos al rgano desarrollador. En to-
dos los casos, la asignacin y evaluacin de responsabilidad se hace con una perspectiva amplia
y descriptiva, que considera parmetros realistas referidos al contexto nacional y a experiencias
en otros sistemas a nivel internacional (Cizek, Bowen y Church, 2010; Nichols y Williams, 2009).
Por ltimo, como en los otros captulos de este reporte el anlisis que se presenta aqu trata de
distinguir entre aspectos bsicos o primarios que se podran considerar como requerimientos
mnimos o indispensables en cualquier sistema de medicin educativa de esta dimensin, y
aspectos que se consideran adicionales o ideales, que representan objetivos de calidad que
se deben buscar, pero no son indispensables para una operacin mnimamente apropiada (den-
tro de ciertos parmetros y contexto).
TIPOS DE USOS DE LA PRUEBA
Como punto de partida de anlisis, la Tabla 2 presenta una sntesis de usos, consecuencias
o beneficios previstos por los diseadores de la prueba ENLACE, segn se reflejan en el ma-
nual tcnico 2013 y materiales que acompaan a la prueba. La tabla presenta una variedad de
beneficios que comprenden usos sumativos, formativos, e informativos; interpretaciones
de distinta granularidad, foco, y grado de agregacin; y diversos mecanismos de mejora e
intervencin. Estas interpretaciones y usos involucran a cuatro tipos de usuarios especficos: 1)
alumnos y padres de familia, 2) docentes y directores, 3) autoridades, organismos evaluadores
y la sociedad en general, y 4) investigadores e instituciones acadmicas. Adems se menciona
a la sociedad en general, o la sociedad civil como un actor y beneficiario importante en los
esfuerzos de mejora.
120
Tabla 5.2 Usos, beneficios, y/o consecuencias previstos de ENLACE
Padres de familia
1. O frecer informacin sobre el logro acadmico de sus hijos y orientacin y apoyo para reforzar contenidos
educativos no logrados (reas de oportunidad).
2. Proporcionar resultados de la escuela donde estudia el alumno, as como los obtenidos por el resto
de las primarias y secundarias del pas.
3. Socializar el trabajo de la escuela y fortalecer la idea de la comunidad escolar.
Docentes y directivos
4. D etectar reas de oportunidad y orientar la prctica pedaggica del docente al indicar contenidos
curriculares logrados y no logrados.
5. Diagnosticar el trabajo de la escuela, proporcionando elementos para la autoevaluacin y gestin
del centro escolar.
6. Eliminar el exceso de instrumentos de evaluacin que se aplican en las escuelas, optimizando tiempos
para el proceso de enseanza-aprendizaje.
7. Posibilitar comparacin entre escuelas en contextos socioculturales similares.
8. Proporcionar informacin para disear cursos de capacitacin al magisterio.
Autoridades educativas estatales y nacionales

9. T omar decisiones inmediatas asociadas con el proceso educativo para la formulacin e implementacin
de polticas educativas.
10. Fortalecer el Sistema Nacional de Evaluacin y contribuir a mejorar la coordinacin entre las instancias
educativas federales y locales.
11. Estimular las mejores prcticas docentes y reconocer el esfuerzo de alumnos, docentes y directivos hacia la
mejora continua de la calidad educativa.
12. Proporcionar informacin de impacto a nivel de alumno y centro escolar para evaluar programas educativos
al conocerse resultados previos a su aplicacin.
13. Proveerindicadores e informacin para decisiones, diseo y evaluacin de polticas educativas a nivel estatal
(capacitaciones, asignacin de recursos).
14. Promover el uso de los resultados para la mejora del Sistema Educativo.
Investigadores e Instituciones Acadmicas

15. Analizar y reflexionar en torno a los resultados, determinar reas de oportunidad y alimentar el diseo
de estrategias de mejora, incluyendo estudios de factores asociados.
16. Realizar estudios que pongan a prueba la calidad de la prueba y/o verifiquen procedimientos o resultados
de los estudios reportados en el manual tcnico.
Sociedad en General
17. Mejorar la calidad educativa y el aprendizaje de los estudiantes.
18. Promover la transparencia y rendicin de cuentas en el sistema educativo.
Fuente: Basado en Manual Tcnico ENL ACE , 2013.
Es importante hacer algunas precisiones sobre los contenidos de la Tabla 5.2. Primero, la tabla
no existe como tal en el reporte, y sus contenidos no se condensan de esta forma exacta en el
manual tcnico u otros materiales. La tabla refleja por tanto la sntesis que hacen los autores del
gran nmero de objetivos y usos previstos a que hace referencia de forma explcita o implcita
el manual tcnico 2013. El siguiente cuadro presenta algunas citas representativas tomadas del
manual que implcita o explcitamente se refieren a beneficios esperados derivados del uso de
la prueba ENLACE .

Cuadro 5.1 Objetivos y usos de la Prueba. Extractos del Manual Tcnico
(p.6) La prueba ENLACE es un instrumento estandarizado, objetivo, de alcance nacional, diseado para
que los docentes, directivos, autoridades educativas, investigadores y escolares de todo el pas, dispongan
de una medida vlida, objetiva y confiable, del estado actual del logro acadmico de los estudiantes de
educacin bsica.
(p.7) El propsito primordial de ENLACE es recopilar [] informacin especfica de la poblacin objetivo para:
(1) identificar reas donde hay progreso, (2) reconocer donde hay deficiencias y, por tanto, se erigen como
reas de oportunidad para disear mediaciones pedaggicas a realizar en clase por los docentes,
(3) intercambiar opiniones de las que emanen acciones donde intervengan los padres de familia para incidir
en el aprendizaje y el desarrollo de sus hijos, (4) socializar el trabajo de la escuela y (5) fortalecer la idea de
comunidad escolar y su participacin en los procesos formativos de los estudiantes.
(p.7) Los instrumentos de evaluacin utilizados en el programa ENLACE en educacin bsica tienen como
principales objetivos: a) Medir el logro acadmico en: Espaol y Matemticas (y las competencias de otro mbito
del conocimiento, diferente cada ao pero que se repite cclicamente) de todos los alumnos de los grados
educativos considerados. b) Establecer criterios y estndares de calidad aceptados en todo el pas, como una
base de referencia. No se trata de conocimientos o habilidades mnimos, sino los comunes o crticos aceptables
para todo el pas. c) Obtener y entregar resultados de todos los alumnos y todas las escuelas.
(p.190) la DGEP [] se compromete a demostrar que es una informacin fidedigna, sin omisiones ni inclusiones
que pudieran afectar los resultados y cuyas bases de datos estn disponibles para que cualquier investigador
pueda verificar los procedimientos y resultados...
Fuente: ENL ACE , Manual Tcnico, 2013.
Una segunda precisin se refiere a la clasificacin de usos de la prueba como previstos o no.
Esta seccin del reporte no pretende ofrecer un juicio cualitativo sobre el valor potencial de
diversos usos propuestos y posibles de ENLACE , o si estos objetivos son adecuados o deseables
en un sentido social ms amplio. La distincin en cambio se hace necesaria en las siguientes
secciones del reporte por motivos prcticos y tcnicos, para permitir delinear las responsabili-
dades de diseadores/desarrolladores y usuarios de la prueba. En primera instancia los desarro-
lladores son responsables principalmente en lo que se refiere a aquellos usos que ellos mismos
han propuesto para la pruebaaunque como se ver ms delante, tambin existe un cierto
grado de responsabilidad en la prevencin, deteccin y correccin de usos que se consideren
injustificados o inadecuados.
Por lo tanto, una primera conclusin en lo que se refiere a los objetivos de esta seccin del
reporte es que el manual carece de una estructura y organizacin conceptual slida que presen-
te y describa los objetivos y contexto de la prueba de forma explcita y clara.
El lenguaje y la forma en que se presenta la informacin es por turnos vaga o poco clara,
incompleta, o redundanteel cuadro 5.2 presenta ejemplos adicionales de este tipo de lenguaje
y formulacin de conceptos de poca utilidad para los propsitos de un manual tcnico.
Por supuesto, la falta de claridad en organizacin y terminologa no se menciona como crtica esti-
lstica (aunque sin duda el manual se beneficiara de una revisin a fondo por un editor competen-
te). Es mucho ms importante notar que esta falta de claridad incide directamente en la calidad de
la prueba pues resulta difcil establecer con certeza los propsitos, usos, y consecuencias previstas
de la prueba y por tanto representa una limitacin directa e importante en el proceso de cons-
truir un marco apropiado para evaluar la medida en que estos objetivos se cumplen en la prctica.
122
Cuadro 5.2 Objetivos y usos de la Prueba. Extractos del Manual Tcnico
(p.5) ENLACE es, as, un programa fundamental que la Secretara de Educacin Pblica (SEP ) desarrolla ante
las exigencias actuales de rendicin de cuentas. En este marco, se proporciona informacin a los estudiantes,
padres de familia, docentes, directivos de las instituciones educativas y a la sociedad en general, respecto
del logro acadmico de los alumnos del Sistema Educativo Nacional.
(p.6) En este sentido, se viene cumpliendo la expectativa de que, con el paso del tiempo, ENLACE se constituya
a partir de sus resultados en una referencia vlida y confiable de la evolucin del avance en el desempeo
escolar, de la concrecin de los esfuerzos de todo el sistema escolar en los resultados escolares, tomando en
cuenta diferentes niveles de agregacin: estatal, municipal, local, escolar, grupal e individual.
(p.7) Los resultados de ENLACE sirven, en gran medida, para la toma de decisiones y la elaboracin de la
poltica educativa del pas. Tambin son tiles para la sociedad en su conjunto, ya que alumnos, docentes
y padres de familia obtienen informacin puntual para orientar y disear una intervencin pedaggica
slidamente sustentada.
(p.7) De esta manera, ENLACE contribuye con un modelo de apoyo a la mejora educativa del pas en diversos
ambientes: el saln de clases, la escuela, la familia, los medios de comunicacin y la sociedad en su conjunto.
Se espera que los informes de resultados del logro acadmico de los estudiantes sean interpretados pertinente y
constructivamente por padres de familia, docentes y directivos escolares y la sociedad en general; para ello,
es necesario que, en el marco de una cultura de la evaluacin, se abandonen las prcticas tradicionales
de evaluaciones incompletas, mal diseadas y sin interpretacin alguna.
(p.8) As queda claro, por ejemplo, por qu los resultados de ENLACE no impactan en las calificaciones de los
alumnos participantes; en cambio, sirven para explorar el nivel de logro de los conocimientos y las habilidades
cognitivas que tienen en Espaol, Matemticas y otro campo de conocimiento adicional. As mismo, queda
clara la utilidad y alcance que los resultados de ENLACE tienen para las autoridades educativas del pas en la
definicin de la poltica educativa, la cual debe construirse, revisarse y renovarse continuamente.
F UENTES DE EVIDENCIA Y ANLISIS
Los 11 criterios de valoracin que se presentan en la Tabla 5.1 proveen el marco conceptual para el
anlisis de los aspectos tericos, psicomtricos, y prcticos de ENLACE , sus usos previstos e impre-
vistos, y las consecuencias que de estos se derivan. Evaluar estos aspectos de validez requiere de
informacin y evidencia de muy diversos tipos y fuentes, que normalmente no estn disponibles
en forma sinttica en ningn documento o base de datos.
El grado en que ENLACE se usa en las formas previstas y produce los resultados esperados, por
ejemplo, no se puede establecer directamente con anlisis psicmetros, sino que requiere recolec-
tar y sintetizar fuentes de informacin de distinto tipo (cuantitativo y cualitativo), origen (SEP, INEE ,
prensa, entrevistas, observacin directa, y otros), y granularidad (de nivel individual, o agregados
por aula, escuela o estado).
Este estudio busca ofrecer una sntesis cualitativa que refleje la cantidad y calidad de evidencia
disponible de varias fuentes, respecto a los criterios de valoracin propuestos.
Dada la naturaleza de las preguntas de esta seccin, y las limitaciones en cuanto a la cantidad y
calidad de informacin disponible que documenta usos y consecuencias de ENLACE, adems de
las limitaciones de este estudio en trminos de tiempo y recursos disponibles, para este estudio
se busc profundizar el anlisis con informacin proporcionada por actores involucrados direc-
tamente en el uso de resultados de la prueba, adems de revisar la documentacin, manuales,
reportes, y otros materiales y estudios especiales disponibles. En particular, el equipo de investi-
gacin de la UAA recogi informacin adicional de cuatro fuentes:

1. Informacin de usos y consecuencias a nivel estatal, con una encuesta de actores invo-
lucrados en la administracin y uso de las pruebas ENLACE en cada localidad;
2. Entrevistas a profundidad con autoridades y personal clave involucrado en el diseo de
mecanismos, programas y polticas basadas en las pruebas ENLACE en una muestra
de 10 estados y 2 subsecretarias federales;

3. Literatura especializada y entrevistas con investigadores y organismos que utilizan la
prueba para investigacin/evaluacin de programas o polticas;
4. Bsqueda estructurada utilizando herramientas Google y Google Scholar para iden-
tificar evidencia sobre usos y consecuencias previstas e imprevistas, con base en una
revisin de cobertura en prensa, y grupos y organismos de la sociedad civil.
La Tabla 5.3 sintetiza las fuentes de informacin que sirven de base para los anlisis y consideracio-
nes siguientes, organizadas segn los criterios de valoracin ofrecidos en la Tabla 5.1.
Tabla 5.3 Fuentes y tipos de evidencia empleadas por criterio de valoracin
Criterio Tipo de evidencia

A. Interpretaciones, usos y consecuencias previstas
1. E videncia y respaldo Manual Tcnico ENLACE 2013.
2. Monitoreo E studios especiales y literatura especializada.*
E ncuesta y entrevistas con personal de entidades.
E stadsticas de uso de portales de resultados.
B. Acceso equitativo, y capacidad de interpretacin y uso
3. Reporte / acceso a resultados Manual Tcnico ENLACE 2013.
4. Capacitacin y apoyo Documentos de apoyo (Talleres de actualizacin
y uso pedaggico de los resultados de ENLACE ).
M anual para docentes y directivos.
E stadsticas de uso de portales de resultados.
E ncuesta y entrevistas con personal de entidades.
Manual Tcnico ENLACE 2013
5.
Reportes informativos Reportes de resultados producidos para grupos de
6.
Lenguaje adecuado usuarios (padres, maestros, directores, autoridades)
7. Marco de referencia accesibles en pgina SEP/ENLACE (30/12/2013)
8. Limitaciones / errores comunes Otros contenidos, datos, y documentos disponibles
en pgina web SEP/ENLACE (30/12/2013)
9. A dvertir sobre usos inapropiados Manual Tcnico ENLACE 2013.
10. Documentar esos usos E studios Especiales y Literatura Especializada.*
11. Acciones respecto a ellos E ncuesta y entrevistas con personal de entidades.
C obertura de medios y ONG s.
* Ver Tabla A en Apndice y Referencias.
124
REVISIN DE LA EVIDENCIA DISPONIBLE POR CRITERIO DE VALORACIN
A. Soporte para interpretaciones, usos y consecuencias previstas
1. Se presentan argumentos lgicos o tericos y evidencia emprica que respalden los

usos y consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no
tienen un apoyo terico o emprico.2
El manual tcnico detalla los propsitos, usos, y audiencias previstas de la prueba ENLACE . Aun-
que los usos previstos no se sintetizan explcitamente, el manual hace mencin repetida de gran
nmero y variedad de objetivos que busca la prueba y beneficios que ofrece a los diversos acto-
res (alumnos, maestros, directores, autoridades, y sociedad en general). Sin embargo, tanto el
manual, como los materiales que lo acompaan y otros disponibles en el portal web presentan
evidencia terica y emprica muy limitada para respaldar especficamente los usos propuestos y
consecuencias previstas. Los documentos ofrecen argumentos generalmente superficiales y va-
gos, y proponen beneficios del uso de la prueba que tpicamente no se sustentan directamente
en razonamientos o argumentos lgicos o tericos, y menos an en evidencia emprica.
El cuadro 5.3 presenta un ejemplo que se considera indicativo de la discordancia entre los usos
propuestos y la evidencia que se ofrece para sustentarlos. Uno de los usos propuestos ms pro-
minentes de la prueba ENLACE es el de informar la prctica docente con base en el anlisis y
diagnstico de las fortalezas y debilidades de los alumnosde este se deriva en teora una de
las contribuciones ms importantes de la prueba al mejoramiento del aprendizaje y del sistema
educativo en general.
Sin embargo, el manual y materiales que lo acompaan no presenta evidencia psicomtrica que
sustente la fiabilidad del uso diagnstico basado en subpuntajes ya sea a nivel individual o agre-
gado a nivel de aula. Este tipo de uso diagnostico conlleva un juicio prctico contextualizado
sobre la calidad de la informacin disponiblees decir, la precisin de los puntajes a interpretar
en cada rea y nivel de agregacin. Esto usualmente implica calcular, reportar, y promover el
uso adecuado de un indicador de precisin escalado (i.e. error estndar).
En cambio, en el manual tcnico ENLACE se ofrecen solo coeficientes de confiabilidad alfa para
puntajes globales a nivel de alumno. Estos coeficientes no reflejan la precisin de los puntajes,
si no una proporcin terica de varianza del error de poca o nula utilidad prctica para el uso
que se propone, y ni siquiera se refieren al puntaje de interspor rea y agregado a nivel de
aulasi no al puntaje global individual de menor o nula relevancia para informar la prctica
del docente.
El contraste entre la teora de accin y la evidencia tcnica disponible para justificarla es notable.
La alta confiabilidad del puntaje global no garantiza la confiabilidad de todos los subpuntajes
que se podran generar (Brennan, 2005; Haberman, 2008); por otro lado la baja confiabilidad
de un subpuntaje a nivel individual no asegura lo mismo al nivel de aula (Brennan, 1995);
2
Este criterio se refiere a los usos y consecuencias previstas de la prueba ENL ACE que se describen en el Manual Tcnico
2013 y materiales que lo acompaan, y que se sintetizan en la Tabla 2. Para anlisis de reportes especficos de resulta-
dos dirigidos a distintos tipos de usuarios ver anlisis de criterios 5 a 8.

finalmente, un ndice de confiabilidad alta a cualquier nivel no garantiza un error estndar
(e intervalo de confianza) que justifique las interpretaciones y diferenciaciones prcticas que se
pretenden (Crocker & Algina, 2004).
Cuadro 5.3 Usos propuestos de puntajes al nivel del aula o docente
(p.10) ENLACE no pretende que los docentes realicen anlisis psicomtrico de los reactivos o de la prueba en su
conjunto; esta funcin es competencia de la SEP, responsable de garantizar la validez, objetividad y confiabilidad
de la prueba, de dar interpretaciones y tomar las decisiones a nivel nacional o estatal. Lo que s se espera es que
los docentes analicen la informacin para estimar de manera cuantitativa y cualitativa las fuerzas y debilidades
que presentan sus estudiantes con relacin al perfil de especificaciones evaluado en la prueba.
(p.125) Confiabilidad de la prueba

Cada prueba se analiza para estimar la confiabilidad con el coeficiente de consistencia interna alfa
de Cronbach y con l se determina el error de medida.
(p.132) Confiabilidad por consistencia interna

El coeficiente alfa de Cronbach es la expresin de propsito general ms empleada en la prctica y es la que se
emplea en ENLACE .
El uso diagnstico de los puntajes por parte del maestro, tambin se basa en supuestos sobre
la sensibilidad instruccional de la prueba, es decir, el grado en que esta es capaz de reflejar
diferencias en la calidad (o incluso cantidad) de enseanza a que est expuesto un estudiante
en un periodo determinado.
De forma ms general, este supuesto est implcito en la idea de influenciar el aprendizaje

a travs de mejoras en la prctica docente que es parte fundamental del modelo lgico de
ENLACE y por tanto en la evaluacin paralela de programas de capacitacin docente y otros.
Sin embargo, en el manual tcnico no se ofrecen argumentos tericos o lgicos explcitos, ni
evidencia emprica alguna que justifiquen el supuesto de que la prueba es efectivamente sensi-
ble a (capaz de reflejar) variaciones en la prctica docenteni siquiera en trminos de puntajes
globales, menos an al nivel de subpuntajes por reas.
Es importante notar que esto implica una omisin bsica importante aunque el estudio de sen-
sibilidad instruccional no es parte del men bsico en la literatura en medicin educativa. Si este
tipo de evidencia no acompaa a muchas de las pruebas de gran escala ms conocidas a nivel
internacional, es porque no es comn que estas propongan usos diagnsticos que involucren
tan distintos actores, grados de detalle y niveles de agregacin en la informacin.
En el caso de ENLACE parecera fundamental la necesidad de ofrecer algn tipo de evidencia

emprica en este sentido, ya sea cuantitativa o cualitativa, experimental o descriptiva, longitudi-
nal o transversal, o de otro tipo.3
Un pequeo pero creciente nmero de estudios emplea encuestas, entrevistas, estudios de caso y otros mtodos para
3
recoger informacin sobre usos de ENL ACE por diversos actores en el sistema (padres, maestros, directores). Estos
se mencionan en otras secciones de este reporte y pueden ofrecer informacin valiosa para diagnosticar y mejorar la
operacin de la prueba, monitorear sus efectos primarios o secundarios, o entender el impacto o no de programas o
intervenciones. En el mejor de los casos esta informacin eventualmente podra ayudar a explicar los resultados de un
estudio de sensibilidad instruccional, pero no constituyen un estudio de este tipo.
126
En general, nuestro anlisis de la documentacin revela fundamentalmente una grave falta de
alineamiento entre los usos propuestos de la prueba ENLACE y los cuerpos de evidencia teri-
ca y emprica que el organismo desarrollador (la Secretaria de Educacin Pblica) ofrece para
sustentar estos usos.
Es muy importante recordar que en teora se espera que los usos e interpretaciones propues-
tas de la prueba informen directamente su diseo y la evidencia que se deber recoger para
justificarlos; en el caso de ENLACE esto no parece haber ocurrido as. El manual no describe
por ejemplo la idoneidad del diseo (censal, con cobertura fija) en relacin al uso diagnostico
preponderante, o los mecanismos para considerar la precisin de los indicadores al interpretar
los resultados.
Esto probablemente es indicativo de limitaciones tcnicas y materiales concretas enfrentadas al

definir y recolectar la evidencia, pero tambin refleja la falta de claridad inicial sobre los objeti-
vos de la prueba y sobre la interdependencia entre usos propuestos y decisiones de diseo de
la prueba. Los objetivos y usos propuestos se presentan de forma vaga, parcial, y un tanto for-
tuita, y aunque muchas veces se pueden inferir de los contenidos del manual de forma indirecta
o por eliminacin (por ejemplo, al diferenciar usos sumativos que no se consideran adecuados),
de ninguna manera constituyen el eje organizador del manual tcnico como se esperara.
Finalmente, es notable tambin el uso de aseveraciones generales y ambiguas sobre usos y

consecuencias que no se fundamentan en ninguna evidencia concreta. Por ejemplo, el manual
no ofrece ninguna base para evaluar la afirmacin de que:
ENLACE ha permitido avanzar en la generacin de una cultura de corresponsabilidad en la

tarea educativa que involucra a la comunidad escolar en su conjunto; asimismo, ha veni-
do propiciando un enfoque diferente de la evaluacin, cada vez ms alejado del carcter
sancionador que lleg a tener en el aula; y ha promovido el ejercicio de la planeacin del
trabajo docente, lo mismo que la utilizacin del modelo de autoevaluacin de centros edu-
cativos orientados a la mejora continua (p. 164).
Este tipo de lenguaje no es comn o particularmente til en el manual tcnico de una prueba
si no que por el contrario hace ms difcil el anlisis y la evaluacin, porque combina con lgica
circular supuestos, hiptesis, caractersticas y objetivos de corto y largo plazo, sin ofrecer una
lnea de argumento sustentada en evidencia. El uso de este tipo de lenguaje en el manual tc-
nico recuerda la importancia de crear estructuras para asegurar adems de la calidad tcnica,
la objetividad e independencia de un sistema de pruebas aun cuando este opera al interior del
organismo responsable de mejorar los resultados.
2. Se documenta y evala el grado en que se producen los usos y consecuencias previs-

tas y/o deseables de la prueba.
El manual tcnico 2013 y otros documentos que se ofrecen en el portal web reflejan un nulo o
mnimo esfuerzo por documentar el grado en que se producen los usos y consecuencias pre-
vistas de ENLACE . No se encontr ningn documento o esfuerzo sistemtico de otro tipo que
busque concentrar informacin, ni siquiera en lo que respecta a los usos ms bsicos o de ma-
yor alcance que se dan a ENLACE al interior de la misma SEP a nivel federal. La documentacin

que existe est sumamente fragmentada y para obtenerla hubo que recurrir al conocimiento
de personas involucradas en distintos niveles, o consultar individualmente con subsecretaras,
unidades, y programas particulares.
Nuevamente son frecuentes aseveraciones de tipo general que combinan objetivos y supuestos
hipotticos pero que no estn sustentados en evidencia. La siguiente cita del manual tcnico
ejemplifica este tipo de contenidos de poco valor para evaluar aspectos concretos de validez:
Gracias a esta difusin, los alumnos, padres de familia, docentes, directores de centros esco-
lares, investigadores educativos, as como autoridades educativas estatales y federales, pue-
den reflexionar en torno a los resultados, determinar reas de oportunidad en sus respectivos
campos de accin y alimentar el diseo de estrategias de mejora. El anlisis pertinente de
los resultados debe conducir a tomar acciones concretas encaminadas al incremento de la
calidad de la enseanza, aprendizaje y [ ] servicios educativos en general (p.162).
El manual incluso refleja un cierto grado de confusin sobre la responsabilidad de los actores
en relacin a los usos de las pruebas o la recoleccin de evidencia de estos usos cuando indica
que las instituciones tienen:
pleno derecho de emplear los resultados como insumo en el diseo de planes para la
mejora continua de sus procesos pedaggicos, la deteccin de necesidades de formacin
o actualizacin de sus docentes, la generacin de nuevas estrategias didcticas y otras
acciones que se consideren pertinentes para alcanzar los propsitos educativos planteados
por la SEP (p.162).
El establecer un derecho institucional a utilizar los resultados es una postura inusual y de

dudosa pertinencia y relevancia legal tanto para el organismo desarrollador de pruebas como
para los usuarios. En cambio, el cargo si no legal si profesional del desarrollador es asegurar
primero que dichos usos de los resultados estn adecuadamente fundamentados, y luego
documentar el grado en que las instituciones y actores hacen uso de la prueba en las formas
previstas, obteniendo los resultados esperados, y sin que se produzcan otros imprevistos que
se consideren inapropiados.
Evidentemente ese tipo de esfuerzo trasciende a cualquier investigador, institucin u organis-

mo particular, y se debe concebir de forma ms amplia como un rea de corresponsabilidad y
oportunidad para colaboracin entre investigadores y organismos desarrolladores de pruebas.
Por tanto el criterio se evala aqu en relacin al desarrollo de mecanismos e iniciativas que se
encaminen a y faciliten el monitoreo y la investigacin de los usos de la prueba. En ese senti-
do se puede sealar la falta de canales para promover el uso de la informacin por parte de
los investigadores, a quienes el manual identifica como uno de los usuarios previstos de los
resultados. Esto limita el desarrollo de esfuerzos conjuntos de investigacin que requiere el
cumplimiento de este criterio a mediano plazo y que puedan informar las prcticas y polticas
educativas como en teora se pretende.
Aunque el criterio por tanto parece no cumplirse de entrada, este se aborda aqu desde una
perspectiva general usando todas las fuentes de informacin existente y otras que se recabaron
especialmente para este proyecto, con el propsito de informar el trabajo que el INEE lleve a
cabo a futuro en la siguiente generacin de pruebas. Las fuentes de informacin incluyen lite-
ratura especializada y estudios especiales (ya sean publicados, u obtenidos directamente de su
128
fuente), y entrevistas con personal encargado del uso de ENLACE en seis estados: Aguascalien-
tes, Nuevo Len, Colima, Durango, Yucatn y Veracruz.
Las entrevistas indican que los estados toman medidas muy diversas para promover el uso de
los resultados de ENLACE , y que la definicin misma de uso puede variar significativamente
entre estados. Como muestra este reporte ms adelante, estas definiciones de uso a nivel
estatal no siempre son consistentes con los usos y consecuencias previstas que se establecen
o pretenden a nivel federal. La seccin siguiente se organiza en relacin a los distintos actores
que se distinguen en la Tabla 2.
Padres y Alumnos
El modelo lgico implcito en la prueba ENLACE incluye la participacin de los padres de familia
en los esfuerzos de mejora educativa, como actores que se involucran directamente tanto en el
aprendizaje de sus hijos a nivel individual, como en la labor de sus maestros y escuelas en gene-
ral. La encuesta de autoridades estatales realizada para este estudio (N=20) indica que tres de
cada cuatro estados han implementado un programa para diseminar los resultados de la prueba
directamente a padres de familia, incluyendo reuniones en persona (23%), portales de internet
(46%), y difusion de materiales impresos (40%). Sin embargo, la encuesta tambin indica que
solo una quinta parte de los estados considera el apoyo a padres como un objetivo prioritario
de uso para ENLACE.
Otros estudios han investigado ms directamente el uso que dan los padres a esta informacin.
Por ejemplo, el Instituto de Fomento e Investigacin Educativa (IFIE) realiz un estudio basado
en una muestra nacional representativa de alrededor de 2,000 padres de alumnos de primaria,
secundaria y preparatoria, para documentar el grado de conocimiento y los usos que dan a los
resultados de ENLACE (IFIE , 2010). El estudio revel serias limitaciones en el acceso a los resulta-
dos individuales de los alumnos y por tanto en el posible uso de estos resultados por los padres.
Aunque una gran mayora de padres (ms del 80%) considera la aplicacin de ENLACE como
importante, alrededor de la mitad de los padres a nivel nacional en los tres niveles no llegan a
conocer nunca los resultados de sus hijos, y de estos ms de la mitad no reporto ningn uso
o accin concreta despus de conocer los resultados. Es tambin evidente la gran variabilidad
regional en el conocimiento de los resultados (con ndices que van desde el 26% en el norte
de la repblica, hasta el 76% en occidente) y el bajo ndice de acceso a resultados por medio de
Internet, que es utilizado solo por uno de cada seis padres que recibe los resultados (o menos
del 9% total). En cuanto al uso que se orienta al mejoramiento de las escuelas, una proporcin
an menor en todos los niveles dijo conocer los resultados de la escuela de sus hijos. En total
entre un 10 y 20 % de padres reporta tomar algn tipo de accin concreta para buscar el me-
joramiento escolar basado en los resultados de ENLACE .
Los resultados sugieren que el modelo de mejora de ENLACE en el mejor de los casos ha sido
adoptado muy lentamente por uno de los actores clave. Sin contar con datos longitudinales es
imposible determinar si existe una tendencia hacia mayor utilizacin por parte de los padres, pero
una hiptesis plausible es que estos resultados reflejan el grado mximo o estable de uso que se
logr a travs de los mecanismos implementados a nivel federal dentro del modelo que funcion
hasta 2013. El estudio del IFIE culpa entre otros factores a la difusin tarda de resultados (publi-
cados en otoo para el ao escolar anterior) de las estadsticas desalentadoras de conocimiento y
uso de resultadosadems de limitar estructuralmente el modelo de mejora docente propuesto.

El estudio del IFIE no permite identificar programas de uso de resultados por parte de padres
promovidos al interior de cada estado. Una posibilidad es que en los estados se estn llevando
a cabo otros esfuerzos de comunicacin y uso que la encuesta no identifica con precisin.
En las entrevistas con personal estatal de Aguascalientes, Nuevo Len, Yucatn, Veracruz, Du-
rango y Colima, solo uno de los estados seala el uso sistemtico de ENLACE para orientar a
los padres para apoyar a sus hijos para reforzar contenidos. Este estado report dos esfuerzos
distintos que buscan involucrar a los padres a travs de la prueba ENLACE: el primero pide a los
docentes que enven la prueba Pre- ENLACE a los padres (como sugerencia a los docentes por
medio de una revista impresa para docentes distribuida a nivel estatal), el segundo promueve
que docentes y directores se renan con padres para presentar los resultados ENLACE y pedirles
mayor involucramiento en el proceso de aprendizaje de sus hijos. Los entrevistados no tenan
conocimientos o evidencia concreta sobre resultados o consecuencias de estas acciones.
Docentes y Directores
El modelo lgico de mejora de ENLACE ubica explcitamente al maestro como el actor principal,
su uso de los resultados para mejorar la prctica docente como el mecanismo central de im-
pacto, y la escuela como el contexto prximo clave donde se promueve y facilita este esfuerzo
de mejora. Una variedad de programas, polticas, y esfuerzos a nivel federal y estatal reflejan la
importancia que se da al uso de los resultados de la prueba ENLACE por parte del docente. Es-
tos se reflejan en una variedad de materiales de apoyo y orientacin al docente de diverso tipo,
profundidad, alcance, y calidad. Estos incluyen materiales que son parte de la documentacin
y material de apoyo creados por los propios desarrolladores de ENLACE , y otros muchos que se
usan en la mayora de los estados.
El INEE realiz una encuesta sobre conocimiento, opinin, y usos de ENLACE con una muestra
nacional representativa de ms de tres mil docentes de cuarto a sexto grado de primaria (Del-
gado, Grijalva, y Garca, 2011). La encuesta revela patrones preocupantes como el que 60%
de docentes conoce los objetivos de la prueba solo de forma superficial (cerca del 10% los
ignora por completo) y una proporcin an mayor tiene un conocimiento superficial o nulo de
la interpretacin y uso adecuados de los resultados de la prueba. Es interesante notar que un
55% de los docentes opina que ENLACE no permite diagnosticar las fortalezas y debilidades de
los alumnos que reciben cada ao. Sin embargo, el 60% reporta que emplea tiempo en clase
durante un mes o ms con el objetivo nico de preparar a los alumnos para la prueba. Estos
resultados contrastantes reflejan con toda probabilidad la creciente prominencia de la prueba
tanto en trminos de visibilidad general como de uso concreto en el contexto de polticas y usos
de mediano y alto impacto a nivel federal o estatal.
Existe una gran variedad de programas y esfuerzos que buscan utilizar los resultados de la
prueba ENLACE para informar esfuerzos de mejora de docentes o escuelas. A nivel federal las
intervenciones relacionados al programa Escuelas de Calidad (PEC) o el de Mejoramiento del Lo-
gro Educativo (PMLE) son un ejemplo de este tipo de uso (p. ej. PMLE atiende a escuelas donde
50% o ms del alumnado obtenga un nivel insuficiente en ENLACE).
A nivel estatal los datos de la encuesta con autoridades educativas estatales que se realiz para
este estudio confirman la gran variedad de programas que buscan utilizar los resultados de la
prueba para informar esfuerzos de mejora de docentes o escuelas. Tres de cada cuatro estados
130
reportan como prioridad el uso diagnstico de ENLACE para informar esfuerzos de autoevalua-
cin en las escuelas; el 56% mencion como objetivo prioritario el informar la prctica docente,
mientras que el 50% mencion orientar la capacitacin docente. Solo la tercera parte de los
estados menciona el fortalecimiento de la comunidad escolar, y una cuarta parte la evaluacin
de escuelas, o de programas o polticas educativas.
Estos incluyen una variedad de esfuerzos de difusin de resultados, programas que promueven
la autoevaluacin escolar o docente, y programas de intervencin o asistencia externa para es-
cuelas, directores, o docentes. La encuesta sugiere que todos o casi todos los estados cuentan
con mecanismos para difundir resultados a supervisores, escuelas, y docentes. Los mecanismos
ms frecuentes para diseminar los resultados con los tres grupos (supervisores, directores, y
maestros) son reuniones, difusin de materiales impresos, y acceso a portales de internet.4
En general a nivel estatal se puede hablar, en palabras de uno de los investigadores entrevista-
dos para este reporte, de uso generalizado pero no sistematizado. El tipo de uso especfico
de los puntajes y las acciones que se derivan de los resultados puede variar considerablemente
entre estados e incluso entre escuelas y con frecuencia estos no se especifican claramente.
Por ejemplo, al revisar los planes de mejora escolar del programa PEC en dos estados encon-
tramos que la gran mayora de las escuelas mencionan a ENLACE como uno de los criterios
observables de mejora a considerar. Sin embargo, los planes tpicamente no detallan el uso
especfico que se dar a los puntajes, o lo que se describe dista del anlisis detallado de fortale-
zas y debilidades que en principio se pretende. La mayora de los planes que revisamos se limita
a listar porcentajes brutos por nivel de rendimiento y, cuando hay resultados no adecuados o
de retroceso, se ofrecen esfuerzos adicionales (y llama la atencin, focalizados) para mejorar los
puntajes en los ciclos siguientes.
Es tambin notorio que el anlisis que se realiza no considera el grado de error o volatilidad
inter-anual en los indicadores, con lo que la interpretacin y planeacin de acciones puede estar
basada en resultados de bajo grado de certeza estadstica. Sin pretender extrapolar los resulta-
dos de una muestra pequea en dos estados a los de todo el pas, esto coincide con la idea de
uso extendido pero no sistemtico que se mencion anteriormente.
Las entrevistas realizadas con personal de las secretarias de educacin de seis estados (Aguas-
calientes, Nuevo Len, Durango, Colima, Veracruz y Yucatn) indican en la mayora de los
casos un alto inters en el uso de ENLACE para orientar la autoevaluacin escolar, las inter-
venciones pedaggicas y la capacitacin docente. Sin embargo, las entrevistas y pginas web
estatales sugieren que las acciones que se implementan en cada estado pueden variar signi-
ficativamente en frecuencia, profundidad, y enfoque, y que estas se documentan con nivel
tambin muy variable de detalle.
Por ejemplo, en uno de los estados la oferta de formacin continua docente se ajusta a las
necesidades detectadas en ENLACE, pero no se documenta sistemticamente cmo se hace
el diagnstico de necesidades, o cmo se estructura la formacin continua para mejorar las
prcticas docentes.
Resultados basados en una muestra de n=20 estados. Ver Apndice 1.

4

En dos estados un mecanismo de intervencin comn consiste en poner a disposicin de los
docentes varios materiales didcticos a travs de un sitio web, un blog, o una revista. Adems, se
trata de promover el uso y anlisis de los datos ENLACE por los docentes a travs de capacitaciones
impartidas por multiplicadores (como los directores, consejos tcnicos, supervisores regionales,
asesores, o consultores privados) focalizados en aspectos generales o especficos de la prctica

docente (por ejemplo el uso formativo de los reactivos de ENLACE para la evaluacin de aula, o el
anlisis de los resultados por cada reactivo, tratando de identificar como se relacionan estos con
los planes de estudio y los enfoques y actividades didcticos utilizados).
Respecto de la interpretacin de los resultados de ENLACE, en dos estados se implementan ta-

lleres en todos los niveles del sistema para analizar los resultados. Para estos fines se producen
rankings especiales por regin, sector, escuelas y alumnos, y en un estado se utilizan para esto
los semforos segn el porcentaje de estudiantes por sobre un cierto nivel de logro.
Las entrevistas reflejan la ausencia de esfuerzos de seguimiento y por tanto la muy escasa o nula
evidencia sobre la efectividad de las acciones e intervenciones iniciadas desde los estados. En el
mejor de los casos se sealan beneficios generales y poco especficos no basados en evidencia
concreta como lo fue en un estado la generacin de una cultura diferente de la evaluacin,
una cultura que tiene que ver con la idea de mejora.
Una observacin general que se puede derivar de estos resultados es que el rol que se otorga a
ENLACE en el mejoramiento de la prctica docente parece muy ambicioso, particularmente si se
consideran los limitados medios y mecanismos de uso y apoyo que lo acompaan.
La evidencia sugiere que a nivel federal y estatal no se ha evaluado de forma sistemtica el

modelo lgico que subyace las intervenciones ms comunes a nivel docente, a saber la efectivi-
dad de materiales didcticos que ayuden al maestro a diagnosticar los contenidos curriculares
no logrados por los alumnos y a mejorar su enseanza en aula con base en este diagnstico.
Autoridades
La tabla V.4 presenta el reporte de la unidad que desarrolla la prueba (la Direccin General de
Evaluacin) sobre los usos de los resultados de ENLACE de que tiene conocimiento en otras
reas y unidades al interior de la SEP.
La lista se present como un documento electrnico de una pgina sin mayor detalle sobre los
usos que se mencionan y por tanto no es posible hacer un juicio sobre su confiabilidad o lo ex-
haustivo de la informacin. Sin embargo, se consider importante incluirla aqu como evidencia
por un lado de la amplia variedad de usos que se dan a la prueba en distintos mbitos, y por
otro del grado limitado de documentacin y seguimiento de los usos y aplicaciones de la prueba
al interior mismo del sistema.
Algunos de los usos que se mencionan se presentan en mayor detalle en otras secciones de
este reporte.
132
Tabla 5.4 Uso de resultados de ENLACE por unidades al interior de SEP
Uso de los resultados por la SEP para mejora de los resultados educativos
a) Programa de trabajo DGEP 2012.
b) Informe de cumplimiento del Programa de Trabajo DGEP 2012 (15 anexos).
c) R
eportes de SEB y SEMS sobre uso de resultados para el mejoramiento de la calidad educativa.
d) Reportes de medidas estratgicas prioritarias, acciones, programas o polticas orientadas a mejorar la calidad
educativa (REPARO ), correspondientes a:
1. Enlace Educacin Bsica: Alumnos y Escuelas a nivel nacional y estatal.

Escuelas con al menos 50 por ciento de alumnos en nivel de logro insuficiente
2. Enlace Media Superior: Alumnos y Escuela a nivel nacional y estatal.
Escuelas con al menos 50 por ciento de alumnos en nivel de logro insuficiente
3. Estudio Competencia Lectora a nivel nacional y estatal.
e) Informacin impresa de resultados a nivel nacional y estatal de Enlace Bsica y Media Superior;
f) Informacin entregada en la CONAEDU 2012 a los Secretarios de Educacin estatales.
Otros programas que utilizaron resultados de ENLACE Bsica

a) Programa de Fortalecimiento de la Secundaria (INEE-SEB-UPEPE/DGEP ).
b) Programa de Mejoramiento del Logro Educativo (PMLE, SEB ).
c) Modelo de Autoevaluacin de Escuelas (el texto cmo mejorar los resultados de mi escuela?
utiliza los resultados de ENLACE ).
d) Programa de establecimiento de metas a travs de los Consejos Escolares de Participacin Social.
e) Estudio de Ganancia Educativa en Media Superior.
Fuente: Direccin General de Evaluacin.
En la tabla se menciona uno de los ejemplos de uso sistemtico ms extendido, correspondiente

al Programa de Mejoramiento del Logro Educativo (PMLE) desarrollado por instancias del lla-
mado del Consejo Nacional de Autoridades Educativas (CONAEDU) a desarrollar un sistema de
asesora acadmica a la escuela que permita dar seguimiento a la aplicacin de los resultados
de la prueba ENLACE , apoyar la toma de decisiones en la materia y fortalecer el quehacer do-
cente (ACUERDO R.18.30). Los lineamientos del PMLE promueven el aprovechamiento diverso
de los resultados de ENLACE , que van del apoyo a alumnos mediante materiales de refuerzo y
prctica, hasta diplomados para maestros enfocados especficamente al anlisis y mejoramiento
de los resultados en la prueba (SEP, 2010).
A nivel estatal existe un pequeo nmero de estudios que detalla el uso diverso que se ha
dado a la prueba en distintas entidades. El reporte de Salieri y Santibez (2010), por ejemplo,
indica que la gran mayora de los estados distribuyen resultados de ENLACE a todas sus escue-
las ya sea en formato impreso o electrnico, y realizan algn tipo de actividad de seguimiento
de resultados que comnmente toma la forma de reuniones regionales, enfocadas a discutir los
resultados del ltimo ciclo escolar. La mayora tambin ofrece algn tipo de apoyo para escuelas
de bajo rendimiento a travs de supervisores de zona o sector. Estos resultados parecen corro-
borarse con los datos de la encuesta de autoridades educativas estatales que se realiz para
este estudio y que se reportaron en las dos secciones anteriores.
Por otra parte, un nmero menor de estados ha desarrollado infraestructura para ofrecer anlisis
ms detallados de los resultados de ENLACE a las escuelas ligados a mecanismos de desarrollo
profesional para docentes y directores. Tres de los seis estados entrevistados ejemplifican este
tipo de mecanismo, que involucra informar la autoevaluacin y gestin escolar. En un estado esto
funciona mediante capacitacin de supervisores regionales para que asistan a las escuelas en el
desarrollo de anlisis de resultados tanto de ENLACE como de otros indicadores educativos en

sesiones de trabajo conjuntos. Estos anlisis son luego la base para el diagnstico que hacen los
supervisores de las escuelas a su cargo. En otros dos estados las escuelas tienen la obligacin de
considerar en sus proyectos de gestin y autoevaluacin los resultados de ENLACE para diagnos-
ticar necesidades, establecer metas, y analizar los efectos de sus intervenciones.
Finalmente la literatura y reportes de organismos especializados, as como informacin obtenida

de los estados en las entrevistas ofrecen ejemplos aislados de uso de los resultados de ENLACE
para la evaluacin de polticas y programas a nivel estatal o federal, donde ENLACE se utiliza
como indicador de impacto principal o nicola variable dependiente en el anlisis. En este
sentido en 2012 la Comisin Nacional de Evaluacin (CONEVAL ) report que se realizaron 25
evaluaciones de programas de la SEP a nivel nacional. Es interesante notar que aunque un buen
nmero de estos programas menciona el aprovechamiento escolar o aprendizaje del alumno
como objetivo, solo se logr identificar un pequeo nmero que utiliza directamente los resul-
tados en ENLACE como indicador para la evaluacin de impacto.
La lista incluye las evaluaciones de los programas Escuelas de Calidad (PEC), Escuelas de Tiempo
Completo (PETC), y Asesor Tcnico Pedaggico (PATP). Esto probablemente refleja limitaciones
en la disponibilidad de ENLACE en ciertos grados o materias, pero tambin puede ser producto
de la dificultad de acceso a los resultados en forma desagregada que permitiera anlisis ade-
cuados para la evaluacin de programas.
Otras evaluaciones identificadas que no lista la sntesis de CONEVAL incluyen por ejemplo las del
programa Enciclomedia (Snchez Zuniga, 2009), el Programa Escuelas de Calidad en el estado
de Colima (De Hoyos, Garca, Patrinos, 2013), el programa de Apoyo a la Gestion Escolar (AGE)
en el medio rural (Gertler, Patrinos, Rodrguez-Oreggia, 2012) y otras evaluaciones de progra-
mas no documentadas que se realizan de forma interna en la Subsecretaria de Educacin Bsica
(Desarrollo de Gestin e Innovacin Escolar).
Investigadores e Instituciones Acadmicas
Por lo que respecta a investigaciones independientes, se identific un pequeo nmero de es-

tudios que utilizaron la base de datos de ENLACE para anlisis de tendencias, factores asociados
y otros que abordan temas de calidad y equidad educativa. Dado lo disperso de esta literatura
se identificaron estudios por medio de una revisin de artculos y reportes disponibles, informa-
cin y referencias recibida de investigadores de forma individual, y finalmente una bsqueda en
las bases de datos ERIC y Google.
Un nmero reducido de estudios disponibles emplea las bases de datos al nivel de alumno y
tcnicas sofisticadas de anlisis estadstico para estudios de impacto o factores asociados. Estos
incluyen estudios de impacto recientes que analizaron los efectos del programa de apoyo a con-
cejos escolares (Santibaez, Abreu, y ODonoghue, 2014), la duracin del ao escolar (Agero
y Beleche, 2013); y el programa de apoyo a la gestin escolar (Gertler, Patrinos, y Rodrguez,
2012). Otros estudios investigaron diferencias entre escuelas de distintos turnos (Crdenas,
2009), o el impacto de programas de gestin escolar (Bando, 2010).
Otros estudios investigan factores determinantes del logro en ENLACE. El ms conocido es pro-
bablemente el estudio de factores asociados que publica cada ao la Facultad Latinoamericana
de Ciencias Sociales (FLACSO) utilizando puntajes ENLACE de muestras nacionales representativas
134
de decenas de miles de estudiantes. Los estudios ms recientes publicados en 2010 y 2011 iden-
tifican la variabilidad que se debe a factores al nivel del aula y escuela, y el papel de factores
escolares y de aula como moderadores del grado de asociacin entre el nivel de aprendizaje de los
alumnos y su nivel socioeconmico (FLACSO, 2011).
Otros estudios similares incluyen el de De Hoyos et al. (2013) con datos de la prueba nacional
de secundaria; otro del mismo autor analizando el efecto del Programa de Atencin Especifica
(PAE) del estado de Colima; el de Luschi (2012) sobre factores asociados al docente; el de Li-
zasoain y Joaristi (2010) que analiza factores escolares en lengua en Baja California; y uno de
Gmez et al (2008) sobre determinantes geogrficos del logro en Ciudad Jurez, Chihuahua.
Otros estudios disponibles incluyen por ejemplo el del Centro Nacional de Evaluacin para la
Educacin Superior (CENEVAL ) sobre el avance en puntajes de 3 de secundaria a 1 de bachi-
llerato, que compara el crecimiento en el aprendizaje de los alumnos en este periodo entre
distintos subsistemas escolares y estados, y otro de FLACSO que utiliz la encuesta del director
de ENLACE para crear indicadores descriptivos de calidad y procesos escolares.
Se puede tener la certeza de que existen otros estudios interesantes de este tipo que no se lo-
calizaron para esta versin del reporte. Sin embargo, y a reserva de una revisin ms exhaustiva
de la literatura que se presentar en la versin final de este informe, se puede afirmar en gene-
ral que el volumen de estudios disponible evidencia un menor grado de involucramiento de la
comunidad de investigacin del que se esperara con un programa nacional de la envergadura
y relevancia de ENLACE . Esto refleja sin duda la necesidad de establecer mecanismos claros y
eficientes que permitan acceso a datos a investigadores calificados.
Estos mecanismos son necesarios porque la utilizacin de los datos por parte de la comunidad
de investigacin es un elemento importante para el entendimiento de los patrones y tendencias
en los resultados, y el desarrollo de bases de conocimiento necesarias para la mejora. Aunque
reducidos en nmero, estos estudios muestran la utilidad potencial de analizar la base de datos
de ENLACE utilizando herramientas estadsticas sofisticadas que permitan identificar factores del
aula, la escuela, o el contexto, que expliquen el rendimiento de los alumnos.
Sociedad Civil y Prensa
Por ltimo, en aos recientes se ha extendido el uso de resultados de ENLACE por parte de los
medios de comunicacin, organizaciones civiles, fundaciones, y otros actores de la sociedad en
general. Esto incluye usos de corte puramente informativo como lo es la publicacin de reportes
de resultados, y otros que conllevan juicios metodolgicos y evaluativos implcitos como lo son
los ordenamientos de estados y escuelas, los reconocimientos a escuelas, docentes, e incluso
alumnos, la comparacin (y por consiguiente evaluacin) de maestros, escuelas, e incluso sub-
sistemas educativos y una larga lista de otros. El inters que generan estos esfuerzos informa-
tivos/evaluativos es maysculo, y su nmero y visibilidad va en aumento. En general es posible
decir que estos esfuerzos ejercen una influencia significativa en las percepciones sociales sobre la
prueba, los resultados de estudiantes, maestros y escuelas, y las acciones necesarias de mejora.
Dada la extensa cobertura en prensa de todos tipos y niveles en el pas no es factible incluir
aqu una revisin detallada de este tipo de usos de la prueba. A modo de ilustracin, una bs-
queda en www.google.mx con los trminos vinculados resultados de ENLACE encontr ms

de 240,000 resultadospara el ao 2013 especficamente se encontraron 94,300 resultados,
y ENLACE bsica 2013 lleg a 9,120 resultados. Como fuente adicional de informacin se
realiz una bsqueda para los aos 2012 y 2013 en cinco de los principales diarios de cir-
culacin nacional (Reforma, El Universal, Milenio, La Jornada y El Financiero); se encontraron
150 artculos que se analizaron para generar categoras basadas en temas y mensajes princi-
pales (ver Tabla 5.5). Nuestro anlisis muestra tres grandes temas en los artculos aparecidos
en estos cinco diarios en los aos 2012 y 2013: (a) en 2013 el futuro de ENLACE despert gran
inters; encontramos por un lado artculos argumentando a favor de seguir aplicando ENLACE,
y otros criticando la prueba como herramienta de medicin o de poltica educativa y sugiriendo
cambios en su diseo; (b) otros artculos presentan resultados de la prueba; con un nmero si-
milar enfocado a resultados positivos o de mejora, y negativos o de retroceso, pero usualmente
sin mucho contexto y siguiendo el tono del mensaje que se manda con el titular; (c) un buen
nmero de notas anuncia o reporta la aplicacin de ENLACE en el pas, resistencia a estas aplica-
ciones por parte de maestros en algunas localidades, o casos de corrupcin o copia. Finalmente
un nmero menor de notas reporta usos de la prueba en varios mbitos del sistema educativo
entre los que se encuentran la evaluacin docente, y los reconocimientos a alumnos, escuelas
o maestros con altos puntajes.
Tabla 5.5 Anlisis de prensa (N=150 artculos de 2012 y 2013)
Categoras de contenido de ttulos N Agrupaciones Suma

Aplicacin 14
Aplicacin (seguridad) 8
Aplicacin 39
No aplicacin (general) 3
No aplicacin resistencia de maestros 14
Corrupcin, trampa 4
Corrupcin 5
No corrupcin 1
Usos/consecuencias negativas 7 Usos negativos 7
Usos/consecuencias positivas 2 Usos positivos 2
Evaluacin docente 6 Evaluacin Docente 6
Reconocimiento a alumnos-escuelas-maestros 3 Reconocimiento 3
Resultados (general) 5
Resultados (ranking) 4
Resultados 44
Resultados negativos 17
Resultados positivos 18
Futuro de ENLACE 20
Continuidad de ENLACE 23 Futuro de ENLACE 62
Critica a ENLACE como herramienta-poltica educativa 19
Total 168 168
Adems de los diarios, ENLACE tambin ha despertado inters en revistas de circulacin nacio-
nal entre las que se pueden mencionar Educacin Futura, Nexos, Este Pais, AZ, y Proceso, entre
otras. La cobertura de la prueba en estas revistas se ha incrementado en aos recientes, con
historias que se enfocan tanto a la discusin de resultados, como a las controversias diversas
que rodean a la prueba. El formato de estas revistas con frecuencia les permite a reflejar una
visin ms compleja y matizada de la realidad de la prueba, sus resultados, y tendencias, de lo
136
que es posible en una nota de peridico. En algunos casos estas revistas incluso han publicado
tratamientos a profundidad de corte netamente acadmico que representan un puente inte-
resante para conectar a expertos e investigadores en la materia con periodistas y analistas de
polticas pblicas por una parte, y funcionarios y polticos por la otra; como ejemplo reciente
se puede mencionar un anlisis de inflacin de puntajes en ENLACE de Contreras y Backhoff
aparecida en la revista Nexos en el mes de octubre de 2014.
Sin embargo, es importante notar que estas revistas no estn exentas de sesgos ideolgicos,
y que con frecuencia tambin caen en tratamientos simplistas y sensacionalistas. Un ejemplo
reciente es interesante en tanto refleja un grado de hiperatencin social generalizada alrededor
de los resultados de la prueba, que ha permeado incluso a la prensa internacional: en Octubre
de 2013 la revista de divulgacin cientfica y cultura popular norteamericana Wired public en
su portada una historia sobre una estudiante de secundaria del estado de Tamaulipas que ob-
tuvo el puntaje ms alto en ENLACE en el pas, bajo el encabezado La siguiente Steve Jobs?.
El grado de atencin de medios que gener esta historia en el pas, y las consecuencias directas
para la estudiante (reconocimientos, entrevistas, ofrecimiento de becas, y finalmente su fracaso
en una prueba posterior) ofrecen un ejemplo inusualmente claro y dramtico del peligro real
que representa para los individuos y por extensin para la sociedad el uso injustificado de una
prueba estandarizada de gran escala.
Finalmente, resulta ms que evidente el gran inters que despiertan los resultados de la prueba
ENLACE en organizaciones diversas de la sociedad civil que atienden temas educativos. Entre
las ms destacadas en este respecto se pueden mencionar las Asociaciones Civiles Mexicanos
Primero, Suma por la Educacin, Proeducacion, Mejora tu Escuela, Mxico Evala, entre otras,
agrupadas en el Consejo Ciudadano Autonomo por la Educacin (CCAE); as como el Institu-
to de Fomento e Investigacin Educativa (IFIE), el Instituto Mexicano para la Competitividad
(IMCO).5 Estos organismos han utilizado los resultados de la prueba ENLACE para argumentar
a favor de la rendicin de cuentas, transparencia, y mejoras en el sistema educativo, particular-
mente en lo relativo a la evaluacin de alumnos, docentes, y escuelas, y la transparencia en el
financiamiento de la educacin pblica. En 2013 y 2014 estas organizaciones dedicaron una
gran parte de sus esfuerzos de comunicacin al tema de de ENLACE; haciendo llamados en favor
de la continuidad de la prueba, o la introduccin oportuna de otra prueba estandarizada de
gran escala. Por ejemplo, Mexicanos Primero publica el informe sobre el Indice de Desempeo
Educativo Incluyente (IDEI) (2013) en el que los datos de ENLACE son un indicador preponde-
rante (aunque no nico) para la creacin de ordenamientos (rankings) de desempeo educa-
tivo, lo que se dice busca permitir comparar el esfuerzo que hace cada estado para incluir a
todas sus nias, nios y jvenes en las oportunidades de aprendizaje (Mexicanos Primero,
2013). En otros documentos disponibles en su pgina web, el mismo organismo identifica
ventajas de mantener una prueba como ENLACE, analiza el efecto del factor copia en los
resultados, y propone usos adecuados que los maestros, estados, e instituciones federales han
dado a sus resultados. Finalmente, se presentan sugerencias para un nuevo (o mejorado) siste-
ma nacional de evaluacin a gran escala.6
Tambin se consider el Observatorio Ciudadano por la Educacin, pero no se encontr de ellos informacin ms alla
5
del 2009, y su pgina web www.observatorio.org est fuera de funcionamiento (8 de octubre, 2014).
Ver Nota sobre la cancelacin de ENL ACE, s.d.; http://www.mexicanosprimero.org/especiales/enlace/lo_que_nece-
6
sitas_saber_sobre_ENLACE_2014-nota_tecnica.pdf

En el caso del IFIE , este publica en su pgina web todos los resultados de ENLACE 2012 y 2013
a nivel escuela, en formato de ranking por nivel, asignatura y estado. Adems, el documento
Propuesta para el Desarrollo de un Sistema de Rendicin de Cuentas en la Educacin Bsica
(s.d.) discute el rol que ENLACE y otros instrumentos y enfoques de evaluacin podran jugar en
el rediseo del sistema de rendicin de cuentas educativo nacional. Por su parte la pgina web
del IMCO presenta informacin diagnstica general sobre la educacin en Mxico, y detalla
la oposicin de este organismo a la cancelacin de ENLACE en 2014 que incluye por ejemplo la
campaa en twitter #SiENLACE2014, y editoriales con fuertes posicionamientos, que llegan
incluso a equiparar la cancelacin de la prueba en 2014 con corrupcin legalizada. La orga-
nizacin Mejora tu Escuela es un esfuerzo del IMCO que utiliza los resultados de ENLACE para
publicar rankings de escuelas de todo el pas.7 El CCAE , con la representacin y participacin de
los organismos que convoca, present recientemente su propuesta para el diseo de la nueva
evaluacin que sustituya a ENLACE , haciendo un llamado expreso a que esta sea anual y censal.
Por ltimo, la Unin Nacional de Padres de Familia (UNPF ) tambin seala en comunicados de
prensa, tanto en 2013 como 2014, que la prueba ENLACE Bsica es necesario para diagnosticar
el estado de la educacin mexicana, a nivel de cada escuela, grado, subsector y alumno. Esta
organizacin tambin lamenta la suspensin de ENLACE Bsica para el ao 2014 y pide reiniciar
una evaluacin censal y anual tan pronto que sea posible.
B. Acceso equitativo y capacidad de interpretacin y uso

mos de difusin y acceso para todas las partes involucradas sin discriminacin.
El Manual Tcnico 2013 menciona que el plazo previsto para completar la lectura y calificacin
de pruebas y preparacin de reportes no deber rebasar los 90 das (p. 161). Una vez terminado
este proceso se procede a la divulgacin de los resultados que son precedidos por una campaa
institucional de promocin de la evaluacin.
El manual sin embargo no fija el plazo mximo para la difusin de resultados o disponibilidad
de distintos tipos de reportes; solo se establece que los resultados de la medicin se difundirn
al inicio del siguiente ciclo escolar en el portal internet de ENLACE .
Se implementa una campaa de difusin multimodal de aparente largo alcance para llegar a
los actores interesados por medio de materiales para padres, reuniones con autoridades, docu-
mentos, folletos y carteles informativos, difusin a medios y grupos de opinin, y otros varios.
La SEP lleva a cabo una variedad de actividades de difusin y apoyo con autoridades estatales
para promover el uso sistemtico de los resultados a nivel local, tanto por padres, como maes-
tros y escuelas.
En cuanto a la difusin de resultados directamente a las familias, el portal internet de ENLACE

permite a los padres acceso a los resultados de sus hijos ingresando su nmero de CURP.
7
El organismo adems clasifica a cada escuela en cuatro bandas de desempeo (excelente, bien, de panzazo, y repro-
bada) mediante un semforo educativo cuya metodologa es en el mejor de los casos muy opaca, y en el peor de
ellos extraordinariamente rudimentaria.
138
Se establecieron adems mecanismos de consulta para padres o comunidades que no cuenten
con servicio internet mediante acceso en centros escolares, plazas INEA, centros de maestros,
y mediante un nmero telefnico 1-800.
Segn estadsticas de acceso proporcionadas por la SEP, el porcentaje de alumnos cuyos resul-
tados fueron revisados a travs de la pgina web vara entre un 9% en 2008 y un 28% en 2012
(ver tabla 5.5).
Sin embargo, estas tasas de uso asumen que cada consulta corresponde a un alumno distinto,
un supuesto arriesgado y que no se puede verificar con los datos disponibles. Los resultados
de otros estudios independientes (por ejemplo la encuesta de padres del IFIE reportada ante-
riormente) sugieren que estas estadsticas reflejan por lo menos en parte consultas repetidas
del mismo CURP y que por lo tanto las tasas de acceso son bastante menores.
Tabla 5.6 Estadsticas de consulta. ENLACE Bsica
Fuente: Direccin General de Evaluacin, SEP.
Los resultados de los alumnos se entregan tambin al docente que tuvo a los estudiantes el ciclo
escolar anterior y al que los atender en el ciclo que inicia, para que ambos los empleen para
orientar su prctica pedaggica. En las escuelas se presentan resultados por grupo y asignatura y
los resultados por escuela se publican tambin en el portal internet para su consulta. Las estads-
ticas de acceso a los resultados a nivel escuela recopilados por la SEP muestran que, en promedio,
entre 2006 y 2013 han ocurrido entre 3 y 15 consultas por escuela participante de ENLACE, con
el mximo alcanzado en 2010.
Estos datos nuevamente asumen una distribucin equitativa de consultas entre escuelas, un
supuesto poco realista porque claramente debe haber escuelas donde el nmero de consultas
es mucho mayor que el promedio, y otras donde la frecuencia es mucho menor. Tampoco se
dispone de estadsticas de consulta por estado o regin.
Las limitaciones en la informacin acerca del uso del sistema de consulta dificultan cualquier
evaluacin de su alcance, utilidad, e impacto, un problema serio dado el importante papel de
este mecanismo de consulta en el modelo lgico de impacto de ENLACE. Esto es particularmente

desafortunado dado el bajo nivel de complejidad tcnica que representara el recolectar informa-
cin suficiente para hacer un diagnstico ms preciso y til.
Por otro lado, las entrevistas con entidades estatales indican que los estados tratan de comple-
mentar el acceso a los resultados de ENLACE a travs de la pgina web de la SEP con sus propios
sistemas de difusin y consulta de resultados. Por ejemplo, en uno de los estados se desarroll
una plataforma web para escuelas y supervisores, con gran variedad de datos agregados, ade-
ms de la opcin de seguimiento en el tiempo tanto a nivel institucional como individual. Adi-
cionalmente, en las entrevistas en dos de los seis estados se habla de promover la informacin
y el involucramiento de los padres a travs de reuniones implementadas por las escuelas donde
se comunican los resultados de ENLACE .
Por lo que respecta a la sociedad en general, los mecanismos de acceso y promocin del uso
no son tan claramente establecidos. Los reportes agregados por escuela y estado estn dispo-
nibles para consulta, pero no se presentan resultados ms detallados ni anlisis sofisticados que
permitan entender con mayor precisin los patrones, tendencias y diferencias observadas en
los resultados. Al mismo tiempo no se contempla el acceso a las bases de datos de resultados
individuales para el pblico en general u organismos o investigadores interesados, si no nica-
mente a nivel escuela y estado.
Es importante mencionar que aunque el manual tcnico hace mencin repetida del rol de los
investigadores como usuarios de los resultados, estos solo tienen acceso a los mismos resul-
tados agregados (a nivel escuela y estado) que se ofrecen al pblico general, y estos ofrecen
posibilidades muy limitadas de anlisis. Esta estructura parece permitir y promover los usos ms
rudimentarios y menos tiles de los resultados, dejando la puerta abierta para otros usos que
potencialmente estn contraindicados, y cerrndola para usos sofisticados que en teora po-
dran ser tiles. Existen ejemplos de investigaciones que tuvieron acceso a bases de datos a nivel
individual a nivel nacional o estatal, algunos de los cuales se mencionan en el apartado anterior.
Sin embargo, es evidente la necesidad de desarrollar un mecanismo regulado de acceso a las
bases de datos (anonimizadas) para investigadores y organismos calificados.
4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la

adecuada interpretacin y utilizacin de los resultados.
En el manual tcnico 2013 se mencionan los talleres de difusin y uso de los resultados ENLACE ,
destinados a autoridades educativas, equipos de supervisin escolar y docentes y directores.
Segn el manual, en estos talleres se discuten formas de leer los resultados, ejercicios para
consultar la pgina web y preguntas de reflexin (p. 145).
Otras fuentes relevantes de informacin y documentacin proporcionada por la SEP incluyen

el Manual de Sugerencias de Usos Pedaggicos para Maestros. Este documento presenta un
tratamiento extenso y detallado para asistir a los maestros en la utilizacin de los resultados de
los alumnos en ENLACE con relacin a los contenidos especficos de los tems de la prueba. Este
manual en principio puede ofrecer informacin til para apoyar al docente y promover el uso
140
adecuado de los resultados.8 Sin embargo, vale la pena hacer precisiones sobre el tipo y calidad
de informacin que se presenta.
Primero, el manual omite cualquier mencin de la idea del error de medida o precisin de
los puntajes. Aunque esto no sorprende porque esta informacin tampoco se presenta en el
manual tcnico, la falta de ndices de precisin como el error estndar dificulta la apropiada
utilizacin de los resultados para subpuntajes o tems particulares, dado que se ignora el grado
de diferenciacin estadstica entre los puntajes de los alumnos, y por tanto el grado en que
diferencias observadas son significativas estadsticamente.
Segundo, en otra seccin de este reporte se presenta un anlisis ms detallado de algunos de

los contenidos del manual del docente que evidencia errores y limitaciones importantes en su
desarrollo y que en ltima instancia pueden limitar severamente su efectividad para ayudar
a mejorar la prctica. Tercero, aunque el manual ofrece sugerencias de uso que parecen a pri-
mera vista adecuadas y reflejan una visin pedaggica sofisticada, es importante sealar que
estas se refieren a usos que no son directamente aplicables en el caso de ENLACE .
Es incontrovertible que:
es recomendable que el docente de grupo identifique las preguntas del examen que
resultaron particularmente difciles para sus alumnos [ ] e intente explicarse por qu sus
alumnos no estn logrando dominar el o los contenidos programticos implicados en la
resolucin de tal cuestionamiento, a travs de preguntas tales como: Se abord el estudio
del contenido en clase? Son suficientes las lecciones que tratan el tema en el libro de tex-
to del alumno?Las condiciones de aplicacin del examen en el grupo fueron adecuadas?
Y de manera fundamental, Qu tipo de estrategias didcticas puedo disear con mis
alumnos para subsanar las eventuales deficiencias acadmicas observadas? Conviene de-
dicar especial atencin en los reactivos en los que el alumno se equivoc e identificar la
opcin que eligi como respuesta para indagar cul fue la posible causa del desacierto y
tratar de inferir la lgica del error.
Sin embargo, la literatura internacional sugiere que la efectividad de este tipo de recomendacio-
nes genricas es dudosa si no se acompaa con esfuerzos de supervisin y desarrollo docente
ms comprensivos, sostenidos en el tiempo y prximos al saln de clases y a la prctica diaria
y concreta del maestro. Hay al menos uno de los estados visitados donde parece existir la ca-
pacidad de hacer este tipo de anlisis detallados a nivel regional o incluso escolar, y en otros
dos existe la clara preocupacin por instalar una mayor capacidad para asistir a los usuarios de
ENLACE a nivel regional y escolar en el anlisis e interpretacin con un propsito formativo. Esto
se pretende realizar a travs de talleres, plataformas web, y el incentivo de usar pruebas similares
llamados pre- ENLACE o ENLACE intermedia. En el resto de los seis estados visitados parece
no llevarse a la prctica este tipo de uso central y previsto, basado en los objetivos sealados en
el Manual Tcnico de ENLACE .
8 El Manual para Docentes y Directivos que se ofrece en ENL ACE Media Superior en cambio consiste mayormente de
informacin bsica sobre la prueba disponible en el manual tcnico y aade solo una pgina de recomendaciones
de redaccin densa y confusa, y un nivel de detalle mnimo y a todas luces inadecuado.

La evidencia recolectada en entrevistas con otros cuatro estados, as como los resultados de una
encuesta de autoridades estatales, permitir extender y profundizar este anlisis. Una gran dificultad
para llevar a la prctica las sugerencias de uso diagnstico es que la prueba se administra al final del
ciclo escolar y los resultados se reciben al inicio del ciclo siguiente.
5. Se informa a los usuarios sobre los propsitos y caractersticas de la prueba, lo que

puede o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e infor-
macin suficiente sobre la interpretacin correcta de los resultados.
Este criterio se refiere principalmente a los reportes de resultados para usuarios que se ofrecen en
la pgina web de la SEP. En su introduccin, el manual tcnico 2013 (pp. 8-9) identifica explcita-
mente tres grupos de usuarios de resultados de ENLACE: (a) alumnos y sus padres, (b) docentes y
directivos de escuelas, (c) autoridades educativas a nivel estatal y nacional. Este anlisis por tanto
se refiere al grado en que los reportes de resultados facilitan la adecuada interpretacin de los
resultados, sin necesidad de recurrir a informacin adicional disponible en el manual tcnico u
otras fuentes menos accesibles.
El portal de la SEP (http://www.enlace.sep.gob.mx/) ofrece diferentes informes de resultados

que no se organizan explcitamente por tipo de usuario sino por nivel; se pueden descargar
informes a nivel del alumno, aula, escuela, entidad, y pas. Los informes con resultados a nivel
de alumno se acceden utilizando el folio del estudiante en la prueba o su CURP. Los informes
con resultados a nivel grupo/curso y escuela estn disponibles utilizando la Clave del Centro de
Trabajo (CCT ), seleccionando el respectivo curso, nivel, o escuela entera. Los resultados nacio-
nales y de entidad se entregan en presentaciones descargables. Para obtener los resultados de
todas las escuelas del pas, o de una entidad federal especfica, solo se debe elegir la entidad y
se descarga un archivo Excel con los resultados. Los datos a nivel escuela de todas las escuelas
del pas, o de cada estado por separado, estn tambin disponibles para el pblico.
De forma general se puede constatar que ninguno de los informes de resultados accesibles a
travs de la pgina web describe las caractersticas de la prueba, ni aclara lo que esta mide y
no puede medir. Asimismo, los informes si aclaran las decisiones que se pueden basar en los
resultados y los usos propuestos de estos (en forma de recomendaciones), pero no incluyen in-
formacin y sugerencias explcitas para minimizar la incidencia de interpretaciones equivocadas
o usos inapropiados de los resultados.
Informes de resultados a nivel alumna/alumno
Estos se dirigen explcitamente a padres y estudiantes y tienen un formato y contenidos similares

a los informes para docentes a nivel grupo/curso. Indican que el propsito principal de ENLACE
para padres es de: (a) conocer los temas que requieren reforzamiento, para mejorar el rendi-
miento escolar del estudiante.
142
Los padres pueden acceder a la informacin a travs de la pgina web de la SEP, opcin
Resultados por alumno ENLACE Bsica 2013, ingresando el nmero de folio o CURP de su
hija/hijo. Se ofrecen los resultados de cada alumna/alumno, adems de resultados del curso y
de la escuela en comparacin con la entidad y el pas.

El informe tambin incluye las respuestas correctas e incorrectas del estudiante para cada pre-
gunta de la prueba. Adems, el informe incluye un apartado con recomendaciones generales
para el mejoramiento acadmico:
Adicionalmente, la pgina web de la SEP incluye informacin descargable con recomendaciones

de uso de los resultados de ENLACE por parte de los padres y estudiantes, en el documento con
ttulo ENLACE BSICA 2012: Actividades, prcticas familiares y actitudes y valores para mejorar
el desempeo acadmico de los alumnos. Ese documento ofrece sugerencias por nivel de logro
alcanzado del estudiante y por asignatura, adems de recomendaciones generales, similares a
los incluidos en el informe de resultados.
Informes de resultados para docentes y directivos a nivel grupo/curso/escuela
Estos informes aclaran que los propsitos principales de la prueba ENLACE son: (a) identificar
reas que necesitan mayor apoyo, (b) detectar posibles reas de mejora en las estrategias de
enseanza y necesidades de capacitacin, y (c) como diagnstico del grupo de estudiantes que
recibe el docente.
144
La informacin complementaria destinada a los docentes y directivos de la pgina web de la
SEP ofrece detalles sobre el desempeo del respectivo grupo de estudiantes, a nivel de cada
pregunta de la prueba, adems de dar acceso a las pruebas completas. Esta informacin est
disponible a travs de ENLACE en Educacin Bsica, Resultados 2013 por Escuela, ingre-
sando el nmero CCT de la escuela.

Adicionalmente, la pgina web de la SEP pone a disposicin un conjunto de documentos con

recomendaciones de uso de los resultados de ENLACE, incluyendo ENLACE BSICA 2013:Re-
comendaciones para Docentes, Apoyos Tcnico Pedaggicos y Directivos para el uso de los
resultados en la mejora de la calidad educativa y Apoyo para el Uso Pedaggico de Resultados
ENLACE 2012. A diferencia de los informes de resultados, este ltimo documento menciona
limitaciones de ENLACE e informacin sobre lo que no mide, p.ej. solo algunas asignaturas,
solo preguntas con respuestas cerradas de opcin mltiple, etc. Sin embargo, solo este se-
gundo documento menciona posibles interpretaciones equivocadas y usos indebidos de los
resultados de ENLACE y lo hace de manera breve y un tanto superficial.
Informes de resultados a nivel escuela
Estos informes incluyen solo resultados por nivel /grado en formato tabla y grfico; no incluyen
informacin adicional en formato texto sobre propsitos y recomendaciones de uso, como es el
caso de los informes a nivel alumno o grupo/curso.
146
Adems de los informes sobre el desempeo de cada escuela, a travs de la pgina web de la SEP
se puede acceder pblicamente a una base de datos que contiene los resultados de todas las es-
cuelas a nivel nacional y separado por estado, en formato Excel. Antes de poder acceder a estas
bases, se encuentran aclaraciones para una apropiada interpretacin de los datos (se mencionan
limitaciones relacionadas al nmero mnimo de estudiantes por escuela, representatividad de los
datos a nivel escuela, etc.).
En la pgina web se sugiere el uso de la informacin proporcionada por ENLACE para la auto-
evaluacin de los centros educativos, con mayor informacin a travs de la pgina web de la
Direccin de Evaluacin de Programas y Estudios Especiales de la SEP.
Para las autoridades educativas la pgina web contiene, e formato Excel, adems de los datos
a nivel escuela, los correspondientes a todo el pas, o bien a todas las escuelas de una enti-
dad especfica, una presentacin de resultados descargable en formato PDF. Esta presentacin
muestra resultados de los niveles de logro por asignatura, nivel, modalidad educativa, y entrega
comparaciones con otras entidades. Es notorio que ninguno de los documentos disponibles
presenta un argumento razonado para reportar resultados usando estas categoras como base.
En concreto, la presentacin de resultados por grupo o por subsistema sin un anlisis adicional
que permita matizar y entender los resultados en contexto y detalle apropiados, y que presen-
ten oportunidades o avenidas para la mejora, puede contribuir simplemente a agudizar percep-
ciones y reforzar sesgos pre-existentes entre padres o el pblico.

Por ltimo, la pgina web de ENLACE ofrece una hoja de datos Excel con anlisis adicionales
a nivel estado (Estadsticas 2013), y la posibilidad de cruzar los datos Excel usando algunos
datos adicionales como criterios de ordenamiento:
El simple hecho que se ofrece en el sistema de reporte de resultados de la SEP un ordenamiento

de las escuelas por entidad segn criterios como el puntaje bruto, significa que incluso el de-
sarrollador mismo invita usos no inicialmente previstos como es el ranking de escuelas solo en
base a los resultados brutos en la prueba.
Sociedad como usuario de los resultados ENLACE
Aunque se menciona a la sociedad en general como beneficiario de la prueba en varios puntos del
manual y otros documentos, no se trata a esta como un tipo distinto de usuario. En consecuencia
los reportes anuales generales de resultados se presentan con un mnimo de informacin de con-
texto o guas para facilitar la interpretacin de resultados destinada a los medios de comunicacin
o al pblico en general.
De modo general, la pgina web de la SEP incluye descripciones de las caractersticas de la prue-
ba ENLACE , su estructura, y datos sobre su aplicacin, que son de fcil acceso para los usuarios:
148
En general, en todos los reportes de resultados se ofrecen informacin de apoyo muy breve
para ayudar a la correcta interpretacin de los puntajes.
Cabe mencionar que los resultados se comunican utilizando tablas y grficos bastante comple-
jos, sin una interpretacin en formato de texto. Una combinacin de formatos de comunicacin
facilitara una adecuada interpretacin de los puntajes, especialmente en el caso en que los
destinatarios de la informacin son docentes, padres y estudiantes.

Por otro lado, ni los reportes ni la pgina web ofrecen ejemplos o apoyo adicional para la in-
terpretacin correcta de los resultados. Por ejemplo, no se dan ejemplos para ilustrar una inter-
pretacin concreta y adecuada del nivel de logro alcanzado a nivel alumno/a en la asignatura
de matemtica de 3 grado bsico, ni para la comparacin que se sugiere entre resultado de un
alumno especfico y grupo, escuela, entidad y pas. Se evidencia la falta de videos, animaciones,
y otros elementos grficos atractivos y eficientes que podran ser efectivos para ofrecer ejemplos
de buenas prcticas en el uso de resultados. En el caso de los reportes que acceda el docente
estos tambin podran incluir sntesis cualitativas y estudios de caso que puedan justificar y re-
presentar adecuadamente los usos de la prueba.
tcnicos en lenguaje claro comprensible para una audiencia general.
Tal como en el caso de los criterios anteriores, este criterio se refiere a la manera en que los
resultados de ENLACE se comunican a una audiencia amplia de usuarios, incluyendo a padres y
docentes de aula, por medio de los reportes y materiales correspondientes.
150
En los informes de resultados por lo general se utiliza un lenguaje claro y preciso, sin jerga
tcnica innecesaria. Sin embargo, se utilizan algunos trminos tcnicos como niveles de logro
y puntaje promedio sin mayor aclaracin.
Adems, los resultados se comunican utilizando tablas y grficos bastante complejos, los cuales
contienen mucha informacin en cada caso. No se ofrece una interpretacin de los datos en for-
mato de texto. Una combinacin de distintos formatos de comunicacin facilitara una adecuada
interpretacin de los resultados.
En la pgina web de la SEP existe una seccin de preguntas frecuentes, pero en esta no se aclara
la terminologa tcnica de los informes antes mencionada. No se encuentra disponible un glosa-
rio de trminos tcnicos. En general, los textos disponibles utilizan un lenguaje de nivel tcnico
bajo y parecen adecuados para el lector comn, docentes y directivosla excepcin son los
informes tcnicos, que no se dirigen a una audiencia general y requieren presentar informacin
tcnica compleja.
Pese a lo anterior persiste la duda sobre si la mayora de los padres puede manejar adecuada-
mente la pgina web para acceder a toda la informacin disponible a nivel estudiante y escuela,
e interpretar la informacin correctamente para sacar conclusiones concretas sobre el caso de
su hija/hijo.

Existen dos estudios empricos (uno del IFIE y otro del INEE) que investigaron el uso y compren-
sin de los resultados de ENLACE por parte de padres y docentes, respectivamente. El estudio
del IFIE sugiere que muchos padres quisieran ver una mayor difusin de resultados (47%) y mas
informacin detallada con respecto a los resultados de sus hijos (35%) incluyendo el acceso a
resultados por va telefnica. Sin embargo, la encuesta no ofrece informacin para valorar si los
padres efectivamente comprenden la informacin contenida en el reporte.
La informacin del estudio del INEE puede ofrecer una vista complementaria. Los autores re-
portan que solo 28% de los docentes reporta entender cmo se interpretan los resultados de la
prueba en detalle, y 21% reporta desconocerlo por completo. Asimismo, cerca de 70% de los
docentes reporta no conocer o conocer solo de forma superficial los objetivos de ENLACE. Esto
contrasta con 50% que reporta que ENLACE es necesaria para mejorar la educacin y que los do-
centes toman en cuenta los resultados. Es interesante tambin notar que un tercio de los docentes
reporta que ENLACE determina lo que tienen que ensear en su saln de clases.
7. Se ofrece un marco normativo para evaluar el desempeo de los examinados. Se des-

cribe el perfil y caractersticas de la poblacin de referencia.
Dado que ENLACE es una prueba censal, en este caso la poblacin de referencia para los resul-
tados a nivel nacional constituye el universo de colegios y alumnos de un determinado grado
y asignatura. El manual tcnico 2013 (p. 164) y el sito web entrega informacin respecto de la
cobertura de la aplicacin de ENLACE a travs del tiempo.
Sin embargo, es relevante describir la poblacin de referencia a la hora de comparar el desem-

peo de escuelas de un estado especfico, al entregar informacin de comparacin a escuelas
especficas (p.ej., al sugerir la comparacin de una escuela con otras escuelas de un mismo nivel
de marginacin), y tambin al entregar resultados para facilitar la comparacin a nivel individual
(p.ej., comparacin con el grupo de estudiantes de la escuela). Los informes de resultados en-
tregan informacin breve respecto de los marcos de referencia para interpretar los resultados
ENLACE . En el informe para docentes y directivos, al igual que en el informe para padres, aparece
lo siguiente:
152
Sin embargo no se entregan descripciones de los grupos de referencia para las comparaciones
que se invitan a hacer en cada nivel de agregacin (estado, escuela, individuo). En el Manual
Tcnico 2013, 2.7, se entrega informacin relevante sobre escalas de referencia e interpretacin
adecuada de puntajes y niveles de logro. Desafortunadamente, esta informacin (segn nues-
tro mejor conocimiento) no se comunica en suficiente detalle ni en la pgina web ni los informes
de resultados.
8. Se ofrece informacin para minimizar la posibilidad de interpretaciones incorrectas.

Se notan limitaciones y errores comunes de interpretacin al comparar diferentes
pruebas, aos, dominios, grupos, o niveles de agregacin. Se usan categoras preci-
sas que no den lugar a estigma.
En los informes de resultados se comunican los resultados de cada alumno, curso y escuela en
comparacin con los resultados de alumnos, cursos y escuelas del mismo grado de marginacin
y tipo de escuela, por cada asignatura y grado. No se entrega informacin para otros subgrupos
que podran resultar relevantes, por ejemplo, por sexo, pertenencia a grupos indgenas, o nivel
socioeconmico dentro de los cursos y escuelas. Como se mencion anteriormente tampoco
se justifica en ningn documento la seleccin de estas dos variables (grado de marginacin y
tipo de escuela) para formar los subgrupos dentro de los que se reporta a las escuelas. De he-
cho, es notorio que la palabra marginacin no aparece mencionada en la totalidad del ltimo
manual tcnico de ENLACE 2013.
Respecto de los niveles de logro (insuficiente, elemental, bueno, excelente) y la escala de punta-
jes entre 200 y 800, el Manual Tcnico 2013 menciona que el uso de la escala y los cuatro niveles
no se asocia con la escala tradicional de notas del sistema escolar mexicano que va del 0 al 10,
lo cual favorece la expresin de niveles de logro sin la connotacin peyorativa que tienen [estos]
valores (p. 19). Sin embargo, debe notarse que los trminos categricos insuficiente y elemental
tambin podran acarrear connotaciones negativas en la prctica. El Manual 2013 adems ofrece
informacin importante para una correcta interpretacin de los puntajes y niveles de logro que
no se comunican en ninguna otro documento: El valor obtenido en escala logartmica se trans-
forma a una forma estandarizada, con media en 500 y desviacin estndar de 100 para cada
grado-asignatura. La escala se establece para cada grado-asignatura; por lo tanto, resulta inco-
rrecto hacer comparaciones de puntajes entre niveles, asignaturas y grados diferentes (p. 72).
En el Manual Tcnico 2013 (el cual claramente est dirigido a una audiencia que tiene un cierto
grado de formacin en temas de evaluacin educativa, poco comn entre actores escolares y
padres de familia) se menciona en la p. 8 que es lo que ENLACE no mide: actitudes, intereses,
valores, procesos meta-cognitivos de los estudiantes; no se trata de evaluaciones de aula (por
lo que ENLACE no debe impactar en las calificaciones de los estudiantes). Es interesante notar
que tambin se menciona que la prueba es de tipo formativo y por tanto tampoco deber utili-
zarse para propsitos de evaluar directamente al alumno o el desempeo docente del maestro.
Esto contrasta con el uso generalizado y explcito de los puntajes de los alumnos como parte
de la evaluacin de maestros que se incluye dentro del programa federal Carrera magisterial.
Esto representa una discordancia entre las caractersticas de la prueba y el uso que se hace de
ella, particularmente nocivo e inexplicable pues es el propio desarrollador el que utiliza los re-
sultados de una forma para los que no dise la prueba (la SEP). Otro ejemplo de esto es que

se ofrece en el sistema de reporte de resultados de la SEP un ordenamiento de las escuelas por
entidad segn criterios como el puntaje bruto. Esto significa que incluso el desarrollador mismo
invita usos no inicialmente previstos como es el ranking de escuelas solo en base a los resultados
brutos en la prueba.
La pgina web ofrece algunos documentos dirigidos a docentes y directivos que aclaran al-
gunas de las interpretaciones incorrectas y errores comunes, o bien comentan algunas limi-
taciones de los datos al comparar resultados de distintas pruebas. Por ejemplo, en el breve
documento con ttulo Informacin general ENLACE Bsica 2013 se alerta a la imposibilidad de
comparar los resultados en Formacin Cvica y tica entre 2009 y 2013. En el documento ms
extenso con ttulo Apoyos para el correcto uso pedaggico de resultados ENLACE se mencio-
nan limitaciones respecto de los contenidos evaluados, adems de limitaciones relativos a las
condiciones en que se aplica la prueba:
Adems, al seleccionar Estadsticas aparece una advertencia sobre la imposibilidad de com-

parar los resultados de diferentes materias y grados, ya que no estn expresados exactamente
en la misma escala, por lo que tcnicamente, los datos no se deben mezclar.
154
En esta misma lnea existe una advertencia antes de poder acceder a los archivos Excel a nivel
escuela para cada estado como se mencion. Este texto advierte sobre temas de representativi-
dad de los datos, % de exmenes en revisin (indicador de posible trampa), interpretacin de la
diferencia entre los puntajes 2012 y 2013, entre otros. Sin embargo, no hay aclaraciones sobre
interpretaciones errneas y limitaciones en los documentos dirigidos a padres y estudiantes.
9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque
no se pueden prever todos los usos o interpretaciones inapropiadas, se busca identi-
ficar y acotar los ms factibles o probables).
Este criterio se refiere principalmente a la informacin que se ofrece en el Manual Tcnico y

documentos accesibles a travs de la pgina web de la SEP. El Manual Tcnico aclara los usos
indebidos de los resultados en el Cuadro V.4 (p. 9).

Cuadro 5.4 Usos indebidos de ENLACE sealados en el Manual Tcnico 2013.
Estos usos pueden llegar a confundirse con relativas aplicaciones de la prueba, como por ejemplo la factibilidad
de contar con una sola prueba que englobe las funciones desempeadas por otras que se ofrecen durante el
ao escolar; brindar informacin indicativa para evaluar programas educativos; la posibilidad de clasificar a las
escuelas de todo el pas (ranking); brindar una evidencia dura de los esfuerzos educativos, metodologas y
enfoques de los docentes del pas; premiar a los estudiantes que obtengan mejores resultados en la prueba,
asumiendo que son los mejores estudiantes de una entidad federativa; asignar bonos y becas como apoyo
a la Carrera magisterial; distribuir recursos a las escuelas con mayores mritos, entre otros.
Como ejemplo de las advertencias pertinentes para promover el uso adecuado de los resultados de ENLACE ,
se refiere el siguiente texto, tomado en 2008 por el IEIA del Documento de apoyo para los Talleres Generales
de Actualizacin, disponible en internet en la direccin http://enlace.sep.gob.mx:
Esta evaluacin es un elemento muy importante para diagnosticar la calidad del aprendizaje de los estudiantes,
pero de ninguna manera es el nico. De ah que la evaluacin final del grado para cada alumno deba apegarse
al criterio del docente. ENLACE ayuda a conocer y reconocer buenas escuelas, pero de ninguna manera
podemos decir que las mejores escuelas son nicamente las que obtienen el puntaje ms alto. Esa distincin
debe atribuirse ms bien a las escuelas cuyos alumnos muestran los avances acadmicos ms significativos
respecto de la situacin en la que se encontraban cuando ingresaron a la misma. ENLACE no se utiliza como
examen de ingreso a secundaria ni a bachillerato porque no est diseado para tales efectos.
El manual tcnico 2013 tambin hace alusin al uso pedaggico adecuado de los reacti-
vos liberados:
Esta prctica hace que el uso de los reactivos y de las pruebas no sea controlado por la SEP,
por lo que se presta a diversos usos de los reactivos de la prueba, tanto apropiados como
indebidos. Por ello se han elaborado materiales de apoyo que recomiendan los usos apro-
piados (con fines pedaggicos) y que tratan de evitar usos para los cuales no est elaborada
la prueba (p. 144).
Un uso no previsto relacionado con la difusin de los reactivos consistira en la preparacin

de los estudiantes con el solo fin de obtener un buen rendimiento en la prueba ENLACE (p.
20). Una encuesta a maestros ejecutada recientemente sugiere que este tipo de uso en aula
se est dando de forma generalizada (INEE , 2011). Otros usos no previstos o indeseables que se
mencionan en el manual incluye de forma prominente el uso de resultados para hacer ordena-
mientos (rankings) de escuelas e interpretaciones que insinan que la mejor escuela es la que
obtiene el mayor puntaje ENLACE (p. 9). O el asignar premios a estudiantes, docentes y escuelas
solo con base a resultados en de ENLACE .
Por ejemplo, el Documento de apoyo para los Talleres Generales de Actualizacin sugiere que
aunque:
esta evaluacin es un elemento muy importante para diagnosticar la calidad del aprendi-
zaje de los estudiantes [] de ninguna manera podemos decir que las mejores escuelas son
nicamente las que obtienen el puntaje ms alto. Esa distincin debe atribuirse ms bien a las
escuelas cuyos alumnos muestran los avances acadmicos ms significativos respecto de la
situacin en la que se encontraban cuando ingresaron a la misma. ENLACE no se utiliza como
examen de ingreso a secundaria ni a bachillerato porque no est diseado para tales efectos.
156
Todo lo anterior presenta una paradoja interesante para el sistema. Poner a disposicin pblica no
solo informes de resultados, sino tambin los resultados brutos a nivel escuela asegura mxima
transparencia, pero tambin abre las puertas a interpretaciones incorrectas y usos inapropiados.
Por ejemplo, con esta informacin fcilmente se pueden generar rankings de escuelas por en-
tidad. Antes de dar acceso a los datos la pgina web advierte las limitaciones y peligros de este
tipo de uso de la prueba (ver abajo). Sin embargo, en la prctica este es precisamente uno de los
usos de ENLACE que se han vuelto ms extendidos, con la publicacin rutinaria de resultados,
rankings, y listas de escuelas de alto o bajo rendimiento.
Es interesante notar que aunque este tipo de uso responde frecuentemente a la influencia o
trabajo de medios de comunicacin nacionales o estatales, a veces puede reflejar la misma ini-
ciativa de los gobiernos estatales. Por lo tanto es claro que la simple advertencia es insuficiente
para prevenir incluso los usos ms perniciosos y evitables de la prueba.
10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/

positivas, o inadecuadas/negativas).
Como se mencion anteriormente a nivel nacional se dan una gran variedad de usos a los re-
sultados de la prueba ENLACE . Sin embargo hasta donde tenemos conocimiento SEP/DGE no
realiza un monitoreo sistemtico de los usos o consecuencias previstas o imprevistas que per-
mitan evaluar el grado en que algunas de estas podran ser inadecuadas o incluso perniciosas.
La DGE, por ejemplo, no hace seguimiento ni mantiene documentacin alguna de usos previstos
y menos an de los imprevistos. Esto incluye incluso usos no recomendados que son ampliamen-
te conocidos, como lo son el de usar ENLACE para evaluar maestros en Carrera magisterial, o la
publicacin de rankings en muchos estados. Una preponderancia de evidencia anecdtica en los
medios y otra que se deriva de las entrevistas a nivel estatal apunta a otros usos imprevistos como
el que las escuelas mismas utilicen sus buenos resultados en ENLACE para legitimarse frente a la
comunidad escolar, y promocionarse con el fin de atraer mayor matrcula y recursos.
En cinco de los seis estados entrevistados para este trabajo encontramos un uso imprevisto que
consiste en otorgar premios (p.ej., un equipo de cmputo e impresora, y hasta premios mone-
tarios significativos) o reconocimientos pblicos a los mejores alumnos, docentes, o escuelas
ya sea a nivel estatal o municipal.
Adems, el personal en cuatro estados report prcticas de preparacin de la prueba ENLACE ,

incluyendo pruebas bimestrales con un formato similar a ENLACE , la elaboracin por parte de
la entidad estatal de pruebas especficas sobre contenidos con bajos resultados en ENLACE , y
un Concurso de Espaol y Matemticas en todas las escuelas una semana antes de la fecha
de aplicacin de ENLACE , para motivar a los alumnos y docentes a esforzarse para obtener
buenos resultados.
En uno de los estados un entrevistado seal que el propsito de la premiacin de escuelas sera
incentivar la rivalidad entre escuelas locales, o sea la competencia, nosotros hemos detectado
que cuando en las escuelas se incentiva el orgullo y la competitividad entre ellas, eso es lo que
158
rompe el monopolio de un sistema de servicio monoplico que si no generas esa competitividad
no mejora. De los seis estados entrevistados cinco reportan al menos un uso no previsto segn
el Informe Tcnico ENLACE 2013.
Otro resultado imprevisto (aunque no improbable) y en potencia pernicioso es la inflacin de

puntajes a travs del tiempo. La evidencia de corrupcin o adulteramiento generalizado de re-
sultados se mantiene con pocas excepciones en el terreno de lo anecdtico; por ejemplo la DGE
hace un seguimiento de estadsticas de copia, que sugiere que esta no se ha modificado en la
ltima dcada. Sin embargo es importante continuar dando seguimiento a estas tendencias
dado el creciente papel de los puntajes de ENLACE como parte de evaluaciones de alto impacto.
Por otra parte, existen datos y estudios que muestran en cambio que la inflacin tambin se
da por el efecto natural aunque no menos pernicioso de incentivos y sanciones dentro de un
sistema de pruebas estandarizado y de alto impacto.
La Tabla 5.7 ejemplifica el posible patrn inflacionario en algunos estados. La tabla muestra
la evolucin de resultados de ENLACE y E XCALE en Espaol y Matemticas entre 2005-06 y
2012-13 para cuatro estados: Aguascalientes y Quertaro que tradicionalmente estn entre los
estados con bajos ndice de pobreza y rendimiento en pruebas nacionales; Chiapas y Guerrero
por otra parte representan el extremo contrario, con altos ndices de pobreza y menores tasas
de aprendizaje.
Los resultados de la prueba E XCALE reflejan resultados relativamente estables en los cuatro esta-
dos (con una ligera mejora en los dos primeros estados y un ligero retroceso para los segundos).
Un patrn similar se observa en los resultados de PISA entre 2003 y 2012 (no presentados en
la tabla). Como comparacin, la tabla presenta tambin los resultados de ENLACE que reflejan
una estabilidad relativa en Aguascalientes y Quertaro; sin embargo, Chiapas y Guerrero experi-
mentan una mejora muy acentuada, se dira incluso que dramtica, de 70 puntos en promedio.
La relativa estabilidad de los resultados en pruebas muestrales de bajo impacto (E XCALE y PISA )
y el patrn de divergencia con estados de comparacin, sugiere una tendencia inflacionaria en
Chiapas y Guerrero que puede reflejar una combinacin de factores como enseanza enfocada
a la prueba, copia, o en algunos casos ayuda al alumno, entre otrasmuchas de ellas reflejadas
en una multitud de evidencias duras o anecdticas. El patrn evidencia el potencial corruptor de
los indicadores sociales con un uso de alto impacto notado por Campbell (1975).

Tabla 5.7 Inflacin de Resultados en ENLACE . Comparacin con EXCALE
Espaol
ENLACE E XCALE
700 700
650 650
600 600
550 550
500 500
450 450
400 400
2006 2013 2006 2012
Matemticas
ENLACE E XCALE
700 700
650 650
600 600
550 550
500 500
450 450
400 400
2006 2013 2006 2012
agu qro gro chi
Fuente: Instituto Nacional para la Evaluacin de la Educacin (INEE ).
11. Cuando existe evidencia confiable de usos inapropiados estos se investigan en grado
y detalle adecuado. Si estos usos persisten se informa a los usuarios y se intenta tomar
Evidentemente no se puede esperar que el equipo tcnico encargado del diseo de la prueba
corrija usos inapropiados que estn fuera de su alcance o conocimiento, o que involucran ac-
tores polticamente poderosos, y en ausencia de recursos materiales y humanos, herramientas
legales, y voluntad poltica para tomar medidas correctivas. Sin embargo, el actor responsable
se define en este estudio de forma ms amplia; la SEP tiene un control y poder mucho mayor
para establecer usos adecuados, y monitorear, limitar y corregir los que no lo sean.
Por tanto, en principio si se puede hacer responsable a la secretaria de usos inadecuados que
se puedan dar a la prueba ENLACE. Esto es especialmente aplicable en el caso de usos que los
160
mismos manuales y materiales de la prueba definen explcitamente como inapropiados como lo
es la evaluacin docente o el ordenamiento de escuelas.
En el caso de la Carrera Magisterial la secretara no solo toler si no que expresamente origin

y concert en su interior este uso de ENLACE . En el caso de los rankings de escuelas lo incluy
en sus herramientas de reporte de resultados a travs de la pgina web.
En el diseo de la siguiente generacin de pruebas nacionales el INEE estar en una posicin

a medio camino entre la DGE y la SEP en este contexto; sin el poder y alcance terico de la
secretara para tomar acciones o impedir procesos, pero tampoco en la posicin de debilidad
institucional y poltica de la DGE. Por tanto, le ser posible (y es deseable) disear un sistema
que permita monitorear y corregir en la medida posible usos e interpretaciones inadecuadas
o perniciosas.
CONCLUSIONES
Nuestro anlisis de la documentacin y evidencia disponible acerca de usos y consecuencias de

la prueba ENLACE produjo una serie de hallazgos que consistentemente evidencian la falta
de alineamiento entre los usos propuestos de la prueba ENLACE, sus caractersticas tcnicas,
y los cuerpos de evidencia terica y emprica que se han recogido y que se ofrecen para sus-
tentar los usos propuestos.
El diseo de la prueba no parece derivarse directamente de una consideracin detallada de los

usos y objetivos que se persiguen. El manual tcnico no describe por ejemplo la idoneidad de
una prueba con diseo censal de cobertura fija en relacin al uso diagnstico que se pretende.
Tampoco presenta indicadores de precisin de los puntajes necesarios para la interpretacin
diagnstica de resultados. Esto refleja por un lado limitaciones de capacidad tcnica y recursos,
pero tambin una evidente falta de realismo y claridad inicial sobre los objetivos de la prueba,
que se presentan de forma parcial y fortuita, y no pueden proveer el eje central alrededor del cual
se organice el diseo de la prueba y los contenidos de los manuales tcnicos y otros materiales.
Nuestro estudio evidencia tambin la efervescencia de intereses y actividades alrededor de la

prueba que se refleja en la gran variedad de usos, incentivos, materiales, programas, interven-
ciones, organizados alrededor de los resultados de la prueba. En palabras de un experto entre-
vistado para este estudio, el uso de la prueba es generalizado pero no sistematizado. Aunque
este alto nivel de inters y actividad tiene aspectos alentadores y evidencia en cualquier caso la
energa que muchos actores dirigen al mejoramiento educativo, este mismo tambin inevitable-
mente resulta en una variedad de usos cuestionables, injustificados o francamente perniciosos.
En este sentido es relevante considerar una perspectiva histrica de la prueba ENLACE que a
travs de los aos ha experimentado una marcada evolucin en trminos de alcance, uso, y
visibilidad social.
Sin embargo, es interesante notar que los usos propuestos de la prueba no se han modificado
significativamente desde su inicio. Los usos que se proponen en el manual tcnico de ENLACE
2007 (el primero disponible en formato de reporte en la pgina de la SEP) son en principio idn-
ticos a los que se encuentran en el de 2013 (ver tabla 2).

De esto se deduce que, desde el punto de vista de los diseadores, los usos propuestos de
ENLACE no se modificaron a travs del tiempo, manteniendo el enfoque en aplicaciones diag-
nsticas y formativas de bajo impacto o consecuencias para los que en principio se dise la
pruebade hecho el manual 2007 mencionaba la estandarizacin de criterios para acredita-
cin, un tipo de uso de corte ms sumativo que dej de plantearse en aos posteriores.
Esto contrasta, sin embargo, con el creciente nmero de usos de mediano y alto impacto que
en la prctica se dan a la prueba ENLACE en distintos contextos.
Un informe reciente de la OCDE (Santiago et al., 2012) sobre sistemas nacionales de evaluacin
educativa reportaba que en Mxico los usos ms comunes de ENLACE eran del tipo considerado
como de alto impacto (p. 73), e incluan por ejemplo la publicacin y diseminacin activa de re-
sultados y rankings de escuelas, incentivos monetarios para maestros con base en los resultados
de sus estudiantes en la prueba, o el reconocimiento pblico de alumnos, maestros, o escuelas
con los mejores resultados en ENLACE .
Si se contrasta con la estabilidad de los usos propuestos que reflejan los manuales tcnicos
ms recientes, parece evidenciarse una tendencia de corrupcin o inflacin de funcionalidad
donde los usos de un instrumento se extienden sin que ello refleje un cambio de misin y
diseo de la prueba.
Este tipo de inercia inflacionaria de uso tiende a corromper el indicador (lo que se conoce como
Ley de Campbell), limitar el uso diagnstico que inicialmente se buscaba, y eventualmente
puede traer consecuencias no deseables si se combinan con incentivos, sanciones, y otros usos
de alto impacto.
En el caso de ENLACE , segn el informe de la OCDE mencionado anteriormente, la evidencia

acumulada en los ltimos aos sugiere que algunos efectos importantes del uso de la prueba
incluyen el uso de una parte importante del tiempo aula para instruccin especficamente en-
focada en la prueba, adems de incentivar excesivamente a alumnos y maestros para obtener
puntajes altos, lo que ha generado prcticas y dinmicas que ponen en peligro la integridad de
los resultados (pp. 80-82).
El equipo de la OCDE concluye que los efectos no intencionales de ENLACE parecen ser impor-
tantes. A pesar de la gran cantidad de datos recolectados, hasta qu punto se utilizan para un
propsito formativo no est claro. (p. 82).
Para finalizar, al evaluar las consecuencias del uso de la prueba ENLACE no se puede olvidar la
dimensin tica crucial involucrada en las pruebas de alto impacto: una mxima de la medicin
en educacin es que solo se pueden tomar decisiones o acciones que afectan a personas o
grupos cuando existe evidencia slida que lo justifique.
La necesidad de gran claridad en la definicin de lo que mide o no una prueba, o los usos que
se consideran justificados o injustificados, no se deriva de un concepto de rigor tcnico si no de
uno de probidad tica.
Nuestro anlisis no pretendi definir si las interpretaciones y usos propuestos de ENLACE (o de

las pruebas estandarizadas en general) son posibles, apropiados, o deseables. La revisin que
se hizo de la evidencia disponible busca en cambio evaluar el grado en que los usos previstos
162
especficos de esta prueba particular se soportan y justifican con base en evidencias slidas
como requieren las mejores prcticas en medicin educativa a nivel internacional.
Aunque, como se ha mencionado en otros captulos, la falta de evidencia no necesariamente

implica que la prueba sea de baja calidad o el uso sea inadecuado, s genera cuestionamientos
legtimos que se deben atender si se pretende que la prueba tenga los alcances e impactos que
se buscan.

Conclusiones iniciales
Retomando las conclusiones de los cinco apartados del informe, las conclusiones a las
que se puede llegar en este momento, que en el informe final se podrn enriquecer y precisar,
como se seal en la introduccin, se sintetizan como sigue.
ALINEACIN A LOS REFERENTES
El anlisis de la validez de contenido de ENLACE, entendida como su alineacin con el currculo

de la educacin bsica, muestra deficiencias importantes en todos los criterios de este apartado.
Los documentos normativos contienen elementos que apuntan en la direccin adecuada, pero en
general son poco precisos y, sobre todo, la ausencia generalizada de evidencias que muestren que
las orientaciones se cumplen, lleva a la conclusin, tentativa ciertamente, pero que consideramos
fundada, de que en muchas ocasiones, probablemente en la mayor parte de los ejercicios anuales,
se han omitido cuidados bsicos para asegurar que las pruebas tengan la calidad esperada. Como
deficiencias particulares destacan:
La falta de documentacin sobre el proceso seguido para determinar el contenido a

evaluar, carencia que impide una valoracin precisa del grado de validez de contenido
de las pruebas.
La ausencia de evidencias precisas sobre la conformacin de comits que tienen un papel
fundamental para el cumplimiento de varios criterios, su perfil, la capacitacin que se
ofrece a sus integrantes y las metodologas que orientan su trabajo, hace pensar que el
funcionamiento de esos colegiados es, al menos, poco consistente.
Los puntos relativos a la complejidad cognitiva de los contenidos de las pruebas presen-
tan deficiencias particularmente notorias.
La situacin de los criterios de cumplimiento ms difcil, como el relativo a la alinea-
cin de los contenidos de la prueba con los de la enseanza o los de la evaluacin
que los docentes llevan a cabo en el aula, es ms claramente an de deficiencia
prcticamente completa.
Dado el alto impacto de los resultados de las pruebas, es importante presentar en detalle
los procedimientos y resultados estadsticos que permitan a los tcnicos comprobar y
replicar los procedimientos seguidos para el anlisis y presentacin de los resultados de
las pruebas. Esto implica no solo la presentacin de frmulas, sino tambin de resultados
detallados (por ejemplo estadsticos por reactivos, etc.) que permita verificar la informa-
cin reportada y utilizada.
164
En cuanto a la seleccin de modelos de anlisis, es importante que se presenten en de-
talle las razones por las cuales se seleccion uno por sobre otro. Si bien se entiende que
hay diversidad de modelos, al igual que criterios y valoraciones que llevan a escoger un
modelo sobre otro, es importante al menos presentar, y en el mejor de los casos discutir,
las ventajas de haber escogido el o los modelos utilizados, al igual que las desventajas
para haber rechazado los otros modelos.
Si bien se entiende que ninguna evidencia es perfecta, o apoya 100% un proceso, es
la acumulacin de evidencias a favor de un proceso lo que valida y legitima el proceso.
Este proceso de crear y presentar evidencias a favor de un proceso, al igual que evaluar
y estudiar cuidadosamente las evidencias en contras, es lo que a largo plazo nos permite
confiar que la informacin que se genera a travs del proceso es til y confiable.
En todos estos aspectos mencionados anteriormente, si bien encontramos que se presentaba

algunas evidencias al respecto, muchas de las aseveraciones eran presentadas de manera dog-
mtica sin presentacin o discusin de evidencias en apoyo de las acciones seguidas o descritas.
Distinto a casos judiciales, en los que se presume inocencia hasta que se pruebe lo contrario, en
el caso de los usos de la medicin y sus correspondientes procesos se presume no son adecuados
hasta que se prueba lo contrario. Por lo que el peso de la responsabilidad pesa sobre proveer
evidencias que los procesos y usos son adecuados, a pesar de sus imperfecciones.
ATENCIN A LA DIVERSIDAD CULTURAL
Los criterios de este apartado pueden considerarse, en general, como ideales, en el sentido de
que si bien es deseable que se cumplan desde las primeras aplicaciones de toda prueba, esto,
desafortunadamente, no sucede siempre, aun en pases con larga tradicin psicomtrica. Ello no
quiere decir que no deban atenderse, especialmente en pases como el nuestro en que la enorme
diversidad cultural de los estudiantes plantea importantes retos a los sistemas educativos.
En ese sentido, no es sorprendente que las pruebas ENLACE no cumplan satisfactoriamente nin-
guno de los criterios se validez cultural. Es preciso aadir, sin embargo, que el reconocimiento
de la multiculturalidad trae consigo la consecuencia de que se debe comenzar a trabajar para
que los criterios de esta rea sean atendidos en el mediano plazo.
La condicin multicultural de Mxico se encuentra reconocida a nivel legal por la constitucin

y que el derecho a recibir una educacin con pertinencia lingstica y cultural lo que incluye la
evaluacin de la misma se encuentra normada por la Ley General de derechos lingsticos de los
Pueblos indgenas, por lo que incumplir con este criterio es, de alguna manera, incumplir dicho
marco legal que protege y promueve una educacin incluyente.Adems debe considerarse que el
anlisis ha mostrado que, en buena medida, las deficiencias observadas en los criterios de validez
cultural derivan de deficiencias que no debieran existir en ninguna prueba.
APLICACIONES
La aplicacin de ENLACE requiere de una amplia coordinacin entre el nivel federal, estatal y las
escuelas. Se percibe un gran esfuerzo realizado por la SEP a travs de la DGEP para asegurar di-
versos aspectos crticos de la aplicacin, especialmente en lo concerniente al involucramiento de
los diversos actores del proceso en la escuela (docentes, directores y padres de familia), as como
de los observadores externos.
Conclusiones iniciales 165

Algunos procesos importantes, como el diseo de instrumentos de evaluacin y la lectura ptica
y calificacin de los resultados estn elevados a norma tcnica de calidad, pero no as la apli-
cacin en su conjunto. En general, no existe suficiente informacin que permita confirmar, de
manera externa, que todos los procesos se llevan a cabo como estn estipulados, aunque los
procedimientos tcnicos de certificacin llevan a suponer que as es. Lo anterior puede deberse
al poco tiempo disponible para la planeacin de la aplicacin, as como a los cortos periodos que
transcurren entre aplicacin, lectura, anlisis de la informacin y reporte de resultados.
Dada la importancia de la prueba para el sector educativo nacional, se percibe que se requieren
controles de calidad a nivel central ms estrictos en fases cruciales del proceso que involucren
verificaciones aleatorias o realizadas por terceras personas (por ejemplo en el procesamiento
de lectura ptica, la verificacin de bases de datos provenientes de los estados, o la seleccin
y diseo de la muestra controlada).
Por otra parte, a nivel estatal y local, se percibe que todos los actores involucrados en la apli-
cacin de ENLACE realizan un enorme esfuerzo para verificar el proceso a nivel del aula y el
centro escolar, mediante el levantamiento de actas de irregularidades que se reportan a las
autoridades estatales. Esta informacin es muy til ya que puede ayudar a retroalimentar todo
el proceso. Sin embargo, no se evidencia la existencia de un proceso sistemtico para recoger
dicha informacin y alimentar un proceso de mejora continua. Por ejemplo, no se dispuso de
un reporte consolidado de las irregularidades tpicas, su tratamiento y las lecciones aprendidas
luego de cada aplicacin como insumo para fortalecimiento de la siguiente.
En resumen, la informacin que se revis para este estudio nos lleva a concluir que aunque el
proceso de aplicacin cumple con gran parte de los estndares aqu establecidos, no cumple con
todos. Y en algunos casos, aunque los manuales dan cuenta de que los estndares se cumplen,
no se presenta suficiente informacin para verificar que realmente as sea. Dados los alcances
de la prueba, se considera importante asegurar la calidad en todas las fases de la aplicacin y
proveer evidencia de ello. Esto, mediante un reporte ms detallado de la aplicacin en todas sus
etapas, soportado en el uso de tecnologa informtica apropiada a la escala del proyecto, que
permita establecer un proceso sistemtico de mejora continua y aprovechamiento de la informa-
cin generada a nivel del centro escolar.
Los anlisis de este apartado muestran la falta de alineamiento entre los usos propuestos de la
prueba ENLACE y los cuerpos de evidencia terica y emprica que se han recogido para susten-
tarlos. En la mayora de los casos esto significa que no hay evidencia de validez para justificar
ciertos usos de las pruebas; en algunos sin embargo, la evidencia tcnica que existe sugiere que
la prueba no es adecuada para algunos de los usos propuestos.
Lo anterior refleja limitaciones de capacidad tcnica y recursos por un lado, pero tambin falta
de claridad inicial sobre los objetivos de la prueba, y una tendencia hacia la expansin de uso no
respaldada en evidencia. En concreto, el incremento en usos de alto impacto (p. ej. publicacin
de rankings de escuelas, incentivos para maestros o escuelas basados en los resultados de sus
alumnos, y otros) refleja una tendencia de inflacin en la funcionalidad de la prueba, donde
los usos se extienden sin los correspondientes adaptaciones al diseo de la prueba, y la eviden-
cia adicional de validez que se requiere.
166
Es claro el gran inters que existe alrededor de la prueba, que se manifiesta en la gran variedad
de usos, esfuerzos, programas, e intervenciones en todos los niveles, desde autoridades federa-
les y estatales, a escuelas, maestros y padres, as como organizaciones de la sociedad.
Este inters y energa que se genera en torno a los resultados incuestionablemente tienen
aspectos muy positivos y esperanzadores para el sistema educativo del pas, al reflejar la gran
importancia que muchos actores dan a la calidad de la educacin, y al uso de evidencia solida
para contribuir a los esfuerzos de mejora.
Sin embargo, en este mismo contexto existe tambin el riesgo de que se den usos cuestiona-
bles, injustificados, o incluso injustos para actores individuales, o que resulten contraproducen-
tes para el sistema en general. La evidencia en este estudio indica que la prueba est siendo
utilizada de forma muy extendida en los estados pero que 1) no todos los usos estn tcnica-
mente fundamentados y 2) no se da un seguimiento que ofrezca informacin detallada sobre
los usos que se dan, y menos an de los resultados de los esfuerzos, intervenciones y programas
que de estos se derivan.
Evidencia de otros estudios sugiere que pueden estarse dando efectos no deseables del uso de
ENLACE como el que los maestros empleen un nmero importante de horas aula para instruc-
cin enfocada a la prueba, o que se generen incentivos excesivos que pueden comprometer la
integridad de los resultadose.g. mejoras espectaculares observadas en ENLACE en algunos
estados, que no se reflejan en otras pruebas nacionales o internacionales.
Es importante recordar que los anlisis presentados en este captulo no pretenden establecer si
ciertos usos de las pruebas de gran escala son apropiados o deseables en trminos generales re-
feridos a poltica educativa. El anlisis se concibi, en trminos tcnicos ms concretos, como una
evaluacin del grado en que los usos de esta prueba particular (tanto los previstos en el manual
tcnico, como otros no previstos pero de los que existe amplia evidencia) se justifican con base
en evidencias concretas slidas como requieren las mejores prcticas en medicin educativa.
Este enfoque conlleva la necesidad de gran claridad en la definicin de lo que mide o no una
prueba, las caractersticas de los indicadores que se generan, y los usos que se consideran justi-
ficados o injustificados, pero el mismo no se deriva de una posicin de rigor o purismo tcnico.
Por el contrario, la necesidad de observar cuidadosamente las caractersticas tcnicas de la
prueba obedece a un concepto an ms fundamental de probidad tica que es esencial en
mediciones de alto impacto: los usos que afectan directamente a personas o grupos particula-
res solo son adecuados si existe evidencia solida que los justifique. Finalmente, el rigor tcnico
tambin tiene implicaciones para el sistema en la medida en que evita que se den tambin usos
contraproducentes que limiten la efectividad de una poltica o incluso dificulten otros esfuerzos
e iniciativas de mejora en el sistema.
Conclusiones iniciales 167

Referencias bibliogrficas
Agero, Jorge M., y Beleche, Trinidad (2013). Test-Mex: Estimating the Effects of School Year Length on
Student Performance in Mexico. Journal of Development Economics, 103 (1), pp. 353-361.
AERA . American Educational Research Association, American Psychological Association, National Council
on Measurement in Education (1999). Standards for Educational and Psychological Testing. Washing-
ton: Autores.
Anderson, L., y Krathwohl, D. (eds.) (2001). A Taxonomy for Learning, Teaching, and Assessing: A Revision
of Blooms Taxonomy of Educational Objectives. Nueva York: Longman.
Bando, R. (2010). The Effect of School Based Management on Parent Behavior and the Quality of Education
in Mexico (tesis no publicada). Universidad de California, Berkeley.
Barriga, R. (2005). Estudios sobre el habla infantil en los aos escolares: Un solecito grandotote. Mxico:
El Colegio de Mxico.
Basterra, M. Rosario, Trumbull, E., y Solano, G. (eds.) (2011). Cultural Validity in Assessment: Addressing
Linguistic & Cultural Diversity. Nueva York: Routledge.
Bertely, M., Dietz, G., y Daz Tepepa, M.G. (2013). Estado del conocimiento: Educacin y multiculturalismo.
Mxico: COMIE .
Bond, T.G., y Fox, C.M. (2001). Applying the Rasch Model. Fundamental Measurement in the Human Scien-
ces. Nueva Jersey: Lawrence Erlbaum Associates, pp. 4-8.
Bormouth, J.R. (1970). On the Theory of Achievement Test Items. Chicago: University of Chicago Press.
Brennan, R.L. (1995). The Conventional Wisdom about Group Mean Scores. Journal of Educational Mea-
surement, 14, pp. 385-396.
(2001). An Essay on the History and Future of Reliability from the Perspective of Replication.
Journal of Educational Measurement, 38(4), pp. 295-317.
(2005). Some Test Theory for the Reliability of Individual Profiles (CASMA Research Report 12).
Iowa: Center for Advanced Studies in Measurement and Assessment-The University of Iowa.
Campbell, D.T. (1975). Cap. 1 Assessing the Impact of Planned Social Change. En Lyons, G. (ed.), Social
Research and Public Policies: The Dartmouth/OECD Conference (pp. 3-45). Hanover: The Public Affairs
Center- Dartmouth College.
Crdenas, S. (2009). Is the Class Schedule the Only Difference between Morning and Afternoon Shift
Schools in Mexico? (tesis no publicada). Harvard University.
Centro Nacional de Evaluacin para la Educacin Superior (2000). Estndares de calidad para instrumentos
de evaluacin educativa. Mxico: Autor.
Cervera Gmez, Luis Ernesto, Lizrraga Bustamante, Gilberto Martn, y Snchez Guilln, Laura Paola
(2008). Estudio georreferencial de la Evaluacin Nacional de Logro Acadmico en Centros Escolares
(ENLACE ) en el municipio de Jurez, Chihuahua: anlisis espacial. Revista Electronica de Investigacion
Educativa, 10(1).
Cizek, G.J. (2007). Introduction to Modern Validity Theory and Practice. Presentacin invitada al National
Assessment Governing Board, McLean, Virginia.
, Bowen, D., y Church, K. (2010). Sources of Validity Evidence for Educational and Psychologi-
cal Tests: A Follow-up Study. Ponencia en la reunin anual del National Council on Measurement in
Education, Denver.
CONEVAL . Consejo Nacional de Evaluacin de la Poltica de Desarrollo Social (2013). Sntesis de evaluacio-
nes de programas y polticas de la SEP.
Crocker, L., y Algina, J. (2004). Introduction to Classical and Modern Test Theory (2a. ed.). Nueva York:
Hott, Rinehart, and Winston.
168
Cronbach, L.J. (1971). Test Validation. En Thorndike, R.L. (ed.). Educational Measurement (pp. 443-507).
Washington, American Council on Education.
(1988). Five Perspectives on Validity Argument. En Wainer, H., y Braun, H. (eds.), Test Validity
(pp. 3-17). Princeton: Lawrence Erlbaum Associates.
Crooks, T.J., Kane, M.T., y Cohen, A.S. (1996). Threats to the Valid Use of Assessments. Assessment in
Education, 3(3), pp. 265-285.
Dawis, R.V. (1987). Scale Construction. Journal of Counseling Psychology, 34(4), pp. 481-489.
DOF. Diario Oficial de la Federacin (2011, 19 de agosto). Acuerdo nmero 592 por el que se Establece la
Articulacin de la Educacin Bsica.
Downing, S.M., y Haladyna, T.M. (eds.) (2006). Handbook of Test Development. Mahwah: Lawrence
Erlbaum Associates.
Educational Testing Service (2000). ETS Standards for Quality and Fairness. Princeton: Autor.
Feldt, L.S., y Brennan, R.L. (1989). Reliability. En Linn, R.L. (ed.). Educational Measurement (pp. 105-146).
Nueva York: American Council on Education / Macmillan.
Gertler, Paul, Patrinos, Harry Anthony, y Rodriguez-Oreggia, Eduardo (2012, primavera). Parental
Empowerment in Mxico: Randomized Experiment of the Apoyos a la Gestin Escolar (AGE ) Program
in Rural Primary Schools in Mexico. SREE.
Guion, R.M. (1977). Content Validity-The Source of my Discontent. Applied Psychological Measurement,
1, pp. 1-10.
Guttman, L. (1969). Integration of Test Design and Analysis. In Proceedings of the 1969 Invitational
Conference on Testing Problems. Princeton: Educational Testing Service.
Haberman, S.J. (2008). When Can Subscores Have Value? Journal of Educational and Behavioral Statistics,
33, pp. 204-229.
Haertel, E.H. (2006). Reliability. En Brennan, R. (ed.). Educational Measurement (pp. 65-110). Westport:
American Council on Education-Praeger.
Haladyna, T.M., y Downing, S.M. (1988). A Taxonomy of Multiple-Choice Item-Writing Rules. Applied
Measurement in Education, 1, pp. 37-50.
Hambleton, R. (1994). Guidelines for Adapting Educational and Psychological Tests: A Progress Report.
European Journal of Psychological Assessment, 10, pp. 229-244.
y Jones, R. (1993). Comparison of Classical Test Theory and Item Response Theory and their
Applications to Test Development. An National Council on Measurement in Education Instructional
Module. Recuperado el 3 de octubre de 2007 de: http://www.ncme.org/pubs/items.cfm
Haynes, S., Richard, D., y Kubany, E. (1995). Content Validity in Psychological Assessment: A Functional
Approach to Concepts and Methods. Psychological Assessment, 7(3), pp. 238-247.
Hively, W. (1974). Introduction to Domain Referenced Testing. Educational Technology, 14, pp. 5-9.
Instituto Colombiano de Evaluacin de la Educacin (2013). Pruebas SABER 3, 5. y 9: Manual para
el aplicador. Bogot: Autor.
(2013). Pruebas SABER 3, 5. y 9: Manual para el delegado. Bogot: Autor.
(2013). Pruebas SABER 3, 5. y 9: Manual para el coordinador de saln. Bogot: Autor.
(2013). Pruebas SABER 3, 5. y 9: Manual para el rector. Bogot: Autor.
International Association for the Evaluation of Educational Achievement (2001). Technical Standards
for IEA Studies: An Annotated Bibliography. msterdam: IEA.
Johnson, J.A. (2004). The Impact of Item Characteristics on Item and Scale Validity. Multivariate Behavioral
Research, 39(2), pp. 273-302
Jornet, J.M., Surez, J.M., y Gonzlez-Such, J. (1990). Estudio de validacin de un cuestionario de valo-
racin de la Docencia Universitaria por los estudiantes en un conjunto homogneo de centros de la
Universitat de Valncia. Revista de Investigacin Educativa, 7(13), pp. 57-92.
y Surez, J.M. (1989a). Conceptualizacin del dominio educativo desde la perspectiva integra-
dora de la Evaluacin Referida al Criterio. Bordn, 41, pp. 237-275.
Referencias bibliogrficas 169

y Surez, J.M. (1989b). Revisin de modelos y mtodos en la determinacin de estndares y en el
establecimiento del punto de corte en Evaluacin Referida a Criterio (ERC). Bordn, 41(2), pp. 277-301.
Kane, M.T. (2006). Validation. En Brennan, R. (ed.). Educational Measurement (4a. ed., pp. 17-64).
Westport: American Council on Education / Praeger.
(2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement,
50 (1), pp. 1-73.
Ley General de Derechos Lingsticos de los Pueblos Indgenas.
Li, S., y Sireci, S.G. (2005). Evaluating the Fit between Test Content, Instruction, and Curriculum
Frameworks: A Review of Methods for Evaluating Test Alignment. Center for Educational Assessment
MCAS Validity Report No. 9. (CEA -558). Amherst: Center for Educational Assessment-University of
Massachusetts.
Linacre, J.M. (2006). A Users Guide to Winsteps. Recuperado de: winsteps.com
Lissitz, R. (ed.) (2009). The Concept of Validity. Charlotte: Information Age Publishing.
Lizasoain, L., y Joaristi, L. (2010). Estudio diferencial del rendimiento acadmico en lengua espaola de
estudiantes de educacin secundaria de Baja California (Mxico). Revista Iberoamericana de Evaluacin
Educativa, 3(3), pp. 115-134. Recuperado de: http://www.rinace.net/riee/numeros/vol3-num3/art6.pdf
Luschei, T. (2012). In Search of Good Teachers: Patterns of Teacher Quality in Two Mexican States.
Comparative Education Review, (56)1, pp. 69-97.
Madaus, G.F., y Kellaghan, T. (1992). Curriculum Evaluation and Assessment. En Jackson, P.W. (ed.).
Handbook of Research on Curriculum (pp. 119-154). Nueva York: Macmillan.
Messick, S. (1989). Validity. En Linn, R.L. (ed.). Educational Measurement (3a. ed., pp. 13-103). Nueva York:
American Council on Education / Macmillan.
(1998). Test Validity: A Matter of Consequence. Social Indicators Research, 45(1-3), pp. 35-44.
Moss, P.A. (2008). A Critical Review of the Validity Research Agenda of the NBPTS at the End of its First
Decade. En Ingvarson, L., y Hattie, J. (eds.). Assessing teachers for professional certification: the first
decade of the NBPTS (pp. 257-312). Oxford: Elsevier.
Nichols, P., y Williams, N. (2009). Consequences of Test Score Use as Validity Evidence: Roles & Respon-
sibilities. Educational Measurement: Issues & Practice, 28(1), pp. 3-9.
Nitko, A. (1994). A Model for Developing Curriculum-Driven Criterion-Referenced and Norm-Referenced
National Examinations for Certification and Selection of Students. Ponencia presentada en la Confe-
rencia Internacional sobre Evaluacin y Medicin Educativas, de la Asociacin para el Estudio de la
Evaluacin Educativa en Sudfrica (ASSESA ).
(1995). Curriculum-Based Continuos Assessment: a Framework for Concepts, Procedures and
Policy. Assessment in Education, 2(3).
OECD. Organization for Economic Cooperation and Development (2000-2012a). National Project
Managers Manual for the PISA Survey.
(2000-2012b). Technical Standards for PISA.
Popham, J. (1990). Modern Educational Measurement. A Practitioners Perspective. (2a. ed.). Boston: Allyn
and Bacon.
Roid, G.H., y Haladyna, T.M. (1982). A Technology for Test-Item Writing. Nueva York: Academic Press.
Rojas, A. (2006) Entre la banca, la casa y la banqueta. Socializacin y matemticas entre los nios
otomes que viven en la ZMG (tesis para obtener el grado de doctora en Ciencias Sociales). CIESAS ,
Guadalajara, Mxico.
Snchez Ziga, M. Consuelo (2009). Evaluacin de Enciclomedia. Algunos hallazgos relacionados con la
Evaluacin Nacional de Logro Acadmico en Centros Escolares (ENLACE ). Revista Latinoamericana de
Estudios Educativos (Mxico), XXXIX, pp. 251-259.
Santiago, P., McGregor, I., Nusche, D., Ravela, P., y Toledo, D. (2012). OECD Reviews of Evaluation & Assessment
in Education Mexico 2012, Pars: OECD. Recuperado de: http://dx.doi.org/10.1787/9789264172647-3-en
170
Santibaez, L., Abreu-Lastra, R., y ODonoghue, J. (2014) School Based Management effects: Resources or
governance change? Evidence from Mexico. Economics of Education Review, 39, pp. 97-109.
SEP. Secretara de Educacin Pblica (2008-2013a). Evaluacin Nacional del Logro Acadmico en Centro
Escolares ENLACE: manual tcnico. Mxico: Autor.
(2008-2013b). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE: normas
operativas. Mxico: Autor.
(2008-2013c). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE: gua para
el docente aplicador. Mxico: Autor.
(2008-2013d). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE: manual
para el coordinador de aplicacin. Mxico: Autor.
(2011-2012a). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE 2012:
caractersticas generales e informacin de los reactivos aplicados para su uso pedaggico, tercer grado
de educacin primaria. Mxico: Autor.
(2011-2012b). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE 2012:
caractersticas generales e informacin de los reactivos aplicados para su uso pedaggico, cuarto grado
(2011-2012c). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE 2012:
caractersticas generales e informacin de los reactivos aplicados para su uso pedaggico, quinto grado
(2011-2012d). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE 2012:
caractersticas generales e informacin de los reactivos aplicados para su uso pedaggico, sexto grado
(2011-2012e). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE 2012:
caractersticas generales e informacin de los reactivos aplicados para su uso pedaggico, primer grado
de educacin secundaria. Mxico: Autor.
(2011-2012f). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE 2012:
caractersticas generales e informacin de los reactivos aplicados para su uso pedaggico, segundo
grado de educacin secundaria. Mxico: Autor.
(2011-2012g). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE 2012:
caractersticas generales e informacin de los reactivos aplicados para su uso pedaggico, tercer grado
de educacin secundaria. Mxico: Autor.
Sireci, S.G. (2009). Packing and Unpacking Sources of Validity Evidence: History Repeats Itself Again.
En: Lissitz, R.W. (ed.). The Concept of Validity: Revisions, New Directions, and Applications. Charlotte:
Information Age Publishing.
(2013). Agreeing on Validity Arguments. Journal of Educational Measurement, 50(1), pp. 99-104.
Solano-Flores, G. (1993). Item Structural Properties as Predictors of Item Difficulty and Item Association.
Educational and Psychological Measurement, 53(1), pp. 19-31.
(2011). Assessing the Cultural Validity of Assessment Practices: An Introduction. En Basterra,
M.R., Trumbull, E., y Solano-Flores, G. (eds.). Cultural Validity in Assessment: Addressing Linguistic and
Cultural Diversity (pp. 3-21). Nueva York: Routledge.
y Nelson-Barber, S. (2001). On the Cultural Validity of Science Assessments. Journal of Research
in Science Teaching, 38(5), pp. 553-573.
y Trumbull, E. (2003). Examining Language in Context: The Need for New Research and Practice
Paradigms in the Testing of English-Language Learners. Educational Researcher, 32(2), pp. 3-13.
Stanley, J.C. (1971). Reliability. En Thorndike, R.L. (ed.). Educational Measurement (pp. 356-442). Washington:
American Council on Education.
Thorndike, R.L. (1951). Reliability. En Lindquist, E.F. (ed.). Educational Measurement (pp. 560-620). Washington:
American Council on Education.
Referencias bibliogrficas 171

Tiemann, P. W., y Markle, S. M. (1990). Analyzing Instructional Content: A Guide to Instruction and
Evaluation. Seattle: Morningside Press.
Tristn, L.A., y Vidal, R. (2007). Linear Model to Assess the Scales Validity of a Test. Ponencia en la confe-
rencia anual de la AERA , Chicago. Disponible en: ERIC: ED501232.
Viveros, M.J., Contreras, L.A., y Caso, J. (2013). Development and Preliminary Evaluation of an Academic
Density Index, as a Quantitative Indicator to Determine the Relative Importance of Curricular Contents.
26th International Congress for School Effectiveness and Improvement, Santiago, Chile.
Welner, K. (2013). Consequential Validity and the Transformation of Tests from Measurement Tools
to Policy Tools. Teachers College Record, 115(9).
Wright, B.D., y Stone, M.H. (2004). Making Measures. Chicago: The Phaneron Press, pp. 35-39.
172
Anexos
1. Criterios y subcriterios de evaluacin
2. Microanlisis de reactivos de ENLACE de Espaol
3. Microanlisis de reactivos de ENLACE de Matemticas
Anexo 1. Criterios y subcriterios de evaluacin
SOBRE LA ALINEACIN A LOS REFERENTES
Anlisis del currculo cuyo dominio se evala
1. Se cuenta con un documento que revisa la teora del contenido curricular y es el marco
terico que orienta el desarrollo de la prueba.
tt El documento incluye un anlisis de las reas del currculo que evaluar la prueba,
que precise los subdominios y contenidos, as como competencias y niveles de de-
manda cognitiva que se debern cubrir.
Alineacin de la prueba con el currculo
2. Se presentan evidencias de cmo se definieron las especificaciones de la prueba en

trminos de objetivos, competencias u otro referente curricular.
tt Se presenta estructura del dominio curricular completo del que se muestrea el con-
tenido de la prueba, y la estructura del dominio curricular evaluado.
3. Se explica el procedimiento usado para determinar la importancia relativa de los con-
tenidos que se decidi evaluar, o se incluye un anlisis de las unidades del dominio
curricular y su densidad diferencial.
tt Se justifican tcnicamente ajustes a la ponderacin de tems y subescalas.
tt Se justifica metodolgicamente tamao de la prueba y sus partes (nmero de tems)
cumpliendo ponderacin indicada en tablas de especificaciones. Si se maneja justi-
ficacin administrativa esta se debe definir claramente.
4. Se asegura la representatividad de los tems y las subescalas respecto a los subdominios
y el dominio curricular definidos.
tt Para especificar el dominio a evaluar se presenta un anlisis lgico y emprico de
la representacin de tems y subescalas respecto a los subdominios evaluados y al
dominio curricular completo.
5. Se cuida la alineacin en cuanto a la complejidad cognitiva del contenido.
tt Se utilizan taxonomas u otros sistemas de clasificacin de la demanda cognitiva de
los tems, en relacin con lo establecido en el currculo.
tt Se refiere el uso de protocolos verbales con examinados para verificar que la com-
plejidad cognitiva real corresponda a la esperada.
Anexo tcnico 173

Especificacin, generacin y escritura de tems
6. Existe un manual o gua de redaccin o diseo de reactivos, en el que se especifican y

justifican los procedimientos para formularlos. El manual:
tt Describe y da ejemplos de todos los tipos de reactivo que tendr la prueba, indican-
do cmo clasificarlos y justificarlos, con referencia a la relevancia de las respuestas
para el dominio pretendido.
tt Usa tablas o modelos de especificacin precisos para homogeneizar el diseo de
los tipos de tems, y ofrece un formato o documento donde los diseadores de reac-
tivos hagan la captura y la modificacin.
tt Fue desarrollado especialmente para la prueba con sus particularidades; no es acep-
table un manual genrico o tomado de otro sistema de evaluacin.
7. Los tems son diseados por un comit seleccionado teniendo en cuenta la especializa-
cin acadmica, laboral y su representatividad respecto a la diversidad del pas, y estuvo
coordinado por una persona calificada.
tt El comit fue formado especficamente para realizar su labor, considerando todos los
elementos caractersticos del tipo de prueba a disear.
tt La capacitacin del comit incluye procesos metodolgicos y referencias a taxono-
mas o sistemas de clasificacin cognitiva para especificar dominio.
Control de la calidad de los tems
8. Existe un manual o gua para el anlisis de reactivos que seala los criterios de acepta-
cin, revisin y modificacin.
tt Se presentan estructura y funciones representadas en el comit evaluador.
tt El manual describe procedimientos/criterios para revisar tems por jueceo.
tt Se utilizaron criterios de seleccin de jueces con un perfil acadmico y laboral preci-
so y con representatividad de la diversidad del pas.
tt El comit de revisin est formado por jueces diferentes al del de escritura.
tt Se detalla el procedimiento que se sigui para capacitar a los evaluadores
10. El sistema de revisin lgica de cada tem incluye anlisis de:
tt Calidad tcnica: claridad en la formulacin, adecuacin al marco de prueba
tt Congruencia tem-contenido o tem-objetivo (subdominio)
tt Posibles fuentes de sesgo de cada reactivo: gnero, diversidad cultural
tt Concordancia de juicio para la seleccin de reactivos o procedimientos para estimar
la confiabilidad de los juicios de los evaluadores
tt Se verifica que contenido de pruebas corresponda al dominio curricular en todos los
aspectos y niveles de demanda cognitiva planeados.
tt Se cuida la alineacin de tems y prueba con el currculo, los estndares de interpre-
tacin y, de ser posible, con la enseanza y la evaluacin en aula.
tt Se dispone de una metodologa para demostrar la validez de contenido (cualitativa
y cuantitativa) de la prueba.
tt Se muestran evidencias para fundamentar la validez de contenido.
174
Calidad de las pruebas
1. Se documentan las evidencias relativas a los diversos tipos de validez que se consideran
usualmente en la medida en que sean aplicables.
tt Se describe el procedimiento seguido para el anlisis de validez de criterio, al menos
en una de sus formas (predictiva, concurrente, discriminante, etc.) y se reportan los
valores obtenidos en los estudios de validez de criterio.
tt Hay evidencia documental del anlisis de validez de escala y su pertinencia en rela-
cin con el constructo y el modelo del perfil a evaluar.
tt Se presenta documentacin que muestra cmo se realiz el proceso para analizar la
validez de constructo y se presentan los resultados.
2. Se cuenta con anlisis integrales de los procesos y mtodos utilizados para desarrollar
las pruebas, definiendo equivalencia y periodicidad.
tt Se indica el procedimiento seguido para construir las pruebas a partir de las especi-
ficaciones y del banco de tems.
tt Se reportan pasos para producir formas o versiones de la prueba y delimitar su
vigencia en el tiempo o segn sedes o localidades.
tt Se cuenta con metodologa para hacer versiones equivalentes y se reportan los valo-
res de diseo y experimentales que lo demuestren. No es aceptable reportar resul-
tados sin evidencias de equivalencia entre versiones o formas.
tt La periodicidad de aplicacin se justifica con criterios terico-metodolgicos o logs-
ticos sustantivos, distinguindolos de criterios polticos o de opinin.
tt Se especifica y justifica el marco metodolgico que integra en forma coherente los
procesos y mtodos que guan el desarrollo de la prueba.
tt Se especifica y justifica el modelo psicomtrico usado.
tt Hay manuales tcnicos que orientan de manera detallada todos los procesos involu-
crados en el desarrollo de la prueba.
3. Se documentan los procedimientos utilizados para la calibracin de las pruebas y para
el anlisis psicomtrico.
tt Se presentan los procedimientos psicomtricos utilizados para determinar sesgo,
funcionamiento diferencial e impacto adverso de la prueba.
tt Se describen los anlisis efectuados para detectar influencias de factores diversos en
la calidad de la medicin, como la habilidad de lectura o escritura, la comprensin
espacial, la ansiedad, etc.
4. Se ofrece informacin sobre la confiabilidad de las pruebas.
tt Se describen los procedimientos usados para calcular la confiabilidad de las subes-
calas y versiones de la prueba. En particular se reportan resultados del clculo de
consistencia interna de la prueba y sus subescalas.
tt Se dispone de resultados de correlacin con aplicaciones repetidas.
tt Hay un reporte con valores de separacin del modelo logstico empleado.
tt Se reporta la metodologa para el clculo del error de diseo de la prueba y sus sub-
escalas y se reportan los resultados obtenidos en las aplicaciones.
tt Se presenta la metodologa usada para anlisis de funcionamiento diferencial y
de sesgos asociados con personas, pruebas y subescalas. Se reportan resultados de
estudios hechos para determinar posibles sesgos.
Anexo tcnico 175

Calidad de tems y bancos de reactivos
5. Se documentan los procedimientos para el anlisis psicomtrico de los tems y para el

cuidado de su calidad.
tt Se cuenta con un documento que describe el modelo de calibracin de reactivos y

los criterios para su aceptacin, revisin y modificacin.
tt Se explicitan los procedimientos utilizados para efectuar el anlisis de tems (dificul-
tad, discriminacin, ajuste [fit], distractores, dimensiones, etc.)
6. Se ofrecen evidencias sobre la calidad de los bancos de tems.
tt Hay normativa para revisar, corregir y desechar reactivos en funcin de los resultados
de la calibracin, considerando varios parmetros y evidencias.
tt Es posible revisar los inventarios del banco de reactivos, debidamente clasificados y
con valores psicomtricos o edumtricos. No es aceptable que la prueba carezca de
inventario o que haya reactivos sin calibracin.
tt Se cuenta con una normativa para el uso de los reactivos, indicando su vigencia en
el banco o en las versiones, forma de almacenamiento en medio informtico o fsico
y forma de actualizacin para uso posterior.
Calificacin y niveles de desempeo
7. Se informa sobre los procedimientos seguidos para la calificacin de los sujetos que
responden las pruebas.
tt Est disponible el documento que explica la forma en que se asign calificacin a
estudiantes (normativa, criterial u otra).
tt Se cuenta con la explicacin del diseo de la escala de la prueba y la forma de cal-
cular los puntajes en dicha escala (por modelo clsico o logstico), con penalizacin
o sin correccin por azar, entre otros posibles criterios.
tt Se explica el procedimiento para obtener la calificacin global como combinacin
de diversos instrumentos o partes de la prueba. No es aceptable la asignacin global
como promedio de promedios.
8. Se justifica lo relativo al establecimiento de los niveles de desempeo y la interpretacin
de resultados de las pruebas.
tt Existe el marco terico-metodolgico basado en currculo que justifica la organi-
zacin en niveles de desempeo como estndares o sistema de interpretacin de
puntajes, junto con el procedimiento de asignacin del valor del punto de corte en
la escala.
tt Se dispone de respaldo documental que especifica el procedimiento (criterial o mix-
to) para determinar los niveles de desempeo o estndares.
tt Los estndares desarrollados a partir de comits de jueces, cuentan con el anlisis
del dominio curricular y/o tienen en cuenta consecuencias empricas de la identifica-
cin de puntajes de corte.
tt Los puntos de corte se validan con procesos de juicio o mixto (juicio-emprico);
se demuestra experimentalmente su ubicacin y se reporta el intervalo de confianza
correspondiente.
tt Hay evidencia emprica de que los niveles de desempeo estn bien graduados y
discriminan bien en relacin a contenido de prueba.
176
tt Se cuenta con la metodologa y evidencia del proceso realizado para describir
el significado de los niveles de desempeo o del conjunto de competencias por nivel
en trminos de los puntos de corte.
tt Se tiene el documento que detalla los desempeos por nivel para las competencias
y contenidos propuestos en la prueba, as como otras interpretaciones pertinentes a
partir de los resultados de las pruebas.
tt Los integrantes de los comits encargados de definir los niveles de desempeo son
seleccionados por sus perfiles acadmicos y/o laborales y por su representatividad
dentro de la diversidad cultural del pas; dichos integrantes pasan por un proceso de
capacitacin orientado al manejo de la metodologa a utilizar.
ATENCIN A LA DIVERSIDAD
1. El marco conceptual de la prueba toma en cuenta cmo la efectividad en el aprendizaje,

cultural del estudiante y su familiaridad con la lengua y la variedad dialectal en que se
administran las pruebas.
2. Como parte del desarrollo de la prueba, se establecen las caractersticas de la poblacin
objetivo, que consideran la diversidad cultural y lingstica del pas y los mltiples con-
textos y escenarios culturales y ambientales.
3. Se hace uso de referentes tericos y conceptuales sobre cultura y lengua y se establecen
procedimientos para tomar en consideracin la diversidad, cultural, lingstica y socioe-
conmica del estudiantado mexicano.
4. Los documentos que definen tipos y formatos de tems dan lineamientos para asegurar
que la informacin grfica y contextual sea familiar para la mayora del estudiantado y
refleje amplia variedad de contextos culturales.
5. Los equipos a cargo de desarrollar tems son multidisciplinarios; adems de expertos en
contenido incluyen a profesionales con especialidades en el rea de cultura (antroplo-
gos, lingistas) y maestros de minoras culturales y lingsticas y de escuelas rurales y de
nivel socioeconmico bajo.
6. Las muestras de estudiantes con que se pilotean versiones preliminares de la prueba
incluyen submuestras representativas de las minoras culturales, lingsticas y socioeco-
nmicas del pas.
7. El desarrollo de la prueba incluye entrevistas cognitivo-culturales para investigar si
estudiantes de diversos grupos culturales, lingsticos y socioeconmicos interpretan de
igual manera el contenido de muestras representativas de los tems de la prueba.
8. Existe un proceso de revisin con jueces que considera fuentes de sesgo cultural, lin-
gstico y socioeconmico en muestras representativas de los tems de la prueba.
9. Se efecta anlisis DIF de una muestra representativa de tems para diversos grupos
focales: estudiantes de distintos grupos indgenas y zonas geogrficas, de nivel socioe-
conmico bajo y de zonas rurales.
10. Se efectan anlisis de generalizabilidad para determinar la solidez de las generalizacio-
nes de calificaciones obtenidas con el mismo conjunto de tems para distintos grupos de
estudiantes definidos por grupo tnico y lingstico, localidad y nivel socioeconmico.
11. Los tiempos y calendarios de las actividades que tienen como objetivo tomar en consi-
deracin la diversidad cultural, lingstica y socio-econmica son razonables y factibles.
Anexo tcnico 177

12. El desarrollo de las pruebas incluye mecanismos de correccin y mejora con base en
la informacin obtenida con la validacin cognitivo-cultural, la revisin, los anlisis de
sesgo y los estudios de generalizabilidad.
APLICACIONES
Seleccin de muestra
2. Cuando proceda, las muestras se disearn utilizando diseos slidos; los estratos se
definirn con base en argumentos tericos defendibles.
3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que
se planific.
tt En aplicaciones muestrales se precisan pasos para seleccionar la muestra, si se mane-
jarn aulas intactas o submuestras de alumnos en cada aula; la forma de manejar es-
cuelas de reemplazo si hay, y porcentajes aceptables de exclusiones y no respuesta.
tt En aplicaciones censales el manual precisa el porcentaje admisible de faltantes y qu
se hace en ese caso.
4. Se verifica que la muestra obtenida concuerde con la planificada dentro de mrgenes
aceptables.
tt Se documentan en detalle los pasos para la seleccin de la muestra.
tt Hay una verificacin de la muestra por una instancia externa.
tt Hay encuesta o sistema de aseguramiento de la calidad de la muestra.
Planeacin de las aplicaciones
5. Se planifica todo lo necesario para estandarizar la aplicacin, con formas y materiales

que aseguren comparabilidad de los datos.
tt Hay manuales de aplicacin, probados en campo, que precisen actividades a desa-
rrollar por cada participante; se describen las variaciones aceptables.
tt Hay un cronograma detallado de todos los pasos del proceso.
tt Se identifica a personal de las escuelas que tendrn que ver con la aplicacin (direc-
tores, maestros) para contar con su cooperacin.
tt Se fijan requisitos de confidencialidad-seguridad de material y respuestas.
tt Se precisa la forma en que debern documentarse todos los pasos de la aplicacin
y las incidencias que se puedan presentar.
tt Hay procedimientos de aseguramiento de la calidad de la aplicacin.
Seleccin y capacitacin del personal de aplicacin
6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la reco-
leccin de datos, en todos los niveles.
tt Hay criterios para reclutar y entrenar aplicadores y apoyos.
tt Se recluta y capacita a suficiente personal de reemplazo.
178
tt La capacitacin incluye oportunidad de practicar con los instrumentos.
tt La formacin de capacitadores y/o el entrenamiento del personal que asegurar la
calidad del proceso se maneja centralmente o, en todo caso, se cuidar de forma
que se asegure su adecuado funcionamiento.
tt Se llevan registros de las sesiones de entrenamiento de aplicadores.
tt Se monitorean las actividades en campo por personal de la instancia central y/o
externo, y se registran problemas detectados.
tt Se hacen ejercicios de retroalimentacin y revisin de materiales y procesos que
recojan la experiencia del personal en campo.
Minimizacin de carga, motivacin, no respuesta y fraude
7. Se fijan lmites realistas de la carga de responder pruebas y cuestionarios de contexto

para que no sea excesiva tomando en cuenta los sujetos.
tt Se utilizan los resultados de la aplicacin piloto para revisar que los estimados
de carga sean realistas y aceptables.
tt Se simplifican los procedimientos y se describen en forma clara y cuidadosa, siempre
buscando minimizar la carga para los sujetos.
tt En los cuestionarios de contexto para estudiantes se evita preguntar datos que se
pueden obtener de otras fuentes.
tt Se agenda la aplicacin en horarios convenientes para los sujetos.
8. Se busca motivar a sujetos para que no respondan preguntas a la ligera.
tt Se informa ampliamente a los sujetos de la evaluacin acerca de los propsitos del
estudio y cmo se utilizarn sus datos.
9. Se desarrollan procedimientos para lidiar con la no-respuesta o rechazo a responder a
la prueba y se entrena al personal de aplicacin para ello.
10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de fraude
y se entrena al personal de aplicacin para seguirlos.
Procedimientos de control de calidad en las aplicaciones

tt Se recluta y entrena a monitores que lleven a cabo actividades de control de calidad,
observando la recoleccin de datos en una muestra de sitios.
tt Si no es viable se hacen entrevistas presenciales o por telfono de control de calidad
con aplicadores y dems personal involucrado en la aplicacin.
tt Se hace revisin de control de calidad en muestra aleatoria de los datos recolectados
para asegurar llenado completo y correcto.
tt Se resumen los resultados de cada etapa de aplicacin para monitorear el estatus de
las actividades y para identificar y corregir causas de problemas.
Preparacin del procesamiento de los datos

12. Hay manuales que detallan los aspectos a cuidar para crear archivos de datos segn
normas internacionales: cmo introducir los datos; asignar identificadores a alumnos-
maestros-escuelas; variables a incluir, cdigos vlidos, de datos faltantes o respuestas
no aplicables; formato de datos, estructura de archivos, limpieza, entre otros.
Anexo tcnico 179

13. Se cuenta con personal calificado para manejar los datos y se le entrena en todos los
aspectos de su trabajo, asegurando que est familiarizado con los procedimientos acep-
tados y que comprende la importancia de recolectar y capturar la informacin con el
cuidado necesario para que los anlisis posteriores se hagan sobre informacin de la
mejor calidad posible.

concentran los resultados de la aplicacin. Se asegura que:
tt La estructura de los datos se apegue a la de los instrumentos.
tt Los datos tengan suficientes redundancias para permitir control de calidad.
tt Las bases tengan identificadores nicos consistentes para que alumnos y escuelas y,
en su caso, maestros o directores, puedan relacionarse.
tt Se lleven a cabo verificaciones aleatorias de submuestras de las bases de datos para
verificar que se cumplan los puntos anteriores.
tt Se documenten todas las actividades de preparacin de datos.
Procesamiento y verificacin de los datos
15. Hay procedimientos para asegurar que la lectura de respuestas y todos los pasos del
procesamiento y verificacin de los datos son confiables.
tt Durante la lectura de los datos se hacen dobles verificaciones en forma sistemtica
para garantizar la confiabilidad del proceso.
tt En caso de que la lectura de datos se haga en forma descentralizada se asegura que
se cumplan los estndares en todos los sitios.
tt Se revisa que estructura de bases se apegue a la acordada, las variables estn en
rangos vlidos y los identificadores sean nicos e ntegros.
tt Se contrastan archivos de datos con instrumentos y cuestionarios.
tt Se calculan estadsticas analticas para cada tem.
tt Se calculan estadsticas descriptivas para todas las variables para revisar que no haya
valores extremos o faltantes; si hay se reportan para revisin.
tt Se documentan todos los pasos del proceso.
16. La coordinacin del estudio deber ser notificada de cualquier inconsistencia en los
datos. Toda modificacin que resulte de la resolucin de inconsistencias deber ser
aprobada y documentada.
Soporte de interpretaciones, usos y consecuencias previstas
1. Se presentan argumentos lgicos o tericos y evidencia emprica que respalde los usos y
consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un
apoyo terico o emprico.
2. Se documenta y evala el grado en que se producen las consecuencias previstas y/o
deseables de la prueba.
180
Acceso equitativo y capacidad de interpretacin y uso

mos de difusin y acceso para todas las partes involucradas sin discriminacin.
4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la ade-
cuada interpretacin y utilizacin de los resultados.
Comunicacin que facilite interpretacin de resultados
5. Se informa a los usuarios sobre los propsitos y caractersticas de la prueba, lo que pue-
de o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e informacin
suficiente sobre la interpretacin deseable (o correcta) de los resultados.
tcnicos en lenguaje claro y comprensible para una audiencia general.
7. Se ofrece un marco normativo para evaluar el desempeo de los examinados. Se describe
el perfil y caractersticas de la poblacin de referencia.
8. Se ofrece informacin para minimizar la posibilidad de interpretaciones incorrectas.
Se notan limitaciones y errores comunes de interpretacin al comparar diferentes prue-
bas, aos, dominios, grupos, o niveles de agregacin. Se usan categoras precisas que
no den lugar a estigma.
Interpretaciones, usos y consecuencias imprevistas
9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque no
se pueden prever todos los usos o interpretaciones inapropiadas, se busca identificar
y acotar los ms factibles o probables).
10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/
positivas, o inadecuadas/negativas).
11. Cuando existe evidencia confiable de usos inapropiados estos se investigan en grado
y detalle adecuado. Si estos usos persisten se informa a los usuarios y se intenta tomar
Anexo 2. Microanlisis de reactivos de Espaol
ESPAOL TERCERO DE PRIMARIA: EJEMPLO 1 (P.12)
Este primer ejemplo se incluye no solo como apoyo para los docentes de tercer grado de prima-
ria para la signatura de Espaol. Es tambin el ejemplo que se incluye en todos los cuadernillos
independientemente del grado escolar del que se trate para ilustrar la manera en que se
presentarn cada uno de los reactivos de entrenamiento.
De este ejemplo queremos destacar la brecha entre el porcentaje de respuestas positivas obtenido
por los estudiantes de escuelas particulares y generales frente a las de los estudiantes de primarias
indgenas y de CONAFE. En particular, si nos remitimos al anlisis la respuesta del inciso:
Anexo tcnico 181

A) Que la lluvia que descargan las nubes hace crecer el algodn
Muchos nios pueden confundir el sentido del enunciado que, en este caso se present para
explorar la capacidad de los estudiantes para comprender metforas por analoga, en contras-
te con respuestas mucho ms cercanas a su experiencia cotidiana. Los nios que asisten a las
primarias indgenas y CONAFE viven en el medio rural, en 3que las nubes se asocian con la pro-
duccin agrcola. Es importante recordar que el sentido metafrico en el lenguaje se encuentra
fuertemente condicionado no solo por el contexto cultural, sino tambin por la experiencia
cotidiana. A partir de esto podramos inferir que para los nios que habitan en el medio rural es
mucho ms factible una analoga sobre las relaciones entre palabras y el medio natural que una
analoga entre dos sustantivos a partir de sus referentes por su apariencia.
ESPAOL TERCERO DE PRIMARIA: EJEMPLO 2 (P. 36)
Los nios de todos los tipos de primarias se encuentran ms familiarizados con el concepto de
cuento que con el de texto expositivo, mismo que no es utilizado como una categora en las cla-
sificaciones sobre tipos de literatura. A esto es importante aadir que muchos de los cuentos que
existen en las bibliotecas de las aulas cuentan con protagonistas animales, por lo que no resulta
extrao que la mayor parte de los estudiantes de tercer grado hayan respondido con una respues-
ta diferente a la esperada por quienes disearon este reactivo.
182
ESPAOL CUARTO DE PRIMARIA: EJEMPLO 1 (PP. 25-26)
Este reactivo muestra una limitada exploracin en relacin con lo que se puede considerar per-
tinente culturalmente. En primer lugar, en el propsito se expresa que se trata de una narracin
indgena mexicana, pero no se aclara su origen (debemos recordar que en Mxico existen, al
menos 68 agrupaciones etnolingsticas segn informan el I NEGI y el I NALI). En segundo lugar,
la respuesta esperada por quienes disearon el reactivo es la que obtiene el porcentaje ms
bajo de respuestas positivas, especialmente entre los nios de primarias indgenas. Si el objetivo
de este reactivo era incluir informacin que considere la diversidad cultural existente en nues-
tro pas, sera esperable que los nios que asisten a primarias indgenas hubieran respondido
correctamente. Sin embargo, para la mayora de los estudiantes, la opcin de respuesta que se
propona como la correcta result poco clara. Sera conveniente contrastar el contenido del libro
de Espaol de tercer grado sobre la estructura de una narracin con este reactivo.
Anexo tcnico 183

ESPAOL CUARTO DE PRIMARIA: EJEMPLO 2 (P. 39)
En este ejemplo queremos destacar que los verbos en infinitivo se tratan de formas no activas
de dicha clase lxica. Por ese motivo se comportan de manera diferente a los verbos conjuga-
dos y no pueden fungir como ncleos de una oracin. Por este motivo, a muchos nios se les
dificulta usarlos como respuesta a una pregunta, ya que la forma en que se presentan la mayor
parte de los verbos en espaol es en alguna de sus formas activas.
184
ESPAOL QUINTO DE PRIMARIA: EJEMPLO 1 (PP. 26)
El uso de fbulas y refranes est directamente relacionado con la oralidad y se ha documentado

que cada da son menos los nios que son socializados utilizando este tipo de gneros discur-
sivos por la fuerte influencia de los medios electrnicos de comunicacin. Por lo tanto, resulta
difcil explorar la comprensin de este tipo de recursos lingsticos tanto por la complejidad de
pasarlos de la tradicin oral a una prueba escrita, como por el hecho de estar cayendo en desu-
so (Barriga, 2005). El curriculum implementado puede diferir considerablemente del curriculum
oficial. Es posible que los docentes, en su prctica, utilicen con poca frecuencia, en el espacio
del aula, fbulas o refranes con fines didcticos.
ESPAOL QUINTO DE PRIMARIA: EJEMPLO 2 (P. 32)
El uso de expresiones con fines copulativos como conjunciones, disyunciones y otras formas
de nexos resulta difcil de determinar, pues se trata de expresiones vacas de significado, que
requieren de un contexto lingstico claro para adquirirlo. Este reactivo carece de contexto, por
lo que la expresin que se est explorando pudiera coincidir tanto con lo que se responde en
el inciso D), como lo que se responde en el inciso C) dependiendo del contexto lingstico en la
cual pudiera aparecer. En consecuencia, se puede argumentar que el reactivo tiene dos posibles
opciones correctas.
Anexo tcnico 185

ESPAOL SEXTO DE PRIMARIA: EJEMPLO 1 (P. 24)
Este reactivo no permite evaluar si los estudiantes conocen el concepto de frase adverbial, pues
la respuesta se encuentra determinada por el significado de uno de los trminos utilizados en la
respuesta del inciso D) el marcador temporal despus y no en la estructura completa de los

enunciados. Se requiere ampliar el contexto lingstico para poder determinar si la respuesta en
D) es una frase adverbial.
ESPAOL SEXTO DE PRIMARIA: EJEMPLO 2 (P. 35)
El uso de parntesis en un texto es un recurso estilstico que no se encuentra claramente regu-

lado en el uso del espaol escrito, por lo que el reactivo podra tener, en realidad, ms de una
respuesta correcta. Adems, la ausencia del uso de comillas o cursivas dificulta le interpretacin
del material citado textualmente.
186
ESPAOL PRIMERO DE SECUNDARIA: EJEMPLO 1 (PP. 29-30)
La seleccin de un ttulo para cualquier texto es una decisin sumamente arbitraria. En general,
se espera que el ttulo guarde una estrecha relacin con el contenido del texto, pero tambin
suelen buscarse frmulas atractivas para el potencial lector a fin de invitar a la lectura. Este reac-
tivo podra llevar por ttulo varias de las opciones que se ofrecen como respuesta. Esta limitacin
puede ser la explicacin de que la opcin correcta no haya sido la respuesta ms frecuente.
ESPAOL PRIMERO DE SECUNDARIA: EJEMPLO 1 (P. 54)
Uno de los criterios para la seleccin lingstica se establece por la frecuencia de uso tanto de
los reactivos lxicos como de los enunciados. En el siguiente ejemplo, de acuerdo con la fre-
cuencia de uso de algunos de los trminos, tanto la respuesta incluida en el inciso B), como la
del inciso C) son sintctica y semnticamente correctas. La primera utiliza trminos de uso ms
frecuente en el espaol de Mxico, mientras la segunda recurre a un enunciado con un registro
mucho ms formal. Este fenmeno resulta claro cuando vemos el patrn de respuestas de los
estudiantes de primero de secundaria.
Anexo tcnico 187

ESPAOL SEGUNDO DE SECUNDARIA: EJEMPLO 1 (P. 29)
Existe ms de una respuesta correcta posible a la pregunta del reactivo. No hay claridad entre
el aprendizaje que se supone adquieren los estudiantes en el aula y el conocimiento que se ad-
quiere a partir de la experiencia cotidiana, el cual, se sabe, resulta muy impactante en la manera
en que las personas reaccionan ante instrucciones. Aun suponiendo que hay un pasaje de lectu-
ra que no se incluy junto con el reactivo, se podra argumentar que las primeras tres opciones
son correctas. Incluso la opcin D), en contextos particulares, puede ser una respuesta correcta.
188
ESPAOL SEGUNDO DE SECUNDARIA: EJEMPLO 1 (P. 42)
Cualquiera de los tipos de compendios informativos enlistados en las opciones es til para la
elaboracin de una investigacin. En su experiencia en el aula, los estudiantes pueden haber
estado expuestos a todos estos tipos de fuentes de consulta. Potencialmente, todas las opcio-
nes pueden ser correctas.
Espaol Tercero de Secundaria (pp. 27)
La respuesta que plantea el reactivo como correcta utiliza un verbo (dar) que, en el espaol de
Mxico, es inusual para referirse al intercambio comunicativo, salvo en expresiones como dar la
palabra que se refieren a cambios de turnos en una conversacin. Las leyendas, como otros tipos
de textos no se dan, se puede recopilar, escribir, colectar incluso producir. Los discursos impli-
can intercambio entre el emisor y el (o los) receptor(es), por lo que una accin que solo incluye un
agente resulta inapropiada culturalmente, no solo para los hablantes de lenguas indgenas, sino
tambin para los estudiantes que nicamente conocen el idioma espaol.
Anexo tcnico 189

ESPAOL TERCERO DE SECUNDARIA (P. 30)
El reactivo contiene ms de una respuesta potencialmente correcta. La formulacin de la pre-

gunta no incluye la suficiente informacin contextual para poder determinar si la respuesta
correcta es B) o D). Si se tiene en mente un artculo cientfico como texto cientfico, B) es una
respuesta correcta.
190
Anexo 3. Microanlisis de reactivos de Matemticas
M ATEMTICAS TERCERO DE PRIMARIA: EJEMPLO 1 (P. 72)
Existe en la literatura sobe la construccin de las relaciones espaciales evidencia de que muchos
nios, especialmente en el medio rural, conocen los puntos cardinales antes de ingresar a la
escuela primaria (Rojas 2006), pero lo hacen en contextos tridimensionales. Trasladar ese tipo
de conocimiento a un plano bidimensional resulta riesgoso, pues puede mezclar informacin
sobre la construccin de las nociones de espacio segn referencias absolutas con otro tipo
de conocimiento espacial como los conceptos arriba-abajo, derecha-izquierda, los cuales son de
naturaleza egocntrica. Evidentemente, esta falta de concordancia, que potencialmente pone
en desventaja a poblaciones rurales, no refleja un problema del reactivo necesariamente, sino
la necesidad de enriquecer los contenidos curriculares.
M ATEMTICAS TERCERO DE PRIMARIA: EJEMPLO 2 (P. 77)
La abundancia de elementos numricos puede hacer que las instrucciones sean difciles de de-
codificar para estudiantes de tercero de primaria. Podra haberse simplificado la formulacin si
los equipos hubieran recibido su nombre a partir de otro elemento clasificatorio como las letras
del alfabeto y as evitar incluir numerales tanto en la denominacin de los equipos como en las
operaciones aritmticas requeridas para solucionar el reactivo. Ntese la forma gramatical en la
lista en la base del reactivo (e.g., El equipo 1. Era de 4 nios y cada uno hizo 5 flores.) que es
poco frecuente en el espaol usado en Mxico.
Anexo tcnico 191

MATEMTICAS CUARTO DE PRIMARIA: EJEMPLO 1 (P. 65)
La notacin utilizada en este reactivo no es muy usual en Mxico. No solo se omite el signo
$, frecuentemente usado tanto en la escuela como fuera de ella. Tambin se omite la coma,
utilizada en Mxico para separar cifras (e.g., $17,448).
M ATEMTICAS CUARTO DE PRIMARIA: EJEMPLO 2 (P. 65)
Este reactivo presenta problemas de tipo estilstico y grfico tres de los cuadros estn colo-
reados en un tono de gris ms oscuro que el resto. La redaccin del texto es poco accesible y
posiblemente refleja la influencia del ingls (colocando azulejo a su pared). La formulacin de
la pregunta est hecha en un estilo de espaol poco frecuente en Mxico, pues no solemos
referirnos a fracciones de pared, sino a pedazos o partes.
192
M ATEMTICAS QUINTO DE PRIMARIA: EJEMPLO 1 (P. 67)
Este reactivo muestra inconsistencia con el uso de notacin numrica. En alguno de los ejemplos
anteriores observamos que se dejaba un espacio para separar a las unidades y decenas de millar
del resto de las cifras consignadas. En cambio, en este reactivo no se utilizan ni las comas ni los
espacios para diferenciar las unidades de millar. Ntese tambin el uso indebido de comas para
separar oraciones, lo que dificulta la interpretacin del reactivo.
Anexo tcnico 193

M ATEMTICAS QUINTO DE PRIMARIA: EJEMPLO 2 (P. 80)
En el espaol de Mxico es ms frecuente utilizar la expresin relacin que un trmino como

razn para referirse a fracciones en las que se usa como unidad de medida a personas. La es-
tructura gramatical de la primera oracin es innecesariamente compleja.
M ATEMTICAS SEXTO DE PRIMARIA: EJEMPLO 1 (P. 70)
Este es probablemente uno de los reactivos que captur nuestra atencin con mayor preocupacin.
A partir de la informacin y las instrucciones que se proporcionan, ninguna de las cuatro op-
ciones de este reactivo es correcta. De acuerdo con el significado cannico de la expresin
cuntos alumnos tienen entre 12 y 14 aos? la respuesta correcta debiera ser la suma de
alumnos que de 12, 13 y 14 aos de edad (440). Aun cuando (indebidamente) la interpretacin
de la expresin fuera alumnos de 13 aos de edad, tampoco hay una opcin que represente el
nmero 135.
194
M ATEMTICAS SEXTO DE PRIMARIA: EJEMPLO 2 (P. 74)
En Mxico no se utiliza la notacin dm3. Muchos estudiantes de sexto grado pueden no haber
estado expuestos a medidas de volumen ms all de los contenidos curriculares de Matemticas
sexto grado.
Anexo tcnico 195

M ATEMTICAS PRIMERO DE SECUNDARIA: EJEMPLO 1 (P. 93)
Adems que el reactivo no tiene una contextualizacin adecuada, faltan palabras en la oracin
de la base del reactivo. Es imposible que el estudiante pueda generar una respuesta correcta.
M ATEMTICAS PRIMERO DE SECUNDARIA: EJEMPLO 2 (P. 110)
Un eje de simetra es una lnea que divide a un cuerpo en dos partes con conjuntos de pun-
tos equidistantes. Por definicin, eje de simetra se refiere a un cuerpo o polgono, no a dos.
Sin embargo, el reactivo presenta grupos de dos figuras repetidas. En la manera en que est
planteado, el reactivo no da una opcin correcta (ninguna de las ocho figuras tiene un eje de
simetra) Cul opcin muestra aquellas (figuras) que son simtricas? sera la forma adecuada
de plantear el problema.
196
MATEMTICAS SEGUNDO DE SECUNDARIA: EJEMPLO 1 (P. 80)
La ilustracin utilizada en este reactivo es confusa y la falta de claridad impide distinguir la figura
del fondo. Las letras empleadas para denotar las lneas se confunden con las tonalidades de la
figura. Habilidades cognitivas y perceptuales, irrelevantes al constructo medido, pueden afectar
negativamente el desempeo de los estudiantes.
M ATEMTICAS SEGUNDO DE SECUNDARIA: EJEMPLO 2 (P. 86-87)
Aunque este reactivo pretende evaluar el conocimiento de la geometra, el desempeo de los

estudiantes puede ser afectado por habilidades cognoscitivas o perceptuales o por prcticas
culturales irrelevantes al constructo que se pretende medir. Al parecer, el cuadro de lnea pun-
teada representa la superficie de la cara del cubo superior derecho de la figura tridimensional.
Tal representacin no es clara, posiblemente por no ofrecer una proyeccin adecuada. La presen-
cia del espejo dificulta an ms la interpretacin de la imagen, pues ste se traslapa con el cuadro
punteado. Si el valo es un espejo, por qu es transparente y permite ver la lnea punteada?
Finalmente, no es claro si la flecha y la acotacin 90 indican rotacin, direccin o detalle.

La explicacin que se proporciona debajo de la figura no ayuda mucho a que el lector interprete
la representacin grfica.
Anexo tcnico 197

M ATEMTICAS TERCERO DE SECUNDARIA: EJEMPLO 1 (P. 93)
La base del reactivo no especifica la posicin del tringulo con respecto al crculo. El alumno
tiene que suponer que el ngulo alfa se origina en el centro del crculo. Debido a la ausencia de
esa especificacin, la opcin correcta tambin podra ser D).
Se usa la segunda persona del singular del registro formal (forma usted): Observe el siguien-
te crculo. Aunque es difcil que el desempeo del estudiante sea afectado por esta forma
poco comn, sta refleja que el estilo de redaccin de los reactivos es inconsistente, pues en el
resto de los reactivos se usa la forma coloquial t.
198
La ilustracin tiene un estilo representativo inconsistente con el resto de los reactivos (sombrea-
do, escala de tono gris, recuadro).
No es claro por qu, si emiten rayos laser (que no se expanden), las lmparas hacen que se
forme un crculo.
El planteamiento del contexto geomtrico como tridimensional es innecesario, puesto que el

problema involucra un plano y el clculo de la mitad de la medida de un ngulo a partir de las
medidas de los catetos y la hipotenusa.
Ntese que, adems de los problemas mencionados, la redaccin es pobre y confusa.
Ni la base del reactivo ni las leyendas de las ordenadas especifican que el nmero de kilos repre-
sentados es acumulativo. Por lo tanto, ninguna de las opciones es correcta. La opcin correcta
debiera representar una lnea horizontal a la altura de 35 kilos, o bien la leyenda de la ordenada
en todas las grficas debiera decir: kilos de pescado acumulados
Adems de los problemas mencionados, las grficas son muy pequeas y difciles de segmentar
para poder responder la pregunta.
Anexo tcnico 199

200
L AS PRUEBAS ENLACE PARA EDUCACIN BSICA
UNA EVALUACIN PARA EL I NSTITUTO N ACIONAL
PARA LA EVALUACIN DE LA E DUCACIN
En su formacin se utilizaron las familias

tipogrficas: Frutiger Lt Std y Museo.

Las Pruebas ENLACE

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Las Pruebas ENLACE

Transféré par

Droits d'auteur :

Formats disponibles

ANEXO

Las pruebas ENLACE

Felipe Martnez Rizo

Luis ngel Contreras Nio Eugenio Gonzlez

Universidad Autnoma de Aguascalientes

Primera edicin, 2015

Luis ngel Contreras Nio, Eugenio Gonzlez,

D.R. Instituto Nacional para la Evaluacin de la Educacin

Impreso y hecho en Mxico.

Consulte el catlogo de publicaciones en lnea: www.inee.edu.mx

La elaboracin de esta publicacin estuvo a cargo de la Direccin General

Martnez Rizo, F. (Coord.) (2015). Las pruebas ENLACE para educacin

Alineacin a los referentes .......................................................................................... 22

Conclusiones y recomendaciones ............................................................................. 164

Referencias bibliogrficas.......................................................................................... 168

Sylvia Irene Schmelkes del Valle

Eduardo Backhoff Escudero

Gilberto Ramn Guevara Niebla

Margarita Mara Zorrilla Fierro

Teresa Bracho Gonzlez

En diciembre de 2009 la Universidad Autnoma de Aguascalientes (UAA ) y el Instituto

Se precisa que el Estudio deber comprender al menos cinco aspectos:

1. La alineacin al currculo de la educacin bsica de Mxico, revisando el grado en que

En diciembre de 2013 y enero de 2014 cada par de especialistas trabaj revisando la

Felipe Martnez Rizo

Un paso inicial obligado para emprender el trabajo que se encomend al grupo de

En 1966 la American Psychological Association (APA ) y la American Educational Research Asso-

A fines de la dcada de 1980, segn Messick, la validez de contenido se valora cuando se

La validez de constructo es evaluada al indagar el grado en que un instrumento mide un cons-

La validez de constructo subsume la de contenido relevancia y representacin de un dominio y

Adems la validez es cuestin de grado, no de todo o nada. Con el tiempo la evidencia de

Las conceptualizaciones actuales de validez incluyen las consecuencias sociales e individuales

Stanley presenta frmulas para el clculo de la confiabilidad en situaciones particulares, mos-

En mi opinin no puede haber respuestas significativas a las preguntas sobre la confiabi-

RELACIN ENTRE VALIDEZ Y CONFIABILIDAD

La validez es la cualidad ms importante de una evaluacin educativa (assessment), pero

Tabla 1Pasos de una evaluacin de aprendizajes mediante pruebas

Etapas Pasos particulares

Fuente: Elaboracin propia.

LOS CRITERIOS UTILIZADOS EN EL TRABAJO

Inicialmente, a partir de una revisin de la literatura especializada, se lleg a una propuesta de

Tabla 2reas, criterios y subcriterios utilizados

reas Criterios Subcriterios

ALINEACIN A LOS REFERENTES

1. El marco conceptual de la prueba toma en cuenta cmo la efectividad en el aprendizaje,

La lista completa de criterios y subcriterios puede verse en el anexo 1.

El anlisis se ha llevado a cabo teniendo en cuenta los siguientes aspectos:

A NLISIS DEL CURRCULO CUYO DOMINIO SE EVALA

Fuente: Documento ANALISIS_2012_2013.pptx

Alineacin a los referentes 23

tegia de trabajo conjunto (desarrolladores del currculum y diseadores de prueba), aunque no

Anlisis explcito (y debidamente documentado) del currculum como universo de medi-

Fuente: Manual Tcnico ENL ACE 2012

Alineacin a los referentes 25

Fuente: Manual Tcnico ENL ACE 2012

Fuente: Manual Tcnico ENL ACE 2012

Fuente: Manual Tcnico ENL ACE 2012

Fuente: Manual Tcnico ENL ACE 2012

Ms all de diferencias de estilo en las tablas, se evidencian diferentes niveles de es-

Alineacin a los referentes 27

ALINEACIN DE LA PRUEBA CON EL CURRCULO

2. Se presentan evidencias de la forma en que se definieron las especificaciones de la

Otro factor imprescindible que permite trabajar en favor de la consecucin de la validez de

En cuanto a si esta forma de actuacin metodolgica se dio en el diseo de ENLACE, en los

Tabla 2reas, criterios y subcriterios utilizados