Académique Documents
Professionnel Documents
Culture Documents
ANEXO
Cuaderno de investigacin
40
Las pruebas ENLACE para educacin bsica
Una evaluacin para el Instituto Nacional para la Evaluacin de la Educacin
Coordinador
Felipe Martnez Rizo
Editora
Mara Norma Ordua Chvez
Correccin de estilo
Hugo Soto de la Vega
Formacin
Martha Alfaro Aguilar
Presentacin ................................................................................................................... 7
Introduccin ................................................................................................................. 11
Anexos
Criterios y subcriterios de evaluacin ............................................................................................... 173
Microanlisis de reactivos de Espaol .............................................................................................. 181
Microanlisis de reactivos de Matemticas....................................................................................... 191
5
DIRECTORIO
JUNTA DE GOBIERNO
Dicho Anexo de Ejecucin, con base en el cual se lleva a cabo el trabajo al que se refiere este
informe, precisa que el estudio de validacin de las pruebas ENLACE y E XCALE de educacin
bsica analizar varios aspectos de la calidad de dichas pruebas, con base en la documenta-
cin que sobre su diseo, aplicacin, resultados y la utilizacin y consecuencias de los mismos
aporten la SEP y el INEE y, en la medida en que sea necesario, en informacin adicional propor-
cionada por personas de la SEP, el INEE y los sistemas educativos de las entidades federativas
del pas, en relacin con aspectos de los que no haya elementos suficientes en la informacin
documental que se recabe.
El estudio incluir recomendaciones que tengan en cuenta las mejores prcticas internaciona-
les... de manera que el desarrollo del sistema nacional de evaluacin de Mxico, en lo relativo a
educacin bsica, incluya evaluaciones de aprendizajes en gran escala que, por la calidad de su
diseo y aplicacin, as como por el uso que se haga de sus resultados, contribuyan en la mayor
medida posible al propsito de mejorar la calidad de la educacin mexicana.
7
El trabajo comprendera cuatro etapas, que terminaran en noviembre de 2013, y en marzo, julio
y septiembre de 2014, respectivamente.
El Anexo de Ejecucin sealaba tambin que la UAA debera proponer al INEE a diez especialis-
Las pruebas ENLACE para educacin bsica
tas, mexicanos y extranjeros, formando cinco parejas, cada una a cargo del anlisis de uno de
los aspectos del estudio, y precisaba el perfil que deberan tener los propuestos. La Universidad
propuso al Instituto a los autores de este trabajo y el INEE comunic a la UAA su aprobacin
de las personas propuestas. En el informe entregado en noviembre de 2013 se puede ver el
programa detallado de trabajo y, en anexo, las hojas de vida de los participantes.
Los cinco apartados principales de este documento presentan el anlisis hecho por los especia-
listas en relacin con los criterios anteriores. El anlisis se hizo entre diciembre de 2013 y marzo
de 2014, e implic las siguientes actividades:
8
El 22 de marzo tuvo lugar una reunin virtual en la que todos los especialistas hicieron
observaciones a la versin integrada recibida.
El coordinador incorpor las observaciones hechas en la reunin virtual y las que hicieron
llegar los miembros del grupo y con ello integr esta versin del segundo informe, que
se envi al INEE el 31 de marzo de 2014.
Debe subrayarse que el informe entregado en marzo de 2014 no tena el carcter de versin final
del anlisis de las pruebas ENLACE encomendado al grupo de autores que lo suscribimos, por
dos tipos de razones:
La brevedad de los tiempos disponibles para el trabajo, acotados por los momentos en
que se recibi la informacin documental de que se dispuso y la informacin adicional
recabada por el personal de la UAA .
Y porque la formulacin de las consideraciones que haramos al INEE en cuanto al futuro
que creemos deseable para la evaluacin de aprendizajes deberan tener en cuenta el
anlisis de las pruebas ENLACE , pero tambin el de las de E XCALE, que seran objeto de
la atencin del grupo en la etapa siguiente del proyecto, de abril a junio de 2014.
En consecuencia, al final del proyecto los informes previos se podran modificar para incluir ele-
mentos que complementaran los de los informes entregados al fin de cada etapa, enriqueciendo
o matizando algunos puntos en particular. Por otra parte, los cambios que el INEE y la UAA acor-
daron hacer al convenio, para incluir entre las pruebas a analizar las de ENLACE para educacin
media superior, hicieron que las etapas se extendieran a cinco, y la entrega de los productos
finales se fijara para el 19 de diciembre de 2014.
Por todo lo anterior, esta nueva versin del informe sobre ENLACE que se entrega en diciembre
de 2014, junto con el informe final, retoma el informe de marzo con ligeras modificaciones,
como se prevea. Las ms importantes se refieren a los apartados I y II, como resultado del ajuste
que se hizo de los criterios y subcriterios correspondientes, por lo que en esta versin algunos
puntos de dichos apartados se han reubicado.
Reiteramos que nuestros anlisis y valoraciones se refieren siempre a nuestro objeto de estudio
en este informe las pruebas ENLACE y de ninguna manera a las numerosas personas involucra-
das en su desarrollo, su aplicacin y el procesamiento de resultados. Adems, el trabajo que se nos
encomend tiene un propsito claro de carcter tcnico, y no uno de rendicin de cuentas, para
el que sera indispensable otro enfoque, ya que las deficiencias que se hayan podido identificar
pudieron deberse en buena medida a las dimensiones de los operativos, as como a los tiempos y
otros condicionantes externos, pese a las intenciones y los esfuerzos de las personas responsables.
Por ltimo sealamos que este informe y los dems del proyecto son producto del trabajo colec-
tivo del grupo, si bien cada par de especialistas tuvo una participacin principal en el apartado
que le corresponda. Los momentos de discusin colectiva permitieron enriquecer las aportacio-
nes de cada persona con la visin del resto, lo que llev a un grado de consenso considerable,
aunque no absoluto.
Presentacin 9
Introduccin
L A VALIDEZ
Aunque hay autores que cuestionan la utilidad de la nocin, debido a la diversidad de formas
de entenderla, la opinin que compartimos est de acuerdo en que la cualidad fundamental de
una medicin es, precisamente, la validez que, como se ver en seguida, supone la confiabili-
dad, sin reducirse a ella.
Hasta los aos cincuenta del siglo XX el concepto de validez se enfocaba a la prediccin de un
criterio particular, como muestra la definicin de Guilford: en un sentido general, una prueba
es vlida para cualquier cosa con la que se correlaciona (Messik, 1989: 18).
Un lustro ms tarde uno de los grandes autores del campo define la validacin como el proceso
de examinar la exactitud de una prediccin especfica o una inferencia hecha a partir de la pun-
tuacin de una prueba o de los resultados de un instrumentos de medicin, como cuestionarios,
observaciones y calificaciones de desempeo (Cronbach, 1971: 433).
Este autor sealaba que el trmino validacin de una prueba refleja una comprensin imprecisa
del concepto. El investigador no valida una prueba, sino la interpretacin de datos derivados de
un procedimiento especfico. Un instrumento puede usarse de diferentes maneras. Una prueba
de lectura, por ejemplo, puede ser usada para seleccionar a los aspirantes de cierta carrera pro-
fesional, para planear instruccin remedial en lectura, para medir la efectividad de un programa
de enseanza, entre otras posibilidades. Dado que cada uso se basa en una interpretacin dife-
rente, la evidencia que justifica una utilizacin puede tener poca relevancia para otra. Y al tener
cada interpretacin su propio grado de validez no se puede llegar a la simple conclusin de que
una determinada prueba es vlida sin ms.
En las dcadas de 1970 y 1980 las definiciones de validez se centraron en los tipos menciona-
dos: de contenido, criterio (predictiva y concurrente) y constructo, con preponderancia creciente
11
del ltimo. Luego el foco de la validez se centr en el significado o interpretacin de los puntajes
obtenidos con un instrumento de medicin, pero se mantuvo el nfasis en la validez de construc-
to, como la esencia de una concepcin unitaria de validacin, que se resume en la conclusin de
Cronbach (1988): toda validacin es una sola.
Las pruebas ENLACE para educacin bsica
La validez de criterio se evala al comparar los puntajes de la prueba con una o ms variables
externas llamadas criterio, que pueden ser medidas al mismo tiempo o posteriormente que
se considera proveen una medicin diferente de las conductas o caractersticas en cuestin.
Una evidencia particular se refiere a la validez de escala que tiene dos vertientes:
Por una parte, la eleccin de la escala especial para cada proyecto, que permite reportar en
ella los resultados globales y parciales, sin utilizar porcentajes o notas 0-10. En la validez de
escala, los conceptos de validez de la prueba (contenido, criterio y constructo) se extienden a
la propia escala de manera que tambin se asocie con el constructo, permitiendo representar
diferencias de desempeo de las personas y los tems.
Por otra parte, la validez de escala (validez prctica o de utilidad de la escala), que se refiere
a las evidencias que se aportan para demostrar que el instrumento cuenta con tems en toda
la gama de dificultades, y preferentemente con una distribucin uniforme, lo cual proporciona
una garanta de que no hay sesgo a priori (una prueba fcil o una prueba difcil desde el diseo);
que se cubre toda la escala de medidas para todos los sustentantes desde el de menor hasta el
de mayor competencia; y que el diseo no presenta saltos y apilamientos de reactivos, redu-
ciendo la validez de la medida en algunos de los puntos de la escala. (Bond y Fox, 2001; Dawis,
1987; Johnson, 2004; Linacre, 2006; Tristn y Vidal, 2007; Wright y Stone, 2004)
Aunque hay diferentes fuentes y mezclas de evidencias que soportan las inferencias realizadas
a partir de las puntuaciones, la validez es un concepto unitario que siempre refiere al grado en
que la evidencia emprica y el fundamento terico apoyan lo adecuado de las interpretaciones
y acciones realizadas a partir de las puntuaciones de un instrumento (Messick, 1989: 13).
12
consecuencias sociales de las evaluaciones se transforman a partir de la evidencia sobre con-
secuencias reales en la actualidad y las cambiantes condiciones sociales. Entonces, inevitable-
mente, la validez es una propiedad en evolucin, y la validacin un proceso continuo.
En la versin ms reciente de los Standards for Educational and Psychological Testing la validez se
define como el grado en que evidencia y teora respaldan las interpretaciones de los puntajes de
una prueba y los usos que se pretende hacer de ellos (AERA-APA- NCME, 1999: 9). Esta definicin
coincide con la visin de Messick (1989) y la ms reciente de Kane (2006), en el sentido de que el
proceso de validacin debe enfocarse a la interpretacin y los usos de las puntuaciones obtenidas
mediante un instrumento de medicin.
Kane, uno de los principales tericos del tema, seala que validar una interpretacin o uso de
los puntajes de una prueba es evaluar la plausibilidad de las afirmaciones que se harn a partir
de esos puntajes. Por lo tanto, la validacin requiere una clara declaracin de los propsitos
para los que se emplearn las interpretaciones y usos de los resultados (2013: 1).
Este mismo autor seala que el enfoque de validacin basada en evidencias se apoya en ocho
ideas, de las cuales la primera es que lo que se valida no es una prueba en s misma o sus pun-
tajes sino la interpretacin de stos y el uso que se haga de ellos. En este documento conviene
destacar otras dos de esas ideas: que las afirmaciones ms ambiciosas requieren de mayores
evidencias que las soporten que las menos ambiciosas; y que las afirmaciones ms ambiciosas
como las inferencias sobre constructos o las causalessuelen ser ms tiles que las afirmacio-
nes menos ambiciosas, pero son ms difciles de validar.
Una dimensin ms de la nocin es la que denota la expresin validez cultural, definida como
el grado en que el diseo, el proceso de desarrollo y el contenido de una prueba toman en
consideracin la forma en que factores de naturaleza cultural, lingstica y socioeconmica dis-
tintos de los constructos de inters influyen en la manera en que se interpreta el contenido de
los tems y la forma en que se responden (cfr. Basterra, Trumbull y Solano-Flores, 2011). Messick
apuntaba ya que el proceso que siguen los sujetos al responder una prueba es un aspecto de
la validez, distinto tanto de la validez de contenido como de la que tiene que ver con la estruc-
tura interna y externa del test o con las consecuencias de su uso. Anticipaba as una dimensin
a la que solo en tiempos recientes se presta atencin, si bien esta es creciente.
L A CONFIABILIDAD
El concepto de confiabilidad fue introducido por el psiclogo britnico Charles Spearman, quien
lo defini como el coeficiente de correlacin entre una mitad y la otra de varias mediciones
de la misma cosa (Stanley, 1971: 370).
Introduccin 13
Thorndike comenzaba definiendo la confiabilidad a partir de su opuesto, diciendo:
Cada vez que medimos algo... esa medicin tiene cierta cantidad de error aleatorio, grande
o pequeo, pero omnipresente... las discrepancias pueden expresarse en millas o en millo-
Las pruebas ENLACE para educacin bsica
nsimas de milmetro, pero aparecern siempre, si las unidades son suficientemente finas
en relacin con la precisin de las medidas. El que conjuntos repetidos de medidas nunca
se dupliquen exactamente es lo que se quiere decir con la expresin no confiabilidad.
Al mismo tiempo, medidas repetidas de una serie de objetos o individuos mostrarn, por
lo general, cierta consistencia... lo opuesto a la variacin a la que nos acabamos de referir,
y que designaremos como confiabilidad (Thorndike, 1951, p. 560).
Thorndike permite distinguir dos cualidades relacionadas pero no idnticas de una medicin, su
precisin y su consistencia, al sealar que se puede calcular el tamao de los errores de medi-
cin mediante la desviacin estndar de la distribucin de los resultadosel error estndar de
la medicin o estimar la consistencia entre dos conjuntos de puntuaciones, segn su correla-
cin, mediante un coeficiente de confiabilidad.
A partir de trabajos de Kelley desde la dcada de 1920, Thorndike explica la relacin entre
coeficiente de confiabilidad y error de medicin, que ayuda a evitar interpretaciones simplistas
del primero, ya que coeficientes de confiabilidad altos, de 0.8 y 0.9, corresponden a errores de
medicin de 0.45 y 0.32. Con un nmero considerable de casos y diferencias pequeas de los
puntajes de cada uno, lo anterior implica que habr importantes traslapes entre los interva-
los de confianza, haciendo poco claros los ordenamientos de los resultados.
Dos dcadas ms tarde Feldt y Brennan presentan 12 coeficientes de consistencia interna para
casos particulares (subdivisin de una prueba en dos, tres o ms partes), y presentan la Teora
de la Generalizabilidad (TG), basada en trabajos de Cronbach y otros desde la dcada de 1960
(1989: 115). La TG , para ellos:
...puede ser vista como una extensin y liberalizacin de la teora clsica, que se logra
bsicamente gracias a la aplicacin del anlisis de varianza a los datos de la medicin.
En la teora clsica el error de medicin se ve como una entidad unitaria, global, aunque
se reconoce que se deriva de una combinacin de fuentes. En contraste, los modelos y
mtodos de la teora de la generalizabilidad se interesan por los errores derivados de esas
mltiples fuentes como entidades separadas... (1989: 127-128)
Recientemente Haertel seala que los principios clsicos y de la TG siguen siendo vlidos, y se-
ala que las teoras o modelos de respuesta al tem constituyen una forma distinta de abordar
la confiabilidad. (2006: 99-103)
En otro trabajo reciente, Brennan seala que, al igual que ocurre con la validez, la confiabilidad
tampoco es una propiedad que se pueda predicar de una prueba u otro instrumento cualquiera
de obtencin de informacin. La consistencia con la que se define la nocin se refiere a los datos
que se obtienen, los puntajes de los alumnos que sustentan una prueba o las respuestas que se
dan a una encuesta.
14
Brennan considera las implicaciones que tiene para la comprensin de la nocin de confia-
bilidad la nocin de rplica, en el sentido de un proceso de medicin que duplique lo ms
exactamente que sea posible las condiciones de una aplicacin previa. Las palabras en cursiva
de la frase anterior parten de la idea de que es imposible conseguir una rplica perfecta, ya
que una nueva aplicacin implicar inevitablemente cambio en al menos algunos aspectos
del proceso. Esta idea es similar a la que forma el centro de la Teora de la Generalizabilidad,
la de que no hay un solo tipo de error en el resultado de cualquier medicin sino varios, que
se pueden derivar de mltiples fuentes: el instrumento, desde luego, pero tambin las oca-
siones en que se hace una aplicacin, incluyendo la original y sus rplicas, los aplicadores o
calificadores, entre otras. Por ello Brennan sostiene que la nocin de rplica es fundamental
para la definicin de confiabilidad, que l expresa como sigue: la confiabilidad es una medida
del grado de consistencia de los puntajes de los sustentantes en las rplicas del procedimiento
de medicin (Brennan, 2001: 296). Es el procedimiento completo de medicin, y no solo el
instrumento, lo que puede afectar la consistencia de los resultados. Brennan concluye:
Se acepta generalmente que puede haber confiabilidad sin validez, pero no al contrario: la ausen-
cia de confiabilidad impide que haya validez. Para comprender esta idea conviene remitirse a la
definicin ms sencilla de validez, que dice que sta consiste en medir realmente lo que se quiere.
Puede parecer ilgico que alguien pueda medir algo que no quiere, pero si se reflexiona sobre
la complejidad de muchas variables que se estudian en ciencias humanas, as como en su ca-
rcter no evidente sino latente (constructo), se podr estar de acuerdo en que las definiciones
operacionales de esas variables, y los indicadores en que se concretan, no siempre reflejan
adecuadamente la realidad subyacente, por lo que la informacin que se podr obtener con un
instrumento desarrollado a partir de tales operacionalizaciones medir en realidad algo distinto
de lo que el investigador pretenda medir. Esa medicin podr ser consistente, o sea que podr
tener confiabilidad, pero carecer de validez.
Ahora bien: la falta de confiabilidad de una medicin indica que la proporcin de error o de ruido
en la informacin obtenida es demasiado grande. La ausencia de confiabilidad indica que no se
est midiendo en realidad ninguna variable, ni la que se pretenda ni otra, ya que los resultados
se deben al azar tanto o ms que a cualquier factor determinado.
Para decirlo de otra forma: la falta de confiabilidad implica tambin ausencia de validez. Por
ello una buena validacin no podr considerarse suficiente si no incluye un slido anlisis de
la confiabilidad.
Introduccin 15
LA VALIDACIN COMO CUIDADO INTEGRAL
DE LA CALIDAD DE UNA MEDICIN
El marco de referencia adoptado por el grupo se basa en las ideas sintetizadas en los prrafos an-
Las pruebas ENLACE para educacin bsica
teriores, as como de un enfoque para la validacin que proponan hace casi dos dcadas Crooks,
Kane y Cohen:
La tabla 1 sintetiza los pasos que implica el uso de una prueba para evaluar del aprendizaje,
desde el desarrollo del instrumento hasta la toma de decisiones con base en los resultados.
Los pasos incluyen los que mencionan Crooks, Kane y Cohen pero se aaden otros. Con las
adecuaciones necesarias, la serie de pasos se puede aplicar a cualquier proceso de obtencin
de informacin emprica mediante instrumentos estructurados. Se distinguen cinco etapas cada
una de las cuales comprende tres pasos particulares.
16
La nocin del eslabn ms dbil a la que alude el texto de Crooks, Kane y Cohen es importante:
basta con que un paso tenga fallas graves para que el resultado se vea comprometido, aunque
todos los dems pasos sean adecuados. Un error grave de impresin, irregularidades fuertes en
la aplicacin, problemas de logstica o fallas en la calibracin de un lector ptico pueden distor-
sionar los resultados de la aplicacin de una prueba bien diseada, que use un modelo psico-
mtrico muy slido, con un sofisticado muestreo y otras cualidades tcnicas. Lo mismo puede
decirse si se utiliza una clave de respuestas equivocada, o si se cometen errores importantes al
analizar los datos. Tambin se puede llegar a juicios de valor injustos con informacin correcta
y sta no basta para evitar la toma de decisiones que generen resultados contraproducentes o
produzcan daos considerables.
As pues, una validacin completa de evaluaciones como ENLACE y E XCALE no se puede reducir
a revisar la calidad de los instrumentos: debe incluir la aplicacin, el procesamiento de la infor-
macin y el uso de resultados, lo que para hacerse a fondo implica tiempos amplios y el trabajo
de numerosos investigadores.
En un contexto de tiempo y recursos limitados el trabajo no puede ser exhaustivo, pero s pre-
tendemos ofrecer un conjunto de juicios suficientemente sustentados en la informacin docu-
mental a que tuvimos acceso y en la que obtuvimos mediante entrevistas con personal a cargo
de las pruebas y con funcionarios de algunas entidades federativas y/o cuestionarios aplicados
en la mayor parte de estas.
Consideramos que las conclusiones a las que pudimos llegar estn sustentadas con suficiente
solidez en tales evidencias, y permitirn tener una idea bastante completa sobre las pruebas
a las que se refiere el proyecto y, en el caso de este informe, en particular sobre las prue-
bas ENLACE de educacin bsica.
Introduccin 17
La lista de los 58 criterios, sin los subcriterios, es la siguiente:
1. Se cuenta con un documento que revisa la teora del contenido (curricular u otro) y es el
marco terico que orienta el desarrollo de la prueba.
2. Se presenta evidencia de la forma en que se definen las especificaciones de la prueba
en trminos de objetivos, competencias u otro referente.
3. Se explica el procedimiento usado para determinar la importancia relativa de los con-
tenidos que se decidi evaluar, o se incluye anlisis de unidades del dominio y su
densidad diferencial.
4. Se asegura la representatividad de los tems y las subescalas respecto a los subdominios
y el dominio definidos.
5. Se cuida la alineacin en cuanto a la complejidad cognitiva del contenido.
6. Existe un documento manual o gua de redaccin o diseo de reactivos en el que se
especifican y justifican los procedimientos para formularlos.
7. Los reactivos son diseados por un comit seleccionado teniendo en cuenta la espe-
cializacin acadmica, laboral y su representatividad respecto a la diversidad del pas, y
estuvo coordinado por una persona calificada.
8. Existe un manual o gua para el anlisis de reactivos que seala los criterios de acepta-
cin, revisin y modificacin.
9. Hay un comit de revisin calificado para aplicar lo que define el manual.
10. La revisin de tems incluye anlisis de calidad tcnica, congruencia tem-contenido,
posibles fuentes de sesgo y concordancia de juicio de revisores.
11. Se cuida la alineacin de la prueba en general.
A SPECTOS PSICOMTRICOS
1. Se documentan las evidencias relativas a los diversos tipos de validez que se consideran
usualmente en la medida en que sean aplicables.
2. Se cuenta con anlisis integrales de los procesos y mtodos utilizados para desarrollar
las pruebas, definiendo equivalencia y periodicidad.
3. Se documentan los procedimientos utilizados para la calibracin de las pruebas y para
el anlisis psicomtrico.
4. Se ofrece informacin sobre la confiabilidad de las pruebas.
5. Se documentan los procedimientos para el anlisis psicomtrico de los tems y para el
cuidado de su calidad.
6. Se ofrecen evidencias sobre la calidad de los bancos de tems.
7. Se informa sobre los procedimientos seguidos para la calificacin de los sujetos que
responden las pruebas.
8. Se justifica lo relativo al establecimiento de los niveles de desempeo y la interpretacin
de resultados de las pruebas.
18
ATENCIN A LA DIVERSIDAD
APLICACIONES
1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicacin
censal o como marco muestral.
2. Cuando proceda, las muestras se disean utilizando diseos slidos; los estratos se
definen con base en argumentos tericos defendibles.
3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el
que se planific.
Introduccin 19
4. Se verifica que la muestra obtenida concuerde con la planificada dentro de mrge-
nes aceptables.
5. Se planifica todo lo necesario para estandarizar la aplicacin, con formas y materiales
que aseguren la comparabilidad de los datos.
Las pruebas ENLACE para educacin bsica
6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la recolec-
cin de datos, en todos los niveles.
7. Se fijan lmites realistas de la carga de responder pruebas y cuestionarios de contexto
para que no sea excesiva tomando en cuenta los sujetos.
8. Se busca motivar a sujetos para que no respondan preguntas a la ligera.
9. Se desarrollan procedimientos para lidiar con la no-respuesta o rechazo a responder a
la prueba y se entrena al personal de aplicacin para ello.
10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de fraude
y se entrena al personal de aplicacin para seguirlos.
11. Se manejan procedimientos para asegurar la calidad de las aplicaciones.
12. Hay manuales que detallan aspectos a cuidar para crear archivos segn normas inter-
nacionales: introduccin de datos; identificadores de alumnos, maestros o escuelas; va-
riables a incluir, cdigos vlidos, de datos faltantes o respuestas no aplicables; formato,
estructura de archivos, limpieza, etc.
13. Hay personal calificado para manejar los datos y se le entrena en todos los aspectos del
trabajo, asegurando que est familiarizado con procedimientos aceptados para manejar
datos y que comprende la importancia de recolectar y capturar la informacin con el
cuidado necesario para que los anlisis posteriores se hagan sobre informacin de la
mejor calidad posible.
14. Se llevan a cabo procedimientos para maximizar la calidad de las bases de datos que
concentran los resultados de la aplicacin.
15. Hay procedimientos para asegurar que la lectura de respuestas y todos los pasos del
procesamiento y verificacin de los datos son confiables.
16. La coordinacin del estudio es notificada de cualquier inconsistencia en los datos.
Toda modificacin que resulte de la resolucin de inconsistencias deber ser aprobada
y documentada.
USOS Y CONSECUENCIAS
1. Se presentan argumentos lgicos o tericos y evidencia emprica que respalde los usos y
consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un
apoyo terico o emprico.
2. Se documenta y evala el grado en que se producen las consecuencias previstas y/o
deseables de la prueba.
3. Los resultados de las pruebas se reportan en plazos razonables y se proveen mecanis-
mos de difusin y acceso para todas las partes sin discriminacin.
4. Se apoya a instituciones y usuarios para desarrollar la capacidad necesaria para la ade-
cuada interpretacin y utilizacin de los resultados.
5. Se informa a los usuarios sobre los propsitos y caractersticas de la prueba, lo que pue-
de o no medir y los usos y consecuencias previstas. Se ofrecen ejemplos e informacin
suficiente sobre la interpretacin de los resultados.
6. Se utiliza lenguaje claro y preciso sin jerga tcnica innecesaria; se explican trminos
tcnicos en lenguaje claro y comprensible.
7. Se ofrece marco normativo para evaluar el desempeo de los examinados. Se describe
el perfil y caractersticas de la poblacin de referencia.
20
8. Se da informacin para minimizar posibilidad de interpretaciones incorrectas. Se notan
limitaciones y errores comunes al comparar aos, dominios, grupos o niveles de agre-
gacin. Se usan categoras precisas que no estigmaticen.
9. Se advierte sobre usos para los que no existe suficiente evidencia de validez. Aunque
no se pueden prever todos los usos o interpretaciones inapropiadas, se busca identificar
y acotar los ms probables.
10. Se documenta la existencia de usos o consecuencias imprevistas, ya sean adecuadas/
positivas, o inadecuadas/negativas.
11. Cuando existe evidencia confiable de usos inapropiados estos se investigan en grado y
detalle adecuado. Si estos usos persisten se informa a los usuarios y se intenta tomar
acciones correctivas.
Al final del informe se presentan las referencias que se utilizaron en todos los apartados, as
como otros anexos, que incluyen el microanlisis de reactivos de Espaol (anexo 2) y de reacti-
vos de matemticas (Anexo 3) hechos para el apartado de validez cultural.
No se incluyen otros anexos que se hicieron llegar al INEE con la versin del informe entregada
en marzo de 2014, que fueron las transcripciones de las entrevistas que se hicieron a funciona-
rios de la SEP, el INEE y las entidades federativas, as como de las respuestas a los cuestionarios
que se recibieron de las entidades.
Las cinco partes principales de este informe que se encuentran en las pginas siguientes pre-
sentan los anlisis hechos por los pares de especialistas, aplicando los criterios mencionados.
Introduccin 21
1 Alineacin a los referentes
CONSIDERACIONES PREVIAS
Las pruebas censales presentan un condicionante inicial que influye de manera decisiva
en la representatividad del dominio curricular que pretenden evaluar: los imperativos
logsticos llevan a que deban ser pruebas de una longitud limitada, por lo que cualquier
prueba censal parte de este hndicap.
No obstante lo anterior, el grado de representatividad puede atenderse de formas ms
o menos rigurosas. En este sentido, nos centramos en el anlisis del grado en que los
procesos utilizados se han desarrollado con el rigor suficiente como para asegurar un
adecuado nivel de calidad.
La prueba ENLACE viene desarrollndose desde 2006 y hasta el 2013. De este modo,
y tal como comentaremos posteriormente, se aprecia una evolucin importante en sus
procesos metodolgicos. En cualquier caso, desde nuestro punto de vista, no se trata
de realizar una valoracin histrica de su diseo, sino de comprobar el nivel de calidad
que la prueba ha alcanzado en la actualidad.
Por este motivo, entendemos que las evidencias de mayor vala para valorar la calidad de
la prueba son los manuales de 2012 y el recientemente difundido de 2013. Las evidencias
anteriores, se utilizan como medio para comprender y/o explicar mejor los factores que
se han ido dando en su diseo y que impactan de manera positiva o negativa en su cali-
dad actual. En cualquier caso, este comit ha tenido en cuenta todas ellas.
1 Se cuenta con un documento que revisa la teora del contenido curricular y es el mar-
co terico que orienta el desarrollo de la prueba.
tt El documento incluye un anlisis de las reas del currculo que evaluar la prueba, que pre-
cise los subdominios y contenidos, as como competencias y niveles de demanda cognitiva
que se debern cubrir.
Un elemento clave para valorar el grado en que ENLACE deviene del contenido curricular y
su marco terico es la inestabilidad del currculum en Mxico. Como referencia contextual,
nicamente se seala que durante el periodo de diseo y desarrollo de la prueba el currculo
vari en numerosas ocasiones, incluso presentando cambios que se anunciaron un da hbil
antes del comienzo del ao escolar.
22
Esta falta de estabilidad curricular, sin duda, ha constituido un hndicap importante para los
constructores de la prueba.
De este modo, durante el periodo 2006-2013, que cubre el lapso en que se desarrollaron las pruebas
ENLACE, el currculum nacional de la educacin bsica experiment continuas transformaciones.
Esta dinmica curricular impuso en cada ocasin retos importantes al grupo de trabajo de la
Direccin General de Evaluacin de Polticas (DGEP) de la Secretara de Educacin Pblica (SEP)
que desarroll las pruebas. Los autores de ENLACE fueron conscientes de dichas transforma-
ciones y dan cuenta de ellas en los manuales tcnicos que facilitaron, y que sintetizan (Docu-
mento ANALISIS_2012_2013.pptx) en la lnea del tiempo que aparece a continuacin, en la que
tambin indican los impactos que en cada ocasin tuvieron los cambios curriculares sobre el
desarrollo de las pruebas (ver cuadro 1.1).
Cuadro 1.1
Adems, cada uno de los manuales tcnicos de ENLACE presenta una seccin denominada
Marco terico de diseo de las pruebas ENLACE , en la que se presentan aspectos generales
sobre las dimensiones explcitas e implcitas que se evalan en las asignaturas de Espaol, ma-
temticas y en la rotativa correspondiente que se evala cada cuatro aos (ciencias, formacin
cvica y tica, historia y geografa).
De manera adicional, se observa una clara evolucin hacia mayores niveles de calidad tcnica en
el aspecto que aqu comentamos. De este modo, si se examina el Manual de 2013, las eviden-
cias del anlisis realizado estn claramente estructuradas y expuestas.
En consecuencia, puede decirse con certeza que siempre se cont con documentacin que ex-
pusiera la teora del contenido curricular y que fuera el marco terico que orientara el desarrollo
de la prueba.
El segundo elemento clave para valorar el modo en que se ha asegurado por parte de los di-
seadores de ENLACE que la prueba representa adecuadamente los subdominios curriculares
y los niveles de demanda cognitiva que representan para el alumnado, se encuentra en la me-
todologa seguida a tal efecto.
Las referencias metodolgicas que se identifican en la literatura y que se postulan como reque-
rimientos metodolgicos para este cometido se sitan en el mbito de desarrollo de pruebas
referidas a un criterio (Madaus & Kellaghan, 1992; Hambleton, 1994; Nitko, 1994; 1995; Li &
Sireci, 2005; Cizek, 2007; Sireci, 2009). En este marco de trabajo los procesos a considerar para
asegurar la representatividad son, al menos:
Una vez revisadas todas las evidencias aportadas al respecto, podemos realizar los siguientes
comentarios y sealar sus evidencias:
Todos los manuales tcnicos de ENLACE incluyen una seccin denominada Tablas de
especificaciones y un anexo denominado Tablas generales de contenidos para todos los
grados, que presentan muestras de tablas y las tablas completas en el MT 2013, que
incluyen reas curriculares, subdominios y contenidos especficos de cada materia que se
evalan en el examen.
No obstante, salvo en el caso de las tablas del 2013, no se ha seguido un procedi-
miento homogneo por materias, ni por niveles y aos. De este modo, la estructura
24
del dominio a evaluar se presenta en formatos diferentes y con niveles de desarrollo
desigual, tanto en las materias de una misma asignatura, como entre las materias de
asignaturas y aos diferentes.
Al respecto, obsrvense en los cuadros I.2 a I.6 fragmentos de cinco tablas que aparecen en el
manual tcnico ENLACE de 2012; la primera del tercer grado de primaria de Espaol; la segunda
del quinto grado de primaria de Espaol; la tercera del tercer grado de primaria de matemticas;
la cuarta del quinto grado de primaria de matemticas; y la quinta del tercer grado de primaria
de ciencias (asignatura rotativa cuyo dominio se evalu ese ao).
Cuadro 1.2
Cuadro 1.4
26
Cuadro 1.5
Cuadro 1.6
ENLACE siempre ha estado a cargo de esa dependencia (MT 2009: 75), responsable a su
vez del currculo de la educacin bsica. Una excepcin a esta condicin son la tablas que
aparecen en el Manual Tcnico 2013, donde por primera vez se afirma que:
Las tablas de especificaciones son construidas por el personal tcnico de la Direccin
General de Evaluacin de Polticas y revisadas por el personal de la Direccin General
de Desarrollo Curricular de la Secretara de Educacin Pblica, de acuerdo con los con-
tenidos establecidos en los planes y programas de estudios oficiales vigentes en todo el
pas (MT 2013: 21).
En cuanto a los comits de anlisis del Dominio Curricular, que deberan actuar de modo
independiente y sucesivo, que mencionamos como estrategia fundamental para la va-
lidacin de este tipo de pruebas, puede observarse que, salvo lo que se comenta en el
punto anterior, no se ha procedido de este modo. Se evidencia que la DGDC ha sido juez
(quien desarrolla el currculum) y parte (quien decide lo que es importante evaluar en
ENLACE ), sin contraparte (dado que la DGEP y sus consejos directivo y tcnico asumieron
desde el principio que esa era una tarea que le corresponda realizar a la DGDC). Con esta
forma de proceder, se olvida un factor sustantivo de validacin.
Cabe sealar que ni la DGDC ni la DGEP han documentado las decisiones para determi-
nar lo que es importante evaluar, ni han sentido la necesidad de adoptar un esquema de
representacin del dominio curricular a evaluar que resulte explcito y equivalente, a la
vez que respete el enfoque terico de las diferentes asignaturas.
En sntesis la situacin descrita no corresponde con las prcticas de anlisis curricular y deteccin y
estructuracin del contenido importante a evaluar en una prueba de estas caractersticas. Tampo-
co se han basado en una estrategia de validacin del anlisis del universo de medida que incluya
aportes de validacin de grupos interdisciplinarios de especialistas (en currculo, la disciplina cuyo
dominio se evala, psicometra, operacin del currculum en las aulas, en lenguaje, en cultura y en
teora cognoscitiva), que acten de manera independiente y sucesiva. Por ello, entendemos que el
procedimiento seguido no permite asegurar la representatividad del contenido a evaluar.
28
Eso permite obtener una visin precisa del universo de medida, a partir del cual, posterior-
mente, se podr orientar el muestreo de contenidos (Jornet y Surez, 1989a; 1989b). Orienta
pues, las dimensiones o subdimensiones implicadas (un diseo curricular no necesariamente
es unidimensional, y puede representarse en una prueba), la densidad diferencial del dominio
(cantidad y relevancia de elementos observable).
Hasta 2008 el manual tcnico de ENLACE distingua ambos componentes del desarrollo de
las pruebas, a los que denominaba Elaboracin de tablas de contenidos y Elaboracin de tablas
de especificaciones (Ver por ejemplo los manuales tcnicos 2007 [MT04, pgs. 4.2 y 4.14 a la
4.22] y 2008 [MT04, pgs. 4.3 y 4.16 a la 4.21]). En los manuales de los aos 2009, 2010, 2011
y 2012 ambos componentes se ubicaban en una misma tabla; y para el caso del manual tcnico
de ENLACE 2013, las tablas de especificaciones de la prueba (que consideran ya el nuevo curr-
culum de 2011) vuelven a aparecer en una seccin independiente. Lo anterior puede observarse
en los cuadros I.7 y I.8.
Por ejemplo, obsrvese el referente fundamental que establece para ENLACE el Acuerdo 592:
La migracin de la Evaluacin Nacional del Logro Acadmico en Centros Escolares de Educa-
cin Bsica (ENLACE) hacia una evaluacin cuyo referente sean los Estndares Curriculares y
los aprendizajes esperados (DOF, 2011, artculo octavo transitorio). As, en un caso se incluyen los
aprendizajes esperados y en otro no; en ninguna de las tablas aparece el eje (en Matemticas)
o el mbito (en Espaol) curriculares a los que pertenecen los contenidos a evaluar; en un caso
se detalla el aspecto a evaluar y en otro no; en un caso se define el nivel de relevancia del con-
tenido a evaluar y en otro no, entre otras diferencias entre las tablas.
No obstante, cabe sealar que en el manual tcnico de ENLACE 2013 se aprecia un claro esfuer-
zo por dar a las tablas de especificaciones de la prueba un estilo y formato ms homogneos
(vanse por ejemplo los cuadros I.7 y I.8), tanto entre las materias de cada asignatura, como
entre las propias asignaturas, as como por incorporar los referentes del nuevo currculum que
aparecen en el Acuerdo 592 de la SEP.
Cuadro 1.8
30
tt Se presenta la estructura del dominio curricular completo de donde se muestrea el conte-
nido de la prueba as como la estructura del dominio curricular evaluado.
Tal como sealamos en el criterio anterior, un elemento sustantivo para orientar el desarrollo de
una prueba es la estructura del dominio educativo a evaluar (el currculum), y el anlisis acerca
de la estructura de la prueba. Si se dispone de ambos elementos, puede analizarse mediante
comits de juicio si la estructura de la prueba responde adecuadamente a la estructura del
universo de medida. El anlisis que puede proveer un comit acerca de este aspecto, constituye
pues una evidencia de validez.
Como ya se coment cuando efectuamos la valoracin bajo el criterio 1, esta fase del proceso de
desarrollo de pruebas de gran escala referidas a un criterio tambin est documentada en la lite-
ratura especializada, en la cual se establece la necesidad de que haya dos grupos independientes
de especialistas en ambos casos con expertos en currculum, en evaluacin, en la operacin del
currculum en la aulas, en la teora cognoscitiva, en aspectos culturales y en la disciplina cuyo
dominio se evala: por una parte, los que analicen el currculum y detecten el contenido im-
portante a evaluar; por la otra, los que juzguen tales decisiones con base en protocolos tcnicos
definidos previamente por los desarrolladores de la prueba; estos ltimos debern facilitar los
trabajos de ambos comits y, a la vez, servirn como hilo conductor de stos y los de otros comi-
ts especializados que participan en la construccin del instrumento.
Respecto a los procesos llevados a cabo para el desarrollo de ENLACE , como ya sealamos an-
teriormente, la DGEP afirma en todos los manuales tcnicos de ENLACE que la DGDC (que es
la dependencia responsable de desarrollar el currculum nacional), fue la instancia que se encar-
g de definir el contenido a evaluar en las pruebas, por lo que son los autores de las tablas de
contenidos que se han presentado hasta este punto.
Sin embargo, con excepcin de los manuales tcnicos de ENLACE 2007 y 2013 que las presentan
todas, estas y otras tablas aparecen en el cuerpo de los manuales o en los anexos correspon-
dientes como extractos o como ejemplos que ilustran el producto que la DGDC elabor. De este
modo nunca se presenta, para ninguna asignatura o materia que se evala, el dominio curricular
completo, ni bien la estructura del dominio curricular que evala cada prueba.
Tampoco aparece en ningn manual, anexo o documento referido, la documentacin del pro-
ceso que sigui la DGDC o bien la DGEP para determinar en cada caso el contenido a evaluar o
los criterios en que se basaron para determinarlo.
A pesar de ello, se tiene evidencia de un estudio que encarg la DGEP a una instancia exter-
na para analizar el nuevo currculum de 2011, desarrollar la estructura del dominio curricular
completo de las asignaturas de matemticas y Espaol, e identificar en ellas una propuesta de
estructura del dominio curricular a evaluar en cada una de las materias de ambas asignaturas.
Aunque la DGEP no incluy en el manual tcnico de ENLACE 2013 los resultados y productos de
dicho trabajo, se hace una referencia a l en el documento denominado ANALISIS_2012_2013.
pptx, que entreg dicha dependencia. En todo caso, la DGEP no incluy en el manual tcnico
de ENLACE 2013 los resultados y productos de dicho trabajo.
En el caso de las pruebas ENLACE , y al igual que se coment en los dos puntos anteriores, se
desconocen los procedimientos que siguieron o los criterios que utilizaron los especialistas de la
DGDC para determinar la importancia relativa de contenidos o para decidir el dominio de con-
tenido a evaluar en cada prueba. El anlisis de las tablas de contenido que aparecen ms arriba
muestra que enfatizaron aspectos diferentes del currculum y que adoptaron criterios tambin
diferentes para determinar lo que era relevante en cada caso.
No obstante, existen evidencias en los manuales tcnicos de ENLACE 2012 y 2013 espe-
cialmente en la mencionada presentacin ANALISIS_2012_2013.pptx que entreg la DGEP ,
de que se ponder la importancia relativa de los contenidos e, incluso, se refiere el uso de un
ndice de densidad acadmica (IDA ) asociado a contenidos curriculares. Lo anterior se muestra
32
en la ltima de las tablas que se presentaron anteriormente y en las tres tablas que se presentan
a continuacin (ver cuadros 1.9 a 1.11).
Cuadro 1.9
Cuadro 1.10
Salvo la mencin del ndice de densidad acadmica que se asoci diferencialmente a contenidos
cuyo dominio fue evaluado en 2012 y 2013, no se encontr informacin acerca de la justifi-
cacin tcnica de los ajustes a la ponderacin de tems y subescalas. Las escalas y subescalas
quedan como producto del software de calificacin pero no se reportan. Por su parte, las pon-
deraciones son definidas en forma apriorstica por los diseadores de la prueba y por conside-
raciones que se hacen durante el proceso de validacin, pero no hay estudios experimentales
para realizar ajustes o demostrar la pertinencia de los valores propuestos por los especialistas.
Por ejemplo, se podra realizar anlisis factorial o de ecuaciones estructurales para disponer de
un anlisis factorial confirmatorio u otro tipo de estudio.
34
tt Se justifica metodolgicamente el tamao de la prueba y sus partes (nmero de reactivos),
cumpliendo la ponderacin indicada en las tablas de especificaciones. Si se maneja una
justificacin administrativa esta se debe definir claramente.
El anlisis de reactivos se orienta desde dos perspectivas: lgica y emprica. La primera de ellas
se apoya en la participacin de comits de jueces (especialistas en contenidos, docentes frente
a grupo, especialistas en medicin/evaluacin), que deben valorar caractersticas tales como
la representatividad del tem respecto del contenido a evaluar, su calidad tcnica (indepen-
dencia de errores sistemticos), su independencia de sesgo, etc. Por tanto afecta de manera
directa la validez de contenido de la prueba. Las comprobaciones empricas pretenden aportar
informacin acerca de si los tems se comportan de acuerdo con la estructuracin dimensio-
nal terica que haya orientado el desarrollo de la prueba. Se solapa, en parte, con el anlisis
que deviene de los ensayos piloto, aunque en este punto enfatizamos el anlisis respecto a la
revisin lgica, dado que el segundo aspecto se trata tambin en el apartado de desarrollo
de la prueba.
En el apartado 2.3, Diseo, produccin, calibracin y piloteo de los reactivos del Manual de
ENLACE (2013), se indica que:
La produccin de los reactivos de la prueba pasa por estas fases: construccin (a cargo
de especialistas de contenido), validacin (encargada a jueces expertos, independientes de
los diseadores y constructores), piloteo y calibracin (aplicacin en condiciones controla-
das de muestras de reactivos a estudiantes del grado siguiente al de la poblacin objeto
colectiva de los reactivos construidos; deben verificar que cada uno responda a las normas
de construccin y que, en su conjunto, constituyan una muestra representativa y suficiente
del dominio de conocimientos a evaluar (p.23).
A este respecto, y centrndonos en la revisin lgica, hay que sealar los siguientes aspectos:
Respecto a comprobaciones empricas que pudieran aportar informacin acerca de si los tems se
comportan de acuerdo con la estructuracin dimensional terica que haya orientado el desarro-
llo de la prueba, como se observ en el segundo subcriterio del criterio anterior, la representativi-
dad de tems y escalas respecto a los subdominios y el dominio curricular completo, que se bas
en operaciones de juicios, pudo haberse complementado con estudios empricos y estadsticos
como el anlisis factorial confirmatorio o el modelamiento de ecuaciones estructurales, a fin de
observar la pertinencia de la estructura de contenidos propuesta por los especialistas.
36
En cualquier prueba de rendimiento o logro acadmico, un elemento fundamental en su ela-
boracin es la determinacin de un modelo taxonmico o sistema de clasificacin, que per-
mita regular el grado de demanda cognitiva que supone para el alumnado cada contenido en
la forma en que es evaluado.
La relacin de lo que se espera a nivel curricular y el modo en que se evala es clave para la va-
lidacin de contenido. En este sentido, en los manuales tcnicos de ENLACE se establece que el
modelo de especificaciones se organiza en tres dimensiones explcitas y una categora implcita,
y que la segunda dimensin explcita corresponde a niveles de complejidad, definidos por una
taxonoma o clasificacin de demandas cognitivas.
El Manual de ENLACE 2013, por ejemplo, dice: La segunda dimensin explcita corresponde a
los niveles de complejidad, definidos por una taxonoma o por una clasificacin de las deman-
das cognitivas. Esta dimensin es necesaria para definir la dosificacin de reactivos con la cual
construir el Banco Nacional de Reactivos y la organizacin de la prueba misma (p.97).
De igual modo, los manuales tcnicos sealan que para la construccin de los reactivos de
ENLACE se exigen normas por parte de la DGEP a los diseadores, entre las cuales se indica
que los reactivos deben corresponder al objetivo y nivel taxonmico asignados en la tabla de
especificaciones, que la taxonoma que se debe utilizar es la propuesta por Benjamn Bloom y
que infringir esta norma representa un error crtico. De hecho las tablas de especificaciones de
varios exmenes incluyen una columna donde se especifica el nivel al que debe dominarse cada
contenido, como se ilustra en la siguiente tabla.
Cuadro 1.12
En consecuencia, la tarea de definir el nivel cognitivo al que se debe dominar cada contenido
parece haber recado en los elaboradores de los tems, quienes debieron interpretar el conte-
nido y establecer el nivel de demanda cognitiva que le corresponda. En todo caso, de lo que s
hay evidencia en los manuales tcnicos de ENLACE de 2009, 2010 y 2011, es que cada tem tuvo
asignado un nivel taxonmico, el cual qued registrado en la base de datos del Banco Nacional
de Reactivos en la seccin denominada Ficha tcnica del reactivo, como puede apreciarse en
la figura que se presenta en el cuadro 1.13.
Cuadro 1.13
38
Finalmente, no existe evidencia o alguna referencia en los manuales tcnicos de ENLACE , sus
anexos o los documentos referidos, respecto al uso de protocolos verbales con examinados para
analizar la complejidad cognitiva de los tems.
Otro elemento bsico a tener en cuenta en el diseo de pruebas es la redaccin de tems. Cier-
tamente los reactivos deben representar las unidades del dominio educativo (universo de medi-
da) que se consideran relevantes en la evaluacin como muestra del desempeo. Para que ese
objetivo se cumpla es importante que se estructure el procedimiento de escritura de tems, de
manera que se atienda con rigor si los reactivos representan el contenido a evaluar y si stos se
adaptan al nivel de desempeo que se espera que pueda darse en la enseanza como expresin
de las oportunidades de aprendizaje que se brindan a los alumnos.
Por ello es fundamental que los escritores de reactivos tengan una formacin adecuada y refe-
rentes claros que les permitan homogeneizar la produccin de tems y ajustarla a los niveles de
calidad requeridos.
tt Elmanual describe y da ejemplos de todos los tipos de reactivos que tendr la prueba, indi-
cando cmo clasificarlos y justificarlos y haciendo referencia a la relevancia de las respuestas
de los examinados para el dominio pretendido.
Se cuenta con recomendaciones para el diseo del reactivo, de la base y de las opciones, pero con
referencia a otros documentos normativos, algunos de los cuales no estn disponibles. En todos
Al respecto se citan como referencias: Manual de gestin de la calidad, Norma (ISO 9001:2000)
NMX-CC-9001:2000 IMNC Sistema de Gestin de la Calidad, Normas para la Construccin
de Reactivos de Opcin Mltiple, Normas de Presentacin y Estilo, Normas para la Presenta-
cin y el Estilo en la redaccin de Reactivos de Opcin Mltiple, y Elaboracin de instrumentos
de Medicin.
La documentacin faltante es fundamental para respaldar este punto, porque se pueden en-
contrar otros portales de Internet con materiales de estudio preparados por la SEP, con enfoque
didctico, pero no fueron proporcionados para este proyecto, siendo informacin a revisar en
cuanto a pertinencia y vigencia.
Tambin en el Manual Tcnico 2012 se hace una referencia al anlisis dimensional de los domi-
nios en funcin de una taxonoma, que es necesaria para distinguir entre los diferentes niveles de
complejidad de los reactivos que, a su vez, se asocia con la demanda cognitiva de la prueba en
cada una de las subreas. La taxonoma se explica a los diseadores de reactivos y a los revisores,
pero la relacin con la lista de desempeos parece desvinculada o parcial. Esto es de importancia
porque se indica que: Los reactivos que se construyen deben corresponder al objetivo y nivel
taxonmico asignados en la tabla de especificaciones. Infringir esta norma representa un error
crtico (p.90). As, no hay evidencia suficiente de que se den pautas a los diseadores de reac-
tivos para justificar y clasificarlos, ni respecto al modo en que se evidencie la relevancia de las
respuestas de los examinados.
tt El manual usa tablas o modelos de especificaciones precisas como gua para homogeneizar
el diseo de los tipos de tems: formato o documento donde los diseadores de reactivos
hagan la captura y la modificacin.
En el Manual Tcnico 2007 se muestra un formato para la captura del reactivo (ver cuadro 1.14)
que se denomina Ficha tcnica del reactivo.
Aunque dicho formato ya no aparece en los manuales posteriores, es el que se sigui utilizando
para registrar despus el tem elaborado en el banco de reactivos (ver cuadros 1.13, 1.15 y 1.16),
el cual ha cambiado de formato con el tiempo y sirve a su vez como el insumo principal que
utilizan despus los jueces-revisores al evaluar los reactivos.
40
Cuadro 1.14
A)
B)
C)
D)
JUSTIFICACIN:
A)
B)
C)
D)
NM. INVENTARIO: FECHA: AUTOR:
Cuadro 1.15
42
tt Elmanual fue desarrollado especialmente para la prueba de que se trate y tiene en cuen-
ta sus particularidades; no es aceptable un manual genrico o tomado de otro sistema
de evaluacin.
En los manuales tcnicos de ENLACE hay informacin bsica sobre las clases de reactivos:
individual, padres, hijos, pero no se cuenta con documentos citados en ellos y que se supone
se entregan a los diseadores y revisores de tems, donde posiblemente se encuentra esta in-
formacin especfica.
El documento sobre Normas para la Construccin de Reactivos de Opcin Mltiple, est suscrito
por la DGEP. Los restantes documentos mencionados son generales sobre orientaciones de calidad
y desarrollo de pruebas, pero no contienen referencias especficas para el diseo de reactivos.
Con todo, su contenido es genrico, reflejando normativas usuales que pueden encontrarse
en manuales de medicin en general o de diseo de reactivos en particular, por lo que no
se advierte una especificacin suficiente que relacione el planteamiento de normas y recomen-
daciones de manera particular para las pruebas ENLACE .
7. Los reactivos son diseados por un comit seleccionado teniendo en cuenta la espe-
cializacin acadmica, laboral y su representatividad respecto a la diversidad del pas,
y estuvo coordinado por una persona calificada en medicin y evaluacin
Los expertos en diseo de tems como Guttman (1969), Bormuth (1970), Hively (1974), Roid y
Haladyna (1982), Haladyna y Downing (1988), Tiemann y Markle (1990), Solano-Flores (1993),
y Downing y Haladyna (2006) establecen que, para propiciar el desarrollo de tareas evaluativas
vlidas, en el grupo que elabore los tems debe haber personas con el perfil profesional, acad-
mico, laboral y sociocultural adecuado, incluyendo:
uso de reglas de escritura y revisin de las preguntas del examen y de reactivos de opcin mlti-
ple, los mtodos para generar tems equivalentes, el anlisis de conceptos y procedimientos y el
uso taxonomas del dominio cognoscitivo, todo ello para armar una tarea evaluativa que resulte
vlida para explorar el dominio de cada contenido que se juzg importante evaluar.
Por ltimo, la capacitacin del grupo de elaboradores de tems incluye disponer de materiales
especficos como manual de capacitacin, formatos y otros elementos necesarios para el desa-
rrollo de los tems.
tt El
comit fue formado especficamente para realizar su labor, considerando todos los ele-
mentos caractersticos del tipo de prueba a disear.
En todos los manuales tcnicos se indica la integracin del comit de diseadores de tems,
pero no se cuenta con una lista detallada que indique su representatividad, ni los antecedentes
acadmicos y laborales de cada especialista, lo cual ayudara mucho a verificar el nivel de con-
tundencia de las evidencias disponibles.
Al respecto, se sabe que los elaboradores de tems fueron siempre personal externo a la DGEP,
pues en todos los manuales (2007, p. 4- 29; 2008, p. 4-29; 2009, p. 99; 2010, p. 97; 2011, p.
83; 2012, p. 85; y 2013, p.105) se afirma que Los reactivos que integran las pruebas de ENLACE
fueron elaborados por personal contratado por la DGEP conforme a las normas establecidas al
respecto por esta misma dependencia.
En cuanto a la metodologa que utilizaron para disear los tems, en los manuales se afirma que:
Sin excepcin, los grupos de trabajo abordaron la elaboracin de reactivos de acuerdo con
las siguientes etapas: 1. Anlisis de las tablas de especificaciones. 2. Elaboracin de reactivos.
3. Discusin de reactivos. 4. Integracin de los reactivos al banco.
En el MT de 2013 (p: 82) se describen brevemente las fases de desarrollo de la prueba (ver cuadro
I.17), pero no se aporta informacin especfica sobre los procesos que venimos comentando.
Aunque se describen brevemente tales etapas, poco se sabe sobre cmo fueron capacitados
esos grupos, cmo desarrollaron su trabajo o qu materiales tcnicos utilizaron para apoyar
sus actividades. Al respecto, las nicas evidencias disponibles son el breve manual del trabajo
de los especialistas ya mencionado y el producto de su trabajo; es decir los tems elaborados
que se ilustran en los manuales y los que aparecieron en la pgina web de la DGEP tras haber
sido liberados todos los tems.
44
Cuadro 1.17 Extracto de las fases aqu analizadas
Como ya se seal, aunque se defini el uso de la taxonoma de Bloom no todas las tablas de
especificaciones de las pruebas que aparecen en los manuales tcnicos incluyen una columna
donde se establezca el nivel taxonmico asociado a cada contenido.
Tambin llama la atencin el hecho de que se mencione la taxonoma de Bloom como referen-
cia, y no su revisin ms actualizada, que simplifica y facilita el diseo de pruebas (Anderson y
Krathwohl, 2001). Una de las crticas ms frecuentes que se ha hecho a la Taxonoma de Bloom
es su complejidad para ser aprovechada particularmente por el profesorado para el diseo de
pruebas. Aspecto que mejora sustancialmente la revisin de Anderson y Krathwohl.
En consecuencia, la definicin del nivel cognitivo al que se debe dominar cada contenido parece
haber sido en ltima instancia responsabilidad de los elaboradores de los tems, quienes para ello
debieron interpretar el contenido y establecer el nivel de demanda cognitiva que le corresponda.
Adems de las pocas tablas que incluyen la columna con los niveles taxonmicos, en todos los
manuales tcnicos se observa que cada tem tuvo asignado un nivel taxonmico, el cual como
ya se dijo qued registrado en la base de datos del Banco Nacional de Reactivos en la seccin
Ficha tcnica del Reactivo, como puede apreciarse en los cuadros 1.13 y 1.18.
La validacin de tems mediante juicios de expertos es una etapa fundamental del proceso
de desarrollo de instrumentos de evaluacin del aprendizaje que ha sido ampliamente docu-
mentada por diversos autores (Hambleton, 1993; Nitko, 1994, 1995; Popham, 1990; Jornet y
Surez, 1990; Solano-Flores et al., 2001; 2003), los cuales definen un perfil de especialistas
similar al de quienes desarrollan los tems, mismos que en conjunto representen la disciplina
involucrada, el currculum cuyo dominio se evala, la operacin curricular en aulas y escuela,
la lingstica, la teora cognoscitiva, la psicometra y los grupos socioculturales que puedan ser
afectados por el tratamiento que se dio a los tems de la prueba.
En definitiva, se trata de que un comit independiente del anterior, revise cuidadosamente los
reactivos con la finalidad de liberarlos de posibles errores sistemticos.
Existe un manual o gua para el anlisis de reactivos que seala los criterios de acep-
tacin, revisin y modificacin.
La capacitacin del grupo de jueces que evala los tems requiere disponer de un manual que in-
cluya protocolos y criterios de trabajo para revisar aspectos tcnicos de orden conceptual y proce-
dimental sobre validacin de tems, como son los tipos de evidencias de validez relacionadas con
el proceso de validacin de tems y los mtodos que se pueden emplear para obtener tales eviden-
cias; la estructura del formato de evaluacin que emplearn; los lineamientos normativos a que
debern ajustarse y los procedimientos especficos que utilizarn para llevar a cabo la evaluacin.
En todos los casos es necesario que un especialista en medicin/evaluacin coordine los procesos
de los comits y asesore, en caso de duda, a los jueces. Por ello, la estructura de los comits es im-
portante considerarla y plasmarla en relacin con las tareas que han realizado cada uno de ellos.
De la buena asociacin entre estructura y tipologa de comit y tarea asignada, deviene buena
parte de la consecucin de validez de los reactivos.
46
tt El manual describe procedimientos/criterios para revisar tems por jueceo.
Entre los documentos aportados por la DGEP se incluyen dos de ellos relacionados especfica-
mente con este aspecto: el Manual del usuario juez y una sntesis de las opiniones de un grupo
de jueces que elaboraron un dictamen sobre los tems de una prueba.
El Manual de usuario-Juez es un documento de 14 pginas que ofrece una gua para apoyar al
usuario del Sistema Nacional de Reactivos, de manera que pueda darse de alta en el sistema
informtico y navegar por la aplicacin a fin de ingresar, incorporar sus datos personales y la-
borales para establecer su perfil como juez, e ingresar al rea donde puede localizar los tems
asignados que le corresponde dictaminar, as como registrar sus juicios sobre cada uno de ellos.
Para efectuar esto ltimo, se le indica que debe seleccionar sus respuestas a las preguntas pre-
sentadas, seleccionar un dictamen entre varios posibles (Aceptado, Aceptado con observaciones
y Rechazado), agregar una observacin y activar la emisin del dictamen.
Aunque en realidad no se trata de un manual tcnico para la capacitacin del grupo de jueces
que incluya aspectos conceptuales, procedimientos, criterios y otros de los elementos antes men-
cionados que son necesarios para la validacin de tems, se observa que hay algunos temas que
estn relacionados. Por ejemplo, en las cuadros 1.18 y 1.19 aparecen dos secciones de la interfaz
que muestran ciertos aspectos que forman parte del proceso de validacin de tems mediante
juicios, como el nombre del contenido cuyo dominio evala el tem, el nivel taxonmico, si se
trata de un multireactivo y por ello depende de informacin contextual. Adems incluye tres
secciones de preguntas: generales sobre el tem, sobre la base de tem y sobre las opciones de
respuesta (en el cuadro 1.18), as como una ilustracin del tipo de preguntas que debe responder
el juez y la forma en que debe responderlas (en el cuadro 1.19).
No obstante, en el trabajo con comits de juicio hay que tener en cuenta que se trabaja con un
nmero reducido de observaciones, por lo que la sntesis basada en el promedio no es habitual-
mente el descriptivo de eleccin.
De usarse, es conveniente que se acompae del Cociente de Variacin, que nos aportara informa-
cin acerca del grado de variabilidad de las respuestas de los jueces a cada reactivo. Ello ayuda a
decidir acerca de si el acuerdo mostrado por el promedio es representativo o no. En caso de que
no sea as, suele optarse por la mediana o, incluso, por la moda.
Cuadro 1.19
48
Respecto al documento Sntesis de opiniones jueces-dictamen, aunque en l no se ofrece mu-
cha informacin al parecer presenta la forma en que se calcul el grado de acuerdo entre los
juicios formulados por tres jueces que elaboraron un dictamen sobre cada uno de los tems de una
prueba. Como puede observarse en el cuadro 1.20, para cada tem se promedi la suma de los
dictmenes de los jueces y el resultado determin finalmente el rechazo o la aceptacin del tem.
No obstante, en el trabajo con comits de juicio hay que tener en cuenta que se trabaja con un
nmero reducido de observaciones, por lo que la sntesis basada en el promedio no es habitual-
mente el descriptivo de eleccin.
De usarse, es conveniente que se acompae del Cociente de Variacin, que nos aportara infor-
macin acerca del grado de variabilidad de las respuestas de los jueces a cada reactivo. Ello ayuda
a decidir acerca de si el acuerdo mostrado por el promedio es representativo o no. En caso de
que no sea as, suele optarse por la mediana o, incluso, por la moda.
Asimismo, es conveniente que se incluya un anlisis de consistencia de jueces, al menos para gru-
pos de reactivos que midan reas de contenido, por ejemplo, cuando valoran tems de aritm-
tica, o de geometra. Esa medida de consistencia puede sustentarse en la Correlacin Intraclase
entre jueces, en el coeficiente de concordancia W de Kendall, en la Kappa de Cohen o en un
anlisis logstico de facetas. No hemos encontrado evidencia documental acerca de este tipo de
acercamiento, por lo que puede entenderse que la sntesis de juicio se ha basado en aproxima-
ciones dbiles, y que ha estado poco trabajada para una prueba de alto impacto.
Cuadro 1.20
Otro factor clave para trabajar en pro de la validez de los reactivos y la prueba, es la cualificacin
de los integrantes de los comits de revisin.
De este modo, los criterios de seleccin de revisores deberan contemplar al menos los fac-
tores mencionados.
tt Se utilizaron criterios de seleccin de jueces con un perfil acadmico y laboral preciso y con
representatividad de la diversidad del pas.
tt El comit de revisin est formado por jueces diferentes al del de escritura de tems.
50
4-44), no se ha encontrado evidencia documental acerca de los procesos que se llevaron a cabo
para capacitar a los evaluadores de reactivos.
La revisin lgica de reactivos es un aspecto central para asegurar la validez. Se trata de eliminar
posibles errores sistemticos, previamente a su pilotaje. En cualquier caso, la revisin de reacti-
vos puede realizarse de diversas maneras: analticas o sintticas.
En las pruebas de alto impacto, que son referencia acerca de niveles de personas, y que se
aplican a gran escala (en contextos socioculturales, econmicos y escolares muy diversos), el
enfoque ms adecuado es el analtico, en que se gua la revisin a realizar aportando a los
jueces revisores criterios especficos sobre los cules centrar su atencin al revisar los reactivos.
As, se atienden tanto caractersticas de calidad tcnica (formulacin, base del tem, existencia
de respuesta correcta, calidad de distractores), como su adecuacin a la unidad del dominio
curricular que pretender medir, y la posibilidad de detectar elementos socioculturales y lings-
ticos que puedan ser fuente de funcionamiento diferencial de tems (DIF ) y, en su caso, puedan
considerarse sesgos (como factores indeseables en las pruebas que afectan a la justicia y equi-
dad de la evaluacin).
En el caso de ENLACE, revisando la documentacin y manuales tcnicos, si bien se aprecia una fase
de revisin de reactivos, no se especifica una gua de criterios en los cuales sustentar la revisin.
Como ya se indic, en los manuales tcnicos se menciona que los elementos a revisar son la
representatividad del dominio de los contenidos curriculares, la formulacin de cada reactivo y
la presencia de sesgos. Tambin se seala que hay criterios de congruencia de los tems a revisar
y la congruencia entre los contenidos y los programas.
Adems se refieren criterios para aceptar, modificar, dejar sin observaciones o rechazar los tems
y lo mismo para los reactivos de las pruebas matriciales, pero hay el inconveniente de que a
partir de 2012 ya no se realiz el taller de jueceo, sino que los reactivos fueron sometidos a un
proceso de validacin directa por la Subsecretara de Educacin Bsica de la SEP (en 2012) o de
la DGEP (en 2013).
Por otra parte, no se cuenta con anlisis de sesgo, DIF, habilidad lectora o velocidad de lectura
respecto de la prueba y otras implicaciones que son parte sustancial de la identificacin de la
calidad mtrica de la prueba, por una parte, y por otra como demostracin de que no se indu-
cen errores sistemticos en contra de personas o grupos en particular.
Los anlisis de DIF o DPF (funcionamiento diferencial de tems o de personas), estn pendientes
desde el MT 2007, donde fue sealada su necesidad; por ello no se tiene la justificacin de que
no se necesita hacer una equivalencia o anlisis contextual por sexo, modalidad escolar, regin
o poblaciones especficas, uso de lenguaje o grficas especficas. En el MT (2012:60) se afirma
que la SEP encarga estudios especiales a agencias o instituciones de apoyo, pero no se cuenta
con los reportes.
52
del dominio del universo de medida que llamamos prueba; y si a su vez tales componentes y
relaciones constituyen un cmulo de evidencias que permiten hacer inferencias vlidas acerca
del dominio del universo de contenido que llamamos currculum.
tt Tras analizar los tems del pilotaje y desechar los que no cumplan los criterios, se verifica que
el contenido de las pruebas a aplicar corresponda al dominio curricular en todos los aspectos
y niveles de demanda cognitiva planeados.
En los manuales se comenta que, dada la alta volatilidad de la prueba, en el pre-test se incluye
una cantidad suficientemente grande de reactivos para piloteo a fin de poder calibrarlos, y con
ello asegurar la construccin de las pruebas del ao siguiente en condiciones de comparabili-
dad (MT 2012:24).
Por otra parte, se indica que tras la validacin que hacen los jueces de la calidad individual y
colectiva de los reactivos construidos se verifica que, en su conjunto, constituyan una muestra
representativa y suficiente del dominio de conocimientos a evaluar. (MT 2012:25).
Adems se seala que el equipo que opera las pruebas piloto se encarga de la revisin de la
prueba y la construccin del examen, basndose en las especificaciones de los contenidos y en
los criterios y las consideraciones estadsticas (MT 2012:60).
Por otro lado se especifica que para la construccin de las pruebas definitivas se eligen los reac-
tivos partiendo de las calibraciones de la validacin y del piloteo, y que este trabajo es realizado
por la DGEP y lo presenta a otras instancias del Consejo Tcnico para su anlisis y consenso.
(MT 2012:65)
En cuanto a la mencin de algn procedimiento para garantizar que se preservan los niveles
de demanda cognitiva de los tems cuando sustituyen a otros que los tenan especificados pero
fueron eliminados tras el pilotaje, no se encontr alguna indicacin o referencia.
Todos los manuales tcnicos, algunos documentos incluidos en el CD que entreg la DGEP y
la pgina web de dicha dependencia, ofrecen varios tipos de evidencias que muestran que se
cuidaron diferentes tipos de alineamiento.
El estatus relativo de ciertas evidencias ya se coment en puntos anteriores, como el caso de la ela-
boracin de las tablas de especificaciones de las pruebas por parte de los diseadores del currcu-
lum y su revisin en ocasiones por el personal de la DGEP, y en otras (por lo menos en las pruebas
aplicadas en 2013) su elaboracin por la DGEP y revisin a cargo la DGDC de la SEP (MT 2013: 21).
En cuanto al alineamiento de los tems y pruebas con aspectos de la operacin curricular como
Las pruebas ENLACE para educacin bsica
Cuadro 1.21
Fuente: Pgina web de la DGEP : Seccin Apoyos para el uso pedaggico de resultados ENL ACE.
54
tt Se dispone de una metodologa para demostrar la validez de contenido (cualitativa y cuan-
titativa) de la prueba.
tt Se muestran evidencias para fundamentar la validez de contenido.
La metodologa para construir la prueba a partir de los bancos disponibles no parece estandari-
zada (por ejemplo por muestreo del banco de tems, aleatorio, estratificado o de otro tipo, aso-
ciado a la tabla de validez de contenido), porque se aclara que la construccin del instrumento
es por eleccin a criterio del diseador de la prueba, con el mejor reactivo posible.
Posteriormente la prueba pasa a revisin y validacin de expertos para admitir que la muestra
de tems es pertinente, relevante y suficiente, segn se establece en las especificaciones, pero
esto no garantiza la distribucin de tems en la escala.
CONCLUSIN
Despus de examinar la documentacin que aport la DGEP sobre las pruebas ENLACE desarro-
lladas entre 2006 y 2013, el grupo que examin dichas evidencias mediante la aplicacin de los
criterios evaluativos considerados en este apartado, arrib a las siguientes conclusiones generales:
los manuales tcnicos de 2012 y 2013 y en el Banco Nacional de Reactivos, no las hay
acerca de que se procediera de manera sistemtica y rigurosa. Por su parte, en el caso
del uso de protocolos verbales con examinados para analizar la complejidad cognitiva de
los tems, no se encontr evidencia alguna.
5. En general, las evidencias disponibles muestran que las fases de desarrollo y validacin
de los tems de las pruebas son las mejor logradas, entre las que se evalan en este apar-
tado. Sin embargo, existen muchos aspectos particulares en los cuales se observan limi-
taciones importantes que no se esperara encontrar en una prueba de gran escala con
las caractersticas de ENLACE . Las principales incluyen la escasa informacin disponible
sobre los perfiles de quienes disearon los tems o de quienes los validaron mediante
juicios, que permita observar sus antecedentes, representatividad y nivel de pericia;
el carcter genrico los manuales, formatos y procedimientos que se utilizaron para
la capacitacin de ambos grupos o para realizar sus actividades; as como la insuficiente
descripcin de los procedimientos tcnicos que operaron al realizar sus actividades.
6. En cuanto al alineamiento de las pruebas al currculum, se observ un claro inters por
buscar la correspondencia y armonizacin de los tems con la prueba y el currculum,
pero las evidencias disponibles no son suficientes para asegurar que ello se logr.
En sntesis, estimamos que las evidencias de validacin en el aspecto a que hacemos referencia,
son dbiles. Mxime si consideramos el gasto que supone realizar una prueba de estas carac-
tersticas en un pas de las dimensiones poblacionales como es Mxico, y el impacto que tiene
a nivel poltico y poblacional. Los aspectos relativos a la validacin de constructo y contenido,
son indisociables de los relativos a los de la validez consecuencial, por lo que cobran especial
relevancia las debilidades detectadas.
56
2 Aspectos psicomtricos
La prueba ENLACE -Bsica (en adelante ENLACE - B ) producida desde el ao 2007 por
la propia Secretara de Educacin Pblica se ha documentado en una serie de manuales tcnicos
hasta el ao 2013, donde se encuentra la informacin disponible del proyecto. A pesar de la
frecuencia anual de los manuales tcnicos y de la abundante informacin contenida en ellos,
la documentacin de la prueba deja pendientes muchos elementos que no se detallan en dichos
manuales, ni se tienen disponibles en otros materiales complementarios (investigaciones, pro-
yectos de anlisis, informes internos), los cuales son muy escasos y limitados, aunque deberan
haberse producido en mayor nmero, amplitud y formalidad por tratarse de una prueba de
alcance nacional.
Debido a esta insuficiencia de documentacin, se tiene muy poca evidencia del uso que se hace
de los resultados de las pruebas. De hecho algunos de estos usos son inconvenientes o no previs-
tos por el proyecto, pero se sabe que son realizados por asociaciones civiles o por los medios de
comunicacin, a pesar de las advertencias de la propia SEP para desalentar el uso indebido de las
bases de datos.
Sin lugar a dudas, la falta de documentacin formal de respaldo a los aspectos que se indican
en los manuales tcnicos como faltantes, son la principal debilidad de ENLACE-B, y esto incide
de forma notable al analizarse los aspectos tcnicos objeto de este captulo.
Algunos tpicos son medulares para garantizar que las pruebas satisfacen estndares mnimos
de diseo, se mencionan en diversos materiales pero se documentan de forma insuficiente o
inapropiada. As por ejemplo, no es suficiente afirmar que se hace un proceso de equipara-
cin, describirlo en un esquema y dar unos cuantos resultados, si no se cuenta con el estudio
realizado en ese sentido. A veces se citan estudios no disponibles o dejando al lector solo una
conjetura de que se realizaron debidamente. Por ello no es admisible la repeticin de los mismos
resultados que aparecen desde el manual 2007, dado el impacto que tienen estas pruebas en
cada estudiante y en las actividades acadmicas.
57
CRITERIOS TCNICOS SOBRE LA CALIDAD DE LAS PRUEBAS
Los manuales tcnicos detallan los criterios fundamentales para seleccionar los contenidos pro-
gramticos en Espaol y Matemticas: 1) relevancia; 2) documentabilidad; 3) plausibilidad; 4) con-
tinuidad y; 5) abarcabilidad. Para Ciencias naturales se consideraron adems estos factores: 6)
esencialidad; 7) continuidad; 8) aplicabilidad; 9) actualidad; 10) interdisciplinariedad. No aparece
ninguna mencin a que haya este tipo de criterios utilizados para otras materias, con ello se pierde
una evidencia que permita fundamentar el diseo de la prueba.
En cuanto a la validez de criterio, se recibi informacin muy incompleta sobre un estudio que
relacion los resultados de ENLACE con los de una prueba de Australia (denominada SEP-ISA )
que toma como criterio un conjunto de reactivos de la prueba PISA , lo cual no deja de ser un
buen propsito si no se puede contar con la documentacin de manera formal, ya que no
vienen datos formalizando el estudio, solo algunas diapositivas en una presentacin a la cual
le faltan explicaciones y aclaraciones, lo cual hace suponer que se trata de informacin propor-
cionada por el autor durante su presentacin verbal. Adicionalmente se menciona en forma
descriptiva un estudio realizado en combinacin con PISA para la cohorte de 2012, con lo que
se afirma que:
Los resultados preliminares permiten llegar a la conclusin de que la correlacin entre la prueba
ENLACE y la prueba PISA es del mismo orden que las correlaciones observadas entre las sub-
dimensiones del dominio matemtico. Una consecuencia importantsima es que los datos de
ENLACE pueden ser utilizados para realizar predicciones acerca del posible comportamiento
de una cohorte respecto de la prueba PISA .
Esta conclusin debe acompaarse del estudio debidamente documentado y formalizado. Para
estudiar la validez tomando como criterio una poblacin de referencia de otro grado escolar
se plantea un anlisis de ganancia educativa, ms con nfasis de realizar la equiparacin de las
pruebas. Este aspecto solo queda en planteamiento al no contarse con la informacin comple-
tamente desarrollada y documentada.
58
tt Hay evidencia documental del anlisis de la validez de escala de la prueba y su pertinencia
en relacin con el constructo y el modelo del perfil a evaluar.
En los MT 2007 y 2008 se incluyeron evidencias grficas relativas a la validez de escala pero no
se volvieron a reportar despus. Sin embargo se hace una referencia contradictoria al respecto:
por un lado se habla de que las dificultades de los tems se distribuyen de manera uniforme
para reforzar la validez (esta prctica tiene el propsito de obtener medidas en todo el domi-
nio del perfil, con un orden de error uniforme), pero por otro lado se establece que la prueba
de referencia deseable est formada por tems de dificultad p=0.5 (equivalente a b=0 para el
modelo de la TRI ), con lo cual se refuerza la confiabilidad. Evidentemente, ambos modelos son
incompatibles y debera ser explicada la diferencia desde el punto de vista de los diseadores,
as como hacer estudios que demuestren la pertinencia de un modelo sobre el otro. Este criterio
con predominancia de la confiabilidad y los beneficios que se suponen por utilizarlo, son erra-
dos. Es claro que el diseo de la prueba debe incluir preguntas a lo largo del continuo, sobre
todo atendiendo a que se establecen puntos de corte en distintos tramos de la distribucin.
El utilizar 0.5 como criterio de diseo se pone en competencia contradictoria con la necesidad
de incluir preguntas de distintos contenidos y distintas demandas cognitivas.
Otra consecuencia que tambin puede catalogarse como inconveniente, es que con un diseo
con tems de valores cercanos a p=0.5 se obtienen distinciones muy finas pero irrelevantes al
centro de la distribucin y, al mismo tiempo, distinciones muy gruesas en los extremos de la distri-
bucin. Independientemente de que la prueba sea criterial, normativa o de otro tipo, si se tiene el
propsito y necesidad de medir el desempeo de los estudiantes en un conjunto de constructos
(competencias, habilidades o destrezas cognitivas), siempre debe haber preguntas que se disper-
sen a lo largo del continuo de la distribucin.
tt Se presenta documentacin que muestra cmo se realiz el proceso para analizar la validez
de constructo de la prueba y se presentan los resultados.
Se dispone de tablas descriptivas de los objetivos o competencias esperadas, definidos por in-
tervalos, lo cual puede interpretarse como reforzamiento de los posibles constructos definidos
en ENLACE . Las tablas son incompletas al incluir solamente algunos ejemplos, aunque podra
suponerse que la SEP cuenta con la totalidad de descriptores.
Se debe apuntar que la presentacin de las tablas es heterognea. Se puede justificar que estas
diferencias son atribuibles al tipo de materia y al grado escolar, pero estas diferencias tienen un
problema implcito porque conducen a criterios que no permiten justificar que se afirme que
ENLACE permite homologar las competencias en la escala vertical. Suponiendo que se haya
podido hacer esta homologacin, no se encuentra disponible la documentacin pertinente.
Sobre el diseo de las pruebas en trminos de los constructos se cuenta con informacin par-
cial e incompleta. En particular se dificulta comprender los archivos de Excel donde aparecen
los valores de las dificultades de los reactivos en porcentajes de aciertos y con los parmetros
de la TRI , pero falta informacin acerca del nmero de personas que contestan en cada caso,
as como el modelo muestral que permite la seleccin de tems en cada versin y la forma de
integrar estos reactivos en la prueba.
Aspectos psicomtricos 59
En el MT 2007 se observ la necesidad de llevar a cabo el anlisis de validez de constructo
(pudiendo ser por jueceo, por anlisis estadstico o mixto), que es un tipo de anlisis que aporta
evidencias de la calidad del diseo. No se tiene evidencia contundente de que se haya realiza-
do este tipo de anlisis, aunque aparecen citas en los siguientes MT indicando que se hicieron
Las pruebas ENLACE para educacin bsica
anlisis de validez concurrente con varias pruebas. Como ya se cit previamente, se present un
material que describe un estudio realizado en combinacin con PISA para la cohorte de 2012
(proyecto SEP-ISA ), donde establece la similitud de ENLACE con la prueba internacional, lo cual
es interesante pero, al mismo tiempo, problemtico, dado el diferente marco de referencia de
ambas pruebas y de la poblacin a la que se aplican. El estudio no est debidamente formaliza-
do y no se cuenta con un reporte, artculo o anexo completo.
tt Se indica el procedimiento seguido para construir las pruebas a partir de las especificaciones
y del banco de tems.
En el MT 2012 se indica que para el diseo se plantean dos instrumentos de caractersticas dis-
tintas: 1) Prueba operativa, censal, para las dos asignaturas principales y una asignatura rotativa.
ENLACE se organiza en subpruebas (una por asignatura), divididas en secciones, aplicadas en
dos das consecutivos y en varias sesiones diarias de 45 minutos. 2) Pre-test muestral con diseo
matricial, equivalente a la operativa presentada en 6 formas. El nmero de reactivos depende de
la sesin y las asignaturas se presentan en forma contrabalanceada en cada forma.
El detalle del diseo a partir del banco no est claramente definido, ms adelante se hace un
comentario sobre la informacin disponible acerca del banco de reactivos.
La metodologa para construir la prueba a partir de los bancos disponibles no parece estandari-
zada, de tal modo que no est claro, por ejemplo, que se haga un muestreo del banco de tems,
aleatorio, estratificado o de otro tipo, asociado a la tabla de validez de contenido. En cambio se
aclara que la construccin del instrumento es por eleccin a criterio del diseador de la prue-
ba, con el mejor reactivo posible. Como no se cuenta con la evidencia documental acerca del
inventario de reactivos, no es posible juzgar la pertinencia de este procedimiento para localizar
al mejor reactivo posible.
En una siguiente etapa, la prueba pasa a revisin y validacin de expertos, quienes estn encar-
gados de admitir que la muestra de tems es pertinente, relevante y suficiente, segn se establece
en las especificaciones. Este procedimiento tampoco garantiza la manera en que se realiz la dis-
tribucin de tems en la escala. Sin embargo, en algunos documentos se menciona que se hacen
pruebas paralelas, lo que hace suponer que tambin se seleccionan tems a fin de que la forma
resultante sea paralela a la operativa, pero no se encontr evidencia al respecto.
60
tems: construccin de reactivos, validacin (revisin interna), ajustes a reactivos, organizacin de
reuniones de jueces, taller de jueces, validacin por jueces (revisin externa), ajustes por jueces
a los tems. Se indican tambin los pasos para la produccin de pruebas: seleccin de reactivos,
ensamblado de la prueba, revisin de pruebas. Todas estas etapas pueden clasificarse como pasos
genricos que deben sistematizarse para disponer de un manual de construccin especfico.
tt Se cuenta con la metodologa de diseo que se utiliz para obtener versiones equivalen-
tes y reportar los valores de diseo y experimentales que demuestren dicha equivalencia.
No es aceptable reportar los resultados de la prueba sin evidencias de equivalencia entre
versiones o formas.
Por lo anterior, la equivalencia desde el punto de vista conceptual no est claramente definida,
aunque se dispone de ejemplos de tablas de especificaciones para las asignaturas y grados. Se
aprecia que las tablas que fueron diseadas con criterios heterogneos, adems de tratarse de dis-
tintas materias; debido a estas diferencias es difcil homologar la escala vertical de competencias
que se propone por parte del proyecto ENLACE. Indican que: Si bien el INEE aport, en el inicio de
ENLACE, un modelo de especificacin a seguir para la presentacin de las tablas, en la actualidad
presentan estructuras diversas, dados la orientacin y el enfoque de las distintas asignaturas que
se exploran.
En la seccin 1 de este informe se seala la importancia de contar con una descripcin detalla-
da de la prueba que contraste los componentes de competencia con los niveles taxonmicos,
conocido como test blueprint o marco de referencia de la prueba, pero para el diseo de las
pruebas solo se cuenta con la lista de temas y el nmero de tems (bajo el ttulo de estructura
de la prueba, pero sin referencia a niveles taxonmicos o dominios cognitivos), por ello no se
pueden garantizar las cualidades de diseo de cada versin de la prueba que permitiran dispo-
ner de pruebas comparables por diseo.
Aspectos psicomtricos 61
En las presentaciones de Power Point proporcionadas hay unas grficas que pretenden explicar
el proceso de equivalencia, pero carecen de documentacin y explicaciones, por lo que se hace
muy dudosa su interpretacin y le resta seriedad al proceso de igualacin, si es que se realiza.
Las pruebas ENLACE para educacin bsica
Tambin se presentan esquemas de anclaje entre pruebas, que no incluyen formulaciones o expli-
caciones sobre la forma de calificacin, que se supone est asociada con el software empleado,
pero falta informacin a este respecto. Hay una mencin acerca del valor pequeo de los errores
(por ser un anlisis censal y por la cantidad de personas que intervienen en el estudio).
Por otra parte hay un estudio de equiparacin que se trata de justificar con un modelo bootstrap,
que puede ser apropiado al caso pero del cual falta informacin que permita identificar las ca-
ractersticas del modelo. El modelo bootstrap requiere definir el nmero de muestras, el nmero
de elementos en la muestra, la cantidad de posibles repeticiones consideradas para el proceso;
sin embargo, no se da informacin sobre esto, lo cual no permite valorar su pertinencia.
Conviene aadir que, en cuanto a la equiparacin por medio de correlaciones entre pruebas,
la correlacin no implica que se est midiendo lo mismo ni que se deba tratar una escala como
si fuese vertical. Por ejemplo, la correlacin en TIMSS entre Matemticas y Ciencias es > 0.8,
pero no se podra argumentar que miden lo mismo, aunque exista cierta comunalidad entre las
asignaturas. Igualmente debe anotarse que es de dudosa utilidad emplear alumnos en grados
superiores para evaluar las preguntas de la prueba operativa. Las preguntas se deben evaluar
con la poblacin focal para la que se aplicarn. Aparte de la escasa pertinencia de las compa-
raciones con una poblacin superior, no queda claro cmo se hace para evaluar las preguntas
del ltimo grado.
ENLACE se propone con una periodicidad anual organizada en dos reas sustantivas de com-
petencias generales del currculum educativo (matemticas y Espaol). Se alternan cuatro
materias (Historia, Geografa, Ciencias, Educacin Cvica y tica) a lo largo de cuatro aos.
La justificacin de esta periodicidad y eleccin de temas aparece enunciada en forma bsica
general, porque no se tiene evidencia de que haya habido un acuerdo de Consejo, o una
instruccin secretarial, por ejemplo. Por las caractersticas de ENLACE que depende de la au-
toridad federal de educacin, esto puede parecer suficiente para los fines del MT, pero pudo
documentarse mejor para esta evaluacin.
Se justifica realizar una aplicacin censal anual para cubrir el propsito de retroalimentar a alum-
nos, padres y maestros. La oportunidad de la prueba como fuente de informacin para las
personas y usuarios involucrados, es una cualidad deseable de una prueba de alcance nacio-
nal como ENLACE . Por ello no queda muy clara la forma en que sta puede intervenir en la
retroalimentacin, porque si bien es claro que la prueba cubre lo que se ve en el ciclo escolar,
62
es muy probable que no se cuente con tiempo para que el estudiante, el docente y la escuela
puedan realizar nuevas experiencias de aprendizaje dentro del curso y se tendra que pensar en
la utilizacin de los resultados para los siguientes cursos. La oportunidad de la prueba queda
en entredicho si se deja al inters personal de los estudiantes (o los padres de familia) la consulta
de la pgina web de la SEP para identificar los aciertos y deficiencias de cada quien y tomar
medidas correctivas para un curso que ya termin.
En el MT 2012 se indica:
ENLACE es, as, un programa fundamental que la Secretara de Educacin Pblica (SEP)
desarrolla ante las exigencias actuales de rendicin de cuentas proporciona informa-
cin a los estudiantes, padres de familia, docentes, directivos de las instituciones educa-
tivas y a la sociedad en general, respecto del logro acadmico de los alumnos del Sistema
Educativo Nacional.
Obsrvese que si el propsito de ENLACE es reportar el estado del Sistema Educativo Nacional,
entonces sera ms pertinente una prueba muestral que una prueba censal (por oportunidad,
costo, logstica, entre otros aspectos); en cambio, si el propsito de la prueba es informar a las
personas oportunamente, la aplicacin censal con fines diagnsticos sera ms apropiada que
una prueba de fin de curso en unas competencias genricas.
tt Se especifica y justifica el marco metodolgico que integra en forma coherente los procesos
y mtodos que guan el desarrollo de la prueba.
Es posible que exista la informacin pero no se cont con ella para esta revisin. Debe advertirse
que hay varias decisiones de criterio que no estn justificadas de ninguna forma en la docu-
mentacin, por ejemplo: la metodologa para establecer las especificaciones, los acuerdos para
el enfoque de las dos reas de competencia (matemtica y lenguaje), la definicin de las otras
reas de evaluacin (por ejemplo Ciencias), la metodologa para definir los puntos de corte y la
forma de determinar dichos puntos, entre otros que deberan tener documentacin apropiada,
misma que no es motivo de divulgacin al pblico en general pero que s debi haber estado
disponible para el comit evaluador.
En el MT se indica que la prueba debe tener confiabilidad y validez, por lo que los diseadores
de ENLACE justificaron la necesidad de la TRI de tres parmetros, sin plantearse la pertinencia del
uso mixto que se tiene con las corridas de ITEMAN (anlisis con modelo clsico) o al no utilizar
otros modelos como el de Rasch.
Aspectos psicomtricos 63
En el MT se dice que la calidad de las pruebas se garantiza por el soporte tcnico de una
metodologa empleada a nivel internacional enfocada a la confiabilidad y validez de los instru-
mentos, en especial sobre propiedades estadsticas, consistencia interna de las respuestas de
los sujetos y parmetros psicomtricos de los reactivos (dificultad y discriminacin) y se afirma
Las pruebas ENLACE para educacin bsica
que se realizan estudios especiales por parte de agencias o instituciones de apoyo. Sin embar-
go, contrariamente a esa afirmacin, no hay evidencias contundentes que se hayan realizado
los estudios que justifiquen todos los aspectos esperados, en algunos se tienen estudios pero
puede decirse que son escasos, sin referencia clara de haberse publicado y tampoco se tienen
como informes de proyecto interno.
Hay aspectos de planeacin no cumplidos para ser una prueba de alcance nacional, en particu-
lar porque se apuntaron varios aspectos en los MT 2007 y 2008, que fueron ignorados en los
siguientes MT. En caso de haberse resuelto las sugerencias no se cuenta con evidencia de ello.
tt Hay manuales tcnicos que orientan de manera detallada todos los procesos involucrados
en el desarrollo de la prueba.
El caso de ENLACE-B es ejemplar en el sentido de que se cuenta con manuales tcnicos de cada
ao. El esfuerzo en su produccin debe mejorarse en trminos de actualizacin del contenido y
de la fundamentacin metodolgica del desarrollo de las pruebas, junto con datos que permi-
tan comprobar el respaldo tcnico del proyecto, y cambios a travs del tiempo.
Se cuenta con MT de 2007 a 2013 que, en general, proporcionan elementos suficientes para dar
fundamentacin y soporte al proyecto. El MT no es definitivo porque:
a) Las revisiones de las pruebas y de los propios manuales no atienden las recomendaciones
de las versiones 2007 y 2008. Es de observar que las sugerencias contenidas en esas edi-
ciones simplemente se quitaron a partir de 2009 sin atender las indicaciones ni resolver
los problemas planteados o los aspectos a mejorar.
b) Falta documentacin que no se complet en las versiones de 2008 en adelante, lo cual
era de importancia principal para el desarrollo de esta evaluacin convocada por el INEE.
c) No se incluyen numerosos estudios tcnicos requeridos para demostrar la pertinencia de
varios puntos de importancia para el desarrollo y aplicacin del proyecto, en cuanto al
diseo de las pruebas, la equiparacin de versiones, los anlisis de funcionamiento dife-
rencial y de sesgo, entre otros ms.
d) Se aprecian elementos y datos obtenidos a partir de los resultados de la primera aplica-
cin que se conservaron de la versin 2007 o 2008, y que en versiones posteriores no se
actualizaron correctamente.
Si se toma como referencia definitiva el manual tcnico 2013 que detalla los propsitos, usos,
y audiencias previstas de la prueba ENLACE , se aprecia que dichos usos previstos no se sinteti-
zan explcitamente. Por ejemplo, el MT hace mencin en repetidas ocasiones de gran nmero
y variedad de objetivos que busca la prueba y los beneficios que ofrece a los diversos actores
(alumnos, maestros, directores, autoridades, y sociedad en general). Sin embargo, tanto el ma-
nual, como los materiales que lo acompaan, as como otros disponibles en el portal web de
la SEP, presentan muy limitada evidencia terica y emprica con la cual resulta difcil respaldar
especficamente los usos propuestos y consecuencias previstas. Los documentos ofrecen argu-
mentos generalmente superficiales y vagos sobre la metodologa de diseo y produccin de las
pruebas; tambin afirman que las pruebas ofrecen beneficios de su uso, pero tpicamente no
64
se sustentan directamente en razonamientos o argumentos lgicos o tericos, y menos an en
evidencia emprica.
Estos anlisis son exigibles por estndares de calidad de pruebas y, sobre todo, porque la homo-
geneidad o heterogeneidad de los tems se refleja al agruparse en conglomerados temticos o
de competencias por el constructo propuesto en las tablas de especificaciones.
Lo que se puede encontrar es el conjunto de aspectos tericos de diseo con criterio de ex-
perto, lo cual se relaciona con los puntos de validez del captulo previo o con las decisiones de
interpretaciones de la influencia de factores culturales tratado en otro captulo de este trabajo.
Aparecen algunos resultados de confiabilidad con la versin global de la prueba operativa pero
no se cuenta con anlisis de subescalas ni versiones. Todos los anlisis se realizaron con alfa de
Cronbach. En el MT se reportan valores de anlisis de las pruebas en forma de tablas y tambin
en otros documentos se reportan valores obtenidos de estudios diversos, como por ejemplo el
estudio general relacionado con la copia en la prueba, aunque puede decirse que es un estudio
genrico y no relacionado exclusivamente con ENLACE .
Este anlisis de consistencia interna realizado con alfa de Cronbach es un procedimiento que
brinda valores aceptados por lo general en pruebas nacionales e internacionales, a pesar de sus
Aspectos psicomtricos 65
limitaciones. En cambio, no hay evidencia del uso de otro tipo de modelos para la confiabilidad
pudiendo ser pertinentes otros modelos como el uso de la teora G, la separacin logstica, salvo
una mencin y un par de imgenes de las correlaciones pre-test/pos-test sin evidencia de su
manejo sistemtico en la construccin de la prueba.
Las pruebas ENLACE para educacin bsica
Del mismo modo que no se tiene informacin sobre la escala y la distribucin de los reactivos
en relacin con la validez de la escala, tampoco se tienen elementos para definir el manejo de
los casos de personas con resultados extremos (cero aciertos y totalidad de aciertos) con los
cuales se incrementa la desviacin estndar. Estos se manejan con las tcnicas de estimacin
de mxima verosimilitud (MML ) que maneja el programa utilizado para la calificacin (BILOG) y
que dan puntajes razonables a los alumnos que califiquen con 0% o 100% por medio de un
modelo matemtico de extrapolacin.
Dado que hay una prueba nica, si sera conveniente presentar de alguna manera la distribucin
de frecuencia de los puntajes, pero no puede utilizarse la curva caracterstica de la prueba para
relacionar los aciertos brutos con la medida, por utilizarse el modelo de tres parmetros de la TRI.
Debido a que los puntos de corte se definen por un esquema emprico, los valores de ubicacin
de tales puntos debieran ser diferentes en cada aplicacin a menos que se garantice la equi-
valencia perfecta entre ellas o la igualacin por procedimiento matemtico, en cualquier caso
es necesario contar con el error de medida (o el intervalo de confianza) en el punto de corte.
De hecho el error estndar parece obtenido de la teora clsica y no de la TRI, porque todo indica
que es procedente de las salidas del software ITEMAN. Al no contarse con informacin metodo-
lgica ni valores de referencia en este sentido, tampoco se dispone de informacin relativa a los
valores obtenidos con el software BILOG para el error de medida y que aporten elementos para
determinar el error de diseo. No es un problema en s mismo el uso de estos programas, sino la
falta de informacin en los manuales tcnicos que justifiquen los modelos de clculo, las interpre-
taciones y los valores de aceptacin para que sean comunicados a los usuarios de los resultados.
En todos los casos es muy alto el valor promedio de la correlacin punto biserial. A diferencia de
0.24 que se puede calcular con los datos de la hoja de Excel proporcionada: ResAnlisisGama-
Alfa.xls, en este reporte se proporcionan medias de 0.27 a 0.56.
66
En las pruebas se tienen puntajes que ocupan prcticamente la totalidad de la escala, lo cual
es muy interesante para garantizar que se cubre todo el rango de competencias, pero al mismo
tiempo induce a que la desviacin estndar sea grande y con ello se incrementa el valor de alfa
de Cronbach para un conjunto dado de tems.
No se demuestra en las evidencias proporcionadas que se hayan eliminado las personas extre-
mas, especialmente con 0 aciertos, no se indica cuntos son, tampoco se aclara si son valores de
0 por respuesta incorrecta o por omisiones de estudiantes que no se presentaron a la prueba.
Espaol
3 6 3 secundaria
2006 2007 2008 2006 2007 2008 2006 2007 2008
nm. tems 52 50 52 64 64 64 64 64 64
media 27.3 24.5 25.4 27.3 24.5 25.4 27.5 27.9 28.4
media% 53 49 49 47 51 54 43 44 44
desv est 9.2 8.1 9.4 9.2 8.1 9.4 8.9 8.3 7.1
rpb media 0.37 0.44 0.48 0.35 0.46 0.50 0.29 0.35 0.32
alfa 0.88 0.84 0.88 0.88 0.89 0.91 0.83 0.81 0.75
alfaterica 0.88 0.85 0.88 0.85 0.80 0.85 0.84 0.81 0.73
Matemticas
3 6 3 secundaria
2006 2007 2008 2006 2007 2008 2006 2007 2008
nm. tems 50 50 50 61 61 61 74 74 74
media 25.2 24.1 28.2 25.9 25.1 30.8 26.8 23.8 30.2
media% 51 48 56 43 41 51 36 32 41
desv est 9.2 8.1 9.4 9.8 9.8 11.5 9.6 8.2 10.6
rpb media 0.40 0.49 0.56 0.34 0.44 0.51 0.27 0.32 0.39
alfa 0.90 0.88 0.91 0.87 0.87 0.91 0.84 0.79 0.87
alfaterica 0.89 0.88 0.91 0.88 0.88 0.91 0.84 0.77 0.87
Este criterio es importante aunque la prueba se aplique solo una vez al ao y los cuadernillos se
distribuyan entre los participantes. En ENLACE-B hay reactivos que se aplican en forma piloto y
despus pasan a formar parte de la prueba operativa. En este sentido se manejan como pre-test
y post-test cuyas calibraciones se usan para calificar las pruebas operativas.
Es posible que el cambio de contexto y circunstancias en las que se realizan las dos aplicaciones
pueda cambiar las propiedades de las preguntas, por lo que sera prudente verificar la transfe-
ribilidad de las calibraciones.
Aspectos psicomtricos 67
tt Hay un reporte con valores de separacin del modelo logstico empleado.
No se dispone de este dato. Todos los anlisis de confiabilidad estn hechos con alfa de Cronbach,
pero los anlisis con la TRI no presentan la evidencia de la confiabilidad calculada de otra forma.
Las pruebas ENLACE para educacin bsica
tt Se reporta la metodologa para el clculo del error de diseo de la prueba y de sus subes-
calas, o de sus partes o secciones y se reportan los resultados obtenidos en las aplicaciones.
Hay menciones acerca de la presencia de sesgos, pero no refiere la realizacin de estudios pro-
pios de la SEP, en cambio se cita que se encargan estudios especiales de factores asociados al
rendimiento a otras instituciones, pero se cuenta con escasa informacin.
El uso de grficos en los tems es correcto desde el punto de vista tcnico, pero debe justifi-
carse que no afecta la forma de interpretarse o de responder de estudiantes hacia los cuales
pudiera producir un funcionamiento diferencial, por ejemplo dibujos de ambiente urbano que
estudiantes de ambiente rural no comprendan o viceversa, grficos que no sean comprensi-
bles por estudiantes dbiles visuales (de hecho, no hay mencin a la forma de trabajar con
estudiantes ciegos).
Para lidiar con el problema de sesgo, durante el proceso de jueceo los especialistas deben
explorar la calidad de los reactivos, principalmente: 1) la representatividad del dominio de los
contenidos curriculares que los estudiantes deben poseer, 2) la formulacin correcta de cada
68
reactivo, 3) la ausencia de sesgo aparente por el cual pudieran favorecerse los resultados hacia
algn grupo de estudiantes, especialmente por gnero y por grupo social.
La copia es uno de los factores al que se le da mayor inters en los MT. Se tienen efectivamente
estudios de factores asociados, o de copia, pero no se encuentra un estudio sobre DIF. Sobre
la copia se utilizan dos modelos: K-Index (para personas) y Scrutiny (para grupos), que se com-
binan con una simulacin realizada para dictaminar el valor de probabilidad aceptable para
determinar que hubo copia en un saln o sede. Estos estudios se reportan de forma interna a
la SEP y no parece tener implicaciones administrativas en la calificacin de los estudiantes, del
grupo o de la institucin, por lo que se indica en el MT2013: Cabe sealar, en este marco, que
no se cuenta con esquemas de penalizacin o sanciones administrativas a los estudiantes o
docentes que contengan copias potenciales, aunque en el documento Normas operativas
se establece:
4.20 En la calificacin del examen se utiliza un programa para detectar la copia as como
el dictado de respuestas. Los alumnos o docentes que incurran en estas acciones gene-
rarn que sus resultados no sean considerados para obtener el puntaje o nivel de logro
individual, de grupo, escuela, modalidad, municipio, estado y nacional, por lo que es muy
importante se erradiquen dichas prcticas.
tt Se cuenta con un documento que describe el modelo de calibracin de reactivos y los crite-
rios para su aceptacin, revisin y modificacin.
Es cierto que en dichos programas se puede contar con las frecuencias de respuesta global y por
opcin de cada tem, pero esto no implica que esta informacin se utilice en alguna forma dentro
del proceso de calibracin.
Convendra aadir que si bien el modelo utilizado para calibrar inicialmente las preguntas es
muy eficiente, sufre la desventaja de utilizar un criterio imperfecto en el clculo de los par-
metros (ver p. 102 del MT 2012); en la piloto se calibran las formas b16 junto a la Forma A,
Aspectos psicomtricos 69
pero en esta calibracin entran todos los tems, inclusive los que se eliminarn posteriormen-
te por defecto.
Lo que se debe hacer es una primera seleccin de las preguntas aceptables y utilizar solo esas
Las pruebas ENLACE para educacin bsica
Los criterios cambiaron entre los MT a partir de 2009 por lo que ha evolucionado el conjunto
de elementos propuestos para eliminar reactivos, con nfasis en el uso de la correlacin punto
biserial que se espera sea superior a 0.3 y que la dificultad de los reactivos est en el intervalo de
0.1 a 0.9. En el caso del modelo logstico se incluye el desajuste por c2 con significancia mayor
(sic) a 5% y se revisan cuando se tienen una significancia de hasta 10%; los que tienen medidas
superiores a 10 o inferiores a -3 (lo cual es un intervalo sesgado inexplicablemente), cuando el
parmetro 1 sea menor a 0.1 o el parmetro c superior a 0.2 y por tener una correlacin punto-
biserial negativa (dada por BILOG), pero, adicionalmente se dice que son rechazados los reacti-
vos cuya curva caracterstica no presenta un comportamiento razonable (pendiente negativa o
alguna tendencia dudosa) a criterio del revisor. Este ltimo criterio subjetivo debera eliminarse
dados los otros citados previamente que son sistemticos y objetivos. Solo aparece un ejemplo
grfico en los diversos MT, siendo de escasa evidencia respecto del proceso que se realiza en el
proyecto para dictaminar los tems.
tt Se explicitan los procedimientos utilizados para efectuar el anlisis de tems (dificultad, dis-
criminacin, ajuste [fit], distractores, dimensiones, etctera)
Aparecen resultados de la prueba operativa, en versin global, pero sin incluir anlisis de dis-
tractores, anlisis factorial o de otro tipo. Como ya se indic previamente, no hay un evidencia
de anlisis de los tems en las subescalas ni en las versiones. Estos anlisis son exigibles por
estndares de calidad de pruebas y, sobre todo, porque la homogeneidad o heterogeneidad de
los tems se refleja al agruparse en conglomerados temticos o de competencias por el cons-
tructo propuesto en las tablas de especificaciones.
Considrese, por ejemplo, que la prueba est formada por dos grandes reas que miden com-
petencias de lenguaje y de matemtica. Un propsito educativo muy laudable sera que los
estudiantes dominaran ambas reas de la misma manera, pero la realidad es que se trata de
constructos disjuntos, de tal modo que no necesariamente se tiene una alta correlacin entre
ellos. Por esta circunstancia, es evidente que un tem tiene mejor correlacin con el conjunto
de reactivos del constructo del cual forma parte y ello puede implicar una baja correlacin con
la prueba completa.
En conclusin, tiene ms sentido analizar por separado los tems de matemtica y dictaminar
sus propiedades mtricas en su constructo que un anlisis global. Del mismo modo, en el rea
de matemtica se pueden tener subreas disjuntas (aritmtica, lgebra, geometra y trigonome-
tra) igual que en el rea de lenguaje (gramtica, ortografa, comprensin de textos literarios y
no literarios, historia de la literatura). No se cuenta con evidencia de que se hayan realizado los
anlisis por los temas en forma separada.
70
Ya se cit que las versiones de pre-test se disean con un modelo matricial con el propsito de cu-
brir temas especficos en muestras controladas de estudiantes, as como equiparar entre pruebas
y calibrar tems que se utilizarn en el siguiente ao. Entonces, puede decirse que los parmetros
psicomtricos pueden variar respecto de los que se tienen en la prueba operativa censal, especial-
mente si se calibran en forma global y no como parte del tema del cual forman parte.
tt Se cuenta con una normativa para revisar, corregir y desechar reactivos en funcin de los re-
sultados de la calibracin, tomando en cuenta un conjunto de varios parmetros y evidencias.
En el MT2013 aparecen los criterios para aceptar y rechazar reactivos (citados en el punto pre-
vio) que incluyen el ajuste al modelo logstico, curva caracterstica con pendiente negativa o de
comportamiento poco claro en su grfica, dificultades extremas y correlacin reactivo-prueba.
Para la primera etapa del piloteo inicial se seleccionan los reactivos que tienen los mejores resulta-
dos del jueceo, para conformar 6 formas diferentes para cada grado (30 en total). Las formas 1 y 4,
2 y 5, 3 y 6 son equivalentes, es decir contienen reactivos que miden las mismas especificaciones.
Para la segunda etapa solo se pilotean los reactivos que han tenido que ajustarse, con base en
los resultados del jueceo y de la primera etapa de piloteo, para tener al menos uno con buenos
indicadores estadsticos.
Para seleccionar los mejores reactivos se ha considerado como criterio valores mayores a 0.30 en
discriminacin y correlacin biserial, independientemente del porcentaje de respuestas correctas.
Para el piloteo con muestras controladas en las ltimas sesiones de la prueba operativa aplicada
durante las jornadas nacionales, se han dispuesto 6 formas por grado y asignatura con reactivos
que son calibrados con sujetos comunes al resto del instrumento.
Las calibraciones se combinan con el proceso de jueceo para establecer los reactivos que se
conservan en el Banco entre las versiones de pre-test y operativa. Se preparan tablas con el
inventario de los reactivos y sus calibraciones para la inclusin posterior en el diseo de las
pruebas definitivas.
tt Es posible revisar los inventarios del banco de reactivos, debidamente clasificados y con
valores psicomtricos o edumtricos. No es aceptable que la prueba carezca de inventario o
que haya reactivos sin calibracin.
Se satisface este criterio en forma parcial, porque en el MT 2007 y 2008 se incluy informa-
cin acerca de los reactivos (se habla de los reactivos de 3 opciones hasta 3 de primaria) y los
inventarios que estn en resguardo confidencial en la Direccin y se incluye una tabla con el
Aspectos psicomtricos 71
inventario de tems. En MT 2008 se tiene una tabla procedente de la base de datos del banco
informtico. Esta informacin fue retirada de los siguientes MT.
Es de suponer que el sistema de captura debe permitir obtener los inventarios en todo momento.
Las pruebas ENLACE para educacin bsica
tt Se cuenta con una normativa para el uso de los reactivos, indicando su vigencia en el ban-
co o en las versiones, forma de almacenamiento en medio informtico o fsico y forma de
actualizacin para uso posterior.
Para contrarrestar los usos indebidos, se han elaborado materiales de apoyo que recomiendan
los usos apropiados, con fines pedaggicos, y que tratan de evitar usos para los cuales no est
hecha la prueba. Esta prctica de distribuir el instrumento ha hecho que no parezca til contar
con una gua de preparacin para los sustentantes, pero podra ser interesante rescatar el con-
cepto de produccin de las guas que se han hecho con fines didcticos.
No se encontr una gua de interpretacin general para la prueba, aunque hay materiales de
apoyo en el portal de la SEP que pudieran considerarse como suplentes de esta necesidad.
La gua de interpretacin, disponible en el reporte impreso, ayuda al alumno y a los padres a
identificar la respuesta correcta de cada reactivo, los errores en las respuestas incorrectas y
la forma de interpretar la clasificacin de los niveles y subniveles de logro. Guas semejantes
a stas se tienen en pruebas nacionales e internacionales, como en los informes de PISA.
tt Est disponible el documento que explica la forma en que se asign calificacin a estudian-
tes (normativa, criterial u otra).
Es una prueba de calificacin criterial, relativa a las competencias descritas en las tablas de
especificaciones y con el modelo de calificacin y puntos de corte asociado a criterio de jueces.
La calificacin se realiza con el modelo clsico usando ITEMAN y con el software Bilog siguiendo
el modelo de tres parmetros de la TRI que es un modelo descriptivo, no invariante (depende de
cuntos y cules tems se contestan por la persona) y posteriormente debe hacerse el cambio
de escala para reportar la calificacin en el intervalo 200-800.
Debe hacerse notar que los valores (sumando y factor) para el cambio de escala de las medidas
logsticas se reportan en cada MT, pero no se han actualizado los datos, lo cual debe demos-
trarse en caso de que las pruebas mantengan sus parmetros mtricos o modificarse en caso
contrario. Se tiene una mencin en el MT acerca de un estudio comparativo entre grados para
72
estimar la ganancia educativa, pero no se cuenta con evidencias de ello, con lo que se pierde
tambin la ventaja de disponer de una escala fija.
tt Se cuenta con la explicacin del diseo de la escala de la prueba y la forma de calcular los
puntajes en dicha escala (por modelo clsico o logstico), con penalizacin o sin correccin
por azar, entre otros posibles criterios.
Al disear la escala se entiende que hay una traslacin de la media a 500 puntos y un escala-
miento de la desviacin estndar a 100 puntos, en el MT se indican los valores de traslacin y
escala que, en principio, se entiende que deberan cambiar con las aplicaciones por utilizarse
el modelo descriptivo de la TRI , pero se han mantenido a lo largo de los aos para Espaol
y Matemticas, y los de las materias rotativas se reportan incorrectamente.
Esta parte parece descuidada y debera mejorarse. Estos elementos, en principio, permiten re-
portar medidas con referencia a criterio, pero no se cuenta con una declaracin clara sobre el
carcter de calificacin criterial de ENLACE . Por esta circunstancia combinada con la asignacin
de puntos de corte sin sustento cualitativo, se tiene una incompatibilidad entre escala y refe-
rencia para reportar los niveles de desempeo. Una vez que se tiene una escala, su aplicacin
puede servir solamente para reportar medidas de la prueba global o para obtener medidas
en cada subprueba. No se emiten resultados parciales (por ejemplo por tema) en la escala 200-
800 y no se hace ningn detalle en este sentido.
No se detalla una escala para las calificaciones parciales. Se entiende que se entrega informacin
por cada rea evaluada en funcin de aciertos y errores, pero la escala solo se aplica al global.
No se encontr informacin relevante para este criterio, en principio las especificaciones fueron
definidas por los responsables de currculum de la SEP, como se indica en el captulo previo de
este reporte. En cambio, se encontr informacin escueta en un grfico o esquema que ilustra
la particin del continuo de medicin en niveles. Por ejemplo en las pginas 51 y 52 del MT 2012
solo se esquematiza la forma de establecer los puntos de corte, pero este criterio se refiere no
Aspectos psicomtricos 73
al punto mismo sino a la especificacin del estndar educativo relacionado con cada intervalo
definido por los puntos de corte.
Esto tambin tiene implicaciones en los estudios longitudinales y de ganancia, que deberan
Las pruebas ENLACE para educacin bsica
Este criterio no se satisface. La prueba se plantea como criterial pero la informacin que des-
cribe el procedimiento seguido es muy escueta y presentada solo en una secuencia grfica que
muestra el concepto general del proceso, pero no proporciona evidencias de su realizacin.
Se reportan puntos de corte desde el MT 2007 sin demostracin acerca de la forma de obtener-
los (con un exceso de decimales).
Puede pensarse que para determinar los puntos de corte se sigue un procedimiento por jueceo,
el cual debe sustentarse con una verificacin emprica en referencia a la poblacin y a la prueba
misma. No se cuenta con documentacin de estos anlisis.
tt Los estndares desarrollados a partir de comits de jueces, cuentan con el anlisis del domi-
nio curricular y/o tienen en cuenta consecuencias empricas de la identificacin de puntajes
de corte.
El MT 2007 explica el esquema para definir tres puntos de corte (cuatro niveles de logro) y men-
ciona que se hizo un anlisis factorial, del que no hay evidencia. Los parmetros de referencia
para los puntos de corte no se han cambiado desde 2007 en Espaol y Matemticas y se han
incluido los de otras asignaturas pero en forma descuidada, repitiendo datos o presentndolos
sin justificar respecto a mantener los puntos a lo largo del tiempo y sin el soporte del anlisis
factorial anunciado.
En este caso faltara contar con estudios completos que sealen las proporciones de alumnos
clasificados en cada nivel que deben ser, a su vez, revisados por los jueces a fin de asegurarse
que los puntos de corte dividan a los estudiantes en grupos que puedan ser interpretados y
distinguibles, frente al dominio curricular en trminos de las definiciones de las competencias
establecidas para la prueba y justificar los descriptores de cada nivel.
tt Hay evidencia emprica de que los niveles de desempeo estn bien graduados y discriminan
bien en relacin a contenido de prueba.
74
No se dispone de evidencia al respecto, fuera de la definicin de los puntos de corte como se
indic en el criterio anterior.
Se cuenta con la metodologa y evidencia del proceso realizado para describir el significado
de los niveles de desempeo o del conjunto de competencias por nivel en trminos de los
puntos de corte.
No se cuenta con documento detallado de los desempeos por nivel para las competencias y
contenidos propuestos en la prueba. En cambio, s se cuenta con descripciones de desempeo
por dificultad de los reactivos y por materia en el portal de la SEP.
tt Se tiene el documento que detalla los desempeos por nivel para las competencias y con-
tenidos propuestos en la prueba, as como otras interpretaciones pertinentes a partir de los
resultados de las pruebas.
En el MT 2012 (Pg. 28 a 49, 69 a 85) solo existen las tablas de especificaciones generales de
la prueba y descripciones por dificultad de los tems, pero no estn organizadas por niveles
de desempeo respecto de los puntos de corte. Se indic en el MT 2007 que es algo a comple-
tar pero no se ha realizado.
Las descripciones de desempeo por dificultad de los reactivos tambin se encuentran disponi-
bles las tablas por materia en la pgina web siguiente:
http://www.dgep.sep.gob.mx/Brow-AES/APOYOS12/Pedagogico2012/UP2012-3.as
tt Los integrantes de los comits encargados de definir los niveles de desempeo son selec-
cionados por sus perfiles acadmicos y/o laborales y por su representatividad dentro de la
diversidad cultural del pas; dichos integrantes pasan por un proceso de capacitacin orien-
tado al manejo de la metodologa a utilizar.
Con base en las descripciones contenidas en los MT, se debe suponer que los evaluadores son
representativos y experimentados, especialistas en las asignaturas, con experiencia en evalua-
cin, construccin y anlisis de reactivos. Al respecto los manuales tcnicos sealan: el jueceo
se ha realizado con la participacin de profesores de las 32 entidades federativas del pas, ade-
ms de profesores del SNTE y de las reas Estatales de Evaluacin (MT 2012: 93; 2013:113).
Dicen tambin que en los talleres de jueceo se ha contado con la participacin de personal de
la Sociedad Matemtica Mexicana, de la Direccin General de Desarrollo Curricular, del SNTE y
del INEE (MT 2012: 94; 2013:113). Se indica tambin que hasta 2008 el INEE defini el perfil
de los jueces, proporcion el software para la validacin y coordin el proceso de jueceo de
reactivos, que la DGEP coordin los trabajos y junto con el ILCE se sistematiz el proceso (MT 08:
pgs. 4-40 a 4-44), y que en aos 2012 y 2013 el proceso de validacin de reactivos fue llevado
por la Subsecretara de Educacin Bsica, y que la DGEP se ocup de sistematizar la informacin
resultante (MT 2013:86).
Aspectos psicomtricos 75
del dominio de los contenidos curriculares, 2) formulacin de cada reactivo, 3) presencia de
sesgos (MT08: pgs. 4-40 a 4-44).
CONCLUSIONES
Las pruebas ENLACE para educacin bsica
La prueba ENLACE-B, como otras pruebas estandarizadas que se producan anteriormente por
la SEP, ha cumplido con algunos propsitos favorables de apoyo a la educacin y a la cultura
de la evaluacin en Mxico, en especial porque algunas asociaciones no gubernamentales
y los medios de comunicacin han empezado a hacer uso de los resultados de la prueba y
han identificado varias formas de reportar resultados en los distintos niveles de agregacin,
dependiendo del usuario a quien se dirigen. No obstante, esta prctica debe ser revisada y
atendida por las autoridades porque, como se ha comentado en el cuerpo del reporte de este
Comit, se sabe que varios usos no son apropiados por no estar contemplados en los prop-
sitos de diseo, lo cual reduce o perjudica la utilidad de la informacin que se ha distribuido y
manejado entre la sociedad. Por ello es importante aclarar a las autoridades y a la sociedad en
general, que es un acierto que diversos grupos de personas y miembros de la sociedad utilicen
los resultados de la evaluacin, pero con todo cuidado y solo dentro de lo que se ha planeado
en el proyecto de evaluacin.
Otro acierto interesante se asocia con el diseo de ENLACE, que se plantea como un conjunto
de instrumentos organizados en torno a un cuerpo base con preguntas referidas a competen-
cias generales del currculum y una parte matricial para piloteo y equiparacin. No queda duda
de la necesidad de utilizar tems de opcin mltiple para producir la prueba censal y calificarla
en forma automtica. No est por dems insistir a los usuarios que est fuera de discusin la
pertinencia de esta prueba en comparacin con otro tipo de instrumento (portafolio, pruebas
de ensayo, produccin de materiales de estudio en equipo), adems de la conveniencia del
tipo de tem para poder explorar una gama amplia de contenidos o competencias e incidir en
una mayor informacin para reportar y retroalimentar al estudiante, al maestro, a los padres
de familia, a las autoridades.
Es importante que este tipo de pruebas cuente con uno o varios consejos o comits integrados
por docentes y especialistas en diversa reas, con experiencia y reconocimiento en el medio.
Junto con este grupo de personas y la base de informacin que permite disear las pruebas con
referencia al currculum y a los criterios de desempeo, se puede sustentar la validez y objeti-
vidad de las pruebas. Igualmente, los comits ayudarn a identificar los niveles de desempeo
de las competencias, siguiendo un proceso que deber formalizarse con evidencia adicional
sobre las reuniones de los especialistas, la forma en que se fijan los contenidos, desempeos y
cualidades de los niveles reportados.
Una de las fortalezas de ENLACE es la existencia de los manuales tcnicos que publica la UPEPE
desde 2007 con periodicidad anual (independientemente de que deben ser completados y res-
paldados con la informacin pertinente ms all de afirmaciones generales). El Manual Tcnico
(MT ) proporciona informacin completa sobre el diseo, la construccin de los tems, la aplica-
cin, la calibracin, la equiparacin de pruebas, la interpretacin de los resultados, cubriendo
los atributos de validez, objetividad y confiabilidad requeridos para el proyecto de evaluacin.
Los manuales disponibles se organizan en dos partes: la primera con aspectos de inters para el
76
pblico general y la segunda con datos ms especficos y detallados con orientacin a un pbli-
co ms especializado. En el manual se incluyen elementos que favorecen revisar la evolucin de
la prueba en tpicos como el diseo, la atencin a problemas de copia, la referencias a ligas
de sitios de Internet de la SEP donde se pueden conseguir datos adicionales y resultados de
estudios realizados. Uno de los puntos importantes es que el manual tcnico explica el alcance
de las pruebas, aclara los usos pertinentes sobre los que se responsabiliza la SEP y seala usos
indebidos que se deben evitar.
No est por dems destacar dentro de los puntos positivos de ENLACE-B, el enorme esfuerzo
administrativo ligado a la aplicacin, que incluye la logstica de distribucin, seguridad, lectura,
calificacin y emisin de reportes.
Las debilidades fueron enmarcadas en los criterios detallados previamente. Puede apuntarse,
inicialmente, que debido a la difusin de los reportes proporcionados por la SEP, la disponibili-
dad de pruebas, datos y bases informativas diversas en el sitio web, se ha incurrido en usos no
pertinentes para el proyecto, los cuales, evidentemente, no son imputables a la SEP.
Se debe revisar el procedimiento para determinar los puntos de corte, mejorar su presenta-
cin en los manuales tcnicos (sin llegar al abuso en el nmero de decimales) y demostrando
la razn para mantener constantes los valores a lo largo del tiempo o modificarlos segn sea
el caso conforme se revisen las especificaciones de las pruebas.
La SEP hizo un trabajo importante de certificacin de algunos de sus procesos, pero no se debe
confundir este proceso de metaevaluacin de ENLACE con base en estndares de medicin y eva-
luacin del logro, con los procesos de revisin con normas ISO. La certificacin ISO fue tramitada
para la documentacin de la lectura, calificacin y construccin de instrumentos de medicin,
que tienen un propsito de tipo administrativo y documental y que no aportan elementos nece-
sarios para la evaluacin tcnica objeto de este trabajo.
Es importante terminar los estudios esbozados o propuestos en los manuales tcnicos (por ejem-
plo anlisis factoriales para identificar constructos y dimensiones mtricas de las pruebas). Igual-
mente, se tienen que realizar los estudios y documentos faltantes, entre los que se pueden citar:
Aspectos psicomtricos 77
a) Estudios
Validez de criterio, en particular de validez concurrente con otras pruebas.
Dimensiones y subescalas que se miden con la prueba. Pueden utilizarse modelos fac-
toriales, por jueceo o mixtos. Este trabajo debe hacerse en colaboracin con los respon-
Las pruebas ENLACE para educacin bsica
sables curriculares que definen las especificaciones de las pruebas y el marco terico
acadmico del proyecto.
Error de medida, determinado con modelo clsico o con TRI , porque es un dato funda-
mental para juzgar la calidad de la medicin que se realiza con los instrumentos.
Sesgos de diversos tipos y de funcionamiento diferencial de los tems y estudios de
factores asociados a los resultados de ENLACE. La carencia de este tipo de estudios
impacta otros aspectos de la calidad de la prueba, como se cita en el captulo sobre
aspectos culturales.
Equiparacin entre versiones de un mismo ao y en pruebas longitudinales. La informa-
cin disponible en presentaciones digitales deben respaldarse con los estudios y presen-
tar formalmente los resultados de la equiparacin.
Anlisis multinivel que contengan variables explicativas de los resultados de los estu-
diantes, tomando en cuenta los anidamientos por saln, escuela, entidad, entre otros
posibles niveles.
Reporte de los procesos de anlisis y deteccin de copia, junto con la logstica de aplica-
cin frente a las posibles actividades fraudulentas, desde la enseanza dirigida en clase
a responder de cierta forma, el dictado de respuestas en el momento de la aplicacin o
la adaptacin de los enfoques educativos en ciertos planteles.
b) Manuales
Diseo de la muestra piloto debidamente justificado tanto para el marco poblacional
como para los reactivos a considerar en las pruebas matriciales.
Diseo y calibracin de reactivos, separado del manual tcnico, con elementos espec-
ficos de diseo de tems su forma de analizar y dictaminar la calidad, tanto con modelo
clsico como de la TRI , el conjunto de criterios de aceptacin para los tems calibrados, la
seleccin de tems y los criterios de aceptacin para el banco de reactivos.
Calificacin y de interpretacin de resultados, en combinacin con las justificaciones
descriptivas de las competencias asociadas con los niveles.
Manejo y respaldo que se tiene con los bancos de tems y los sistemas administrativos
relacionados con ellos. Deben incluirse los inventarios considerando la clasificacin tem-
tica, la complejidad y los valores mtricos, porque su ausencia no permite juzgar acerca
de su calidad. Igualmente se requiere complementar la muy escasa informacin sobre los
sistemas informticos de almacenamiento de los tems y de la generacin de pruebas.
En todos los casos es imprescindible acompaar los estudios y manuales con referencias for-
males y publicaciones debidamente organizadas, as como explicaciones de los modelos, al-
goritmos, frmulas y criterios bien definidos, con lo cual se brindara el soporte completo al
proyecto, evitando el uso indiscriminado de presentaciones en Power Point y hojas de Excel, que
no son documentos formales de apoyo al proyecto.
78
3 Atencin a la diversidad cultural
Los autores examinaron la prueba ENLACE de acuerdo con los criterios de validez cultural antes
mencionados, usando la documentacin de la prueba que entreg la DGEP de la SEP, y que el
INEE puso a disposicin de los miembros del comit, va su sitio web.
Dicha documentacin incluy los manuales tcnicos de las pruebas, bases de datos, reportes de
estudios especiales, y presentaciones a diversas audiencias de las caractersticas de la prueba.
Dichos documentos abarcan un perodo de seis aos, del 2007 al 2012.
A fin de contar con ms informacin que permitiera evaluar la validez cultural de las pruebas
se efectu el microanlisis de una muestra de los reactivos ENLACE. Dichos reactivos fueron
seleccionados aleatoriamente del conjunto de reactivos publicados por la Secretara de Edu-
cacin Pblica en los manuales intitulados Apoyos para el uso pedaggico de los resultados
ENLACE publicados en diciembre de 2012 por la Direccin General de Evaluacin de Polticas
(SEP, 2011-2012a,b,c,d,e,f,g). Tales documentos fueron entregados a los docentes de todo el
pas durante el ciclo escolar 2012-2013 con la finalidad de ayudarlos a preparar al alumnado
para la presentacin de la prueba ENLACE en el mes de abril de 2013. Estos materiales tienen,
entre otros propsitos, el de promover la apropiacin del estudio ENLACE, a travs de (...)
los instrumentos de medicin empleados... En total, los materiales contienen una seleccin
de 376 reactivos de Espaol y 391 reactivos de Matemticas. La tabla 3.1 muestra el nmero de
reactivos por rea de contenido y grado escolar.
79
Tabla 3.1 Nmero total de reactivos de Espaol y Matemticas incluidos en los Apoyos para el
uso pedaggico de los resultados ENLACE
Primaria Secundaria
rea de
Las pruebas ENLACE para educacin bsica
Para cada reactivo, los materiales dan informacin sobre el contenido evaluado y sobre el desem-
peo de los alumnos, como porcentaje de los que respondieron correctamente (valor p). Adems
del total nacional se reportan datos desagregados en cuatro tipos de escuela: Particular, General,
Indgena y CONAFE. Los materiales no informan sobre los aos de aplicacin de ENLACE en que
se basan los datos. Es importante mencionar la posible existencia de error en estos datos. Los
materiales de todos los grados incluyen las cuatro categoras en los datos sobre el desempeo
de los estudiantes. Sin embargo, las categoras Indgena y CONAFE solo operan en los niveles de
preescolar y primaria.
A partir de los resultados observados en esta muestra aleatoria de reactivos, es posible tener
una idea del porcentaje de reactivos en la poblacin total de reactivos en las que es probable
que haya errores que afecten la validez cultural de la prueba.
Se emple la tcnica del microanlisis de reactivos (Solano-Flores y Trumbull, 2003), que puede
ser definida como el razonamiento sobre la manera en que las propiedades de los reactivos y
las caractersticas lingsticas, culturales y sociales de los examinados operan en combinacin
y afectan la validez cultural al influir en la manera en que los estudiantes los interpretan. Este
anlisis es integral, multidisciplinario y basado en juicios. Dadas las limitaciones de tiempo y re-
cursos no se efectuaron anlisis empricos que examinaran la correlacin entre medidas de error
de diseo de los reactivos y medidas de desempeo. Tal estudio supondra la participacin de
diversos profesionales y el empleo de muestras ms grandes de reactivos.
Para cada reactivo se examinaron los aspectos gramaticales, pragmticos, semnticos y de con-
tenido que, en combinacin, pueden afectar el desempeo de los estudiantes, especialmente
los indgenas o hablantes primarios de lenguas indgenas, estudiantes de nivel socioeconmico
bajo o estudiantes de zonas rurales. A continuacin se redact una narrativa que describe las
caractersticas problemticas del reactivo.
80
el microanlisis. Para cada reactivo incluido se reporta la pgina del material de Apoyos
correspondiente en que el reactivo apareci.
Adems de los retos lingsticos por diseo inadecuado, se observa en los reactivos una va-
riedad de problemas de contenido, organizacin y redaccin. Entre los ms serios hay: 1) des-
contextualizacin de la informacin que se le presenta para resolver problemas; 2) uso de un
registro (lenguaje acadmico, convenciones de notacin) ajeno al usado en Mxico; 3) ms de
una posible respuesta correcta en reactivos de opcin mltiple; 4) ausencia de opcin correcta
en esos reactivos; 5) informacin errnea; 6) informacin incompleta; 7) palabras faltantes y,
por ende, oraciones incomprensibles; 8) complejidad innecesaria de informacin contextual;
9) redaccin-estilo y lxico inusuales en textos mexicanos, y; 10) diseo defectuoso de las ilus-
traciones. Estos problemas, que son relevantes para la evaluacin vlida de cualquier sector
poblacional, pueden presentar retos an ms serios para poblaciones minoritarias. No es difcil
apreciar que estos problemas derivan de la falta de cumplimiento con los criterios de validez
cultural que revel el anlisis de la documentacin de ENLACE .
A peticin del INEE, la DGEP proporcion unos material adicionales que fueron tambin analiza-
dos. Este informe integra los resultados obtenidos a partir tanto de los documentos iniciales como
de los documentos adicionales de acuerdo con cada uno de los doce criterios de validez cultural.
No se encontr ningn documento que presente el marco conceptual de ENLACE . Los docu-
mentos que contienen informacin cercana relevante al marco conceptual de la prueba son
los manuales tcnicos. Dichos documentos son comunes a las reas de contenido (Espaol,
Matemticas, asignatura variable) y abordan el aspecto conceptual del contenido evaluado de
cada una de estas reas de una manera muy superficial, en menos de una pgina, y no hacen
mencin alguna de los factores socioculturales, lingsticos y epistemolgicos que influyen el
aprendizaje y la evaluacin de un contenido.
Sumada a lo anterior, la informacin sobre la organizacin del contenido tiene serias deficien-
cias, independientemente de que no considera aspectos socioculturales, lingsticos y epis-
temolgicos. Por ejemplo las matrices de contenido no presentan cruces de rea temtica y
habilidad, sino cruces de reas temticas con niveles de desempeo. Esta deficiencia impide que
se tenga una visin compleja y detallada de los contenidos.
La revisin minuciosa de las nuevas evidencias cedidas por la DGEP confirma lo expuesto en la
entrega previa. No se encontr un marco conceptual de ENLACE , y mucho menos un marco que
considere la condicin multilinge y pluricultural de la poblacin escolar. Las breves menciones
que se hacen a las primarias indgenas se refieren a los posibles problemas durante la aplicacin.
No se encontr en los documentos revisados alguno que presente un marco de muestreo pobla-
cional. Tampoco se encontr ningn documento que identifique los principales grupos lingsti-
cos, tnicos, o socioeconmicos de estudiantes a los que se aplica la prueba. En los cuestionarios
de contexto de ENLACE se pregunta al estudiante si habla alguna lengua indgena, sin que se
especifique de qu lengua se trata. No hay preguntas que permitan conocer a profundidad el
perfil lingstico de los estudiantes como el tipo de bilingismo que maneja. Entre los documen-
tos adicionales no se encontr ninguno que presente o reporte alguna visin conceptual de la
diversidad lingstica y cultural en el pas, que permita asegurar la representacin estadstica
equitativa de distintos grupos demogrficos en el proceso de desarrollo de ENLACE .
Entre los documentos que se proporcionaron para la segunda ronda de revisin, no se encontr
tampoco ninguna evidencia del uso de tales referentes conceptuales.
82
Ms adelante (p. 14), el documento incluye consideraciones sobre la aplicacin de la prueba a
una muestra AAE en escuelas de educacin indgena, escuelas unitarias y multigrado, y la aplica-
cin a estudiantes con necesidades especiales. Sin embargo, tales consideraciones son relevantes
a las dificultades que pudieran presentarse durante la aplicacin de la prueba y no son parte de
un diseo o procedimiento sistemtico que tome en cuenta la diversidad.
ESPECIFICACIN DE TEMS
4. Especificacin de tems. Los documentos que establecen los distintos tipos y forma-
tos de los tems a incluir en la prueba proporcionan lineamientos para asegurar que
la informacin grfica y contextual incluida en los tems sea familiar para la mayora
del estudiantado y reflejen una amplia variedad de contextos culturales.
Al igual que con el marco conceptual, no se encontr en los documentos examinados una me-
todologa rigurosa que permita el desarrollo sistemtico de los reactivos. Debido a la ausencia
de esa metodologa, no existe mencin alguna de acciones que deben tomarse para asegurar
que los formatos de los reactivos consideren la diversidad regional, de gnero, cultural, lin-
gstica y socioeconmica del pas. Independientemente del descuido de estos aspectos, las
especificaciones que se proporcionan para elaborar reactivos son extremadamente generales,
lo que provoca que se les interprete de maneras muy distintas por los autores de los reacti-
vos. La ausencia de especificaciones detalladas para la elaboracin de reactivos provoca una
variedad tremenda entre los reactivos que se consideran como del mismo tipo y contribuye
sustancialmente a la varianza de error.
Entre los documentos que se proporcionaron para la segunda ronda de revisin no se encontr
ninguna evidencia del uso de tales referentes conceptuales.
Existen documentos Excel, con vistas previas del banco de reactivos que describen los distin-
tos tipos de problemas con un formato como el siguiente:
Estructura 123351- Resolver un problema que implique clculo de potencias con expo-
nente negativo. (5 Vista previa Banco ENLACE MAT_8)
Tales descripciones son muy generales y no especifican los componentes de los tems y sus rela-
ciones ni dan informacin suficiente para que los autores de tems determinen los contextos de
los tems y sus niveles de complejidad de una manera sistemtica. Tal informacin dista mucho
de dar atencin a cualquier aspecto cultural o lingstico de los tems.
Entre los documentos proporcionados para la segunda ronda de revisin se encontr uno que
potencialmente podra contener informacin sobre la especificacin de tems. Se trata del do-
cumento, Normas para la construccin de reactivos de opcin mltiple, de solo cinco pginas,
que contiene reglas para asegurar que el formato de los reactivos sea consistente.
Desafortunadamente, aunque son tiles para los autores de reactivos, las reglas que contiene
este documento no son suficientes para asegurar un desarrollo sistemtico de los reactivos.
Esto se puede corroborar con los hallazgos en los microanlisis a los que se hace referencia en
la primera seccin de este apartado.
Entre los documentos que se proporcionaron para la segunda ronda de revisin, no se encontr
ninguna informacin sobre las caractersticas de los individuos que participaron en el desarrollo
de las pruebas ENLACE . nicamente en el Manual para el Coordinador de aplicacin: Muestra
controlada, se menciona la inclusin de docentes-aplicadores indgenas, pero en ninguno de los
documentos sobre diseo o evaluacin de reactivos se menciona esta posibilidad. Llama la aten-
cin el hecho de que en, la mencin que se hace a la posibilidad de problemas de comprensin
por parte de los estudiantes de escuelas de educacin indgena, se presupone que los docentes-
aplicadores conocen la lengua que hablan los nios cuando est documentado en la literatura
sobre la educacin indgena en Mxico que existe una gran cantidad de profesores bilinges
mal ubicados o con manejo deficiente de la lengua que hablan sus alumnos (COMIE, 2013).
84
6. Representacin de poblaciones diversas en muestras de estudiantes para piloto. Las
muestras de estudiantes con los que se pilotean versiones preliminares de la prueba
incluyen submuestras representativas de las minoras culturales, lingsticas y socioe-
conmicas del pas.
No se encontr mencin alguna de que las pruebas se hayan piloteado con muestras represen-
tativas de grupos culturales, lingsticos y socioeconmicos diversos. Esta falla se relaciona con
la falta de una estrategia para abordar la diversidad poblacional del pas. Entre los documentos
que se proporcionaron para la segunda ronda de revisin no se encontr evidencia de la inclu-
sin del empleo de muestras representativas de distintos sectores poblacionales de los alumnos.
No se encontr ningn documento que desarrolle estos temas. Al parecer, los criterios que se
utilizaron para normar el diseo de reactivos no contemplaron las particularidades de la pobla-
cin escolar en Mxico (ver documento Normas para la construccin de reactivos).
En los documentos iniciales no se encontr evidencia de que, como parte del desarrollo de las
pruebas, se hagan entrevistas cognitivo-culturales con grupos socioeconmicos, lingsticos o
culturales, o que se tomen en cuentas potenciales diferencias regionales o por gnero.
El documento que podra haber proporcionado cierta gua a los autores de reactivos para conside-
rar aspectos cognitivos culturales es el Procedimiento de Construccin de Pruebas de Medicin.
Se trata de un documento prescriptivo que lista las actividades que se han de seguir para el desa-
rrollo de pruebas, pero no detalla tales actividades.
8. Revisin. Hay un proceso de revisin con jueces que considera fuentes de sesgo
cultural, lingstico y socioeconmico en muestras representativas de los tems.
Entre los documentos que se proporcionaron para la segunda ronda de revisin, no se encontr
ninguna evidencia de que se haya utilizado un procedimiento sistemtico y exhaustivo para la
revisin de tems, y mucho menos para que esta revisin haya considerado aspectos culturales,
lingsticos y socioeconmicos.
En el Manual del usuario-juez no se incluye alguna mencin sobre temas vinculados a la diversidad
lingstica, social y cultural en el pas. Los elementos que se incluyen en su pgina 13 para juzgar
el valor de los reactivos son los siguientes:
86
Cuadro 3.3
Entre los documentos que la DGEP proporcion se encontraron documentos Excel que con-
tienen los comentarios de un grupo de revisores a los reactivos. Estos documentos no son
producto de un procedimiento de revisin que se haya llevado a cabo de manera sistemtica y
regular. Ms bien, son el resultado de una serie de presiones polticas. La revisin documental
revel que en el ao 2011 se convoc a un grupo de expertos de la Coordinacin de Educacin
Intercultural y Bilinge (DGEIB), La Direccin General de Educacin Indgenas (DGEI ) y el Institu-
to Nacional de Lenguas Indgenas (I NALI) para revisar los contenidos de los reactivos despus de
una denuncia presentada ante la Comisin Nacional para prevenir la discriminacin (CONAPRED)
por parte de un docente chiapaneco que denunci a la pruebe ENLACE como discriminatoria
hacia los estudiantes indgenas. Este colectivo analiz reactivos de las asignaturas de Matemti-
cas, Espaol y Ciencias Naturales, seleccionados de forma aleatoria, correspondientes a los siete
grados evaluados por la prueba.
Llama la atencin que muchas de las observaciones se refirieron a particularidades en el uso del
espaol y sobre errores gramaticales. Algunas de ellas incluyen sugerencias sobre vocabulario
que no es frecuente en el espaol de Mxico y, las menos, al uso de expresiones que tienen
implicaciones culturales como el uso de rarmuri en vez de tarahumara o que pudieran ser
mejor formuladas para su comprensin por parte de los alumnos bilinges. Sorprende que casi
la cuarta parte de las observaciones tiene que ver con reactivos que no tienen una respuesta
El documento referido tampoco incluye conclusiones sobre la pertinencia lingstica y/o cultu-
Las pruebas ENLACE para educacin bsica
ral de reactivos ENLACE. A travs de comunicaciones personales con dos de sus miembros, se
supo que a este grupo de trabajo no se le pidi alguna reflexin adicional sobre el conjunto
de la prueba, las condiciones de aplicacin en las escuelas rurales, indgenas o CONAFE, o los
retos para su desempeo entre los estudiantes que acuden a la escuela en condiciones pre-
carias, como pudiera ser el caso de escuelas ubicadas en campos para jornaleros agrcolas o
escuelas unitarias o multigrado.
Como se muestra en los ejemplos siguientes, aunque bien intencionado, el ejercicio de revisin de
reactivos no tuvo un respaldo conceptual o metodolgico slido. La visin de lo que es cultural se
limita a aspectos superficiales. Adems no se reporta la metodologa seguida, ni se documenta
quines fueron los individuos que participaron en este nico intento de revisin de reactivos.
Como muestra el siguiente ejemplo, los comentarios de los revisores de tems reflejan alguna
preocupacin por los grupos indgenas, pero esta preocupacin parece referida solo a su repre-
sentacin en el contenido de pasajes literarios.
Cuadro 3.5
88
Cuadro 3.6
El siguiente ejemplo de Matemticas, ilustra cmo, en algunos casos, el inters por no causar
sesgo est guiado por concepciones errneas o sin fundamento de los grupos indgenas.
Cuadro 3.7
El siguiente ejemplo es en Ciencias Naturales. Es uno de los pocos casos en que se encontr un
comentario que proporcionara un anlisis suficientemente detallado que condujera al mejora-
miento del tem:
Cuadro 3.8
trolada, ni los hallazgos sobre potenciales sesgos por razones de tipo lingstico, cultural, por
gnero, discapacidades o por la condicin de ruralidad o migracin de los estudiantes.
Existen documentos (por ejemplo, E4H_CAL1) en los que se reportan los niveles de dificultad de
los tems por rea de contenido y grado. Sin embargo, no se encontr en ninguno de esos docu-
mentos ninguna evidencia de que se hayan efectuado anlisis de sesgo, o de que los datos sobre
dificultad hayan sido desagregados por grupo de inters para determinar posibles diferencias
sistemticas en los puntajes entre grupos demogrficos debidas a factores no relacionados con
los constructos medidos.
Entre el conjunto de documentos que se proporcionaron para la segunda ronda de revisin se en-
contr uno, que contiene lo ms cercano a lo que podra ser el anlisis de diferencias sistemticas
entre distintos grupos de inters. Tal documento es el Informe de Ganancia Educativa 2010-2013
de las pruebas ENLACE. Este documento contiene anlisis de la ganancia educativa en las tres
reas de contenido de ENLACE. Dicho documento fue presentado por el CENEVAL a la Direccin
General Adjunta de Programas Especiales y para la Direccin de Programas para la Administracin
Pblica. Presenta la informacin de ganancia educativa basndose principalmente en estadsticas
descriptivas muy bsicas, comparando cohortes de estudiantes de acuerdo con el criterio de mar-
ginacin econmica.
11. Tiempos y calendarios. Los que se refieren a actividades que tienen como objeti-
vo considerar la diversidad cultural, lingstica y socioeconmica son razonables
y factibles.
90
La informacin sobre tiempos y calendarios que se encontr en los documentos revisados ini-
cialmente no permite determinar si stos hacen posible considerar adecuadamente la diversidad
cultural, lingstica y socioeconmica (por ej. para identificar distintas muestras poblacionales y
asegurar su participacin en las fases piloto del desarrollo de las pruebas).
Como se puede ver a continuacin (pginas 4 y 5 del documento), dicho calendario es rgido
y no prev contingencias de naturaleza cultural o siquiera climtica, a pesar de que la prueba
se realiz al inicio de la temporada de lluvias en la mitad sur de pas, en donde vive la mayor
parte de la poblacin indgena mexicana.
Cuadro 3.9
En la pgina 6 nicamente se incluyen consideraciones para ajustar los calendarios en las escue-
las de turno vespertino o en donde las clases no empiezan a las 8:00 de la maana.
92
Cuadro 3.10
12. Mecanismos de correccin. El proceso de desarrollo de pruebas incluye mecanismos
de correccin y mejoramiento de las pruebas con base en la informacin obtenida
respecto a validacin cognitivo-cultural, la revisin, los anlisis de sesgo y los estu-
dios de generalizabilidad de los tems.
Como se discuti en relacin con el criterio de Revisin, el nico ejercicio de revisin para temas
vinculados a la pertinencia lingstica y cultural dio como resultado una recomendacin de la
CONAPRED y solamente se hizo con un puado de reactivos, y casi solamente en cuanto a su
fraseo y al uso del espaol de Mxico.
No existe evidencia de que, como resultado de este trabajo, se revisara el procedimiento para su
desarrollo con el fin de minimizar problemas de discriminacin, sesgo potencial, etctera. Solo
se realizaron ajustes mnimos al contenido de un pequeo conjunto de reactivos con la finalidad
de evitar el uso de trminos que pudieran resultar discriminatorios.
Este tipo de ejercicios de revisin hubieran podido dar lugar a una nueva generacin de pruebas
adecuadas para atender el diagnstico educativo de la poblacin lingstica y culturalmente
diversa en Mxico, lo cual formara parte de sus derechos a recibir una educacin acorde a esta
condicin segn dicta la Ley General de Derechos Lingsticos de los Pueblos Indgenas en su
artculo 13.
CONCLUSIN
Estos resultados revelan que las pruebas ENLACE-B no cumplen satisfactoriamente ninguno
de los criterios de validez cultural. Es muy importante mencionar que, en gran medida, las de-
ficiencias observadas no solamente estn directamente relacionadas con los temas de validez
cultural, sino que son deficiencias que no debieran existir en ninguna prueba, aun cuando la
poblacin estudiantil fuera homognea culturalmente y no existieran desigualdades sociales.
Los anlisis de ejemplos de tems revelan una consideracin muy limitada de los aspectos de
validez cultural y serias limitaciones en los documentos que guiaron el desarrollo de las pruebas
ENLACE (p. ej., marco conceptual, especificaciones de reactivos, marco de muestreo).
Las limitaciones identificadas derivan en gran medida de la falta de documentos normativos que
permitan una prctica sistemtica en el desarrollo de las pruebas Enlace. Entre los principales
documentos cuya ausencia afecta a la calidad de dichas pruebas estn:
94
4 Aplicaciones
En general, se busca que en esta etapa se eliminen las condiciones que podran invalidar los
resultados, sus interpretaciones y su uso para el cumplimiento de los propsitos de la prueba.
Esto comprende procesos que se llevan a cabo antes, durante y despus de la aplicacin.
Antes de la aplicacin, es importante que se garantice que se cuenta con un listado de es-
cuelas actualizado y confiable, sea para una aplicacin censal o como marco muestral; que las
muestras utilizadas en la aplicacin estn basadas en diseos slidos, y en las que los estratos
hayan sido definidos con base en argumentos tericos defendibles; y, que se hayan diseado
procedimientos para verificar que los sustentantes a los que se aplica la prueba sean los que
se planificaron. Adems es necesario que se lleve a cabo un minucioso proceso de planeacin
de la aplicacin, incluyendo la generacin de manuales que hayan sido probados en campo,
la definicin de un cronograma detallado, identificacin del personal de las escuelas que par-
ticipar en la aplicacin, precisin de requisitos y procedimientos para garantizar confidenciali-
dad y seguridad de materiales de evaluacin as como de las respuestas de los sustentantes, y
mecanismos para controlar la calidad de la aplicacin. Finalmente, en esta etapa se selecciona
y capacita al personal de aplicacin, esto involucra la definicin de criterios estandarizados para
su reclutamiento, seleccin y entrenamiento; la definicin de procedimientos de entrenamiento
que aseguren el adecuado conocimiento de los materiales y el dominio de las funciones que
95
realizarn en campo, la documentacin de estos procesos, y la definicin de procedimientos
para monitorear la aplicacin de las pruebas.
Durante la aplicacin de las pruebas se busca que no haya irregularidades que puedan afectar
Las pruebas ENLACE para educacin bsica
las respuestas de los alumnos. Comprende, principalmente: motivar la respuesta de los alumnos;
contar con procedimientos estandarizados para lidiar con la no respuesta y prevenir y enfrentar
la copia o cualquier tipo de fraude; implementar mecanismos de control de calidad que permitan
asegurar que las condiciones de administracin de la prueba sean estandarizadas, que se realicen
conforme a lo planificado y se aseguren los materiales y las respuestas de los alumnos.
En este captulo se presentan los hallazgos principales del anlisis sobre la validez de las apli-
caciones de ENLACE-B. Los hallazgos se presentan justamente de acuerdo a los diferentes mo-
mentos del proceso de administracin de las pruebas:
Antes de la aplicacin
Seleccin de la muestra
Planeacin de las aplicaciones
Seleccin y capacitacin del personal de aplicacin
Durante la aplicacin
Minimizacin de carga, motivacin, no respuesta y fraude
Procedimientos para el control de calidad de las aplicaciones
Despus de la aplicacin
Preparacin del procesamiento de datos
Procesamiento y verificacin de datos
Notificacin de irregularidades
96
respondido en 26 entidades, por un total de 31 informantes.1 La informacin recuperada se
incorpor tambin en la valoracin de los criterios.
1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicacin
censal o como marco muestral.
Las entidades que dieron respuesta al cuestionario aplicado en lnea fueron: Aguascalientes, Baja California, Baja
1
California Sur, Campeche, Chiapas, Chihuahua, Coahuila, Colima, Distrito Federal, Durango, Estado de Mxico, Gua-
najuato, Guerrero, Hidalgo, Jalisco, Michoacn, Morelos, Nayarit, Nuevo Len, Oaxaca, Puebla, Quertaro, Quintana
Roo, San Luis Potos, Sinaloa, Sonora, Tabasco, Tamaulipas, Tlaxcala, Veracruz, Yucatn y Zacatecas.
Aplicaciones 97
su oportunidad de responder la prueba, pues en el Manual del Coordinador de aplicacin se
seala que a los alumnos que no cuenten con hojas de respuesta personalizadas se les tendr
que informar que solo podrn resolver el examen en lnea posterior al periodo de aplicacin
nacional (no se pueden utilizar hojas de respuesta personalizadas de alumnos que no asistieron
Las pruebas ENLACE para educacin bsica
o se dieron de baja del plantel).2 La mayora de los informantes que respondieron el cuestionario
en lnea (19 de 31) seal estar totalmente de acuerdo o de acuerdo con la afirmacin El nivel
de actualizacin de las bases de datos de escuelas y estudiantes (censo escolar, formato 911)
sobre las cuales se basa la SEP para llevar a cabo la aplicacin es adecuado; 11 informantes
estuvieron en desacuerdo. Dentro de los comentarios emitidos sobre las bases de datos, dos
informantes sealaron que la fecha establecida para entrega de la base de datos la consideran
anticipada y otros sugirieron alternativas de mejora de distinta naturaleza, como se puede ver
a continuacin: ampliar el tiempo de validacin de las bases de datos; revisar los tiempos en
que se solicitan las bases de datos; proyectar los cambios derivados de los movimientos de la
matrcula y el estado de las escuelas; establecer mecanismos para hacer frente la movilidad
escolar y las altas de nuevas escuelas; solicitar la actualizacin mensual de la base de datos de
los alumnos y escuelas; considerar un perodo previo a la aplicacin de ENLACE para incluir las
altas de los alumnos; consolidar un Registro Nacional de Escuelas, Alumnos y Docentes que
permita su actualizacin permanente en lnea (sistema nico de informacin actualizada).
Es probable que el estado de la base de datos tenga que ver con algunas irregularidades que se
presentan durante la aplicacin, en particular con la correspondencia de las cajas y hojas de res-
puesta entregadas en cada escuela, y la suficiencia de cuadernillos y hojas de respuesta. A este
respecto, en el cuestionario en lnea, 17 de 26 entidades sealaron que en la ltima aplicacin
se presentaron irregularidades de este tipo, dentro de las cuales, sealaron: en 11 entidades
reportaron insuficiencia de cuadernillos, en 2 de ellas faltaron cuadernillos para grupos com-
pletos; en 9 entidades faltaron hojas de respuesta, en 3 de estos casos las hojas de respuesta
pertenecan a otras escuelas; y, en una entidad reportaron haber recibido cajas mal etiquetadas.
2. Cuando proceda, las muestras se disearn utilizando diseos slidos; los estratos se
definirn con base en argumentos tericos defendibles
ENLACE no cuenta con un diseo muestral, al ser una prueba censal. Sin embargo, hay una
muestra controlada que se utiliza dentro de ENLACE para realizar un piloteo inicial y uno sub-
secuente de reactivos con una muestra de sujetos por asignatura-grado. Los manuales tcnicos
proveen algo de detalle sobre las frmulas para disear las dos muestras utilizadas en ENLACE:
1) una muestra para validar (pilotear) reactivos (este ejercicio se realiza antes de la aplicacin
nacional), y 2) una muestra controlada para la aplicacin del pre-test (que se lleva a cabo du-
rante la aplicacin de ENLACE). En este apartado nos referiremos a estas dos muestras como
muestra para pilotaje y muestra controlada.
Cabe hacer notar que, en general, los manuales estn redactados de forma que generan
confusin acerca de las muestras que se emplean y como se calculan. Por ejemplo se refiere
a ambas muestras como controladas. En la p. 137 en el Recuadro, la SEP se refiere a las dos
Cabe sealar que aunque se hace esta precisin, en el cuestionario en lnea, algunas entidades reportaron haber sido
2
autorizados para que los alumnos sin hojas de respuesta registraran sus respuestas en el cuadernillo, y stas despus
fueron capturadas en una plataforma especfica.
98
muestras empleadas como general y controlada pero no queda claro a cual se refiere
cada una de ellas.
O bien, se explica un diseo muestral en un apartado (por ej. Aleatorio simple nacional), y des-
pus se presenta informacin para sugerir que lo que realmente se ejecuta es un diseo distinto
(estratificado por escuelas, utilizando como marco de referencia nicamente algunos estados).
A continuacin se describe el diseo seguido para establecer cada una de las dos muestras utiliza-
das por ENLACE , segn lo que se puede apreciar en los manuales tcnicos consultados.
El diseo de la muestra para pilotaje de reactivos sigue un modelo de muestreo aleatorio simple,
con frmulas y diseo estndar. El tamao de muestra de 5,000 sujetos (individuos) bajo dicho
esquema de muestreo aleatorio simple proporciona un error de 1% lo cual es muy adecuado.
El Manual Tcnico de 2009 menciona que los diseos de las muestras controladas (para probar
tems), son supervisadas por la DGEP. Aunque el diseo es correcto dados los supuestos, hay
dos puntos que pudieran debilitar la utilidad de la muestra para este ejercicio de validez y para
la generacin de variables de contexto de alumnos, padres y docentes.
Primero, en algunos aos (por ej. 2013), la muestra para pilotaje, por razones de costo, se
realiza nicamente con sujetos en el Estado de Mxico y el Distrito Federal. Aunque no es una
muestra representativa, el Manual Tcnico argumenta las razones por las cuales es todava
vlida: Una muestra representativa de todos los estados y caractersticas de la poblacin pue-
de ser atractiva para darle mayor validez al piloteo, pero producira un costo muy alto para el
proyecto, con un impacto poco interesante en los resultados (Manual Tcnico ENLACE, 2013).
En este punto, valdra la pena ser ms explcitos sobre por qu en este caso el costo no justi-
fica el beneficio. Durante reuniones con personal de DGEP, se coment que en otros aos la
muestra incluye escuelas de otros estados. Esto no est detallado en los manuales tcnicos.
Segundo, la descripcin del manual (se revis 2009, 2012 y 2013) no provee suficiente detalle
para asegurar que el muestreo, tanto para la muestra de pilotaje como la controlada, realmente
sea aleatorio simple (i.e. tomando como marco muestral sujetos individuales todos con la misma
probabilidad de ser seleccionados). En el manual de 2013 se dice que la muestra controlada la
conforman escuelas, y no alumnos (p. 116). Por lo tanto, parece ser que la muestra se aseme-
ja ms a un muestreo de conglomerados, que a una muestra aleatoria simple de sujetos (alum-
nos). Valdra la pena que los manuales aclararan este punto. Si ste fuera el caso, convendra
especificar cmo se seleccionan los conglomerados (escuelas o aulas) para entender qu tipo de
poblacin representan. En el manual de 2013, por ejemplo, no se especifica claramente cmo
se seleccionan las escuelas de la muestra, ya que la discusin tcnica de diseo se hace con la
consideracin de que el muestreo se hace con base a sujetos (alumnos). El manual tcnico de
2008 hace un llamado a SEP que justificase el diseo muestral (por conglomerados) y obtuviera
el error de muestreo (utilizando la aproximacin al utilizar un diseo de muestreo simple). Sin
embargo, en los manuales subsecuentes se sigue planteando la frmula de muestreo simple (que
se utiliz como referencia) sin plantear la frmula realmente utilizada ni proveer ms detalles al
respecto de los errores.
Con respecto a la muestra controlada para el pre-test (la prueba que calibra los reactivos del
ao siguiente) esta se aplica de manera matricial por lo que los resultados relevantes son a nivel
de aula (para luego validar tems a nivel grado-asignatura). El manual de 2009, por ejemplo, en
la p. 115, alude a esto (se refiere a una aplicacin donde todos los alumnos en un aula forman
Aplicaciones 99
parte de la muestra controlada). Sin embargo, no se detalla cmo se selecciona esta muestra
(se revis manual del 2009 y 2013).
Las pruebas ENLACE para educacin bsica
3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que
se planific.
Los formatos de control de aplicacin en la escuela, tambin proveen un espacio para anotar si
el nmero de alumnos evaluado por grado coincide con el nmero que estaba planeado en la
lista. Estos formatos son firmados por el Coordinador de la Aplicacin y el director de la escue-
la y se envan sellados a la DGEP con copia a las reas estatales de evaluacin y a cada escuela.
El acta de entrega, recepcin e irregularidades hace constar cualquier discrepancia en este
proceso. Esa acta es firmada por el coordinador de la aplicacin, el director y dos testigos
(un docente y un padre de familia).
tt En aplicaciones muestrales el manual que precisa los pasos para seleccionar la muestra, si
se manejarn aulas intactas o submuestras de alumnos en cada aula; la forma de manejar
escuelas de reemplazo si las hay y los porcentajes aceptables de exclusiones y no respuesta.
Los pasos para seleccionar la muestra se especifican en el manual. La muestra para pilotaje de
reactivos se calcula como 5,000 sujetos ms 8-10% asumiendo merma. No se encontraron pre-
visiones si alguna escuela se pierde de la muestra controlada por razones de errores en logstica
u otros. No encontramos previsiones para prdida de muestra en la muestra controlada del
pre-test o como asegurar que la muestra sea la misma que se dise inicialmente (los manuales
carecen de detalle acerca del diseo de la muestra controlada para el pre-test).
Los pasos para seleccionar la muestra se especifican de manera breve en el manual. Como se
coment anteriormente, en algunos pasos, especialmente en lo que concierne al diseo por
100
conglomerados y los errores muestrales subsecuentes para las muestras de pilotaje de reactivos,
se necesita ms detalle. Adems, no se provee detalle suficiente sobre el proceso de seleccin
de la muestra controlada para el pre-test.
Los manuales especifican que los diseos de las muestras controladas (pre-test) son super-
visadas por la DGEP. Se menciona tambin que un experto internacional, contratado por esa
direccin, es el que llega al clculo final. Sin embargo, no se proveen detalles acerca de esta
verificacin externa.
5. Se planifican todos los puntos necesarios para hacer la aplicacin de manera estan-
darizada, con formas y materiales que aseguren comparabilidad de los datos.
tt Hay manuales de aplicacin, probados en campo, que precisen las actividades a desarrollar
por cada participante; se describen las variaciones aceptables.
Hay manuales impresos, cuyo contenido incluye elementos generalmente aceptados para este
tipo de aplicaciones, por ejemplo: la descripcin de las normas operativas, los materiales que se
utilizarn durante la capacitacin, y las funciones que debern realizar antes, durante y despus
de la aplicacin. No obstante, podran mejorarse incluyendo mayores detalles relativos a la con-
duccin de la aplicacin y el manejo de eventualidades.
Los manuales impresos tambin podran complementarse con otros materiales de apoyo que
tengan como objetivo asegurar el dominio de los procesos, por ejemplo, videos con anima-
ciones, grficas, y sonido. Esto ltimo, permitira contar con herramientas ms didcticas, en
procura de una mejor capacitacin del personal de campo, que redundara en una mayor estan-
darizacin en el ejercicio de sus labores. Esto es crucial, teniendo en cuenta que en el proyecto
participan ms de un milln de personas y las variaciones, desconocimiento o implementacin
no apropiada conforme a lo previsto inciden en los resultados.
Aplicaciones 101
tt Hay un cronograma detallado de todos los pasos del proceso.
En los manuales tcnicos de las diversas aplicaciones se hace referencias generales a los pasos
del proceso de aplicacin, desde la organizacin administrativa de recursos humanos hasta la
Las pruebas ENLACE para educacin bsica
Es importante mencionar que la capacitacin a los docentes, padres de familia y miembros del
Consejo Escolar de Participacin Social tiene lugar el mismo da de la aplicacin cuando se les
entregan las guas diseadas por la SEP.3 Al inicio de cada da de aplicacin, los directores sea-
lan a los padres de familia las funciones que debern cumplir. A los docentes, el Coordinador de
aplicacin les describe las funciones a realizar y los formatos que tendrn que completar. Estas
medidas pueden restringir la capacidad de reaccin ante eventualidades y/o incidir en el rigor
en la aplicacin de los estndares previstos para la conduccin de la prueba.
Por otra parte, el grado de libertad de las entidades federativas con relacin al perfil del perso-
nal que se vincule al proceso puede tener un impacto no deseado en la aplicacin. En el manual
de 2013, pgina 141 se menciona: Si se contrat personal para supervisin y apoyos diversos,
el estado define las caractersticas del personal a contratar, requisitos, forma de contratarlos.
Es recomendable que se establezcan normativas generales acerca del personal a participar en la
aplicacin, que sean seguidas homogneamente por los Estados.
Las versiones electrnicas de estos documentos son enviadas antes de la aplicacin, pero, por lo general solo se impri-
3
men aqullos manuales que sern entregados a la estructura intermedia de las entidades (Coordinadores regionales
Centros de Desarrollo Educativo, Supervisores, Enlaces Regionales y Coordinadores de Aplicacin).
102
Es recomendable que para la impresin de pruebas los estndares de control y seguridad sean
establecidos por un ente externo al impresor, no solo supervisados. En cuanto a aplicacin
controlada debe haber refuerzos en todas las etapas, antes, durante y despus del proceso.
Las irregularidades manifestadas por 17 entidades en el cuestionario en lnea (de 26 entidades
que los respondieron), con respecto a los materiales que llegan a las escuelas, hacen evidente la
necesidad de medidas que garanticen el control, cuidado y confidencialidad de los materiales.
Es recomendable que las medidas busquen eliminar la variacin en decisiones que toman en
la entidad ante faltantes de materiales. Por ejemplo, ante la falta de cuadernillos en la ltima
aplicacin, algunas entidades optaron por reproducirlos y otras por dividir los cuadernillos en
dos partes, entregando alternadamente las secciones en el grupo para que alcanzaran a dar
respuesta. Existen riesgos en la reproduccin de los cuadernillos dentro y fuera de la escuelas,
que ponen en peligro la confidencialidad de los materiales y tambin que su ensamblaje sea el
previsto por los diseadores. Con respecto a las hojas de respuesta las entidades que reportaron
haber recibido una cantidad insuficiente de este material tomaron las siguientes diferentes me-
didas: que los alumnos registraran sus respuestas en cuadernillos y posterior captura para envo
a DGEP ; devolver a los alumnos a sus casas para que despus contestaran la prueba en lnea.
Es necesario que se den a conocer ms detalles acerca de este proceso, a efectos de poder
conceptuar.
tt Se precisa la forma en que debern documentarse todos los pasos de la aplicacin y las
incidencias que se puedan presentar.
Es fundamental que todos los actores del proceso tengan claridad sobre la importancia del
cuidadoso diligenciamiento de las actas de entrega y recepcin de materiales, as como de las
irregularidades, de tal manera que faciliten la evaluacin del proceso.
Aplicaciones 103
desarrollen en apego especficamente a los estndares aplicables a evaluaciones estandarizadas
de la educacin. Como se coment anteriormente, los sistemas de evaluacin educativa de gran
escala no suelen circunscribirse a procesos de control de calidad tipo ISO. En su lugar, se utilizan co-
mits de expertos en evaluacin educativa, tanto nacionales como internacionales, con experiencia
Las pruebas ENLACE para educacin bsica
en los organismos tcnicos en la materia, quienes pueden proveer de una revisin externa objetiva
y emitir un juicio colegiado acerca de la calidad de la prueba y sus procesos.
Las normas especifican los parmetros aceptados para el aseguramiento de la calidad de todas
las etapas del proceso. Los procedimientos estn establecidos en los manuales para cada actor
del proceso (se denominan guas y son consistentes en el tiempo).
El rol del observador como garante independiente es fundamental para la calidad de la aplica-
cin, pero es insuficiente, teniendo en cuenta las observaciones y recomendaciones formuladas
por las entidades federativas, tales como:
6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la reco-
leccin de datos, en todos los niveles.
No se cuenta con informacin especfica sobre este criterio en relacin a los Coordinadores de
Aplicacin en las escuelas y los Aplicadores en Aula. Teniendo en cuenta que la aplicacin en
aula es conducida por docentes, parece asumirse que no hay inconvenientes en la consecucin
de aplicadores de reemplazo en caso de necesidad, aunque no puede asegurarse en todos los
casos. Podra ser particularmente necesario que se contemplen aplicadores en aula de reempla-
zo cuando las entidades implementen estrategias de intercambio de docentes entre escuelas de
la misma zona o regin (por ejemplo, Aguascalientes fue una de las entidades que en la aplica-
cin del 2013 implement la estrategia de intercambio de docentes entre escuelas).
104
Con respecto a los Coordinadores de Aplicacin en las escuelas, se hace evidente la necesidad
de contemplar personal de reemplazo, pues es personal externo a las Secretaras de Educacin
o Institutos de Educacin de las entidades federativas, y podran enfrentar imprevistos para
asistir a la aplicacin en particular cuando se trata de escuelas ubicadas en localidades aisladas
o alejadas de su lugar de residencia o donde reciben los materiales.
No se cuenta con informacin especfica sobre el particular. Con respecto a los docentes que
dirigen la aplicacin en aula, dado que su capacitacin se imparte el da de la aplicacin, es muy
probable que no haya tiempo suficiente para conocer cartulas, formatos e indicaciones que
tendrn que dar a los alumnos para responder la prueba en detalle.
tt Se monitorean las actividades en campo por personal de la instancia central y/o externo,
y se registran problemas detectados.
Existe el rol de observador de las aplicaciones, ejercido por los padres de familia. En la gua
se especifica que deben observar: que las cajas lleguen selladas a la escuela; los maestros no
apliquen el examen al grupo de alumnos que regularmente atienden; el Docente-aplicador d
las instrucciones a los alumnos; los alumnos no copien, ni se comuniquen entre s; el Docente-
aplicador recupere todos los materiales y los entregue al Coordinador de aplicacin. Se les pide
que cualquier irregularidad la comuniquen al Director de la escuela y/o al Coordinador de la apli-
cacin. En la gua no se precisan otros medios para comunicar o documentar las irregularidades.
Tambin los miembros del Consejo Escolar de Participacin Social participan como observa-
dores de la aplicacin. Se solicita que al menos un miembro de las siguientes instancias que lo
conforman est presente durante cada da de la aplicacin (pueden variar entre das): padres
Aplicaciones 105
de familia y/o representantes de sus asociaciones, maestros y/o representantes de su organi-
zacin sindical, directivos de la escuela, ex alumnos y miembros de la comunidad interesados
en el desarrollo de la propia escuela. De manera general, se les pide que verifiquen el cumpli-
miento de las normas y respondan la hoja de registro de la observacin. No se proporcion el
Las pruebas ENLACE para educacin bsica
Cuadro 1 Aspectos que supervisan los Consejos Escolares de Participacin Social (CEPS)
Primer da Segundo da
Revisin de la gua del aplicador con los docentes.
Participacin de padres de familia como supervisores de la aplicacin en cada grupo.
Intercambio de docentes al interior de la escuela
Respeto del tiempo de cada sesin en la aplicacin de la prueba
Induccin de respuestas por parte del docente aplicador y acciones implementadas en respuesta a este
comportamiento (reconvenir al docente aplicador; sustituir al docente aplicador; cancelar la aplicacin de la
prueba en grupo y asentar en acta de irregularidades; ninguna accin).
Comunicacin entre alumnos para resolver la prueba y acciones realizadas ante este comportamiento
(reconvenir al docente aplicador; sustituir al docente aplicador; cancelar la aplicacin de la prueba en grupo y
asentar en acta de irregularidades; ninguna accin).
Permanencia de docentes en los salones durante la aplicacin, y acciones ante ausencia de docentes
(reconvenir al docente aplicador; sustituir al docente aplicador; ninguna accin).
El formato donde registran las observaciones los miembros del CEPS es de lectura ptica, lo
cual permitira suponer que la sistematizacin de respuestas, anlisis y generacin de reportes
es uno de sus productos, sin embargo, no se proporcionaron reportes relacionados con este
formato. Sera de utilidad conocer un compilado de los reportes a efectos de analizarlos y for-
mular recomendaciones.
106
No hay informacin al respecto. Estos ejercicios son fundamentales para formular planes de
mejora, incluyendo aportes de todos los roles de la aplicacin.
En general, se encontr informacin suficiente para sustentar la mayora de los criterios de vali-
dez. En los siguientes subcriterios, no se cont con informacin para su valoracin:
tt Se utilizan los resultados de la aplicacin piloto para revisar que los estimados de carga sean
realistas y aceptables.
tt En los manuales tcnicos se determinan los detalles de los pilotajes y el uso de la informacin
obtenida a travs de ellos para la aplicacin de las pruebas. A partir del anlisis del compor-
tamiento de los tems en los pilotajes puede determinarse la extensin de la prueba.
tt Se simplifican los procedimientos y se describen en forma clara y cuidadosa, siempre buscan-
do minimizar la carga para los sujetos.
tt En los cuestionarios de contexto para estudiantes se evita preguntar datos que se pueden
obtener de otras fuentes.
En los cuestionarios se indaga por datos que solo pueden ser provistos por los alumnos. Cabe
recalcar que los cuestionarios de contexto nicamente se aplican a una muestra de alumnos,
pero son bastante extensos (129 tems para primaria y 142 para secundaria).
Aplicaciones 107
Los horarios estn previstos tanto para jornada matutina como vespertina y son congruentes
con la jornada escolar a la que usualmente asisten los estudiantes. Las fechas de aplicacin de
la prueba forman parte del calendario escolar oficial.
Las pruebas ENLACE para educacin bsica
8. Se busca motivar a los sujetos para que no respondan las preguntas de la prueba
a la ligera.
tt Se informa ampliamente a los sujetos de la evaluacin acerca de los propsitos del estudio
y cmo se utilizarn sus datos.
De acuerdo con la informacin provista, hay un amplio despliegue de medios masivos de comu-
nicacin, con el propsito de difundir los propsitos e importancia de ENLACE para la sociedad
mexicana en su conjunto.
Adicionalmente, hay previsiones explcitas sobre el particular en los diversos manuales. Por
ejemplo, a travs del instructivo para el Docente-aplicador se comunica a los estudiantes que la
prueba contribuir a mejorar la educacin del pas, se especifican las asignaturas que se evalua-
rn, se detalla que no se afectarn sus calificaciones individuales, a la vez que se les incentiva a
hacer su mejor esfuerzo.
No se cuenta con informacin sobre el particular. Es necesario que haya previsiones explcitas
acerca del manejo de las situaciones de no-respuesta o de rechazo a responder la prueba, in-
cluyendo revisin de las hojas de respuestas devueltas antes de culminar el tiempo disponible y
recorrido constante del saln.
Dado que ENLACE no es un estudio de investigacin sino parte de la evaluacin oficial que
realiza la SEP, el rechazo a participar no debera ser un problema.
10. Se desarrollan procedimientos para lidiar con la copia o cualquier otra forma de frau-
de y se entrena al personal de aplicacin para seguirlos.
En algunos de los manuales de aplicacin hay instrucciones relacionadas con la copia, el dictado
y la induccin de respuestas, como se ilustra en el siguiente cuadro:
108
Cuadro 2 Instrucciones relacionadas con copia y otras formas de fraude.
Documento Instrucciones
En la preparacin de los datos, la SEP aplica un algoritmo de deteccin de copia que se men-
ciona en los manuales. Se habla del uso de un software comercial que se utiliza al respecto,
sin proveer mucho ms detalle o descripcin acerca del proceso de deteccin. No se proveen
tampoco evidencias concretas de los estudios realizados para detectar copia y sus resultados,
incluyendo reportes de la probabilidad de copia esperada segn el nmero de personas y el
nmero de reactivos, entre otros.
Al respecto cabe mencionar que hay una sancin indirecta en la utilidad de estos resultados
para Carrera magisterial. En el caso de docentes que utilizan los resultados de ENLACE para
conformar su puntaje de Aprovechamiento Escolar en Carrera magisterial, los resultados en
alumnos donde se detecta copia son calificados como con cero puntos. Por lo tanto, no cuen-
tan para el promedio del resultado del docente que se utiliza en Carrera magisterial.
Aplicaciones 109
En la aplicacin de la muestra controlada el manual del Coordinador de la Aplicacin es muy
explcito que [e]n caso de detectar acciones de copia o dictado de respuestas por parte de
alumnos y/o docentes, es muy importante anotarlo en el Acta de entrega-recepcin e irregu-
laridades, dado que: SER CANCELADA LA APLICACIN AL GRUPO (nfasis en el original).
Las pruebas ENLACE para educacin bsica
tt Se recluta y entrena a monitores que lleven a cabo actividades de control externo de calidad,
observando la recoleccin de datos en un subconjunto de los sitios.
tt Sino es viable se hacen entrevistas presenciales o por telfono de control de calidad con
aplicadores y dems personal involucrado en la aplicacin.
Se hace revisin de control de calidad en una muestra aleatoria de los datos recolectados para
asegurar que se hayan llenado completa y correctamente.
1. Verificar que las cantidades de registros contenidos en las bases de datos correspondan
con la cantidad que el usuario reporta.
2. Verificar que la cantidad de informacin de las escuelas tenga correspondencia con los
datos histricos.
3. Se resumen los resultados de cada etapa de aplicacin para monitorear el estatus de las
actividades y para identificar y corregir las causas de problemas de calidad.
No hay informacin sobre el particular. Es fundamental conocer los reportes que haya sobre estos
asuntos para analizarlos y proponer mejoras a los procesos que incidan en la calidad de la aplicacin.
110
Anlisis del cumplimiento de los criterios de validez durante la aplicacin
Por otro lado, no se cont con informacin para valorar los siguientes criterios:
12. Hay manuales que detallan los aspectos a cuidar para crear archivos de datos se-
gn normas internacionales: cmo introducir los datos; asignar identificadores a
alumnos-maestros-escuelas; variables a incluir, cdigos vlidos, de datos faltantes
o respuestas no aplicables; formato de datos, estructura de archivos, limpieza,
entre otros.
El MT 2013 detalla el proceso para lectura ptica de los resultados, as como las bases de datos
que se utilizan en el proceso (base de datos de lectura ptica, de respuestas correctas y de
alumnos sustentantes). Despus se detalla muy brevemente el resultado del proceso de califi-
cacin, fase de lectura ptica (archivo de salida del software BILOG). El manual tambin detalla
que los procesos de lectura y calificacin han sido certificados bajo la norma ISO, por lo que
tienen una dinmica de garanta para sus procedimientos (Manual 2013: p. 158). Se proveen
los cdigos de documentacin de dichos procesos. Segn las normas de la certificacin ISO esto
implicara que se ha desarrollado documentacin de todos los procesos as como produccin
de evidencias de que dichos procesos se estn cumpliendo. En algunos casos se pueden reque-
rir mtricas de cumplimiento que se puedan monitorear. En los manuales consultados no se
observaron las evidencias de cumplimiento que ISO hubiera requerido, aunque la certificacin
puede tomarse como prueba de que dichas evidencias existen y se produjeron para el proceso
de certificacin.
El proceso de lectura inicia al recoger las hojas de respuesta de los alumnos y entregarlas al rea
de Informtica para su lectura. Despus, el rea de informtica genera un archivo de texto con-
teniendo un registro por cada estudiante. El rea de lectura y verificacin procede a verificar los
archivos identificando presencia de respuestas en blanco o doble respuesta, sobre las cuales se
Aplicaciones 111
hace una depuracin para eliminarlas de la calibracin inicial de reactivos. Despus, el resultado
se entrega al rea de Lectura responsable para su anlisis y revisin.
No hay en el manual detalles especficos sobre cmo introducir los datos, o el formato y es-
Las pruebas ENLACE para educacin bsica
tructura de los archivos, as como limpieza. Tampoco se detalla el procedimiento para asig-
nar identificadores a alumnos (se asume que se ingresan con nmero de folio y CCT, y con
algn identificador de aula que despus pueda ser cruzado con el docente para fines de Carrera
magisterial, aunque esto no se describe en el manual).
13. Se cuenta con personal calificado para el manejo de los datos y se les entrena en
todos los aspectos de su trabajo, asegurando que est familiarizado con los procedi-
mientos aceptados para manejar datos y que comprende la importancia de recolectar
y capturar la informacin con el cuidado necesario para que los anlisis posteriores se
hagan sobre informacin de la mejor calidad posible.
El manual describe cmo se dividen las funciones o reas del proceso de lectura: recepcin,
lectura y validacin y captura. El manual especifica que [u]na persona de cada una de las reas
sea nombrado como responsable del proceso correspondiente. No hay en el manual detalles
especficos al respecto de la seleccin y capacitacin de dicho personal. La DGEP es acompaada
por asesores externos en la parte de procesamiento y calificacin de resultados, pero no se en-
contraron reportes del anlisis de procesamiento de datos y calificacin de resultados.
14. Se llevan a cabo procedimientos para maximizar la calidad de las bases de datos que
concentran los resultados de la aplicacin. En particular se asegura que:
tt Las bases tengan identificadores nicos consistentes para que alumnos y escuelas y, en su
caso, maestros o directores, puedan relacionarse.
El manual describe en varios puntos que todas las hojas de respuesta cuentan con folio que
debe coincidir con el cuadernillo. La DGEP tiene procedimientos para asegurar que cada fo-
lio sea nico y no existan folios repetidos o no utilizados (en blanco; ver Procedimiento de
Calificacin-Referencia a punto de la norma ISO 9001:2000: 7.5).
Las hojas de respuesta vienen prellenadas con la informacin de los nios (incluyendo folio y
nmero). Entre las funciones del Docente-aplicador est registrar el grupo, nombres, apellidos
y folio para cada alumno en un formato de control, y verificar que el nio que aparece en la
112
hoja prellenada sea el que toma el examen y lo entrega. En cuanto a las bases de datos con la
CURP que se ligan a los folios desde la etapa de prellenado de las hojas de respuesta, la DGEP
proporcion informacin sobre el porcentaje de registros de la CURP incorrectos o en blanco
que proveen las entidades. Siete entidades reportan CURP incorrectos o en blanco por encima
del 5% de sus registros. Las dems tienen CURP en blanco o irregulares que representan me-
nos del 5% de los registros. Sin embargo, la DGEP no proporcion detalles sobre la consistencia
de los folios o pruebas que se hayan hecho para asegurar que sean nicos y que correspondan
a los nios evaluados, ms all de lo que verifica el docente. No se muestra evidencia indepen-
diente o externa sobre el resultado de su propio proceso de verificacin.
tt Selleven a cabo verificaciones aleatorias de submuestras de las bases de datos para verificar
que se cumplan los puntos anteriores.
El proceso est verificado con la norma ISO. El manual contiene algo de documentacin acerca
de los procesos (diagramas de flujo, descripcin de los pasos involucrados), pero se percibe
insuficiente, al menos en lo que fue entregado a este comit de validacin.
15. Se cuenta con procedimientos para asegurar que la lectura de las respuestas y todos
los pasos del procesamiento y verificacin de los datos son confiables.
tt Durante la lectura de los datos se hacen dobles verificaciones en forma sistemtica para
garantizar la confiabilidad del proceso.
El manual 2013 especifica que la verificacin del proceso de lectura que realiza la DGEP inclu-
ye la revisin manual de una muestra de hojas elegidas al azar de los diferentes paquetes y se
lleva una bitcora de los casos atendidos y de la cantidad de incidencias detectadas y resueltas
(p. 159). No se detalla qu hacer en caso de que las incidencias detectadas sean mayores de
cierto nmero o proporcin. Tampoco se proporcion documentacin con los reportes de estos
anlisis que realizan.
tt En caso de que la lectura de datos se haga en forma descentralizada se asegura que se cum-
plan los estndares en todos los sitios.
La lectura se hace centralmente, por la DGEP en una parte de las entidades federativas y en el
resto en forma descentralizada. No se muestran evidencias de que se verifique el cumplimiento
de los estndares en todos los sitios.
Aplicaciones 113
tt Se revisa que la estructura de bases se apegue a la acordada, las variables estn en rangos
vlidos y los identificadores sean nicos e ntegros.
El MT 2103 especifica:
Las pruebas ENLACE para educacin bsica
Tambin describe que cuando para llevar a cabo esta revisin se debe contar con los resultados
preliminares en formato de Excel y con un formato para anotar las observaciones y decisiones
que se tomen respecto de los reactivos, de la prueba y los parmetros con los que se realiza la
calificacin. Es conveniente conocer un formato aplicado con informacin real de una aplica-
cin a efectos de determinar si es suficiente, o en caso contrario, proponer mejoras.
tt Se calculan estadsticas descriptivas para todas las variables para revisar que no haya valores
extremos o faltantes; si hay se reportan para revisin.
La calificacin despus de la lectura ptica incluye transformar variables en las escalas definidas
segn las calibraciones ancladas con base en los resultados anteriores. Se realizan reuniones con
el personal de DGEP y asesores externos para revisar los resultados de las calibraciones actuales
y revisar posibles discrepancias. El software que utiliza la DGEP produce anlisis estadsticos por
tem. El anexo al captulo 4 presenta estadsticas de las pruebas, incluyendo grficas con ejemplos
de reactivos que se ajustan o no a la curva caracterstica para cada grado. En este punto se realiza
un anlisis de probabilidad de copia para emitir un reporte especfico para autoridades de cada
plantel donde se presenta el caso. El manual presenta un diagrama con las etapas del proceso.
114
Notificacin de irregularidades
16. La coordinacin del estudio deber ser notificada de cualquier inconsistencia en los
datos. Toda modificacin que resulte de la resolucin de inconsistencias deber ser
aprobada y documentada.
Hay actas para anotar, en cada escuela, irregularidades detectadas. El acta debe ser firmada
por el director, un testigo docente y un padre observador; el coordinador regional debe firmar
de recibido. No se proporcion informacin sobre el procesamiento de esas actas por parte de
la DGEP, los reportes que generan o las decisiones que se derivan del anlisis de irregularidades
detectadas. El manual detalla varias instancias en el proceso de lectura y calificacin donde
se deben reportar incidencias u errores encontrados a DGEP. Sin embargo algunos de estos pro-
cesos son circulares (DGEP hace revisin aleatoria y reporta a s misma si hubo irregularidades).
En las reuniones para anlisis de reactivos despus de la lectura ptica se habla de revisin de
posibles discrepancias y de que se deber anotar las observaciones y decisiones que se tomen
respecto a los reactivos, de la prueba y los parmetros con los que se realiza la calificacin
(MT 2013: 160), pero no queda claro quin aprueba dicha resolucin.
Para evaluar los procesos posteriores a la aplicacin sera a importante explicitar en la docu-
mentacin del proyecto lo necesario para que se cumpla con los criterios de que los datos
tengan suficientes redundancias para permitir control de calidad y de que se lleven a cabo
verificaciones aleatorias, de submuestras de las bases de datos para verificar que se cumplan
los puntos anteriores.
CONCLUSIN
Existen manuales para el coordinador de la aplicacin as como otros actores clave del proceso
y se percibe un esfuerzo por controlar (a travs del reporte de varios actores) todos los aspectos
de la aplicacin.
Aplicaciones 115
Por los reducidos tiempos entre la aplicacin y la lectura y anlisis de la informacin, algunas
etapas del proceso requieren mayor atencin y verificacin para asegurarse que la aplicacin se
lleve a cabo en la prctica como est planeada en los manuales y otros documentos.
Las pruebas ENLACE para educacin bsica
La aplicacin cumple algunos, pero no todos los criterios de validez segn lo planteado en este
documento (el cual plantea criterios segn la mejor prctica a nivel internacional). Los estn-
dares y manuales son consistentes en general a lo largo del tiempo. Hay procedimientos de
aseguramiento de la calidad y de control a nivel aula, escuela y entidad. Se levantan reportes
y constancias de irregularidades firmadas por el aplicador, coordinador, director y, en algunos
formatos, padres de familia que sirven de testigos. No obstante, se percibe que se requieren
controles de calidad ms estrictos en fases cruciales del proceso que involucren proveer ms
detalle tcnico sobre el diseo y proceso, as como llevar a cabo verificaciones aleatorias o rea-
lizadas por terceras personas (por ejemplo en el diseo y seleccin de la muestra, las aplicacio-
nes en aula, el procesamiento de lectura ptica, la verificacin de bases de datos provenientes
de los estados, o la seleccin y diseo de la muestra controlada).
Aunque los resultados de las escuelas con patrones de copia no se utilizan para la evaluacin de
Carrera Magisterial (es decir, se cancelan y no cuentan para la evaluacin docente),4 y a pesar
de que los reportes de copia se recopilan por medio de las formas de control, no se perciben
esfuerzos que podran ayudar a desmotivar esas irregularidades, contribuyendo a elevar la va-
lidez de la aplicacin. Tampoco se encontraron medidas para identificar, prevenir y enfrentar
otras formas de fraude.
4
No encontramos evidencia para sustentar este proceso en los manuales tcnicos de ENL ACE ni en los Lineamientos
de Carrera magisterial, pero en conversaciones con funcionarios de DGEP as como en documentacin preparada por
ellos mismos para efectos de esta revisin, se pudo constatar esta prctica.
116
En el manual de 2013, pgina 141 se menciona: [s]i se contrat personal para supervisin y
apoyos diversos, el estado define las caractersticas del personal a contratar, requisitos, forma
de contratarlos. Es recomendable que se establezcan normativas generales acerca del personal
a ser seguidas homogneamente por los Estados.
Aplicaciones 117
5 Usos y consecuencias
La nocin de validez relativa a usos y consecuencias de las pruebas combina un amplio rango
de consideraciones tericas, psicomtricas, y prcticas, y su aplicacin (en general o en casos
particulares) es un tema en constante evolucin que se discute activamente en la literatura
especializada (Lissitz, 2009). En este trabajo se conceptualiza la validez consecuencial de ma-
nera amplia, y no ceida a un modelo de medicin particular. Esto se refleja en el convenio
de ejecucin entre INEE y UAA que incluye en este apartado la forma en que se difunden los
resultados de las pruebas, los anlisis de factores asociados y el uso que se hace de dichos resul-
tados, as como las consecuencias que ha trado consigo su utilizacin en el sistema educativo
mexicano.1 Dado que este estudio se conceptualiza primordialmente desde la perspectiva de la
poltica educativa, se considera que el uso de la prueba determina directamente su significado
y consecuencias (Welner, 2013), sin importar necesariamente si esto corresponde a la definicin
especifica de validez dentro de algn modelo psicomtrico. Sin embargo, es importante dife-
renciar la evaluacin del uso de un instrumento en el contexto de una poltica educativa que se
busca aqu, de la evaluacin general del impacto social de esta poltica en un sentido amplio,
que este estudio de validez no pretende abordar.
CRITERIOS DE VALORACIN
Los criterios de valoracin que se proponen se basan en los estndares de AERA , APA y NCME
(1999) que ofrecen los lineamientos profesionales ms ampliamente establecidos a nivel inter-
nacional. Adicionalmente se incluyen elementos de los estndares del Educational Testing Servi-
ce (2000) que adems de la calidad de la prueba atienden lo relativo a equidad y consecuencias
1
El anlisis de factores asociados se entiende aqu como un monitoreo de patrones y tendencias a nivel sistmico
para propsitos de investigacin, o toma de decisiones sobre programas o polticasa diferencia de anlisis a nivel del
individuo que pertenecen al tema de validez de constructo.
118
(Standards for Quality and Fairness); y los del Centro Nacional de Evaluacin para la Educacin
Superior de Mxico (2000) que adems tocan lo relativo a comunicacin de resultados y capa-
cidad de interpretacin. Finalmente se incluye una publicacin reciente del Banco Mundial que
considera factores que inciden en distintos tipos de usos (Kellaghan, Greaney y Scott Murray,
2009). De estas tres fuentes se sintetizaron una serie de criterios que se engloban en cuatro
aspectos de validez de uso y consecuencias, a saber: 1) Soporte para interpretaciones, usos
y consecuencias previstas; 2) Acceso equitativo y capacidad de interpretacin y uso; 3) Comuni-
cacin que facilite la buena interpretacin de los resultados, y 4) Interpretaciones, usos y con-
secuencias imprevistas. En la elaboracin de este reporte se definieron inicialmente 16 criterios
especficos que luego se redujeron a 11 para eliminar redundancias y alinear las distintas fuentes
de evidencia ms directamente a los criterios.
Fuente: Adaptado de AERA /APA / NCME (1999), ETS (2000), CENEVAL (2000).
Es importante sealar que aunque estos criterios reflejan aspectos concretos de calidad tcnica
de la prueba, a diferencia de aspectos psicomtricos u operativos, estos no se pueden evaluar
directamente en trminos cuantitativos o procedimentales exactos. Por el contrario, la evalua-
cin de criterios aqu requiere juicios de grado basados en evidencia terica y emprica, que se
refieren a caractersticas que no necesariamente son observables de manera directa y confiable,
y que ocurren en el contexto complejo de un sistema de pruebas de gran alcance que se usa para
propsitos especficos. Es evidente, por ejemplo, que el grado de escrutinio tcnico necesario
es mayor en el caso de una prueba de alto impacto que implica consecuencias serias para los
sujetos implicados, que en una prueba diagnstica sin consecuencias (AERA, APA, NCME, 1999).
lo que adems concuerda con la nueva ley de educacin que establece que las evaluaciones con
consecuencias para individuos son responsabilidad de la SEP.
Las acciones de otros actores del sistema educativo tales como asociaciones civiles, prensa, o in-
cluso gobiernos estatales se consideran y evalan como externos al rgano desarrollador. En to-
dos los casos, la asignacin y evaluacin de responsabilidad se hace con una perspectiva amplia
y descriptiva, que considera parmetros realistas referidos al contexto nacional y a experiencias
en otros sistemas a nivel internacional (Cizek, Bowen y Church, 2010; Nichols y Williams, 2009).
Por ltimo, como en los otros captulos de este reporte el anlisis que se presenta aqu trata de
distinguir entre aspectos bsicos o primarios que se podran considerar como requerimientos
mnimos o indispensables en cualquier sistema de medicin educativa de esta dimensin, y
aspectos que se consideran adicionales o ideales, que representan objetivos de calidad que
se deben buscar, pero no son indispensables para una operacin mnimamente apropiada (den-
tro de ciertos parmetros y contexto).
Como punto de partida de anlisis, la Tabla 2 presenta una sntesis de usos, consecuencias
o beneficios previstos por los diseadores de la prueba ENLACE, segn se reflejan en el ma-
nual tcnico 2013 y materiales que acompaan a la prueba. La tabla presenta una variedad de
beneficios que comprenden usos sumativos, formativos, e informativos; interpretaciones
de distinta granularidad, foco, y grado de agregacin; y diversos mecanismos de mejora e
intervencin. Estas interpretaciones y usos involucran a cuatro tipos de usuarios especficos: 1)
alumnos y padres de familia, 2) docentes y directores, 3) autoridades, organismos evaluadores
y la sociedad en general, y 4) investigadores e instituciones acadmicas. Adems se menciona
a la sociedad en general, o la sociedad civil como un actor y beneficiario importante en los
esfuerzos de mejora.
120
Tabla 5.2 Usos, beneficios, y/o consecuencias previstos de ENLACE
Padres de familia
1. O frecer informacin sobre el logro acadmico de sus hijos y orientacin y apoyo para reforzar contenidos
educativos no logrados (reas de oportunidad).
2. Proporcionar resultados de la escuela donde estudia el alumno, as como los obtenidos por el resto
de las primarias y secundarias del pas.
3. Socializar el trabajo de la escuela y fortalecer la idea de la comunidad escolar.
Docentes y directivos
4. D etectar reas de oportunidad y orientar la prctica pedaggica del docente al indicar contenidos
curriculares logrados y no logrados.
5. Diagnosticar el trabajo de la escuela, proporcionando elementos para la autoevaluacin y gestin
del centro escolar.
6. Eliminar el exceso de instrumentos de evaluacin que se aplican en las escuelas, optimizando tiempos
para el proceso de enseanza-aprendizaje.
7. Posibilitar comparacin entre escuelas en contextos socioculturales similares.
8. Proporcionar informacin para disear cursos de capacitacin al magisterio.
Sociedad en General
17. Mejorar la calidad educativa y el aprendizaje de los estudiantes.
18. Promover la transparencia y rendicin de cuentas en el sistema educativo.
Es importante hacer algunas precisiones sobre los contenidos de la Tabla 5.2. Primero, la tabla
no existe como tal en el reporte, y sus contenidos no se condensan de esta forma exacta en el
manual tcnico u otros materiales. La tabla refleja por tanto la sntesis que hacen los autores del
gran nmero de objetivos y usos previstos a que hace referencia de forma explcita o implcita
el manual tcnico 2013. El siguiente cuadro presenta algunas citas representativas tomadas del
manual que implcita o explcitamente se refieren a beneficios esperados derivados del uso de
la prueba ENLACE .
(p.6) La prueba ENLACE es un instrumento estandarizado, objetivo, de alcance nacional, diseado para
que los docentes, directivos, autoridades educativas, investigadores y escolares de todo el pas, dispongan
de una medida vlida, objetiva y confiable, del estado actual del logro acadmico de los estudiantes de
Las pruebas ENLACE para educacin bsica
educacin bsica.
(p.7) El propsito primordial de ENLACE es recopilar [] informacin especfica de la poblacin objetivo para:
(1) identificar reas donde hay progreso, (2) reconocer donde hay deficiencias y, por tanto, se erigen como
reas de oportunidad para disear mediaciones pedaggicas a realizar en clase por los docentes,
(3) intercambiar opiniones de las que emanen acciones donde intervengan los padres de familia para incidir
en el aprendizaje y el desarrollo de sus hijos, (4) socializar el trabajo de la escuela y (5) fortalecer la idea de
comunidad escolar y su participacin en los procesos formativos de los estudiantes.
(p.7) Los instrumentos de evaluacin utilizados en el programa ENLACE en educacin bsica tienen como
principales objetivos: a) Medir el logro acadmico en: Espaol y Matemticas (y las competencias de otro mbito
del conocimiento, diferente cada ao pero que se repite cclicamente) de todos los alumnos de los grados
educativos considerados. b) Establecer criterios y estndares de calidad aceptados en todo el pas, como una
base de referencia. No se trata de conocimientos o habilidades mnimos, sino los comunes o crticos aceptables
para todo el pas. c) Obtener y entregar resultados de todos los alumnos y todas las escuelas.
(p.190) la DGEP [] se compromete a demostrar que es una informacin fidedigna, sin omisiones ni inclusiones
que pudieran afectar los resultados y cuyas bases de datos estn disponibles para que cualquier investigador
pueda verificar los procedimientos y resultados...
Una segunda precisin se refiere a la clasificacin de usos de la prueba como previstos o no.
Esta seccin del reporte no pretende ofrecer un juicio cualitativo sobre el valor potencial de
diversos usos propuestos y posibles de ENLACE , o si estos objetivos son adecuados o deseables
en un sentido social ms amplio. La distincin en cambio se hace necesaria en las siguientes
secciones del reporte por motivos prcticos y tcnicos, para permitir delinear las responsabili-
dades de diseadores/desarrolladores y usuarios de la prueba. En primera instancia los desarro-
lladores son responsables principalmente en lo que se refiere a aquellos usos que ellos mismos
han propuesto para la pruebaaunque como se ver ms delante, tambin existe un cierto
grado de responsabilidad en la prevencin, deteccin y correccin de usos que se consideren
injustificados o inadecuados.
Por lo tanto, una primera conclusin en lo que se refiere a los objetivos de esta seccin del
reporte es que el manual carece de una estructura y organizacin conceptual slida que presen-
te y describa los objetivos y contexto de la prueba de forma explcita y clara.
El lenguaje y la forma en que se presenta la informacin es por turnos vaga o poco clara,
incompleta, o redundanteel cuadro 5.2 presenta ejemplos adicionales de este tipo de lenguaje
y formulacin de conceptos de poca utilidad para los propsitos de un manual tcnico.
Por supuesto, la falta de claridad en organizacin y terminologa no se menciona como crtica esti-
lstica (aunque sin duda el manual se beneficiara de una revisin a fondo por un editor competen-
te). Es mucho ms importante notar que esta falta de claridad incide directamente en la calidad de
la prueba pues resulta difcil establecer con certeza los propsitos, usos, y consecuencias previstas
de la prueba y por tanto representa una limitacin directa e importante en el proceso de cons-
truir un marco apropiado para evaluar la medida en que estos objetivos se cumplen en la prctica.
122
Cuadro 5.2 Objetivos y usos de la Prueba. Extractos del Manual Tcnico
(p.5) ENLACE es, as, un programa fundamental que la Secretara de Educacin Pblica (SEP ) desarrolla ante
las exigencias actuales de rendicin de cuentas. En este marco, se proporciona informacin a los estudiantes,
padres de familia, docentes, directivos de las instituciones educativas y a la sociedad en general, respecto
del logro acadmico de los alumnos del Sistema Educativo Nacional.
(p.6) En este sentido, se viene cumpliendo la expectativa de que, con el paso del tiempo, ENLACE se constituya
a partir de sus resultados en una referencia vlida y confiable de la evolucin del avance en el desempeo
escolar, de la concrecin de los esfuerzos de todo el sistema escolar en los resultados escolares, tomando en
cuenta diferentes niveles de agregacin: estatal, municipal, local, escolar, grupal e individual.
(p.7) Los resultados de ENLACE sirven, en gran medida, para la toma de decisiones y la elaboracin de la
poltica educativa del pas. Tambin son tiles para la sociedad en su conjunto, ya que alumnos, docentes
y padres de familia obtienen informacin puntual para orientar y disear una intervencin pedaggica
slidamente sustentada.
(p.7) De esta manera, ENLACE contribuye con un modelo de apoyo a la mejora educativa del pas en diversos
ambientes: el saln de clases, la escuela, la familia, los medios de comunicacin y la sociedad en su conjunto.
Se espera que los informes de resultados del logro acadmico de los estudiantes sean interpretados pertinente y
constructivamente por padres de familia, docentes y directivos escolares y la sociedad en general; para ello,
es necesario que, en el marco de una cultura de la evaluacin, se abandonen las prcticas tradicionales
de evaluaciones incompletas, mal diseadas y sin interpretacin alguna.
(p.8) As queda claro, por ejemplo, por qu los resultados de ENLACE no impactan en las calificaciones de los
alumnos participantes; en cambio, sirven para explorar el nivel de logro de los conocimientos y las habilidades
cognitivas que tienen en Espaol, Matemticas y otro campo de conocimiento adicional. As mismo, queda
clara la utilidad y alcance que los resultados de ENLACE tienen para las autoridades educativas del pas en la
definicin de la poltica educativa, la cual debe construirse, revisarse y renovarse continuamente.
Los 11 criterios de valoracin que se presentan en la Tabla 5.1 proveen el marco conceptual para el
anlisis de los aspectos tericos, psicomtricos, y prcticos de ENLACE , sus usos previstos e impre-
vistos, y las consecuencias que de estos se derivan. Evaluar estos aspectos de validez requiere de
informacin y evidencia de muy diversos tipos y fuentes, que normalmente no estn disponibles
en forma sinttica en ningn documento o base de datos.
El grado en que ENLACE se usa en las formas previstas y produce los resultados esperados, por
ejemplo, no se puede establecer directamente con anlisis psicmetros, sino que requiere recolec-
tar y sintetizar fuentes de informacin de distinto tipo (cuantitativo y cualitativo), origen (SEP, INEE ,
prensa, entrevistas, observacin directa, y otros), y granularidad (de nivel individual, o agregados
por aula, escuela o estado).
Este estudio busca ofrecer una sntesis cualitativa que refleje la cantidad y calidad de evidencia
disponible de varias fuentes, respecto a los criterios de valoracin propuestos.
Dada la naturaleza de las preguntas de esta seccin, y las limitaciones en cuanto a la cantidad y
calidad de informacin disponible que documenta usos y consecuencias de ENLACE, adems de
las limitaciones de este estudio en trminos de tiempo y recursos disponibles, para este estudio
se busc profundizar el anlisis con informacin proporcionada por actores involucrados direc-
tamente en el uso de resultados de la prueba, adems de revisar la documentacin, manuales,
reportes, y otros materiales y estudios especiales disponibles. En particular, el equipo de investi-
gacin de la UAA recogi informacin adicional de cuatro fuentes:
La Tabla 5.3 sintetiza las fuentes de informacin que sirven de base para los anlisis y consideracio-
nes siguientes, organizadas segn los criterios de valoracin ofrecidos en la Tabla 5.1.
124
REVISIN DE LA EVIDENCIA DISPONIBLE POR CRITERIO DE VALORACIN
El manual tcnico detalla los propsitos, usos, y audiencias previstas de la prueba ENLACE . Aun-
que los usos previstos no se sintetizan explcitamente, el manual hace mencin repetida de gran
nmero y variedad de objetivos que busca la prueba y beneficios que ofrece a los diversos acto-
res (alumnos, maestros, directores, autoridades, y sociedad en general). Sin embargo, tanto el
manual, como los materiales que lo acompaan y otros disponibles en el portal web presentan
evidencia terica y emprica muy limitada para respaldar especficamente los usos propuestos y
consecuencias previstas. Los documentos ofrecen argumentos generalmente superficiales y va-
gos, y proponen beneficios del uso de la prueba que tpicamente no se sustentan directamente
en razonamientos o argumentos lgicos o tericos, y menos an en evidencia emprica.
El cuadro 5.3 presenta un ejemplo que se considera indicativo de la discordancia entre los usos
propuestos y la evidencia que se ofrece para sustentarlos. Uno de los usos propuestos ms pro-
minentes de la prueba ENLACE es el de informar la prctica docente con base en el anlisis y
diagnstico de las fortalezas y debilidades de los alumnosde este se deriva en teora una de
las contribuciones ms importantes de la prueba al mejoramiento del aprendizaje y del sistema
educativo en general.
Sin embargo, el manual y materiales que lo acompaan no presenta evidencia psicomtrica que
sustente la fiabilidad del uso diagnstico basado en subpuntajes ya sea a nivel individual o agre-
gado a nivel de aula. Este tipo de uso diagnostico conlleva un juicio prctico contextualizado
sobre la calidad de la informacin disponiblees decir, la precisin de los puntajes a interpretar
en cada rea y nivel de agregacin. Esto usualmente implica calcular, reportar, y promover el
uso adecuado de un indicador de precisin escalado (i.e. error estndar).
En cambio, en el manual tcnico ENLACE se ofrecen solo coeficientes de confiabilidad alfa para
puntajes globales a nivel de alumno. Estos coeficientes no reflejan la precisin de los puntajes,
si no una proporcin terica de varianza del error de poca o nula utilidad prctica para el uso
que se propone, y ni siquiera se refieren al puntaje de interspor rea y agregado a nivel de
aulasi no al puntaje global individual de menor o nula relevancia para informar la prctica
del docente.
El contraste entre la teora de accin y la evidencia tcnica disponible para justificarla es notable.
La alta confiabilidad del puntaje global no garantiza la confiabilidad de todos los subpuntajes
que se podran generar (Brennan, 2005; Haberman, 2008); por otro lado la baja confiabilidad
de un subpuntaje a nivel individual no asegura lo mismo al nivel de aula (Brennan, 1995);
2
Este criterio se refiere a los usos y consecuencias previstas de la prueba ENL ACE que se describen en el Manual Tcnico
2013 y materiales que lo acompaan, y que se sintetizan en la Tabla 2. Para anlisis de reportes especficos de resulta-
dos dirigidos a distintos tipos de usuarios ver anlisis de criterios 5 a 8.
(p.10) ENLACE no pretende que los docentes realicen anlisis psicomtrico de los reactivos o de la prueba en su
conjunto; esta funcin es competencia de la SEP, responsable de garantizar la validez, objetividad y confiabilidad
de la prueba, de dar interpretaciones y tomar las decisiones a nivel nacional o estatal. Lo que s se espera es que
los docentes analicen la informacin para estimar de manera cuantitativa y cualitativa las fuerzas y debilidades
que presentan sus estudiantes con relacin al perfil de especificaciones evaluado en la prueba.
El uso diagnstico de los puntajes por parte del maestro, tambin se basa en supuestos sobre
la sensibilidad instruccional de la prueba, es decir, el grado en que esta es capaz de reflejar
diferencias en la calidad (o incluso cantidad) de enseanza a que est expuesto un estudiante
en un periodo determinado.
Es importante notar que esto implica una omisin bsica importante aunque el estudio de sen-
sibilidad instruccional no es parte del men bsico en la literatura en medicin educativa. Si este
tipo de evidencia no acompaa a muchas de las pruebas de gran escala ms conocidas a nivel
internacional, es porque no es comn que estas propongan usos diagnsticos que involucren
tan distintos actores, grados de detalle y niveles de agregacin en la informacin.
Un pequeo pero creciente nmero de estudios emplea encuestas, entrevistas, estudios de caso y otros mtodos para
3
recoger informacin sobre usos de ENL ACE por diversos actores en el sistema (padres, maestros, directores). Estos
se mencionan en otras secciones de este reporte y pueden ofrecer informacin valiosa para diagnosticar y mejorar la
operacin de la prueba, monitorear sus efectos primarios o secundarios, o entender el impacto o no de programas o
intervenciones. En el mejor de los casos esta informacin eventualmente podra ayudar a explicar los resultados de un
estudio de sensibilidad instruccional, pero no constituyen un estudio de este tipo.
126
En general, nuestro anlisis de la documentacin revela fundamentalmente una grave falta de
alineamiento entre los usos propuestos de la prueba ENLACE y los cuerpos de evidencia teri-
ca y emprica que el organismo desarrollador (la Secretaria de Educacin Pblica) ofrece para
sustentar estos usos.
Es muy importante recordar que en teora se espera que los usos e interpretaciones propues-
tas de la prueba informen directamente su diseo y la evidencia que se deber recoger para
justificarlos; en el caso de ENLACE esto no parece haber ocurrido as. El manual no describe
por ejemplo la idoneidad del diseo (censal, con cobertura fija) en relacin al uso diagnostico
preponderante, o los mecanismos para considerar la precisin de los indicadores al interpretar
los resultados.
Este tipo de lenguaje no es comn o particularmente til en el manual tcnico de una prueba
si no que por el contrario hace ms difcil el anlisis y la evaluacin, porque combina con lgica
circular supuestos, hiptesis, caractersticas y objetivos de corto y largo plazo, sin ofrecer una
lnea de argumento sustentada en evidencia. El uso de este tipo de lenguaje en el manual tc-
nico recuerda la importancia de crear estructuras para asegurar adems de la calidad tcnica,
la objetividad e independencia de un sistema de pruebas aun cuando este opera al interior del
organismo responsable de mejorar los resultados.
El manual tcnico 2013 y otros documentos que se ofrecen en el portal web reflejan un nulo o
mnimo esfuerzo por documentar el grado en que se producen los usos y consecuencias pre-
vistas de ENLACE . No se encontr ningn documento o esfuerzo sistemtico de otro tipo que
busque concentrar informacin, ni siquiera en lo que respecta a los usos ms bsicos o de ma-
yor alcance que se dan a ENLACE al interior de la misma SEP a nivel federal. La documentacin
Nuevamente son frecuentes aseveraciones de tipo general que combinan objetivos y supuestos
hipotticos pero que no estn sustentados en evidencia. La siguiente cita del manual tcnico
ejemplifica este tipo de contenidos de poco valor para evaluar aspectos concretos de validez:
Gracias a esta difusin, los alumnos, padres de familia, docentes, directores de centros esco-
lares, investigadores educativos, as como autoridades educativas estatales y federales, pue-
den reflexionar en torno a los resultados, determinar reas de oportunidad en sus respectivos
campos de accin y alimentar el diseo de estrategias de mejora. El anlisis pertinente de
los resultados debe conducir a tomar acciones concretas encaminadas al incremento de la
calidad de la enseanza, aprendizaje y [ ] servicios educativos en general (p.162).
El manual incluso refleja un cierto grado de confusin sobre la responsabilidad de los actores
en relacin a los usos de las pruebas o la recoleccin de evidencia de estos usos cuando indica
que las instituciones tienen:
pleno derecho de emplear los resultados como insumo en el diseo de planes para la
mejora continua de sus procesos pedaggicos, la deteccin de necesidades de formacin
o actualizacin de sus docentes, la generacin de nuevas estrategias didcticas y otras
acciones que se consideren pertinentes para alcanzar los propsitos educativos planteados
por la SEP (p.162).
Aunque el criterio por tanto parece no cumplirse de entrada, este se aborda aqu desde una
perspectiva general usando todas las fuentes de informacin existente y otras que se recabaron
especialmente para este proyecto, con el propsito de informar el trabajo que el INEE lleve a
cabo a futuro en la siguiente generacin de pruebas. Las fuentes de informacin incluyen lite-
ratura especializada y estudios especiales (ya sean publicados, u obtenidos directamente de su
128
fuente), y entrevistas con personal encargado del uso de ENLACE en seis estados: Aguascalien-
tes, Nuevo Len, Colima, Durango, Yucatn y Veracruz.
Las entrevistas indican que los estados toman medidas muy diversas para promover el uso de
los resultados de ENLACE , y que la definicin misma de uso puede variar significativamente
entre estados. Como muestra este reporte ms adelante, estas definiciones de uso a nivel
estatal no siempre son consistentes con los usos y consecuencias previstas que se establecen
o pretenden a nivel federal. La seccin siguiente se organiza en relacin a los distintos actores
que se distinguen en la Tabla 2.
Padres y Alumnos
El modelo lgico implcito en la prueba ENLACE incluye la participacin de los padres de familia
en los esfuerzos de mejora educativa, como actores que se involucran directamente tanto en el
aprendizaje de sus hijos a nivel individual, como en la labor de sus maestros y escuelas en gene-
ral. La encuesta de autoridades estatales realizada para este estudio (N=20) indica que tres de
cada cuatro estados han implementado un programa para diseminar los resultados de la prueba
directamente a padres de familia, incluyendo reuniones en persona (23%), portales de internet
(46%), y difusion de materiales impresos (40%). Sin embargo, la encuesta tambin indica que
solo una quinta parte de los estados considera el apoyo a padres como un objetivo prioritario
de uso para ENLACE.
Otros estudios han investigado ms directamente el uso que dan los padres a esta informacin.
Por ejemplo, el Instituto de Fomento e Investigacin Educativa (IFIE) realiz un estudio basado
en una muestra nacional representativa de alrededor de 2,000 padres de alumnos de primaria,
secundaria y preparatoria, para documentar el grado de conocimiento y los usos que dan a los
resultados de ENLACE (IFIE , 2010). El estudio revel serias limitaciones en el acceso a los resulta-
dos individuales de los alumnos y por tanto en el posible uso de estos resultados por los padres.
Aunque una gran mayora de padres (ms del 80%) considera la aplicacin de ENLACE como
importante, alrededor de la mitad de los padres a nivel nacional en los tres niveles no llegan a
conocer nunca los resultados de sus hijos, y de estos ms de la mitad no reporto ningn uso
o accin concreta despus de conocer los resultados. Es tambin evidente la gran variabilidad
regional en el conocimiento de los resultados (con ndices que van desde el 26% en el norte
de la repblica, hasta el 76% en occidente) y el bajo ndice de acceso a resultados por medio de
Internet, que es utilizado solo por uno de cada seis padres que recibe los resultados (o menos
del 9% total). En cuanto al uso que se orienta al mejoramiento de las escuelas, una proporcin
an menor en todos los niveles dijo conocer los resultados de la escuela de sus hijos. En total
entre un 10 y 20 % de padres reporta tomar algn tipo de accin concreta para buscar el me-
joramiento escolar basado en los resultados de ENLACE .
Los resultados sugieren que el modelo de mejora de ENLACE en el mejor de los casos ha sido
adoptado muy lentamente por uno de los actores clave. Sin contar con datos longitudinales es
imposible determinar si existe una tendencia hacia mayor utilizacin por parte de los padres, pero
una hiptesis plausible es que estos resultados reflejan el grado mximo o estable de uso que se
logr a travs de los mecanismos implementados a nivel federal dentro del modelo que funcion
hasta 2013. El estudio del IFIE culpa entre otros factores a la difusin tarda de resultados (publi-
cados en otoo para el ao escolar anterior) de las estadsticas desalentadoras de conocimiento y
uso de resultadosadems de limitar estructuralmente el modelo de mejora docente propuesto.
En las entrevistas con personal estatal de Aguascalientes, Nuevo Len, Yucatn, Veracruz, Du-
rango y Colima, solo uno de los estados seala el uso sistemtico de ENLACE para orientar a
los padres para apoyar a sus hijos para reforzar contenidos. Este estado report dos esfuerzos
distintos que buscan involucrar a los padres a travs de la prueba ENLACE: el primero pide a los
docentes que enven la prueba Pre- ENLACE a los padres (como sugerencia a los docentes por
medio de una revista impresa para docentes distribuida a nivel estatal), el segundo promueve
que docentes y directores se renan con padres para presentar los resultados ENLACE y pedirles
mayor involucramiento en el proceso de aprendizaje de sus hijos. Los entrevistados no tenan
conocimientos o evidencia concreta sobre resultados o consecuencias de estas acciones.
Docentes y Directores
El modelo lgico de mejora de ENLACE ubica explcitamente al maestro como el actor principal,
su uso de los resultados para mejorar la prctica docente como el mecanismo central de im-
pacto, y la escuela como el contexto prximo clave donde se promueve y facilita este esfuerzo
de mejora. Una variedad de programas, polticas, y esfuerzos a nivel federal y estatal reflejan la
importancia que se da al uso de los resultados de la prueba ENLACE por parte del docente. Es-
tos se reflejan en una variedad de materiales de apoyo y orientacin al docente de diverso tipo,
profundidad, alcance, y calidad. Estos incluyen materiales que son parte de la documentacin
y material de apoyo creados por los propios desarrolladores de ENLACE , y otros muchos que se
usan en la mayora de los estados.
El INEE realiz una encuesta sobre conocimiento, opinin, y usos de ENLACE con una muestra
nacional representativa de ms de tres mil docentes de cuarto a sexto grado de primaria (Del-
gado, Grijalva, y Garca, 2011). La encuesta revela patrones preocupantes como el que 60%
de docentes conoce los objetivos de la prueba solo de forma superficial (cerca del 10% los
ignora por completo) y una proporcin an mayor tiene un conocimiento superficial o nulo de
la interpretacin y uso adecuados de los resultados de la prueba. Es interesante notar que un
55% de los docentes opina que ENLACE no permite diagnosticar las fortalezas y debilidades de
los alumnos que reciben cada ao. Sin embargo, el 60% reporta que emplea tiempo en clase
durante un mes o ms con el objetivo nico de preparar a los alumnos para la prueba. Estos
resultados contrastantes reflejan con toda probabilidad la creciente prominencia de la prueba
tanto en trminos de visibilidad general como de uso concreto en el contexto de polticas y usos
de mediano y alto impacto a nivel federal o estatal.
Existe una gran variedad de programas y esfuerzos que buscan utilizar los resultados de la
prueba ENLACE para informar esfuerzos de mejora de docentes o escuelas. A nivel federal las
intervenciones relacionados al programa Escuelas de Calidad (PEC) o el de Mejoramiento del Lo-
gro Educativo (PMLE) son un ejemplo de este tipo de uso (p. ej. PMLE atiende a escuelas donde
50% o ms del alumnado obtenga un nivel insuficiente en ENLACE).
A nivel estatal los datos de la encuesta con autoridades educativas estatales que se realiz para
este estudio confirman la gran variedad de programas que buscan utilizar los resultados de la
prueba para informar esfuerzos de mejora de docentes o escuelas. Tres de cada cuatro estados
130
reportan como prioridad el uso diagnstico de ENLACE para informar esfuerzos de autoevalua-
cin en las escuelas; el 56% mencion como objetivo prioritario el informar la prctica docente,
mientras que el 50% mencion orientar la capacitacin docente. Solo la tercera parte de los
estados menciona el fortalecimiento de la comunidad escolar, y una cuarta parte la evaluacin
de escuelas, o de programas o polticas educativas.
Estos incluyen una variedad de esfuerzos de difusin de resultados, programas que promueven
la autoevaluacin escolar o docente, y programas de intervencin o asistencia externa para es-
cuelas, directores, o docentes. La encuesta sugiere que todos o casi todos los estados cuentan
con mecanismos para difundir resultados a supervisores, escuelas, y docentes. Los mecanismos
ms frecuentes para diseminar los resultados con los tres grupos (supervisores, directores, y
maestros) son reuniones, difusin de materiales impresos, y acceso a portales de internet.4
En general a nivel estatal se puede hablar, en palabras de uno de los investigadores entrevista-
dos para este reporte, de uso generalizado pero no sistematizado. El tipo de uso especfico
de los puntajes y las acciones que se derivan de los resultados puede variar considerablemente
entre estados e incluso entre escuelas y con frecuencia estos no se especifican claramente.
Por ejemplo, al revisar los planes de mejora escolar del programa PEC en dos estados encon-
tramos que la gran mayora de las escuelas mencionan a ENLACE como uno de los criterios
observables de mejora a considerar. Sin embargo, los planes tpicamente no detallan el uso
especfico que se dar a los puntajes, o lo que se describe dista del anlisis detallado de fortale-
zas y debilidades que en principio se pretende. La mayora de los planes que revisamos se limita
a listar porcentajes brutos por nivel de rendimiento y, cuando hay resultados no adecuados o
de retroceso, se ofrecen esfuerzos adicionales (y llama la atencin, focalizados) para mejorar los
puntajes en los ciclos siguientes.
Es tambin notorio que el anlisis que se realiza no considera el grado de error o volatilidad
inter-anual en los indicadores, con lo que la interpretacin y planeacin de acciones puede estar
basada en resultados de bajo grado de certeza estadstica. Sin pretender extrapolar los resulta-
dos de una muestra pequea en dos estados a los de todo el pas, esto coincide con la idea de
uso extendido pero no sistemtico que se mencion anteriormente.
Las entrevistas realizadas con personal de las secretarias de educacin de seis estados (Aguas-
calientes, Nuevo Len, Durango, Colima, Veracruz y Yucatn) indican en la mayora de los
casos un alto inters en el uso de ENLACE para orientar la autoevaluacin escolar, las inter-
venciones pedaggicas y la capacitacin docente. Sin embargo, las entrevistas y pginas web
estatales sugieren que las acciones que se implementan en cada estado pueden variar signi-
ficativamente en frecuencia, profundidad, y enfoque, y que estas se documentan con nivel
tambin muy variable de detalle.
Por ejemplo, en uno de los estados la oferta de formacin continua docente se ajusta a las
necesidades detectadas en ENLACE, pero no se documenta sistemticamente cmo se hace
el diagnstico de necesidades, o cmo se estructura la formacin continua para mejorar las
prcticas docentes.
Las entrevistas reflejan la ausencia de esfuerzos de seguimiento y por tanto la muy escasa o nula
evidencia sobre la efectividad de las acciones e intervenciones iniciadas desde los estados. En el
mejor de los casos se sealan beneficios generales y poco especficos no basados en evidencia
concreta como lo fue en un estado la generacin de una cultura diferente de la evaluacin,
una cultura que tiene que ver con la idea de mejora.
Una observacin general que se puede derivar de estos resultados es que el rol que se otorga a
ENLACE en el mejoramiento de la prctica docente parece muy ambicioso, particularmente si se
consideran los limitados medios y mecanismos de uso y apoyo que lo acompaan.
Autoridades
La tabla V.4 presenta el reporte de la unidad que desarrolla la prueba (la Direccin General de
Evaluacin) sobre los usos de los resultados de ENLACE de que tiene conocimiento en otras
reas y unidades al interior de la SEP.
La lista se present como un documento electrnico de una pgina sin mayor detalle sobre los
usos que se mencionan y por tanto no es posible hacer un juicio sobre su confiabilidad o lo ex-
haustivo de la informacin. Sin embargo, se consider importante incluirla aqu como evidencia
por un lado de la amplia variedad de usos que se dan a la prueba en distintos mbitos, y por
otro del grado limitado de documentacin y seguimiento de los usos y aplicaciones de la prueba
al interior mismo del sistema.
Algunos de los usos que se mencionan se presentan en mayor detalle en otras secciones de
este reporte.
132
Tabla 5.4 Uso de resultados de ENLACE por unidades al interior de SEP
Uso de los resultados por la SEP para mejora de los resultados educativos
a) Programa de trabajo DGEP 2012.
b) Informe de cumplimiento del Programa de Trabajo DGEP 2012 (15 anexos).
c) R
eportes de SEB y SEMS sobre uso de resultados para el mejoramiento de la calidad educativa.
d) Reportes de medidas estratgicas prioritarias, acciones, programas o polticas orientadas a mejorar la calidad
educativa (REPARO ), correspondientes a:
e) Informacin impresa de resultados a nivel nacional y estatal de Enlace Bsica y Media Superior;
f) Informacin entregada en la CONAEDU 2012 a los Secretarios de Educacin estatales.
A nivel estatal existe un pequeo nmero de estudios que detalla el uso diverso que se ha
dado a la prueba en distintas entidades. El reporte de Salieri y Santibez (2010), por ejemplo,
indica que la gran mayora de los estados distribuyen resultados de ENLACE a todas sus escue-
las ya sea en formato impreso o electrnico, y realizan algn tipo de actividad de seguimiento
de resultados que comnmente toma la forma de reuniones regionales, enfocadas a discutir los
resultados del ltimo ciclo escolar. La mayora tambin ofrece algn tipo de apoyo para escuelas
de bajo rendimiento a travs de supervisores de zona o sector. Estos resultados parecen corro-
borarse con los datos de la encuesta de autoridades educativas estatales que se realiz para
este estudio y que se reportaron en las dos secciones anteriores.
Por otra parte, un nmero menor de estados ha desarrollado infraestructura para ofrecer anlisis
ms detallados de los resultados de ENLACE a las escuelas ligados a mecanismos de desarrollo
profesional para docentes y directores. Tres de los seis estados entrevistados ejemplifican este
tipo de mecanismo, que involucra informar la autoevaluacin y gestin escolar. En un estado esto
funciona mediante capacitacin de supervisores regionales para que asistan a las escuelas en el
desarrollo de anlisis de resultados tanto de ENLACE como de otros indicadores educativos en
La lista incluye las evaluaciones de los programas Escuelas de Calidad (PEC), Escuelas de Tiempo
Completo (PETC), y Asesor Tcnico Pedaggico (PATP). Esto probablemente refleja limitaciones
en la disponibilidad de ENLACE en ciertos grados o materias, pero tambin puede ser producto
de la dificultad de acceso a los resultados en forma desagregada que permitiera anlisis ade-
cuados para la evaluacin de programas.
Otras evaluaciones identificadas que no lista la sntesis de CONEVAL incluyen por ejemplo las del
programa Enciclomedia (Snchez Zuniga, 2009), el Programa Escuelas de Calidad en el estado
de Colima (De Hoyos, Garca, Patrinos, 2013), el programa de Apoyo a la Gestion Escolar (AGE)
en el medio rural (Gertler, Patrinos, Rodrguez-Oreggia, 2012) y otras evaluaciones de progra-
mas no documentadas que se realizan de forma interna en la Subsecretaria de Educacin Bsica
(Desarrollo de Gestin e Innovacin Escolar).
Un nmero reducido de estudios disponibles emplea las bases de datos al nivel de alumno y
tcnicas sofisticadas de anlisis estadstico para estudios de impacto o factores asociados. Estos
incluyen estudios de impacto recientes que analizaron los efectos del programa de apoyo a con-
cejos escolares (Santibaez, Abreu, y ODonoghue, 2014), la duracin del ao escolar (Agero
y Beleche, 2013); y el programa de apoyo a la gestin escolar (Gertler, Patrinos, y Rodrguez,
2012). Otros estudios investigaron diferencias entre escuelas de distintos turnos (Crdenas,
2009), o el impacto de programas de gestin escolar (Bando, 2010).
Otros estudios investigan factores determinantes del logro en ENLACE. El ms conocido es pro-
bablemente el estudio de factores asociados que publica cada ao la Facultad Latinoamericana
de Ciencias Sociales (FLACSO) utilizando puntajes ENLACE de muestras nacionales representativas
134
de decenas de miles de estudiantes. Los estudios ms recientes publicados en 2010 y 2011 iden-
tifican la variabilidad que se debe a factores al nivel del aula y escuela, y el papel de factores
escolares y de aula como moderadores del grado de asociacin entre el nivel de aprendizaje de los
alumnos y su nivel socioeconmico (FLACSO, 2011).
Otros estudios similares incluyen el de De Hoyos et al. (2013) con datos de la prueba nacional
de secundaria; otro del mismo autor analizando el efecto del Programa de Atencin Especifica
(PAE) del estado de Colima; el de Luschi (2012) sobre factores asociados al docente; el de Li-
zasoain y Joaristi (2010) que analiza factores escolares en lengua en Baja California; y uno de
Gmez et al (2008) sobre determinantes geogrficos del logro en Ciudad Jurez, Chihuahua.
Otros estudios disponibles incluyen por ejemplo el del Centro Nacional de Evaluacin para la
Educacin Superior (CENEVAL ) sobre el avance en puntajes de 3 de secundaria a 1 de bachi-
llerato, que compara el crecimiento en el aprendizaje de los alumnos en este periodo entre
distintos subsistemas escolares y estados, y otro de FLACSO que utiliz la encuesta del director
de ENLACE para crear indicadores descriptivos de calidad y procesos escolares.
Se puede tener la certeza de que existen otros estudios interesantes de este tipo que no se lo-
calizaron para esta versin del reporte. Sin embargo, y a reserva de una revisin ms exhaustiva
de la literatura que se presentar en la versin final de este informe, se puede afirmar en gene-
ral que el volumen de estudios disponible evidencia un menor grado de involucramiento de la
comunidad de investigacin del que se esperara con un programa nacional de la envergadura
y relevancia de ENLACE . Esto refleja sin duda la necesidad de establecer mecanismos claros y
eficientes que permitan acceso a datos a investigadores calificados.
Estos mecanismos son necesarios porque la utilizacin de los datos por parte de la comunidad
de investigacin es un elemento importante para el entendimiento de los patrones y tendencias
en los resultados, y el desarrollo de bases de conocimiento necesarias para la mejora. Aunque
reducidos en nmero, estos estudios muestran la utilidad potencial de analizar la base de datos
de ENLACE utilizando herramientas estadsticas sofisticadas que permitan identificar factores del
aula, la escuela, o el contexto, que expliquen el rendimiento de los alumnos.
Por ltimo, en aos recientes se ha extendido el uso de resultados de ENLACE por parte de los
medios de comunicacin, organizaciones civiles, fundaciones, y otros actores de la sociedad en
general. Esto incluye usos de corte puramente informativo como lo es la publicacin de reportes
de resultados, y otros que conllevan juicios metodolgicos y evaluativos implcitos como lo son
los ordenamientos de estados y escuelas, los reconocimientos a escuelas, docentes, e incluso
alumnos, la comparacin (y por consiguiente evaluacin) de maestros, escuelas, e incluso sub-
sistemas educativos y una larga lista de otros. El inters que generan estos esfuerzos informa-
tivos/evaluativos es maysculo, y su nmero y visibilidad va en aumento. En general es posible
decir que estos esfuerzos ejercen una influencia significativa en las percepciones sociales sobre la
prueba, los resultados de estudiantes, maestros y escuelas, y las acciones necesarias de mejora.
Dada la extensa cobertura en prensa de todos tipos y niveles en el pas no es factible incluir
aqu una revisin detallada de este tipo de usos de la prueba. A modo de ilustracin, una bs-
queda en www.google.mx con los trminos vinculados resultados de ENLACE encontr ms
150 artculos que se analizaron para generar categoras basadas en temas y mensajes princi-
pales (ver Tabla 5.5). Nuestro anlisis muestra tres grandes temas en los artculos aparecidos
en estos cinco diarios en los aos 2012 y 2013: (a) en 2013 el futuro de ENLACE despert gran
inters; encontramos por un lado artculos argumentando a favor de seguir aplicando ENLACE,
y otros criticando la prueba como herramienta de medicin o de poltica educativa y sugiriendo
cambios en su diseo; (b) otros artculos presentan resultados de la prueba; con un nmero si-
milar enfocado a resultados positivos o de mejora, y negativos o de retroceso, pero usualmente
sin mucho contexto y siguiendo el tono del mensaje que se manda con el titular; (c) un buen
nmero de notas anuncia o reporta la aplicacin de ENLACE en el pas, resistencia a estas aplica-
ciones por parte de maestros en algunas localidades, o casos de corrupcin o copia. Finalmente
un nmero menor de notas reporta usos de la prueba en varios mbitos del sistema educativo
entre los que se encuentran la evaluacin docente, y los reconocimientos a alumnos, escuelas
o maestros con altos puntajes.
Adems de los diarios, ENLACE tambin ha despertado inters en revistas de circulacin nacio-
nal entre las que se pueden mencionar Educacin Futura, Nexos, Este Pais, AZ, y Proceso, entre
otras. La cobertura de la prueba en estas revistas se ha incrementado en aos recientes, con
historias que se enfocan tanto a la discusin de resultados, como a las controversias diversas
que rodean a la prueba. El formato de estas revistas con frecuencia les permite a reflejar una
visin ms compleja y matizada de la realidad de la prueba, sus resultados, y tendencias, de lo
136
que es posible en una nota de peridico. En algunos casos estas revistas incluso han publicado
tratamientos a profundidad de corte netamente acadmico que representan un puente inte-
resante para conectar a expertos e investigadores en la materia con periodistas y analistas de
polticas pblicas por una parte, y funcionarios y polticos por la otra; como ejemplo reciente
se puede mencionar un anlisis de inflacin de puntajes en ENLACE de Contreras y Backhoff
aparecida en la revista Nexos en el mes de octubre de 2014.
Sin embargo, es importante notar que estas revistas no estn exentas de sesgos ideolgicos,
y que con frecuencia tambin caen en tratamientos simplistas y sensacionalistas. Un ejemplo
reciente es interesante en tanto refleja un grado de hiperatencin social generalizada alrededor
de los resultados de la prueba, que ha permeado incluso a la prensa internacional: en Octubre
de 2013 la revista de divulgacin cientfica y cultura popular norteamericana Wired public en
su portada una historia sobre una estudiante de secundaria del estado de Tamaulipas que ob-
tuvo el puntaje ms alto en ENLACE en el pas, bajo el encabezado La siguiente Steve Jobs?.
El grado de atencin de medios que gener esta historia en el pas, y las consecuencias directas
para la estudiante (reconocimientos, entrevistas, ofrecimiento de becas, y finalmente su fracaso
en una prueba posterior) ofrecen un ejemplo inusualmente claro y dramtico del peligro real
que representa para los individuos y por extensin para la sociedad el uso injustificado de una
prueba estandarizada de gran escala.
Finalmente, resulta ms que evidente el gran inters que despiertan los resultados de la prueba
ENLACE en organizaciones diversas de la sociedad civil que atienden temas educativos. Entre
las ms destacadas en este respecto se pueden mencionar las Asociaciones Civiles Mexicanos
Primero, Suma por la Educacin, Proeducacion, Mejora tu Escuela, Mxico Evala, entre otras,
agrupadas en el Consejo Ciudadano Autonomo por la Educacin (CCAE); as como el Institu-
to de Fomento e Investigacin Educativa (IFIE), el Instituto Mexicano para la Competitividad
(IMCO).5 Estos organismos han utilizado los resultados de la prueba ENLACE para argumentar
a favor de la rendicin de cuentas, transparencia, y mejoras en el sistema educativo, particular-
mente en lo relativo a la evaluacin de alumnos, docentes, y escuelas, y la transparencia en el
financiamiento de la educacin pblica. En 2013 y 2014 estas organizaciones dedicaron una
gran parte de sus esfuerzos de comunicacin al tema de de ENLACE; haciendo llamados en favor
de la continuidad de la prueba, o la introduccin oportuna de otra prueba estandarizada de
gran escala. Por ejemplo, Mexicanos Primero publica el informe sobre el Indice de Desempeo
Educativo Incluyente (IDEI) (2013) en el que los datos de ENLACE son un indicador preponde-
rante (aunque no nico) para la creacin de ordenamientos (rankings) de desempeo educa-
tivo, lo que se dice busca permitir comparar el esfuerzo que hace cada estado para incluir a
todas sus nias, nios y jvenes en las oportunidades de aprendizaje (Mexicanos Primero,
2013). En otros documentos disponibles en su pgina web, el mismo organismo identifica
ventajas de mantener una prueba como ENLACE, analiza el efecto del factor copia en los
resultados, y propone usos adecuados que los maestros, estados, e instituciones federales han
dado a sus resultados. Finalmente, se presentan sugerencias para un nuevo (o mejorado) siste-
ma nacional de evaluacin a gran escala.6
Tambin se consider el Observatorio Ciudadano por la Educacin, pero no se encontr de ellos informacin ms alla
5
del 2009, y su pgina web www.observatorio.org est fuera de funcionamiento (8 de octubre, 2014).
Ver Nota sobre la cancelacin de ENL ACE, s.d.; http://www.mexicanosprimero.org/especiales/enlace/lo_que_nece-
6
sitas_saber_sobre_ENLACE_2014-nota_tecnica.pdf
el rediseo del sistema de rendicin de cuentas educativo nacional. Por su parte la pgina web
del IMCO presenta informacin diagnstica general sobre la educacin en Mxico, y detalla
la oposicin de este organismo a la cancelacin de ENLACE en 2014 que incluye por ejemplo la
campaa en twitter #SiENLACE2014, y editoriales con fuertes posicionamientos, que llegan
incluso a equiparar la cancelacin de la prueba en 2014 con corrupcin legalizada. La orga-
nizacin Mejora tu Escuela es un esfuerzo del IMCO que utiliza los resultados de ENLACE para
publicar rankings de escuelas de todo el pas.7 El CCAE , con la representacin y participacin de
los organismos que convoca, present recientemente su propuesta para el diseo de la nueva
evaluacin que sustituya a ENLACE , haciendo un llamado expreso a que esta sea anual y censal.
Por ltimo, la Unin Nacional de Padres de Familia (UNPF ) tambin seala en comunicados de
prensa, tanto en 2013 como 2014, que la prueba ENLACE Bsica es necesario para diagnosticar
el estado de la educacin mexicana, a nivel de cada escuela, grado, subsector y alumno. Esta
organizacin tambin lamenta la suspensin de ENLACE Bsica para el ao 2014 y pide reiniciar
una evaluacin censal y anual tan pronto que sea posible.
El Manual Tcnico 2013 menciona que el plazo previsto para completar la lectura y calificacin
de pruebas y preparacin de reportes no deber rebasar los 90 das (p. 161). Una vez terminado
este proceso se procede a la divulgacin de los resultados que son precedidos por una campaa
institucional de promocin de la evaluacin.
El manual sin embargo no fija el plazo mximo para la difusin de resultados o disponibilidad
de distintos tipos de reportes; solo se establece que los resultados de la medicin se difundirn
al inicio del siguiente ciclo escolar en el portal internet de ENLACE .
Se implementa una campaa de difusin multimodal de aparente largo alcance para llegar a
los actores interesados por medio de materiales para padres, reuniones con autoridades, docu-
mentos, folletos y carteles informativos, difusin a medios y grupos de opinin, y otros varios.
La SEP lleva a cabo una variedad de actividades de difusin y apoyo con autoridades estatales
para promover el uso sistemtico de los resultados a nivel local, tanto por padres, como maes-
tros y escuelas.
7
El organismo adems clasifica a cada escuela en cuatro bandas de desempeo (excelente, bien, de panzazo, y repro-
bada) mediante un semforo educativo cuya metodologa es en el mejor de los casos muy opaca, y en el peor de
ellos extraordinariamente rudimentaria.
138
Se establecieron adems mecanismos de consulta para padres o comunidades que no cuenten
con servicio internet mediante acceso en centros escolares, plazas INEA, centros de maestros,
y mediante un nmero telefnico 1-800.
Segn estadsticas de acceso proporcionadas por la SEP, el porcentaje de alumnos cuyos resul-
tados fueron revisados a travs de la pgina web vara entre un 9% en 2008 y un 28% en 2012
(ver tabla 5.5).
Sin embargo, estas tasas de uso asumen que cada consulta corresponde a un alumno distinto,
un supuesto arriesgado y que no se puede verificar con los datos disponibles. Los resultados
de otros estudios independientes (por ejemplo la encuesta de padres del IFIE reportada ante-
riormente) sugieren que estas estadsticas reflejan por lo menos en parte consultas repetidas
del mismo CURP y que por lo tanto las tasas de acceso son bastante menores.
Los resultados de los alumnos se entregan tambin al docente que tuvo a los estudiantes el ciclo
escolar anterior y al que los atender en el ciclo que inicia, para que ambos los empleen para
orientar su prctica pedaggica. En las escuelas se presentan resultados por grupo y asignatura y
los resultados por escuela se publican tambin en el portal internet para su consulta. Las estads-
ticas de acceso a los resultados a nivel escuela recopilados por la SEP muestran que, en promedio,
entre 2006 y 2013 han ocurrido entre 3 y 15 consultas por escuela participante de ENLACE, con
el mximo alcanzado en 2010.
Estos datos nuevamente asumen una distribucin equitativa de consultas entre escuelas, un
supuesto poco realista porque claramente debe haber escuelas donde el nmero de consultas
es mucho mayor que el promedio, y otras donde la frecuencia es mucho menor. Tampoco se
dispone de estadsticas de consulta por estado o regin.
Las limitaciones en la informacin acerca del uso del sistema de consulta dificultan cualquier
evaluacin de su alcance, utilidad, e impacto, un problema serio dado el importante papel de
este mecanismo de consulta en el modelo lgico de impacto de ENLACE. Esto es particularmente
Por otro lado, las entrevistas con entidades estatales indican que los estados tratan de comple-
Las pruebas ENLACE para educacin bsica
mentar el acceso a los resultados de ENLACE a travs de la pgina web de la SEP con sus propios
sistemas de difusin y consulta de resultados. Por ejemplo, en uno de los estados se desarroll
una plataforma web para escuelas y supervisores, con gran variedad de datos agregados, ade-
ms de la opcin de seguimiento en el tiempo tanto a nivel institucional como individual. Adi-
cionalmente, en las entrevistas en dos de los seis estados se habla de promover la informacin
y el involucramiento de los padres a travs de reuniones implementadas por las escuelas donde
se comunican los resultados de ENLACE .
Por lo que respecta a la sociedad en general, los mecanismos de acceso y promocin del uso
no son tan claramente establecidos. Los reportes agregados por escuela y estado estn dispo-
nibles para consulta, pero no se presentan resultados ms detallados ni anlisis sofisticados que
permitan entender con mayor precisin los patrones, tendencias y diferencias observadas en
los resultados. Al mismo tiempo no se contempla el acceso a las bases de datos de resultados
individuales para el pblico en general u organismos o investigadores interesados, si no nica-
mente a nivel escuela y estado.
Es importante mencionar que aunque el manual tcnico hace mencin repetida del rol de los
investigadores como usuarios de los resultados, estos solo tienen acceso a los mismos resul-
tados agregados (a nivel escuela y estado) que se ofrecen al pblico general, y estos ofrecen
posibilidades muy limitadas de anlisis. Esta estructura parece permitir y promover los usos ms
rudimentarios y menos tiles de los resultados, dejando la puerta abierta para otros usos que
potencialmente estn contraindicados, y cerrndola para usos sofisticados que en teora po-
dran ser tiles. Existen ejemplos de investigaciones que tuvieron acceso a bases de datos a nivel
individual a nivel nacional o estatal, algunos de los cuales se mencionan en el apartado anterior.
Sin embargo, es evidente la necesidad de desarrollar un mecanismo regulado de acceso a las
bases de datos (anonimizadas) para investigadores y organismos calificados.
En el manual tcnico 2013 se mencionan los talleres de difusin y uso de los resultados ENLACE ,
destinados a autoridades educativas, equipos de supervisin escolar y docentes y directores.
Segn el manual, en estos talleres se discuten formas de leer los resultados, ejercicios para
consultar la pgina web y preguntas de reflexin (p. 145).
140
adecuado de los resultados.8 Sin embargo, vale la pena hacer precisiones sobre el tipo y calidad
de informacin que se presenta.
Primero, el manual omite cualquier mencin de la idea del error de medida o precisin de
los puntajes. Aunque esto no sorprende porque esta informacin tampoco se presenta en el
manual tcnico, la falta de ndices de precisin como el error estndar dificulta la apropiada
utilizacin de los resultados para subpuntajes o tems particulares, dado que se ignora el grado
de diferenciacin estadstica entre los puntajes de los alumnos, y por tanto el grado en que
diferencias observadas son significativas estadsticamente.
Es incontrovertible que:
es recomendable que el docente de grupo identifique las preguntas del examen que
resultaron particularmente difciles para sus alumnos [ ] e intente explicarse por qu sus
alumnos no estn logrando dominar el o los contenidos programticos implicados en la
resolucin de tal cuestionamiento, a travs de preguntas tales como: Se abord el estudio
del contenido en clase? Son suficientes las lecciones que tratan el tema en el libro de tex-
to del alumno?Las condiciones de aplicacin del examen en el grupo fueron adecuadas?
Y de manera fundamental, Qu tipo de estrategias didcticas puedo disear con mis
alumnos para subsanar las eventuales deficiencias acadmicas observadas? Conviene de-
dicar especial atencin en los reactivos en los que el alumno se equivoc e identificar la
opcin que eligi como respuesta para indagar cul fue la posible causa del desacierto y
tratar de inferir la lgica del error.
Sin embargo, la literatura internacional sugiere que la efectividad de este tipo de recomendacio-
nes genricas es dudosa si no se acompaa con esfuerzos de supervisin y desarrollo docente
ms comprensivos, sostenidos en el tiempo y prximos al saln de clases y a la prctica diaria
y concreta del maestro. Hay al menos uno de los estados visitados donde parece existir la ca-
pacidad de hacer este tipo de anlisis detallados a nivel regional o incluso escolar, y en otros
dos existe la clara preocupacin por instalar una mayor capacidad para asistir a los usuarios de
ENLACE a nivel regional y escolar en el anlisis e interpretacin con un propsito formativo. Esto
se pretende realizar a travs de talleres, plataformas web, y el incentivo de usar pruebas similares
llamados pre- ENLACE o ENLACE intermedia. En el resto de los seis estados visitados parece
no llevarse a la prctica este tipo de uso central y previsto, basado en los objetivos sealados en
el Manual Tcnico de ENLACE .
8 El Manual para Docentes y Directivos que se ofrece en ENL ACE Media Superior en cambio consiste mayormente de
informacin bsica sobre la prueba disponible en el manual tcnico y aade solo una pgina de recomendaciones
de redaccin densa y confusa, y un nivel de detalle mnimo y a todas luces inadecuado.
Este criterio se refiere principalmente a los reportes de resultados para usuarios que se ofrecen en
la pgina web de la SEP. En su introduccin, el manual tcnico 2013 (pp. 8-9) identifica explcita-
mente tres grupos de usuarios de resultados de ENLACE: (a) alumnos y sus padres, (b) docentes y
directivos de escuelas, (c) autoridades educativas a nivel estatal y nacional. Este anlisis por tanto
se refiere al grado en que los reportes de resultados facilitan la adecuada interpretacin de los
resultados, sin necesidad de recurrir a informacin adicional disponible en el manual tcnico u
otras fuentes menos accesibles.
De forma general se puede constatar que ninguno de los informes de resultados accesibles a
travs de la pgina web describe las caractersticas de la prueba, ni aclara lo que esta mide y
no puede medir. Asimismo, los informes si aclaran las decisiones que se pueden basar en los
resultados y los usos propuestos de estos (en forma de recomendaciones), pero no incluyen in-
formacin y sugerencias explcitas para minimizar la incidencia de interpretaciones equivocadas
o usos inapropiados de los resultados.
142
Los padres pueden acceder a la informacin a travs de la pgina web de la SEP, opcin
Resultados por alumno ENLACE Bsica 2013, ingresando el nmero de folio o CURP de su
hija/hijo. Se ofrecen los resultados de cada alumna/alumno, adems de resultados del curso y
de la escuela en comparacin con la entidad y el pas.
Estos informes aclaran que los propsitos principales de la prueba ENLACE son: (a) identificar
reas que necesitan mayor apoyo, (b) detectar posibles reas de mejora en las estrategias de
enseanza y necesidades de capacitacin, y (c) como diagnstico del grupo de estudiantes que
recibe el docente.
144
La informacin complementaria destinada a los docentes y directivos de la pgina web de la
SEP ofrece detalles sobre el desempeo del respectivo grupo de estudiantes, a nivel de cada
pregunta de la prueba, adems de dar acceso a las pruebas completas. Esta informacin est
disponible a travs de ENLACE en Educacin Bsica, Resultados 2013 por Escuela, ingre-
sando el nmero CCT de la escuela.
Estos informes incluyen solo resultados por nivel /grado en formato tabla y grfico; no incluyen
informacin adicional en formato texto sobre propsitos y recomendaciones de uso, como es el
caso de los informes a nivel alumno o grupo/curso.
146
Adems de los informes sobre el desempeo de cada escuela, a travs de la pgina web de la SEP
se puede acceder pblicamente a una base de datos que contiene los resultados de todas las es-
cuelas a nivel nacional y separado por estado, en formato Excel. Antes de poder acceder a estas
bases, se encuentran aclaraciones para una apropiada interpretacin de los datos (se mencionan
limitaciones relacionadas al nmero mnimo de estudiantes por escuela, representatividad de los
datos a nivel escuela, etc.).
En la pgina web se sugiere el uso de la informacin proporcionada por ENLACE para la auto-
evaluacin de los centros educativos, con mayor informacin a travs de la pgina web de la
Direccin de Evaluacin de Programas y Estudios Especiales de la SEP.
Para las autoridades educativas la pgina web contiene, e formato Excel, adems de los datos
a nivel escuela, los correspondientes a todo el pas, o bien a todas las escuelas de una enti-
dad especfica, una presentacin de resultados descargable en formato PDF. Esta presentacin
muestra resultados de los niveles de logro por asignatura, nivel, modalidad educativa, y entrega
comparaciones con otras entidades. Es notorio que ninguno de los documentos disponibles
presenta un argumento razonado para reportar resultados usando estas categoras como base.
En concreto, la presentacin de resultados por grupo o por subsistema sin un anlisis adicional
que permita matizar y entender los resultados en contexto y detalle apropiados, y que presen-
ten oportunidades o avenidas para la mejora, puede contribuir simplemente a agudizar percep-
ciones y reforzar sesgos pre-existentes entre padres o el pblico.
Aunque se menciona a la sociedad en general como beneficiario de la prueba en varios puntos del
manual y otros documentos, no se trata a esta como un tipo distinto de usuario. En consecuencia
los reportes anuales generales de resultados se presentan con un mnimo de informacin de con-
texto o guas para facilitar la interpretacin de resultados destinada a los medios de comunicacin
o al pblico en general.
De modo general, la pgina web de la SEP incluye descripciones de las caractersticas de la prue-
ba ENLACE , su estructura, y datos sobre su aplicacin, que son de fcil acceso para los usuarios:
148
En general, en todos los reportes de resultados se ofrecen informacin de apoyo muy breve
para ayudar a la correcta interpretacin de los puntajes.
Cabe mencionar que los resultados se comunican utilizando tablas y grficos bastante comple-
jos, sin una interpretacin en formato de texto. Una combinacin de formatos de comunicacin
facilitara una adecuada interpretacin de los puntajes, especialmente en el caso en que los
destinatarios de la informacin son docentes, padres y estudiantes.
Por otro lado, ni los reportes ni la pgina web ofrecen ejemplos o apoyo adicional para la in-
terpretacin correcta de los resultados. Por ejemplo, no se dan ejemplos para ilustrar una inter-
pretacin concreta y adecuada del nivel de logro alcanzado a nivel alumno/a en la asignatura
de matemtica de 3 grado bsico, ni para la comparacin que se sugiere entre resultado de un
alumno especfico y grupo, escuela, entidad y pas. Se evidencia la falta de videos, animaciones,
y otros elementos grficos atractivos y eficientes que podran ser efectivos para ofrecer ejemplos
de buenas prcticas en el uso de resultados. En el caso de los reportes que acceda el docente
estos tambin podran incluir sntesis cualitativas y estudios de caso que puedan justificar y re-
presentar adecuadamente los usos de la prueba.
6. Se utiliza lenguaje claro y preciso sin jerga tcnica innecesaria; se explican trminos
tcnicos en lenguaje claro comprensible para una audiencia general.
Tal como en el caso de los criterios anteriores, este criterio se refiere a la manera en que los
resultados de ENLACE se comunican a una audiencia amplia de usuarios, incluyendo a padres y
docentes de aula, por medio de los reportes y materiales correspondientes.
150
En los informes de resultados por lo general se utiliza un lenguaje claro y preciso, sin jerga
tcnica innecesaria. Sin embargo, se utilizan algunos trminos tcnicos como niveles de logro
y puntaje promedio sin mayor aclaracin.
Adems, los resultados se comunican utilizando tablas y grficos bastante complejos, los cuales
contienen mucha informacin en cada caso. No se ofrece una interpretacin de los datos en for-
mato de texto. Una combinacin de distintos formatos de comunicacin facilitara una adecuada
interpretacin de los resultados.
En la pgina web de la SEP existe una seccin de preguntas frecuentes, pero en esta no se aclara
la terminologa tcnica de los informes antes mencionada. No se encuentra disponible un glosa-
rio de trminos tcnicos. En general, los textos disponibles utilizan un lenguaje de nivel tcnico
bajo y parecen adecuados para el lector comn, docentes y directivosla excepcin son los
informes tcnicos, que no se dirigen a una audiencia general y requieren presentar informacin
tcnica compleja.
Pese a lo anterior persiste la duda sobre si la mayora de los padres puede manejar adecuada-
mente la pgina web para acceder a toda la informacin disponible a nivel estudiante y escuela,
e interpretar la informacin correctamente para sacar conclusiones concretas sobre el caso de
su hija/hijo.
resultados por va telefnica. Sin embargo, la encuesta no ofrece informacin para valorar si los
padres efectivamente comprenden la informacin contenida en el reporte.
La informacin del estudio del INEE puede ofrecer una vista complementaria. Los autores re-
portan que solo 28% de los docentes reporta entender cmo se interpretan los resultados de la
prueba en detalle, y 21% reporta desconocerlo por completo. Asimismo, cerca de 70% de los
docentes reporta no conocer o conocer solo de forma superficial los objetivos de ENLACE. Esto
contrasta con 50% que reporta que ENLACE es necesaria para mejorar la educacin y que los do-
centes toman en cuenta los resultados. Es interesante tambin notar que un tercio de los docentes
reporta que ENLACE determina lo que tienen que ensear en su saln de clases.
Dado que ENLACE es una prueba censal, en este caso la poblacin de referencia para los resul-
tados a nivel nacional constituye el universo de colegios y alumnos de un determinado grado
y asignatura. El manual tcnico 2013 (p. 164) y el sito web entrega informacin respecto de la
cobertura de la aplicacin de ENLACE a travs del tiempo.
152
Sin embargo no se entregan descripciones de los grupos de referencia para las comparaciones
que se invitan a hacer en cada nivel de agregacin (estado, escuela, individuo). En el Manual
Tcnico 2013, 2.7, se entrega informacin relevante sobre escalas de referencia e interpretacin
adecuada de puntajes y niveles de logro. Desafortunadamente, esta informacin (segn nues-
tro mejor conocimiento) no se comunica en suficiente detalle ni en la pgina web ni los informes
de resultados.
En los informes de resultados se comunican los resultados de cada alumno, curso y escuela en
comparacin con los resultados de alumnos, cursos y escuelas del mismo grado de marginacin
y tipo de escuela, por cada asignatura y grado. No se entrega informacin para otros subgrupos
que podran resultar relevantes, por ejemplo, por sexo, pertenencia a grupos indgenas, o nivel
socioeconmico dentro de los cursos y escuelas. Como se mencion anteriormente tampoco
se justifica en ningn documento la seleccin de estas dos variables (grado de marginacin y
tipo de escuela) para formar los subgrupos dentro de los que se reporta a las escuelas. De he-
cho, es notorio que la palabra marginacin no aparece mencionada en la totalidad del ltimo
manual tcnico de ENLACE 2013.
Respecto de los niveles de logro (insuficiente, elemental, bueno, excelente) y la escala de punta-
jes entre 200 y 800, el Manual Tcnico 2013 menciona que el uso de la escala y los cuatro niveles
no se asocia con la escala tradicional de notas del sistema escolar mexicano que va del 0 al 10,
lo cual favorece la expresin de niveles de logro sin la connotacin peyorativa que tienen [estos]
valores (p. 19). Sin embargo, debe notarse que los trminos categricos insuficiente y elemental
tambin podran acarrear connotaciones negativas en la prctica. El Manual 2013 adems ofrece
informacin importante para una correcta interpretacin de los puntajes y niveles de logro que
no se comunican en ninguna otro documento: El valor obtenido en escala logartmica se trans-
forma a una forma estandarizada, con media en 500 y desviacin estndar de 100 para cada
grado-asignatura. La escala se establece para cada grado-asignatura; por lo tanto, resulta inco-
rrecto hacer comparaciones de puntajes entre niveles, asignaturas y grados diferentes (p. 72).
En el Manual Tcnico 2013 (el cual claramente est dirigido a una audiencia que tiene un cierto
grado de formacin en temas de evaluacin educativa, poco comn entre actores escolares y
padres de familia) se menciona en la p. 8 que es lo que ENLACE no mide: actitudes, intereses,
valores, procesos meta-cognitivos de los estudiantes; no se trata de evaluaciones de aula (por
lo que ENLACE no debe impactar en las calificaciones de los estudiantes). Es interesante notar
que tambin se menciona que la prueba es de tipo formativo y por tanto tampoco deber utili-
zarse para propsitos de evaluar directamente al alumno o el desempeo docente del maestro.
Esto contrasta con el uso generalizado y explcito de los puntajes de los alumnos como parte
de la evaluacin de maestros que se incluye dentro del programa federal Carrera magisterial.
Esto representa una discordancia entre las caractersticas de la prueba y el uso que se hace de
ella, particularmente nocivo e inexplicable pues es el propio desarrollador el que utiliza los re-
sultados de una forma para los que no dise la prueba (la SEP). Otro ejemplo de esto es que
La pgina web ofrece algunos documentos dirigidos a docentes y directivos que aclaran al-
gunas de las interpretaciones incorrectas y errores comunes, o bien comentan algunas limi-
taciones de los datos al comparar resultados de distintas pruebas. Por ejemplo, en el breve
documento con ttulo Informacin general ENLACE Bsica 2013 se alerta a la imposibilidad de
comparar los resultados en Formacin Cvica y tica entre 2009 y 2013. En el documento ms
extenso con ttulo Apoyos para el correcto uso pedaggico de resultados ENLACE se mencio-
nan limitaciones respecto de los contenidos evaluados, adems de limitaciones relativos a las
condiciones en que se aplica la prueba:
154
En esta misma lnea existe una advertencia antes de poder acceder a los archivos Excel a nivel
escuela para cada estado como se mencion. Este texto advierte sobre temas de representativi-
dad de los datos, % de exmenes en revisin (indicador de posible trampa), interpretacin de la
diferencia entre los puntajes 2012 y 2013, entre otros. Sin embargo, no hay aclaraciones sobre
interpretaciones errneas y limitaciones en los documentos dirigidos a padres y estudiantes.
9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque
no se pueden prever todos los usos o interpretaciones inapropiadas, se busca identi-
ficar y acotar los ms factibles o probables).
Estos usos pueden llegar a confundirse con relativas aplicaciones de la prueba, como por ejemplo la factibilidad
de contar con una sola prueba que englobe las funciones desempeadas por otras que se ofrecen durante el
ao escolar; brindar informacin indicativa para evaluar programas educativos; la posibilidad de clasificar a las
Las pruebas ENLACE para educacin bsica
escuelas de todo el pas (ranking); brindar una evidencia dura de los esfuerzos educativos, metodologas y
enfoques de los docentes del pas; premiar a los estudiantes que obtengan mejores resultados en la prueba,
asumiendo que son los mejores estudiantes de una entidad federativa; asignar bonos y becas como apoyo
a la Carrera magisterial; distribuir recursos a las escuelas con mayores mritos, entre otros.
Como ejemplo de las advertencias pertinentes para promover el uso adecuado de los resultados de ENLACE ,
se refiere el siguiente texto, tomado en 2008 por el IEIA del Documento de apoyo para los Talleres Generales
de Actualizacin, disponible en internet en la direccin http://enlace.sep.gob.mx:
Esta evaluacin es un elemento muy importante para diagnosticar la calidad del aprendizaje de los estudiantes,
pero de ninguna manera es el nico. De ah que la evaluacin final del grado para cada alumno deba apegarse
al criterio del docente. ENLACE ayuda a conocer y reconocer buenas escuelas, pero de ninguna manera
podemos decir que las mejores escuelas son nicamente las que obtienen el puntaje ms alto. Esa distincin
debe atribuirse ms bien a las escuelas cuyos alumnos muestran los avances acadmicos ms significativos
respecto de la situacin en la que se encontraban cuando ingresaron a la misma. ENLACE no se utiliza como
examen de ingreso a secundaria ni a bachillerato porque no est diseado para tales efectos.
El manual tcnico 2013 tambin hace alusin al uso pedaggico adecuado de los reacti-
vos liberados:
Esta prctica hace que el uso de los reactivos y de las pruebas no sea controlado por la SEP,
por lo que se presta a diversos usos de los reactivos de la prueba, tanto apropiados como
indebidos. Por ello se han elaborado materiales de apoyo que recomiendan los usos apro-
piados (con fines pedaggicos) y que tratan de evitar usos para los cuales no est elaborada
la prueba (p. 144).
Por ejemplo, el Documento de apoyo para los Talleres Generales de Actualizacin sugiere que
aunque:
esta evaluacin es un elemento muy importante para diagnosticar la calidad del aprendi-
zaje de los estudiantes [] de ninguna manera podemos decir que las mejores escuelas son
nicamente las que obtienen el puntaje ms alto. Esa distincin debe atribuirse ms bien a las
escuelas cuyos alumnos muestran los avances acadmicos ms significativos respecto de la
situacin en la que se encontraban cuando ingresaron a la misma. ENLACE no se utiliza como
examen de ingreso a secundaria ni a bachillerato porque no est diseado para tales efectos.
156
Usos y consecuencias 157
Todo lo anterior presenta una paradoja interesante para el sistema. Poner a disposicin pblica no
solo informes de resultados, sino tambin los resultados brutos a nivel escuela asegura mxima
transparencia, pero tambin abre las puertas a interpretaciones incorrectas y usos inapropiados.
Las pruebas ENLACE para educacin bsica
Por ejemplo, con esta informacin fcilmente se pueden generar rankings de escuelas por en-
tidad. Antes de dar acceso a los datos la pgina web advierte las limitaciones y peligros de este
tipo de uso de la prueba (ver abajo). Sin embargo, en la prctica este es precisamente uno de los
usos de ENLACE que se han vuelto ms extendidos, con la publicacin rutinaria de resultados,
rankings, y listas de escuelas de alto o bajo rendimiento.
Es interesante notar que aunque este tipo de uso responde frecuentemente a la influencia o
trabajo de medios de comunicacin nacionales o estatales, a veces puede reflejar la misma ini-
ciativa de los gobiernos estatales. Por lo tanto es claro que la simple advertencia es insuficiente
para prevenir incluso los usos ms perniciosos y evitables de la prueba.
Como se mencion anteriormente a nivel nacional se dan una gran variedad de usos a los re-
sultados de la prueba ENLACE . Sin embargo hasta donde tenemos conocimiento SEP/DGE no
realiza un monitoreo sistemtico de los usos o consecuencias previstas o imprevistas que per-
mitan evaluar el grado en que algunas de estas podran ser inadecuadas o incluso perniciosas.
La DGE, por ejemplo, no hace seguimiento ni mantiene documentacin alguna de usos previstos
y menos an de los imprevistos. Esto incluye incluso usos no recomendados que son ampliamen-
te conocidos, como lo son el de usar ENLACE para evaluar maestros en Carrera magisterial, o la
publicacin de rankings en muchos estados. Una preponderancia de evidencia anecdtica en los
medios y otra que se deriva de las entrevistas a nivel estatal apunta a otros usos imprevistos como
el que las escuelas mismas utilicen sus buenos resultados en ENLACE para legitimarse frente a la
comunidad escolar, y promocionarse con el fin de atraer mayor matrcula y recursos.
En cinco de los seis estados entrevistados para este trabajo encontramos un uso imprevisto que
consiste en otorgar premios (p.ej., un equipo de cmputo e impresora, y hasta premios mone-
tarios significativos) o reconocimientos pblicos a los mejores alumnos, docentes, o escuelas
ya sea a nivel estatal o municipal.
En uno de los estados un entrevistado seal que el propsito de la premiacin de escuelas sera
incentivar la rivalidad entre escuelas locales, o sea la competencia, nosotros hemos detectado
que cuando en las escuelas se incentiva el orgullo y la competitividad entre ellas, eso es lo que
158
rompe el monopolio de un sistema de servicio monoplico que si no generas esa competitividad
no mejora. De los seis estados entrevistados cinco reportan al menos un uso no previsto segn
el Informe Tcnico ENLACE 2013.
Por otra parte, existen datos y estudios que muestran en cambio que la inflacin tambin se
da por el efecto natural aunque no menos pernicioso de incentivos y sanciones dentro de un
sistema de pruebas estandarizado y de alto impacto.
La Tabla 5.7 ejemplifica el posible patrn inflacionario en algunos estados. La tabla muestra
la evolucin de resultados de ENLACE y E XCALE en Espaol y Matemticas entre 2005-06 y
2012-13 para cuatro estados: Aguascalientes y Quertaro que tradicionalmente estn entre los
estados con bajos ndice de pobreza y rendimiento en pruebas nacionales; Chiapas y Guerrero
por otra parte representan el extremo contrario, con altos ndices de pobreza y menores tasas
de aprendizaje.
Los resultados de la prueba E XCALE reflejan resultados relativamente estables en los cuatro esta-
dos (con una ligera mejora en los dos primeros estados y un ligero retroceso para los segundos).
Un patrn similar se observa en los resultados de PISA entre 2003 y 2012 (no presentados en
la tabla). Como comparacin, la tabla presenta tambin los resultados de ENLACE que reflejan
una estabilidad relativa en Aguascalientes y Quertaro; sin embargo, Chiapas y Guerrero experi-
mentan una mejora muy acentuada, se dira incluso que dramtica, de 70 puntos en promedio.
La relativa estabilidad de los resultados en pruebas muestrales de bajo impacto (E XCALE y PISA )
y el patrn de divergencia con estados de comparacin, sugiere una tendencia inflacionaria en
Chiapas y Guerrero que puede reflejar una combinacin de factores como enseanza enfocada
a la prueba, copia, o en algunos casos ayuda al alumno, entre otrasmuchas de ellas reflejadas
en una multitud de evidencias duras o anecdticas. El patrn evidencia el potencial corruptor de
los indicadores sociales con un uso de alto impacto notado por Campbell (1975).
Espaol
ENLACE E XCALE
Las pruebas ENLACE para educacin bsica
700 700
650 650
600 600
550 550
500 500
450 450
400 400
Matemticas
ENLACE E XCALE
700 700
650 650
600 600
550 550
500 500
450 450
400 400
11. Cuando existe evidencia confiable de usos inapropiados estos se investigan en grado
y detalle adecuado. Si estos usos persisten se informa a los usuarios y se intenta tomar
acciones correctivas.
Evidentemente no se puede esperar que el equipo tcnico encargado del diseo de la prueba
corrija usos inapropiados que estn fuera de su alcance o conocimiento, o que involucran ac-
tores polticamente poderosos, y en ausencia de recursos materiales y humanos, herramientas
legales, y voluntad poltica para tomar medidas correctivas. Sin embargo, el actor responsable
se define en este estudio de forma ms amplia; la SEP tiene un control y poder mucho mayor
para establecer usos adecuados, y monitorear, limitar y corregir los que no lo sean.
Por tanto, en principio si se puede hacer responsable a la secretaria de usos inadecuados que
se puedan dar a la prueba ENLACE. Esto es especialmente aplicable en el caso de usos que los
160
mismos manuales y materiales de la prueba definen explcitamente como inapropiados como lo
es la evaluacin docente o el ordenamiento de escuelas.
CONCLUSIONES
En este sentido es relevante considerar una perspectiva histrica de la prueba ENLACE que a
travs de los aos ha experimentado una marcada evolucin en trminos de alcance, uso, y
visibilidad social.
Sin embargo, es interesante notar que los usos propuestos de la prueba no se han modificado
significativamente desde su inicio. Los usos que se proponen en el manual tcnico de ENLACE
2007 (el primero disponible en formato de reporte en la pgina de la SEP) son en principio idn-
ticos a los que se encuentran en el de 2013 (ver tabla 2).
cin, un tipo de uso de corte ms sumativo que dej de plantearse en aos posteriores.
Esto contrasta, sin embargo, con el creciente nmero de usos de mediano y alto impacto que
en la prctica se dan a la prueba ENLACE en distintos contextos.
Un informe reciente de la OCDE (Santiago et al., 2012) sobre sistemas nacionales de evaluacin
educativa reportaba que en Mxico los usos ms comunes de ENLACE eran del tipo considerado
como de alto impacto (p. 73), e incluan por ejemplo la publicacin y diseminacin activa de re-
sultados y rankings de escuelas, incentivos monetarios para maestros con base en los resultados
de sus estudiantes en la prueba, o el reconocimiento pblico de alumnos, maestros, o escuelas
con los mejores resultados en ENLACE .
Si se contrasta con la estabilidad de los usos propuestos que reflejan los manuales tcnicos
ms recientes, parece evidenciarse una tendencia de corrupcin o inflacin de funcionalidad
donde los usos de un instrumento se extienden sin que ello refleje un cambio de misin y
diseo de la prueba.
Este tipo de inercia inflacionaria de uso tiende a corromper el indicador (lo que se conoce como
Ley de Campbell), limitar el uso diagnstico que inicialmente se buscaba, y eventualmente
puede traer consecuencias no deseables si se combinan con incentivos, sanciones, y otros usos
de alto impacto.
El equipo de la OCDE concluye que los efectos no intencionales de ENLACE parecen ser impor-
tantes. A pesar de la gran cantidad de datos recolectados, hasta qu punto se utilizan para un
propsito formativo no est claro. (p. 82).
Para finalizar, al evaluar las consecuencias del uso de la prueba ENLACE no se puede olvidar la
dimensin tica crucial involucrada en las pruebas de alto impacto: una mxima de la medicin
en educacin es que solo se pueden tomar decisiones o acciones que afectan a personas o
grupos cuando existe evidencia slida que lo justifique.
La necesidad de gran claridad en la definicin de lo que mide o no una prueba, o los usos que
se consideran justificados o injustificados, no se deriva de un concepto de rigor tcnico si no de
uno de probidad tica.
162
especficos de esta prueba particular se soportan y justifican con base en evidencias slidas
como requieren las mejores prcticas en medicin educativa a nivel internacional.
Retomando las conclusiones de los cinco apartados del informe, las conclusiones a las
que se puede llegar en este momento, que en el informe final se podrn enriquecer y precisar,
como se seal en la introduccin, se sintetizan como sigue.
A SPECTOS PSICOMTRICOS
Dado el alto impacto de los resultados de las pruebas, es importante presentar en detalle
los procedimientos y resultados estadsticos que permitan a los tcnicos comprobar y
replicar los procedimientos seguidos para el anlisis y presentacin de los resultados de
las pruebas. Esto implica no solo la presentacin de frmulas, sino tambin de resultados
detallados (por ejemplo estadsticos por reactivos, etc.) que permita verificar la informa-
cin reportada y utilizada.
164
En cuanto a la seleccin de modelos de anlisis, es importante que se presenten en de-
talle las razones por las cuales se seleccion uno por sobre otro. Si bien se entiende que
hay diversidad de modelos, al igual que criterios y valoraciones que llevan a escoger un
modelo sobre otro, es importante al menos presentar, y en el mejor de los casos discutir,
las ventajas de haber escogido el o los modelos utilizados, al igual que las desventajas
para haber rechazado los otros modelos.
Si bien se entiende que ninguna evidencia es perfecta, o apoya 100% un proceso, es
la acumulacin de evidencias a favor de un proceso lo que valida y legitima el proceso.
Este proceso de crear y presentar evidencias a favor de un proceso, al igual que evaluar
y estudiar cuidadosamente las evidencias en contras, es lo que a largo plazo nos permite
confiar que la informacin que se genera a travs del proceso es til y confiable.
Los criterios de este apartado pueden considerarse, en general, como ideales, en el sentido de
que si bien es deseable que se cumplan desde las primeras aplicaciones de toda prueba, esto,
desafortunadamente, no sucede siempre, aun en pases con larga tradicin psicomtrica. Ello no
quiere decir que no deban atenderse, especialmente en pases como el nuestro en que la enorme
diversidad cultural de los estudiantes plantea importantes retos a los sistemas educativos.
En ese sentido, no es sorprendente que las pruebas ENLACE no cumplan satisfactoriamente nin-
guno de los criterios se validez cultural. Es preciso aadir, sin embargo, que el reconocimiento
de la multiculturalidad trae consigo la consecuencia de que se debe comenzar a trabajar para
que los criterios de esta rea sean atendidos en el mediano plazo.
APLICACIONES
La aplicacin de ENLACE requiere de una amplia coordinacin entre el nivel federal, estatal y las
escuelas. Se percibe un gran esfuerzo realizado por la SEP a travs de la DGEP para asegurar di-
versos aspectos crticos de la aplicacin, especialmente en lo concerniente al involucramiento de
los diversos actores del proceso en la escuela (docentes, directores y padres de familia), as como
de los observadores externos.
procedimientos tcnicos de certificacin llevan a suponer que as es. Lo anterior puede deberse
al poco tiempo disponible para la planeacin de la aplicacin, as como a los cortos periodos que
transcurren entre aplicacin, lectura, anlisis de la informacin y reporte de resultados.
Dada la importancia de la prueba para el sector educativo nacional, se percibe que se requieren
controles de calidad a nivel central ms estrictos en fases cruciales del proceso que involucren
verificaciones aleatorias o realizadas por terceras personas (por ejemplo en el procesamiento
de lectura ptica, la verificacin de bases de datos provenientes de los estados, o la seleccin
y diseo de la muestra controlada).
Por otra parte, a nivel estatal y local, se percibe que todos los actores involucrados en la apli-
cacin de ENLACE realizan un enorme esfuerzo para verificar el proceso a nivel del aula y el
centro escolar, mediante el levantamiento de actas de irregularidades que se reportan a las
autoridades estatales. Esta informacin es muy til ya que puede ayudar a retroalimentar todo
el proceso. Sin embargo, no se evidencia la existencia de un proceso sistemtico para recoger
dicha informacin y alimentar un proceso de mejora continua. Por ejemplo, no se dispuso de
un reporte consolidado de las irregularidades tpicas, su tratamiento y las lecciones aprendidas
luego de cada aplicacin como insumo para fortalecimiento de la siguiente.
En resumen, la informacin que se revis para este estudio nos lleva a concluir que aunque el
proceso de aplicacin cumple con gran parte de los estndares aqu establecidos, no cumple con
todos. Y en algunos casos, aunque los manuales dan cuenta de que los estndares se cumplen,
no se presenta suficiente informacin para verificar que realmente as sea. Dados los alcances
de la prueba, se considera importante asegurar la calidad en todas las fases de la aplicacin y
proveer evidencia de ello. Esto, mediante un reporte ms detallado de la aplicacin en todas sus
etapas, soportado en el uso de tecnologa informtica apropiada a la escala del proyecto, que
permita establecer un proceso sistemtico de mejora continua y aprovechamiento de la informa-
cin generada a nivel del centro escolar.
USOS Y CONSECUENCIAS
Los anlisis de este apartado muestran la falta de alineamiento entre los usos propuestos de la
prueba ENLACE y los cuerpos de evidencia terica y emprica que se han recogido para susten-
tarlos. En la mayora de los casos esto significa que no hay evidencia de validez para justificar
ciertos usos de las pruebas; en algunos sin embargo, la evidencia tcnica que existe sugiere que
la prueba no es adecuada para algunos de los usos propuestos.
Lo anterior refleja limitaciones de capacidad tcnica y recursos por un lado, pero tambin falta
de claridad inicial sobre los objetivos de la prueba, y una tendencia hacia la expansin de uso no
respaldada en evidencia. En concreto, el incremento en usos de alto impacto (p. ej. publicacin
de rankings de escuelas, incentivos para maestros o escuelas basados en los resultados de sus
alumnos, y otros) refleja una tendencia de inflacin en la funcionalidad de la prueba, donde
los usos se extienden sin los correspondientes adaptaciones al diseo de la prueba, y la eviden-
cia adicional de validez que se requiere.
166
Es claro el gran inters que existe alrededor de la prueba, que se manifiesta en la gran variedad
de usos, esfuerzos, programas, e intervenciones en todos los niveles, desde autoridades federa-
les y estatales, a escuelas, maestros y padres, as como organizaciones de la sociedad.
Este inters y energa que se genera en torno a los resultados incuestionablemente tienen
aspectos muy positivos y esperanzadores para el sistema educativo del pas, al reflejar la gran
importancia que muchos actores dan a la calidad de la educacin, y al uso de evidencia solida
para contribuir a los esfuerzos de mejora.
Sin embargo, en este mismo contexto existe tambin el riesgo de que se den usos cuestiona-
bles, injustificados, o incluso injustos para actores individuales, o que resulten contraproducen-
tes para el sistema en general. La evidencia en este estudio indica que la prueba est siendo
utilizada de forma muy extendida en los estados pero que 1) no todos los usos estn tcnica-
mente fundamentados y 2) no se da un seguimiento que ofrezca informacin detallada sobre
los usos que se dan, y menos an de los resultados de los esfuerzos, intervenciones y programas
que de estos se derivan.
Evidencia de otros estudios sugiere que pueden estarse dando efectos no deseables del uso de
ENLACE como el que los maestros empleen un nmero importante de horas aula para instruc-
cin enfocada a la prueba, o que se generen incentivos excesivos que pueden comprometer la
integridad de los resultadose.g. mejoras espectaculares observadas en ENLACE en algunos
estados, que no se reflejan en otras pruebas nacionales o internacionales.
Es importante recordar que los anlisis presentados en este captulo no pretenden establecer si
ciertos usos de las pruebas de gran escala son apropiados o deseables en trminos generales re-
feridos a poltica educativa. El anlisis se concibi, en trminos tcnicos ms concretos, como una
evaluacin del grado en que los usos de esta prueba particular (tanto los previstos en el manual
tcnico, como otros no previstos pero de los que existe amplia evidencia) se justifican con base
en evidencias concretas slidas como requieren las mejores prcticas en medicin educativa.
Este enfoque conlleva la necesidad de gran claridad en la definicin de lo que mide o no una
prueba, las caractersticas de los indicadores que se generan, y los usos que se consideran justi-
ficados o injustificados, pero el mismo no se deriva de una posicin de rigor o purismo tcnico.
Por el contrario, la necesidad de observar cuidadosamente las caractersticas tcnicas de la
prueba obedece a un concepto an ms fundamental de probidad tica que es esencial en
mediciones de alto impacto: los usos que afectan directamente a personas o grupos particula-
res solo son adecuados si existe evidencia solida que los justifique. Finalmente, el rigor tcnico
tambin tiene implicaciones para el sistema en la medida en que evita que se den tambin usos
contraproducentes que limiten la efectividad de una poltica o incluso dificulten otros esfuerzos
e iniciativas de mejora en el sistema.
Agero, Jorge M., y Beleche, Trinidad (2013). Test-Mex: Estimating the Effects of School Year Length on
Student Performance in Mexico. Journal of Development Economics, 103 (1), pp. 353-361.
AERA . American Educational Research Association, American Psychological Association, National Council
on Measurement in Education (1999). Standards for Educational and Psychological Testing. Washing-
ton: Autores.
Anderson, L., y Krathwohl, D. (eds.) (2001). A Taxonomy for Learning, Teaching, and Assessing: A Revision
of Blooms Taxonomy of Educational Objectives. Nueva York: Longman.
Bando, R. (2010). The Effect of School Based Management on Parent Behavior and the Quality of Education
in Mexico (tesis no publicada). Universidad de California, Berkeley.
Barriga, R. (2005). Estudios sobre el habla infantil en los aos escolares: Un solecito grandotote. Mxico:
El Colegio de Mxico.
Basterra, M. Rosario, Trumbull, E., y Solano, G. (eds.) (2011). Cultural Validity in Assessment: Addressing
Linguistic & Cultural Diversity. Nueva York: Routledge.
Bertely, M., Dietz, G., y Daz Tepepa, M.G. (2013). Estado del conocimiento: Educacin y multiculturalismo.
Mxico: COMIE .
Bond, T.G., y Fox, C.M. (2001). Applying the Rasch Model. Fundamental Measurement in the Human Scien-
ces. Nueva Jersey: Lawrence Erlbaum Associates, pp. 4-8.
Bormouth, J.R. (1970). On the Theory of Achievement Test Items. Chicago: University of Chicago Press.
Brennan, R.L. (1995). The Conventional Wisdom about Group Mean Scores. Journal of Educational Mea-
surement, 14, pp. 385-396.
(2001). An Essay on the History and Future of Reliability from the Perspective of Replication.
Journal of Educational Measurement, 38(4), pp. 295-317.
(2005). Some Test Theory for the Reliability of Individual Profiles (CASMA Research Report 12).
Iowa: Center for Advanced Studies in Measurement and Assessment-The University of Iowa.
Campbell, D.T. (1975). Cap. 1 Assessing the Impact of Planned Social Change. En Lyons, G. (ed.), Social
Research and Public Policies: The Dartmouth/OECD Conference (pp. 3-45). Hanover: The Public Affairs
Center- Dartmouth College.
Crdenas, S. (2009). Is the Class Schedule the Only Difference between Morning and Afternoon Shift
Schools in Mexico? (tesis no publicada). Harvard University.
Centro Nacional de Evaluacin para la Educacin Superior (2000). Estndares de calidad para instrumentos
de evaluacin educativa. Mxico: Autor.
Cervera Gmez, Luis Ernesto, Lizrraga Bustamante, Gilberto Martn, y Snchez Guilln, Laura Paola
(2008). Estudio georreferencial de la Evaluacin Nacional de Logro Acadmico en Centros Escolares
(ENLACE ) en el municipio de Jurez, Chihuahua: anlisis espacial. Revista Electronica de Investigacion
Educativa, 10(1).
Cizek, G.J. (2007). Introduction to Modern Validity Theory and Practice. Presentacin invitada al National
Assessment Governing Board, McLean, Virginia.
, Bowen, D., y Church, K. (2010). Sources of Validity Evidence for Educational and Psychologi-
cal Tests: A Follow-up Study. Ponencia en la reunin anual del National Council on Measurement in
Education, Denver.
CONEVAL . Consejo Nacional de Evaluacin de la Poltica de Desarrollo Social (2013). Sntesis de evaluacio-
nes de programas y polticas de la SEP.
Crocker, L., y Algina, J. (2004). Introduction to Classical and Modern Test Theory (2a. ed.). Nueva York:
Hott, Rinehart, and Winston.
168
Cronbach, L.J. (1971). Test Validation. En Thorndike, R.L. (ed.). Educational Measurement (pp. 443-507).
Washington, American Council on Education.
(1988). Five Perspectives on Validity Argument. En Wainer, H., y Braun, H. (eds.), Test Validity
(pp. 3-17). Princeton: Lawrence Erlbaum Associates.
Crooks, T.J., Kane, M.T., y Cohen, A.S. (1996). Threats to the Valid Use of Assessments. Assessment in
Education, 3(3), pp. 265-285.
Dawis, R.V. (1987). Scale Construction. Journal of Counseling Psychology, 34(4), pp. 481-489.
DOF. Diario Oficial de la Federacin (2011, 19 de agosto). Acuerdo nmero 592 por el que se Establece la
Articulacin de la Educacin Bsica.
Downing, S.M., y Haladyna, T.M. (eds.) (2006). Handbook of Test Development. Mahwah: Lawrence
Erlbaum Associates.
Educational Testing Service (2000). ETS Standards for Quality and Fairness. Princeton: Autor.
Feldt, L.S., y Brennan, R.L. (1989). Reliability. En Linn, R.L. (ed.). Educational Measurement (pp. 105-146).
Nueva York: American Council on Education / Macmillan.
Gertler, Paul, Patrinos, Harry Anthony, y Rodriguez-Oreggia, Eduardo (2012, primavera). Parental
Empowerment in Mxico: Randomized Experiment of the Apoyos a la Gestin Escolar (AGE ) Program
in Rural Primary Schools in Mexico. SREE.
Guion, R.M. (1977). Content Validity-The Source of my Discontent. Applied Psychological Measurement,
1, pp. 1-10.
Guttman, L. (1969). Integration of Test Design and Analysis. In Proceedings of the 1969 Invitational
Conference on Testing Problems. Princeton: Educational Testing Service.
Haberman, S.J. (2008). When Can Subscores Have Value? Journal of Educational and Behavioral Statistics,
33, pp. 204-229.
Haertel, E.H. (2006). Reliability. En Brennan, R. (ed.). Educational Measurement (pp. 65-110). Westport:
American Council on Education-Praeger.
Haladyna, T.M., y Downing, S.M. (1988). A Taxonomy of Multiple-Choice Item-Writing Rules. Applied
Measurement in Education, 1, pp. 37-50.
Hambleton, R. (1994). Guidelines for Adapting Educational and Psychological Tests: A Progress Report.
European Journal of Psychological Assessment, 10, pp. 229-244.
y Jones, R. (1993). Comparison of Classical Test Theory and Item Response Theory and their
Applications to Test Development. An National Council on Measurement in Education Instructional
Module. Recuperado el 3 de octubre de 2007 de: http://www.ncme.org/pubs/items.cfm
Haynes, S., Richard, D., y Kubany, E. (1995). Content Validity in Psychological Assessment: A Functional
Approach to Concepts and Methods. Psychological Assessment, 7(3), pp. 238-247.
Hively, W. (1974). Introduction to Domain Referenced Testing. Educational Technology, 14, pp. 5-9.
Instituto Colombiano de Evaluacin de la Educacin (2013). Pruebas SABER 3, 5. y 9: Manual para
el aplicador. Bogot: Autor.
(2013). Pruebas SABER 3, 5. y 9: Manual para el delegado. Bogot: Autor.
(2013). Pruebas SABER 3, 5. y 9: Manual para el coordinador de saln. Bogot: Autor.
(2013). Pruebas SABER 3, 5. y 9: Manual para el rector. Bogot: Autor.
International Association for the Evaluation of Educational Achievement (2001). Technical Standards
for IEA Studies: An Annotated Bibliography. msterdam: IEA.
Johnson, J.A. (2004). The Impact of Item Characteristics on Item and Scale Validity. Multivariate Behavioral
Research, 39(2), pp. 273-302
Jornet, J.M., Surez, J.M., y Gonzlez-Such, J. (1990). Estudio de validacin de un cuestionario de valo-
racin de la Docencia Universitaria por los estudiantes en un conjunto homogneo de centros de la
Universitat de Valncia. Revista de Investigacin Educativa, 7(13), pp. 57-92.
y Surez, J.M. (1989a). Conceptualizacin del dominio educativo desde la perspectiva integra-
dora de la Evaluacin Referida al Criterio. Bordn, 41, pp. 237-275.
(2013). Validating the interpretations and uses of test scores. Journal of Educational Measurement,
50 (1), pp. 1-73.
Ley General de Derechos Lingsticos de los Pueblos Indgenas.
Li, S., y Sireci, S.G. (2005). Evaluating the Fit between Test Content, Instruction, and Curriculum
Frameworks: A Review of Methods for Evaluating Test Alignment. Center for Educational Assessment
MCAS Validity Report No. 9. (CEA -558). Amherst: Center for Educational Assessment-University of
Massachusetts.
Linacre, J.M. (2006). A Users Guide to Winsteps. Recuperado de: winsteps.com
Lissitz, R. (ed.) (2009). The Concept of Validity. Charlotte: Information Age Publishing.
Lizasoain, L., y Joaristi, L. (2010). Estudio diferencial del rendimiento acadmico en lengua espaola de
estudiantes de educacin secundaria de Baja California (Mxico). Revista Iberoamericana de Evaluacin
Educativa, 3(3), pp. 115-134. Recuperado de: http://www.rinace.net/riee/numeros/vol3-num3/art6.pdf
Luschei, T. (2012). In Search of Good Teachers: Patterns of Teacher Quality in Two Mexican States.
Comparative Education Review, (56)1, pp. 69-97.
Madaus, G.F., y Kellaghan, T. (1992). Curriculum Evaluation and Assessment. En Jackson, P.W. (ed.).
Handbook of Research on Curriculum (pp. 119-154). Nueva York: Macmillan.
Messick, S. (1989). Validity. En Linn, R.L. (ed.). Educational Measurement (3a. ed., pp. 13-103). Nueva York:
American Council on Education / Macmillan.
(1998). Test Validity: A Matter of Consequence. Social Indicators Research, 45(1-3), pp. 35-44.
Moss, P.A. (2008). A Critical Review of the Validity Research Agenda of the NBPTS at the End of its First
Decade. En Ingvarson, L., y Hattie, J. (eds.). Assessing teachers for professional certification: the first
decade of the NBPTS (pp. 257-312). Oxford: Elsevier.
Nichols, P., y Williams, N. (2009). Consequences of Test Score Use as Validity Evidence: Roles & Respon-
sibilities. Educational Measurement: Issues & Practice, 28(1), pp. 3-9.
Nitko, A. (1994). A Model for Developing Curriculum-Driven Criterion-Referenced and Norm-Referenced
National Examinations for Certification and Selection of Students. Ponencia presentada en la Confe-
rencia Internacional sobre Evaluacin y Medicin Educativas, de la Asociacin para el Estudio de la
Evaluacin Educativa en Sudfrica (ASSESA ).
(1995). Curriculum-Based Continuos Assessment: a Framework for Concepts, Procedures and
Policy. Assessment in Education, 2(3).
OECD. Organization for Economic Cooperation and Development (2000-2012a). National Project
Managers Manual for the PISA Survey.
(2000-2012b). Technical Standards for PISA.
Popham, J. (1990). Modern Educational Measurement. A Practitioners Perspective. (2a. ed.). Boston: Allyn
and Bacon.
Roid, G.H., y Haladyna, T.M. (1982). A Technology for Test-Item Writing. Nueva York: Academic Press.
Rojas, A. (2006) Entre la banca, la casa y la banqueta. Socializacin y matemticas entre los nios
otomes que viven en la ZMG (tesis para obtener el grado de doctora en Ciencias Sociales). CIESAS ,
Guadalajara, Mxico.
Snchez Ziga, M. Consuelo (2009). Evaluacin de Enciclomedia. Algunos hallazgos relacionados con la
Evaluacin Nacional de Logro Acadmico en Centros Escolares (ENLACE ). Revista Latinoamericana de
Estudios Educativos (Mxico), XXXIX, pp. 251-259.
Santiago, P., McGregor, I., Nusche, D., Ravela, P., y Toledo, D. (2012). OECD Reviews of Evaluation & Assessment
in Education Mexico 2012, Pars: OECD. Recuperado de: http://dx.doi.org/10.1787/9789264172647-3-en
170
Santibaez, L., Abreu-Lastra, R., y ODonoghue, J. (2014) School Based Management effects: Resources or
governance change? Evidence from Mexico. Economics of Education Review, 39, pp. 97-109.
SEP. Secretara de Educacin Pblica (2008-2013a). Evaluacin Nacional del Logro Acadmico en Centro
Escolares ENLACE: manual tcnico. Mxico: Autor.
(2008-2013b). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE: normas
operativas. Mxico: Autor.
(2008-2013c). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE: gua para
el docente aplicador. Mxico: Autor.
(2008-2013d). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE: manual
para el coordinador de aplicacin. Mxico: Autor.
(2011-2012a). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE 2012:
caractersticas generales e informacin de los reactivos aplicados para su uso pedaggico, tercer grado
de educacin primaria. Mxico: Autor.
(2011-2012b). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE 2012:
caractersticas generales e informacin de los reactivos aplicados para su uso pedaggico, cuarto grado
de educacin primaria. Mxico: Autor.
(2011-2012c). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE 2012:
caractersticas generales e informacin de los reactivos aplicados para su uso pedaggico, quinto grado
de educacin primaria. Mxico: Autor.
(2011-2012d). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE 2012:
caractersticas generales e informacin de los reactivos aplicados para su uso pedaggico, sexto grado
de educacin primaria. Mxico: Autor.
(2011-2012e). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE 2012:
caractersticas generales e informacin de los reactivos aplicados para su uso pedaggico, primer grado
de educacin secundaria. Mxico: Autor.
(2011-2012f). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE 2012:
caractersticas generales e informacin de los reactivos aplicados para su uso pedaggico, segundo
grado de educacin secundaria. Mxico: Autor.
(2011-2012g). Evaluacin Nacional del Logro Acadmico en Centro Escolares ENLACE 2012:
caractersticas generales e informacin de los reactivos aplicados para su uso pedaggico, tercer grado
de educacin secundaria. Mxico: Autor.
Sireci, S.G. (2009). Packing and Unpacking Sources of Validity Evidence: History Repeats Itself Again.
En: Lissitz, R.W. (ed.). The Concept of Validity: Revisions, New Directions, and Applications. Charlotte:
Information Age Publishing.
(2013). Agreeing on Validity Arguments. Journal of Educational Measurement, 50(1), pp. 99-104.
Solano-Flores, G. (1993). Item Structural Properties as Predictors of Item Difficulty and Item Association.
Educational and Psychological Measurement, 53(1), pp. 19-31.
(2011). Assessing the Cultural Validity of Assessment Practices: An Introduction. En Basterra,
M.R., Trumbull, E., y Solano-Flores, G. (eds.). Cultural Validity in Assessment: Addressing Linguistic and
Cultural Diversity (pp. 3-21). Nueva York: Routledge.
y Nelson-Barber, S. (2001). On the Cultural Validity of Science Assessments. Journal of Research
in Science Teaching, 38(5), pp. 553-573.
y Trumbull, E. (2003). Examining Language in Context: The Need for New Research and Practice
Paradigms in the Testing of English-Language Learners. Educational Researcher, 32(2), pp. 3-13.
Stanley, J.C. (1971). Reliability. En Thorndike, R.L. (ed.). Educational Measurement (pp. 356-442). Washington:
American Council on Education.
Thorndike, R.L. (1951). Reliability. En Lindquist, E.F. (ed.). Educational Measurement (pp. 560-620). Washington:
American Council on Education.
Viveros, M.J., Contreras, L.A., y Caso, J. (2013). Development and Preliminary Evaluation of an Academic
Density Index, as a Quantitative Indicator to Determine the Relative Importance of Curricular Contents.
26th International Congress for School Effectiveness and Improvement, Santiago, Chile.
Welner, K. (2013). Consequential Validity and the Transformation of Tests from Measurement Tools
to Policy Tools. Teachers College Record, 115(9).
Wright, B.D., y Stone, M.H. (2004). Making Measures. Chicago: The Phaneron Press, pp. 35-39.
172
Anexos
1. Criterios y subcriterios de evaluacin
2. Microanlisis de reactivos de ENLACE de Espaol
3. Microanlisis de reactivos de ENLACE de Matemticas
1. Se cuenta con un documento que revisa la teora del contenido curricular y es el marco
terico que orienta el desarrollo de la prueba.
tt El documento incluye un anlisis de las reas del currculo que evaluar la prueba,
que precise los subdominios y contenidos, as como competencias y niveles de de-
manda cognitiva que se debern cubrir.
tt Describe y da ejemplos de todos los tipos de reactivo que tendr la prueba, indican-
do cmo clasificarlos y justificarlos, con referencia a la relevancia de las respuestas
para el dominio pretendido.
tt Usa tablas o modelos de especificacin precisos para homogeneizar el diseo de
los tipos de tems, y ofrece un formato o documento donde los diseadores de reac-
tivos hagan la captura y la modificacin.
tt Fue desarrollado especialmente para la prueba con sus particularidades; no es acep-
table un manual genrico o tomado de otro sistema de evaluacin.
7. Los tems son diseados por un comit seleccionado teniendo en cuenta la especializa-
cin acadmica, laboral y su representatividad respecto a la diversidad del pas, y estuvo
coordinado por una persona calificada.
tt El comit fue formado especficamente para realizar su labor, considerando todos los
elementos caractersticos del tipo de prueba a disear.
tt La capacitacin del comit incluye procesos metodolgicos y referencias a taxono-
mas o sistemas de clasificacin cognitiva para especificar dominio.
8. Existe un manual o gua para el anlisis de reactivos que seala los criterios de acepta-
cin, revisin y modificacin.
tt Se presentan estructura y funciones representadas en el comit evaluador.
tt El manual describe procedimientos/criterios para revisar tems por jueceo.
9. Hay un comit de revisin calificado para aplicar lo que define el manual.
tt Se utilizaron criterios de seleccin de jueces con un perfil acadmico y laboral preci-
so y con representatividad de la diversidad del pas.
tt El comit de revisin est formado por jueces diferentes al del de escritura.
tt Se detalla el procedimiento que se sigui para capacitar a los evaluadores
10. El sistema de revisin lgica de cada tem incluye anlisis de:
tt Calidad tcnica: claridad en la formulacin, adecuacin al marco de prueba
tt Congruencia tem-contenido o tem-objetivo (subdominio)
tt Posibles fuentes de sesgo de cada reactivo: gnero, diversidad cultural
tt Concordancia de juicio para la seleccin de reactivos o procedimientos para estimar
la confiabilidad de los juicios de los evaluadores
11. Se cuida la alineacin de la prueba en general.
tt Se verifica que contenido de pruebas corresponda al dominio curricular en todos los
aspectos y niveles de demanda cognitiva planeados.
tt Se cuida la alineacin de tems y prueba con el currculo, los estndares de interpre-
tacin y, de ser posible, con la enseanza y la evaluacin en aula.
tt Se dispone de una metodologa para demostrar la validez de contenido (cualitativa
y cuantitativa) de la prueba.
tt Se muestran evidencias para fundamentar la validez de contenido.
174
A SPECTOS PSICOMTRICOS
1. Se documentan las evidencias relativas a los diversos tipos de validez que se consideran
usualmente en la medida en que sean aplicables.
tt Se describe el procedimiento seguido para el anlisis de validez de criterio, al menos
en una de sus formas (predictiva, concurrente, discriminante, etc.) y se reportan los
valores obtenidos en los estudios de validez de criterio.
tt Hay evidencia documental del anlisis de validez de escala y su pertinencia en rela-
cin con el constructo y el modelo del perfil a evaluar.
tt Se presenta documentacin que muestra cmo se realiz el proceso para analizar la
validez de constructo y se presentan los resultados.
2. Se cuenta con anlisis integrales de los procesos y mtodos utilizados para desarrollar
las pruebas, definiendo equivalencia y periodicidad.
tt Se indica el procedimiento seguido para construir las pruebas a partir de las especi-
ficaciones y del banco de tems.
tt Se reportan pasos para producir formas o versiones de la prueba y delimitar su
vigencia en el tiempo o segn sedes o localidades.
tt Se cuenta con metodologa para hacer versiones equivalentes y se reportan los valo-
res de diseo y experimentales que lo demuestren. No es aceptable reportar resul-
tados sin evidencias de equivalencia entre versiones o formas.
tt La periodicidad de aplicacin se justifica con criterios terico-metodolgicos o logs-
ticos sustantivos, distinguindolos de criterios polticos o de opinin.
tt Se especifica y justifica el marco metodolgico que integra en forma coherente los
procesos y mtodos que guan el desarrollo de la prueba.
tt Se especifica y justifica el modelo psicomtrico usado.
tt Hay manuales tcnicos que orientan de manera detallada todos los procesos involu-
crados en el desarrollo de la prueba.
3. Se documentan los procedimientos utilizados para la calibracin de las pruebas y para
el anlisis psicomtrico.
tt Se presentan los procedimientos psicomtricos utilizados para determinar sesgo,
funcionamiento diferencial e impacto adverso de la prueba.
tt Se describen los anlisis efectuados para detectar influencias de factores diversos en
la calidad de la medicin, como la habilidad de lectura o escritura, la comprensin
espacial, la ansiedad, etc.
4. Se ofrece informacin sobre la confiabilidad de las pruebas.
tt Se describen los procedimientos usados para calcular la confiabilidad de las subes-
calas y versiones de la prueba. En particular se reportan resultados del clculo de
consistencia interna de la prueba y sus subescalas.
tt Se dispone de resultados de correlacin con aplicaciones repetidas.
tt Hay un reporte con valores de separacin del modelo logstico empleado.
tt Se reporta la metodologa para el clculo del error de diseo de la prueba y sus sub-
escalas y se reportan los resultados obtenidos en las aplicaciones.
tt Se presenta la metodologa usada para anlisis de funcionamiento diferencial y
de sesgos asociados con personas, pruebas y subescalas. Se reportan resultados de
estudios hechos para determinar posibles sesgos.
7. Se informa sobre los procedimientos seguidos para la calificacin de los sujetos que
responden las pruebas.
tt Est disponible el documento que explica la forma en que se asign calificacin a
estudiantes (normativa, criterial u otra).
tt Se cuenta con la explicacin del diseo de la escala de la prueba y la forma de cal-
cular los puntajes en dicha escala (por modelo clsico o logstico), con penalizacin
o sin correccin por azar, entre otros posibles criterios.
tt Se explica el procedimiento para obtener la calificacin global como combinacin
de diversos instrumentos o partes de la prueba. No es aceptable la asignacin global
como promedio de promedios.
8. Se justifica lo relativo al establecimiento de los niveles de desempeo y la interpretacin
de resultados de las pruebas.
tt Existe el marco terico-metodolgico basado en currculo que justifica la organi-
zacin en niveles de desempeo como estndares o sistema de interpretacin de
puntajes, junto con el procedimiento de asignacin del valor del punto de corte en
la escala.
tt Se dispone de respaldo documental que especifica el procedimiento (criterial o mix-
to) para determinar los niveles de desempeo o estndares.
tt Los estndares desarrollados a partir de comits de jueces, cuentan con el anlisis
del dominio curricular y/o tienen en cuenta consecuencias empricas de la identifica-
cin de puntajes de corte.
tt Los puntos de corte se validan con procesos de juicio o mixto (juicio-emprico);
se demuestra experimentalmente su ubicacin y se reporta el intervalo de confianza
correspondiente.
tt Hay evidencia emprica de que los niveles de desempeo estn bien graduados y
discriminan bien en relacin a contenido de prueba.
176
tt Se cuenta con la metodologa y evidencia del proceso realizado para describir
el significado de los niveles de desempeo o del conjunto de competencias por nivel
en trminos de los puntos de corte.
tt Se tiene el documento que detalla los desempeos por nivel para las competencias
y contenidos propuestos en la prueba, as como otras interpretaciones pertinentes a
partir de los resultados de las pruebas.
tt Los integrantes de los comits encargados de definir los niveles de desempeo son
seleccionados por sus perfiles acadmicos y/o laborales y por su representatividad
dentro de la diversidad cultural del pas; dichos integrantes pasan por un proceso de
capacitacin orientado al manejo de la metodologa a utilizar.
ATENCIN A LA DIVERSIDAD
APLICACIONES
Seleccin de muestra
1. Se cuenta con un listado de escuelas actualizado y confiable, sea para una aplicacin
censal o como marco muestral.
2. Cuando proceda, las muestras se disearn utilizando diseos slidos; los estratos se
definirn con base en argumentos tericos defendibles.
3. Se cuida que el conjunto de sujetos a los que se aplica la prueba coincida con el que
se planific.
tt En aplicaciones muestrales se precisan pasos para seleccionar la muestra, si se mane-
jarn aulas intactas o submuestras de alumnos en cada aula; la forma de manejar es-
cuelas de reemplazo si hay, y porcentajes aceptables de exclusiones y no respuesta.
tt En aplicaciones censales el manual precisa el porcentaje admisible de faltantes y qu
se hace en ese caso.
4. Se verifica que la muestra obtenida concuerde con la planificada dentro de mrgenes
aceptables.
tt Se documentan en detalle los pasos para la seleccin de la muestra.
tt Hay una verificacin de la muestra por una instancia externa.
tt Hay encuesta o sistema de aseguramiento de la calidad de la muestra.
6. Se cuenta con manuales que precisan todo lo relativo al personal a cargo de la reco-
leccin de datos, en todos los niveles.
tt Hay criterios para reclutar y entrenar aplicadores y apoyos.
tt Se recluta y capacita a suficiente personal de reemplazo.
178
tt La capacitacin incluye oportunidad de practicar con los instrumentos.
tt La formacin de capacitadores y/o el entrenamiento del personal que asegurar la
calidad del proceso se maneja centralmente o, en todo caso, se cuidar de forma
que se asegure su adecuado funcionamiento.
tt Se llevan registros de las sesiones de entrenamiento de aplicadores.
tt Se monitorean las actividades en campo por personal de la instancia central y/o
externo, y se registran problemas detectados.
tt Se hacen ejercicios de retroalimentacin y revisin de materiales y procesos que
recojan la experiencia del personal en campo.
15. Hay procedimientos para asegurar que la lectura de respuestas y todos los pasos del
procesamiento y verificacin de los datos son confiables.
tt Durante la lectura de los datos se hacen dobles verificaciones en forma sistemtica
para garantizar la confiabilidad del proceso.
tt En caso de que la lectura de datos se haga en forma descentralizada se asegura que
se cumplan los estndares en todos los sitios.
tt Se revisa que estructura de bases se apegue a la acordada, las variables estn en
rangos vlidos y los identificadores sean nicos e ntegros.
tt Se contrastan archivos de datos con instrumentos y cuestionarios.
tt Se calculan estadsticas analticas para cada tem.
tt Se calculan estadsticas descriptivas para todas las variables para revisar que no haya
valores extremos o faltantes; si hay se reportan para revisin.
tt Se documentan todos los pasos del proceso.
Notificacin de irregularidades
16. La coordinacin del estudio deber ser notificada de cualquier inconsistencia en los
datos. Toda modificacin que resulte de la resolucin de inconsistencias deber ser
aprobada y documentada.
USOS Y CONSECUENCIAS
1. Se presentan argumentos lgicos o tericos y evidencia emprica que respalde los usos y
consecuencias previstas. Se evita sugerir usos o beneficios de la prueba si no tienen un
apoyo terico o emprico.
2. Se documenta y evala el grado en que se producen las consecuencias previstas y/o
deseables de la prueba.
180
Acceso equitativo y capacidad de interpretacin y uso
5. Se informa a los usuarios sobre los propsitos y caractersticas de la prueba, lo que pue-
de o no medir, y los usos y consecuencias previstas. Se ofrecen ejemplos e informacin
suficiente sobre la interpretacin deseable (o correcta) de los resultados.
6. Se utiliza lenguaje claro y preciso sin jerga tcnica innecesaria; se explican trminos
tcnicos en lenguaje claro y comprensible para una audiencia general.
7. Se ofrece un marco normativo para evaluar el desempeo de los examinados. Se describe
el perfil y caractersticas de la poblacin de referencia.
8. Se ofrece informacin para minimizar la posibilidad de interpretaciones incorrectas.
Se notan limitaciones y errores comunes de interpretacin al comparar diferentes prue-
bas, aos, dominios, grupos, o niveles de agregacin. Se usan categoras precisas que
no den lugar a estigma.
9. Se advierte sobre usos para los que no existe suficiente evidencia de validez (aunque no
se pueden prever todos los usos o interpretaciones inapropiadas, se busca identificar
y acotar los ms factibles o probables).
10. Se documenta la existencia de usos o consecuencias imprevistas (ya sean adecuadas/
positivas, o inadecuadas/negativas).
11. Cuando existe evidencia confiable de usos inapropiados estos se investigan en grado
y detalle adecuado. Si estos usos persisten se informa a los usuarios y se intenta tomar
acciones correctivas.
Este primer ejemplo se incluye no solo como apoyo para los docentes de tercer grado de prima-
ria para la signatura de Espaol. Es tambin el ejemplo que se incluye en todos los cuadernillos
independientemente del grado escolar del que se trate para ilustrar la manera en que se
presentarn cada uno de los reactivos de entrenamiento.
De este ejemplo queremos destacar la brecha entre el porcentaje de respuestas positivas obtenido
por los estudiantes de escuelas particulares y generales frente a las de los estudiantes de primarias
indgenas y de CONAFE. En particular, si nos remitimos al anlisis la respuesta del inciso:
Muchos nios pueden confundir el sentido del enunciado que, en este caso se present para
explorar la capacidad de los estudiantes para comprender metforas por analoga, en contras-
Las pruebas ENLACE para educacin bsica
te con respuestas mucho ms cercanas a su experiencia cotidiana. Los nios que asisten a las
primarias indgenas y CONAFE viven en el medio rural, en 3que las nubes se asocian con la pro-
duccin agrcola. Es importante recordar que el sentido metafrico en el lenguaje se encuentra
fuertemente condicionado no solo por el contexto cultural, sino tambin por la experiencia
cotidiana. A partir de esto podramos inferir que para los nios que habitan en el medio rural es
mucho ms factible una analoga sobre las relaciones entre palabras y el medio natural que una
analoga entre dos sustantivos a partir de sus referentes por su apariencia.
Los nios de todos los tipos de primarias se encuentran ms familiarizados con el concepto de
cuento que con el de texto expositivo, mismo que no es utilizado como una categora en las cla-
sificaciones sobre tipos de literatura. A esto es importante aadir que muchos de los cuentos que
existen en las bibliotecas de las aulas cuentan con protagonistas animales, por lo que no resulta
extrao que la mayor parte de los estudiantes de tercer grado hayan respondido con una respues-
ta diferente a la esperada por quienes disearon este reactivo.
182
ESPAOL CUARTO DE PRIMARIA: EJEMPLO 1 (PP. 25-26)
Este reactivo muestra una limitada exploracin en relacin con lo que se puede considerar per-
tinente culturalmente. En primer lugar, en el propsito se expresa que se trata de una narracin
indgena mexicana, pero no se aclara su origen (debemos recordar que en Mxico existen, al
menos 68 agrupaciones etnolingsticas segn informan el I NEGI y el I NALI). En segundo lugar,
la respuesta esperada por quienes disearon el reactivo es la que obtiene el porcentaje ms
bajo de respuestas positivas, especialmente entre los nios de primarias indgenas. Si el objetivo
de este reactivo era incluir informacin que considere la diversidad cultural existente en nues-
tro pas, sera esperable que los nios que asisten a primarias indgenas hubieran respondido
correctamente. Sin embargo, para la mayora de los estudiantes, la opcin de respuesta que se
propona como la correcta result poco clara. Sera conveniente contrastar el contenido del libro
de Espaol de tercer grado sobre la estructura de una narracin con este reactivo.
En este ejemplo queremos destacar que los verbos en infinitivo se tratan de formas no activas
de dicha clase lxica. Por ese motivo se comportan de manera diferente a los verbos conjuga-
dos y no pueden fungir como ncleos de una oracin. Por este motivo, a muchos nios se les
dificulta usarlos como respuesta a una pregunta, ya que la forma en que se presentan la mayor
parte de los verbos en espaol es en alguna de sus formas activas.
184
ESPAOL QUINTO DE PRIMARIA: EJEMPLO 1 (PP. 26)
El uso de expresiones con fines copulativos como conjunciones, disyunciones y otras formas
de nexos resulta difcil de determinar, pues se trata de expresiones vacas de significado, que
requieren de un contexto lingstico claro para adquirirlo. Este reactivo carece de contexto, por
lo que la expresin que se est explorando pudiera coincidir tanto con lo que se responde en
el inciso D), como lo que se responde en el inciso C) dependiendo del contexto lingstico en la
cual pudiera aparecer. En consecuencia, se puede argumentar que el reactivo tiene dos posibles
opciones correctas.
Este reactivo no permite evaluar si los estudiantes conocen el concepto de frase adverbial, pues
la respuesta se encuentra determinada por el significado de uno de los trminos utilizados en la
Las pruebas ENLACE para educacin bsica
186
ESPAOL PRIMERO DE SECUNDARIA: EJEMPLO 1 (PP. 29-30)
La seleccin de un ttulo para cualquier texto es una decisin sumamente arbitraria. En general,
se espera que el ttulo guarde una estrecha relacin con el contenido del texto, pero tambin
suelen buscarse frmulas atractivas para el potencial lector a fin de invitar a la lectura. Este reac-
tivo podra llevar por ttulo varias de las opciones que se ofrecen como respuesta. Esta limitacin
puede ser la explicacin de que la opcin correcta no haya sido la respuesta ms frecuente.
Uno de los criterios para la seleccin lingstica se establece por la frecuencia de uso tanto de
los reactivos lxicos como de los enunciados. En el siguiente ejemplo, de acuerdo con la fre-
cuencia de uso de algunos de los trminos, tanto la respuesta incluida en el inciso B), como la
del inciso C) son sintctica y semnticamente correctas. La primera utiliza trminos de uso ms
frecuente en el espaol de Mxico, mientras la segunda recurre a un enunciado con un registro
mucho ms formal. Este fenmeno resulta claro cuando vemos el patrn de respuestas de los
estudiantes de primero de secundaria.
Existe ms de una respuesta correcta posible a la pregunta del reactivo. No hay claridad entre
el aprendizaje que se supone adquieren los estudiantes en el aula y el conocimiento que se ad-
quiere a partir de la experiencia cotidiana, el cual, se sabe, resulta muy impactante en la manera
en que las personas reaccionan ante instrucciones. Aun suponiendo que hay un pasaje de lectu-
ra que no se incluy junto con el reactivo, se podra argumentar que las primeras tres opciones
son correctas. Incluso la opcin D), en contextos particulares, puede ser una respuesta correcta.
188
ESPAOL SEGUNDO DE SECUNDARIA: EJEMPLO 1 (P. 42)
Cualquiera de los tipos de compendios informativos enlistados en las opciones es til para la
elaboracin de una investigacin. En su experiencia en el aula, los estudiantes pueden haber
estado expuestos a todos estos tipos de fuentes de consulta. Potencialmente, todas las opcio-
nes pueden ser correctas.
La respuesta que plantea el reactivo como correcta utiliza un verbo (dar) que, en el espaol de
Mxico, es inusual para referirse al intercambio comunicativo, salvo en expresiones como dar la
palabra que se refieren a cambios de turnos en una conversacin. Las leyendas, como otros tipos
de textos no se dan, se puede recopilar, escribir, colectar incluso producir. Los discursos impli-
can intercambio entre el emisor y el (o los) receptor(es), por lo que una accin que solo incluye un
agente resulta inapropiada culturalmente, no solo para los hablantes de lenguas indgenas, sino
tambin para los estudiantes que nicamente conocen el idioma espaol.
correcta es B) o D). Si se tiene en mente un artculo cientfico como texto cientfico, B) es una
respuesta correcta.
190
Anexo 3. Microanlisis de reactivos de Matemticas
Existe en la literatura sobe la construccin de las relaciones espaciales evidencia de que muchos
nios, especialmente en el medio rural, conocen los puntos cardinales antes de ingresar a la
escuela primaria (Rojas 2006), pero lo hacen en contextos tridimensionales. Trasladar ese tipo
de conocimiento a un plano bidimensional resulta riesgoso, pues puede mezclar informacin
sobre la construccin de las nociones de espacio segn referencias absolutas con otro tipo
de conocimiento espacial como los conceptos arriba-abajo, derecha-izquierda, los cuales son de
naturaleza egocntrica. Evidentemente, esta falta de concordancia, que potencialmente pone
en desventaja a poblaciones rurales, no refleja un problema del reactivo necesariamente, sino
la necesidad de enriquecer los contenidos curriculares.
La abundancia de elementos numricos puede hacer que las instrucciones sean difciles de de-
codificar para estudiantes de tercero de primaria. Podra haberse simplificado la formulacin si
los equipos hubieran recibido su nombre a partir de otro elemento clasificatorio como las letras
del alfabeto y as evitar incluir numerales tanto en la denominacin de los equipos como en las
operaciones aritmticas requeridas para solucionar el reactivo. Ntese la forma gramatical en la
lista en la base del reactivo (e.g., El equipo 1. Era de 4 nios y cada uno hizo 5 flores.) que es
poco frecuente en el espaol usado en Mxico.
La notacin utilizada en este reactivo no es muy usual en Mxico. No solo se omite el signo
$, frecuentemente usado tanto en la escuela como fuera de ella. Tambin se omite la coma,
utilizada en Mxico para separar cifras (e.g., $17,448).
Este reactivo presenta problemas de tipo estilstico y grfico tres de los cuadros estn colo-
reados en un tono de gris ms oscuro que el resto. La redaccin del texto es poco accesible y
posiblemente refleja la influencia del ingls (colocando azulejo a su pared). La formulacin de
la pregunta est hecha en un estilo de espaol poco frecuente en Mxico, pues no solemos
referirnos a fracciones de pared, sino a pedazos o partes.
192
M ATEMTICAS QUINTO DE PRIMARIA: EJEMPLO 1 (P. 67)
Este reactivo muestra inconsistencia con el uso de notacin numrica. En alguno de los ejemplos
anteriores observamos que se dejaba un espacio para separar a las unidades y decenas de millar
del resto de las cifras consignadas. En cambio, en este reactivo no se utilizan ni las comas ni los
espacios para diferenciar las unidades de millar. Ntese tambin el uso indebido de comas para
separar oraciones, lo que dificulta la interpretacin del reactivo.
Este es probablemente uno de los reactivos que captur nuestra atencin con mayor preocupacin.
A partir de la informacin y las instrucciones que se proporcionan, ninguna de las cuatro op-
ciones de este reactivo es correcta. De acuerdo con el significado cannico de la expresin
cuntos alumnos tienen entre 12 y 14 aos? la respuesta correcta debiera ser la suma de
alumnos que de 12, 13 y 14 aos de edad (440). Aun cuando (indebidamente) la interpretacin
de la expresin fuera alumnos de 13 aos de edad, tampoco hay una opcin que represente el
nmero 135.
194
M ATEMTICAS SEXTO DE PRIMARIA: EJEMPLO 2 (P. 74)
En Mxico no se utiliza la notacin dm3. Muchos estudiantes de sexto grado pueden no haber
estado expuestos a medidas de volumen ms all de los contenidos curriculares de Matemticas
sexto grado.
Adems que el reactivo no tiene una contextualizacin adecuada, faltan palabras en la oracin
de la base del reactivo. Es imposible que el estudiante pueda generar una respuesta correcta.
Las pruebas ENLACE para educacin bsica
Un eje de simetra es una lnea que divide a un cuerpo en dos partes con conjuntos de pun-
tos equidistantes. Por definicin, eje de simetra se refiere a un cuerpo o polgono, no a dos.
Sin embargo, el reactivo presenta grupos de dos figuras repetidas. En la manera en que est
planteado, el reactivo no da una opcin correcta (ninguna de las ocho figuras tiene un eje de
simetra) Cul opcin muestra aquellas (figuras) que son simtricas? sera la forma adecuada
de plantear el problema.
196
MATEMTICAS SEGUNDO DE SECUNDARIA: EJEMPLO 1 (P. 80)
La ilustracin utilizada en este reactivo es confusa y la falta de claridad impide distinguir la figura
del fondo. Las letras empleadas para denotar las lneas se confunden con las tonalidades de la
figura. Habilidades cognitivas y perceptuales, irrelevantes al constructo medido, pueden afectar
negativamente el desempeo de los estudiantes.
La base del reactivo no especifica la posicin del tringulo con respecto al crculo. El alumno
tiene que suponer que el ngulo alfa se origina en el centro del crculo. Debido a la ausencia de
esa especificacin, la opcin correcta tambin podra ser D).
Se usa la segunda persona del singular del registro formal (forma usted): Observe el siguien-
te crculo. Aunque es difcil que el desempeo del estudiante sea afectado por esta forma
poco comn, sta refleja que el estilo de redaccin de los reactivos es inconsistente, pues en el
resto de los reactivos se usa la forma coloquial t.
198
M ATEMTICAS TERCERO DE SECUNDARIA: EJEMPLO 2 (P. 94)
La ilustracin tiene un estilo representativo inconsistente con el resto de los reactivos (sombrea-
do, escala de tono gris, recuadro).
No es claro por qu, si emiten rayos laser (que no se expanden), las lmparas hacen que se
forme un crculo.
Ni la base del reactivo ni las leyendas de las ordenadas especifican que el nmero de kilos repre-
sentados es acumulativo. Por lo tanto, ninguna de las opciones es correcta. La opcin correcta
debiera representar una lnea horizontal a la altura de 35 kilos, o bien la leyenda de la ordenada
en todas las grficas debiera decir: kilos de pescado acumulados
Adems de los problemas mencionados, las grficas son muy pequeas y difciles de segmentar
para poder responder la pregunta.
200
L AS PRUEBAS ENLACE PARA EDUCACIN BSICA
UNA EVALUACIN PARA EL I NSTITUTO N ACIONAL
PARA LA EVALUACIN DE LA E DUCACIN