Vous êtes sur la page 1sur 13

Buscar

Usuario

Ingresar

Olvid su clave?
Olvid su usuario?

Inicio

| Directorio | Contacto | Mapa del Sitio | Ayuda

.
Buscar...

Ejemplar de hoy

Trmites

Servicios

Leyes y Reglamentos

Preguntas Frecuentes

SI EL DOCUMENTO SE PRESENTA INCOMPLETO EN EL MARGEN DERECHO, ES


QUE CONTIENE TABLAS QUE REBASAN EL ANCHO PREDETERMINADO. SI ES EL
CASO, HAGA CLICK AQU PARA VISUALIZARLO CORRECTAMENTE.

DOF: 13/11/2015
CRITERIOS tcnicos y de procedimiento para el anlisis de los instrumentos de evaluacin, el proceso de calicacin y la
emisin de resultados de la evaluacin del desempeo de quienes realizan funciones de docencia en Educacin Bsica,
2015-2016.
Al margen un logotipo, que dice: Instituto Nacional para la Evaluacin de la Educacin.

CONSULTA POR FECHA


Nov

2015

Do

Lu

Ma

Mi

Ju

Vi

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

CRITERIOS TCNICOS Y DE PROCEDIMIENTO PARA EL ANLISIS DE LOS INSTRUMENTOS DE EVALUACIN, EL PROCESO DE CALIFICACIN Y
LA EMISIN DE RESULTADOS DE LA EVALUACIN DEL DESEMPEO DE QUIENES REALIZAN FUNCIONES DE DOCENCIA EN EDUCACIN BSICA,
2015-2016.

Crear Usuario

El presente documento est dirigido a las autoridades educativas que en el marco de sus atribuciones implementan
evaluaciones que, por la naturaleza de sus resultados, regula el Instituto Nacional para la Evaluacin de la Educacin (INEE), en
especial las referidas al Servicio Profesional Docente (SPD) que son desarrolladas por la Coordinacin Nacional del Servicio
Profesional Docente (CNSPD).

Bsqueda Avanzada
Novedades
Top Notas

As, y con fundamento en lo dispuesto en los artculos 3o. fraccin IX de la Constitucin Poltica de los Estados Unidos
Mexicanos; 7, fraccin X de la Ley General del Servicio Profesional Docente; 22, 28, fraccin X; 38, fracciones IX y XXII de la Ley
del Instituto Nacional para la Evaluacin de la Educacin; 54 de los Lineamientos para llevar a cabo la evaluacin del desempeo
de quienes realizan funciones de docencia, direccin y supervisin en Educacin Bsica y Media Superior, 2015-2016, LINEE05-2015, la Junta de Gobierno aprueba los siguientes Criterios tcnicos y de procedimiento para el anlisis de los instrumentos
de evaluacin, el proceso de calicacin y emisin de resultados de la evaluacin del desempeo de quienes realizan funciones
de docencia en Educacin Bsica (EB), 2015-2016.

Normas Ociales
Suscripcin
Quejas y Sugerencias
Obtener Copia del DOF

Los presentes Criterios tcnicos y de procedimiento tienen como nalidad establecer los referentes necesarios para
garantizar la validez, conabilidad y equidad de los resultados de los procesos de evaluacin. Su contenido se organiza en
cuatro apartados: 1) Caractersticas generales de los instrumentos para evaluar el desempeo docente; 2) Criterios tcnicos
para el anlisis e integracin de los instrumentos de evaluacin; 3) Procedimiento para el establecimiento de puntos de corte y
estndares de desempeo de los instrumentos de evaluacin; 4) Resultado de la evaluacin del desempeo: resultado por
instrumento y resultado global. En la parte nal se presenta un Anexo con informacin detallada de algunos de los aspectos
tcnicos que se consideran en el documento.

Publicaciones Relevantes
Vericar Copia del DOF
Enlaces Relevantes
Contctenos

Denicin de trminos

Filtros RSS

Para los efectos del presente documento, se emplean las siguientes deniciones:

Historia del Diario Ocial

I.

Alto impacto: Se indica cuando los resultados del instrumento tienen consecuencias importantes para las personas
o las instituciones; por ejemplo, en los procesos de admisin o certicacin.

Estadsticas

II.

Calicacin: Proceso de asignacin de una puntuacin o nivel de desempeo logrado a partir de los resultados de
una medicin.

III.

Conabilidad: Cualidad de las mediciones obtenidas con un instrumento, que se caracterizan por ser consistentes
y estables cuando este se aplica en distintas ocasiones.

IV.

Constructo: Elaboracin terica formulada para explicar un proceso social, psicolgico o educativo y cuya
adecuada descripcin permite que sea susceptible de ser observable o medible.

V.

Correlacin punto biserial: Medida de consistencia que se utiliza en el anlisis de reactivos, indica si hay una
correlacin entre el resultado de un reactivo con el resultado global del examen.

VI.

Criterio de evaluacin: Indicador de un valor aceptable sobre el cual se puede establecer o fundamentar un juicio
de valor sobre el desempeo de una persona.

VII.

Desempeo: Resultado obtenido por el sustentante en un proceso de evaluacin o en un instrumento de


evaluacin educativa.

VIII.

Dicultad de un reactivo: Indica la proporcin de personas que responden correctamente el reactivo de un


examen. Entre mayor sea este ndice, menor ser su dicultad y a mayor dicultad del reactivo, menor ser su
ndice.

IX.

Distractores: Opciones de respuesta incorrectas del reactivo de opcin mltiple, que probablemente sern elegidas
por los sujetos con menor dominio en lo que se evala.

X.

Dominio: Conjunto de conocimientos, habilidades, destrezas, actitudes u otros atributos que tienen las siguientes
propiedades: lmites, extensin y denicin. Tambin se puede aplicar a contenidos, procedimientos u objetos.

XI.

Educacin bsica: Tipo de educacin que comprende los niveles de preescolar, primaria y secundaria en todas sus
modalidades, incluyendo la educacin indgena, la especial y la que se imparte en los centros de educacin bsica
para adultos.

XII.

Educacin media superior: Tipo de educacin que comprende el nivel de bachillerato, los dems niveles
equivalentes a este, as como la educacin profesional que no requiere bachillerato o sus equivalentes.

XIII.

Equiparacin: Proceso estadstico que se utiliza para ajustar las puntuaciones de las formas de un mismo
instrumento, permite que las puntuaciones de una forma a otra sean utilizadas de manera intercambiable. La
equiparacin ajusta, por dicultad, las distintas formas que fueron construidas con contenidos y dicultad similar.

XIV.

Error estndar de medida: Desviacin estndar de una distribucin hipottica de errores de medida de una
poblacin.

XV.

Escala: Procedimiento para asignar nmeros, puntuaciones o medidas a objetos o sucesos con propiedades
especcas a partir de reglas denidas.

XVI.

Escalamiento: Proceso a travs del cual se construye una escala que facilita la interpretacin de la calicacin que
obtienen los sustentantes en uno o varios instrumentos de evaluacin, colocando las puntuaciones de los distintos
instrumentos o formas a una escala comn.

XVII.

Especicaciones de tareas evaluativas o reactivos: Descripcin detallada de las caractersticas relevantes que se
espera hagan los sujetos al sustentar el instrumento de evaluacin y que es posible observar a travs de las
tareas evaluativas o los reactivos. Tienen el papel de guiar a los comits acadmicos en la elaboracin y validacin
de las tareas evaluativas o de los reactivos y que estos cuenten con los elementos necesarios para construirlos
alineados al objeto de medida o constructo que se desea evaluar a travs del instrumento.

XVIII.

Estndar: Principio de valor o calidad en la conduccin y uso de los procedimientos de evaluacin y que son
acordados por expertos en evaluacin.

XIX.

Evaluacin: Accin de emitir juicios de valor sobre un objeto, sujeto o evento que resultan de comparar los
resultados de una medicin u observacin con un referente previamente establecido.

Vacantes en Gobierno
Ex-trabajadores
Migratorios
Traducir esta pgina
Ingls
La traduccin es automtica y puede contener
errores o inconsistencias

INDICADORES
Tipo de Cambio y Tasas al
13/11/2015
DOLAR

UDIS

16.7406

5.346622

TIIE 28 DIAS

TIIE 91 DIAS

3.3200%

3.3810%

Ver ms

ENCUESTAS

Le gust la nueva imagen de


la pgina web del Diario Ocial
de la Federacin?
No

Votar

XX.

Examen: Instrumento de evaluacin que se emplea para identicar el nivel de dominio de los sustentantes sobre un
constructo especco.

XXI.

Instrumento de evaluacin: Procedimiento de recoleccin de datos que suelen tener distintos formatos,
atendiendo a la naturaleza de la evaluacin, por ejemplo, instrumentos de seleccin de respuesta, instrumentos de
respuesta construida, cuestionarios, observaciones, portafolios, entre otros.

XXII.

Instrumento de evaluacin referido a un criterio: Instrumento que permite comparar el desempeo de las
personas evaluadas, con un estndar preestablecido.

XXIII.

Jueceo: Mtodo en el cual se utiliza la opinin de expertos (denominados jueces) para determinar, entre otras
cosas, la pertinencia de la validez de las tareas evaluativas o de los reactivos respecto a un dominio; el
establecimiento de estndares de desempeo y puntos de corte; as como la calicacin de reactivos de respuesta
construida.

XXIV.

Medicin: Proceso de asignacin de valores numricos a atributos de las personas, caractersticas de objetos o
eventos de acuerdo con reglas especcas que permitan que sus propiedades puedan ser representadas
cuantitativamente.

XXV.

Muestra: Subconjunto de la poblacin de inters que reeja las variables medidas en una distribucin semejante a
las de la poblacin.

XXVI.

Multi-reactivo: Conjunto de reactivos de opcin mltiple que estn vinculados a un planteamiento general, por lo
que este ltimo es indispensable para poder resolverlos.

XXVII.

Nivel de desempeo: Criterio conceptual que delimita el marco interpretativo de las puntuaciones obtenidas en un
instrumento de evaluacin, y que reere a lo que la persona evaluada es capaz de hacer en trminos de
conocimientos, destrezas o habilidades en el contexto del instrumento.

XXVIII.

Objeto de medida: Conjunto de caractersticas o atributos que se miden en el instrumento de evaluacin.

XXIX.

Parmetro estadstico: Nmero que resume un conjunto de datos que se derivan del anlisis de una cualidad o
caracterstica del objeto de estudio.

XXX.

Perl: Conjunto de caractersticas, requisitos, cualidades o aptitudes que deber tener el sustentante a
desempear un puesto o funcin descrito especcamente.

XXXI.

Porcentaje de acuerdos inter-jueces: Medida del grado en que dos jueces coinciden en la puntuacin asignada a
un sujeto cuyo desempeo es evaluado a travs de una rbrica.

XXXII.

Porcentaje de acuerdos intra-jueces: Medida del grado en que el mismo juez, a travs de dos o ms mediciones
repetidas a los mismos sujetos que evala, coincide en la puntuacin asignada al desempeo de los sujetos,
evaluado a travs de una rbrica.

XXXIII.

Punto de corte: En instrumentos de evaluacin con referencia a un estndar de desempeo, es la puntuacin


mnima o el criterio a alcanzar o a superar para considerar que el nivel de desempeo de una persona cumple con
lo esperado y distinguirlo de otro que no.

XXXIV.

Puntuacin: Nmero de aciertos obtenidos en un instrumento de evaluacin.

XXXV.

Reactivo: Unidad bsica de medida de un instrumento de evaluacin que consiste en una pregunta o instruccin
que requiere una respuesta del sujeto.

XXXVI.

Rbrica: Herramienta que integra los criterios a partir de los cuales se calica una tarea evaluativa.

XXXVII.

Sesgo: Error en la medicin de un atributo (por ejemplo, conocimiento o habilidad), debido a una variable no
controlada, como las diferencias culturales o lingsticas de las personas evaluadas.

XXXVIII.

Tareas evaluativas: Unidad bsica de medida de un instrumento de evaluacin que consiste en la ejecucin de
una actividad que es susceptible de ser observada.

XXXIX.

Validez: Juicio valorativo integrador sobre el grado en que los fundamentos tericos y las evidencias empricas
apoyan la interpretacin de las puntuaciones de los instrumentos de evaluacin.

1.

Caractersticas generales de los instrumentos para evaluar el desempeo docente

La evaluacin del desempeo es un proceso integrado que incluye varios instrumentos que dan cuenta de los diferentes
aspectos que se describen en los Perles, parmetros e indicadores establecidos por la autoridad educativa. A continuacin se
describen sucintamente cada uno de ellos.
Informe de cumplimiento de responsabilidades profesionales
Este instrumento, conformado fundamentalmente por escalas tipo Likert, identica el grado de cumplimiento de las
responsabilidades profesionales del docente que son inherentes a su profesin, su participacin en el funcionamiento de la
escuela, en rganos colegiados y su vinculacin con los padres de familia y con la comunidad escolar, considerando la
importancia de la Normalidad Mnima de Operacin Escolar. El informe ser emitido por el director de la escuela o, en su caso,
por el supervisor de la Zona Escolar.
Expediente de evidencias de enseanza
Este instrumento evala el anlisis que realiza el docente sobre una seleccin de los productos de enseanza de sus
alumnos; dicho anlisis contempla la descripcin de las caractersticas del desarrollo y aprendizaje de los estudiantes; la
explicacin de las situaciones de aprendizaje que plantea, a partir del enfoque didctico; la eleccin de los contenidos de
aprendizaje para el logro de los propsitos educativos y la utilizacin de los resultados de la evaluacin. Tambin valora la
reexin que realiza el docente sobre su prctica y su vinculacin con el aprendizaje de sus alumnos.
Examen de conocimientos y competencias didcticas que favorecen el aprendizaje de los alumnos
A partir de la resolucin de situaciones hipotticas de la prctica educativa, este instrumento evala los conocimientos y las
competencias didcticas que el docente pone en juego para propiciar el aprendizaje de los alumnos, la colaboracin en la
escuela y el vnculo con los padres de familia y la comunidad.
Planeacin didctica argumentada
Este instrumento evala la capacidad del docente para analizar, justicar, sustentar y dar sentido a las estrategias de
intervencin didctica elegidas para elaborar y desarrollar su planeacin didctica; as como la capacidad para analizar y
reexionar sobre lo que espera que aprendan sus alumnos y sobre el uso de los resultados de las evaluaciones con nes de
mejora.
Examen complementario
Este instrumento evala el nivel de dominio del idioma ingls de los docentes de Educacin Secundaria que imparten la
asignatura Segunda lengua: Ingls.

2.

Criterios tcnicos para el anlisis e integracin de los instrumentos de evaluacin

Uno de los aspectos fundamentales que debe llevarse a cabo antes de emitir cualquier resultado de un proceso de
evaluacin es el anlisis psicomtrico de los instrumentos que integran la evaluacin, con el objetivo de vericar que cuentan
con la calidad tcnica necesaria para proporcionar resultados conables, acordes con el objetivo de la evaluacin.
Las tcnicas empleadas para el anlisis de un instrumento dependen de su naturaleza, de los objetivos especcos para el
cual fue diseado, as como del tamao de la poblacin evaluada. Sin embargo, en todos los casos, debe aportarse informacin
sobre la dicultad y discriminacin de sus reactivos o tareas evaluativas, as como la precisin del instrumento, los indicadores
de consistencia interna o estabilidad del instrumento, los cuales, adems de los elementos asociados a la conceptualizacin del
objeto de medida, forman parte de las evidencias que servirn para valorar la validez de la interpretacin de sus resultados.
Estos elementos, debern reportarse en el informe o manual tcnico del instrumento.
Con base en los resultados de estos procesos de anlisis deben identicarse las tareas evaluativas o los reactivos que
cumplen con los criterios psicomtricos especicados en este documento para integrar el instrumento, para calicar el
desempeo de las personas evaluadas, con la mayor precisin posible.
Para llevar a cabo el anlisis de los instrumentos de medicin utilizados en el proceso de evaluacin, es necesario que los
distintos grupos de sustentantes de las entidades federativas queden equitativamente representados, dado que la cantidad de
sustentantes por tipo de evaluacin en cada entidad federativa es notoriamente diferente. Para ello, se denir una muestra de
sustentantes por cada instrumento de evaluacin que servir para analizar el comportamiento estadstico de los instrumentos y
orientar los procedimientos descritos ms adelante, y que son previos para la calicacin. Para conformar dicha muestra, cada
entidad federativa contribuir con 500 sustentantes como mximo, y debern ser elegidos aleatoriamente. Si hay menos de 500
sustentantes, todos se incluirn en la muestra (OECD; 2002, 2005, 2009, 2014). Si no se realizara este procedimiento, las
decisiones sobre los instrumentos de evaluacin, la identicacin de los puntos de corte y los estndares de desempeo, se

veran fuertemente inuenciados, indebidamente, por el desempeo mostrado por aquellas entidades que se caracterizan por
tener un mayor nmero de sustentantes.
Sobre la conformacin de los instrumentos de evaluacin
Con la nalidad de obtener puntuaciones de los sustentantes con el nivel de precisin requerido para los propsitos de la
evaluacin, los instrumentos debern tener las siguientes caractersticas:
Exmenes de casos con reactivos de opcin mltiple:

Debern estar organizados en, al menos, dos niveles de desagregacin (reas y subreas; si fuera el caso, temas); el
primero deber contar, al menos, con dos conjuntos de contenidos especcos a evaluar.

A partir del segundo nivel (o tercer nivel, si fuera el caso) de desagregacin, se debern elaborar las especicaciones de
las tareas evaluativas. Cada especicacin deber tener su denicin operacional. Para cada especicacin deber
existir, al menos, un reactivo con el cual ser evaluada.

Los instrumentos de evaluacin debern tener, al menos, 80 reactivos efectivos para calicacin y deber documentarse
el procedimiento que se sigui para determinar la estructura del instrumento y la cantidad de reactivos que lo
conforman, a n de justicar la relevancia (ponderacin) de los contenidos especcos evaluados en el mismo.

Para el diseo de los casos asociados a un solo reactivo debe cuidarse la extensin, a n de que se incorpore nicamente
la informacin que sea indispensable para resolver el reactivo.

Para el diseo de los casos con formato de multi-reactivo, deber vericarse que: a) todos los reactivos necesiten del
planteamiento general para ser contestados; b) los reactivos evalen conocimientos o habilidades complejas, no de
reconocimiento; c) los reactivos sean independientes entre s, esto es, que para poder responderse no requieran de la
informacin incorporada en alguno de ellos, o bien, de la respuesta dada a algn otro.

Exmenes de respuesta construida:

Debern estar organizados en, al menos, dos niveles de desagregacin (reas y subreas; si fuera el caso, temas); el
primero deber contar, al menos, con dos conjuntos de contenidos especcos a evaluar.

A partir del segundo nivel (o tercer nivel, si fuera el caso) de desagregacin, se debern elaborar las especicaciones de
las tareas evaluativas. Cada especicacin deber tener su denicin operacional.

Con base en las deniciones operacionales se disearn los niveles o categoras de ejecucin que se incluirn en las
rbricas o guas de calicacin.

En las rbricas o guas de calicacin los distintos niveles o categoras de ejecucin que se consignen, debern ser
claramente distinguibles entre s y con un diseo ordinal ascendente (de menor a mayor valor).

Criterios y parmetros estadsticos


Los instrumentos empleados para la evaluacin del desempeo de quienes realizan funciones de docencia en Educacin
Bsica (EB) 2015-2016, debern atender los siguientes criterios y parmetros estadsticos (Cook y Beckman 2006; Downing,
2004; Stemler y Tsai, 2008):
I a. En el caso de los instrumentos de evaluacin basados en casos a partir de reactivos de opcin mltiple:

La respuesta correcta deber tener una dicultad clsica de 10% a 90% y una correlacin punto biserial corregida igual o
mayor que 0.20.

Los distractores debern tener correlaciones punto biserial negativas.


La conabilidad del instrumento deber ser igual o mayor que 0.90.
II a. En el caso de los instrumentos basados en tareas evaluativas o en reactivos de respuesta construida, y que sern
calicados con rbrica, (en el anexo del presente documento se detalla el protocolo de calicacin para el trabajo con jueces)
se debern atender los siguientes criterios y parmetros estadsticos:

La conabilidad del instrumento deber ser igual o mayor que 0.80.


La correlacin entre cada aspecto evaluado con la puntuacin global deber ser igual o mayor que 0.30.
El porcentaje de acuerdos inter-jueces deber ser igual o mayor que 70%.

El porcentaje de acuerdos intra-jueces deber ser igual o mayor que 80% considerando, al menos, cinco medidas
repetidas seleccionadas al azar. Estas mediciones debern aportarse antes de emitir la calicacin denitiva del
sustentante, a n de salvaguardar la conabilidad de la decisin.

Si en algn instrumento de evaluacin no se llegara a cumplir con estos parmetros estadsticos, y la falta de reactivos
comprometiera la estructura diseada del instrumento de evaluacin que fue aprobada por el Consejo Tcnico, podrn
considerarse los siguientes parmetros estadsticos:
I b. En el caso de los instrumentos de evaluacin con reactivos de opcin mltiple:

La respuesta correcta deber tener una dicultad clsica de 10% a 90% y una correlacin punto biserial corregida igual o
mayor que 0.15.

Los distractores debern tener correlaciones punto biserial negativas.


La conabilidad del instrumento deber ser igual o mayor que 0.80.
II b. En el caso de los instrumentos basados en tareas evaluativas o en reactivos de respuesta construida y que sern
calicados con rbrica:

La correlacin entre cada aspecto evaluado con la puntuacin global deber ser igual o mayor que 0.20.
La conabilidad del instrumento deber ser igual o mayor que 0.70.
El porcentaje de acuerdos inter-jueces deber ser igual o mayor que 60%.

El porcentaje de acuerdos intra-jueces deber ser igual o mayor que 70% considerando, al menos, cinco medidas
repetidas seleccionadas al azar. Estas mediciones debern aportarse antes de emitir la calicacin denitiva del
sustentante, a n de salvaguardar la conabilidad de la decisin.

En caso de que algn instrumento no satisfaga los criterios y parmetros estadsticos antes indicados, la Junta de Gobierno
del Instituto determinar lo conducente, buscando salvaguardar la estructura del instrumento que fue aprobada por el Consejo
Tcnico y atendiendo al marco jurdico aplicable.
III. En el caso del Informe de cumplimiento de responsabilidades profesionales, para cada una de las escalas que lo
constituyen:

La correlacin entre cada reactivo con la puntuacin global de la escala deber ser igual o mayor que 0.30.
La conabilidad del constructo medido a travs de la escala debe ser igual o mayor que 0.80.
Adicionalmente, para este instrumento, conformado fundamentalmente por escalas tipo Likert, se debe generar evidencia de
que los constructos se integran conforme a lo esperado, esto es: a) los reactivos se integran a la o las dimensiones previstas en
el diseo del instrumento; b) hay una correlacin positiva y signicativa entre las distintas escalas que integran el instrumento;
c) existe la posibilidad de implementar un modelo de medicin a los datos; d) es posible valorar la dimensin del constructo
latente y, si es factible e) se verique que no hay un comportamiento diferencial de los reactivos o las escalas entre
subpoblaciones o grupos (Muraki,1999; Wu y Adams, 2007; Bentler, 2006; Masters,1982).
Si se diera el caso de que en algn instrumento no se cumpliera con los criterios y parmetros estadsticos antes indicados, la
Junta de Gobierno del Instituto determinar lo que procede, buscando salvaguardar el constructo del instrumento que fue
aprobado por el Consejo Tcnico y atendiendo al marco jurdico aplicable.
3.

Procedimiento para el establecimiento de puntos de corte y estndares de desempeo de los instrumentos de


evaluacin

Un paso crucial en el desarrollo y uso de los instrumentos de evaluacin de naturaleza criterial, como es el caso de los que
se utilizarn para la evaluacin del desempeo de quienes realizan funciones de docencia en Educacin Bsica (EB) 2015-2016,
es el establecimiento de los puntos de corte que dividen el rango de calicaciones para diferenciar entre niveles de desempeo.
En los instrumentos de evaluacin de tipo criterial, la calicacin obtenida por cada sustentante se contrasta con un
estndar de desempeo establecido por un grupo de expertos que describe el nivel de competencia requerido para algn

propsito determinado, es decir, los conocimientos y habilidades que, para cada instrumento de evaluacin, se consideran
indispensables para un desempeo adecuado en la funcin profesional docente. En este sentido el estndar de desempeo
delimita el marco interpretativo de las puntuaciones obtenidas en un instrumento por los sustentantes. El procedimiento para el
establecimiento de puntos de corte y estndares de desempeo incluye tres fases, las cuales se describen a continuacin:
Primera fase
Con el n de contar con un marco de referencia comn para los distintos instrumentos de evaluacin, se debern establecer
descriptores genricos de los niveles de desempeo que se utilizarn y cuya nica funcin es orientar a los comits acadmicos
en el trabajo del desarrollo de los descriptores especcos de cada instrumento, tales que les permita a los docentes tener
claros elementos de retroalimentacin para conocer sus fortalezas y reas de oportunidad identicadas a partir de los
resultados de cada instrumento sustentado.
Para todos los instrumentos se utilizarn cuatro niveles de desempeo: Nivel I (N I), Nivel II (N II), Nivel III (N III) y Nivel IV
(N IV). Los descriptores genricos para los diferentes grupos de instrumentos y cada nivel se indican en las Tablas 1a, 1b, 1c y
1d.
Tabla 1a. Descriptores genricos de los niveles de desempeo para el instrumento Expediente de evidencias de enseanza
Nivel de
desempeo

Descriptor

Nivel I (N I)

El docente ofrece evidencia que denota falta de claridad en su prctica de enseanza,


as como dicultades para ajustar su intervencin docente en funcin de las
caractersticas del contexto de sus alumnos. Por otra parte, aunque presenta
argumentos respecto a la eleccin de los contenidos de aprendizaje por desarrollar en
su intervencin docente, stos son frgiles o poco consistentes con los propsitos
educativos.

Nivel II (N II)

El docente muestra evidencias de su prctica de enseanza a travs de las cuales


denota que realiza las acciones necesarias para ajustar su intervencin docente en
funcin de las caractersticas del contexto de sus alumnos. Adems, presenta
argumentos esenciales de la eleccin de los contenidos de aprendizaje a desarrollar en
su intervencin docente, aunque con parcial correspondencia con los propsitos
educativos. Asimismo, se observan evidencias indispensables de la utilizacin de los
resultados de la evaluacin de sus alumnos para mejorar su prctica docente.

Nivel III

El docente aporta evidencias de su prctica de enseanza que denotan un adecuado


trabajo con sus alumnos, a travs de su reexin. Por otra parte, realiza acciones
relevantes para ajustar su intervencin docente en funcin de las caractersticas del
contexto de sus alumnos y argumenta la eleccin de los contenidos de aprendizaje a
desarrollar en su intervencin docente, adems de que los alinea con el objetivo de
alcanzar los propsitos educativos planteados. Tambin se observan evidencias
satisfactorias de la utilizacin de los resultados de la evaluacin de sus alumnos para
mejorar su prctica docente.

(N III)

Nivel IV (N IV)

El docente demuestra evidencias slidas de su prctica de enseanza y denota, a


travs de su proceso de reexin, un destacado trabajo con sus alumnos en el aula, al
ser sensible a la diversidad y complejidad de las caractersticas de sus estudiantes.
Tambin realiza acciones y estrategias ptimas para ajustar su intervencin docente
en funcin de las caractersticas del contexto del entorno en que se desarrolla el acto
educativo y argumenta de forma clara y detallada la eleccin de los contenidos de
aprendizaje a desarrollar en su intervencin docente, con plena correspondencia con
lograr los propsitos educativos planteados. Por otra parte, se observan evidencias
notables de la utilizacin de los resultados de la evaluacin de sus alumnos, que le
permiten retroalimentar sus fortalezas y reas de oportunidad, tales que las acciones
que realiza son consistentes con un proceso de mejora de su prctica docente,
incorporando elementos creativos que le permiten enriquecerla.

Tabla 1b. Descriptores genricos de los niveles de desempeo para el instrumento Examen de conocimientos y competencias
didcticas que favorecen el aprendizaje de los alumnos
Nivel de
desempeo

Descriptor

Nivel I (N I)

El docente demuestra conocimientos insucientes para atender situaciones de la


prctica docente; presenta algunas dicultades para organizar el trabajo educativo y
su intervencin didctica; as como para identicar los conceptos de los principios
loscos, los fundamentos legales y las nalidades de la educacin mexicana en el
ejercicio de su funcin docente. Asimismo, muestra escasos conocimientos sobre las
estrategias elementales que pueden contribuir a la construccin de un ambiente
favorable en el entorno escolar.

Nivel II (N II)

El docente demuestra conocimientos elementales para atender situaciones de la


prctica docente, as como habilidades para establecer vnculos con la comunidad en
la que se encuentra la escuela. Sin embargo, organiza el trabajo educativo y su
intervencin didctica e identica los principios loscos, los fundamentos legales y
las nalidades de la educacin mexicana en el ejercicio de su funcin docente.
Asimismo, distingue las diferentes estrategias didcticas que le pueden posibilitar el
que contribuya a la construccin de un ambiente favorable en el entorno escolar.

Nivel III

El docente demuestra conocimientos esenciales para resolver situaciones de la


prctica docente, as como habilidades para establecer vnculos con la comunidad en
la que se encuentra la escuela, identicando el contexto en el cual est inmersa. Por
otra parte, organiza de una manera ecaz el trabajo educativo y su intervencin
didctica, adems de comprender adecuadamente los principios loscos, los
fundamentos legales y las nalidades de la educacin mexicana y comprende la
relevancia de implementarlos en el ejercicio de su funcin docente. Asimismo,
incorpora estrategias para el establecimiento de ambientes favorables para la sana
convivencia y la inclusin educativa en su prctica docente.

(N III)

Nivel IV (N IV)

El docente demuestra amplios conocimientos y habilidades que aplica para resolver


diversas situaciones de la prctica educativa, que le demandan creatividad y
originalidad. Adems, organiza y sistematiza de una manera ptima el trabajo
educativo y su intervencin didctica en el aula, con el reconocimiento de la diversidad
cultural de sus alumnos; adems analiza los principios loscos, los fundamentos
legales y las nalidades de la educacin mexicana y, con base en ellos implementa y
promueve distintas actividades pedaggicas en el ejercicio de su funcin docente.
Asimismo, construye ambientes favorables para la sana convivencia y la inclusin
educativa de sus alumnos en su prctica docente y participa en el funcionamiento
ecaz de la escuela, contribuyendo activamente a fomenta vnculos estrechos con la
comunidad. Adems, realiza acciones en la gestin escolar que aportan elementos que
contribuyen a una mejora en la calidad de los resultados educativos de sus alumnos, a
travs del anlisis, la reexin y el trabajo colaborativo.

Tabla 1c. Descriptores genricos de los niveles de desempeo para el instrumento Planeacin didctica argumentada
Nivel de
desempeo

Descriptor

Nivel I (N I)

El docente presenta algunas dicultades para organizar, analizar, justicar, sustentar y


adecuar estrategias para argumentar su intervencin didctica, describe tcnicas con
las que evaluar a sus alumnos, pero no explicita el propsito educativo. Demuestra
reexin limitada sobre su prctica docente, las caractersticas de su contexto y los
efectos que stas tienen en el aprendizaje de sus alumnos, identica parcialmente el
currculo vigente, denotando un ejercicio de anlisis elemental acerca de lo que espera
que aprendan sus alumnos. Asimismo, muestra conocimientos limitados de las

estrategias de evaluacin para una intervencin didctica.

Nivel II (N II)

El docente demuestra habilidades elementales para organizar, analizar, justicar,


sustentar y adecuar estrategias para argumentar su intervencin didctica y aunque
describe tcnicas con las que evaluar a sus alumnos, la explicacin del propsito
educativo es limitada. Por otra parte, la reexin sobre su prctica docente es escasa
y la comprensin de las caractersticas de su contexto y los efectos que stas tienen
en el aprendizaje de sus alumnos no cobran la relevancia esperada en su
argumentacin. Sin embargo, identica el currculo vigente para organizar su
intervencin docente y realiza un ejercicio de anlisis acerca de lo que espera que
aprendan sus alumnos y muestra los conocimientos necesarios sobre las estrategias
de evaluacin para la realizacin de una intervencin didctica.

Nivel III

El docente demuestra habilidades indispensables para organizar y adecuar estrategias


para argumentar su intervencin didctica; describe tcnicas y mtodos con las que
evaluar a sus alumnos explicando el propsito educativo. Demuestra reexin sobre
su prctica docente, las caractersticas de su contexto y los efectos que stas tienen
en el aprendizaje de sus alumnos. Por otra parte, identica el currculo vigente para
organizar su intervencin docente, denotando un adecuado ejercicio de anlisis acerca
de lo que espera que aprendan sus alumnos, as como una apropiada comprensin de
las caractersticas y procesos de aprendizaje de los alumnos. Asimismo, muestra
conocimientos amplios de las estrategias de evaluacin y propone las que son
pertinentes para su intervencin didctica especca en el aula.

(N III)

Nivel IV (N IV)

El docente maniesta amplias habilidades para organizar, analizar, justicar, sustentar


y adecuar estrategias que le permiten aportar slidos argumentos que fundamentan y
orientan su intervencin didctica; selecciona las tcnicas, mtodos ms adecuados al
tipo de evaluacin que llevar con sus alumnos, explicando el propsito educativo y
los alcances, limitaciones y reas de oportunidad que se puedan derivar. Demuestra
una amplia reexin sobre su prctica docente, las caractersticas del contexto interno
y externo de la escuela y los efectos que stas tienen en el aprendizaje de sus
alumnos; identica el currculo vigente para organizar su intervencin docente,
denotando un ejercicio de anlisis acerca de lo que espera que aprendan sus alumnos
y, con base en el diagnstico de sus caractersticas y procesos de aprendizaje,
propone las estrategias de evaluacin ms adecuadas y pertinentes para una
intervencin didctica ecaz en el aula, adaptada a las condiciones del contexto y
sensibles a las distintas necesidades de aprendizaje de sus alumnos.

Tabla 1d. Descriptores genricos de los niveles de desempeo para el instrumento Examen complementario. Segunda
lengua: Ingls.
Nivel de
desempeo

Descriptor

Nivel I (N I)

El docente posee dominio limitado del idioma Ingls; carece de capacidad para
comprender textos extensos, as como ideas abstractas. Asimismo, muestra algunas
dicultades para comprender discursos de temas complejos, pronunciados en un nivel
de lengua estndar que pueden incluir argumentaciones; sin embargo puede distinguir
en textos el signicado de algunas palabras e ideas principales.

Nivel II (N II)

El docente posee un dominio bsico del idioma Ingls; tiene capacidad limitada para
comprender textos extensos, reconocer ideas abstractas, as como para comprender
discursos de temas complejos, pronunciados en un nivel de lengua estndar que
pueden incluir argumentaciones.

Nivel III

El docente posee un dominio intermedio del idioma Ingls; es capaz de comprender


textos extensos, as como de reconocer en ellos sentidos implcitos y trminos
tcnicos. Demuestra habilidades para comprender discursos de temas complejos,
pronunciados en un nivel de lengua estndar que pueden incluir argumentaciones.

(N III)

Nivel IV (N IV)

El docente posee un dominio avanzado del idioma Ingls; es capaz de comprender una
amplia variedad de textos extensos, as como reconocer en ellos sentidos implcitos,
ideas abstractas y trminos tcnicos. Demuestra altas habilidades para comprender
discursos de temas complejos, pronunciados en un nivel de lengua estndar que
pueden incluir argumentaciones complejas.

Segunda fase
En esta fase se establecern los puntos de corte y debern participar los comits acadmicos especcos para el
instrumento de evaluacin que se est trabajando. Dichos comits se debern conformar, en su conjunto, con especialistas que
han participado en el diseo de los instrumentos y cuya pluralidad sea representativa de la diversidad cultural en que se
desenvuelve la accin educativa del pas. En todos los casos, sus miembros debern ser capacitados especcamente para
ejercer su mejor juicio profesional a n de identicar cul es la puntuacin requerida para que el sustentante alcance un
determinado nivel o estndar de desempeo.
Los insumos que tendrn como referentes para el desarrollo de esta actividad, sern la documentacin que describe la
estructura de los instrumentos, las especicaciones y los ejemplos de tareas evaluativas o reactivos incluidos en las mismas. En
todos los casos, los puntos de corte se referirn a la ejecucin tpica o esperable de un sustentante hipottico, con un
desempeo mnimamente aceptable, para cada uno de los niveles (N I, N II, N III o N IV). Para ello, se deber determinar, para
cada tarea evaluativa o reactivo considerado en el instrumento, cul es la probabilidad de que dichos sustentantes hipotticos lo
respondan correctamente y, con base en la suma de estas probabilidades, establecer la calicacin mnima requerida o punto de
corte, para cada nivel de desempeo (Ango, 1971).
Una vez establecidos los puntos de corte que dividen el rango de calicaciones para diferenciar los niveles de desempeo en
cada instrumento, considerando el conjunto de reactivos que, en cada caso el sustentante hipottico es capaz de responder, se
debern describir los conocimientos y las habilidades especcos que estn implicados en cada nivel de desempeo, en trminos
de lo que este conoce y es capaz de hacer.
Tercera fase
En la tercera fase se llevar a cabo un ejercicio de retroalimentacin a los miembros de los comits acadmicos con el n de
contrastar sus expectativas sobre el desempeo de la poblacin evaluada, con la distribucin de sustentantes que se obtiene en
cada nivel de desempeo al utilizar los puntos de corte denidos en la segunda fase, una vez que se cuente con los resultados
alcanzados por los sustentantes, a n de determinar si es necesario realizar algn ajuste en la decisin tomada con anterioridad
y, de ser el caso, llevar a cabo el ajuste correspondiente.
Los jueces debern estimar la tasa de sustentantes que se esperara alcanzara cada nivel de desempeo previamente
denido, y comparar esta expectativa con los datos reales de los sustentantes, una vez aplicados los instrumentos. Si las
expectativas y los resultados dieren a juicio de los expertos, deber denirse un punto de concordancia para la determinacin
denitiva del punto de corte asociado a cada nivel de desempeo en cada uno de los instrumentos, siguiendo el mtodo
propuesto por Beuk, (1984).
La tercera fase se llevar a cabo solamente para aquellos instrumentos de evaluacin en los que el tamao de la poblacin
evaluada sea igual o mayor a 100 sustentantes. Si la poblacin es menor a 100 sustentantes, los puntos de corte sern los
denidos en la segunda fase.
Si se diera el caso de que algn instrumento no cumpliera con el criterio de conabilidad indicado en el apartado previo, la
Junta de Gobierno del Instituto determinar el procedimiento a seguir para el establecimiento de los puntos de corte
correspondientes, atendiendo al marco jurdico aplicable.
4.

Resultado de la evaluacin del desempeo: resultado por instrumento y resultado global

Todos los sustentantes que participen en los procesos para la evaluacin del desempeo de quienes realizan funciones de
docencia en Educacin Bsica 2015-2016, recibirn los resultados de cada uno de los instrumentos de evaluacin(1) as como
el resultado global de todo el proceso de evaluacin. A continuacin se presentan dos subapartados: en el primero se describen
los procedimientos para calicar los resultados de los sustentantes en cada instrumento y la escala utilizada para reportarlos;
en el segundo se detallan los procedimientos para la obtencin del resultado global y la conformacin de los grupos de
desempeo.
4.1

Calicacin de los resultados obtenidos por los sustentantes en los distintos instrumentos que constituyen el
proceso de evaluacin y la escala en que se reportarn

En cada plan de evaluacin es indispensable denir la escala en la que se reportarn los resultados de los sustentantes.
Existen muchos tipos de escalas de calicacin; en las escalas referidas a norma, las calicaciones indican la posicin relativa
del sustentante en una determinada poblacin. En las escalas referidas a criterio cada calicacin en la escala representa un
nivel particular de desempeo referido a un estndar previamente denido en un campo de conocimiento o habilidad
especcos.
El escalamiento que se llevar a cabo en este proceso de evaluacin, permitir construir una mtrica comn para todos los
instrumentos que se administrarn. Consta de dos transformaciones, la primera denominada doble arcoseno, que permite
estabilizar la magnitud de la precisin de las puntuaciones a lo largo de la escala; la segunda transformacin es lineal y ubica el
punto de corte del nivel de desempeo II en un mismo valor para todos los exmenes: puntuacin de 100 en esta escala (cuyo
rango va de 60 a 170 puntos(2)).
Al utilizar esta escala, diferente a las escalas que se utilizan para reportar resultados de aprendizaje en el aula (de 5 a 10 o
de 0% a 100%, donde el 6 o 60% de aciertos es aprobatorio), se evita que se realicen interpretaciones equivocadas de los
resultados obtenidos en los exmenes, en virtud de que en los exmenes del SPD cada calicacin representa un nivel particular
de desempeo respecto a un estndar previamente denido, el cual puede implicar un nmero de aciertos diferente en cada
caso.
En la siguiente grca puede observarse el nmero de aciertos obtenidos en dos instrumentos de longitudes diferentes y con
puntos de corte distintos que, a partir del escalamiento, es posible gracar en una misma escala, trasladando el primer punto de
corte a 100 puntos, aun cuando en cada examen el punto de corte reera a nmero de aciertos diferente. En este ejemplo la
distribucin de las puntuaciones va de 65 a 125 puntos.

4.2 Calicacin del resultado global, escala en que se reportar y procedimiento para la conformacin de los grupos de
desempeo
El resultado global de la evaluacin se realizar considerando los siguientes instrumentos:

Expediente de evidencias de enseanza.

Examen de conocimientos y competencias didcticas que favorecen el aprendizaje de los alumnos.

Planeacin didctica argumentada.

Examen complementario: Segunda lengua: Ingls (cuando sea el caso).

El Informe de cumplimiento de responsabilidades profesionales tiene por funcin contar con informacin sobre el
cumplimiento del docente en sus funciones y es proporcionado por el directivo escolar que corresponda. Para nes de la
calicacin global, este instrumento no ser considerado por lo que la informacin que aporte el directivo escolar ser utilizada
slo para efectos de diagnstico y se dar retroalimentacin al docente en el informe individual de resultados de la evaluacin,
sin afectar su calicacin. En el caso de que el docente no tenga el informe, debido a que es responsabilidad de un tercero, slo
se indicar que no se cuenta con la informacin.
La retroalimentacin que recibir el docente atender a los siguientes rubros, segn el resultado del anlisis del instrumento,
a partir de la informacin disponible: planeacin didctica; atencin a alumnos; promocin de ambientes favorables para la sana
convivencia; colaboracin en la escuela e integracin con sus pares; vinculacin con padres de familia y normalidad mnima.
La calicacin global
La calicacin global est concebida como compensatoria en tanto que hay un efecto aditivo que permite que las
puntuaciones parciales obtenidas en cada uno de los instrumentos utilizados para la evaluacin del desempeo, se integren en
una puntuacin nica sobre la que se establecer el punto de corte global. Este efecto permite que las principales fortalezas de
los docentes compensen sus posibles reas de oportunidad en otros aspectos evaluados.
Una vez sumado los aportes que hace cada instrumento que se utiliza para calicar a la puntuacin total, se lleva a cabo la
transformacin a una escala que va de 800 a 1 600 puntos(3). Lo anterior con la nalidad de facilitar la comunicacin del
resultado global de la evaluacin, porque siempre referir a la misma puntuacin para determinar los grupos de desempeo.
A manera de ejemplo, en las siguientes grcas, en el eje horizontal se muestra que la puntuacin total de los instrumentos
ser variable, esto se debe a que depende de la cantidad de instrumentos que considere la evaluacin y la puntuacin alcanzada
en cada uno de ellos. Sin embargo, la transformacin que se realiza permitir comunicar que para el resultado "Suciente" se
requieren, al menos, 1 000 puntos; para el grupo "Bueno", al menos, 1 200 puntos y para el grupo "Destacado", al menos, 1
400 puntos (representados en el eje vertical).

Asimismo, en los ejemplos se observa que, en la grca de la izquierda, el punto de corte para alcanzar el resultado
"Suciente" es 285 puntos y en la derecha 330 puntos; sin embargo, en ambos casos la puntuacin global estar referida a 1
000 puntos.
Esto mismo ocurre para los siguientes grupos, en los cuales para alcanzar el resultado global de "Bueno" y "Destacado" son
325 puntos y 355 puntos, respectivamente, en la grca izquierda. No as para la grca derecha, en donde para alcanzar estos
mismos resultados se requiere de 370 puntos y 395 puntos, respectivamente. En ambos casos, para el grupo de desempeo de
"Bueno", ser de 1 200 puntos y para "Destacado" de 1 400 puntos.
El resultado "No se present a la evaluacin"
Para el caso en que el docente no sustente NINGUNO de los instrumentos considerados para efectos de calicacin, su
resultado global ser "No se present a la evaluacin" y en cada instrumento slo se le asignar "NP: no present". Asimismo,
debido a que no se cuenta con informacin, tampoco tendr devolucin de los instrumentos que constituyen el proceso de
evaluacin del desempeo.
El resultado "Insuciente"

Se asignar el resultado "Insuciente" cuando:

El docente no sustente alguno o algunos de los instrumentos que son considerados para la calicacin, los cuales son:
i) Examen de conocimientos y competencias didcticas que favorecen el aprendizaje de los alumnos; ii) Planeacin
didctica argumentada; iii) Expediente de evidencias de enseanza y iv) Segunda lengua: Ingls -exclusivamente
cuando haya examen complementario. No se dar puntuacin global ni tampoco formar parte de los grupos de
desempeo, pero recibir la retroalimentacin que corresponda.

El proceso de evaluacin est constituido por tres instrumentos con efectos para la calicacin global y el docente no
obtenga, al menos, N II en dos de los tres instrumentos. No se dar puntuacin global ni tampoco formar parte
de los grupos de desempeo, pero recibir la retroalimentacin que corresponda.

El proceso de evaluacin est constituido por cuatro instrumentos con efectos para la calicacin global y el docente
no obtenga, al menos, N II en tres de los cuatro instrumentos, uno de los cuales debe ser el examen
complementario Segunda lengua: Ingls. No se dar puntuacin global, por lo que tampoco formar parte de los
grupos de desempeo, pero recibir la retroalimentacin que corresponda.

El docente haya obtenido menos de 1 000 puntos en el resultado global de la evaluacin. No formar parte de los
grupos de desempeo, pero recibir la retroalimentacin que corresponda.
Se enfatiza que en cualquiera de estos escenarios los docentes recibirn los resultados alcanzados en los instrumentos de
evaluacin que hayan sustentado, a n de proporcionarles retroalimentacin para que conozcan sus fortalezas, debilidades y
reas de oportunidad.
El resultado "Suciente"
Resultado Suciente
El docente con un resultado Suciente en el proceso de evaluacin ser aquel que cumpla con los
siguientes criterios:
1)

obtenga, al menos, el nivel de desempeo II (N II) en por lo menos dos de los tres instrumentos que
integran el proceso de evaluacin. En el caso de que la evaluacin considere un instrumento
complementario, en tres de los cuatro instrumentos, uno de los cuales debe ser Segunda lengua:
Ingls.

2)

obtenga al menos 1 000 puntos en la escala de calicacin global.

Todos los instrumentos tendrn la misma jerarqua o peso en la puntuacin total de la calicacin, por lo que el resultado
global de la evaluacin del desempeo estar dado considerando la puntuacin que aporta cada uno de los instrumentos. De
esta forma el efecto compensatorio de la puntuacin global no se ve afectado ni distorsionado por una ponderacin diferenciada
de los instrumentos de evaluacin.
La conformacin de los grupos de desempeo
Los grupos de desempeo estarn conformados nicamente por los sustentantes que obtengan, al menos, un resultado
"Suciente" en la evaluacin, esto es, hayan alcanzado el criterio del nmero de instrumentos mnimos en N II y, al menos 1 000
puntos en la escala global. Con base en lo anterior, el resultado de la evaluacin del desempeo del docente puede ubicarse en
alguna de las siguientes categoras:
Resultado de la evaluacin: grupos de desempeo
Criterios para formar parte de un grupo de desempeo en Educacin Bsica
Resultado de la evaluacin

Puntuacin global en escala 800-1 600

Suciente

De 1 000 a 1 199 puntos en la puntuacin global

Bueno

De 1 200 a 1 399 puntos en la puntuacin global

Destacado

Al menos 1 400 puntos en la puntuacin global

Sobre los resultados de la evaluacin


El resultado de la evaluacin, tanto para los resultados "Insucientes", como de aquellos que forman parte de un grupo de
desempeo ("Suciente", "Bueno" o "Destacado"), aportar informacin relevante para disear programas y acciones de
capacitacin, formacin y acompaamiento. Por otra parte, para los casos en que aplique, los resultados sern vinculados con el
Programa de promocin en la funcin por incentivos en EB.
Anexo
El propsito de este anexo es detallar los aspectos tcnicos especcos de los distintos procedimientos que se han
enunciado en el cuerpo del documento, as como de brindar mayores elementos para su entendimiento y fundamento
metodolgico.
Protocolo de calicacin por jueces para las rbricas
A continuacin se presenta un protocolo que recupera propuestas sistemticas de la literatura especializada (Jonsson y
Svingby, 2007; Rezaei y Lovorn, 2010; Stemler y Tsai, 2008; Stellmack, et. al, 2009).
1. Se reciben las evidencias de evaluacin de los sustentantes, mismas que deben cumplir con las caractersticas solicitadas
por la autoridad educativa.
2. Se da a conocer a los jueces la rbrica de calicacin y se les capacita para su uso.
3. Las evidencias de los sustentantes son asignadas de manera aleatoria a los jueces, por ejemplo se pueden considerar
redes no dirigidas; intuitivamente, una red no dirigida puede pensarse como aquella en la que las conexiones entre los nodos
siempre son simtricas (si A est conectado con B, entonces B est conectado con A y sucesivamente con los n nmero de
jueces conectados entre s), este tipo de asignacin al azar permite contar con indicadores iniciales de cuando un juez est
siendo reiteradamente "estricto" o reiteradamente "laxo" en la calicacin, lo cual ayudar a saber si es necesario volver a
capacitar a alguno de los jueces y permitir obtener datos de consistencia inter-juez.
4. Cada juez calica de manera individual las evidencias sin conocer la identidad ni el centro de trabajo de los sustentantes o
cualquier otro dato que pudiera alterar la imparcialidad de la decisin del juez.
5. Los jueces emiten la calicacin de cada sustentante, seleccionando la categora de ejecucin que consideren debe recibir
el sustentante para cada uno de los aspectos a evaluar que constituyen la rbrica, esto en una escala ordinal (por ejemplo: de 0
a 3, de 0 a 4, de 1 a 6, etc.), lo pueden hacer en un formato impreso o electrnico a n de conservar dichas evidencias.
6. Si existen discrepancias entre los jueces en cuanto a la asignacin de categoras en cada aspecto a evaluar se deben
tomar decisiones al respecto, a continuacin se muestran sugerencias para esta toma de decisiones:
a. Cuando la calicacin que se asigna corresponde a categoras de ejecucin contiguas (por ejemplo: 1-2) se puede
asignar la categora superior. Esto permite "favorecer" al sustentante ante dicho desacuerdo entre los jueces.
b. Cuando son categoras no contiguas de la rbrica:
-

Si existe solamente una categora en medio de las decisiones de los jueces (por ejemplo: 1-3), se debe
asignar al sustentante la categora de en medio. No se deben promediar los valores asignados a las
categoras.

Si existe ms de una categora en medio de las decisiones de los jueces (por ejemplo: 1-4), se debe solicitar
a los jueces que veriquen si no hubo un error al momento de plasmar su decisin. En caso de no haber
ajustes por este motivo, se requiere la intervencin de un tercer juez y asignarle al sustentante las categoras
en cada aspecto a evaluar considerando la decisin del tercer juez y la del juez que haba plasmado la
decisin ms cercana a l. Esto mismo aplica cuando hay reiteradas discrepancias amplias entre los jueces.

7. Los jueces rman la evidencia con las asignaciones de categoras denitivas en cada aspecto a evaluar.
8. La calicacin global del sustentante se determina de la siguiente forma:
a. Se identica la categora asignada al sustentante en cada aspecto a evaluar.
b. Se identica el valor asignado a cada categora de la rbrica.
c. La suma de los valores es el resultado de la calicacin.

9. Las asignaciones de categoras del sustentante en cada aspecto a evaluar para emitir su calicacin global denitiva son
plasmadas en algn formato impreso o electrnico, con la debida rma, autgrafa o electrnica de los jueces, a n de que
queden resguardadas como evidencia del acuerdo de la calicacin denitiva del proceso de jueceo.
Mtodos para establecer puntos de corte y niveles de desempeo
Mtodo de Ango
El mtodo de Ango est basado en los juicios de los expertos sobre los reactivos y contenidos que se evalan a travs de
exmenes. De manera general, el mtodo considera que el punto de corte se dene a partir de la ejecucin promedio de un
sustentante hipottico que cuenta con los conocimientos, habilidades o destrezas que se consideran indispensables para la
realizacin de una tarea en particular; los jueces estiman, para cada pregunta, cul es la probabilidad de que dicho sustentante
acierte o responda correctamente.
Procedimiento
Primero se juzgan algunas preguntas, con tiempo suciente para explicar las razones de las respuestas al grupo de expertos
y que les permite homologar criterios y familiarizarse con la metodologa.
Posteriormente, se le solicita a cada juez que estime la probabilidad mnima de que un sustentante conteste correctamente
un reactivo, el que le sigue y as hasta concluir con la totalidad de los reactivos, posteriormente se calcula el puntaje esperado
(raw score: la suma de estas probabilidades multiplicada por uno para el caso de reactivos -toda vez que cada reactivo vale un
punto-; o bien, la suma de estas probabilidades multiplicada por el valor mximo posible de las categoras de la rbrica). Las
decisiones de los jueces se promedian obteniendo el punto de corte. La decisin del conjunto de jueces pasa por una primera
ronda para valorar sus puntos de vista en plenaria y puede modicarse la decisin hasta llegar a un acuerdo en comn.
Mtodo de Beuk
En 1981, Cess H. Beuk propuso un mtodo para establecer estndares de desempeo, el cual busca equilibrar los juicios de
expertos basados solamente en las caractersticas de los instrumentos de evaluacin, lo que mide y su nivel de complejidad, con
los juicios que surgen del anlisis de resultados de los sustentantes una vez que un instrumento de evaluacin es administrado.
Procedimiento
En el cuerpo del documento se sealaron tres fases para el establecimiento de puntos de corte de los niveles de desempeo.
Para completar la tercera fase, es necesario recolectar con antelacin las respuestas a dos preguntas dirigidas a los integrantes
de los distintos comits acadmicos especializados involucrados en el diseo de las evaluaciones y en otras fases del desarrollo
del instrumento. Las dos preguntas son:
a) Cul es el mnimo nivel de conocimientos o habilidades que un sustentante debe tener para aprobar el instrumento de
evaluacin? (expresado como porcentaje de aciertos de todo el instrumento, k).
b) Cul es la tasa de aprobacin de sustentantes que los jueces estiman que aprueben el instrumento? (expresado como
porcentaje, v).
Para que los resultados de la metodologa a implementar sean estables e integren diferentes enfoques que contribuyan a la
diversidad cultural, se debern recolectar las respuestas de, al menos, 30 especialistas integrantes de los diferentes comits
acadmicos que hayan participado en el diseo de los instrumentos.
Adicionalmente, se debe contar con la distribucin de los sustentantes para cada posible punto de corte, con la nalidad de
hacer converger el juicio de los expertos con la evidencia emprica.
Los pasos a seguir son los siguientes:

Escalamiento de las puntuaciones


El escalamiento (Wilson, 2005) se llevar a cabo a partir de las puntuaciones crudas (cantidad de aciertos) de los
sustentantes, y se obtendr una mtrica comn para todos los instrumentos de evaluacin, que va de 60 a 170 puntos
aproximadamente, ubicando el primer punto de corte (nivel de desempeo II) para todos los instrumentos en los 100 puntos. El
escalamiento consta de dos transformaciones:
a)

Transformacin doble arcoseno que estabiliza la magnitud de la precisin que se tiene para cada punto de la escala. De
no implementarla, para cada instrumento se tendra que estimar el error estndar de medida para todas y cada una
de las puntuaciones de la escala.

b)

Transformacin lineal que ubica el primer punto de corte en 100 unidades y dene el nmero de distintos puntos en la
escala (el rango de las puntuaciones) con base en la conabilidad del instrumento, por lo que a mayor conabilidad,
habr ms puntos en la escala (Shun-Wen Chang, 2006).

Para cuanticar el nivel de precisin de las puntuaciones del instrumento, se utilizar el Mtodo delta (Kendall y Stuart,
1977), que calcula los errores estndar de medicin condicionales, que se describe ulteriormente en este anexo.
Finalmente, es importante destacar que para que se lleve a cabo el escalamiento, el sustentante debi alcanzar, al menos, un
acierto en el instrumento de evaluacin en cuestin. De no ser as, se reportar como cero y el resultado ser N I.
Procedimiento para la transformacin doble arcoseno
En los casos de los exmenes de opcin mltiple, deber calcularse el nmero de respuestas correctas que haya obtenido
cada sustentante en el instrumento de evaluacin. Los reactivos se calicarn como correctos o incorrectos de acuerdo con la
clave de respuesta correspondiente. Si un sustentante no contesta un reactivo o si selecciona ms de una alternativa de
respuesta para un mismo reactivo, se calicar como incorrecto. Cuando los instrumentos de evaluacin sean calicados por

rbricas, deber utilizarse el mismo procedimiento para asignar puntuaciones a los sustentantes considerando que K sea la
mxima puntuacin que se pueda obtener en el instrumento de evaluacin.
Como se observa en la grca (Won-Chan, Brennan y Kolen, 2000), con excepcin de los valores extremos, el error estndar
de medicin se estabiliza a lo largo de la distribucin de las puntuaciones observadas, a diferencia de la transformacin lineal de
las puntuaciones crudas.

El dato obtenido del error estndar condicional deber reportarse en la misma escala en que se comunican las calicaciones
de los sustentantes e incorporase en el informe o manual tcnico del instrumento (estndar 2.13 de los Estndares para las
Pruebas Educativas y Psicolgicas de la American Educational Research Association et. al., 2014).
Proceso para la equiparacin de instrumentos de evaluacin
Cuando el proceso de evaluacin implica la aplicacin de un instrumento en diversas ocasiones en un determinado periodo,
en especial si sus resultados tienen un alto impacto, es indispensable el desarrollo y uso de formas o versiones del instrumento
que sean equivalentes a n de garantizar que, independientemente del momento en que un sustentante participe en el proceso
de evaluacin, no tenga ventajas o desventajas de la forma o versin que responda. Por esta razn, es necesario un
procedimiento que permita hacer equivalentes los resultados obtenidos en diferentes formas o versiones de un mismo
instrumento.
Para que dos formas de un instrumento de evaluacin puedan ser equiparadas, se deben cubrir los siguientes
requerimientos:

Compartir las mismas caractersticas tcnicas: estructura, especicaciones de reactivos, nmero de reactivos (longitud
del instrumento) y un subconjunto de reactivos comunes (reactivos ancla), que en cantidad no deber ser menor a
30% ni mayor a 50% de la totalidad de reactivos efectivos para calicar.

Contar con una conabilidad semejante.


Los reactivos que constituyen el ancla debern ubicarse en la misma posicin relativa dentro de cada forma, y debern
quedar distribuidos a lo largo de todo el instrumento.

La modalidad en la que se administren las formas deber ser la misma para todos los sustentantes (por ejemplo, en lpiz y
papel o en computadora).
Se debern considerar dos estrategias: a) si el nmero de sustentantes es de al menos 100 en ambas formas, se utilizar el
mtodo de equiparacin lineal de Levine para puntajes observados; o bien, b) si el nmero de sustentantes es menor de 100 en
alguna de las formas, se utilizar el mtodo de equiparacin de identidad (identity equating). A continuacin se detallan los
procedimientos.
Mtodo de equiparacin lineal de Levine
La equiparacin de las formas de un instrumento deber realizarse utilizando el mtodo de equiparacin lineal de Levine
(Kolen y Brennan, 2014), para puntajes observados bajo un diseo de grupos no equivalentes con reactivos comunes. Dicho
diseo es uno de los ms utilizados en la prctica. En cada muestra de sujetos se administra solamente una forma de la prueba,
con la peculiaridad de que en ambas muestras se administra un conjunto de reactivos en comn llamado ancla, que permite
establecer la equivalencia entre las formas a equiparar.
Cualquiera de los mtodos de equiparacin de puntajes que se construya involucra dos poblaciones diferentes. Sin embargo,
una funcin de equiparacin de puntajes se dene sobre una poblacin nica. Por lo tanto, las poblaciones 1 y 2 que
corresponden a las poblaciones donde se aplic la forma nueva y antigua, deben ser combinadas para obtener una poblacin
nica a n de denir una relacin de equiparacin.

Usando el concepto de poblacin sinttica, la relacin lineal de equiparacin de puntajes para el diseo de grupos no
equivalentes con reactivos comunes se escribe de la siguiente forma:

Donde denota la poblacin sinttica y

Donde los subndices

se reeren a las poblaciones

respectivamente.

Especcamente, para el mtodo de Levine para puntajes observados bajo un diseo de grupos no equivalentes con reactivos
comunes, las

se expresan de la siguiente manera:

Para aplicar este mtodo basta con reemplazar estos coecientes en las ecuaciones lineales antes descritas.
Por su parte, Kolen y Brennan proveen justicaciones para usar esta aproximacin.
Mtodo de equiparacin de identidad (identity equating)
La equiparacin de identidad es la ms simple, toda vez que no hace ningn ajuste a la puntuacin x en la escala de la forma
X al momento de convertirla en la puntuacin equiparada y en la escala de la forma Y.
Es decir, dichas puntuaciones son consideradas equiparadas cuando tienen el mismo valor, por lo que las coordenadas de la
lnea de equiparacin de identidad estn denidas simplemente como x=y (Holland y Strawderman, 2011).
Algoritmo para el clculo de la puntuacin en escala global
En principio se calcula la puntuacin total de los instrumentos, para el siguiente caso se consideran tres para efectos de
calicacin:

Referencias
American College Testing, (2013) ACT Plan Assessments Technical Manual, Iowa City, IA: Author.
American College Testing, (2014a) ACT Assessments Technical Manual, Iowa City, IA: Author.
American College Testing, (2014b) ACT QualityCore Assessments Technical Manual, Iowa City, IA: Author.
American Educational Research Association (AERA), American Psychological Association (APA) y National Council on
Measurement in Education (NCM). (2014). Standards for educational and psychological testing. Washington, D.C.: American
Educational Research Association.
Ango, W. H. (1971). Scales, norms, and equivalent scores. In R. L. Thorndike (Ed.), Educational Measurement (2nd ed.).
Washington, DC: American Council on Education.
Bentler, P. M. (2006). EQS 6 Structural Equations Program Manual. Encino, CA: Multivariate Software, Inc.
Beuk C. H. (1984). A Method for Reaching a Compromise between Absolute and Relative Standards in Examinations. Journal
of Educational Measurement, 21 (2) p. 147-152.
Brennan, R. L. (2012). Scaling PARCC Assessments: Some considerations and a synthetic data example en:
http://parcconline.org/about/leadership/12-technical-advisory-committee.
Cook D. A. y Beckman T. J. (2006). Current Concepts in Validity and Reliability for Psychometric Instruments: Theory and
Application. The American Journal of Medicine 119, 166.e7-166.e16
Downing, SM (2004). Reliability: On the reproducibility of assessment data. Med Educ; 38(9):1006-1012. 21
Holland, P. W., & Strawderman, W. E. (2011). How to average equating functions, if you must. In A. A. von Davier (Ed.),
Statistical models for test equating, scaling, and linking (pp. 89107). New York, NY: Springer
Jonsson, A. & Svingby, G. (2007). The use of scoring rubrics: Reliability, validity and educational consequences. Educational
Research Review 2: 13044.
Kendall, M. & Stuart, A. (1977). The advanced theory of statistics, Vol. 1: Distribution theory. 4 Ed. New York, NY: MacMillan.
Kolen, M. J., & Brennan, R. L. (2014). Test equating, scaling, and linking: Methods and practices (3rd ed.). New York, NY:
Springer-Verlag.
Masters, Geo (1982). A Rasch model for Partial Credit Scoring. Psychometrika-vol. 47, No. 2.
Muiz, Jos (2003): Teora clsica de los test. Ediciones pirmide, Madrid.
Muraki, Eiji (1999). Stepwise Analysis of Dierential Item Functioning Based on Multiple-Group Partial Credit Model. Journal
of Educational Measurement.
OECD (2002), PISA 2000 Technical Report, PISA, OECD Publishing.
OECD (2005), PISA 2003 Technical Report, PISA, OECD Publishing.
OECD (2009), PISA 2006 Technical Report, PISA, OECD Publishing.
OECD (2014), PISA 2012 Technical Report, PISA, OECD Publishing.
Rezaei, A. R. & Lovorn, M. (2010) Reliability and validity of rubrics for assessment through writing. Assessing Writing 15 (1.)
1839.
Shun-Wen Chang (2006) Methods in Scaling the Basic Competence Test, Educational and Psychological Measurement, 66 (6)
907-927
Stellmack, M. A., Konheim-Kalkstein, Y. L., Manor, J. E., Massey, A. R., & Schmitz, J. A. P. (2009). An assessment of reliability
and validity of a rubric for APA-style introductions, Teaching of Psychology, 36, 102-107.
Stemler, E. & Tsai, J. (2008). Best Practices in Interrater Reliability Three Common Approaches in Best practices in
quantitative methods (pp. 89107). SAGE Publications, Inc.
Thompson, Bruce ed. (2003): Score reliability. Contemporary thinking on reliability issues. SAGE Publications, Inc.
Wilson, Mark (2005). Constructing measures. An tem response modeling approach. Lawrence Erlbaum Associates,
Publishers.
Won-Chan, L., Brennan, R. L., & Kolen, M. J. (2000). Estimators of Conditional Scale-Score Standard Errors of Measurement:
A Simulation Study. Journal of Educational Measurement, 37(1), 1-20.
Wu, Margaret & Adams, Ray (2007). Applying the Rasch Model to Psycho-social measurement. A practical
approach.Educational measurement solutions, Melbourne.
TRANSITORIOS
Primero. Los presentes Criterios entrarn en vigor al da siguiente de su publicacin en el Diario Ocial de la Federacin.
Segundo. Los presentes Criterios, de conformidad con los artculos 40 y 48 de la Ley del Instituto Nacional para la
Evaluacin de la Educacin, debern hacerse del conocimiento pblico a travs de la pgina de Internet del Instituto
www.inee.edu.mx
Mxico, D.F., a cinco de noviembre de dos mil quince.- As lo aprob la Junta de Gobierno del Instituto Nacional para la
Evaluacin de la Educacin en la Vigsima Sesin Extraordinaria de dos mil quince, celebrada el cinco de noviembre de dos mil
quince. Acuerdo nmero SEJG/20-15/04, R.- La Consejera Presidenta, Sylvia Irene Schmelkes del Valle.- Rbrica.- Los
Consejeros: Eduardo Backho Escudero, Teresa Bracho Gonzlez, Margarita Mara Zorrilla Fierro.- Rbricas

El Director General de Asuntos Jurdicos, Agustn E. Carrillo Surez.- Rbrica.


(R.- 422382)

En el caso en que el sustentante no presente alguno de los instrumentos de evaluacin que son considerados para la calicacin

global, su resultado en ese instrumento ser NP: no present y nicamente tendr la devolucin en aquellos instrumentos en los que haya
participado y de los que se cuente con informacin. Para el caso en que el sustentante no presente NINGUNO de los instrumentos considerados
para efectos de calicacin, su resultado global ser No se present a la evaluacin y en cada instrumento slo se le asignar NP: no present.
Asimismo, debido a que no se cuenta con informacin, tampoco tendr devolucin de los instrumentos que constituyen el proceso de evaluacin
del desempeo.
2

Pueden encontrarse ligeras variaciones en este rango debido a que la escala es aplicable a mltiples instrumentos con caractersticas

muy diversas, tales como las longitudes, tipos de instrumentos y su nivel de precisin, diferencias entre los puntos de corte que atienden a las
particularidades de los contenidos que se evalan, entre otras; por otra parte, para realizar el escalamiento, el sustentante debe, al menos,
haber alcanzado un acierto en el examen; en caso contrario, se reportar como cero y obtendr N I. Para mayores detalles sobre los procesos
que se llevan a cabo para el escalamiento de las puntuaciones, consultar el anexo.
3

Para mayores detalles sobre el proceso que se lleva a cabo para la transformacin de las puntuaciones a la escala global de 800 a 1

600 puntos, consultar el anexo.

En el documento que usted est visualizando puede haber texto, caracteres u objetos que no se muestren debido a la conversin a formato
HTML, por lo que le recomendamos tomar siempre como referencia la imagen digitalizada del DOF o el archivo PDF de la edicin.

Diario Ocial de la Federacin


Ro Amazonas No. 62, Col. Cuauhtmoc, C.P 06500 Mxico D.F.
Tel. (55) 5093-3200, donde podr acceder a nuestro men de servicios
Correo electrnico: dof@segob.gob.mx
Direccin electrnica: www.dof.gob.mx

100
AVISO LEGAL | PROHIBIDA SU REPRODUCIN TOTAL O PARCIAL

Vous aimerez peut-être aussi