Vous êtes sur la page 1sur 82

2009

2009 / Ao de Homenaje a Ral SCALABRINI ORTIZ

hacia una cultura


de la Evaluacin
ONE 2009 / Censo

AUTORIDADES
Presidenta de la Nacin
Dra. Cristina Fernndez de Kirchner
Ministro de Educacin
Prof. Juan Carlos Tedesco
Secretario de Educacin
Prof. Alberto Sileoni
Subsecretario de
Planeamiento Educativo
Lic. Osvaldo Devries
Director Nacional de Informacin y
Evaluacin de la Calidad Educativa
Lic. EDUARDO ARAGUNDI

Elaboracin:
rea Evaluacin de la Calidad Educativa
Coordinadora:
Sonia Hirschberg
Equipo responsable:
Mirta Leon
Patricia Scorzo
Jorge Novello

Diseo Grfico:
Karina Actis
Juan Pablo Rodrguez
Coralia Vignau

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

ndice

Presentacin............................................................................................................................................... Pg. 5

Primera Parte.
Hacia una cultura de la Evaluacin Educativa
Evaluacin: nuevos significados para una prctica compleja,
por Alicia Bertoni, Margarita Poggi y Marta Teobaldo.............................................................................. Pg. 7
Evaluacin educativa: una aproximacin conceptual,
por Nydia Elola y Lilia Toranzos................................................................................................................ Pg. 15
La evaluacin educativa, un criterio consolidado, por IIPE Buenos Aires-............................................ Pg. 17
Evaluacin Nacional y Evaluaciones Internacionales, por el equipo de la DiNIECE................................ Pg. 21
Qu pretendemos evaluar, qu evaluamos y qu conclusiones podemos
extraer de la evaluacin?, por Alejandro Tiana Ferrer............................................................................ Pg. 27
Las evaluaciones educativas que Amrica Latina necesita, por P. Ravela, P. Arregui,
G. Valverde, R. Wolfe,G. Ferrer, F.M.Rizo,M. Aylwin y L.Wolff............................................................... Pg. 35
Una mirada tcnico-pedaggica acerca de las evaluaciones de calidad educativa,
por Felipe Martnez Rizo........................................................................................................................... Pg. 49

Segunda Parte.
El Operativo Nacional de Evaluacin 2009

Marco de Referencia, por Alicia Cayssials................................................................................................. Pg. 53


Evaluacin, enfoques metodolgicos,por Mariela Leones y Jorge Fasce................................................ Pg. 57

Adenda
1 / Capacidades cognitivas ONE 2009....................................................................................................... Pg. 69
2 / Evaluacin Nacional y Evaluaciones Internacionales.......................................................................... Pg. 73
Glosario...................................................................................................................................................... Pg. 77

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Direccin Nacional de Informacin


y Evaluacin de la Calidad Educativa
Ministerio de Educacin
Paraguay 1657 2do piso Of. 201
Ciudad. de Buenos Aires - C1062ACA
Tel. (+5411) 4129-1448/9 Fax. 4129-1447
E-mail: diniece@me.gov.ar
Pgina Web: http://me.gov.ar/diniece

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Presentacin

En los ltimos aos, el proceso de elaboracin de los


instrumentos de evaluacin y de anlisis de resultados,
tanto a nivel nacional como internacional, se ha ido
complejizando. Con el reemplazo de los modelos tradicionales de pruebas por el de modelos fundados en
la llamada teora de respuesta al tem, se ha iniciado un
proceso de innovacin que implica la necesidad de desarrollar nuevas capacidades y tecnologas para la elaboracin de instrumentos y la produccin e interpretacin
de resultados.
Por otro lado tambin se advierte el desarrollo de una
tendencia a nivel internacional que seala el involucramiento de mayor cantidad de actores, tanto en el diseo
de los procesos evaluativos como en el uso de la informacin que los mismos proporcionan. Esto implica que
la evaluacin est dejando de ser un dispositivo que utilizan slo los gobiernos y los investigadores para pasar a
ser una herramienta para los propios actores del sistema
educativo.
Es en este sentido que la DINIECE se compromete a
desarrollar todo tipo de acciones para propiciar la participacin y el compromiso de supervisores, directivos,
maestros y familias en el camino hacia la construccin
de una cultura de la evaluacin en nuestro pas. Se propone, asimismo, fortalecer la dimensin poltica de la
evaluacin lo que implica lograr que los resultados impacten en las prcticas educativas a travs de nuevas
estrategias de llegada a las escuelas y las familias y la
construccin de mejores escenarios para la devolucin y
difusin de los resultados.

Esta publicacin intenta cumplir con los objetivos arriba mencionados, por un lado su amplia difusin a funcionarios, supervisores y directores de escuelas medias,
pretende contribuir a enriquecer los marcos tericos y
metodolgicos, por otro presenta los debates ms significativos que se estn dando en el mbito internacional.
El primer trabajo de Bertoni, Poggi y Teobaldo nos sealan la importancia de la participacin de los actores
en todo proceso de evaluacin. Tiana nos presenta las
preguntas que tenemos que considerar al iniciar un proceso de evaluacin y el equipo de PREAL define las caractersticas que deben tener las evaluaciones en Amrica Latina. Martnez Rizo realiza un anlisis sobre los
aspectos tcnico- pedaggicos de las evaluaciones. Por
ltimo Fasce y Leones exponen los enfoques metodolgicos relacionados con el censo en el ltimo ao de la
escuela secundaria que se realizar en nuestro pas en el
mes de septiembre de este ao.
En una adenda incorporamos algunos documentos elaborados por los equipos tcnicos de evaluacin, que
consideramos de gran utilidad para el trabajo de este
ao: el listado de las capacidades cognitivas a considerar en el censo 2009, un anlisis de las evaluaciones
nacionales e internacionales realizadas en nuestro pas
y un glosario con los trminos tcnicos que utilizamos
cotidianamente en nuestra tarea.
Esperamos que este material sea de utilidad para compartir en cada uno de los lugares de trabajo y para actualizar y enriquecer la tarea de cada uno de nosotros.

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Primera Parte.
Hacia una cultura de la Evaluacin Educativa

Evaluacin:
nuevos significados para una prctica compleja
Los significados de la evaluacin
educativa: alternativas tericas
La evaluacin educativa nos confronta con el abordaje de un espacio de conflicto, que permite analizar articulaciones o fracturas entre supuestos tericos y prcticas pedaggicas. En efecto, todo proceso de evaluacin
pone en evidencia mltiples aspectos, relacionados con
las caractersticas y procesos de la institucin educativa,
los proyectos institucionales, los estilos de gestin, las
propuestas curriculares y editoriales, las particularidades
de los docentes y de los alumnos, etc. Podemos afirmar,
sin lugar a dudas, que nos enfrentamos a un punto neurlgico de la relacin educativa.
Ms all de las diferentes perspectivas que han abordado la cuestin de la evaluacin, nos parece importante sealar que sta constituye siempre una actividad
de comunicacin en la medida en que implica producir
un conocimiento y transmitirlo, es decir, ponerlo en circulacin entre diversos actores involucrados. En tanto
accin comunicativa, la evaluacin padece las mismas
vicisitudes que toda comunicacin entre los sujetos sociales implicados en ella.
Aun cuando pueda plantearse en diferentes niveles,
como el del sistema educativo, la institucin o el aula,
la evaluacin implica siempre una serie de aspectos comunes que siguen una secuencia lgica y cronolgica
aunque, en la prctica, algunos de ellos sean omitidos.
Nos referimos a:
- el relevamiento de informacin a travs de diversos
procedimientos como la observacin, los documentos, las producciones, etctera;
- el anlisis de los datos segn marcos de referencia
que orientan la lectura de stos;
- la produccin de conclusiones, en algunos casos
expresadas en juicios de valor, que traduce el anlisis en proposiciones sobre el objeto evaluado,
o, en otros casos, la produccin de datos cuantitativos, cifrados, que muestran algn otro aspecto
de dicho objeto;
- la comunicacin a los actores involucrados en el
proceso evaluativo o la divulgacin a otros de las
conclusiones elaboradas;
- aunque no necesariamente se deriva de los puntos
mencionados, la toma de decisiones para intervenir
activa e intencionalmente en los procesos y resultados sobre los cuales se emiti el juicio evaluativo.

A pesar de que las instancias mencionadas constituyen una secuencia, su ejecucin no es, necesariamente,
lineal. El anlisis de los datos, por ejemplo, puede requerir el relevamiento de alguna informacin adicional o
complementaria; la comunicacin de los resultados a los
actores implicados puede llevar a cierta reconsideracin
de las conclusiones, etctera.
Por lo dems, segn cul sea el paradigma que da sentido a la evaluacin educativa, algunos puntos se priorizarn sobre los otros o adquirirn diferentes significados.

La articulacin del campo educativo


con otros campos: implicancias para
la evaluacin
Una definicin amplia de evaluacin pone el acento
en que esta actividad consiste en la atribucin de un
juicio de valor a una realidad observada.
Ahora bien, cuando la realidad que se evala se vincula con los aprendizajes de los alumnos en el contexto
de la vida escolar, el juicio de evaluacin que se emite
compromete a otros niveles con los que se articula el
mbito escolar. Esto es as porque, como veremos, los
mbitos del aula y de la escuela se inscriben en el campo
educativo, el cual, a la vez, se articula con otros campos
sociales y se encuentra, en distintas situaciones histricas, sobredeterminado por alguno de ellos.
Empleamos la nocin de campo en el sentido en
que la define Pierre Bourdieu, es decir, como espacios
de juego histricamente constituidos con sus instituciones especficas y sus leyes de funcionamiento propias.
En este sentido, se habla de campo educativo, de campo
econmico, de campo poltico, etctera.
Volviendo entonces al campo educativo, podemos decir que se articula con otros campos, como el cientfico, el
artstico o el tecnolgico, y que se encuentra, en nuestro
contexto histrico-social, sobredeterminado, en buena
medida, por el campo poltico y por el campo econmico.
Si dentro del campo educativo nos situamos ahora
en el mbito del aula, podremos observar que lo que sucede dentro de sta tiene repercusiones extraescolares,
que se explican por las articulaciones y sobredeterminaciones antes mencionadas.
Este fenmeno es evidente en el caso de la evaluacin,
no slo por la articulacin entre el campo educativo y otros
campos, sino tambin por la funcin social que aquella
cumple. Efectivamente, en la medida en que la evaluacin
sanciona la adquisicin o no de los aprendizajes que se

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

consideran necesarios para el desempeo social, sus resultados repercuten no slo sobre el sujeto evaluado y su
entorno inmediato en las circunstancias presentes, sino
que tienen un efecto expansivo, no necesariamente
visible, sobre su insercin futura en otros campos.
Podemos ver cmo tiene lugar este proceso situando
el anlisis en el nivel del aula.
La observacin de lo que sucede con la evaluacin
de los aprendizajes en el aula permite a un observador
atento construir un entramado de relaciones entre actores y entre campos, que se constituyen con la puesta en
marcha del dispositivo de evaluar y, sobre todo, con los
resultados derivados del mismo. En este sentido, el mbito del aula involucra no slo a los protagonistas que
en buena medida lo conforman, a saber, los docentes y
los alumnos, sino tambin a otros actores sociales, cuya
visibilidad depende del grado de proximidad que guarden con los miembros de la relacin educativa: padres,
familiares, amigos, futuros empleadores, etctera.
La evaluacin, en su nivel ms visible, opera como un
eje que articula el juego entre tres tipos de actores:
docentes, alumnos y padres, o quienes desempeen el
rol sustituto de stos. Pone en contacto a los protagonistas de los actos educativos con los padres, que son
actores puente entre lo escolar y lo extraescolar. En
realidad, la evaluacin es la instancia por excelencia, en
trminos de los asuntos que suelen poner en relacin
a los tres tipos de actores, porque sus resultados tienen
repercusin sobre la trayectoria educativa de los alumnos, sobre sus posibilidades futuras ms all del campo
educativo, sobre las expectativas de los padres y sobre la
responsabilidad del maestro1.
Por esta razn, docentes, alumnos y padres entran
en relacin a propsito de las calificaciones. En la escuela juegan el juego de las notas porque en las instituciones educativas se producen, negocian y distribuyen
calificaciones, que circulan luego en otros campos, bajo
la forma de certificaciones, con valor en el mercado.
Estos procesos de produccin, negociacin y distribucin de las calificaciones asumen caractersticas particulares en el interior de las escuelas y de las aulas. Las
reglas de juego, formales o informales, explcitas o
implcitas, que se configuran entre docentes, alumnos
y padres a propsito de la evaluacin, se relacionan con
las caractersticas institucionales y con la manera en que
aquellos actores desempean sus roles, es decir, con la
manera en que juegan el juego en tanto sujetos vinculados por la evaluacin. En esto inciden las concepciones
o ideas que tienen acerca de ella, la importancia que
le asignan, las estrategias de sobrevivencia desarrolladas
para jugar el juego en las condiciones dadas, etctera.
As, por ejemplo, los docentes califican a sus alumnos
en funcin de sus concepciones sobre la evaluacin, sus
expectativas sobre los alumnos, su mayor o menor contaminacin con las rutinas escolares. Los alumnos, por
su parte, responden a las evaluaciones segn el grado
de inters que tengan por lo aprendido, segn las estrategias que hayan desarrollado para pasar una prueba
o un examen, etc. Por otro lado, los padres se interesan
por las calificaciones de sus hijos y ejercen, segn los
casos, presiones sobre stos o sobre los maestros.

En un nivel menos visible, la evaluacin pone en


evidencia la vinculacin entre los dos actores presentes
en la relacin pedaggica (docentes y alumnos) y un
actor virtual: los futuros empleadores. Esta relacin se
percibe con mayor dificultad cuanto ms alejado est
el alumno del mercado laboral. Sin embargo, en la relacin pedaggica siempre est en juego el valor social de
los alumnos en tanto futuros trabajadores y ello remite,
necesariamente, a la relacin entre lo que se ensea y
aprende en la escuela, por un lado, y las exigencias que
se derivan del mundo de la produccin, por otro. En este
sentido, juegan el juego los docentes, los alumnos y
un actor social implcito, constituido por los agentes del
mercado del empleo.
Ms all de las condiciones econmico-sociales que
inciden en la distribucin desigual del capital cultural,
los procesos que fabrican el fracaso escolar en el interior de las escuelas (Ph. Perrenoud, 1990) demoran o
interrumpen, por repeticin o desercin, el juego de los
alumnos en tanto actores de ese proceso de formacin
y, por ello, ponen en peligro su valor social en el futuro
mercado de trabajo. Esto sucede, bsicamente, por dos
razones: en primer lugar, porque el capital cultural en
estado incorporado es insuficiente, es decir porque los
habitus como disposiciones duraderas relacionadas con
conocimientos especficos, valores, habilidades, etc.,
han carecido del tiempo necesario para su adquisicin y,
en segundo trmino, porque el capital cultural en estado institucionalizado, bajo la forma de certificaciones o
ttulos, no ha llegado a obtenerse2.
En cuanto a las relaciones entre los actores de este
juego, son particularmente notorias en nuestros das: los
empresarios juzgan el valor y la calidad de los contenidos educativos y de la formacin de los docentes; stos,
a la vez, discuten los parmetros en los que aqullos
fundamentan sus juicios y los alumnos, a su turno, se
incorporan a este dilogo cuando estn en condiciones
de comprender la importancia que tiene para su futuro
la calidad de la enseanza a la que tienen acceso, y esperan o requieren transformaciones sustantivas de ella.
Por ltimo, en el entramado de relaciones al que
venimos haciendo referencia, la evaluacin pone en
evidencia que, en el orden social, los docentes son trabajadores que deben responder a las orientaciones que
formulan los responsables de la toma de decisiones en
nombre de las necesidades pblicas. Lo que est en juego en este orden es, tericamente, la satisfaccin de
necesidades sociales especficas; lo cual implica, en el
campo educativo, retraducciones de estas ltimas en
diversos niveles de especificidad y en mltiples dimensiones. Ello significara, por ejemplo, que los fines y objetivos del sistema educativo sean congruentes con las
necesidades y demandas sociales relevadas; que exista

1 Bourdieu P.: Cosas Dichas, Barcelona, Gedisa, 1988


2 Bourdieu P., Les trois tats du capital culturel,
Actes de la Recherche en Sciences sociales, Pars N 30,
noviembre de 1979.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

coherencia entre las finalidades y objetivos formulados


y la estructura del sistema educativo y sus formas de
gestin; que la propuesta curricular sea compatible con
los aspectos mencionados y significativa en trminos de
la demanda y requerimiento sociales, etctera.
La identificacin de los actores del mbito escolar
y el anlisis de la imbricacin de sus prcticas con las
de otros actores que operan en otros campos muestran
por qu la evaluacin remite necesariamente a otros
espacios extraescolares como el campo econmico y el
campo social. En este sentido, puede decirse que la evaluacin est sobredeterminada y es multidimensional.
Estas caractersticas se pueden advertir cuando se
analizan algunos de los procesos que se inician en el mbito pedaggico. Se observa, por ejemplo, que, cuando
los docentes evalan las realizaciones de sus alumnos
atribuyndoles calificaciones, van creando, en el proceso
de asignacin de puntajes, realidades inexistentes hasta
ese momento: buenos alumnos, malos alumnos,
etc. De esta manera, no slo se atribuye un valor a lo
que los alumnos producen, sino a los alumnos mismos,
con lo que se cae en el conocido riesgo de anticipar el
destino escolar del sujeto y con ello su futuro valor social
(en el espacio econmico, particularmente).
Por otra parte, aun cuando los docentes no vinculen
directamente estas realidades a su propia actividad, sta
resulta de alguna manera evaluada; particularmente los
malos o insuficientes resultados que alcanzan sus alumnos suelen llevarlos a cuestionar la pertinencia social de
su tarea en el campo social y su rentabilidad en el campo
econmico.
De esta forma, cada acto de evaluacin, por las sobredeterminaciones que operan sobre l, se encuentra,
como las muecas rusas, en el corazn de una serie de
otros actos que lo envuelven3.
Se podra proceder a un anlisis parecido con los
alumnos y con los padres si se quisiera analizar las implicaciones econmicas y sociales que tienen las evaluaciones para estos actores.

Los usos sociales de la evaluacin


La multidimensionalidad de los actos evaluativos,
producto de sus articulaciones y sobredeterminaciones,
conduce a poner en duda la unidad y coherencia de lo
que se designa con el trmino evaluacin. Algo similar ocurre cuando se analizan los diversos usos sociales
que se hacen de sta.
Cuando se considera el problema de la utilizacin de
los resultados, puede observarse que el empleo de ellos
est vinculado bsicamente a:

Las intenciones de la evaluacin

Si nos preguntamos por qu se evala, la cuestin


remite inmediatamente a la intencin de quien construye el objeto de evaluacin (conocer las respuestas de
los alumnos a un conjunto de situaciones problemticas,
por ejemplo).
Si, en cambio, el interrogante est referido a para qu
se evala, la preocupacin refiere a los efectos de la evaluacin sobre la accin (qu se har con los resultados).
En el primer caso, los propsitos o intenciones del evaluador dependen de cul sea su concepcin sobre la evaluacin.
Las intenciones ms reconocidas son las de medir,
apreciar y comprender, que se corresponden con sus respectivas filosofas subyacentes.
La intencin de medir el objeto est presente cuando
ste se considera desde la perspectiva del desempeo o
actuacin (performance) del sujeto. Pero resulta imposible medir con objetividad las realizaciones de los
alumnos en una prueba, cuando se pretende dar cuenta
de sus conocimientos y competencias, porque los comportamientos educativos no pueden ser aprehendidos
de manera indiscutible con un instrumento de medicin.
No hay relacin, en este caso, entre las propiedades del
instrumento que se quiere emplear y las propiedades del
objeto que se pretende medir.
Jacques Ardoino y Guy Berger4 establecen una distincin entre la evaluacin estimativa, que constituye
un enfoque que prioriza lo cuantitativo, y la evaluacin
apreciativa, que privilegia lo cualitativo.
En el primer caso, la intencin es efectuar una lectura de lo real lo ms prxima posible a la medicin.
Como no se posee una unidad de medida indiscutible,
se trata, en primer trmino, de circunscribir, de delimitar ciertas caractersticas de la realidad a estudiar y
de estimarlas luego de la manera ms objetiva posible
valindose de consideraciones de tipo cuantitativo. Es
conocida, en este sentido, la experimentacin con un
nuevo programa de estudios o con nuevos mtodos de
enseanza para estimar en qu medida mejoran, a partir
de su aplicacin, los resultados educativos alcanzados
hasta el momento.
Tambin se evala para apreciar, para determinar
el valor de un objeto o realidad dada, con referencia a
ciertos criterios preexistentes. La evaluacin apreciativa puede dar lugar, sin embargo, al desarrollo de dos
orientaciones que se corresponden con dos filosofas
diferentes. Por una parte, a la evaluacin apreciativa con
un modelo predeterminado, que presupone un referente previo, anterior a toda recoleccin de informacin. El
referente orienta la lectura de la realidad, y la evaluacin
consiste en la bsqueda de los indicadores que permitan
dar cuenta del estado del objeto con relacin al referen-

- las intenciones de la evaluacin;


- las acciones derivadas de los resultados.

3 Hadji C., L valuation des actions ducatives, Pars, PUF,


1992, p. 22.
4 Ardoino J. y Berger G., Dune valuation en miettes
une valuation en actes, Pars, ANDSHA-Matrice, 1989.

10

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

te. En la evaluacin de los alumnos, ste puede consistir,


por ejemplo, en los perfiles de logro como perfil tipo
previamente establecido. La evaluacin procurara apreciar en qu medida las realizaciones de los alumnos se
vinculan a los indicadores seleccionados como indicadores de logro. Cuando la evaluacin parte de criterios predeterminados, responde, en general, a las caractersticas
descriptas y sigue procedimientos anlogos.
Por otro lado, la evaluacin apreciativa sin modelo
predeterminado expresa una concepcin de la evaluacin que se fundamenta en la interpretacin. Es aquella
que se interroga por el sentido. Evaluar el funcionamiento de una clase o de una escuela implica, dentro de esta
metodologa, construir -en el proceso mismo de investigacin- el referente apropiado, es decir, aquel que permita aprehender la singularidad del aula o de la escuela
que se evalan. Se apunta a comprender el objeto, no
a juzgarlo. Se evala, entonces, para volver inteligible la
realidad, para aprehender su significacin.
En este contexto, evaluar las realizaciones de los
alumnos significa comprender sus maneras de resolver
las situaciones planteadas, considerar sus errores como
indicadores de problemas a descifrar, etc. En el mismo
sentido, ms que evaluar el cumplimiento de los objetivos, interesa comprender las razones por las cuales stos
son o no alcanzados y entender qu representa esta situacin en trminos didcticos.

Las acciones derivadas de los resultados

Los resultados de la evaluacin tienen relacin directa con el objetivo de ella, con la pregunta de para qu
se evala.
En este sentido, es importante tener en cuenta que la
relacin entre quin o quines evalan y el objeto de evaluacin (los saberes de los alumnos, por ejemplo) no es
independiente del contexto en el cual aqulla se realiza.
En efecto: cualquiera sea la forma que adopte, la
evaluacin se inscribe siempre en un mbito de decisiones. Aun en sus formas ms frecuentes y simples, como
en el caso de la evaluacin implcita, que tiene lugar
en la interaccin cotidiana entre maestros y alumnos,
aqulla sirve al docente para tomar decisiones sobre sus
prcticas en el aula. Tenga o no conciencia de que la
realiza, el maestro releva una informacin a partir de
la cual organiza la interaccin con sus alumnos en trminos de lo que considera mejores condiciones para el
aprendizaje.
Cuando la evaluacin tiene carcter institucional, en
cambio, su modalidad es explcita; es un acto deliberado,
organizado, que se efecta empleando metodologas e
instrumentos de carcter variado, generalmente complejos. En este caso, el uso social externo o interno de los
resultados depender, en parte, del tipo de informacin
que permitan obtener los instrumentos empleados y, en
parte, de las decisiones previamente adoptadas, o bien
de aquellas que se adopten a partir de la obtencin de
los datos. Puede ocurrir tambin que el uso que se haga
de la informacin obtenida sea producto de una transaccin entre las decisiones iniciales y las que se derivan

del conocimiento de los datos, lo que puede conducir,


por ejemplo, a suministrar informaciones parciales.
La evaluacin est siempre relacionada, entonces, con
un contexto decisional dado. Tambin el uso interno de los
resultados puede ser diverso segn las finalidades perseguidas por quien evala y el tipo de evaluacin empleada.
Cuando se trata de una evaluacin diagnstica,
el docente procura informacin acerca de los saberes
y competencias que poseen sus alumnos en trminos
de requerimientos necesarios para una secuencia futura
de aprendizajes. En este caso, los resultados obtenidos
constituyen una informacin de base para adoptar las
decisiones que se estimen ms adecuadas: reforzar los
contenidos o proseguir con la secuencia iniciada.
Cuando se emplea la evaluacin sumativa para
comprobar en qu medida los alumnos han adquirido
los conocimientos esperados y las competencias correspondientes, la informacin orienta la decisin de promoverlos de grado, por ejemplo, o de otorgarles una
certificacin que acredite el trmino del nivel.
En la evaluacin formativa, la decisin est directamente vinculada a la seleccin y puesta en prctica de
secuencias de contenidos y de estrategias pedaggicas
que se consideran como las ms adecuadas para mejorar
los resultados obtenidos. En este sentido, la informacin
que provee la evaluacin sirve para fundar decisiones
pedaggicas.
En resumen: podemos decir que tanto el por qu
se evala (intenciones) como el para qu se evala
(uso de los resultados) determinan el tipo de evaluacin
empleada. Por otra parte, segn la forma que adopte la
evaluacin, los resultados permitirn tomar decisiones
de orden estrictamente pedaggico (como en el caso
de la evaluacin diagnstica o formativa) o decisiones
vinculadas a la certificacin, la acreditacin o a polticas
educativas orientadas hacia el sistema (como en el caso
de la evaluacin sumativa).
Desde la perspectiva de los docentes, estas ltimas
formas de evaluacin tienen, obviamente, menos inters
que aquellas que aportan informacin directa para su
tarea. En el mismo sentido, interesa menos la objetividad de los instrumentos de evaluacin que su utilidad,
en trminos de la informacin que permiten obtener sobre las producciones de los alumnos.

Algunas observaciones
sobre la accin de evaluar
Conforme a lo que se ha venido sealando, podra
decirse que evaluar implica, siempre, tomar distancia de
la realidad que se analiza para poder pronunciarse sobre
ella en un contexto decisional dominante (Hadji, 1992).
La afirmacin poder pronunciarse acerca de la realidad requiere ciertas precisiones.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

La evaluacin como lectura orientada:


la construccin del referente
En primer lugar, evaluar supone efectuar una lectura orientada sobre el objeto que se evala, en funcin
de la cual el evaluador se pronuncia sobre la realidad.
Dicho de otra manera, no existe una lectura directa de
la experiencia. Hay siempre un proceso de interaccin
entre el evaluador y la realidad a evaluar. En ese proceso,
en funcin de las propiedades de la realidad a evaluar,
el evaluador construye el referente, es decir, aquello con
relacin a lo cual se va a efectuar la evaluacin, aquello que le permitir pronunciase sobre la realidad que
evala.
En la investigacin a la que haremos referencia en
el transcurso de este libro, construimos el referente a
partir de los datos relevados mediante la administracin
de una encuesta a docentes, en la que indagamos, entre
otros aspectos, cules eran los contenidos que realmente se enseaban. Pudimos as construir el referente, que
se configur como currculum real. Ms adelante explicaremos cmo tuvo lugar ese proceso.
Es necesario precisar ahora que en la construccin
del referente intervienen distintos factores. Por una parte, inciden las expectativas que conciernen al propio objeto evaluado como, por ejemplo, el nivel de rendimiento esperado en los alumnos. En ste sentido, cuando se
evala una realidad dada, se procura comprobar si sta
presenta las caractersticas que se esperan de ella. Por
otra parte, la constitucin del referente se vincula a la
concepcin de evaluacin que se sustenta, los propsitos
que se derivan de sta y el contexto decisional en que se
inserta el proceso evaluativo. Veamos este punto.
Si se trata, por ejemplo, de la construccin de un
sistema de evaluacin en una jurisdiccin dada, el referente ltimo puede estar constituido por el currculum
prescripto. Sin embargo, por razones que obedecen estrictamente a la concepcin de evaluacin subyacente, a
los propsitos derivados de ella y al contexto decisional
en el que se inserta la evaluacin, se puede -en una primera etapa- partir de un referente constituido por aquello que los maestros afirman ensear en los distintos grados del nivel que se evala. En este caso, el relevamiento
del mapa curricular real permite construir el referente
y especificar los criterios para evaluar las realizaciones
de los alumnos.
En una segunda etapa, el referente puede ser lo que
debera ensearse segn el juicio de los maestros (recogido mediante instrumentos adecuados) y segn los
resultados que arroje la evaluacin de lo realmente enseado.
En esta metodologa de evaluacin, el referente tiene un carcter provisorio y se traslada progresivamente
del campo del ser (lo que se ensea) al del deber
ser (lo que debera ensearse).
El carcter progresivo en la construccin de los referentes permite instancias de evaluacin que, partiendo
de lo real, incluyen, progresivamente, lo prescripto. Estos principios metodolgicos responden a una concepcin orientada a recabar, desde el inicio, informacin
prxima al campo de experiencia de los protagonistas

11

de la relacin pedaggica para que los resultados obtenidos a travs de la evaluacin permitan a los docentes
reorientar los procesos de enseanza.
Por otra parte, una evaluacin que opera por niveles
como los sealados facilita el anlisis de las sucesivas
transposiciones del currculum prescripto, en las expectativas de los maestros sobre lo que debera ensearse,
y en el currculum real.
De esta forma, es posible introducir, en las metodologas de evaluacin, modificaciones que tiendan a poner
los procesos evaluativos al servicio de la accin pedaggica. Slo con la construccin del referente hemos dado un
ejemplo acerca de cmo pueden comenzar a producirse
cambios respecto a lo que se pone en juego en el mbito pedaggico. Ms adelante mostraremos que la metodologa genera tambin transformaciones en los papeles
de los actores y en las reglas del juego que los relacionan.
Volviendo ahora al anlisis del proceso de evaluacin, es necesario sealar que al referente se aade un
conjunto de criterios que guan tanto la construccin de
los instrumentos de evaluacin como los procesos de valoracin posteriores.
Por otra parte, los criterios tambin operan en los
procesos de seleccin de lo que se quiere evaluar e intervienen, asimismo, en la construccin de los indicadores y
de los datos resultantes de la evaluacin.
En este sentido, tanto el objeto que se evala
como el proceso de valoracin son construidos por
el sujeto que evala.
En la evaluacin, como en cualquier otro acto de
conocimiento, no se capta nunca directa y totalmente la realidad examinada. sta es siempre objeto de un
proceso previo de definicin o de eleccin de los caracteres que permitirn aprehenderla[...]Formulado de
otra forma, no basta con decir que la evaluacin lleva
a la realidad; todava falta construir o adoptar los indicadores de la realidad considerada. Desde este punto
de vista, la evaluacin plantea el conjunto de cuestiones
planteado de forma ms amplia por los procesos de produccin de conocimientos5.
Veamos ahora, a manera de ilustracin, algunos
de los pasos necesarios en la construccin del objeto.
Una vez que el propsito de la evaluacin ha sido determinado (conocer, por ejemplo, las realizaciones de los
alumnos en un rea de conocimiento y en un nivel especfico), se hace necesario fijar los criterios para evaluar
las respuestas producidas por los alumnos y construir
los indicadores correspondientes (tipo y nivel de conocimientos esperables, competencias requeridas, etc.). En
este proceso, la seleccin de los contenidos curriculares
por evaluar supone tambin partir de criterios que permitan efectuar un recorte tcnico en relacin con los
contenidos enseados y con las respuestas valoradas
como deseables. As, la decisin implica poner en juego
una concepcin pedaggica determinada y operar con
un marco epistemolgico especfico.

5 Barbier J.M, La evaluacin de los procesos de formacin,


Madrid, Paids, 1993, p 66.

12

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

El proceso de construccin del objeto supone, entonces, proceder por recortes sucesivos de la realidad,
los cuales se realizan conforme a criterios con independencia de que estn o no explicitados. Por esta razn,
los indicadores que se construyen no cubren nunca la
totalidad de la realidad que se evala; como se habr
comprendido, al evaluar siempre se introduce un esquema de lectura de la realidad que circunscribe, recorta,
reduce lo observable.
En cuanto a los procesos de valoracin de los resultados, nos remitimos a lo sealado anteriormente acerca
de que la evaluacin, en tanto adjudicacin de un juicio
de valor a una realidad dada, supone siempre una lectura orientada, filtrada por el referente y por los criterios que constituyen una explicitacin de este ltimo.
Es conveniente aclarar, asimismo, que los procesos
de valoracin dependen, por otra parte, de la pertinencia de los instrumentos de evaluacin construidos, es
decir, de la adecuacin entre el tipo de instrumento elaborado y las caractersticas de los procesos educativos
que se desee aprehender.
Como veremos ms adelante, la construccin del objeto y los procesos de valoracin pueden ser el resultado
de una metodologa como la que fragmentariamente
presentamos como ejemplo, de un enfoque ms cualitativo (en el cual el objeto y la valoracin se construyen
en el proceso de evaluacin) o de una combinatoria de
ambos paradigmas.

La construccin de los resultados


Con respecto al producto de la evaluacin, tambin
concierne al evaluador construir los resultados de la evaluacin, construir los datos, lo referido (con relacin
al referente). Ello significa relevar en la realidad los signos -los indicadores- que den cuenta de la presencia de
los criterios previamente establecidos.
Desde este punto de vista, lo que se denomina prueba de evaluacin tiene por funcin hacer aparecer los
signos buscados6.
Para que esto sea posible, las pruebas deben satisfacer el requisito de la pertinencia a fin de que pueda
observarse la relacin existente entre los indicadores (estructura del razonamiento de los alumnos, estrategias
que ponen en juego para la resolucin de los problemas,
etc.), el referente y los criterios en funcin de los cuales
se evala.
Si la metodologa adoptada se fundamenta en una
concepcin segn la cual la construccin del referente y de
los resultados debe responder a la intencin de contribuir
al mejoramiento de las prcticas educativas, tambin el juicio del evaluador debe servir a ese propsito. En este sentido, ms all de la utilidad de las calificaciones obtenidas,
en trminos de informacin pertinente para la gestin y de
inters para los padres, docentes y alumnos, resulta indispensable una devolucin cualitativa de la informacin.
Como cierre de este apartado y en funcin de lo que
se ha analizado hasta ahora sobre la multidimensionalidad de la evaluacin y la variacin de sus usos sociales,

quisiramos sealar que pueden identificarse dos caractersticas que permanecen como elementos constantes
en toda actividad evaluativa:
1. Siempre constituye una lectura orientada (tanto
cuando asume formas de control como cuando se
trata de la evaluacin apreciativa con referente predeterminado o de la evaluacin interpretativa).
2. Siempre consiste en un pronunciamiento acerca
de la realidad.

Los mltiples significados


de la palabra evaluacin
Como accin comunicativa, la evaluacin nos permite una aproximacin a ella desde el punto de vista
semntico7. Tanto en el diccionario, como en las acepciones ms habituales del trmino, o aquellas asociadas
con l, aparecen involucrados diferentes significados.
Recuperemos algunos de ellos:
Verificar / medir / valorar / comprender / aprehender / conocer
Juzgar / comparar / constatar / apreciar / decir / ayudar
Cifrar / interpretar / estimar / experimentar / posicionar / expresar
No obstante, los diferentes trminos -en ocasiones
complementarios, en otras opuestos- implican distintas
perspectivas desde el punto de vista de la evaluacin
educativa. Analicemos algunos de ellos, tratando de poner algn orden en la lectura.
Podramos afirmar que de los trminos enunciados
pueden desprenderse, por lo menos, dos perspectivas
sobre la evaluacin.
En primer lugar, evaluar parece involucrar el hecho
de medir con precisin; en este sentido, expresar una
cantidad precisa, cifrada. En otras palabras, alude a expresar una medida cuantificada.
En segundo lugar, evaluar implica operaciones como
estimar, apreciar, aprehender, en otros trminos, pronunciar un juicio cualitativo y, eventualmente, aproximativo sobre una realidad.
Evaluar es en consecuencia un trmino bien singular que puede expresar una cosa y su contrario: lo preciso y lo aproximado, lo cuantitativo y lo cualitativo8. Es
imposible, por lo tanto, no destacar el grado de ambigedad presente en la evaluacin y lo que ello implica a
la hora de generar y producir prcticas evaluativas en las
instituciones escolares.

6 Hadji, op. cit. p. 36.


7 Barlow M., Lvaluation scolaire. Dcoder son langage,
Lyon, Chronique Sociale, 1992, p. 60 y s.s.
8 Barlow M., op. cit., 1992, p. 63.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Por otra parte, ms all de estas dos grandes posiciones sealadas, aparecera, en algunos de los trminos
que se asocian a la evaluacin, la idea de ayuda, sostn
o apoyo, con lo que ello implica desde el punto de vista
educativo.

La evaluacin y el control
En funcin de esta ambigedad del trmino, que refleja lo que sucede en las prcticas evaluativas, Jacques
Ardoino y Guy Berger presentan la evaluacin como un
Jano moderno con un doble perfil: un lado muestra
un perfil filosfico, en la medida en que toda evaluacin
plantea el problema del valor, del sentido y de la significacin de aquello que se evala (lo que requiere un
tratamiento cualitativo); el otro lado muestra un perfil
tcnico, ya que la evaluacin constituye un dispositivo
compuesto por mtodos, tcnicas e instrumentos empleados para dar cuenta y rendir cuenta (de manera
cuantitativa) de los resultados obtenidos. Ese perfil se
asocia con la nocin de control.
Para los autores mencionados, sin embargo, ambas
nociones pertenecen a dos rdenes diferentes y a dos
paradigmas epistemolgicos distintos. Veamos la significacin de cada uno de los trminos.
La palabra control tiene su origen en la lengua
francesa, en la contraccin de la expresin contrerle,
empleada para designar el doble registro necesario
para autenticar las escrituras. Adoptada por numerosas
lenguas, la expresin ha conservado a lo largo del tiempo el sentido administrativo de su origen.
En nuestra vida cotidiana la palabra expresa mltiples
y diversas situaciones: control administrativo, control financiero, control fiscal, control policial, control aduanero, control industrial, control de calidad, etctera.
La mayor parte de los instrumentos de medicin que
empleamos son instrumentos de control. Tambin implican operaciones de control los mecanismos cibernticos
que regulan la transmisin y recepcin de informacin
en sistemas simples o complejos.
En el campo educativo, los exmenes, el registro de
asistencias, las amonestaciones, etc., son procedimientos explcitos de control.
Esta diversidad de usos y acepciones ha conducido
a considerar el control como un sistema, un dispositivo y una metodologa, constituidas por un conjunto
de procedimientos que tiene por objeto (y objetivo) establecer la conformidad (o la no conformidad), y aun la
identidad, entre una norma, un patrn, un modelo y los
fenmenos u objetos con los que se los compara, y en
ausencia de esta conformidad o identidad, establecer la
medida de su diferencia9.
Es importante retener, para la comprensin de este
trmino y su ulterior comparacin con el de evaluacin,
que el control se efecta a partir de un elemento externo y anterior (desde el punto de vista lgico, no necesariamente cronolgico) al acto mismo del control. Los
exmenes y las amonestaciones, por ejemplo, existen,
en tanto instrumentos, con anterioridad a la instancia de

13

su aplicacin y con independencia de ella.


De manera totalmente opuesta, la evaluacin -de
acuerdo con su propia etimologa- implica la problematizacin sobre los valores y sobre el sentido de lo que
ocurre en la situacin observada. Evaluar es aprehender
las significaciones propias, particulares de los actos humanos. Importa ms, en esta acepcin, la aprehensin
de los significados que la coherencia o conformidad con
un modelo dado.
La cuestin del sentido introduce otra diferencia sustancial: mientras el control siempre opera a partir de un
solo y nico referente, que es el patrn de medida como
norma homogeneizadora de lo que se mide, la evaluacin es multireferencial en tanto debe aprehender significaciones heterogneas. Est siempre abierta al sentido
y, por lo mismo, es inacabada.
A diferencia de los acontecimientos que se miden
a travs de instrumentos de control, la evaluacin se
aplica a procesos humanos en los cuales la dimensin
temporal es histrica e irreversible porque consiste en
el tiempo vivido. Por lo tanto, no puede estar referida a
estructuras objetivas en el mismo sentido que el control,
que mide los acontecimientos conforme al tiempo cronolgico: un ao, un mes, una semana, etctera.
La comprensin de las caractersticas especficas de
los procesos de control y evaluacin permite advertir que
la oposicin entre ambos es, en realidad, una cuestin
que excede el problema de los mtodos y de las tcnicas
de cada uno. Se trata, ms bien, de un problema epistemolgico que se traduce en la confrontacin entre dos
paradigmas distintos.
Sin embargo, ms all de la oposicin entre ambos
procesos, se ha observado que ellos comparten ciertas
funciones comunes, indispensables para la regulacin
crtica de la accin. Regulacin, en el sentido que permiten ajustar las acciones con relacin a un objetivo establecido, y crtica, porque dicho ajuste se realiza a partir
de una lectura orientada.
Esta propiedad compartida por ambos procesos
conduce a considerar que la regulacin crtica de la accin puede ser concebida a lo largo de un continuum
constituido por dos polos: el control, por un lado, y la
evaluacin interpretativa, por el otro.
Dentro de ese continuum se ubica, hacia el polo del
control, la evaluacin estimativa, que, como se vio anteriormente, se inclina hacia lo cuantitativo. En cierta
forma, tambin la evaluacin apreciativa con un referente predeterminado tiene ciertas propiedades que la
relacionan con el control en el sentido de que, si el referente est totalmente explicitado, el proceso evaluativo
consiste en verificar, en la realidad, en qu medida aqul
ha sido alcanzado.
En cambio, la evaluacin apreciativa sin referente
predeterminado se ubica en el polo de la evaluacin,
toda vez que carece de un modelo referencial y apela a
la interpretacin de la realidad observada. Se ubican en

9 Ardoino y Berger, op. cit., p. 12.

14

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

esta lnea, fundamentalmente, las orientaciones basadas en el paradigma interpretativo, que, como veremos
ms adelante, plantean la construccin del referente en
el proceso mismo de evaluacin.
La introduccin del concepto de regulacin crtica
permite separar la evaluacin estimativa de la medicin
en sentido estricto. Entre ambas existe una frontera, ya
que el objetivo de toda medicin es hacer una descripcin cuantitativa de la realidad, efectuar una lectura de
ella lo ms objetiva posible. La evaluacin estimativa,
en cambio, no tiene como nico objetivo medir, sino
emitir un juicio a partir de los datos que la medicin
provee. Este tipo de evaluacin pone de manifiesto que
la realidad que se evala no puede -en sentido estrictoser medida, pero, adems, que la intencin dominante
no es slo conocer sino regular. Recordemos el ejemplo
que dimos a propsito de este tipo de evaluacin cuando se empleaba en situaciones experimentales a partir
de la incorporacin de un nuevo programa o mtodo,
destinado a mejorar los aprendizajes. En ese caso, la informacin suministrada por la evaluacin para estimar la
medida en que la innovacin curricular o metodolgica
mejoraba los resultados estaba al servicio de la regulacin del proceso de enseanza, permitiendo as introducir modificaciones en este ltimo.
A pesar de que tanto el control como la evaluacin
cumplen una funcin de regulacin crtica para la accin, ambos procesos pueden ser necesarios porque dicha funcin tiene un carcter distinto en cada caso.
Habitualmente, sin embargo, suelen utilizarse los
conceptos de medicin y evaluacin de manera confusa
y poco discriminada. El trmino evaluacin, por ejemplo, es empleado de manera genrica y subsume prcticas muy heterogneas, que incluyen las de medicin en
el sentido estricto de control. Parece adecuado suponer,
como lo hacen Ardoino y Berger, que las connotaciones
negativas que afectan al proceso de control inhiben la
explicitacin de su uso en las situaciones en que se lo

emplea, con lo cual se induce a errores o confusiones


conceptuales, por una parte, y se anula o limita la posibilidad de su uso, por otra10.
En resumen, el control y la evaluacin son funciones
interdependientes, idealmente complementarias pero,
sin embargo, tericamente distintas por los paradigmas
en que se fundan. En efecto, mientras en los casos en
que se opera a partir del control se procede a establecer
el grado de conformidad de un objeto o de una situacin con relacin a una norma o a un sentido dado, en
la evaluacin, el sentido se construye en el proceso de
interaccin y de intercambio de significaciones.
Ambos procesos son necesarios para la inteligibilidad y la regulacin de las acciones, aunque no podran
ser ubicados en el mismo registro, porque el tipo de informacin que proveen es diferente.
La consideracin de algunas de las caractersticas propias de las metodologas del control y de la evaluacin
muestra sus diferencias y su posible complementariedad.
En el primer caso, el anlisis de situaciones y de comportamientos, individuales o colectivos, supone interesarse por indicadores, construidos en funcin de criterios que, a la vez, remiten a los paradigmas fundantes.
A este conjunto se agregan los instrumentos para medir
o apreciar los efectos o resultados.
Desde otra perspectiva, que se relaciona con los anlisis de tipo cualitativo, interesa describir e interpretar el
sentido de las situaciones observadas.
La complementariedad de los enfoques permitira
indagar sobre las causas de los resultados cuantitativos obtenidos, es decir, sobre el fundamento de ellos,
incorporando el uso de instrumentos que permitan recoger informacin adicional de carcter cualitativo. Tal
complementariedad permitira trabajar en el nivel de
lo implcito, de los presupuestos, de los esquemas de
valoracin, etc., que operan en la dinmica de la interaccin de los actores, en las distintas fases del proceso
evaluativo.

10 Ardoino y Berger, op. cit.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

15

Evaluacin educativa:
una aproximacin conceptual
Resulta oportuna, en trminos generales, la definicin propuesta por T. Tenbrink:
Evaluacin es el proceso de obtener informacin y usarla para formar juicios que a su
vez se utilizarn en la toma de decisiones.
a) Las funciones de la evaluacin
En trminos generales se pueden reconocer diferentes funciones frecuentemente atribuidas a la evaluacin,
las mismas no son excluyentes sino complementarias y
algunas se explican a travs de las ideas ms generalizadas que se tienen sobre la evaluacin y otras se relacionan directamente con un concepto ms completo y
complejo de estos procesos.
funcin simblica: los procesos de evaluacin
transmiten la idea de finalizacin de una etapa o
ciclo; se asocia con frecuencia la evaluacin con la
conclusin de un proceso, an cuando no sea este el
propsito y la ubicacin de las acciones evaluativas
cabe tener presente que para los actores participantes en alguna de las instancias del proceso, ste adquiere esta funcin simblica.
funcin poltica: tal como se sealara en el apartado anterior una de las funciones ms importantes
de la evaluacin es su carcter instrumental central
como soporte para los procesos de toma de decisiones. Esta funcin es claramente poltica ya que la
evaluacin adquiere un rol sustantivo como retroalimentacin de los procesos de planificacin y la toma
de decisiones sobre la ejecucin y el desempeo de
los programas y proyectos.
funcin de conocimiento: en la definicin misma
de evaluacin y en la descripcin de sus componentes se identifica como central el rol de la evaluacin
en tanto herramienta que permite ampliar la comprensin de los procesos complejos; en este sentido
la bsqueda de indicios en forma sistemtica implica
necesariamente el incremento en el conocimiento y
la comprensin de los objetos de evaluacin.
funcin de mejoramiento: en forma complementaria con la funcin de conocimiento y la identificada
como funcin poltica, esta funcin destaca el aspecto instrumental de la evaluacin en tanto permite
orientar la toma de decisiones hacia la mejora de
los procesos o fenmenos objeto de evaluacin. En
la medida que se posibilita una mayor compresin
de los componentes presentes es factible dirigir las
acciones hacia el mejoramiento en trminos de efectividad, eficiencia, eficacia, pertinencia y/o viabilidad
de las acciones propuestas.

funcin de desarrollo de capacidades: con carcter secundario, ya que no forma parte de los objetivos
centrales de cualquier accin evaluativa, los procesos
de evaluacin a travs de sus exigencias tcnicas y
metodolgicas desempean una importante funcin
en trminos de promover el desarrollo de competencias muy valiosas. Si se aprovechan adecuadamente
las instancias de evaluacin, stas contribuyen a incrementar el desarrollo de dispositivos tcnicos institucionales valiosos y poco estimulados habitualmente. Estas competencias se refieren por ejemplo a la
prctica sistemtica de observaciones y mediciones,
de registro de informacin, de desarrollo de marcos
analticos e interpretativos de la informacin, de inclusin de la informacin en los procesos de gestin,
de desarrollo de instrumentos para la recoleccin de
informacin, etc.

b)Para qu se evala
La pregunta por la finalidad de la evaluacin constituye uno de los ejes centrales junto con la definicin
del objeto a ser evaluado. En trminos generales y en
funcin de las definiciones adoptadas permiten identificar algunas finalidades principales de todo proceso evaluativo: diagnstico, pronstico, seleccin y acreditacin
estas finalidades no necesariamente se plantean como
excluyentes pero s determinan opciones metodolgicas
diferenciales.
La finalidad de diagnstico enfatiza los componentes
vinculados con la produccin sistemtica de informacin
calificada con el objeto de orientar la toma de decisiones, la gestin.
La finalidad de pronstico enfatiza el valor predictivo que pueda tener la informacin que se produce, es
decir las acciones evaluativas persiguen como propsito
la produccin de informacin con alto potencial anticipatorio y explicativo sobre los fenmenos o procesos
objetos de evaluacin.
La finalidad de la seleccin pone el nfasis en la utilizacin que tiene la informacin producida por la evaluacin
con propsitos de seleccin, un ejemplo claro de esto son
los exmenes de ingreso a diferentes instituciones educativas cuyos aspirantes superan el nmero de vacantes
disponibles. En estas circunstancias se opta por alguna
estrategia de evaluacin que con frecuencia se justifica
adjudicndole un valor pronstico a estos resultados.

16

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

La finalidad de acreditacin es la que ms se vincula


con este valor social simblico que tiene la evaluacin.
En estos casos en nfasis est puesto en las consecuencias que los resultados de la evaluacin tienen para el
individuo o la institucin objeto de evaluacin ya que
de su resultado depende la continuidad de los estudios
para un sujeto o la interrupcin parcial de su carrera
escolar, etc..

c)Los mbitos de la evaluacin


Si bien las imgenes ms frecuentes sobre la evaluacin se refieren a la misma aplicada a los alumnos,
es importante tener en cuenta que los puntos centrales
sealados en este trabajo son tambin aplicables a diferentes mbitos de la evaluacin educativa.
Frente a la tarea, es necesario precisar -junto con la
finalidad de la evaluacin el mbito dnde la misma
tendr lugar y procurar definir las herramientas metodolgicas consideradas ms adecuadas para ese mbito,
tanto en las tareas de recoleccin cuanto de sistematizacin y anlisis de la informacin.
De este modo es posible diferenciar la evaluacin:
de los aprendizajes.
de las instituciones.
del sistema educativo.
de los programas o proyectos.

d) A modo de sntesis
Todo proceso de evaluacin exitoso debe observar algunos requerimientos indispensables o atender a cierto
conjunto de premisas.
En primera instancia debe entenderse que toda accin evaluativa es una forma particular de intervencin
en la realidad. Cualquiera que sea la/s estrategia/s metodolgica/s adoptada/s los objetos de evaluacin sufren
algn tipo de modificacin como consecuencia de esta
intervencin. Este es un elemento que debe tener presente el evaluador, por una parte para no producir interferencias en demasa en el desarrollo habitual de las
acciones y por la otra
Para ponderar este efecto en la eleccin de las estrategias metodolgicas por ejemplo y el balance
general de los resultados de la evaluacin.
En segunda instancia toda evaluacin, por su naturaleza, requiere de criterios establecidos respecto de los
cuales se formulen los juicios valorativos. Ya se seal
anteriormente que el componente valorativo es uno de
los elementos diferenciales de la evaluacin respecto de
cualquier otro tipo de indagacin y en este sentido la
formulacin, definicin o construccin de criterios resulta un requerimiento ineludible.
En tercer lugar y teniendo en cuenta lo sealado en
apartados anteriores, dado que toda accin evaluativa
se sustenta en la produccin de informacin y en la bsqueda de indicios sobre aquellos procesos o fenmenos

no visibles en forma simple, es imposible plantear una


evaluacin que abarque todos los aspectos a considerar,
que incluya todos los componentes de un programa o
proyectos, que indague sobre todos los procesos de gestin, etc. Por el contrario cualquier planteo al respecto
implica siempre ciertos lmites conceptuales, metodolgicos, operativos, pero en todos los casos son lmites
que suponen alguna forma de acotamiento de los alcances de la evaluacin.
La informacin constituye el insumo bsico sobre el
que se producen los procesos de evaluacin por lo tanto
el rigor tcnico dirigido hacia la seleccin las fuentes, las
formas de recoleccin, registro, procesamiento y anlisis, as como la confiabilidad y validez resultan exigencias insoslayables a la hora de llevar a cabo cualquier
tipo de evaluacin.
Las caractersticas mismas de los procesos evaluativos traen como consecuencia una notable movilizacin
por parte de todos los sujetos de que una u otra manera se ven involucrados en ellos. Por ello es necesario
considerar en trminos generales quienes son los sujetos
alcanzados de una y otra forma por las acciones evaluativas y generar entre ellos cierta base de consenso y
aceptacin. Esto contribuye a evitar la resistencia propia
que generan este tipo de acciones en parte debido a la
endeble cultura evaluativa que en general se observa. La
comunicacin amplia sobre las finalidades de las acciones de evaluacin, los procedimientos predominantes,
la utilizacin de los resultados, la difusin de los mismos
son estrategias que promueven una mayor aceptacin
entre los involucrados.
La relevancia y la oportunidad son, por ltimo, dos
requisitos bsicos para que las acciones de evaluacin
tengan significacin. La relevancia se refiere a la centralidad de el/los objetos de evaluacin, es decir, la complejidad de un proceso de evaluacin se justifica en la
medida en que se lleve a cabo alrededor de problemas,
aspectos o fenmenos relevantes. En el mismo sentido
la oportunidad es la cualidad de la ubicacin temporal
adecuada del proceso de evaluacin y en especial de
sus resultados. Un proceso de evaluacin exitoso lo es
en buena medida en tanto sus resultados se encuentren
disponibles en el momento adecuado, para incidir en la
toma de decisiones, en los procesos de gestin en forma
oportuna.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

17

La evaluacin educativa, un criterio consolidado.


Introduccin

A tono con la tendencia internacional, en la Argentina se va consolidando el criterio de establecer sistemas


de medicin de la calidad de la enseanza, para evaluar
el nivel de educacin que se imparte en las aulas.
En este informe se plantea la evolucin que han tenido en el sistema educativo los instrumentos que apuntan
a medir la calidad de la enseanza. Ms que un anlisis
exhaustivo de los resultados, se ofrecen aportes para intentar explicar las causas de su surgimiento y expansin,
las metodologas empleadas y las distintas concepciones
acerca de para qu y por qu evaluar.

Los sistemas de evaluacin en Amrica Latina y en Argentina


Prcticamente todos los pases de Amrica latina han
iniciado, con distinto grado de aplicacin, algn tipo de
programa de evaluacin del sistema educativo. As lo seala un informe del PREAL (Programa de Promocin de
la Reforma Educativa en Amrica latina y el Caribe), que
ubica a Mxico y Chile entre los pases de la regin que
ms experiencia han desarrollado en el tema.
El trabajo, realizado por el especialista norteamericano Lawrence Wolff, asesor en educacin del Banco Interamericano de Desarrollo (BID) y publicado por PREAL
en julio de 1998, sostiene que la Argentina comenz
tardamente en 1993- con la aplicacin de pruebas de
evaluacin de la calidad. Considera que el programa
argentino est bien concebido y tiene una estrecha relacin con la estrategia de descentralizacin de los servicios educativos y con el mejoramiento de la calidad de la
enseanza. Agrega que si bien se perciben logros, an
no se han establecido objetivos de aprendizaje claros a
nivel nacional.
Slo ahora, al cabo de varios aos, se iniciaron esfuerzos sistemticos por compatibilizar el currculum, los textos escolares y la pedagoga utilizada en la sala de clases.
Los operativos de evaluacin educativa en la Argentina comenzaron en 1993, con los exmenes de lengua y
matemtica que rindieron alumnos de sptimo grado y
quinto ao del secundario. Las 38.000 pruebas administradas tuvieron carcter muestral (no incluy a todos los
alumnos, sino a una parte representativa de esos niveles
de enseanza) y reflejaron un promedio de 6,14 en lengua y de 4,63 en matemtica entre los que cursaban el
ltimo ao de la enseanza media.
Se extendieron cada ao a ms alumnos y a partir de
1997 el examen de finalizacin del secundario se ampli
a todos los estudiantes de ese nivel. As, unos 280.000

jvenes rinden anualmente las pruebas de lengua y matemtica, cuyos resultados no tienen incidencia en el
promedio final del alumno, aunque sirven para conocer el nivel de educacin que se imparte en las aulas.
Las pruebas nacieron con la intencin de promover un
certificado nacional de estudios bsicos y la pretensin
de que sus resultados influyeran en el acceso a la enseanza superior. Pero tales ideas han sido por ahora dejadas de lado y se deleg en cada jurisdiccin provincial
la decisin de que las notas de los alumnos figuren en el
boletn de calificaciones.
Mientras se conservan en forma muestral las evaluaciones en distintas etapas del nivel primario, los mayores esfuerzos se han concentrado en el desarrollo de las
pruebas de finalizacin del secundario.
Tambin los organismos internacionales, agrega Tiana, se sumaron a esta corriente y pusieron en marcha
programas vinculados con el desarrollo de las polticas
de evaluacin educativa. Ejemplo de ello son la Unesco,
la Unin Europea, la Organizacin para la Cooperacin
y el Desarrollo Econmico (OCDE) y la Organizacin de
Estados Iberoamericanos (OEI).
Creadas inicialmente para medir el desempeo de los
alumnos en lengua y matemtica, las pruebas de evaluacin se extendieron en los ltimos aos a otras reas
(fsica, qumica, historia, geografa, educacin cvica) y a
partir del ao 2000 se incorporaron tests internacionales, con pruebas reguladas por organizaciones de alcance mundial.
En consideracin de los especialistas, Chile cuenta
con uno de los sistemas de evaluacin ms amplios y
mejor administrados de Amrica latina. El informe de
Lawrence Wolf destaca haber demostrado el mayor
compromiso de largo plazo con el desarrollo de evaluaciones. El programa se inici en 1980 y desde 1988 se
denomina Sistema de Medicin de la Calidad de la Educacin. La herramienta sirvi para acompaar el plan de
reforma que promueve la descentralizacin.
De acuerdo con ese trabajo, Mxico es el pas latinoamericano con ms larga experiencia en las evaluaciones.
Pero se caracteriza por la renuencia de sus autoridades
a divulgar sus resultados. A la medicin de los conocimientos y habilidades de 2,8 millones de estudiantes,
acompaan una evaluacin sistemtica de la capacidad
de los profesores.
Brasil comenz a desarrollar en 1990 un sistema de
evaluacin nacional, pero slo a partir de 1995 comenz
a tomar muestras. Desde esa fecha se inici la evaluacin de la enseanza superior, el primero en su tipo en
la regin. El gobierno brasileo estimula a los Estados y
municipalidades a iniciar sus propias evaluaciones.

18

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

El informe de Wolff afirma que en Amrica latina las


asociaciones gremiales de profesores tienden a ser observadores pasivos, e incluso, se oponen a las evaluaciones. El especialista del BID concluye que si se desea que
stas tengan impacto en la educacin es preciso incluir
desde el comienzo a los profesores en ese proceso. Propone incluir otras herramientas de medicin, como los
estudios de desercin y repitencia, mediciones de los insumos escolares y estimaciones de los recursos mnimos
que cada escuela debera tener, observaciones sistemticas de los procesos escolares y estudios del desempeo
de los egresados en el mercado laboral.
Una de las herramientas que contribuy a consolidar
en todo el mundo el sistema de evaluacin de la enseanza es el Third International Mathematics and Science
Study (TIMSS), que compara y explica el aprendizaje en
ciencia y matemtica en 41 pases. La Argentina se sum
a estos exmenes, rendidos por alumnos de primer ao
del secundario, en el ao 2000.
La participacin de la Argentina en los tests internacionales comenz con el TIMSS y se extendi a otros
programas. El objetivo central es comparar la educacin
nacional con la de otros pases, incorporar e intercambiar experiencias y capacitar a los equipos tcnicos.
Adems del mencionado TIMSS, las pruebas internacionales incorporadas por la Argentina corresponden a
tests diseados por la IEA (Asociacin Internacional para
la Evaluacin del Logro Educativo) y la OCDE (Organizacin para la Cooperacin y el Desarrollo Econmico).
Son las siguientes:
PIRLS (Estudio sobre los avances internacionales
en lectura y alfabetizacin). Fue diseado para
proveer informacin sobre la habilidad de lectura
y comprensin de los alumnos de cuarto grado (9
a 10 aos).
CIVICS (Estudio internacional de educacin cvica). Est destinado a alumnos de 14 y 15 aos,
para investigar la forma en que los jvenes son
preparados para incorporar los valores cvicos y la
cultura democrtica y aprendan a tomar parte en
los asuntos pblicos.
PISA (Programa para la evaluacin internacional
de los estudiantes). Es una encuesta sobre habilidades y conocimientos dirigidos a chicos de 15
aos. Consiste en ejercicios sobre las reas de lectura, matemticas y ciencias y los alumnos deben
responder un cuestionario sobre su desarrollo personal y actitudes.

el Laboratorio Latinoamericano de Evaluacin de la Calidad de la Educacin y comprendi a 54.000 alumnos


de 13 pases.
El estudio analiza el rendimiento de los alumnos en
la regin y revela que el promedio de logro de los estudiantes es ms bajo de lo esperado.
La mayora de los estudiantes realiza una comprensin fragmentaria de los textos que leen, reconocen las
palabras incluidas en un texto pero no consiguen determinar por qu se dice lo que se dice o para qu se dice.
Ello podra indicar que a los nios se les ensea a decodificar, a traducir las palabras escritas al lenguaje oral,
pero sin entender el significado del texto, ni interpretar
lo que leen.
Los resultados en matemtica son generalizadamente ms bajos y desiguales. Los alumnos no asimilan los
conocimientos ni desarrollan las competencias en la
asignatura.
Como dato ilustrativo se aade que los estudiantes
cubanos alcanzaron los mayores puntajes en lenguaje y
matemtica y que las nias alcanzan mejores logros en
lenguaje y ligeramente menores en matemtica. (Nota
de la redaccin: Argentina obtuvo el 2 lugar en ambas
asignaturas, lo que la ubic a la cabeza de los dems
pases participantes).
La elaboracin de estos programas es muestra del
creciente inters suscitado en el nivel internacional por
la evaluacin de los sistemas educativos. Segn el especialista Tiana, ello ha producido como efecto una rpida evolucin de la evaluacin entendida como disciplina
cientfica y como prctica profesional.
Entre otras causas que explican ese inters, Tiana
identifica la creciente demanda social de informacin
sobre la educacin que se aprecia en los distintos pases. Una suerte de rendicin de cuentas. En pocas de
crisis, existe la necesidad de establecer prioridades en la
asignacin de recursos y para ello resulta inevitable fijar
criterios de comparacin lo ms objetivos posible, es el
pensamiento del profesor espaol.
Para Tiana, un requisito ineludible para cualquier
poltica de evaluacin es su credibilidad. Ello se vincula
directamente con la independencia institucional de los
mecanismos de evaluacin.
Otros criterios esenciales son la participacin de los
sectores implicados y el desarrollo gradual de las polticas de evaluacin, adaptadas a las circunstancias y a los
contextos determinados. Es absurdo pretender desarrollar polticas de evaluacin a partir de la importacin
de modelos forneos, es uno de los consejos que el
experto espaol transmite a sus colaboradores y discpulos.

a) Laboratorio de la UNESCO

b) Para qu evaluar

En octubre de 2000, la Oficina Regional de Educacin de la UNESCO para Amrica Latina y el Caribe
(OREALC) difundi los resultados de un estudio internacional comparativo sobre lenguaje, matemtica y factores asociados, para alumnos de tercer y cuarto grado de
la educacin bsica. La investigacin fue realizada por

Muchos autores coinciden en que uno de los objetivos primordiales de la evaluacin educativa es informar
y orientar la toma de decisiones. Esa idea, que habla de
una utilizacin instrumental de los resultados, es el
concepto que predomin en las primeras etapas del desarrollo histrico de la evaluacin. El autor W. J. Pophan

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

recuerda que en los aos 70 exista la creencia dominante de que las evaluaciones educativas deban constituir
el elemento singular ms importante para la toma de
decisiones.
Hoy, sin embargo, se tiende a considerar que la relacin existente entre evaluacin y toma de decisiones es
ms compleja. La evaluacin es uno de los elementos
que contribuyen a la toma de decisiones. Pero no el nico, advierte Tiana en sus seminarios y conferencias.
Y explica que la concepcin puramente instrumental
de la evaluacin se fue debilitando con el tiempo y abri
paso a la concepcin conceptual o iluminativa, segn
la cual la evaluacin no tendra como funcin principal la de ofrecer elementos para la toma de decisiones:
tambin contribuira a mejorar el conocimiento de los
procesos educativos. En vez de pensar en un impacto
inmediato y directo, la concepcin iluminativa considera los efectos diferidos e indirectos de la evaluacin, en
plazos de tiempo ms largos que los habituales, explica
el especialista espaol.
Algunos autores aaden una tercera concepcin.
Rossi y Freeman (1993) hablan de una utilizacin persuasiva y sostienen que la evaluacin desempeara una
funcin eminentemente argumentativa al servicio del
discurso poltico, sea ste de gobierno o de oposicin.
Muchas veces se corre el riesgo de que los gobiernos de
turno hagan pblicas slo aquellas partes del informe
que tienen un carcter halagador, advierte el especialista Miguel ngel Santos, citado por Tiana en un documento sobre Tratamiento y usos de la informacin en
evaluacin.

c) Hacia dnde vamos


En el documento Los prximos pasos: Hacia dnde y cmo avanzar en la evaluacin de aprendizajes en
Amrica latina?, elaborado en marzo de 2000 por un
equipo que dirigi Pedro Ravela y publicado tambin por
PREAL, se seala que muchos pases ingresaron en una
fase de revisin de lo hecho hasta el momento y comenzaron a considerar nuevas alternativas.
Ello responde, se explica en el informe, a los siguientes motivos:
Poco aprovechamiento de la informacin producida
por los sistemas de evaluacin. Se percibe un insuficiente impacto en el sistema educativo.
Insuficiente calidad y capacidad de evaluacin de
aprendizajes complejos en las pruebas que estn siendo
aplicadas.
Debilidades tcnicas en los procesos de desarrollo y
validacin de los instrumentos de medicin.
En el citado documento se reconoce que la instalacin de los sistemas nacionales de evaluacin ha dado
pasos importantes, pero se considera necesario definir
con qu estrategias se espera aplicarlos para que tengan
algn impacto en la mejora de los aprendizajes.
Para ello, los evaluadores deben tener claro si prefieren una evaluacin con consecuencias directas para
las escuelas y maestros que determinen la aprobacin
o reprobacin de los alumnos- o si esperan cumplir una

19

funcin fundamentalmente informativa, si desean contar con una informacin exhaustiva sobre las competencias y conocimientos de los alumnos o si prefieren
producir informacin menos detallada, limitada a cada
establecimiento.
Ante la necesidad de capacitar cuadros tcnicos para
una experiencia novedosa como la evaluacin del sistema educativo y ante la escasa masa crtica existente
en la regin, en el informe se sugiere facilitar el contacto
con especialistas de la comunidad internacional.
Tambin se considera conveniente considerar las estrategias de uso y difusin de los resultados de las evaluaciones.

Sitiografa
www.iipe.unesco.org: Oficina Internacional de
Educacin de la UNESCO.
www.iipe-buenosaires.org.ar: Sitio del Instituto
Internacional de Planeamiento de la Educacin
(IIPE), centro de formacin e investigacin creado
por la UNESCO.
www.unesco.cl/home.htm: Oficina Regional
de Educacin de la UNESCO para Amrica Latina
y el Caribe (OREALC)
www.me.gov.ar: Sitio del Ministerio de Educacin de la Nacin.
www.oei.es: Organizacin de Estados Iberoamericanos (OEI).
www.preal.cl: Programa de Promocin de la
Reforma Educativa en Amrica Latina y el Caribe
(PERAL).
www.iea.nl/Home/home.html:
International
Association for Evaluation of the Educational
Achievement (IEA) y acceso a los sitios de los
programas TIMSS, PIRLS y Civics.
www.eclac.org: Comisin Econmica para
Amrica Latina y el Caribe (CEPAL).

Bibliografa
Cmo avanzar en la evaluacin de aprendizajes en Amrica Latina?, por Pedro Ravela (editor), Richard Wolfe, Gilbert Valverde y Juan Manuel Esquivel. Grupo de Trabajo sobre Estndares
y Evaluacin GRADE/PREAL. Marzo de 2000.
La educacin secundaria. Cambio o inmutabilidad?. Anlisis y debate de procesos europeos y latinoamericanos contemporneos. Org.
Cecilia Braslavasky. Santillana. Abril 2001.

20

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Tratamiento y usos de la informacin en evaluacin, por Alejandro Tiana Ferrer. Universidad


Nacional de Educacin a Distancia (UNED), de Espaa.
Las evaluaciones educacionales en Amrica
Latina: avance actual y futuros desafos, por
Lawrence Wolf. PREAL. Julio de 1998.
III Operativo Nacional de Finalizacin del Secundario 1999. Ministerio de Educacin de la
Nacin.
La evaluacin de los sistemas educativos,
por Alejandro Tiana Ferrer. Revista Iberoamericana de Educacin de la OEI. Nmero 10. Enero/
Abril 1996.
De Ketele, J.M. y Roegiers, X. (1995) Funciones
y campos de aplicacin de la recogida de
Informacin. La Muralla, Madrid.
Arregui, Patricia. Sistemas de determinacin y
evaluacin de metas de logros de aprendizaje escolar como instrumentos para mejorar la calidad,
la equidad y la responsabilizacin en los procesos
educativos en Amrica Latina.
Seminario sobre Prospectivas de la Educacin
en Amrica Latina y el Caribe,
Chile, 23 al 25 de agosto de 2000.UNESCO.
Ravela, Pedro. (Agosto, 2001)Cmo presentan sus Resultados los Sistemas nacionales de
Evaluacin Educativa en Amrica Latina? PREAL.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

21

Evaluacin Nacional y Evaluaciones Internacionales

OBJETIVOS Y CARACTERSTICAS

A continuacin se presenta un cuadro comparativo


entre el Estudio de Evaluacin Nacional y los dos Estudios Internacionales que se aplican en la actualidad en
nuestro pas.

ONE

SERCE

PISA

Es el Operativo Nacional de Evaluacin 2007 sobre Lengua, Matemtica,


Ciencias Sociales y Ciencias Naturales
en alumnos de 3, 6 de la Primaria
y 2/3, 5/6 de la Secundaria, y
Cuestionarios de Contexto destinados a los Directores de Primaria
y Secundaria, a los Alumnos de 6,
2/3 y 5/6 y a los Docentes de 6
de Ciencias Naturales. Cabe destacar
que en el ao 2007 no se aplicaron
las pruebas de Ciencias Naturales y
Ciencias Sociales a los alumnos de la
Secundaria.

El Segundo Estudio Regional Comparativo y Explicativo (SERCE 2006)


sobre Lenguaje, Matemtica, Ciencias
y Factores Asociados en alumnos de
3 y 6 ao de E.G.B de 16 pases de
la regin.

El Estudio PISA - Programme for International Student Assessment (Programa para la Evaluacin Internacional de Estudiantes) es una evaluacin
estandarizada diseada y coordinada
por la OCDE (Organizacin para la
Cooperacin y el Desarrollo Econmico).

n De acuerdo con la Nueva Ley de


Educacin Nacional, la aplicacin del
ONE tiene entre sus propsitos:
-Evaluar determinados desempeos
alcanzados por los alumnos en el
pas, a travs de sus capacidades y
de sus contenidos, en los diferentes
niveles y reas.

El SERCE es un producto de una


construccin colectiva y participativa
de los pases latinoamericanos que
conforman la red del Laboratorio
Latinoamericano de Evaluacin de
Calidad Educativa (LLECE).
n

El estudio busca aportar informacin a los sistemas educativos de la


regin.
n

Desarrolla una propuesta de


evaluacin propia y con base en los
diseos curriculares de los pases
participantes de la Regin.
n

El enfoque desde el que los


conocimientos y capacidades son evaluados se corresponden con las habilidades para la vida en la evaluacin de
Lenguaje, Matemtica y Ciencias, y el
anlisis curricular SERCE.
n

- Aportar los insumos estadsticos y


pedaggicos, a partir de la evaluacin de los aprendizajes de los
alumnos y de los factores asociados,
para mejorar el desarrollo de polticas
educativas sustentadas en la realidad
de las aulas.
Es una propuesta de evaluacin
con base en los Contenidos Bsicos
Comunes (CBC), los diseos curriculares jurisdiccionales, los Ncleos de
Aprendizajes Prioritarios (NAP) y los
resultados de los Operativos Nacionales de Evaluacin.
n

Esta evaluacin se disea a partir de


un conjunto de estndares de contenido y desempeo, elaborados por un
grupo de especialistas en diferentes
reas de conocimiento (Comprensin
Lectora, Matemtica y Ciencias), que
se consideran imprescindibles para
que los jvenes puedan desenvolverse con xito en la sociedad y en el
mundo laboral de hoy.
Evala tambin la capacidad de los
estudiantes de organizar y regular
su propio aprendizaje (aprendizaje
autorregulado), la capacidad de
resolver situaciones problemticas en
contextos interdisciplinarios y de la
vida cotidiana (capacidad de resolver
problemas).
Para ello, los alumnos deben ser
capaces de reconocer un problema,
definir su naturaleza, usar el conocimiento para delinear una estrategia
de resolucin, ajustar la solucin que
mejor se adapte al problema y comunicar a otros la solucin hallada.

22

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

ONE

POBLACIN EVALUADA

Todas las escuelas que participan


de la muestra en el pas han sido
elegidas por la DINIECE de manera
aleatoria, es decir, al azar mediante
procedimientos estadsticos variados
para este tipo de estudio.
En las escuelas seleccionadas, se
evaluar a los grupos de alumnos de
3 y 6 aos de Primaria y de 2/3 y
5/6 aos de Secundaria. Se realizar
una extensin al mbito rural evaluando a grupos de alumnos de 3 y
6 aos de Primaria, en aproximadamente 2000 escuelas rurales.
- Escuelas Primarias: 4000, aprox.
n

SERCE

PISA

Todas las escuelas que participaron de


la muestra en nuestro pas han sido
elegidas por la UNESCO de manera
aleatoria, es decir, al azar mediante
procedimientos estadsticos variados
para este tipo de estudio. En las
escuelas seleccionadas, se evaluaron
a los grupos de alumnos de 3 y 6
aos de la escuela Primaria.

La poblacin elegida para evaluar


es la de los estudiantes que tienen
15 aos, ya que sta es la edad en
la que la mayora de ellos finaliza su
escolaridad obligatoria en los pases
miembros.
Esta evaluacin es administrada
entre 4500 y 10000 estudiantes en
cada pas.
La delimitacin de la poblacin a
estudiar en trminos de edad, y no
de curso, proporciona un punto
estndar en todos los pases, aunque
tiene el inconveniente de no tener un
referente educativo especfico en un
determinado grado de escolaridad.

n
n
n
n
n

Escuelas del pas: 169


Alumnos de 3 ao: 7.202
Alumnos de 6 ao: 7.014
Secciones de 3 ao: 309
Secciones de 6 ao: 307

- Escuelas Secundarias: 2000, aprox.


- Alumnos de 3: 80.000, aprox.
- Alumnos de 6: 75.000, aprox.
- Alumnos de 2/3: 48.000, aprox.

LOS INSTRUMENTOS

PASES Y JURISDICCIONES

CICLO DE EVALUACIN

- Alumnos de 5/6: 48.000, aprox.


La Direccin Nacional de Informacin
y Evaluacin de la Calidad Educativa
-DINIECE- aplica los Operativos Nacionales de Evaluacin -ONE- desde el
ao 1993 hasta el ao 2000 en forma ininterrumpida. Luego de la crisis
econmica y poltica los operativos de
evaluacin se realizaron en el 2002
y 2003. A partir del 2003 se decide
realizar operativos de calidad cada
dos aos, en el ao 2005 y 2007 se
realizaron los ltimos operativos de
evaluacin.

El Primer Estudio Internacional


Comparativo (1997) sobre Lenguaje,
Matemtica, y Factores Asociados en
alumnos de 3 y 4 Ao de E.G.B de
13 de pases de la regin.
El Segundo Estudio Regional Comparativo y Explicativo (2006) sobre
Lenguaje, Matemtica, Ciencias y
Factores Asociados en alumnos de 3
y 6 ao de E.G.B de 16 pases de la
regin.

La primera evaluacin tuvo lugar


en el ao 2000 con los primeros
resultados publicados en el 2001 y
a partir de entonces se contina en
ciclos de tres aos. Esta aplicacin es
de carcter cclico para poder seguir
el rendimiento de los estudiantes de
15 aos y establecer relaciones longitudinales con respecto al desempeo
acadmico de esas poblaciones.

Todas las jurisdicciones del pas

SERCE 2006/2007: 17 pases (Argentina, Brasil, Colombia, Costa Rica,


Cuba Chile Repblica Dominicana,
Ecuador, El Salvador, Guatemala, Nicaragua, Mxico, Panam, Paraguay,
Per, Uruguay y el Estado mexicano
de Nuevo Len)

PISA 2000: 43 pases


PISA 2003: 41 pases.
PISA 2006: 57 pases.
PISA 2009: 62 pases.

(*) Ver Anexo

(*) Ver Anexo

(*) Ver Anexo

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

ANEXO 1

ONE
Estructura y caractersticas de los instrumentos

Cuestionarios
de Contexto

Pruebas de
conocimiento

Tipo

Nombre

Cuadernillos

Forma de
administracin

Quin lo responde?
Alumnos de 3, 6, 2/3 y 5/6

Lengua

Del 1 al 3

Matemtica

Del 1 al 3

Ciencias Sociales

Del 1 al 3 4

Ciencias Naturales

Del 1 al 3 4

Del Alumno de 6

nico

Autoadministrada

Alumnos de 6

Del Alumno de 9

nico

Autoadministrada

Alumnos de 2/3

Del Alumno de12

nico

Autoadministrada

Alumnos de 5/6

Del Director
de Primaria

nico

Autoadministrada

Director o miembro del equipo


directivo

Del Director de
Secundaria

nico

Autoadministrada

Director o miembro del equipo


directivo

Del Docente de 6
de Ciencias Naturales

nico

Autoadministrada

Todos los Docentes de los alumnos evaluados de 6 de Ciencias


Naturales

Sesin colectiva

Alumnos de 3, 6, 2/3 y 5/6


Alumnos de 3, 6
Alumnos de 3, 6

23

24

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

SERCE
La siguiente Tabla resume la lista de instrumentos que se aplicaron en cada escuela:

Cuestionariosde Factores Asociados

Pruebas
de Logro

Tipo

Nombre

Cuadernillos

Cdigo

Forma de
Administracin

Quin lo responde?
Alumnos de 3 y 6

Lectura

Del 1 al 6

DL3 DL6

Escritura

Del 1 al 2

DE3 DE6

Matemtica

Del 1 al 6

DM3 DM6

Ciencias

Del 1 al 6

DC6

Alumnos de 6

Del alumno de 3

nico

QA3

Alumnos de 3

Del alumno de 6

nico

QA6

Alumnos de 6

Del docente

nico

QP

Autoadministrada

Docentes de lenguaje
y matemtica del aula
evaluada

De enseanza

Cinco

QL3, QL6, QM3,


QM6, QC6

Autoadministrada

Docente del rea


respectiva del aula
evaluada

De la familia

nico

QF

Autoadministrada /
Entrevista

Padres o tutores de
los alumnos de 3 y 6
evaluados

Del directivo

nico

QD

Autoadministrada

Director o miembro
del equipo directivo

Ficha de
empadronamiento

nico

FE

Entrevista

Aplicador con el apoyo del director

Sesin colectiva

Alumnos de 3 y 6
Alumnos de 3 y 6

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

25

PISA
Estructura y caractersticas de los instrumentos
Los instrumentos son de dos tipos:
n
Pruebas de rendimiento
n
Cuestionarios de contexto

Escuelas

Estudiante

1 Cuadernillo de Prueba

1 Cuestionario para
el Estudiante

1 Cuestionario para
la Escuela

Lengua
Matemtica
Ciencias

Pruebas de rendimiento
Las pruebas de rendimiento se construyen a partir
de los textos, ejercicios y preguntas aportadas por los
pases miembros de la OCDE, las que son revisadas y
seleccionadas por los rganos de la Agencia Evaluadora,
responsables del proyecto.
Las pruebas estn constituidas por tem de tres tipos:

Cerrados con cuatro o cinco opciones de respuesta para elegir la correcta.


Abiertos de respuesta corta y ejercicios abiertos
de respuesta extendida, en los que el alumno
tiene que construir y desarrollar la respuesta.
Actitudinales, a travs de ellos se obtiene importante informacin sobre contenidos actitudinales, considerados centrales en la educacin
cientfica. Los resultados de estos tems no son
contemplados en el puntaje final del rendimiento acadmico.

Cuestionarios de contexto
En Argentina se aplican dos cuestionarios, uno dirigido al estudiante de 15 aos y otro al Establecimiento
Educativo, completado por el director del mismo.
PISA propone otros instrumentos de recoleccin de
datos, como ser: Cuestionario para padres y Cuestionario de Educacin Tecnolgica, que hasta el momento
Argentina no ha aplicado.
A travs de la recoleccin de datos adicionales sobre
los alumnos (actitudes y conductas) y el entorno educativo (condiciones de enseanza y de aprendizaje) PISA
2006 puede identificar factores sociales, culturales, econmicos y educativos que se cruzan con el desempeo
de los alumnos.

Cuestionario para el alumno


En cada ciclo el estudio PISA recolecta informacin
demogrfica bsica como un componente ncleo que
replica las preguntas claves de los ciclos anteriores:
gnero, lengua materna, nivel socioeconmico de los
alumnos (tomando como elementos importantes el nivel
de educacin de los padres y la situacin econmica familiar), el desarrollo educativo de los alumnos, la disponibilidad y el uso de los recursos educativos en el hogar
y en la escuela, y las prcticas de enseanza, incluyendo
aspectos tales como los relativos al currculum, el tiempo
dedicado a la escuela y a las tareas escolares, etc.
Cuestionario para el
establecimiento educativo
El componente comn recopila informacin sobre la
situacin geogrfica de la escuela, su contexto socioeconmico, incluyendo los recursos educativos del establecimiento y su entorno, el tamao de la escuela y de sus
clases, la estructura de su personal, las prcticas escolares en el nivel de la escuela y la organizacin escolar.
Por otra parte, este cuestionario releva informacin
sobre aspectos de la rendicin de cuentas del Establecimiento ante los padres, sobre la participacin y promocin de actividades cientficas en las que participen los
alumnos y docentes, si se abordan temas relacionados
con el medio ambiente, sobre la orientacin y perspectivas que tienen los jvenes sobre su futuro y sobre la
promocin de las carreras relacionadas con la ciencia
por parte de los actores escolares.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

27

Qu pretendemos evaluar, qu evaluamos y qu


conclusiones podemos extraer de la evaluacin?

efectos fueron ambivalentes (Winkler y Gershberg, 2000).


Los aos 90 se caracterizaron por la puesta en marcha y el desarrollo de un buen nmero de reformas educativas en los pases latinoamericanos. Una vez superada
la desconfianza hacia la educacin que caracteriz a los
aos 70 y 80, los gobiernos de la regin se lanzaron a
una intensa actividad reformadora, que se dej sentir
en muchos pases y que abarc diversas esferas de la
realidad educativa (Gajardo ,1999).
Las reformas emprendidas en esos aos persiguieron
varios objetivos, entre los que cabe destacar la extensin de la escolarizacin (especialmente en la enseanza secundaria), la mejora de la calidad de la educacin
impartida y el aumento de la equidad en la distribucin
de los servicios educativos. Aunque no sea ste el lugar
para hacer un balance de la dcada, no cabe duda de
que los objetivos previstos se alcanzaron de manera muy
desigual, consiguindose algunos logros destacables en
el primer sentido de los mencionados, pero logrando
resultados mucho ms modestos en los otros dos. La
situacin es tal que un reciente informe internacional
sobre el estado de la educacin en los pases de Amrica Latina adoptaba como ttulo el lema Quedndonos
atrs, expresando de ese modo las carencias que an
aquejan a los sistemas educativos de la regin (Comisin
Internacional sobre Educacin, Equidad y Competitividad Econmica en Amrica Latina y el Caribe, 2001).

El desarrollo de polticas
nacionales de evaluacin
Las reformas de los aos 90 afectaron a diversos
aspectos de la realidad educativa, que conviene detallar.
Entre las orientaciones adoptadas por dichos procesos
de reforma, y aun sin nimo de exhaustividad, pueden
distinguirse varias lneas de actuacin que, si bien no se
dieron siempre de manera simultnea, estuvieron presentes de uno u otro modo en las diversas iniciativas
nacionales:
n

Un primer aspecto en que se avanz considerablemente, aunque no sin problemas, fue en la


redistribucin de las competencias y responsabilidades en materia de educacin, lo que supuso
la puesta en marcha de polticas de descentralizacin y de autonoma escolar, acompaadas
en ocasiones de procesos de privatizacin, cuyos

Una segunda orientacin de las reformas, especialmente influyente en muchos pases de la


regin, consisti en la introduccin de cambios
en la organizacin curricular, que llevaron generalmente aparejada una revisin de los planteamientos fundamentales en que se inspira la
definicin y la construccin del currculo.

Un tercer dominio de accin de las reformas tuvo


que ver con los procesos de formacin inicial y
capacitacin del profesorado, considerado habitualmente pieza clave de las reformas, pero no
siempre tan atendido como debiera en su papel
de agente transformador.

Un cuarto mbito de reforma estuvo concretamente relacionado con la educacin secundaria


o media, que se ha convertido en la pieza clave y
ms conflictiva de los sistemas educativos y cuya
expansin se ha ido tambin produciendo en
Amrica Latina en las ltimas dcadas (Braslavsky, 2001).

Por fin, una ltima orientacin tuvo que ver con


el desarrollo de mecanismos y modelos de evaluacin; dicho de otro modo, con la consideracin de la evaluacin, como un poderoso instrumento al servicio de la gestin de la educacin y
de la mejora de su calidad (Tiana, 1996).

Esta ltima orientacin de las reformas de los 90


cobra especial relevancia desde la perspectiva que se
adopta en este trabajo, pues es precisamente el impacto
de esos mecanismos de evaluacin lo que est sometido
a crtica y discusin. Por este motivo, merece la pena
realizar un par de comentarios adicionales sobre sus rasgos ms significativos.
Una primera observacin que cabe destacar desde
este punto de vista es que la mayora de los pases de
la regin pusieron en marcha sus propios sistemas nacionales de evaluacin a lo largo de los aos 90, generalmente en el marco de procesos ms amplios de
reforma educativa. Con configuraciones institucionales
muy diferentes entre s y con mbitos de actuacin diversos, fueron varios los gobiernos que se sumaron a la
experiencia pionera que otros pases como Chile venan
desarrollando ya con anterioridad. Argentina, Mxico,
Colombia, Bolivia o Brasil, por no citar sino algunos casos destacados, dieron pasos decididos en esa direccin,

28

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

de manera que al final de la dcada eran mayora los


pases latinoamericanos que contaban con algn tipo de
sistema nacional de evaluacin (Ravela, 2001).
Sin embargo, el indudable inters por la evaluacin
de la educacin que se despert en muchos pases no
march asociado sino mucho ms tardamente con un
inters paralelo por participar en estudios comparativos
internacionales de evaluacin del rendimiento educativo.
Aparte de la valiosa experiencia regional del Laboratorio
Latinoamericano de Evaluacin de la Calidad de la Educacin, en el que participaron un total de trece pases de
Amrica Latina y el Caribe, los estudios promovidos por
organizaciones tan reconocidas como la IEA o la OCDE
no han alcanzado todava en la actualidad cotas altas
de participacin (Tiana, 2000). Durante los aos 90,
fueron ms bien los programas de cooperacin orientados hacia el reforzamiento de los sistemas nacionales de
evaluacin, como el impulsado en esa direccin por la
OEI, los que lograron una participacin ms amplia.
As pues, y hablando siempre en trminos generales, la situacin de la evaluacin educativa en la regin
latinoamericana se caracteriza hasta el momento por la
existencia de un contraste llamativo entre el desarrollo de ambiciosos programas nacionales de evaluacin
y una limitada participacin en estudios comparativos
internacionales. El desarrollo de esos programas nacionales est basado en la puesta en marcha de un buen
nmero de instituciones y agencias de evaluacin, cuya
experiencia comienza ya a ser importante.

Una mirada a los sistemas


nacionales de evaluacin
Dando un paso ms en el anlisis, conviene que nos
preguntemos por las principales caractersticas que presentan esos sistemas nacionales de evaluacin que tanto auge adquirieron durante la ltima dcada. Tres son
las preguntas clave que debemos hacernos, que estn
ligadas respectivamente a otras tantas dimensiones de
la evaluacin: para qu se evala?, qu se evala? y
qu uso se hace de la informacin?
a) Una multiplicidad de propsitos
La primera pregunta tiene que ver con los propsitos que orientan la evaluacin de la educacin. Y anticipando la respuesta, hay que reconocer que los sistemas
nacionales de evaluacin persiguen una multiplicidad de
propsitos, al orientarse hacia la consecucin de uno o
varios de los siguientes objetivos:
n

Ayudar a las escuelas y a los profesores a mejorar la calidad de la educacin que imparten,
proporcionndoles una informacin relevante y
significativa que les permita valorar su situacin
real y sus logros.
Conocer y valorar en qu medida se estn alcanzando los objetivos educativos o los estndares propuestos para los distintos niveles o

parcelas del sistema educativo, contribuyendo


al mismo tiempo a establecer metas y niveles de
referencia.
n

Forzar a las instituciones escolares y a los agentes educativos a generar dinmicas de cambio,
por medio de la comparacin o la competencia.

Rendir cuentas a la sociedad o a las autoridades


educativas acerca de los logros conseguidos,
eliminando as la opacidad del sistema educativo y de las instituciones escolares.

Establecer sistemas de incentivos para las instituciones y para los profesionales de la educacin.

Certificar, acreditar o seleccionar instituciones,


programas de estudio, profesores o estudiantes.

Conocer y valorar la situacin del sistema educativo, as como el impacto producido por las
polticas adoptadas.

Introducir elementos de racionalidad en el debate pblico y en la construccin de polticas en


el mbito de la educacin.

Es cierto que estos propsitos no son en todos los


casos compatibles entre s, pero no lo es menos que las
polticas nacionales de evaluacin seleccionan algunos
frente a otros, les conceden distinto nfasis, establecen
prioridades entre ellos o los interpretan de diferente
manera. As, por ejemplo, un propsito compartido por
muchos, como es el caso de la incentivacin del cambio
a travs de la comparacin, no deja de ser objeto de
polmica. Mientras que en algunos pases ha llevado,
por ejemplo, a la publicacin de listas de clasificacin
de escuelas o universidades, con el nimo de forzar una
competencia abierta por conseguir ms estudiantes o
ms recursos, en otros se ha rechazado frontalmente esa
posibilidad y se han establecido mecanismos de confidencialidad de los datos que impiden ese tipo de uso,
aunque permitiendo beneficiarse de la comparacin.
Como puede apreciarse, un mismo propsito puede inspirar polticas muy diferentes.
b) Una diversidad de actuaciones
La segunda pregunta tiene que ver con la actividad
desarrollada por los sistemas nacionales de evaluacin.
Y tambin en este caso hay que anticipar la existencia de
una considerable diversidad de modalidades de actuacin, referidas a su vez a distintos mbitos educativos.
Entre los principales aspectos que son objeto de evaluacin en la actualidad, hay que destacar cuatro campos
prioritarios:
n

Un primer campo que es objeto de considerable


atencin se refiere a la evaluacin de los logros
conseguidos por los alumnos. Muchas de las actividades desarrolladas en la actualidad por los
sistemas nacionales de evaluacin, y sin duda las
ms importantes de entre ellas, estn orientadas

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

a la valoracin de los resultados de la educacin,


medidos a travs de los logros que consiguen los
estudiantes. En la mayora de los casos, esas actuaciones se centran en algunas reas curriculares
seleccionadas, especialmente las que se consideran fundamentales para la formacin de los jvenes (Lenguaje, Matemticas, Ciencias, Historia). A
veces se complementan con la evaluacin de los
logros conseguidos en otros mbitos de la formacin escolar, como la educacin cvica, el dominio
de las tecnologas de la informacin y la comunicacin o las estrategias de aprendizaje. Las evaluaciones suelen estar referidas a etapas o momentos clave del proceso educativo, tales como el
trnsito de una etapa a otra o el final de la escolarizacin obligatoria o de un determinado nivel
de estudios. En ocasiones se evala a la totalidad
de los estudiantes de los grados seleccionados,
mientras que otras veces se trabaja solamente
con muestras representativas. En cualquier caso,
es sta una lnea de actuacin prioritaria para los
sistemas nacionales de evaluacin.
n

Un segundo campo que tambin atrae considerable atencin se refiere al rendimiento que
logran las instituciones educativas. El inters
que ha generado la apertura de la caja negra
que constituyen las instituciones ha estimulado
el desarrollo de diversos programas orientados
a su evaluacin. Tanto las escuelas primarias y
secundarias como las universidades han sido el
objetivo prioritario de muchos planes de evaluacin y de acreditacin puestos en marcha en
diversos pases latinoamericanos. Esos planes de
evaluacin tienen caractersticas heterogneas,
pero suelen coincidir en conceder una atencin
especial a los resultados conseguidos por los
estudiantes, aunque sin dejar generalmente de
lado el anlisis de la organizacin y el funcionamiento de la institucin de que se trata.
Un tercer campo que ha ido desarrollndose recientemente, si bien con mayores dificultades
que los dos anteriores, es el relativo al desempeo profesional de los docentes. La conviccin
de que la actuacin de los profesores est en la
base de los resultados conseguidos por los estudiantes, aunque no sea su nico determinante, ha generado un conjunto de actuaciones de
diverso tipo, entre las que tambin se cuentan
algunos programas de evaluacin. Se trata de
acciones que no han dejado de generar cierta
polmica, tanto por sus caractersticas tcnicas
como por el tipo de uso que se hace de la informacin obtenida. En muchos casos, quizs en
la mayora, se ha optado por utilizar la evaluacin docente en el marco de planes de incentivos profesionales, eludiendo sus aspectos ms
punitivos, pero en otros casos la evaluacin se
ha utilizado como instrumento de seleccin o
de promocin profesional, o incluso se ha asociado con mejoras salariales o laborales.

29

Un cuarto campo que tambin ha atrado el inters de los sistemas de evaluacin se refiere al
impacto de las polticas educativas adoptadas.
En un contexto de reformas educativas, como
las impulsadas en la regin durante los 90, no
es extrao que se haya planteado abiertamente
la pregunta acerca de los efectos y el impacto
de los procesos de cambio iniciados y de las medidas adoptadas. Desde esta perspectiva, han
coexistido dos tendencias que deben diferenciarse, aunque ninguna de ellas haya llegado a
atraer tanta atencin como las arriba mencionadas. La primera se refiere a la evaluacin de los
programas ms emblemticos de los procesos
de reforma, los denominados programas estrella, aquellos en que las autoridades educativas
han realizado una mayor inversin y depositado
mayores esperanzas. La segunda se refiere a la
evaluacin de los propios procesos de reforma,
con la pretensin de establecer un mecanismo
de seguimiento sistemtico de sus efectos. Pese
a la limitada experiencia desarrollada en ambas
direcciones, no cabe duda de que se trata de un
campo llamado a experimentar un mayor desarrollo en el futuro prximo.

Aunque los cuatro campos mencionados no agotan


la totalidad de los mbitos abarcados por los sistemas
nacionales de evaluacin, no cabe duda de que se trata
de los ms destacados y los que han experimentado un
mayor empuje. Nuevamente hay que insistir en que no
todos ellos han sido desarrollados en todos los pases, ni
del mismo modo, ni con la misma energa, pero s puede
afirmarse que son objeto de atencin especial por parte
de los sistemas nacionales de evaluacin.
c) Una pluralidad de usos
La tercera pregunta tiene que ver con el tipo de uso
que se hace de la informacin obtenida por medio de la
evaluacin. Y al igual que en los dos casos anteriores,
tambin hay que reconocer la existencia de una pluralidad de situaciones. Intentando analizar los usos ms
habituales de los resultados de la evaluacin, podemos
distinguir cinco tendencias predominantes:
n

Una primera tendencia consiste, por paradjico


que pueda resultar, en la renuncia a hacer uso de
la informacin obtenida. Aunque no resulte muy
justificable, ni desde el punto de vista de la eficacia administrativa, ni desde la perspectiva de
la transparencia, ni menos an desde las exigencias del comportamiento poltico democrtico,
hay que reconocer que existen casos en que los
resultados de la evaluacin no son publicados, ni
difundidos, ni apenas utilizados.

Una segunda tendencia, que es la ms habitual,


consiste en la elaboracin y difusin de informes
de evaluacin. Los informes pueden ser de diverso tipo, tener una cobertura variable (nacional,
regional, sectorial) y estar dirigidos a audiencias
distintas (familias, profesores, autoridades edu-

30

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

cativas, investigadores y tcnicos, etc.), llegando


incluso a adoptar formatos diferentes. Lo importante en este caso no son las caractersticas concretas de los informes, que pueden ser de hecho
muy diferentes, sino la confianza subyacente en
que la difusin pblica de los resultados puede
satisfacer las demandas de informacin planteadas por los diversos agentes educativos. En
algunos casos se han diseado y aplicado estrategias bastante completas de difusin, logrando
un impacto social y meditico importante.
n

Una tercera tendencia consiste en la devolucin


confidencial de resultados a las instituciones
participantes en la evaluacin, con el propsito
de que puedan utilizar los datos recibidos para
elaborar sus propios planes de mejora, sin verse
necesariamente expuestas al escrutinio pblico.
Los modos concretos que puede adoptar esa devolucin son muy variables, pero lo que caracteriza esa modalidad de actuacin es su confianza
en el valor intrnseco que encierra la comparacin y en la capacidad de reflexin y de mejora
que tienen las instituciones y los agentes de la
educacin cuando se enfrentan con su propia
realidad.

Una cuarta tendencia, no excesivamente habitual y desde luego controvertida, consiste en la


publicacin de los resultados obtenidos, en forma de tablas de clasificacin. En algunos casos
la publicacin se realiza por los responsables de
la evaluacin, mientras que en otras ocasiones
se permite o incluso se favorece que sean otros
agentes (prensa, investigadores) quienes publiquen la informacin. Este tipo de uso resulta
ms amenazador para las instituciones educativas que los anteriores, motivo por el cual ha
recibido crticas y generado resistencias.

Una quinta tendencia consiste en la utilizacin


de los resultados de la evaluacin para proporcionar orientacin pedaggica a instituciones y
profesores. Este tipo de uso de la informacin
obtenida a travs de la evaluacin adopta dos
modalidades distintas. En primer lugar, son varios los sistemas nacionales que han elaborado
instrumentos tales como cuadernillos de asesoramiento a los profesores, en los que se analizan las respuestas correctas de las pruebas,
as como los errores ms habituales que suelen
producir los estudiantes, y se finaliza ofreciendo sugerencias didcticas ms o menos concretas. En segundo lugar, aunque sea de forma
ms espordica, tambin se han desarrollado
acciones de orientacin para instituciones determinadas, ayudndolas a elaborar sus propios
planes de mejora, y se han incluido anlisis de
los resultados de la evaluacin en programas
de formacin docente. Este tipo de uso, que es
menos tradicional que la difusin de informes,
est recibiendo una atencin creciente por par-

te de diversas administraciones educativas.


Igual que suceda en los epgrafes anteriores, tambin hay que decir aqu que los usos mencionados no
son necesariamente excluyentes, sino que son cada vez
ms las administraciones educativas que los combinan en
distintos modos. Es cierto que algunos de ellos resultan
contrapuestos, como puede ser la alternativa existente
entre la publicacin de los resultados de las escuelas y
la entrega confidencial de los datos, pero no siempre es
el caso. De hecho, la combinacin de la publicacin de
informes, la devolucin de resultados a las instituciones
participantes en la evaluacin y la elaboracin de instrumentos de orientacin didctica constituye una realidad
bastante extendida en los pases de la regin.
A la vista de la situacin que se acaba de exponer
cabe extraer una primera conclusin, consistente en que
los sistemas nacionales de evaluacin de la regin latinoamericana no recurren a estrategias de accin uniformes ni adoptan enfoques de evaluacin idnticos. Y esta
conclusin no es slo una confirmacin de los hechos
que se han presentado, sino que se debe incluso considerar lgico que exista tal variedad.
En efecto, si aceptamos la existencia de una multiplicidad de propsitos, una diversidad de actuaciones
y una pluralidad de usos, debemos aceptar la diversidad interna de los sistemas de evaluacin. Sern precisamente los propsitos concretos que se persigan, los
estilos de actuacin que se adopten y los usos que se
prefieran, los que determinarn las caractersticas del
sistema de evaluacin.

Una mirada a las pruebas


nacionales de logros
Como se indicaba en el apartado anterior, los sistemas nacionales de evaluacin que se han desarrollado
en los pases latinoamericanos desde los aos 90 vienen
prestando una atencin especial a la medicin de los logros conseguidos por los alumnos. Los instrumentos que
se aplican con esa finalidad son las genricamente denominadas pruebas nacionales, que merecen una mirada
especial por la importancia que han llegado a adquirir.
Las pruebas nacionales presentan bastantes diferencias de unos pases a otros, aunque tambin ofrecen
algunas similitudes. Entre sus elementos comunes, quizs el ms destacado sea la preocupacin prcticamente
universal que demuestran por evaluar el rendimiento alcanzado en Lenguaje y Matemticas. No obstante, aunque se trata de dos reas especialmente atendidas por
los sistemas de evaluacin, no hay que pensar que sean
los nicos dominios evaluados. En efecto, la medicin
de los logros en ambas reas suele ir acompaada por
la evaluacin de otras reas curriculares complementarias (entre las que sobresalen las Ciencias, la Historia o
las Lenguas extranjeras) o de otras capacidades de tipo
transversal, no ligadas necesariamente a reas espec-

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

ficas (como el autoconcepto, algunas estrategias de


aprendizaje o ciertas actitudes).
Las pruebas nacionales suelen aplicarse preferentemente en los grados terminales de las principales etapas
educativas (sobre todo, al final de la enseanza primaria y de la secundaria). No obstante, tambin se aplican
a veces en otros grados que tienen un especial inters
desde el punto de vista diagnstico (por ejemplo, el final
de ciertos ciclos), aunque la identificacin de tales puntos focales vare de unos sistemas educativos a otros. El
reciente desarrollo de algunos estudios internacionales
ligados a la edad de los evaluados y no al grado que
cursan, como es el caso del proyecto PISA de la OCDE,
an no ha encontrado traduccin directa en los sistemas
nacionales de evaluacin latinoamericanos, ni es previsible que lo haga a corto plazo. El inters que despierta
la valoracin de los logros conseguidos al final de determinadas etapas supera hoy en la regin al que suscita
la valoracin del nivel de formacin a ciertas edades. La
participacin en aquellos proyectos internacionales parece satisfacer suficientemente las preguntas que puedan plantearse en este ltimo sentido.
Dependiendo del propsito que gua a la evaluacin,
las pruebas se aplican en ocasiones a poblaciones o cohortes estudiantiles completas, mientras que en otros
casos se limitan a muestras representativas de estudiantes. La primera decisin permite hacer un uso ms singularizado de los datos obtenidos, tal como comparar el
rendimiento de diversas escuelas o estudiantes, mientras
que la segunda es ms adecuada para usos diagnsticos. Por otra parte, hay pases en que las pruebas se aplican cada ao, aunque es ms frecuente que se adopten
ciclos plurianuales, de distinta duracin.
Las pruebas nacionales parecen satisfacer ampliamente a las autoridades educativas, a la vista del uso tan
extenso que se hace de ellas. No obstante, en un anlisis
ms profundo tambin presentan insuficiencias y problemas, que requieren una consideracin ms atenta.
Tres son las principales insuficiencias de las pruebas
nacionales de logros que han subrayado los especialistas
(Ravela, 2000). La primera consiste en la existencia de algunas debilidades tcnicas en los procesos de desarrollo
y validacin de los instrumentos de medicin. La segunda se refiere a la insuficiente calidad y capacidad que las
pruebas ofrecen para evaluar aprendizajes complejos. La
tercera tiene que ver con el insuficiente aprovechamiento que suele hacerse de la informacin obtenida.
Los problemas a los que se ha hecho alusin son de
distinto tipo. Para comenzar, habra que sealar algunos
relativos al diseo y confeccin de los instrumentos de
evaluacin:
n

Un primer problema tiene que ver con el contenido de las pruebas, asunto que plantea dos tipos
de dificultades. La primera se refiere a la relacin
que debe existir entre las pruebas y los objetivos
educativos. Lo deseable es que las pruebas estn
referidas a los objetivos establecidos en el sistema educativo, de manera que permitan valorar
el grado en que se alcanzan las metas previstas. Aunque este planteamiento resulta lgico y

31

plausible, plantea dificultades cuando no existen


objetivos explcitos (lo que sucede en muchos casos), o cuando los objetivos de cada curso o etapa
se formulan de manera poco concreta. Cuando
no se pueden determinar los objetivos de forma
precisa, resulta sin duda ms difcil elaborar las
pruebas. La segunda dificultad se refiere al tratamiento de la diversidad curricular existente
entre diferentes regiones, distritos o escuelas. La
mayora de los modelos curriculares aplicados en
Amrica Latina conceden cierto grado de autonoma a las autoridades regionales o distritales o
a las propias escuelas para definir el currculo. En
consecuencia, no resulta sencillo hacer pruebas
que abarquen todas las enseanzas efectivamente impartidas en todo el sistema educativo. Las
soluciones posibles son dos: elaborar pruebas de
mnimos, lo que implica reducir el campo de evaluacin, o elaborar pruebas comunes a partir de
un consenso profesional o tcnico. Ambas soluciones son utilizadas en la regin, sin que quepa
conceder prioridad a una de ellas sobre la otra.
n

Un segundo problema tiene que ver con algunas


disyuntivas que se plantean en relacin con el
diseo y la confeccin de las pruebas. La primera
disyuntiva se refiere al enfoque de las pruebas,
que pueden estar centradas en los conocimientos
adquiridos por los alumnos o abarcar tambin el
desarrollo de actitudes. Las pruebas que miden
unos y otras no son iguales, ni siquiera plantean
las mismas exigencias tcnicas, lo que obliga a
decidir su enfoque. Una segunda disyuntiva se
refiere al carcter de las pruebas, pudindose
optar por la elaboracin de pruebas referidas a
criterios de logro o por la confeccin de pruebas de tipo normativo, adaptadas a una distribucin de resultados estadsticamente normal.
La tercera disyuntiva se refiere a la delimitacin
de la poblacin sujeta a evaluacin, que permite
optar por pruebas de aplicacin censal (dirigidas
a toda la poblacin estudiantil de un determinado grado o edad) o de tipo muestral (dirigidas a
muestras representativas de poblacin).

Otro grupo importante de problemas estn relacionados con la explicacin de los resultados conseguidos.
La mayora de los sistemas nacionales de evaluacin no
suelen contentarse con medir los logros alcanzados por
los estudiantes, sino que tambin pretenden explicar por
qu se producen tales resultados. Sin embargo, dicho
intento de explicacin tropieza con varios problemas y
dificultades:
n

Un primer problema tiene que ver con el grado


de coherencia realmente existente entre la evaluacin y el currculo.

Como se sealaba al comienzo del trabajo, el


desarrollo de los sistemas nacionales de eva-

32

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

luacin ha ido generalmente asociado a otros


procesos de reforma curricular.
n

No obstante, esa simultaneidad no ha asegurado siempre la existencia de una adecuada coherencia entre ambos aspectos. En los casos ms
extremos, puede incluso decirse que ambos
procesos se han desarrollado en direcciones divergentes. Cuanta ms importancia se ha concedido a las pruebas, mayor ha sido su impacto
sobre el desarrollo curricular.
Un segundo problema, menos complejo pero
no menos influyente, est relacionado con el
tipo de interpretacin que permiten los diversos modelos de pruebas. Como se sealaba
ms arriba, dos son los modelos de pruebas utilizados ms habitualmente: criteriales y normativas. Las pruebas de tipo criterial proporcionan
una base slida para valorar la suficiencia de los
logros conseguidos, ya que se apoyan en una
definicin operativa de los objetivos que deben
alcanzarse. Por el contrario, las pruebas de tipo
normativo exigen alguna operacin adicional
para poder valorar la suficiencia de los logros
alcanzados, dado que se refieren a situaciones
de normalidad estadstica. La existencia de estos dos modelos alternativos obliga a considerar cuidadosamente qu usos se quieren hacer
de las pruebas, antes de decidir el que conviene
aplicar.
Un tercer problema se refiere a las dificultades
conceptuales y tcnicas que se plantean a la
hora de buscar explicaciones. Por una parte,
hay que reconocer la debilidad terica de los
modelos habituales de produccin educativa,
que en buena parte deriva del problema que
plantea la causalidad en educacin. Esa debilidad influye en la seleccin de los factores
que se consideran asociados al rendimiento,
pocos de los cuales cuentan con confirmacin
emprica slida (Scheerens, 1996). Adems, la
explicacin de los resultados se ha basado tradicionalmente en la distincin de dos tipos de
variables, unas extrnsecas y otras intrnsecas.
Mientras que las primeras (nivel socioeconmico y cultural, recursos destinados a la educacin) han sido objeto de anlisis abundantes,
las segundas (organizacin del sistema educativo, procesos institucionales, procesos de aula)
vienen resultando menos concluyentes y an
requieren investigaciones adicionales.
Un cuarto problema tiene que ver con la voluntad que a veces existe de buscar muchas vas de
explicacin de los resultados obtenidos, que puede traducirse en un exceso de datos recogidos.
Cuando ese exceso de datos va unido, como ocurre en ocasiones, con una insuficiente delimitacin conceptual de las variables seleccionadas y
con limitaciones en el anlisis estadstico de los
datos, la situacin puede llegar a resultar inmanejable. La consecuencia suele ser una evidente

infrautilizacin de los datos y una ineficiencia en


el uso de los recursos disponibles.
n

Un ltimo grupo de problemas que plantean las


pruebas de logros estn relacionados con el uso
que se hace de las mismas y con las interpretaciones a que dan pie:
- Un primer problema tiene que ver con
los distintos tipos de uso que pueden hacerse de la informacin. Los resultados de
la evaluacin pueden utilizarse con una finalidad formativa, orientada al desarrollo
institucional y profesional de los agentes
implicados, para fomentar la competicin,
e incluso para impulsar polticas de mercado en el mbito educativo. Obviamente, las
interpretaciones que permiten tales posibilidades son diferentes y persiguen distintos
efectos. Es necesario sealar que, si bien
esos son los extremos de un continuo de
posibilidades de uso, existen otras opciones
intermedias en que dichos propsitos pueden combinarse en diferente proporcin.
La decisin sobre el tipo de uso que se pretende hacer de los datos de la evaluacin
condiciona en buena medida el diseo de
la evaluacin.
- Un segundo problema tiene que ver con
la existencia de diversas posibilidades de
comparacin (con una norma o criterio,
con otras realidades semejantes, consigo
mismo a lo largo del tiempo), cada una de
las cuales plantea sus propias exigencias y
ofrece diferentes posibilidades. El uso de la
comparacin plantea un problema complicado, que tiene que ver con la justicia de la
comparacin. El intento de dar respuesta a
esa cuestin ha impulsado el desarrollo de
tcnicas de clculo del denominado valor
aadido.
- Un tercer problema consiste en el excesivo
reduccionismo en que a veces se cae cuando se pretende interpretar los resultados
de la evaluacin. Ese defecto puede venir
originado por una excesiva limitacin del
contenido de las pruebas, que no permite
llegar a conclusiones razonables sobre el logro de los objetivos propuestos, o por una
interpretacin poco rigurosa de los datos,
que puede incluso llegar a distorsionar las
interpretaciones.

A la vista del anlisis que acaba de hacerse de las pruebas nacionales de logros, se llega a la conclusin de que
constituyen la prctica de evaluacin ms habitual en la regin, encontrndose bastante asentadas en la actualidad.
No obstante, como se ha puesto de manifiesto, presentan
algunas deficiencias y problemas que debern solventarse
en el futuro, si se quiere asegurar su credibilidad y se pretende que contribuyan a mejorar la educacin.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Algunas reflexiones finales


Si bien es cierto que las pruebas nacionales de logros constituyen la prctica ms habitual de evaluacin
educativa en Amrica Latina, no es la nica que se desarrolla en la actualidad. Como se indicaba en las primeras
pginas del trabajo, existen otros tres mbitos que son
tambin objeto de evaluacin. El primero corresponde
a los programas y las polticas de educacin, que despiertan especial inters en el actual contexto de revisin
de las reformas educativas puestas en marcha durante
los aos 90. En sus formas ms elaboradas ha servido
para disear mecanismos de seguimiento de los procesos de cambio, aunque se trata de una prctica escasamente implantada. El segundo mbito corresponde
a las instituciones educativas, para cuya evaluacin se
han diseado y aplicado algunos modelos, tradicionales
o innovadores, aunque sin que pueda decirse que esta
tendencia haya alcanzado todava suficiente desarrollo.
El avance ms importante que se ha logrado en este sentido consiste en la expansin de una conciencia nueva
acerca del valor que tiene la evaluacin institucional con
vistas a la mejora de la calidad de la educacin. El tercer
mbito, y al mismo tiempo el ms controvertido, corresponde al desempeo docente. Aunque en algunos pases se han desarrollado mecanismos de valoracin de la
tarea docente que estn conectados con la medicin del
rendimiento de los estudiantes, no existen todava experiencias suficientes ni de larga tradicin en este sentido.
Las experiencias que han explorado otras direcciones
son an ms escasas.
En conjunto, puede afirmarse que estos otros tres
mbitos abarcados por la evaluacin educativa estn actualmente infra-desarrollados en relacin con las pruebas de rendimiento. Hay que subrayar, no obstante, que
la evaluacin de tales aspectos puede contribuir notablemente a la mejora de la calidad de la educacin. Precisamente de esa potencialidad procede el inters que
despiertan en muchos pases de la regin.
Como conclusin final, cabe afirmar que la evaluacin
es una realidad integrada que cuenta con varios componentes: estudios internacionales de evaluacin, estudios
diagnsticos nacionales del rendimiento, evaluacin de las
instituciones educativas y otras evaluaciones complementarias de diversos aspectos de la actividad educativa (preparacin y desempeo de los docentes, impacto de las polticas aplicadas, funcionamiento de algunos programas re
levantes). Aunque no todos ellos se han desarrollado con
la misma energa, los sistemas nacionales de evaluacin no
deberan infravalorar la importancia de concebirlos de forma integrada, de manera que las acciones emprendidas se
refuercen mutuamente.
El colofn a estas reflexiones que provoca la mirada
a los sistemas nacionales de evaluacin educativa consistira en que la evaluacin debe considerarse como un
instrumento para la mejora de la calidad de la educacin
y no como una panacea capaz de solucionar todos los
problemas que la educacin plantea. Otra consideracin
diferente de sta no puede sino conducir a algunos errores de cierta importancia.

33

Bibliografa:
-

Braslavsky, C. (2001): Educacin secundaria: cambio o inmutabilidad?, Buenos Aires, Santillana.

Comisin Internacional sobre Educacin, Equidad y


Competitividad Econmica en Amrica Latina y el
Caribe (2001): Quedndonos atrs. Un informe del
progreso educativo en Amrica Latina, Santiago de
Chile, PREAL.

Gajardo, M. (1999): Reformas educativas en Amrica Latina. Balance de una dcada, Santiago de
Chile, PREAL (documento de trabajo n 15).

Ravela, P., ed. (2000): Los prximos pasos: Hacia


dnde y cmo avanzar en la evaluacin de aprendizajes en Amrica Latina?, Santiago de Chile,
PREAL.

Ravela, P. (2001): Cmo presentan sus resultados


los sistemas nacionales de evaluacin educativa en
Amrica Latina?, Santiago de Chile, PREAL.

Scheerens, J. (1996): Can the School Effectiveness Knowledge Base Guide School Management? en II International Conference on School
Management. Participative Management and
School Evaluation, Bilbao, Universidad de Deusto,
pp. 98-119.

Tiana, A. (1996): La evaluacin de los sistemas


educativos, Revista Iberoamericana de Educacin,
n 10, 1996, pp. 37-61.

Tiana, A. (2000): Cooperacin internacional en


evaluacin de la educacin en Amrica Latina y el
Caribe. Anlisis de la situacin y propuestas de actuacin, Washington, BID Departamento de Desarrollo Sostenible.

Winkler, D. y Gershberg, A.I. (2000): Los efectos de


la descentralizacin del sistema educacional sobre
la calidad de la educacin en Amrica Latina, Santiago de Chile, PREAL (documento de trabajo, n 17).

34

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

35

Las evaluaciones educativas que


Amrica Latina necesita

Presentacin
Este documento aborda la importancia, propsitos y
usos de las evaluaciones estandarizadas a gran escala de
aprendizajes y/o logros educativos en Amrica Latina y
el Caribe, bsicamente en los niveles primario y medio.
Est dirigido a quienes formulan polticas educativas, docentes, acadmicos, empresarios, sindicatos, organizaciones sociales, agencias de financiamiento y medios de
prensa, con el fin de aportar al debate y decisiones sobre
la evaluacin estandarizada en los sistemas educativos.
Se entiende por evaluacin estandarizada en gran
escala a aquella que permite producir informacin comparable acerca de los desempeos de estudiantes pertenecientes a distintos contextos culturales y regionales e,
incluso, a distintos pases, y que ofrece un panorama de
la situacin de un pas o de un estado o provincia, aun
cuando ello se haga a veces a travs de una muestra no
demasiado grande (por ejemplo, 5.000 estudiantes) .
El documento se centra en evaluaciones de aprendizaje definido como el cambio ocurrido en los conocimientos y capacidades de cada estudiante a lo largo del
ao lectivo y/o de logro educativo, entendido como la
acumulacin de conocimientos y capacidades a lo largo
de toda la vida del estudiante. No se pretende orientar
aqu acerca de otros aspectos tambin importantes de la
evaluacin del quehacer educativo, como son las evaluaciones del desempeo docente, de las polticas educativas, de los centros educativos o aquellas que realizan los
docentes en las aulas, entre otras. Tampoco se pretende
incursionar en la evaluacin en el nivel terciario ni en las
pruebas de seleccin para el mismo.
Los contenidos de esta publicacin ayudarn a quienes toman decisiones de poltica educativa a comprender y analizar las diversas opciones existentes en cuanto
a los propsitos y usos de los sistemas de evaluacin y
las implicancias de cada una de ellas, de modo de orientarlos en cmo concebir una estrategia de evaluacin.
Es preciso evitar el simplismo y la ingenuidad con
que muchos piensan en la evaluacin, lo que genera sistemas mal concebidos y deficientemente implementados
y, como consecuencia de ello, efectos perversos para el
sistema educativo, malgasto de recursos y descrdito
de la evaluacin externa entre los docentes. Por el contrario, se debe reconocer la gran variedad de aspectos
que deben considerarse al momento de implementar un
sistema de evaluacin o reformar uno existente. Para
que la inversin en evaluacin valga la pena, debe tener propsitos claros, una filosofa orientada a construir
una visin de responsabilidad compartida en relacin a
la educacin, un diseo tcnico de calidad y adecuado

a los propsitos, una orientacin fuerte a apoyar a los


docentes en su tarea y una voluntad poltica manifiesta
de encarar acciones dirigidas a resolver los problemas y
deficiencias que la evaluacin ponga de manifiesto.
Asimismo, requiere de una inversin importante
para construir una unidad tcnica competente y un plan
de largo plazo, lo cual lleva tiempo y no puede ser improvisado

I. Por qu son importantes las evaluaciones nacionales de logros educativos?


La realizacin de evaluaciones estandarizadas como
forma de conocer mejor la dinmica de procesos y resultados en los sistemas educativos es cada vez ms
frecuente a nivel regional y mundial, en pases de muy
diversas culturas y orientaciones ideolgicas de gobierno. Prueba de ello es la creciente participacin de los
pases en las evaluaciones internacionales como PISA,
TIMSS y PIRLS, y regionales como SERCE (en Amrica
Latina) y SACMEQ (en frica), as como el desarrollo de
diferentes tipos de sistemas nacionales y subnacionales
de evaluacin.
En algunos casos, la evaluacin est motivada por
una preocupacin por la formacin ciudadana y la consolidacin de una sociedad democrtica; en otros, por la
productividad de la fuerza de trabajo y la competitividad
de la economa nacional, por las oportunidades para el
desarrollo integral de las personas y sus posibilidades de
participacin en la sociedad del conocimiento, o por la
equidad y la visin de la educacin como uno de los
caminos para superar la pobreza. Muchos sistemas de
evaluacin parten de una combinacin de los intereses
anteriores. En casi todos los casos se asume que la evaluacin puede servir:
como base para adoptar polticas educativas mejor fundamentadas;
para mejorar la gestin de los sistemas educativos;
como instrumento para la colaboracin y el
aprendizaje continuo al interior de los mismos.
A continuacin se destacan los aportes principales
de este tipo de evaluaciones.

36

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

La evaluacin estandarizada ayuda a visualizar los resultados educativos del conjunto de estudiantes

cul es el grado de equidad o inequidad en el


logro de dichos aprendizajes;

La educacin es una actividad opaca, en el sentido


de que sus resultados no son directa ni inmediatamente
observables. Un buen docente puede apreciar si sus estudiantes estn aprendiendo o no y cmo, pero no todos
los docentes tienen los mismos criterios de valoracin,
los cuales estn fuertemente vinculados a su experiencia
profesional: su formacin general y especfica, su conocimiento de la disciplina que ensea, su capacidad para
percibir los procesos y dificultades de los estudiantes, su
familiarizacin con diversos tipos de alumnos, etc. Dada
la heterogeneidad del cuerpo docente de un pas, no es
posible obtener una visin de la situacin del conjunto
por la mera agregacin de los puntos de vista individuales. La evaluacin estandarizada apunta a lograrlo.

cmo evolucionan a lo largo de los aos, tanto


los niveles de logro como la equidad en el acceso
al conocimiento por parte de los diversos grupos
sociales;

Las evaluaciones entregan informacin sobre el


real acceso al conocimiento y a las capacidades que
alcanzan los alumnos, ms all de la cantidad de
aos de estudio que tengan
En dcadas pasadas, la equivalencia entre permanencia en el sistema educativo y acceso al conocimiento
y a las capacidades simblicas se daba por descontada
y los indicadores para valorar a los sistemas educativos
estaban relacionados con el acceso (matrcula, cobertura, retencin, etc.). En esos tiempos, las mayoras ms
pobres y con menor capital cultural no accedan al sistema educativo o apenas cursaban unos pocos aos de
educacin bsica. Con la progresiva universalizacin del
acceso al sistema educativo, hoy muchos estudiantes
procedentes de los sectores sociales ms desfavorecidos
llegan en desventaja en trminos de manejo del lenguaje oral (oficial) y escrito, con lo cual la equivalencia entre
aos de estudio y acceso al conocimiento y a las capacidades ya no es tal. Por otra parte, el crecimiento del
acceso a la profesin docente no fue acompaado por
garantas de calidad en su formacin, lo cual tambin
cuestiona la mencionada equivalencia.
As, ms aos en el sistema educativo no necesariamente significa que todos los nios y jvenes estn incorporando los conocimientos, actitudes y capacidades
necesarias para la vida personal y social, los que son cada
vez ms sofisticados y complejos. Las evaluaciones buscan dar luces sobre lo que est ocurriendo al respecto.

Las evaluaciones estandarizadas ayudan a hacer visibles un conjunto de aspectos centrales de la labor
educativa
Entre otras cosas, las evaluaciones estandarizadas
aportan informacin sobre:
en qu medida los alumnos estn aprendiendo lo
que se espera de ellos al finalizar ciertos grados o
niveles;

en qu medida y cmo las desigualdades sociales


y culturales inciden sobre las oportunidades de
aprendizajes de los estudiantes;
cul es la diversidad de prcticas educativas existentes en escuelas y maestros y cmo las mismas
se relacionan con los aprendizajes de los estudiantes en diversos contextos sociales;
cmo influyen las condiciones de la enseanza
(situacin de los maestros, recursos disponibles,
tiempos de estudio, etc.) en los progresos de los
alumnos;
qu efecto tienen en los logros educativos las inversiones en programas educativos, los cambios
en la estructura del sistema, los cambios curriculares, los programas de formacin, la adquisicin
de material educativo, etc.

Un sistema de evaluacin de aprendizajes y/o logros educativos puede aportar informacin importante a diversos actores sociales
En la medida que el sistema produzca y comunique
adecuadamente informacin sobre los aspectos antes
indicados, puede ser un instrumento clave de mejora,
enriqueciendo la comprensin de la situacin educativa
y la toma de decisiones en diversos mbitos:
Las autoridades y los encargados de formular
polticas educativas pueden comprender mejor
los problemas de la enseanza y del aprendizaje;
hacerse cargo de las carencias en que se desarrolla la labor docente y desarrollar polticas pertinentes para apoyar el trabajo de las escuelas.
Las evaluaciones tambin les permiten valorar,
sobre una base de evidencia emprica slida, el
impacto de las polticas y programas que han
impulsado y los probables efectos de las que se
proponen impulsar.
Los directivos y docentes pueden, a partir de una
mirada externa sobre los logros educativos en el
conjunto del sistema, comprender mejor lo que
estn logrando y lo que no estn logrando sus
propios estudiantes, cmo estn aprendiendo y
qu dificultades tienen. Pueden aprender de las
experiencias de otros docentes y escuelas que
trabajan con estudiantes de caractersticas tanto
similares como diferentes a los propios. Pueden
tomar decisiones ms apropiadas acerca de qu

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

aspectos del currculo enfatizar y enriquecer sus


propios modos de evaluar el aprendizaje de sus
estudiantes.
Los supervisores y encargados de la formacin
de docentes pueden apoyarse en la informacin
sobre los logros y dificultades educativas en el
conjunto del sistema para estudiar en profundidad las debilidades en el enfoque o en la prctica de la enseanza que probablemente generan
algunas de las insuficiencias constatadas en los
aprendizajes. Desde esa nueva perspectiva, pueden mejorar su labor tanto de orientacin a los
docentes como de formacin de los mismos. En
particular, los supervisores pueden beneficiarse
de contar, como instrumento de apoyo para su
labor, con un mapa de las escuelas que las caracterice tanto en trminos de la composicin sociocultural de su alumnado como de sus logros
educativos.
Los padres y madres de estudiantes, adecuadamente informados, pueden comprender mejor
qu se espera que sus hijos aprendan, qu es
lo que estn logrando y qu pueden hacer para
colaborar con la escuela y con el aprendizaje de
sus hijos.
La ciudadana en general estar mejor informada sobre lo que acontece al interior del sistema
educativo y, por tanto, estar ms atenta a los
temas y problemas de la educacin. Estar, adems, en mejores condiciones para exigir, tanto a
los poderes pblicos como a los profesionales de
la docencia, la mejora continua de la educacin
que se brinda a los nios, nias y jvenes, y el
uso responsable de los recursos que se destinan
a la educacin.

El desarrollo de un sistema nacional de evaluacin


estandarizada puede obligar a realizar una discusin informada sobre qu aspectos del currculo
formal son exigibles a todos los estudiantes y a
definir con claridad qu es lo que todos los estudiantes deberan haber aprendido al final de cada
ciclo educativo.
La mayora de los currculos en la regin estn constituidos por largas listas de objetivos y temas, todos
deseables pero no todos realizables. La elaboracin de
pruebas nacionales obliga a definir qu es lo que debe
ser considerado como fundamental y, por tanto, lo que
todos los estudiantes deben saber y ser capaces de hacer.
Se pueden usar distintos trminos para designar a estas
definiciones: estndares, competencias fundamentales,
indicadores de logro, niveles de desempeo, metas de
aprendizaje, criterios de suficiencia, entre otros.

Para no confundir

37

Al desarrollar estos sistemas nacionales de evaluacin,


es necesario explicitar tanto el rol que estos cumplen
as como las funciones que no cumplen y cules son sus
limitaciones, para evitar as los riesgos de mala interpretacin respecto a lo que son y la informacin que
recogen y difunden.

Una evaluacin estandarizada aporta informacin fundamental e indispensable sobre


la calidad educativa, aunque no sea un indicador completo de la misma.
No todos los objetivos valiosos de la educacin estn
incluidos en este tipo de evaluaciones. Hay una gran
cantidad de saberes, actitudes, valores y aprendizajes
relevantes que no pueden por la dificultad de medirlos
de esta manera o no deben porque son propios de
cada entorno local y, por tanto, no son exigibles a todos
los estudiantes del pas formar parte de una evaluacin estandarizada.

La evaluacin estandarizada de aprendizajes y/o logros educativos es un componente


esencial de un sistema integral de evaluacin educativa, pero no es el nico tipo de
evaluacin relevante.
Tambin tienen importancia la evaluacin realizada en el
aula por los docentes, la evaluacin del desempeo docente, la evaluacin de los centros educativos, la evaluacin de las polticas educativas, la evaluacin del uso de los
recursos, la evaluacin de la relevancia del currculo, etc.

La evaluacin es condicin necesaria, pero


no suficiente, para mejorar la educacin.
Si bien existe alguna evidencia de que la mera existencia y difusin de informacin tiene algn impacto sobre
ciertos actores, es necesario recordar que la evaluacin
es apenas uno de varios elementos clave de la poltica
educativa que debe procurarse estn adecuadamente
alineados: la formacin docente inicial y en servicio, la
carrera y condiciones para el trabajo docente, la gestin escolar, la supervisin, los diseos curriculares, los
libros y materiales educativos, una inversin de recursos
proporcional a las necesidades de las diversas poblaciones y una accin decidida por parte de los responsables
educativos para resolver los problemas detectados, entre otros.

La evaluacin estandarizada externa solo


tendr efectos positivos sobre la educacin
si es concebida, percibida y empleada como
un mecanismo de responsabilizacin pblica
de todos los actores vinculados al quehacer
educativo.

38

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Existe siempre el riesgo de que la poltica educativa se concentre en la implementacin de evaluaciones,


pero que luego no se tomen acciones concretas para
enfrentar y resolver los problemas que las mismas ponen
de manifiesto. Muchas veces las autoridades se limitan
a informar de los resultados y transferir toda la responsabilidad por la solucin de los problemas detectados a
las escuelas y familias. Otras veces, toda la responsabilidad se atribuye a los docentes, quienes, por su parte,
tienden a transferir toda la responsabilidad a los padres
o al contexto. Lo importante es evitar ingresar en una
dinmica de culpabilizacin y, por el contrario, intentar
construir una lgica de responsabilidad compartida en
torno a la educacin.

II. La situacin de la evaluacin estandarizada en Amrica Latina


Los sistemas nacionales de evaluacin estandarizada
se desarrollaron con fuerza en toda la regin durante
los aos 90. Algunos pases han mantenido sus sistemas en funcionamiento con continuidad, aun cuando se
produjeran cambios de enfoque o variaciones en la institucionalidad de los mismos. Otros pases han tenido importantes discontinuidades y han tenido que comenzar
prcticamente desde cero en repetidas oportunidades o
tendrn que hacerlo en el futuro prximo.
Adems de ello, actualmente:
Diecisis pases estn participando en el Segundo Estudio Regional en 3 y 6 de primaria que
lleva adelante la OREALC/UNESCO: Argentina,
Brasil, Chile, Colombia, Costa Rica, Cuba, Ecuador, El Salvador, Guatemala, Mxico, Nicaragua,
Panam, Paraguay, Per, Repblica Dominicana
y Uruguay.
Seis de estos pases participan en PISA 2006 y
otros tres se incorporaran al ciclo PISA 2009.
Algunos pases de la regin han participado adems (o lo estn haciendo) en los estudios de
Matemtica y Ciencias (TIMSS), Lectura (PIRLS) y
Educacin Cvica que lleva adelante la International Association for the Evaluation of Educational
Achievement (IEA).
Durante los ltimos 12 aos ha estado activa en
la regin la red de los sistemas de evaluacin organizada en torno al Laboratorio Latinoamericano de Evaluacin de la Calidad de la Educacin
(LLECE) de OREALC/ UNESCO, en la que participan actualmente casi todos los pases latinoamericanos. Esta red se rene dos veces al ao y
es un espacio de intercambio de experiencias y
formacin en el mbito de la evaluacin.
Ms recientemente se ha constituido el Grupo

Iberoamericano de PISA, integrado por Argentina, Brasil, Chile, Colombia, Espaa, Mxico, Portugal y Uruguay.

Las evaluaciones a gran escala en la regin no solo


son ms frecuentes sino tambin estn mejorando
Los principales cambios y mejoras que se observan
en los ltimos aos incluyen:
Mayor transparencia en la difusin de los resultados. Parece haberse superado la etapa en que
las autoridades en varios pases interferan en la
divulgacin de los resultados de las evaluaciones
cuando estos no les parecan favorables.
Tendencia creciente a pasar de pruebas normativas que tienen como propsito principal ordenar comparativamente a los estudiantes a
pruebas de criterios, que se enfocan en qu es
lo que los estudiantes saben y son capaces de
hacer. Asimismo, crecientemente se incluye en
las pruebas de criterios una definicin de cul es
el resultado que todos los estudiantes deberan
alcanzar para que su desempeo pueda ser considerado satisfactorio.
Mejora de las capacidades tcnico-metodolgicas para la construccin de pruebas y para el
procesamiento de los datos. Existen esfuerzos
por desarrollar pruebas que evalen un rango
de conocimientos y capacidades ms amplio y
que incluyan preguntas de respuesta construida.
Se han ido incorporando tambin metodologas
ms sofisticadas para el tratamiento de datos,
como la Teora de Respuesta al tem y el Anlisis
Multinivel.
Creciente atencin a la difusin y uso de los resultados. Se ha ido comprendiendo que no basta
con implementar una evaluacin y publicar un
informe, sino que es necesario desarrollar una
estrategia de divulgacin y un conjunto de reportes apropiados a cada una de las audiencias a
las que se quiere llegar. Las Unidades de Evaluacin tienen una mayor conciencia acerca de los
usos apropiados e inapropiados para cada tipo
de evaluacin, aunque esto muchas veces no
est suficientemente claro entre quienes toman
decisiones de poltica.
Mayor preocupacin por la investigacin de los
factores que inciden sobre los aprendizajes. Si
bien falta mucho por hacer en trminos metodolgicos e interpretativos para producir buenos
trabajos de investigacin, en la mayora de los
pases hay conciencia de que es preciso avanzar
en la investigacin y en la construccin de hiptesis sobre cmo las dinmicas de la gestin de
los sistemas educativos, los procesos escolares,

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

las prcticas de enseanza y las decisiones de


poltica educativa influyen en las oportunidades
de aprendizaje de los nios y nias.
Creciente participacin de los pases en evaluaciones internacionales. Esto ha tenido consecuencias positivas en las Unidades de Evaluacin
y en la calidad de su trabajo: ha contribuido a la
construccin y acumulacin de capacidad tcnica en evaluacin, ha facilitado el intercambio y
el desarrollo de un lenguaje comn entre pases
y ha ayudado a mejorar la calidad de diversos
procesos tcnicos (elaboracin de pruebas, incorporacin de preguntas de respuesta abierta,
muestreo, control de las aplicaciones, anlisis de
datos, modos de difusin, entre otros).

Las principales debilidades presentes en los sistemas


de evaluacin estandarizada en la regin se observan en la estrategia de difusin, en el uso de los resultados y en la calidad tcnica de las evaluaciones.
A pesar de las mejoras previamente mencionadas,
persiste un conjunto importante de debilidades que es
preciso abordar:
Es frecuente que desde el nivel poltico se demande la implementacin de grandes operativos
de evaluacin sin propsitos claramente definidos y en tiempos y con recursos absolutamente
insuficientes para hacerlo tcnicamente bien.
An no se tiene claro que no cualquier evaluacin sirve para cualquier propsito y que es necesario disear cuidadosamente el sistema de
evaluacin para el largo plazo, en funcin de
propsitos y usos claramente establecidos. Esto
es determinante para las decisiones relativas a la
utilizacin de censos o muestras, a los grados y
disciplinas que sern evaluados, la periodicidad
de las evaluaciones, el tipo de pruebas y escalas
de reporte, entre otros.
Falta una mayor discusin pblica sobre qu debe
ser evaluado y qu aspectos del currculo deben
haber sido enseados a todos los estudiantes al
concluir determinados niveles educativos. Como
resultado de ello, las metas y/o estndares de
aprendizaje no son claros. Mientras no exista
claridad al respecto, tampoco existir claridad ni
para la enseanza ni para la evaluacin. Esta tarea requiere de un amplio debate social y de un
trabajo tcnico coordinado entre las unidades de
currculo y de evaluacin.
Para mejorar la investigacin sobre los factores
que explican los resultados, falta mejorar mucho
los instrumentos complementarios que se aplican junto con las pruebas y concebir diseos de
investigacin ms ambiciosos: estudios longitu-

39

dinales, estudios de valor agregado y estudios


cualitativos, entre otros.
Los Ministerios de Educacin han tenido, por
lo general, una limitada capacidad para concebir, formular e implementar polticas que den
respuesta a los problemas identificados en las
evaluaciones. Falta para ello mayor articulacin
entre las Unidades de Evaluacin y otros actores educativos relevantes, dentro y fuera de los
Ministerios de Educacin, y mayor articulacin
entre la evaluacin, el desarrollo curricular, la
formacin inicial y el desarrollo profesional de
los docentes.
Las acciones para la divulgacin y uso de los resultados de las evaluaciones an son insuficientes, en particular para lograr que los docentes los
comprendan y utilicen y para que los resultados
se incorporen a la cultura escolar.
En la mayora de los pases perdura la prctica de
divulgar resultados de tipos de escuela, escuelas
individuales, estados o provincias, sin una adecuada consideracin de los contextos socioculturales en que operan las instituciones y subsistemas educativos. Esto conduce a interpretaciones
y conclusiones errneas sobre la eficacia educativa de dichas instituciones o subsistemas. Para
ello es necesario realizar evaluaciones de valor
agregado, que implican dos mediciones sobre
una misma poblacin en distintos momentos.
Sobre este aspecto la experiencia en la regin es
mnima.
En muchos pases persisten importantes debilidades tcnicas en el diseo de las evaluaciones:
excesiva simplicidad de la mayor parte de las preguntas y dificultad para elaborar preguntas que
permitan evaluar capacidades cognitivas complejas; focalizacin de las evaluaciones en los logros
educativos correspondientes a un grado especfico, lo que impide saber qu han aprendido quienes an no logran lo esperado para dicho grado;
deficiencias en la conformacin de las muestras
y en la forma de estimar y reportar los errores de
medicin; y debilidades para establecer mediciones que sean comparables en el tiempo.
No hay suficientes profesionales calificados para
disear y conducir este tipo de evaluaciones, lo
que se agrava por la falta de continuidad de los
equipos tcnicos de los pases, muchas veces por
razones de ndole poltico-partidaria. Esto dificulta la acumulacin de conocimiento y experiencia
en la regin y ha dado lugar a que muchos pases
tengan que comenzar desde cero con sus sistemas de evaluacin, algunos aos despus de
haber tenido uno en funcionamiento y haberlo
desmantelado.

40

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

El riesgo de las malas evaluaciones

participacin en pruebas internacionales

Solo una evaluacin tcnicamente buena y cuyos


resultados sean conocidos y utilizados de manera apropiada, puede tener algn impacto en la mejora de los
aprendizajes. Como es obvio, una evaluacin cuyos resultados son poco conocidos y utilizados supone un ejercicio estril y un desperdicio de recursos.

Las pruebas nacionales pueden ofrecer una mirada


ms apropiada acerca de qu aprenden los estudiantes
de aquello que se les est enseando, mientras que las
pruebas internacionales pueden servir para ubicar la situacin del pas en relacin a lo que saben y son capaces
de hacer los estudiantes en otras sociedades y enriquecer el debate sobre el currculo nacional y el enfoque
de la enseanza. Los pases deberan analizar cuidadosamente en qu pruebas internacionales participar, teniendo en cuenta lo que cada una pretende evaluar y su
pertinencia en relacin a los objetivos nacionales. Parece
recomendable participar peridicamente en al menos
una evaluacin regional o internacional, en el marco de
la poltica de prioridades que cada pas defina.

Ms graves an son aquellas situaciones en que evaluaciones tcnicamente malas son ampliamente difundidas o en que las evaluaciones son empleadas para fines
diferentes de aquellos para los cuales fueron concebidas
y diseadas, lo cual puede tener efectos dainos para el
sistema educativo. El razonamiento segn el cual lo que
importa es evaluar y difundir resultados como mecanismo de rendicin de cuentas, sin importar la calidad de
la evaluacin, es una falacia que puede hacer retroceder
los sistemas de evaluacin e imposibilitar una discusin
seria de las ventajas y desventajas de la rendicin de
cuentas o responsabilizacin por los resultados.

III. Los propsitos y los usos de los resultados de las evaluaciones estandarizadas
Sea en la implementacin de un sistema de evaluacin o en su reforma, es necesario considerar algunas
opciones bsicas de acuerdo a lo que se espera de l.

El primer paso es definir cul ser el propsito del


sistema de evaluacin y para qu se usarn sus resultados
Es preciso considerar diversas opciones, que no son
necesariamente excluyentes. Un sistema puede combinar varias de ellas, pero es importante tener conciencia
de que cada opcin requiere de un determinado diseo y tiene exigencias tcnicas y de costos diferentes. Se
debe analizar si el sistema nacional de evaluacin ser:
de carcter diagnstico (para alumnos, escuelas
o sistema educativo), sin consecuencias directas
para los estudiantes, cuya finalidad principal es
enriquecer con informacin de calidad las percepciones, decisiones y acciones de diversos actores del sistema autoridades y cuerpos tcnicos,
supervisores, directivos, docentes, estudiantes
y sus familias para mejorar la enseanza y el
aprendizaje.
de certificacin de los logros educativos de los
estudiantes, cuyo propsito central es establecer quines han alcanzado los conocimientos y
desempeos necesarios para aprobar un curso o
nivel y, en consecuencia, aprueba o reprueba.
Es necesario tambin establecer un adecuado balance entre la implementacin de pruebas nacionales y la

Evaluaciones para la certificacin de los


aprendizajes de los estudiantes
Un sistema de evaluacin para certificar los aprendizajes de los estudiantes a travs de exmenes
nacionales de alta calidad tcnica tiene ventajas
asociadas a la transparencia y responsabilidad por
los resultados.
Hoy es comn que dos estudiantes que han aprobado un mismo nivel educativo en dos regiones distintas
de un pas, posean en realidad niveles de conocimiento
muy diferentes. Los sistemas de evaluacin para la certificacin dan transparencia al valor de los certificados educativos ante la sociedad. Adems, dichos sistemas hacen
responsables tanto a los docentes como a los propios estudiantes por alcanzar los conocimientos y capacidades
que evala el examen, lo cual tiene impactos positivos
sobre el aprendizaje. En todo caso, la evaluacin externa
con propsitos de certificacin es ms apropiada para
los ciclos superiores del sistema educativo, sobre todo
hacia el final de la educacin media.
Un sistema de evaluacin para la certificacin implica algunos requerimientos que son costosos
Por una parte, las pruebas deben ser de carcter censal y cada estudiante debe tener ms de una oportunidad para rendirla, lo cual requiere implementar varios
operativos de evaluacin cada ao. Por otra parte, las
pruebas deben tener una amplia cobertura curricular,
lo cual requiere que sean extensas, en lo posible con
preguntas de respuesta construida (que tienen un importante costo de codificacin) y deben abarcar varias
asignaturas o disciplinas.
Un sistema de evaluacin para la certificacin puede generar tensiones importantes que es necesario
anticipar
Si las pruebas son exigentes, ello puede conducir a niveles de reprobacin muy altos, que afectaran principalmente a los sectores sociales ms vulnerables y podran

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

agudizar problemas como la desercin y el desempleo


juvenil, lo cual las hara insostenibles desde el punto de
vista social y poltico. Por ello, es preciso acompaar este
tipo de evaluaciones (en realidad todo tipo de evaluaciones, pero estas en particular) con acciones pedaggicas
de carcter complementario y compensatorio. Proponer
estndares altos implica asumir responsabilidad sistmica por proporcionar todas las oportunidades para
aprender: textos, materiales, instalaciones y preparacin
de maestros, entre otros. Existen diversos caminos para
enfrentar este problema:
Establecer que la evaluacin estandarizada constituya solo una parte del proceso de certificacin
de aprendizajes de los estudiantes (por ejemplo,
el 40% de su calificacin final). El resto de la nota
correspondera a las evaluaciones que realizan
los docentes a cargo de los estudiantes. Si bien
en este caso se mantiene el problema respecto
a la heterogeneidad de los criterios de evaluacin empleados por los docentes, es una forma
de combinar la evaluacin externa y la interna,
e incluso de aportar a los docentes una mirada
externa que les permita reflexionar sobre sus propios criterios.

41

expectativa exigentes sin que ello produzca un fracaso


generalizado. Asimismo, ayudan a construir una cultura de la evaluacin y a acumular capacidad tcnica, de
modo que, cuando se analice la posibilidad de establecer
un sistema con consecuencias, existan las condiciones
para hacerlo apropiadamente. Una de las alternativas a
considerar entre los usos de carcter formativo es la de
liberar una prueba completa para que sea aplicada en
forma autnoma por parte de los maestros, con el fin
de ayudarles a identificar dificultades de alumnos individuales y de enriquecer su repertorio de instrumentos
de evaluacin.
El principal problema de estas evaluaciones es que
pueden carecer de impacto si no se toman algunas
acciones complementarias
Las evaluaciones de carcter diagnstico y formativo
pueden resultar intrascendentes si no van acompaadas
de una estrategia precisa y de una inversin importante
para asegurar la divulgacin de los resultados y su uso
en acciones educativas posteriores, puesto que su efectividad se juega en que los diferentes actores reciban,
comprendan y utilicen los resultados.
Por esto hay que tener presente que:

Establecer un perodo de transicin hacia estndares nicos y universalmente aplicables. Durante dicho perodo, el foco principal se centra en
la mejora o progreso de los estudiantes de cada
escuela respecto a su situacin anterior, y no nicamente en el cumplimiento del estndar absoluto de certificacin.
La peor respuesta que podra darse a este problema
sera establecer un porcentaje fijo de reprobacin, por
ejemplo, no debe reprobar ms del 10% de los estudiantes. Ello implica utilizar pruebas ms fciles y, por lo tanto, enviar a estudiantes, familias y educadores una seal
equivocada respecto a las expectativas de aprendizaje.

EVALUACIONES DE CARCTER DIAGNSTICO Y


FORMATIVO
Un sistema de evaluacin de tipo formativo y sin
consecuencias directas para los estudiantes tiene
ventajas en trminos de costos, posibilidades de
diseo y de establecimiento de estndares altos, y
aporte a una cultura de evaluacin
Los costos de aplicacin de estas pruebas pueden ser
menores, dado que pueden hacerse en base a muestras
y aplicarse solo en algunos grados claves y cada cierto nmero de aos. Por otra parte, las pruebas pueden
disearse con carcter matricial, en que no todos los
estudiantes responden a las mismas preguntas, sino a
bloques de las mismas, lo cual permite trabajar con una
cantidad muy grande de preguntas y obtener un anlisis ms detallado de los distintos aspectos del currculo.
Estos sistemas permiten definir estndares o niveles de

Para que los resultados de este tipo de evaluaciones tengan impacto sobre las polticas educativas, se debe invertir tiempo en el anlisis y discusin de los mismos por parte de diversas reas
del Ministerio de Educacin y otros actores relevantes, en la comprensin de los problemas y deficiencias que los resultados ponen de manifiesto y en la concepcin de acciones e inversiones
apropiadas para hacerles frente. Las autoridades
deben estar dispuestas a someter sus polticas y
decisiones al escrutinio de la ciudadana, para lo
cual es necesario tambin invertir en la comunicacin apropiada y permanente de los resultados
a la opinin pblica.
Para que los resultados tengan impacto sobre las
prcticas de enseanza, es imprescindible asimismo invertir tiempo en el anlisis e interpretacin
de sus implicancias didcticas: si los estudiantes
no son capaces de resolver cierto tipo de situaciones, qu es lo que se est haciendo de manera insuficiente o inapropiada en las aulas y qu
es lo que se debera hacer? Este tipo de anlisis
debe ser realizado tanto por especialistas en la
didctica de las reas evaluadas como por los
docentes, creando para este ltimo efecto espacios permanentes y sistemticos de formacin
en servicio y de trabajo colectivo al interior de
las escuelas. Es muy importante que los maestros puedan analizar la mayor cantidad posible
de tems para poder identificar cules revelan un
bloqueo importante para el desarrollo de nuevos
conceptos o capacidades. Sin embargo, siempre
ser necesario conservar el carcter confidencial

42

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

de una parte de los temes para poder realizar mediciones comparables en el tiempo.
Para que los resultados tengan impacto sobre la
motivacin de los estudiantes y sobre la actitud
de las familias hacia el aprendizaje escolar, es
necesario proveerles de informacin apropiada
y comprensible acerca de lo que se considera
imprescindible haber aprendido en cada grado
o nivel educativo y de las acciones que pueden
contribuir al logro de dichos aprendizajes.
Evaluar con una perspectiva amplia
Es muy importante que las pruebas no se limiten
a evaluar los conocimientos y competencias correspondientes a un nico grado (aquel en que se aplica
la evaluacin), sino que incluyan una perspectiva ms
amplia de niveles de desempeo desde ms bsicos a
ms complejos a lo largo de varios grados, de modo
de identificar qu han aprendido los estudiantes en grados anteriores y qu necesitan ahora. De este modo, los
docentes podrn constatar y subsanar las deficiencias
en los aprendizajes de cursos previos, que impiden a los
estudiantes continuar avanzando y los resultados sern
tiles no solo para los docentes del grado evaluado, sino
tambin para los de grados anteriores. El nfasis no estar
puesto en comunicar a los docentes que los estudiantes
aprueban o desaprueban, sino en comunicar que
estn en diferentes puntos de un continuo de aprendizaje, en el que todos pueden y necesitan progresar.
Las pruebas de tipo diagnstico pueden tener carcter muestral o censal, dependiendo de la estrategia de cambio educativo
El carcter censal o muestral tiene diversas implicancias, aunque tambin es posible combinar una aplicacin
por muestras controlada con una distribucin censal de
las pruebas para su aplicacin en forma autnoma por
parte de las escuelas, con fines formativos y de anlisis
de resultados e identificacin de estudiantes que necesitan apoyos complementarios.
Las pruebas a base de muestras sirven para tener
un diagnstico global del sistema. Requieren de
un cuidadoso diseo de la muestra, de modo de
obtener informacin representativa para los niveles de desagregacin en los que se desee actuar
y tomar decisiones (regional, provincial, municipal; urbano y rural; escuelas indgenas, etc.). El
impacto de los resultados de estas pruebas depende principalmente de las medidas de poltica
educativa que se tomen a nivel central y de una
estrategia de difusin apropiada que llegue a todas las escuelas.
Las pruebas censales sirven para obtener informacin de cada una de las escuelas e incluso de
los alumnos. El impacto de sus resultados depende de la devolucin de la informacin a cada

comunidad educativa, con un enfoque y un formato adecuados para promover una mayor participacin y compromiso a nivel local. La informacin tambin puede resultar muy til para dirigir
mejor las polticas hacia distritos o escuelas con
mayores problemas, ya que se puede contar con
un mapa de resultados de todas las escuelas,
zonas, provincias, tipos de escuela, etc.

Uso de las evaluaciones para establecer


incentivos
Adems de las opciones examinadas, existen polticas de evaluacin estandarizadas dirigidas, a establecer incentivos econmicos en funcin de los
resultados o a propiciar un mercado competitivo
entre las escuelas
Tres son las principales modalidades en este tipo de
polticas:
Utilizar los resultados para construir rankings de
escuelas y hacerlos pblicos, como forma de: fomentar la responsabilidad de las escuelas por sus
resultados; entregar a las familias informacin
para la toma de decisiones sobre la escuela a la
cual enviar a sus hijos; promover la competencia
entre los centros educativos por obtener mejores
resultados.
Utilizar los resultados para entregar incentivos
econmicos a las escuelas que obtienen mejores
resultados o mejoras en relacin a sus resultados
en evaluaciones anteriores.
Utilizar los resultados como indicador de la calidad del trabajo de cada docente y como criterio
para otorgar incentivos econmicos.

Estos enfoques de uso de la evaluacin a veces se


constituyen, con o sin intencin deliberada, en un
mecanismo por el cual el Estado renuncia a su responsabilidad por los resultados del sistema educativo
En ocasiones, el Estado limita su accionar a la realizacin de evaluaciones, la entrega de resultados y el
establecimiento de incentivos en funcin de estos resultados, transfiriendo la responsabilidad por los resultados a la relacin entre escuelas y familias, como si se
tratase de un asunto entre actores privados, en lugar
de ocuparse de crear las condiciones para que la enseanza resulte efectiva proveyendo los recursos necesarios, constituyendo un elenco docente adecuadamente
formado y estableciendo mecanismos idneos para la
evaluacin y la orientacin de la labor de las escuelas.
Este modo de operar no considera la complejidad de la
labor educativa, en especial en medios socialmente desfavorecidos, y la necesidad de invertir en la creacin de
capacidades como herramienta principal para la mejora
de la enseanza y el aprendizaje.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Criterios bsicos para la divulgacin y uso


de los resultados
La responsabilidad por los resultados debe ser
compartida por diversos actores
Debera evitarse todo uso de los resultados con el fin
deliberado o implcito de culpabilizar o responsabilizar
de manera exclusiva a ciertos actores. La responsabilidad
debe ser compartida entre las autoridades nacionales y
regionales, los cuerpos docentes, los estudiantes y sus
familias.

La responsabilidad por los resultados requiere de


una adecuada combinacin entre las exigencias y
los apoyos a las escuelas y a los docentes
Por un lado, es necesario que escuelas y docentes
asuman su responsabilidad respecto al objetivo de que
todos los estudiantes aprendan lo que se espera de ellos.
Simultneamente, es deber de las autoridades establecer las polticas de apoyo necesarias para que escuelas
y docentes puedan desarrollar su labor de manera apropiada. Un esquema de exigencias altas sobre escuelas
y docentes sin los correspondientes apoyos solo puede
generar malestar y desnimo. Un esquema de apoyos
sin contrapartes y exigencias puede generar autocomplacencia.

Es inapropiado utilizar los resultados de las pruebas estandarizadas como indicador principal de la
calidad del trabajo del docente o de la escuela
Esto es importante, en particular si no se ha controlado el efecto de otros factores internos y externos al sistema educativo y si no se tiene en cuenta que el aprendizaje depende tambin de la motivacin y esfuerzo
personal del estudiante. Adems, dado que los resultados de pruebas estandarizadas no son el nico indicador
de la calidad de la educacin, es preciso considerarlos en
conjunto con otros aspectos relevantes como la retencin, la pertinencia y relevancia de lo que se ensea, la
formacin de valores y hbitos o la formacin ciudadana. Debe evitarse la identificacin del trmino calidad
con resultados de pruebas estandarizadas.

Para facilitar la comprensin y uso de los resultados, no basta con ofrecer resultados numricos
Es fundamental ilustrar a los distintos actores acerca
del tipo de tareas que los estudiantes debieron resolver en las pruebas. Este criterio debe combinarse adecuadamente con la necesidad de mantener el carcter
confidencial de un conjunto de preguntas que puedan
emplearse en futuras evaluaciones para establecer mediciones comparables en el tiempo. Si bien no se pretende que los docentes utilicen pruebas estandarizadas

43

para evaluar a sus estudiantes, el conocimiento y la


comprensin de las mismas pueden contribuir a mejorar
sus modos de evaluar y a desarrollar una cultura de la
evaluacin.
Al reportar las diferencias de resultados en funcin
de la composicin sociocultural del alumnado de
las escuelas, se debe cuidar de no crear un sistema
de expectativas de logro diferenciado por grupos
sociales
En todo caso, las diferencias deberan producirse en
las polticas para crear condiciones apropiadas para ensear a los grupos ms desfavorecidos. Se debera descartar tambin cualquier tipo de uso de los resultados
que, directa o indirectamente, propicie la seleccin de
estudiantes por parte de las escuelas a los efectos de
mejorar sus resultados.

Advertencias sobre la comparacin de resultados entre escuelas


Aunque los resultados de pruebas estandarizadas
no dan cuenta en forma exhaustiva de la calidad
educativa de una escuela, s aportan informacin
relevante de los niveles de desempeo alcanzados
La informacin sobre resultados en dos pruebas estandarizadas en general, lenguaje y matemtica no
constituye por s misma una evaluacin de la calidad
educativa de las escuelas ni debera presentarse al pblico como tal. La calidad de una escuela incluye otros
aspectos relevantes y valorados por los docentes, estudiantes y familias, tales como el desarrollo emocional,
las relaciones interpersonales, la formacin cvica y en
valores, entre otros. Aun as, la informacin comparativa acerca de los niveles de desempeo alcanzados por
los estudiantes en una diversidad de escuelas puede ser
relevante para los equipos docentes de las escuelas, en
la medida en que enriquece la percepcin de la propia
labor, permitindoles ubicar los logros de sus estudiantes en el contexto de los alcanzados por los estudiantes
en otras escuelas.

Para que la comparacin entre los niveles de desempeo de los estudiantes sea apropiada, se deben considerar sus condiciones sociales de origen
Los resultados acadmicos de las escuelas deberan
poder compararse con los de escuelas de similar composicin social, dado que los retos y dificultades que implica ensear a estudiantes de origen desfavorecido (o de
lengua materna indgena) son muy diferentes que en el
caso de estudiantes de familias con educacin secundaria completa y/o terciaria. Tambin hay que tener en
cuenta las tasas de desercin de las escuelas y sus polticas de seleccin de estudiantes, dado que una escuela
puede mejorar sus resultados a travs de la exclusin de
estudiantes con dificultades.

44

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Las comparaciones entre escuelas deben considerar la diferencia entre medir el logro educativo y
medir el aprendizaje
En rigor, si el propsito es entregar a las escuelas,
familias y/o autoridades, informacin acerca de la capacidad de ensear de los docentes y las escuelas, es
necesario medir el progreso de los estudiantes a lo largo
de un perodo lectivo (aprendizaje) y no nicamente
el resultado final (logro). Las diferencias entre estos
dos trminos se expresan en que:

las siguientes preguntas bsicas:


Para qu se quiere evaluar? Quines usarn los
resultados y con qu propsitos? Qu se espera
saber que no se sepa ya?
Cules sern las unidades de anlisis para el
reporte de resultados: estudiantes individuales,
grupo de clase/maestros, escuelas, tipos de escuela, entidades subnacionales, sistema educativo?

El aprendizaje puede ser definido como el cambio ocurrido en los conocimientos y capacidades
de cada estudiante a lo largo del ao lectivo. Su
medicin requiere la aplicacin de dos pruebas,
una al inicio y otra al final. De este modo es posible constatar el progreso realizado por cada
alumno.

De acuerdo a los propsitos definidos, qu es


ms apropiado evaluar
aprendizaje o logro
educativo al egreso de determinados grados o
ciclos?

El logro educativo en cambio, se mide con una


nica prueba y refleja la acumulacin de conocimientos y capacidades a lo largo de toda la vida
del estudiante, lo cual incluye el capital cultural
familiar y sus experiencias en otras escuelas o
con otros docentes.

De acuerdo a los propsitos definidos, es necesario trabajar en forma censal o son suficientes
evaluaciones en base a muestras?

Debe tenerse siempre presente que el aprendizaje y el


logro educativo de los estudiantes dependen tanto de
lo que hacen las escuelas y docentes, como del esfuerzo
de los propios estudiantes, del apoyo de las familias a la
tarea escolar, del contexto comunitario y cultural y de las
polticas educativas. Los problemas educativos no pueden ser resueltos apelando exclusiva ni principalmente a
mecanismos de mercado.

Cada cunto tiempo es necesario y adecuado


realizar las evaluaciones?

Los resultados expresados en trminos de rankings


de escuelas deben ser mirados con precaucin
La mayora de los rankings de escuelas transmiten
una falsa imagen de ordenamiento. Una escuela puede
ocupar el primer lugar y otra el nmero 40 y, sin embargo, las diferencias entre sus promedios pueden no
ser estadsticamente significativos. Esto significa que no
puede decirse si un promedio es realmente superior al
otro, porque las diferencias entran dentro de los mrgenes de error de la medicin. Pero aun cuando las
diferencias en los promedios sean estadsticamente significativas, pueden ser irrelevantes en trminos de las
proporciones de alumnos que logran los niveles de desempeo esperados.

Itinerario para la toma de decisiones


Considerando las alternativas existentes para una
poltica de evaluacin, antes de poner en marcha un
sistema de evaluacin (o de modificar uno existente) es
indispensable seguir un itinerario de decisiones para definir las caractersticas del sistema que incluya al menos

Qu tipo de consecuencias tendrn los resultados y para quines?

Qu grados y qu disciplinas es importante evaluar?

Las respuestas a estas preguntas deberan plasmarse


en un plan de evaluacin a corto, mediano y largo plazo,
claro y explcito. En la elaboracin de dicho plan es muy
importante considerar los costos en dinero implicados en
cada opcin y los recursos humanos necesarios para su
adecuada implementacin. En particular, se debe balancear la inversin a realizar en la recogida de informacin
con la inversin en la difusin y uso de los resultados.
Muchos Ministerios de Educacin destinan importantes
sumas de dinero a recoger una gran cantidad de informacin todos los aos, que luego casi no se analiza, ni
se difunde ni se utiliza. Es absolutamente inconducente
implementar un primer operativo de evaluacin si no se
ha elaborado un plan de trabajo de largo plazo.
Mandatos tiles al momento de tomar decisiones
polticas respecto al sistema de evaluacin
No hars dao. Una de las primeras normas
del juramento hipocrtico seala que el mdico
se abstendr de todo aquello que pueda generar dao o perjuicio a sus pacientes. Del mismo
modo, a la hora de pensar en un sistema de
evaluacin es importante considerar los riesgos
de efectos no deseados y perjudiciales que la
estrategia de evaluacin diseada podra tener
sobre el propio sistema educativo que se desea
mejorar.
El consumo excesivo de este producto puede resultar perjudicial para la salud. La eva-

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

luacin no puede estar por encima de la educacin. El exceso de evaluaciones puede producir
perjuicios para la salud del sistema educativo,
en especial si solo hay evaluaciones pero no hay
polticas para dar respuesta a los problemas que
estas ponen de manifiesto.
No evaluars en vano. Se debe evitar recoger todos los aos informacin que nunca ser
analizada ni utilizada. Para que un sistema de
evaluacin tenga impacto, debe tener una periodicidad que garantice que los datos puedan
ser analizados, discutidos, comprendidos y utilizados. Incorporar la nueva informacin y traducirla en decisiones y acciones lleva tiempo. Los
cambios en el sistema educativo requieren ms
tiempo an.
Vsteme despacio, Sancho, que estoy apurado. Es muy importante que quienes toman
las decisiones en los Ministerios de Educacin
desestimen la creencia ingenua en la existencia
de caminos fciles y rpidos. No es posible montar un programa de evaluacin serio en tres meses. No existe coyuntura ni ventana de oportunidad que lo justifique: las consecuencias de la
improvisacin se harn sentir tarde o temprano.
La evaluacin requiere reflexin cuidadosa acerca de sus fines y usos; discusin pblica sobre
qu es lo fundamental a evaluar; dilogo e involucramiento de diferentes actores; conformacin
de equipos tcnicos competentes en diversos aspectos; e informacin previa para que los actores
se involucren con la evaluacin.

Iv. Los desafos de calidad tcnica de las


evaluaciones
Una vez definida la poltica de evaluacin, es necesario implementarla de acuerdo con diversos estndares
apropiados de calidad tcnica. Esto implica abordar los
siguientes desafos:

Elaborar un referente o marco conceptual que defina con precisin los conocimientos y desempeos
que son considerados apropiados al finalizar el
grado o ciclo educativo que ser evaluado
Si bien esta construccin exige antes que nada un
debate y decisiones de carcter poltico, las definiciones
tomadas en dicho terreno deben luego ser adecuadamente traducidas en especificaciones y estndares de
carcter tcnico. Asimismo, el debate poltico-educativo
debe estar alimentado por informacin sobre los avances conceptuales recientes en cuanto a la enseanza y
a los desempeos de los estudiantes en las disciplinas
consideradas.

45

Incluir en las pruebas actividades con diversos grados de complejidad


Se debe contemplar actividades cuya solucin requiera de competencias cognitivas suficientemente complejas, apropiadas a los desafos de la sociedad del conocimiento, as como tambin actividades sencillas que
permitan informar sobre el punto en que se encuentran
los estudiantes menos avanzados. Las actividades deben
poseer una serie de propiedades psicomtricas que es
necesario garantizar y cuyo control requiere pruebas piloto y anlisis cuidadoso. Tambin es importante, en la
medida de lo posible, ampliar el uso de preguntas de
respuesta construida, con el doble propsito de evaluar
capacidades ms complejas y de mejorar la articulacin
entre la evaluacin externa y la cultura docente y escolar.

Conformar las pruebas a partir de la apropiada integracin de las actividades en bloques y cuadernillos
Este es un desafo tcnico importante y complejo,
que requiere de conocimientos especializados y experiencia. Especial atencin debe otorgarse a la decisin
de utilizar la Teora Clsica o la Teora de la Respuesta
al tem para la construccin y el anlisis de las pruebas, lo cual requiere de programas de procesamiento
modernos, analistas bien entrenados, anlisis rigurosos
y asesoramiento de alto nivel.

Definir los puntos de corte que establecen los lmites entre niveles de desempeo en una prueba
Vinculado con esto, se debe definir la metodologa a
seguir para establecer cul de los niveles debe ser considerado como aceptable para un estudiante al finalizar el
grado o ciclo educativo evaluado. Un rendimiento aceptable no puede ser establecido automticamente como
equivalente al 51% o ms del mximo posible en una
prueba.

Disear muestras apropiadas a los propsitos de la


evaluacin
Esto tiene por objeto evitar operaciones ms grandes
y costosas de las estrictamente necesarias y que, al mismo tiempo, tengan un nivel de precisin adecuado. En
relacin a este ltimo aspecto debe incluirse, adems,
la estimacin y reporte de los mrgenes de error de las
mediciones.

Definir cmo se equipararn las evaluaciones


La equiparacin de las evaluaciones se refiere a la
metodologa mediante la cual los resultados de pruebas aplicadas en distintos aos se hacen comparables.
Este es uno de los desafos tcnicos ms importantes

46

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

que los sistemas de evaluacin deben afrontar si uno de


sus propsitos es informar sobre los avances o retrocesos
en los logros educativos a lo largo del tiempo. Este proceso es indispensable para poder afirmar que los eventuales cambios que se constaten responden a cambios
en la realidad educativa y no meramente a cambios en
el instrumento de medicin. Requiere tomar recaudos
tanto desde el punto de vista estadstico, como desde el
punto de vista de la continuidad de los conocimientos y
competencias evaluadas, y la estabilidad en la longitud y
la estructura de la prueba.

Construir datos longitudinales que permitan apreciar la evolucin en el tiempo de los aprendizajes
de un mismo conjunto de estudiantes
Este tipo de datos, que exigen ms de una medicin
en el tiempo, es el que evala el aprendizaje entendido como cambio y el que mejor permite establecer cules son los procesos propiamente escolares que tienen
influencia sobre el mismo. Este enfoque es el que permitira obtener informacin ms relevante para la poltica
educativa y para la investigacin.

Establecer mecanismos de control del cumplimiento de las condiciones estandarizadas que deben regir durante la aplicacin de las pruebas
El cumplimiento de las condiciones de aplicacin de
las pruebas involucra aspectos tcnicos complejos y muchas veces descuidados. Sin embargo, son fundamentales para que la informacin sea confiable y comparable.
Esto apunta a temas como:

La necesaria transparencia
Sobre todos los procesos tcnicos debe existir informacin transparente y accesible. Es necesario dar un especial nfasis a la documentacin de los procedimientos
tcnicos seguidos en:
La construccin de los instrumentos.
La estimacin de la precisin de las mediciones (y,
por consiguiente, su margen de error).
El diseo de las muestras y la cobertura alcanzada.
La aplicacin y control de calidad de la misma.
La definicin de niveles de desempeo y puntos
de corte.
La equiparacin y comparabilidad de los resultados con mediciones anteriores.

V. Sobre la constitucin de las unidades de


evaluacin
Para llevar adelante una poltica de evaluacin de logros educativos o aprendizajes apropiada, es necesario
contar con Unidades de Evaluacin con las capacidades
y los recursos adecuados que implica este complejo emprendimiento.

La calidad de la capacitacin de los aplicadores.

La puesta en marcha de un sistema de evaluacin


serio requiere de un tiempo mnimo de entre dos
y tres aos

El establecimiento de controles de calidad durante la aplicacin de las pruebas.

Este periodo es necesario para llevar adelante los siguientes procesos fundamentales:

La motivacin a los estudiantes para realizar las


pruebas.
La logstica de la distribucin.

Discusin, definicin y difusin pblica de los


propsitos del sistema de evaluacin, del tipo de
consecuencias, de los usos esperados y de qu
debe ser evaluado.

El retorno seguro de los materiales.

Diseo del plan de evaluacin a largo plazo.

Combinar las evaluaciones con estudios cualitativos


Es importante combinar las evaluaciones nacionales
estandarizadas, que ofrecen una mirada sobre el conjunto del sistema, con la realizacin de estudios cualitativos
que permitan profundizar en los procesos escolares y los
procesos que ocurren en las aulas. Esta combinacin de
enfoques es el mejor modo de aportar informacin rica
y compleja para pensar en las polticas educativas y en
las prcticas de enseanza.

Conformacin de equipos tcnicos con la diversidad de capacidades requeridas (elaboracin de


pruebas; elaboracin de cuestionarios; conocimiento de las disciplinas a evaluar y de su didctica; currculo y estndares; muestreo; logstica
de la aplicacin y control de calidad de la misma;
captura y limpieza de datos; procesamiento y
anlisis; construccin de escalas; contextualizacin sociocultural de los resultados y anlisis de
factores asociados; interpretacin de los datos
en trminos de polticas educativas, de didctica
y de prcticas de enseanza).

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Elaboracin de instrumentos, pilotaje y supervisin externa de los mismos.

Las Unidades de Evaluacin necesitan tener una cierta estabilidad en el tiempo de sus elencos tcnicos
El desarrollo de un sistema de evaluacin requiere de
una planificacin a 10 15 aos. Si los equipos tcnicos
cambian con frecuencia, se desperdicia el conocimiento
y la experiencia acumulada en un rea compleja y se
desacreditan los procesos de evaluacin ante la sociedad
y los educadores.

Las Unidades de Evaluacin necesitan tener independencia para reportar los resultados de su trabajo
Al igual que en el caso de las Unidades de Estadsticas sociales y econmicas, las unidades que realizan las
acciones de evaluacin y la divulgacin de los correspondientes resultados no deben depender de los tiempos
e intereses poltico- partidarios. Se ha discutido mucho
respecto a si las Unidades de Evaluacin deberan estar
dentro o fuera de los Ministerios de Educacin. El argumento principal para esta ltima opcin es justamente la
necesaria independencia y transparencia. Sin embargo,
la experiencia en la regin muestra casos de pases con
unidades estables e independientes dentro de los Ministerios de Educacin y otros con unidades inestables que
no han logrado consolidar su trabajo aun estando en una
institucin externa. La respuesta a esta disyuntiva es que
no importa tanto el lugar institucional como la cultura
de continuidad y transparencia que se cree en torno a la
evaluacin. Esto se logra cuando existe un mandato claro y una institucionalidad slida en relacin a la evaluacin, lo cual implica algn tipo de estatuto jurdico para
el sistema de evaluacin. Establecer esto por ley es uno
de los caminos a considerar, dado que exige un acuerdo
amplio, en lo posible suprapartidario, que permita establecer un plan de evaluacin de la educacin de largo
plazo. En este terreno, al igual que en el econmico, se
requiere de cierta estabilidad en las reglas de juego. Si
la poltica de evaluacin cambia permanentemente, se
genera desconfianza y se pierde credibilidad.

Una institucionalidad slida requiere de rganos


de gobierno y de asesoras tcnicas, independientes y plurales, y de un presupuesto apropiado y
plazas de trabajo que garanticen la operacin de la
unidad con la calidad tcnica requerida
La independencia de la Unidad de Evaluacin no debe
dar lugar a su desvinculacin de la poltica educativa. Por
el contrario, la evaluacin debe responder a un proyecto
poltico-educativo con amplio respaldo y debe mantener
una estrecha relacin con otras reas claves de la poltica
educativa como la formacin docente, el desarrollo curricular, el planeamiento y formulacin de proyectos, la
evaluacin de programas y la investigacin.

47

Para que las evaluaciones estandarizadas tengan


impacto sobre las polticas y las prcticas educativas, es necesario generar nuevas interfases y modalidades de trabajo que aseguren el alineamiento
de los distintos actores y mbitos de decisin
Las Unidades de Evaluacin deben asumir que su
tarea va ms all de producir datos. Si su misin es producir informacin para otros acto22 res, se requiere de
personas preparadas y con tiempo para establecer lneas
de dilogo con instancias y actores responsables de:
Anlisis de poltica educativa , con el fin de mejorar tanto los diseos de las evaluaciones como
los planes de procesamiento y los reportes de
resultados, teniendo en cuenta preguntas relevantes para la poltica educativa (por ejemplo, la
muestra puede ser diseada de modo que permita evaluar el impacto de polticas o programas
especficos en ciertos grupos de escuelas).
Anlisis didctico, con el fin de interpretar los
resultados y los problemas de aprendizaje de los
estudiantes desde la perspectiva de la enseanza
y la didctica de la disciplina evaluada, elaborar
reportes con significado didctico para los docentes, disear programas de formacin en servicio
a partir de los resultados, pensar la articulacin
de las evaluaciones estandarizadas con la evaluacin en el aula.
Comunicacin, con el fin de elaborar una diversidad de reportes de resultados, con diversos formatos y lenguajes, que sean apropiados y comprensibles para diversas audiencias.

Evaluar bien requiere inversin


Ms vale no hacer ninguna evaluacin que hacer
una evaluacin mala o deficiente. Esto debe ser tenido
en cuenta al tomar las decisiones acerca del Plan de Evaluacin. Asimismo, ms vale un sistema de evaluacin
modesto pero con costos asequibles y sostenibles en el
tiempo, que una gran evaluacin, amplia y sofisticada,
que solo podr realizarse una vez y que luego no podr
replicarse.
La inversin en evaluacin debe ser valorada en funcin del uso que se hace de sus resultados, ms que a
partir de otros indicadores como el costo por alumno.
Los costos de las evaluaciones son relativamente bajos cuando se los compara con los presupuestos nacionales y con las inversiones alternativas. Pero cualquier
inversin en evaluacin, alta o baja, es intil si no se
hace uso de los resultados.

48

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

VI. Diez recomendaciones acerca de las


evaluaciones que la regin necesita
1. La evaluacin debe concebirse como un elemento articulado en un conjunto ms amplio de
acciones y polticas educativas.
La evaluacin por s misma no produce mejoras. Deben existir articulaciones estables entre el rea de evaluacin y las reas de desarrollo curricular, formacin
docente, investigacin, diseo de polticas, comunicacin y prensa, entre otros.
2. La evaluacin debe contemplar un proceso de
reflexin colectiva sobre el estado de la educacin
y los caminos para mejorarla.
El primer paso para ello es la consulta y el debate
pblicos acerca de qu deben aprender los estudiantes
y acerca de los propsitos y consecuencias de la evaluacin. Del mismo modo, es fundamental la discusin
pblica constructiva a partir de los resultados, con el fin
de encarar las insuficiencias de inequidades en el acceso
al conocimiento por parte de los y las estudiantes. Para
ello es necesario invertir en comunicacin y difusin tantos o ms recursos que en la propia evaluacin, antes,
durante y despus de la misma.
3. La evaluacin debe estar al servicio del desarrollo de un sentido de responsabilidad compartida
por la educacin como bien pblico.
Debe promover el compromiso con la educacin de
todos los actores, cada uno segn su lugar y mbito de
accin. Por este motivo, debe evitarse utilizar la evaluacin para culpabilizar a actores especficos por los problemas detectados.
4. Los sistemas de evaluacin de la regin necesitan ampliar progresivamente el abanico de fines
educativos que son objeto de evaluacin.
Es importante en este sentido incluir a la formacin
ciudadana, otras disciplinas adems de Lenguaje y Matemtica, as como un espectro ms amplio de competencias y capacidades.
5. Los sistemas de evaluacin de la regin deberan progresivamente disear evaluaciones de
progreso de los estudiantes, dado que son las que
pueden aportar mayor informacin acerca del impacto
de las polticas educativas, de las acciones de las escuelas y de las prcticas de enseanza, en los aprendizajes
de los y las estudiantes.
6. Un sistema de evaluacin es un proyecto de
largo plazo, por lo que requiere de un compromiso
del Estado y de una planificacin cuidadosa del diseo del sistema.
Ello exige tomar decisiones acerca de los fines, las

consecuencias, los aspectos a evaluar, las reas y los grados, y la periodicidad de las evaluaciones, entre otras
cosas. Todo ello exige tiempo, por lo que no es conveniente pretender la implementacin de sistemas de evaluacin en plazos reducidos.
7. Un buen sistema de evaluacin requiere inversin, principalmente en la conformacin de equipos
humanos calificados, as como recursos econmicos suficientes para una adecuada implementacin de todos
los procesos implicados.
8. El sistema de evaluacin debe sustentarse en
una actitud firme de transparencia en relacin a los
resultados y de rendicin de cuentas a la sociedad.
9. Los ministerios de educacin deben asumir
un compromiso serio y consistente con los resultados de la evaluacin, lo cual implica promover el dilogo acerca de los problemas detectados y los modos de
enfrentarlos, disear lneas de accin apropiadas para
resolver los problemas e invertir los recursos necesarios
para llevarlas adelante.
10. Los sistemas de evaluacin deben ser objeto
de evaluacin peridica, con el fin de analizar la calidad tcnica de la informacin que producen y su relevancia para diversos actores educativos y sociales.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

49

Una mirada tcnico-pedaggica acerca


de las evaluaciones de calidad educativa

Introduccin
Las preguntas sugeridas como punto de partida para
la reflexin de esta mesa fueron tres: Qu estamos evaluando? Qu de lo evaluado resulta significativo? Por
qu las reformas educativas realizadas a lo largo de la
dcada del 90 no se ven traducidas en los resultados de
las evaluaciones?
Para aventurar la respuesta que considero debe darse a esas tres preguntas considero necesario presentar
antes la que considero apropiada para una pregunta
ms: qu deberamos evaluar de modo que la evaluacin sirva para mejorar la calidad educativa?
Organizar mi presentacin, pues, en cuatro apartados, cada uno de los cuales pretende responder una de
las cuatro preguntas mencionadas.

Qu deberamos evaluar para que la


evaluacin sirva para mejorar la calidad?
Ante un auditorio interesado en la educacin no es
necesario abundar en lo relativo a la importancia de su
calidad y su evaluacin. Pero teniendo en cuenta la diversidad de concepciones de estas dos nociones (calidad
y evaluacin) juzgo necesario explicitar mis propias ideas
al respecto, de modo que las respuestas que ofrecer
para las tres preguntas siguientes cobren sentido pleno.
Tratando, pues, de responder a esta primera pregunta, afirmo que, idealmente, una evaluacin adecuada
para que sirva realmente para mejorar la calidad educativa sera una muy amplia, que incluyera todas las dimensiones de la calidad; todas las reas del currculo;
los aspectos cognitivos pero tambin los actitudinales y
valorales; no slo niveles de dominio elementales, sino
tambin los ms elevados; insumos, pero tambin procesos y productos; los diversos actores y niveles organizacionales del sistema educativo; y que, adems, incluyera
el anlisis de los factores que inciden en la calidad, de
manera que d bases para el diseo y la implementacin
de polticas.
Desarrollo el primero de los elementos anteriores:
una buena evaluacin deber comprender todas las dimensiones de la calidad.
Sabemos que las polticas educativas han puesto el
acento sucesivamente en la atencin de la cobertura,
luego en la eficiencia terminal y, ms recientemente, en
el nivel de aprendizaje alcanzado por los alumnos y en
la equidad del servicio educativo. La coincidencia de la
secuencia anterior de tales polticas en muchos pases de

la regin latinoamericana y otras partes del mundo no es


casual: responde, desde luego, a la similar evolucin del
contexto demogrfico, econmico, social y cultural.
Es frecuente que el trmino calidad se defina en
forma restringida, limitndolo a lo que se refiere a los
niveles de aprendizaje. En este sentido se dice que, tras
centrar la atencin en la cobertura y la eficiencia, ahora
las polticas educativas ponen el nfasis en la calidad.
Otra manera de usar la palabra, que juzgo preferible, le
da un sentido ms amplio, que se aplica tambin a las
polticas de cobertura y eficiencia terminal.
Un concepto amplio de calidad, en efecto, no puede dejar fuera las dimensiones de cobertura y eficiencia,
aunque no pueda limitarse a ellas y deba incluir adems
el nivel de aprendizaje, entre otras cosas.
Un concepto amplio de calidad debe incluir, en mi
opinin, varias dimensiones que, en forma sinttica,
pueden expresarse diciendo que un sistema educativo
de calidad es aqul que:
n

Establece un currculo adecuado a las necesidades de la sociedad, incluyendo las de una


mayor productividad econmica, pero tambin
otras necesidades bsicas en una perspectiva de
desarrollo integral, como las que tienen que ver
con la democracia poltica, el respeto de los derechos humanos, el desarrollo de la ciencia, el
cuidado del medio ambiente y la preservacin
y enriquecimiento de la diversidad cultural. Esta
dimensin puede definirse con la expresin relevancia de los objetivos curriculares.

Logra que la ms alta proporcin posible de destinatarios acceda a la escuela, que permanezca
en ella hasta el final del trayecto previsto y que
egrese alcanzando los objetivos de aprendizaje
establecidos. Esta dimensin incluye, pues, la
cobertura y la eficiencia terminal, as como el
nivel de aprendizaje, y en trminos sistmicos
coincide con la eficacia interna del sistema.

Consigue que los aprendizajes logrados por los


alumnos sean asimilados por stos en forma duradera y deriven en comportamientos sociales
sustentados en los valores de libertad, equidad,
solidaridad, tolerancia y respeto a las personas,
que son fructferos para la sociedad y para el
propio individuo, quien podr as alcanzar un
desarrollo pleno en los diversos roles que habr
de desempear como trabajador, productor,

50

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

consumidor, padre de familia, elector, servidor


pblico, lector y telespectador, entre otros; en
pocas palabras, como ciudadano cabal. En trminos sistmicos esta dimensin es la de la eficacia externa o impacto del sistema.
n

Cuenta, para lograr lo anterior, con recursos humanos y materiales suficientes, y los aprovecha
de la mejor manera posible, evitando despilfarros y derroches. Es fcil apreciar que esta es la
dimensin eficiencia del sistema.

Tiene en cuenta la desigual situacin de alumnos y familias, de las comunidades en que viven
y las escuelas mismas, y ofrece apoyos especiales a quienes lo requieren, para que los objetivos educativos sean alcanzados por el mayor
nmero posible. Esta ltima dimensin es la de
equidad.

Conceptualizada as, multidimensionalmente, la


educacin ser de calidad si es relevante, si tiene eficacia interna y externa, si tiene un impacto positivo en el
largo plazo, si es eficiente en el uso de los recursos y si
busca la equidad.
Considero que es mejor este concepto amplio de calidad que uno restringido, porque creo que nadie creer
que un sistema educativo es de calidad si atiende slo a
una fraccin de la poblacin en edad de acceder a cierto
nivel, o si pierde en el camino a muchos de los alumnos
que lo comienzan, aunque los que terminan lo hagan
con altos niveles de aprendizaje.
Los otros componentes de una buena evaluacin
son claros: todas las reas del currculo, comenzando
por supuesto con Lecto-escritura y Matemticas, pero
sin limitarse a ellas, sino contemplando, al menos en el
mediano plazo, las ciencias naturales y las del hombre,
la educacin fsica y artstica, etc.
Debern incluirse los aspectos cognitivos pero tambin los actitudinales y valorales, ya que la educacin
no slo pretende desarrollar los primeros, sino tambin,
y con creciente nfasis, los segundos, cuya importancia para la vida en una sociedad democrtica y culta se
reconoce cada vez ms. Obviamente, no slo debern
valorarse niveles de aprendizaje elementales, como memorizacin, sino tambin los ms elevados, de razonamiento propio, juicio crtico y creatividad.
Una buena evaluacin no podr limitarse a los insumos del sistema, si bien no puede olvidarlos, ya que
sin ellos no es posible medir la eficiencia del sistema,
pero habr de considerar tambin los productos, para
valorar la eficacia, y los procesos, como parte de una
aproximacin explicativa que indague en lo relativo a las
causas de la situacin descrita, con lo que se dar sustento slido al diseo y la implementacin de acciones
de mejoramiento.
Con un enfoque integral como el que se propone,
la evaluacin tomar en cuenta no slo a los alumnos,
sino tambin a los maestros, los directores y supervisores y las autoridades educativas, as como los diferentes
niveles de organizacin de un sistema complejo como

el educativo, en cada uno de los cuales hay una problemtica especfica, y oportunidades particulares de
intervencin: el aula, la escuela singular, la zona o distrito escolar, el municipio, la regin, provincia o entidad
federativa, y el pas.
Una buena evaluacin, adems, deber caracterizarse por las cualidades tcnicas de cualquier medicin
buena, que se resumen en la validez y la confiabilidad,
en sus diversas facetas: que se mida realmente lo que se
pretende medir, y que se haga de manera que los resultados sean comparables en el espacio y en el tiempo.
Subrayo que la evaluacin no puede reducirse a la
aplicacin de pruebas de aprendizaje. Estas son, sin
duda, necesarias para la medicin de los resultados de
la enseanza, pero la valoracin de otros aspectos implica la construccin de indicadores con otro tipo de datos,
tomados de otras fuentes, como los sistemas de informacin estadstica o estudios ad hoc.
Es claro que esta es una visin ideal, que en sentido
estricto es imposible llevar a la prctica, pues exigira
una cantidad de trabajo y un volumen de recursos enorme para recolectar la informacin necesaria.
Pero si no se tiene este punto de referencia es fcil
caer en el error opuesto, que en la realidad se ha dado
en muchos lugares: el de reducir el sistema de evaluacin a los elementos ms fcilmente disponibles, con lo
que slo se dispone de datos gruesos y burdos sobre el
nmero de alumnos inscritos en el sistema al inicio y al
fin de un ciclo, el de maestros y escuelas, el presupuesto
asignado a las escuelas y poco ms.
Por ello creo que es importante manejar una visin
ideal de lo que debera ser la evaluacin como referente
para el desarrollo de un sistema concreto; con tal punto
de referencia, y con ayuda de las metodologas de investigacin y evaluacin educativa desarrolladas en las
ltimas dcadas, es factible disear sistemas mucho ms
finos que los habituales, con requerimientos de recursos
al alcance de los sistemas educativos reales.
No est de ms precisar que diversos tipos de evaluacin son competencia de diversas instancias. En particular conviene distinguir la evaluacin de individuos de
la de los sistemas como tales. La evaluacin de los alumnos en lo individual, por ejemplo, es y sin duda seguir
correspondiendo a los maestros y las escuelas en que
estn los alumnos; la evaluacin de los maestros en lo
individual corresponde y corresponder seguramente a
los directores y supervisores.
La evaluacin a la que me refiero en este escrito es,
precisamente, la del sistema educativo en cuanto tal.
Se trata, pues, de una evaluacin de nivel macro, que
no sustituye a las evaluaciones individuales, sino que
las complementa, iluminando un ngulo diferente de la
realidad educativa.
Tras lo anterior, las respuestas a las siguientes preguntas sern ms breves.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Qu estamos evaluando?
Resumo mi respuesta, en forma algo simplista y cruda, diciendo que evaluamos algunas de las dimensiones
de la calidad educativa, pero dejando fuera varias de las
ms importantes, que lo hacemos de manera imprecisa,
y que no llegamos a las causas.
Hasta hace muy pocos aos, la situacin de la mayor
parte de los sistemas de evaluacin educativa de los pases de la regin era justamente la que se ha mencionado
antes: solamente se contaba con datos sobre alumnos,
maestros, escuelas y presupuestos, con lo que se podan
estimar indicadores de cobertura, eficiencia terminal y
costo alumno en forma gruesa, ya que por lo general no
se controlaba la calidad de los procesos de recoleccin
de informacin, no se manejaban datos por edad, con
lo que slo podan construirse tasas brutas y no netas y
se manejaban slo cohortes aparentes.
Los esfuerzos que han hecho muchos de nuestros
pases en la ltima dcada han incluido, por una parte,
mejoras en los sistemas de informacin y, por otra, el
desarrollo de sistemas de pruebas nacionales para valorar los aprendizajes de los alumnos. Estos esfuerzos son
importantes, sin duda, pero an estn por consolidarse
y adolecen de fallas claras, explicables por la falta de
una tradicin en el campo y la consecuente escasez de
recursos humanos especializados.
Pecando tal vez de simplismo, creo que en la regin
atendemos la cobertura y la eficiencia terminal en forma
imperfecta y el nivel de aprendizaje de los alumnos en
reas curriculares y grados clave, pero por lo general limitndose a niveles cognitivos bajos. La contraparte obvia, lo que no estamos evaluando, incluye reas curriculares adicionales, niveles cognitivos superiores, aspectos
actitudinales y valorales, procesos tanto pedaggicos
como de gestin y lo relativo a equidad.
En las escuelas se evalan muchas de estas cosas,
desde luego, pero no parece haber procedimientos para
valorar tales dimensiones o aspectos de la calidad de
manera permanente y sistemtica en el nivel nacional.
Debe aadirse que muchas veces las evaluaciones que
hacemos no tienen, en un grado suficiente, las caractersticas tcnicas mencionadas de validez y confiabilidad.
Por lo que se refiere a validez, la ausencia de controles de las variables relevantes del contexto puede hacer
que midamos en realidad pobreza, cuando creemos medir calidad de las escuelas. En este sentido en la regin
es muy raro todava el uso de las poderosas tcnicas actuales, como los modelos jerrquicos lineales, que permiten identificar la influencia de los factores del entorno
distinguindolos, por ejemplo, de los de la escuela, el
aula y el propio alumno.
En cuanto a confiabilidad, es tambin raro el uso de
metodologas psicomtricas avanzadas, como los modelos de la teora de la respuesta al reactivo, que permiten
contar con escalas ms precisas, comparables en el tiempo, que cuidan la unidimensionalidad y evitan el sesgo
de manera ms adecuada que las tcnicas de la teora
clsica de las pruebas. Debe aadirse que, hasta hace
poco tiempo, no era raro que se manejaran pruebas que

51

no empleaban en forma rigurosa siquiera los principios


de la teora clsica. Las tcnicas de valor agregado son
tambin muy poco conocidas.

Qu de lo evaluado
resulta significativo?
En principio los mecanismos de evaluacin existentes
son todos significativos y, aun en ausencia de los que
se sugiere aadir, contienen potencialmente elementos
tiles para el mejoramiento de los sistemas educativos.
Sin embargo, es frecuente que an esos elementos se
desaprovechen y slo sirvan para acumular datos en
anuarios estadsticos destinados a empolvarse en los estantes, sin que los responsables de tomar decisiones, y
mucho menos los maestros, los conozcan y utilicen para
retroalimentar su quehacer.
Esto quiere decir que, adems de mejorar los actuales mecanismos de evaluacin y de enriquecerlos con
nuevos elementos, es necesario un importante esfuerzo de difusin de resultados y de capacitacin de los
usuarios para que estn en condiciones de entender y
aprovechar los resultados de las evaluaciones.

Por qu las reformas realizadas


en los 90 no se ven traducidas
en los resultados?
Esta pregunta parte de un supuesto que no me parece incuestionable: que las reformas educativas implementadas en Amrica Latina en los 90 no han dado
resultados.
Los niveles educativos de nuestros pases son el resultado de un enorme conjunto de factores, incluyendo unos tan complejos como el explosivo incremento
demogrfico que hizo del subcontinente la regin de
mayor crecimiento poblacional en toda la historia hasta mediados del siglo XX, la pobreza que aflige a gran
parte de la poblacin y la diversidad tnica y lingstica.
Otros factores igualmente complejos incluyen el carcter
autoritario de muchos regmenes polticos, las estructuras sindicales y burocrticas, y la desigualdad ancestral
de nuestras sociedades.
Los cambios educativos, por otra parte, son complejos
tambin y, en el mejor de los casos, llevan mucho tiempo;
no pueden ser el resultado rpido de esfuerzos simples.
Por ello, aun si en verdad las reformas de los aos 90
no han dado resultados, podran encontrarse diversas
explicaciones.
Las polticas educativas de la regin han adolecido, en
muchos casos, de serias deficiencias en diversos aspectos: en el diagnstico en que se sustentan, muchas veces
incompleto e impreciso; en el diseo de los programas,
muchas veces simplista, apostando demasiado a pocos
elementos de los que se espera ms de lo que pueden
dar; y, tal vez, sobre todo, en la implementacin.

52

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

No es fcil, en efecto, que las reformas lleguen hasta


el nivel ms importante, el de la escuela y el aula. Para
ello se requiere de tiempo y, adems, de estrategias muy
finas que aseguren la participacin de los maestros. Desgraciadamente, es ms frecuente encontrar estrategias
simplistas e implementaciones apresuradas que procesos cuidadosos y respetuosos de los actores de base y de
la complejidad de la cuestin.
No debera sorprender, por consiguiente, que los resultados obtenidos disten mucho de los esperados.
Pero el punto que quiero destacar es que no tenemos
evidencia suficiente para afirmar de manera contundente que las reformas de los 90 no han tenido resultados.
Hay, sin duda, indicios importantes en tal sentido, pero
los sistemas de evaluacin de que disponemos no sustentan afirmaciones tajantes.
En particular, creo que en Mxico hay elementos
para sostener que el nivel de aprendizaje ha mejorado
ligeramente en los ltimos aos; que el impacto del gasto pblico en educacin bsica est siendo mayor para
los tres deciles ms pobres de la poblacin, contra lo que
ocurra antes; y que los programas compensatorios emprendidos a principios de los 90 han logrado reducir la
desercin en medio rural y mejorar los niveles educativos
en las zonas ms desfavorecidas.
Por lo dems, la gran desigualdad que caracteriza a
nuestras sociedades hace que necesitemos evaluaciones
ms precisas, que tengan en cuenta el peso de los factores del entorno, tanto en razn del principio de equidad,
como para valorar en su justa medida los avances que
puedan darse en contextos diferentes, en los que la mejora es ms o menos difcil.

Conclusin
La ltima pregunta es, a mi juicio, la ms importante
de las cuatro que he tratado de responder, tanto por lo
que expresamente plantea, como por lo que sugiere de
manera implcita.

Ampliando lo dicho hasta ahora tratar de aportar


algunas ideas al respecto.
La experiencia de las reformas educativas implementadas en los pases de mayor desarrollo econmico ha
dejado lecciones importantes, en la direccin ya apuntada: no deben esperarse cambios espectaculares; las
mejoras educativas se consiguen en lapsos de tiempo
largos, y mediante esfuerzos sistemticos y complejos,
no gracias a recetas mgicas simples o panaceas.
Hoy sabemos tambin que no debe exagerarse la
importancia de los recursos materiales; estos son importantes, sin duda, sobre todo hasta ciertos umbrales
mnimos, y tal vez ms en cuanto a la regularidad o
continuidad de su existencia que en cuanto a su monto
absoluto. Pero parece claro que tanto y ms importan
los procesos a travs de los que se utilizan los recursos:
procesos pedaggicos especialmente en el interior del
aula, procesos ms amplios de gestin en el nivel nacional y regional y, sobre todo, en cada escuela, donde el
trabajo del equipo docente, el liderazgo del director y la
participacin de los padres de familia han mostrado ser
fundamentales.
Para poder responder con bases slidas a la pregunta sobre el xito o el fracaso de las reformas educativas
necesitamos, pues, en mi opinin, contar con sistemas
de evaluacin bastante ms slidos, aunque no mucho
ms costosos que los existentes, que nos den la informacin clave, de que hoy carecemos, sobre las diferentes
dimensiones de la calidad educativa de nuestros pases
en forma continuada y permanente.
Es posible que nos llevemos algunas sorpresas agradables, en el sentido de que los esfuerzos realizados
hasta ahora han dado algunos resultados, no espectaculares, pero s razonables, en una perspectiva histrica
y comparativa en el plano internacional.
Tambin es posible que se confirme la idea de que
no ha habido resultados positivos. En este caso, si tenemos buenos sistemas de evaluacin tendremos tambin
elementos para saber por qu ha ocurrido tal cosa, y
para disear programas de mejora ms adecuados.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

53

Segunda Parte.

El Operativo Nacional de Evaluacin ONE 2009


Marco de referencia

a) Introduccin
Contar con estrategias para mejorar la calidad de la
educacin implica, entre otros requisitos, disponer de un
sistema de evaluacin que haga explcito su marco de
referencia y que permita conocer qu estn aprendiendo
los estudiantes.
Todo tipo de evaluacin -y en especial las educativas, exige modelos tericos precisos que la justifiquen y la
respalden. De este modo, la evaluacin resulta sostenida por nexos conceptuales slidamente relacionados,
que permiten entrelazar los distintos pasos del proceso involucrado, desde la delimitacin del objetivo de la
evaluacin a la posterior interpretacin de los hallazgos.
La seleccin de la metodologa a llevar a cabo -que incluye de modo fundamental el tipo de diseo de los instrumentos, el proceso de implementacin y el anlisis
posterior de los datos-, debe ser consecuente con este
marco general.
Existen diferentes enfoques para la elaboracin de
pruebas que tienen como objetivo la evaluacin de
aprendizajes y existen tambin distintas teoras que sustentan su medicin, as como diversos diseos entre los
cuales optar para construir las pruebas de evaluacin.
Los siguientes apartados tienen como objetivo presentar, sintticamente, el enfoque, la teora de la medicin
y el diseo, adoptados como marco de referencia del
Operativo Nacional de Evaluacin (ONE) 2009.

b) Sobre el enfoque de la medicin


Los enfoques vigentes, para abordar operativos de
evaluacin educativa, a nivel nacional e internacional,
son dos, y se diferencian en cuanto al eje de referencia
que cada uno adopta tanto para la elaboracin de las
pruebas como para la interpretacin posterior de los resultados obtenidos. Desde este modo, este tipo de mediciones se dividen entre aquellas referidas al grupo
normativo y las referidas al criterio. No existe una
connotacin de valor alguna asociada a cada uno de
estos enfoques. Optar por uno u otro viene dada por el
propsito de la evaluacin.
Es digno de aclarar que, frecuentemente, se caracterizan a las pruebas como referidas al grupo normativo
o al criterio, sin embargo, esta terminologa es inapropiada. No es la prueba, sino el marco de referencia para
interpretar el desempeo en la prueba, lo que se refiere
al criterio o a la norma; de hecho, ambos tipos de interpretacin pueden utilizarse en una prueba determinada.
Luego de subrayar estos conceptos, veamos, concreta-

mente, las caractersticas fundamentales de cada uno de


estos enfoques.
Cuando un estudiante es evaluado en el dominio de
algn contenido y capacidad, a partir de mediciones referidas al grupo normativo, el puntaje obtenido por el
alumno se interpreta por comparacin con la norma de
su grupo. De esta manera, las mediciones normativas no
brindan informacin respecto a cunto sabe y cunto
no sabe, sino que proveen datos acerca de su posicin
relativa con respecto a un grupo.
Este enfoque supone, como condicin previa, que la
prueba sea aplicada a un grupo normativo representativo, un grupo de individuos con caractersticas similares
a los futuros destinatarios de dicha prueba-, lo cual permitir luego una lectura del rendimiento de cualquier
otro estudiante. En otras palabras, la interpretacin del
o los puntajes obtenidos por un alumno en particular, es
realizada en funcin de las puntuaciones obtenidas por
un grupo de individuos, las cuales se constituyen como
referencia para la interpretacin de los puntajes alcanzados por otros alumnos.
Para analizar las consecuencias prcticas de la aplicacin de este enfoque en educacin, y a modo de
introduccin a otro, alternativo, tomemos un ejemplo
sencillo. En principio, imaginemos que a un grupo, seleccionado como representativo, se le administra una
prueba, y ste realiza de modo correcto, en promedio, el
30% de dicha prueba. Luego, un alumno en particular,
contesta correctamente el 50% de la misma, que, por
comparacin con el grupo normativo, puede traducirse
en una calificacin de 8 puntos. Dentro de este contexto, supongamos tambin, que el docente valore como
insatisfactorio que el alumno haya contestado slo el
50% de la prueba, ya que, a partir del proceso de aprendizaje en cuestin, espera un dominio mayor de los contenidos y capacidades evaluados. Surge entonces una
discrepancia entre la calificacin 8 (ocho), que seala un
rendimiento muy bueno, y el criterio pedaggico, que
valora los conocimientos como insatisfactorios. Dicha
discrepancia alude al ncleo de las diferencias entre el
enfoque referido a la norma comparacin- y el referido
al criterio pedaggico-.
Si bien la evaluacin referida a normas resulta muy
til en la medicin de numerosas variables, es obvio que
no es la ms adecuada para valorar los aprendizajes. En
el contexto educativo, y especialmente en la evaluacin
de los aprendizajes, es conveniente la medicin referida a criterios, orientada a partir de la definicin de las
capacidades y contenidos en juego. En las evaluaciones
educativas, los contenidos comunes de los currculos oficiales -los cuales identifican los dominios conceptuales

54

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

y los procesos cognitivos involucrados en los distintos niveles educativos-, constituyen la referencia de los
criterios adoptados.
Resumiendo, tanto la elaboracin de instrumentos
como la interpretacin de los resultados referida a criterios, es, sin duda, la ms adecuada en el mbito educativo, ya que es el enfoque ms congruente con los propsitos de las evaluaciones que se realizan en esta rea.
Consecuentemente, a partir de 2005, se ha seleccionado este enfoque de la medicin como marco de las
evaluaciones llevadas a cabo a travs de los Operativos
Nacionales de Evaluacin (ONE), ya que permite determinar si los alumnos han logrado un nivel predeterminado,
a partir de un criterio prefijado, en una disciplina dada.
Los instrumentos derivados de este tipo de enfoque
requieren descripciones detalladas de lo que miden, con
el fin de brindar informacin precisa sobre los logros respecto de un estndar. En la escuela y ms all de ella, la
informacin provista por instrumentos elaborados con
este enfoque resulta til, en principio, a maestros que
desean mejorar sus prcticas instruccin, a directores e
inspectores que necesiten apoyar a los profesores y a los
diseadores tanto de polticas para mejorar las escuelas,
como a los diseadores de currculum y de textos que
requieran verificar la efectividad de ambos, curriculum
y textos.
Desde el punto de vista de las distintas fases de
construccin de una prueba basada en este enfoque,
la primera y fundamental, es aquella que tiene como
objetivo explicitar el criterio lgico de seleccin de los
tems, teniendo en cuenta que el ms adecuado ser
aquel que permita separar mejor a los examinados de
acuerdo con sus niveles de desempeo en los distintos
dominios. Es digno de subrayar que los criterios deben
ser definidos a priori, y que estas definiciones son las
que permitirn el cierre del proceso de evaluacin, al
permitir la interpretacin de los resultados de los estudiantes examinados en trminos de logros del dominio
o la aptitud en cuestin.

c) Acerca de la teora de la medicin


Toda medicin cientfica se halla fundamentada en
una teora de la medicin que tiene como objetivos
proveer fundamentos conceptuales que permitan establecer asociaciones entre diversos sistemas formales y
los atributos que interesa medir; mejorar la utilidad y la
precisin de las mediciones; analizar distintas propuestas para describir, categorizar y evaluar la calidad de las
medidas y desarrollar nuevos mtodos en la obtencin
de instrumentos de mayor calidad.
La necesidad de este sustento terico es particularmente relevante en disciplinas como la psicologa y la
educacin, que se interesan por medir aspectos que no
son directamente observables, y que, por tanto, deben
inferir atributos subyacentes a partir de los comportamientos observables de los examinados.
En la actualidad, en trminos generales, se dispone
de dos teoras que sustentan la construccin de pruebas
psicomtricas: la Teora Clsica de los Tests (TCT) y la

Teora de Respuesta al tem (TRI).


Un test siempre se propone establecer inferencias
sobre los rasgos psicolgicos (no observables) de los sujetos basndose en la informacin que manifiestan en
las respuestas. Tanto la TRI como la TCT consideran que
cada sujeto lleva asociado un parmetro individual. En
la TRI se denomina aptitud, incluyendo cualquier rasgo
psicolgico y se simboliza por la letra griega (zeta),
mientras que en la teora clsica se denomina puntaje
verdadero (V).
La TCT es una teora til para describir la influencia
de los errores de medida en las puntuaciones observadas
u obtenidas a travs de instrumentos, y sus relaciones
con las puntuaciones verdaderas. Se basa en el Modelo
Lineal de Spearman, desarrollado a principios del siglo
XX. Se trata del primer modelo que aborda el problema
de la incertidumbre o error inherente a cualquiera de las
medidas realizadas mediante la aplicacin de un test.
An cuando posteriormente se han desarrollado nuevas
teoras -tales como la TRI-, la TCT contina vigente.
La diferencia principal entre la TCT y los diversos modelos basados en la TRI, es que la relacin entre el valor
esperado y el rasgo o aptitud, en la primera es de tipo
lineal, mientras que en los modelos de la TRI las relaciones pueden ser funciones de tipo exponencial, tales
como los modelos de Poisson, de la ojiva normal, del
error binomial, el modelo de Rasch o los modelos logsticos de 1,2 o 3 parmetros. Existen numerosos criterios
con los cuales comparar la TCT con la TRI, muchos de
ellos, como los mencionados arriba, son muy tcnicos.
Numerosas publicaciones dan cuenta de ellos, en el presente trabajo se prefiere ms bien hacer referencia a algunos aspectos conceptuales.
Sintticamente, sealemos que la limitacin ms importante de los tests elaborados segn la TCT es que no
permiten separar las caractersticas del examinado de las
caractersticas del test: cada uno de estos aspectos slo
puede ser interpretado en el contexto de la interaccin
entre unas y otras. En concreto, la aptitud de un examinado se define en trminos de un test o prueba especfica. Si el test es difcil el examinado aparecer como de
poca aptitud, si el test es fcil el examinado parecer
tener mucha aptitud. La dificultad de un tem se define,
segn la TCT, como la proporcin de examinados que
contesta el tem correctamente en un grupo determinado. A su vez, las caractersticas mtricas de la prueba,
tales como la confiabilidad y la validez, se definen tambin en trminos de un grupo determinado de examinados a partir del cual se construye el baremo o las normas
de interpretacin de las puntuaciones. Esto implica que
es muy difcil comparar los resultados de examinados
que han sido examinados con distintas pruebas.
Para subsanar estas limitaciones, en la dcada de
1960, numerosos investigadores comenzaron a difundir y aplicar otros mtodos de control experimental, el
del ajuste estadstico. Este ltimo requiere la parametrizacin explcita de la aptitud que interesa evaluar, as
como de las propiedades de los tems, segn un modelo
que relacione sus valores con los datos de las respuestas
relevadas a travs de la aplicacin de la prueba. Si el
modelo se sostiene y los parmetros de los tems se co-

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

nocen, el modelo ajusta los datos segn las propiedades


de los tems del test y por lo tanto puede ser usado para
producir mediciones de la aptitud que estn libres de las
propiedades de los tems de la prueba aplicada.
La puntuacin de una prueba en el modelo clsico
estima el nivel de un atributo (aptitud, dominio de una
capacidad evaluada a travs de determinado contenido)
como la suma, ms estrictamente, la sumatoria, de respuestas a tems individuales, mientras que la TRI utiliza
el patrn de respuesta. De este modo, la TRI constituye
el marco adecuado para el anlisis de los aspectos vitales
de las pruebas educativas construidas con el enfoque referido al criterio. Permite evaluar, sobre el dominio de la
escala de aptitud, la separacin efectiva entre niveles.
La TRI posee ventajas considerables con relacin al
paradigma clsico, tales como las de generar medidas
diferentes con tems estrictamente comparables y no
dependientes de las muestras especficas de investigacin, as como alcanzar un verdadero nivel intervalar de
medicin. Este modelo posee tambin dificultades en su
implementacin, ya que requiere de muestras grandes
entre 200 y 500 sujetos- para calibrar los tems, pero
esta desventaja no resulta un problema en operativos de
amplio alcance como los ONE.
Una aplicacin sumamente til, de la TRI es que
posibilita la construccin de bancos de tems, vale decir,
un conjunto de tem que miden una misma variable y
cuyos parmetros estn estimados en una misma escala.
Estos tems con sus parmetros se pueden almacenar y
construir en los llamados bancos de tems.
En resumen, la TRI intenta dar una fundamentacin
probabilstica al problema de la medicin de constructos
inobservables. Su denominacin proviene del hecho de
considerar al tem como unidad bsica del test. Los modelos que utiliza son funciones matemticas que relacionan las probabilidades de una respuesta particular a un
tem con la aptitud general del sujeto. Si bien su origen
no es tan nuevo, dada la complejidad de los clculos
para su aplicacin solo empez a difundirse y utilizarse
gracias a programas de computacin especficos como
BIGSTEP, LOGIST, BILOG, entre otros.
Como todo modelo matemtico, la TRI incluye un
conjunto de supuestos acerca de los datos en los cuales se aplica. En trminos generales, consideran tres supuestos bsicos:
Unidimensionalidad. Supone que cuando se disea una prueba, una nica habilidad es necesaria para
explicar o dar cuenta del desempeo del examinado en
la prueba. Si bien se reconoce que cuando un estudiante
responde a un tem en una prueba confluyen mltiples
habilidades, los tems deben disearse haciendo nfasis
en una de ellas o en una combinacin particular predefinida.
Independencia Local. Se espera que un estudiante
evaluado responda a un tem en particular sin que recurra a informacin de otros tems para hacerlo correctamente. Es decir, la ejecucin en un tem no debe afectar
sus respuestas en otro.

55

Curvas Caractersticas de tems (CCI). La CCI es


una funcin matemtica que relaciona la probabilidad
de xito en una pregunta con la habilidad, medida por
el conjunto de tems que la contienen. Todo tem puede
describirse por su CCI y es esta curva la unidad conceptual bsica de la TRI.
Existen diferentes modelos de la TRI que se diferencian en la forma particular que adquiere la funcin de
probabilidad, la cual constituye el nmero especfico de
parmetros a analizar. El modelo utilizado para el procesamiento y anlisis de los datos del ONE 2009 es el
Modelo de Rasch.
Por ltimo, es digno de subrayar que las mediciones
referidas al criterio (v. apartado 1), de antiguo uso, han
recibido un nuevo impulso en el mbito educativo dentro del marco terico de la TRI. De este modo se seala
la congruencia entre la eleccin del enfoque y la teora
adoptados en el ONE 2009.

d) Cuestiones relacionadas con el diseo


Los diseos que pueden aplicarse para llevar a cabo una
evaluacin de aprendizajes son muy variados. Capitalizando la experiencia adquirida en operativos anteriores
e incluyendo novedades terico-tcnicas, a partir del
ONE 2009, se ha optado por dividir en dos pruebas la
evaluacin de cada estudiante en un dominio especfico,
una de ellas constituida por reactivos de opcin mltiple,
de respuesta cerrada, y la otra por tems que implican la
construccin de respuesta, llamados tambin abiertos.
Ambas se administran durante la misma jornada, con un
breve intervalo de tiempo -receso, recreo-, entre ellas.
El diseo seleccionado apunta a asegurar la mayor cobertura de las respuestas y de este modo evaluar una
diversidad de contenidos y procesos cognitivos.
Concretamente, cada estudiante responde a dos
cuadernillos (uno con tems cerrados y otro con tems
abiertos), asignados en forma aleatoria, excepto los destinados a la evaluacin del rea Comprensin Lectora,
en la cual se conserva un nexo prefijado entre un texto
del Cuadernillo con tems cerrados y los tems abiertos.
El cuadernillo con los reactivos de opcin mltiple
cuenta con 30 tems, mientras que los de construccin
de respuesta estn conformados por 2 tems.
El proceso de construccin de los reactivos con respuesta cerrada ha sido llevado a cabo mediante la implementacin de un diseo matricial.
Se trata de un tipo de diseo que se ha mostrado adecuado en evaluaciones educativas internacionales porque
brinda soluciones a los problemas que intervienen cuando las variables a considerar son muy numerosas. Su instrumentacin implica la elaboracin de un conjunto amplio de tems que cubran el dominio del currculo que se
desea evaluar. Luego estos tems se dividen en grupos de
preguntas denominados bloques, de tal modo que cada
uno evala de modo incompleto dicho dominio. De ah,
que, especficamente, el diseo presenta una estructura
en cuadernillos con bloques incompletos balanceados,
que en su conjunto permiten evaluar una amplia gama
de dominios y procesos en los aprendizajes a evaluar.

56

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

De esta manera, las pruebas construidas con este diseo permiten evaluar un amplio rango de contenidos
curriculares distribuyendo los contenidos de un dominio
de contenido en distintas pruebas, aunque cada estudiante en particular resuelve cuestiones relacionadas
con una parte del dominio (cada uno de formatos o modelos de la prueba, que se aplica a cada estudiante est
conformado por dos bloques).
Cada bloque de tems cerrados est conformado por
15 tems. Los 8 bloques de tems cerrados se distribuyen
en forma de espiral a razn de dos por cuadernillo. De
este modo resultan 8 Cuadernillos o Modelos de tems
cerrados y 4 Cuadernillos o Modelos de tems abiertos.
Cada cuadernillo de administracin, compuesto por
tems cerrados, consta, entonces, de dos de los bloques,
que van alternando su posicin a lo largo de distintos
cuadernillos de tal forma que el que se aplic en la primera posicin aparezca en otro ocupando la segunda y
viceversa, como se ejemplifica en la siguiente tabla.

Nombre del
bloque en 1
posicin

Nombre del
cuadernillo
PM3C1

Nombre del
bloque en 2
posicin

M3_1

M3_2

PM3C2

M3_3

M3_4

PM3C3

M3_5

M3_6

PM3C4

M3_7

M3_8

PM3C5

M3_2

M3_3

PM3C6

M3_4

M3_5

PM3C7

M3_6

M3_7

PM3C8

M3_8

M3_1

En otras palabras, aunque cada alumno -a la hora


de la aplicacin del ONE 2009-, contesta slo algunos
reactivos, el diseo que enmarca el operativo de evaluacin en su conjunto, provee informacin sobre la totalidad de las capacidades y contenidos de los dominios
en cuestin.
Para la prueba ONE 2009, se han construido, para
cada rea, en cada nivel, la siguiente cantidad de tems:

Tipo de
tem

Cantidad
de tems

Cantidad
de bloques
(15 tems)

Cantidad
de Cuadernillos

Abiertos

---

Cerrados

120

El procesamiento de la informacin aportada por la


aplicacin piloto de esta cantidad de tems permitir seleccionar las pruebas ms confiables y vlidas que sern
administradas en el ONE 2009 definitivo.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

57

Evaluacin. Enfoques metodolgicos

Justificacin para un cambio de


enfoque en cuanto a los ONE: de
pruebas referidas a normas a pruebas
referidas a criterios. Para qu?, por
qu? y en qu consiste?
Creo que llega el momento de empezar a llamar
a las cosas por su nombre, nos hemos propuesto
evaluar calidad y estamos midiendo, no evaluando.
Evaluar exige tener un patrn con qu compararse y
ese patrn no est del todo claro. 11

Como seala la cita que inicia este trabajo, pensar


en la evaluacin de la calidad educativa exige tener
un patrn con qu compararse, claro y especfico. As es
como se ha adoptado la decisin poltica de redefinir la
evaluacin tal como se viene desarrollando, y se solicit a los equipos tcnicos-pedaggicos de la DINIECE, la
elaboracin de un nuevo diseo de pruebas para evaluar
la calidad educativa.
A partir de una demanda bastante generalizada,
proveniente de diferentes sectores, se torna relevante
la bsqueda y explicitacin de una definicin de sentido
y de valor sobre los procesos vinculados a la evaluacin
de la calidad educativa. Atendiendo a este propsito, se
pens en un cambio de enfoque para las futuras pruebas nacionales, capaz de generar y de brindar nuevos
aportes y diferentes miradas para mejorar las formas de
enseanza y los aprendizajes de los alumnos.
Se debe reconocer el enorme esfuerzo realizado por
la Argentina en todos estos aos en materia de evaluacin de los procesos de la calidad educativa y los logros
alcanzados en este campo:
n

La utilizacin de la Teora Clsica de las Pruebas


(TCP) llevado a cabo bajo el enfoque de Pruebas Referidas a la Norma (PRN).

La produccin de las Recomendaciones Metodolgicas para el mejoramiento de las formas de


enseanza y los aprendizajes de los alumnos.

El apoyo tcnico-pedaggico brindado a los


Ministerios de Educacin Jurisdiccionales en
el desarrollo y fortalecimiento de sus propios
equipos tcnicos.

Los sistemas de medicin han convertido los


resultados educativos en un motivo de debate
pblico...(Tedesco, 2003)

Por lo tanto, se propone seguir con el empleo de


estos anlisis para el procesamiento y la produccin de
resultados, a fin de construir la necesaria continuidad
en todo proceso educativo y el enriquecimiento hacia
la nueva propuesta.
Pero para resignificar, en trminos del sentido y del
valor, los procesos de evaluacin de la calidad educativa
se hace necesario revisar los criterios polticos y tcnicos-pedaggicos asumidos a lo largo de estos aos,
y desde all, a partir del disenso y el consenso entre los
diferentes actores, construir nuevos y/o complementarios criterios de evaluacin enmarcados en un contexto
diferente y regidos por la crtica, la reflexin y la toma
de conciencia en esta compleja problemtica, a fin de
lograr una apropiacin por parte de los actores educativos de los objetivos propuestos.
Durante muchos aos, en la DINIECE se utiliz la
Teora Clsica de las Pruebas (TCP) para disear instrumentos de evaluacin. Los resultados se presentaron en
trminos de porcentaje de respuestas correctas. El porcentaje medio de aciertos expresa cul es el tanto por
ciento medio de aciertos de los alumnos en los tem de
las distintas pruebas, pero no lo que los alumnos saben
o no saben. No es vlido identificar el xito o fracaso en
funcin de un valor medio de aciertos, y no existe valor
alguno que, a priori, pueda considerarse como rendimiento satisfactorio o insatisfactorio. Con todo, la presentacin de los resultados en trminos de porcentajes
facilita su interpretacin por el lector no especializado.
Hoy, el nuevo diseo de pruebas para evaluar la calidad educativa se inicia bajo dos ejes fundamentales:
el enfoque de Pruebas Referidas al Criterio (PRC) y la
utilizacin de la Teora Respuesta al tem (TRI) como modelo matemtico para el procesamiento y la produccin
de resultados. Los resultados se presentan de acuerdo
con escalas de rendimiento para cada rea evaluada. La
escala, por ejemplo de 0 a 500, representa el resultado
que habra obtenido un alumno que hubiera contestado
a una terica prueba de 500 tems. Se pueden establecer puntos de corte en la escala y se definen las tareas
que son capaces de realizar aquellos alumnos que alcanzan los respectivos niveles. De esta manera, se introduce
un elemento criterial en la evaluacin.

11 Lafuente, Marta. En Evaluar las evaluaciones. Una


mirada poltica acerca de las evaluaciones de la calidad
educativa. IIPE - UNESCO. Argentina 2003.

58

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

En el marco de este enfoque, la DINIECE se propone


brindar informacin til y especfica sobre el logro de los
objetivos fundamentales del currculo por los estudiantes que terminan un nivel o ciclo.
Con esta redefinicin de la evaluacin se persigue
ampliar las posibilidades que ofrece la evaluacin educativa, a travs de pruebas de aplicacin a grandes poblaciones. Se busca la posibilidad de tener estadsticos
de tem y de prueba que sean independientes de las
poblaciones en las cuales se apliquen, de forma tal que
se pueda realizar el seguimiento necesario de los resultados y tener una idea del efecto de ciertas polticas o
programas.
La Teora del Rasgo Latente, tambin denominada
Teora de Respuesta al tem, tuvo su origen hace varias
dcadas pero se desarrolla principalmente en los aos
ochenta, cuando la computadora irrumpe con fuerza en
Estados Unidos, pues los clculos exigidos para su aplicacin resultan casi imposibles de poder ser llevados a
cabo sin disponer de una plataforma informtica para el
tratamiento de los datos.
Esta teora tambin tiene su origen en momentos en
que la psicometra norteamericana reconoce las graves
limitaciones que tiene la Teora Clsica de las Pruebas.
La principal de estas limitaciones tiene que ver con el
hecho de que los resultados obtenidos con la aplicacin
de un tem, de una prueba, estn limitados por las circunstancias de aplicacin, es decir, hacen referencia exclusivamente a las situaciones en que se contestan los
tems. Todos los estadsticos obtenidos en una aplicacin
concreta de una prueba son relativos a las caractersticas
de la prueba y de los sujetos evaluados.
Como consecuencia de lo que acaba de ser sealado, esos estadsticos tienen un valor relativo, en cuanto
a las muestras de tem y los sujetos evaluados (Mariano
lvaro Page, 1993).
La Teora de Rasgo Latente o Teora de Respuesta al
tem (TRI) parte del supuesto de que las puntuaciones
obtenidas en un tem por un sujeto y por consiguiente
en una prueba- dependen directamente del grado o nivel en que ese sujeto posee el rasgo medido. Este rasgo
es inobservable, por lo que se lo denomina rasgo
latente y es un constructo que se utiliza para explicar
el hecho. Hay una relacin directa entre el rendimiento
observable del sujeto, las puntuaciones obtenidas en la
prueba, y el nivel de posesin del rasgo no observable o
latente. La relacin entre las puntuaciones observadas y
el nivel de posesin del rasgo latente se describen mediante una funcin matemtica.
La teora pone en relacin el nivel de habilidad y la
probabilidad de responder correctamente un tem, por
lo que puede definirse como la relacin funcional entre
el nivel de habilidad y la probabilidad de responder correctamente un tem (Mariano lvaro Page, 1993).
En trminos generales, la TRI considera tres supuestos bsicos (Hambleton y Swaminathan, 1985):
n

Unidimensionalidad: en la TRI se asume que


cuando se disea una prueba sta deber medir, preferiblemente, una dimensin, una habilidad (el trmino habilidad, en su concepcin psi-

comtrica, se refiere al objeto de medicin).


Se reconoce que cuando una persona responde
a una pregunta en una prueba, entran en juego
mltiples habilidades, pero las preguntas deben
disearse haciendo nfasis en una de ellas o en
una combinacin de ellas en particular.
n

Independencia local: se espera que un estudiante responda a una pregunta en particular


sin que recurra a informacin de otros tems
para hacerlo correctamente. Es decir, la respuesta de un estudiante en una pregunta no
debe afectar sus respuestas en otra. Es prctica generalizada elaborar pruebas en donde se
disean tem en relacin con un contexto, del
que dependen las respuestas del alumno; aqu
tambin se aplica la independencia local entre
los tems y no entre ellos y el contexto. Es decir,
el supuesto de independencia local implica que
la respuesta de un sujeto a un tem es independiente, estadsticamente, de las respuestas
a los otros, pero no que los tem de la prueba
no estn relacionados.

Curva caracterstica del tem: viene determinada por la funcin matemtica entre el nivel
de habilidad o rasgo latente medido y la probabilidad de responder correctamente al tem.

A continuacin se presentan algunos conceptos correspondientes al enfoque de las Pruebas Referidas al


Criterio (PRC), a fin de fundamentar el nuevo diseo de
pruebas para evaluar la calidad educativa.
Las Pruebas Referidas al Criterio (PRC), representan
procedimientos para evaluar el rendimiento y/o conducta de los sujetos con relacin a dominios de contenidos
bien definidos, en vez de por referencia a la conducta
de otros sujetos, como en las Pruebas Referidas a las
Normas (PRN) (Martnez Arias, Rosario; 1995).
Cuando se quiere comparar el logro de ciertos grupos de estudiantes con los de otros, se puede trabajar
dentro del enfoque de evaluacin referida a normas,
mientras que cuando se quiere conocer qu conocimientos o competencias especficas logran desarrollar
los estudiantes se debe recurrir al enfoque de evaluacin
referida a criterios. Esta opcin es la ms conveniente
desde el punto de vista pedaggico porque permite obtener informacin relevante acerca de los conocimientos, destrezas y habilidades especficas que un grupo de
estudiantes logra dominar (Esquivel, Juan Manuel).

Cmo surgen las Pruebas


Referidas al Criterio? (PRC)
La expresin Pruebas Referidas al Criterio apareci
por primera vez en un artculo de Robert Glaser (1963)
titulado Instructional Technology and the Measurement
of Learning Outcomes: Some Questions y publicado en
la revista American Psychologist, (Mariano lvaro Page,
1993).

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

No obstante, a pesar de la aparente novedad del trmino en un momento en que la evaluacin estaba dominada por el paradigma de las diferencias individuales,
lo que representan las PRC y su finalidad ya haba sido
puesto de relieve muchos aos antes. En 1913, Thorndike estableci una distincin similar a la de Glaser, que
fue totalmente olvidada por el desarrollo de la psicometra clsica, especialmente en el intervalo comprendido
entre las dos guerras mundiales.
En los aos sesenta empiezan a comprobarse los resultados de la enseanza programada y de otros programas de intervencin y se vio que para su evaluacin
era preciso un diagnstico previo de los sujetos antes
de la intervencin, en trminos de lo que eran capaces
de hacer. Las pruebas tradicionales con su nfasis interpretativo en el rendimiento del grupo normativo, no
servan para esta finalidad ya que no proporcionaban la
informacin necesaria sobre el rendimiento del sujeto.
Con raras excepciones, como las que representan los
trabajos de Hively (1968), Osburn (1968) y Popham y
Husek (1969), puede decirse que no fue hasta el comienzo de los aos setenta cuando comenz a trabajarse de forma sistemtica sobre este tipo de pruebas.

Qu son las Pruebas Referidas


al Criterio (PRC) y cules son sus
caractersticas?
Se debe sealar en primer lugar que no es fcil dar
una definicin de PRC, ya que no existe uniformidad ni
siquiera en la denominacin dada. La palabra criterio se
refiere al dominio de contenidos o conductas.
La definicin que hoy es ms aceptada es la de Popham (1978): un test referido al criterio se utiliza para
evaluar el estatus absoluto del sujeto con respecto a algn dominio de conductas bien definido.
Hambleton y Rogers (1991) hacen una serie de precisiones a esta definicin. En primer lugar, adems de
dominio de conductas, puede hablarse intercambiablemente de objetivos, destrezas y competencias. En segundo lugar, el dominio debe estar bien definido, siendo
variable la amplitud y los contenidos de este dominio,
ya que stos dependen de la finalidad de la prueba. En
tercer lugar, cuando una PRC incluye ms de un objetivo, los tem que cubren cada uno de los objetivos suelen organizarse en subpruebas y el rendimiento de los
sujetos es evaluado en cada uno de los objetivos. En
cuarto lugar, es una prctica frecuente establecer estndares de rendimiento o puntos de corte, la definicin
de PRC no incluye explcitamente este requisito, ya que
pueden darse interpretaciones meramente descriptivas
del rendimiento de los sujetos, tales como que Enrique
ha respondido correctamente el 75% de las preguntas
en la prueba de Geometra.
Otras precisiones:
n

El nmero de objetivos medidos en PRC puede


variar entre las diferentes pruebas.

59

El nmero de tem que miden cada objetivo es


variable, pudiendo ser diferente el de distintos
objetivos dentro de la misma prueba.

No es necesario que el formato de los tems sea


de eleccin mltiple, aunque es ste el formato
ms frecuente.

Una forma habitual para tomar decisiones del


tipo apto no apto o pasa no-pasa,
es comparar la proporcin de aciertos del estudiante con un criterio estndar de rendimiento,
decidiendo que el sujeto pasa si su rendimiento es igual o mayor que el estndar y no
pasa en caso contrario.

Los requisitos bsicos para que una prueba pueda


ser considerada PRC son los siguientes:
n

La existencia de un conjunto de objetivos, contenido, capacidades, desempeos claramente


definidos.

Una proposicin explcita de la finalidad de la


prueba.

Cules son las diferencias entre


las Pruebas Referidas a las Normas y
las Pruebas Referidas al Criterio?
En apariencia hay pocas diferencias entre PRN y PRC
ya que ambos tipos de pruebas suelen estar compuestas
por tem con formatos similares; requieren el mismo tipo
de operaciones cognitivas de los sujetos, etc. No obstante, hay numerosas diferencias tanto en la construccin,
como en la interpretacin de las puntuaciones.
Las PRN y las PRC difieren en primer lugar en la finalidad de la evaluacin. En las PRC el objetivo es determinar el estatus actual del rendimiento o conducta de
un sujeto, o una clara descripcin de sus caractersticas,
normalmente con objeto de clasificarlo en una categora
determinada: pasa-falla; etc. Hambleton y Rogers (1991)
encuentran una cierta analoga con las denominadas
pruebas de diagnstico.
En las PRN, la finalidad es describir al sujeto en el
continuo de algn rasgo, expresando su posicin relativa respecto al grupo de sujetos.
As pues, en las pruebas referidas a un criterio, las
inferencias que se hacen de las personas son siempre
referidas a un determinado objetivo o fin, y se comparan
las puntuaciones obtenidas con los objetivos que estaban previsto alcanzar, en un caso para saber si un sujeto
ha alcanzado cierto nivel y, en otro, para saber si alcanza el nivel exigido para determinada tarea. En cambio,
las pruebas referidas a la norma, la puntuacin de cada
sujeto se compara con las puntuaciones de los dems
sujetos a los que se les ha aplicado la prueba, con las
puntuaciones del grupo o muestra representativa de la
poblacin a la que pertenece.

60

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

En cuanto a la construccin de la prueba, ambos tipos establecen los elementos en trminos de las
conductas o rendimientos que el sujeto exhibe en algn momento determinado. En ambos casos se pone
el acento en que las respuestas a valorar sean pblicas,
estandarizadas y fcilmente objetivables. En las PRN raramente se determina un dominio inicial de elementos,
considerando nicamente la teora del rasgo en la que
se basa el autor de la prueba, para determinar la calidad
de los tems. En las PRC la determinacin del dominio
de contenido o especificaciones de contenido es central
para la construccin de la prueba.
En cuanto a la seleccin de los tems, las propiedades psicomtricas consideradas para su inclusin en la
prueba son diferentes. En las PRN el objetivo es maximizar las diferencias individuales, lo que lleva a la inclusin
de un gran nmero de tem de dificultad media para
aumentar el poder discriminativo de la prueba, (para
poner de relieve las diferencias individuales, debe maximizarse la varianza de la prueba, seleccionando tem de
dificultad media y alto poder discriminativo). En las PRC
son los objetivos de la prueba los que marcan la norma
para la inclusin de los tems, as como el propsito y
la finalidad del mismo. Por ejemplo, cuando se trata de
pruebas de apto vs. no apto para la evaluacin de
los rendimientos en un programa particular, suelen incluirse elementos fciles, respondidos por el 70 u 80%
de los sujetos.
Por ltimo, otra de las diferencias se encuentra en
los significados de la puntuacin, en una PRN las respuestas son consideradas como signos del rasgo latente que se pretende medir con la prueba. En las PRC la
respuesta se considera un estimador de la conducta del
dominio (Marines Arias, Rosario 1995).

Cmo se realiza
el anlisis de los tems?
El aspecto ms crtico en la construccin de un PRC
despus de la especificacin del contenido y de los objetivos es la generacin de tem12 que se conformen a las
especificaciones del contenido y a los objetivos.
n

La validez del contenido de los tems: segn el


concepto de validez de contenido, la determinacin de este tipo de validez requiere evaluar
el grado en que la muestra de tem de la prueba
es representativa del contenido del dominio. Se
han propuesto diversos procedimientos basados fundamentalmente en el juicio de expertos
(Berk 1984).

Puede clasificarse en dos tipos: a) congruencia


tem-objetivo o grado en que el tem mide el
objetivo que pretende medir, b) sesgos de contenido.

Crocker y Algina (1986) recomiendan definir el


dominio de inters, seleccionar un panel de expertos en el contenido, proporcionar un proce-

dimiento estructurado para emparejar los tems


con el dominio, recoger y resumir los datos.
n

Anlisis estadstico de los tems: los datos obtenidos en el estudio piloto pueden utilizarse
para evaluar la eficacia de los tems en trminos
de si funcionan o no en la forma en que estaba
previsto.

Los pasos en este proceso son: seleccionar grupos criterios (se refiere a la seleccin de los estudiantes a los que se les aplicar la prueba);
calcular los estadsticos del tem (se refiere a
el ndice de dificultad, es la proporcin o el
porcentaje de personas que contestan correctamente el tem y el ndice de discriminacin,
mide los cambios en el rendimiento o las diferencias relacionadas con la instruccin); y realizar un anlisis del posible sesgo de los tem
(sern eliminados todos aquellos tem que usen
un lenguaje sesgado referido al gnero, minora
tnica o subgrupo particular).

Cul es la longitud de la prueba?


Hambleton, Hutten y Swaminthan (1976) en un estudio emprico en que comparan mtodos de obtener
los puntajes de dominio y su efecto en varios factores
(entre ellos la longitud de la prueba) concluyen que un
nmero de tem igual a ocho da suficiente base para
evaluar el dominio del estudiante o para tomar decisiones de instruccin para los datos de pruebas con referencia a criterios.
Por su parte Popham (1978) afirma lo siguiente:
Para simplificar un poco, para muchas situaciones educativas en las que se emplearn pruebas con referencia
a criterios, la prueba debe consistir de 10 a 20 tem por
dominio conductual.
Por otra parte, Sheehan y Davis (1979) recomiendan
menos tem por objetivo, ya que desarrollaron una batera de pruebas con referencia a criterios de matemtica,
en la que emplearon cuatro tem por objetivo.
Tambin, en las pruebas desarrolladas por Esquivel
(1985) en matemtica y ciencias se emple tres tems
por objetivos. En general se determina que cuando las
decisiones son formativas y para muestras de individuos
el nmero de tem vara entre tres y cinco por objetivo,
mientras que decisiones sumativas e individuales requieren entre ocho y diez tem por objetivo.

12 Para la construccin de tem ver Criterios para la


elaboracin, seleccin, supervisin, envo de tem y texto
de la DINIECE.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Cmo

se establecen
los estndares o puntos de corte?
Finalmente, una de las principales funciones de las
pruebas es proporcionar datos para la toma de decisiones, especialmente cuando se utilizan TRC. En estas
situaciones suele ser necesario establecer un punto de
corte para decidir acerca del rendimiento del sujeto en
la prueba. La prctica de obtener los puntos de corte
para determinar las capacidades mnimas se conoce en
la evaluacin educativa con el nombre de fijacin de estndares. El estndar es un punto en la escala de las
puntuaciones de la prueba que sirve para clasificar a los
sujetos en dos categoras que reflejan diferentes niveles
de capacidad, con relacin a un dominio. Es frecuente
que estas categoras se expresen en trminos de apto
o no apto, pasa o falla. Shepard (1984) considera que es el taln de Aquiles de los TRC.
El tema es tan importante que fue origen de un gran
debate durante los aos setenta, de tal forma que la
revista Journal of Educational Measurement dedic
un nmero monogrfico a esta cuestin en 1978. Glass
realiz una revisin exhaustiva sobre los estndares y
puntos de corte de la que concluye que todos los procedimientos son arbitrarios o que estn basados en premisas arbitrarias (Martnez Arias, Rosario, 1995).

Clasificacin de procedimientos
Ante la multiplicidad de mtodos, fue necesario establecer algunos esquemas de clasificacin. Meskauskas
(1976) propuso dividirlos en modelos de estado y
modelos continuos, siendo los modelos de estado los
que asumen que la capacidad es binaria, ya que el sujeto
domina el tema o no lo domina; los modelos continuos
asumen que el rasgo o constructo evaluado es continuo
y que el papel de los mtodos consiste en determinar
el nivel del rasgo que determina un rendimiento competente.
Se han propuesto muchos modelos de estado, pero
apenas se han usado en las aplicaciones prcticas, dominando este mbito los modelos continuos. Hambleton y
Eignor (1980) Hambleton y Rogers (1990) hacen una clasificacin de stos en tres tipos denominados modelos
empricos, modelos de juicios y modelos combinados.
Jaeger (1989) considera que en todos est implcito el
juicio y prefiere clasificarlos en modelos centrados en
la prueba y modelos centrados en el rendimiento de
los sujetos.

61

a) Mtodo de Nedelsky: defini el estndar absoluto


en trminos de conocimientos y destrezas que un
sujeto posee para pasar de curso. Los define a partir
de los elementos de la prueba de eleccin mltiple,
en trminos de la verosimilitud de que los sujetos
sean capaces de eliminar respuestas incorrectas.
b) Mtodo de Angoff: el procedimiento requiere que
los jueces de la muestra de expertos examinen cada
elemento de la prueba y estimen la probabilidad de
que una persona mnimamente competente responda a cada tem correctamente. Angoff sugiere que
esta probabilidad es ms fcil de estimar si los jueces
piensan en trminos de un amplio nmero de individuos mnimamente competentes y estiman qu proporcin de este grupo respondera a cada elemento
correspondiente. La suma de proporciones representara la puntuacin mnima aceptable. El mtodo Angoff hasta el momento es muy utilizado, investigado
y recomendado.
c) Mtodo de Ebel: propuso un sistema similar al Angoff basado en los juicios acerca de los tems, pero
teniendo en cuenta adems la relevancia de contenido del tem y su nivel de dificultad. Para la valoracin
de cada tem sugiere usar cuatro niveles de relevancia esencial, importante, aceptable y cuestionabley tres niveles de dificultad fcil, medio y difcild) Mtodo de Jaeger: intenta hacer la tarea de los
jueces ms simple y concreta. Cada juez debe responder con S o No a la siguiente pregunta, para
cada tem ser capaz de responder correctamente
a este tem un sujeto que reciba la calificacin de
apto en un examen de...? y si no responde al tem
correctamente, se le negara el diploma? S... No...
A pesar de los avances tcnicos, todava existen dificultades importantes en el establecimiento de estndares, Angoff expresa hemos observado que los diversos
procedimientos de juicio para establecer estndares, no
solamente plantean problemas de acuerdo entre s, sino
tambin de obtener los mismos resultados en la aplicacin repetida.
2) Mtodos basados en el rendimiento de grupos de
validacin: muchos autores sugieren que el criterio de
validez para evaluar un estndar debe determinarse juzgando los rendimientos de los sujetos examinados.
a) Mtodo del grupo lmite.
b) Mtodo de los grupos de contraste.
c) Otros mtodos empricos.

Descripcin de los procedimientos


1) Basados en juicios sobre el contenido de la prueba: son un conjunto de procedimientos basados en juicios sobre los elementos de la prueba. Aunque se han
desarrollado muchos, los que mayor trascendencia han
tenido son los de Nedelsky (1954), Angoff (1971), Ebel
(1972) y Jaeger (1978).

3) Mtodos basados en los errores en las decisiones: Van der Linden (1980) no es una tcnica para establecer estndares, sino una tcnica para minimizar las
consecuencias de los errores de medida y de muestreo.
Son modelos continuos que asumen una variable latente
continua con un estndar predeterminado.

62

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

63

Anexos
Anexo 1

Cmo se construye una


Prueba Referida al Criterio?
Hambleton y Rogers (1991) proponen 11 dimensiones en la construccin de una PRC. Dependiendo de la
finalidad de la prueba se tendr en cuenta a cada una
de las dimensiones. 13
1 / Planteamientos iniciales.
a) Especificar el propsito de la prueba.
b) Especificar los objetivos, contenidos, capacidades,
desempeos que la prueba pretende evaluar.
c) Especificar los grupos a los que se aplicar la prueba:
caractersticas sociodemogrficas, lingsticas, etc.
d) Decidir el formato de los tems.
e) Determinar el tiempo y los recursos econmicos
que se pueden dedicar a la construccin de la
prueba.
f) Identificar y seleccionar jueces expertos en el contenido de la evaluacin.
g) Especificar la longitud de la prueba y el tiempo
aproximado de cumplimentacin.
2 / Revisin de los objetivos.
a) Revisar las descripciones de los objetivos para determinar si son o no aceptables.
b) Seleccionar el conjunto definitivo de objetivos que
evaluar la prueba.
c) Preparar especificaciones de contenidos para los
tems de cada objetivo y revisarlos en cuanto a su
claridad, seguridad.
3 / Redactar los tems.
a) Construir un nmero de tem considerablemente
mayor que el definitivo para el estudio piloto.
b) Introducir los tems en un banco de tem.
c) Edicin de los tems.
4- / Evaluacin de la validez de contenido.
a) Identificar un grupo de expertos en el contenido
de la prueba y especialistas en evaluacin.
b) Examinar el grado de emparejamiento entre tem y
objetivos, representatividad del contenido, etc.
c) Revisar la adecuacin tcnica de los tems.
d) Revisar de nuevo los tems.
e) Escribir tems adicionales si es necesario.
5 / Aplicacin de la prueba.
a) Preparar una prueba piloto.
b) Administrar la prueba a muestras adecuadas.
c) Realizar el anlisis de tem y estudio del sesgo14.

6 / Revisar la prueba.
Usar los resultados de 5- c. para la revisin.
7 / Preparar la forma definitiva de la prueba.
a) Determinar la longitud de la prueba, nmero de
formas necesarias y nmero de tem por objetivo.
b) Seleccionar tem del conjunto analizado.
c) Preparar instrucciones, ejemplos, cuadernillos, hojas de respuestas, claves de correccin, etc.
d) Especificar posibles modificaciones a las instrucciones, tiempo para alumnos con necesidades especiales, etc.
8 / Establecimiento de un estndar o punto
de corte.
a) Determinar si es necesario establecer un estndar
de rendimiento, si no lo es, pasar a 9.
b) Establecer el o los estndares, si habr ms de dos
categoras.
c) Especificar modificaciones a los estndares para
posibles casos especiales.
d) Especificar interpretaciones alternativas de las
puntuaciones de la prueba para los casos de c.
9 / Aplicacin en forma piloto de la prueba
definitiva.
a) Disear la aplicacin de la prueba para recoger datos acerca de la fiabilidad y validez.
b) Aplicar la prueba a muestras representativas de
alumnos.
c) Evaluacin del procedimiento de administracin,
tem, fiabilidad y validez.
d) Hacer las revisiones finales a partir de los datos
anteriores.
10 / Preparacin del manual de instrucciones.
a) Manual para los aplicadores de la prueba.
b) Manual tcnico.
11 / Recogida de datos adicional para el anlisis
sobre fiabilidad y validez.

13 Extrado de: Martnez Arias, Rosario.


14 Camilli y Shepard: sesgo de un test es una fuente de
invalidez o error sistemtico que se refleja en cmo un test
mide a los miembros de un grupo particular. El sesgo ha
sido estudiado fundamentalmente en diferencias relacionadas con la etnia o el gnero. Tambin, como la clase social,
edad, religin, etc.

64

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

BIBLIOGRAFA
Nunnally, Jum C. y Bernstein, Ira J. Teora Psicomtrica. McGraw-Hill/Interamericana de Mxico, 1995.

UNAM. La evaluacin referida a un criterio: un


modelo en el proceso de formacin. rea de evaluacin, 1976.

Page, Mariano . Elementos de Psicometra. Eudema, 1993.

Esquivel, Juan M. El diseo de las pruebas para


medir logro a acadmico: Referencia a Normas o a
Criterios? Costa Rica.

IIPE UNESCO. Evaluar las evaluaciones. Una mirada poltica acerca de las evaluaciones de la calidad
educativa. Argentina, 2003.

Sachs Adams, Georgia. Medicin y evaluacin en


educacin, psicologa y guidance. Barcelona, Herder, 1970.

House, E. R. Evaluacin, tica y poder. Morata,


1994.

Tenti Fanfani, Emilio (Comp.) El rendimiento escolar en la Argentina. Losada, 2002.

Esquivel, Juan M. Medicin de la calidad de la enseanza. Costa Rica, 1986.


Martnez Arias, Rosario. Psicometra: Teora de
los Test Psicolgicos y Educativos. Editorial Sntesis, 1995.
Meherens, W.A. Medicin basada en Normas y en
Criterios. CECSA. Mxico, 1982.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

65

Anexo 2

GRFICO 1 / Circuito metodolgico y pedaggico de la elaboracin y aplicacin de los instrumentos de evaluacin


e interpretacin y comunicacin de los resultados.

Como parte de las acciones de evaluacin, se elaboran pruebas que evalan el dominio de contenidos y capacidades a fin de relevar informacin sobre el nivel de
logros y dificultades de los alumnos de un determinado
ao en distintas reas de conocimiento.
Las pruebas estn conformadas por un conjunto de
ejercicios cerrados, de respuesta fija de seleccin mltiple y por ejercicios de respuesta abierta, de desarrollo.
Cada ejercicio de seleccin mltiple est constituido por
un cuerpo y cuatro distractores. Slo uno de ellos constituye la respuesta correcta.
Los ejercicios se disean, seleccionan y organizan
de acuerdo con los contenidos y capacidades establecidos en las tablas de especificaciones (PASO 1 DEL
GRFICO 1).
Una de las formas usuales de las tablas de especifi-

caciones es la de un cuadro de doble entrada en el que


se ingresan dos tipos de informacin: las capacidades y
los contenidos a evaluar, que surgen de los CBC de la
EGB y del Polimodal, de los diseos curriculares jurisdiccionales y de las opiniones de los expertos acerca de lo
que se ensea en las escuelas.
Los contenidos y capacidades listados para cada rea
han surgido de acuerdos gestados entre las jurisdicciones a mediados de la dcada del 90. Los ejercicios tienen una distribucin proporcional de valores al interior
de cada tabla, justamente, por su peso en los CBC de la
EGB y del Polimodal, en los diseos curriculares jurisdiccionales y segn las opiniones de los expertos acerca de
lo que se ensea en las escuelas. Cada cruce identifica
una capacidad determinada en relacin con un recorte
del saber.

66

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

El conjunto final de contenidos y capacidades a ser


evaluados cumple con las siguientes condiciones:

Son centrales desde el punto de vista de la disciplina.

CONTENIDOS
Y CAPACIDADES
CONdiciones

Estn presentes en los diseos curriculares de todas las


jurisdicciones.
Tienen alta probabilidad de haber sido enseados.
Tienen la posibilidad de ser evaluados en forma escrita.
Cuentan con la posibilidad de ser evaluados en forma
masiva.

Por estas razones, las tablas de especificaciones


son un instrumento indispensable para la construccin
de las pruebas otorgndoles un alto nivel de validez y
confiabilidad.

Al construir los ejercicios de las distintas reas del


saber (PASO 2 DEL GRFICO 1) se tienen en cuenta
ciertos criterios:

La consigna de trabajo debe ser escrita en forma clara,


breve y simple.
Deben tener vocabulario adecuado para los estudiantes.
Deben ser apropiados al nivel cognitivo de los estudiantes.
Deben tener un nivel apropiado de dificultad.
Deben tener una nica respuesta correcta.

CRITERIOS

El cuerpo principal debe ser claro y poseer solo la informacin


necesaria para la resolucin del ejercicio.
La inclusin de grficos y/o ilustraciones debe aportar
informacin significativa que ayude a la comprensin del
ejercicio y su resolucin.
Cada uno de los distractores debe plantear una respuesta que,
aunque errada, responda a cierta lgica del estudiante y/o
presentar errores comunes o ideas falsas corrientes.
Los distractores deben ser similares en longitud, complejidad y
estructura gramatical entre s y con la respuesta correcta.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

Una vez construidos los ejercicios, son revisados por


especialistas en contenidos que supervisan la correccin
cientfica de los mismos; por pedagogos que analizan
la pertinencia didctica y por correctores de estilo que
corrigen la sintaxis y la normativa (PASO3 DEL GRFICO I).
Las pruebas se elaboran previendo, tambin, los
diferentes niveles de dificultad de cada ejercicio. Estos
niveles de dificultad, que en un principio responden a
hiptesis de expertos, son probados con pequeos grupos de alumnos y en operativos piloto (PASO 4 Y 5 DEL
GRFICO I).
A continuacin, se presentan ejemplos de ejercicios
con diferente nivel de dificultad:
Una vez probada en las muestras pilotos la calidad
psicomtrica de los ejercicios y sus niveles de dificultad,
se integran a las pruebas en las proporciones establecidas en las tablas de especificaciones, tratando que los
ejercicios de resolucin fcil, mediana y difcil se encuentren distribuidos armnica y representativamente a lo
largo de todo el instrumento para facilitar su resolucin
(PASO 6 Y 7 DEL GRFICO I). Los criterios de calidad
estadstica que se toman en cuenta para estas pruebas,
a fin de seleccionar los ejercicios, son los siguientes:

CRITERIOS
DE CALIDAD
PSICOMTRICA

67

A partir del anlisis de los logros y de los errores cometidos con mayor frecuencia en los ejercicios, se plantean recomendaciones metodolgicas para la enseanza que pueden ayudar a superar estas dificultades
(PASO 9 Y 10 DEL GRFICO I), que son enviadas a
todas las escuelas, jurisdicciones y organismos e instituciones pblicas y privadas, as como a la prensa para su
difusin (PASO 11 DEL GRFICO I).

En suma, las pruebas de evaluacin de la


calidad se construyen para evaluar los niveles de rendimiento acadmico en distintos
aos del sistema educativo y en distintas
reas disciplinares; definiendo estos niveles
en trminos de los contenidos y de las capacidades que poseen los alumnos.

ndice de discriminacin: indica la capacidad del ejercicio


para diferenciar entre los alumnos que obtienen alto
rendimiento y los que obtienen bajo rendimiento.
ndice de dificultad: indica el porcentaje de alumnos que
responde correctamente el ejercicio.

68

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

69

Adenda

Capacidades Cognitivas ONE 2009


Matemtica
En Matemtica se evala una capacidad cognitiva
general: la Resolucin de Problemas.
A los efectos de la evaluacin, se han considerado
tres capacidades cognitivas especficas, incluidas en la
resolucin de problemas:

Capacidad Cognitiva general

Descripcin

Resolucin
de problemas

Solucin de situaciones nuevas para el alumno, en las que necesita usar los
conocimientos matemticos de que dispone. La resolucin de problemas puede
requerir de los estudiantes: reconocer, relacionar y utilizar informacin; determinar la pertinencia, suficiencia y consistencia de los datos; reconocer, utilizar y relacionar conceptos; utilizar, transferir, modificar y generar procedimientos; juzgar la
razonabilidad y coherencia de las soluciones y justificar y argumentar sus acciones

Capacidades Cognitivas
Especficas

Descripcin

Reconocimiento de
datos y conceptos

Capacidad cognitiva de identificar datos, hechos, conceptos, relaciones y propiedades matemticas, expresados de manera directa y explcita en el enunciado.

Resolucin de operaciones
(mediante distintos
procedimientos)

Reemplaza a la anterior Operar usando algoritmos. Consiste en la resolucin de


operaciones usando distintos procedimientos.

Resolucin de situaciones
en contextos intramatemticos
y/o de la vida cotidiana

Capacidad cognitiva de solucionar situaciones problemticas contextualizadas,


presentadas en contextos que van desde los intramatemticos hasta los de la
realidad cotidiana.
Interpretar informacin:
n

Comprender enunciados, cuadros, grficos

Diferenciar datos de incgnitas

Interpretar smbolos, consignas, informaciones

Manejar el vocabulario de la matemtica

Traducir de una forma de representacin a otra, de un tipo de lenguaje a otro

Expresin o emisin de procedimientos y resultados

Comunicacin
en matemtica

Describir procedimientos de resolucin utilizados

Redactar correctamente la formulacin de un resultado

Describir las distintas etapas de una construccin geomtrica

Describir las distintas etapas de un clculo

Redactar una justificacin, una argumentacin

Completar un cuadro, un grfico

Producir un texto, un cuadro, un grfico, un dibujo

Expresarse con un adecuado vocabulario matemtico

Formular un problema o situacin problemtica

70

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Lengua

INTERPRETAR: Reconstruir el significado global y local



y hacer inferencias desde una o ms partes

de un texto.
Los lectores deben identificar, comparar, contrastar, integrar informacin con el propsito
de construir el significado del texto.

EVALUAR Y REFLEXIONAR: Relacionar un texto



con su propia experiencia, conocimientos

e ideas.
Los lectores deben distanciarse del texto y
considerarlo objetivamente. Deben utilizar
conocimiento extra-textual (la propia experiencia, elementos proporcionados por la
pregunta, conocimiento de mundo, conocimiento de la lengua, conocimiento de distintos gneros discursivos). Los lectores deben
justificar su propio punto de vista.

EXTRAER

Los lectores deben revisar, buscar, localizar y


seleccionar la informacin. Deben cotejar la
informacin proporcionada en la pregunta
con informacin literal o similar en el texto y
utilizarla para encontrar la nueva informacin
solicitada.

Informacin explcita.Secuencia de hechos


o ideas.Resumen.Procedimientos textuales
especficos de cada tipo textual (narraticin,
explicacin, argumentacin).

INTERPRETAR

EXTRAER: Localizar informacin en una o ms partes



de un texto.

Los contenidos especficos que se evalan dentro de


estas tres capacidades son:

Tema, idea central, tesis.Relaciones textuales.Procedimientos de cohesin (referencia, parfrasis, elipsis, conectores,
etc.).Procedimientos textuales. Enunciacin.
Caractersticas de personajes.Vocabulario.

EVALUAR

CAPACIDADES COGNITIVAS: Operaciones mentales que el sujeto utiliza para establecer relaciones con y
entre los objetos, situaciones y fenmenos. Se logran a
travs del proceso de enseanza y del proceso de aprendizaje y cobran significado de acuerdo con la determinacin de contenidos socialmente relevantes y altamente
significativos, frente a los que se ponen en juego y a
travs de los cuales se desarrollan. En el rea de Lengua,
la capacidad general que evala nuestra prueba es la
comprensin lectora. Dentro de ella se encuentran las
siguientes capacidades:

Tipologa textual.Gneros discursivos.


Principios constructivos del texto literario.
Tipos de narradores.Variedades y registros
lingsticos.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

71

Ciencias Sociales
ANLISIS DE SITUACIONES: Capacidad cognitiva
de reconocer relaciones y/o de seleccionar cursos de accin que requieren la aplicacin de conceptos y/o principios y/o informacin previamente adquiridos.
COMUNICACIN: Capacidad cognitiva de interpretar la informacin y expresar un procedimiento o un
resultado. Por razones metodolgicas, los tem que evalan la comprensin o interpretacin de la informacin
se encuentran en la capacidad de Interpretacin/
Exploracin de la tabla de especificaciones.
Los tems para evaluar la expresin de un procedimiento o de un resultado se incluyen, en la tabla, en la
capacidad llamada Comunicacin.
Las posibles alternativas para evaluar esta capacidad
son las siguientes:
- Plantear una situacin problemtica.
- Describir la solucin de una situacin

problemtica.

- Redactar una fundamentacin.


- Completar un cuadro, un mapa, etc.
- Producir un texto, un cuadro, un mapa, un grfico, una tabla, etc.
- Expresarse con un adecuado vocabulario de

la disciplina.

- Describir las distintas etapas de una construccin cientfica.

INTERPRETACIN/EXPLORACIN: Capacidad
cognitiva de obtener y cruzar informacin proveniente
de diferentes fuentes (textos, mapas, grficos, etc.).
RECONOCIMIENTO DE CONCEPTOS: Capacidad
cognitiva de identificar conceptos y principios por medio
de ejemplos, casos, atributos o definiciones de los mismos o viceversa: identificar ejemplos, casos, atributos o
definiciones de conceptos y principios dados.
RECONOCIMIENTO DE HECHOS: Capacidad cognitiva de identificar datos y/o hechos en un conjunto de
informacin mediante la utilizacin de conocimientos
que el alumno posee.
RECONOCIMIENTO DE VALORES: Capacidad cognitiva de elegir conductas de acuerdo con valores en
situaciones vinculadas con la responsabilidad social e
identificar valores implcitos o explcitos en discursos y
prcticas.

72

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Ciencias Naturales
Capacidades Cognitivas

Definicin

Reconocimiento de
datos, hechos y conceptos

Incluye:
la identificacin de caractersticas y relaciones,
la interpretacin de datos y hechos: comparando, secuenciando, agrupando
y clasificando segn criterios explicitados.
la aplicacin de conceptos cientficos.

Comunicacin

Incluye:
la interpretacin, organizacin y traduccin de informacin en distintos
formatos (tablas, grficos, diagramas, esquemas y smbolos), y
la expresin de argumentos o conclusiones a partir de evidencias tales como
datos experimentales.

Anlisis de situacin

Incluye:
el anlisis de los datos experimentales, su validez, la identificacin de patrones y el reconocimiento de las variables involucradas, y
la identificacin, interpretacin y relacin de los distintos procesos de la
investigacin cientfica.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

73

Proyecto Uso de la Informacin 2009


Pautas para la presentacin de Proyectos Jurisdiccionales 2009

A.- Antecedentes
En tres llamados distintos (02-03; 04 y 06-07) se
financiaron y asistieron tcnicamente proyectos jurisdiccionales de uso de la informacin surgida de la evaluacin de la calidad educativa.
En las revisiones que se han realizado de la propuesta, los responsables jurisdiccionales de evaluacin destacaron tres puntos:
Permiti que se implementaran propuestas que
se venan formulando durante varios aos pero
que nunca haban contado con fondos para poder realizarse.
Brind la posibilidad de expandir el ciclo de evaluacin de la calidad educativa a travs de acciones de devolucin y uso de la informacin obtenida.
Respald acciones provinciales de evaluacin
para que puedan finalizarse y ser efectivas.
Como parte de la evaluacin interna de la DiNIECE, se
destac:
La importancia de la propuesta para impulsar el
uso de informacin.
La heterogeneidad de propuestas recibidas.
La heterogeneidad en el nivel de implementacin
de los proyectos.
A lo largo de estos tres llamados se ha mejorado el
seguimiento y la sistematizacin de la experiencia. Esto
ha permitido contar con documentacin sobre los proyectos de uso de informacin de los resultados de la evaluacin de la calidad educativa en el pas y la posibilidad
de realizar un mejor seguimiento de los compromisos
asumidos por las distintas partes.

B.- Pautas para la presentacin de Proyectos Jurisdiccionales 2009


En convocatorias anteriores eran dos las condiciones
que las Jurisdicciones deban respetar en sus proyectos:
que se formularan de acuerdo al esquema de presentacin propuesto por la DiNIECE y que fueran tcnicamente viables .
Se agregan a los anteriores, los siguientes criterios:
El Proyecto deber estar orientado a mejorar el
funcionamiento del sistema educativo, destinn-

dolo a funcionarios, supervisores, directivos y/o


docentes.
Los proyectos jurisdiccionales se centrarn en el
uso de la informacin producida a partir del ONE
05.
Las Jurisdicciones pueden utilizar, en forma complementaria de las bases del ONE 05, informacin surgida de estudios propios o evaluaciones
provinciales.
Estarn asesorados por la DiNIECE. Para el caso
en que el proyecto contemple la participacin de
otra institucin o profesionales externos, deber
contar previamente con el expreso acuerdo de la
DiNIECE.
La jurisdiccin contar con un ao (doce meses
corridos) para ejecutar el proyecto a partir de recibir la transferencia de la DiNIECE. Vencido ese
plazo, deber nuevamente solicitar la aprobacin
del proyecto y la autorizacin para el uso de los
fondos, explicando los motivos de la demora.

C.- Procedimiento administrativo


Las Jurisdicciones que lo deseen podrn presentar
proyectos de uso de informacin, conforme a los criterios y esquemas que se postulan en el presente documento.
Al ser aprobado tcnicamente por el Equipo Pedaggico de la DiNIECE, se remitir, junto con un acta-acuerdo, a la Jurisdiccin. All ser firmado por la autoridad
correspondiente y reenviado a la Direccin Nacional.
Una vez que se d entrada, y a la mayor brevedad posible, se realizar la transferencia de fondos.
La convocatoria est abierta hasta el 30/06/09. Es
importante sealar que las transferencias pueden darse
en distinto momentos del ao. Sin embargo, la primera
que realizar esta Direccin Nacional en el rea de evaluacin ser en el mes de marzo de 2009. Para incluir al
proyecto de uso de la informacin en esa partida ste
deber ser enviado antes de la segunda quincena de febrero.

D.- Monitoreo y seguimiento


Una vez aprobado el proyecto, la jurisdiccin deber
presentar a la DiNIECE tres informes que documenten
su ejecucin:

74

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

El primero ser entre el primer y segundo trimestre de aprobado el proyecto. El mismo reflejar
los procesos de inicio e implementacin.
El segundo describir los procesos de ejecucin y
desarrollo.
El tercero abarcar los procesos de finalizacin y
evaluacin del proyecto.

E.- Proyectos sugeridos


Respetando las condiciones y criterios fijados en puntos
anteriores, cada jurisdiccin podr elaborar el proyecto
que le parezca ms adecuado a la realidad de su situacin educativa y posibilidades. A modo de sugerencia, se
sealan las siguientes propuestas:

Jornadas de trabajo donde se presente y analice


la informacin.
Estas jornadas pueden estar dirigidas a funcionarios del sistema, a inspectores y/o directivos.
Para ello, puede resultar til la elaboracin de
material impreso donde se presenten los datos
(Ejemplo: Proyecto presentado por la Provincia
de La Rioja en la convocatoria 2006).
Talleres de trabajo donde se presente la informacin, se la analice y se formulen recomendaciones o planes para mejorar la calidad educativa
(Ejemplo: Proyecto presentado por la Provincia
de Entre Ros en la convocatoria 2006).
Trabajo de devolucin y formulacin de planes
de mejora en escuelas que tengan bajos resultados (Ejemplo: Proyecto presentado por la Provincia de Salta en la convocatoria 2006).

F.- Sobre el presupuesto y los fondos


Es importante que el presupuesto del proyecto est
bien definido.
Los rubros en que podrn utilizarse los fondos son:





Asistencia tcnica y profesional.


Alquiler de Lugares y Equipos.
Impresiones.
Insumos de librera.
Insumos informticos (no equipos).
Correo.

En cuanto al monto de los fondos que se soliciten,


deben estar claramente detallados en el presupuesto,
corresponderse con la propuesta que se realice y la realidad del sistema educativo jurisdiccional (tanto en dimensiones como en factibilidad de realizacin).

G.- Esquema para la presentacin de proyecto


Los proyectos que se presenten utilizarn el esquema
que se indica a continuacin, similar al de otras convocatorias:
1. Marco General del Proyecto de Uso de la Informacin de Evaluacin: refiere a una breve explicacin
de las razones que fundamentan la implementacin del
Proyecto, de acuerdo con las prioridades identificadas
por la Jurisdiccin, con respecto al uso de la informacin
de evaluacin. Se deber explicitar por qu resulta necesaria su realizacin.
2. Grupo - meta: el Proyecto puede estar dirigido a
diferentes actores del sistema educativo, de acuerdo con
las necesidades que cada Jurisdiccin identifique como
prioritarias. La idea es caracterizar a los destinatarios del
Proyecto, teniendo en cuenta:


Cantidad aproximada de destinatarios.


Nivel de decisin y accin de los mismos.
Nivel/es educativo/s involucrado/s.

Por ejemplo: cantidad de supervisores de escuelas de


EGB de la Provincia; cantidad de directivos y docentes
de establecimientos de Nivel Polimodal de las regiones
con rendimiento ms bajo.
3. Objetivos: enunciar los logros que se pretenden
alcanzar en relacin con el uso de la informacin de evaluacin con la implementacin del Proyecto.
4. Estrategia general: supone explicitar el curso de
accin a travs del cual se prev la consecucin de los
objetivos del Proyecto. Por ejemplo si se prevn encuentros de carcter presencial, una modalidad semipresencial o a distancia. Si los encuentros exigen el traslado
de los destinatarios a algn punto de la Jurisdiccin o
el traslado del equipo responsable del Proyecto a distintos puntos de la misma. Si se elaborarn materiales de
trabajo, etc.
5. Acciones: implica una mayor especificacin de la
estrategia general. Se debern enunciar en forma secuencial las tareas y los responsables que las llevarn a
cabo para la consecucin de los objetivos.
6. Cronograma: especificar un listado de las acciones
con las fechas tentativas de inicio y finalizacin.
7. Recursos:

Materiales: folletos, copias, anillados, alguna
bibliografa particular.

Humanos: curriculum vitae de los responsables
de la implementacin del Proyecto.
8. Productos: refieren a los resultados a los que se
llegar por haber realizado las acciones.

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

9. Presupuesto y Costos: implica explicitar el costo


total y el de cada una de las acciones que se ejecutarn
en el Proyecto. (VER PUNTO F).
10. Seguimiento y Monitoreo:

Informe inicial: Entre el 3er y el 6to mes de
aprobado el proyecto. Reflejar los procesos de inicio e
implementacin.

Informe de proceso: Entre el 6to y el 9no mes.
Describir los procesos de ejecucin y desarrollo.

Informe de cierre: Al finalizar la ejecucin del
proyecto. Abarcar los procesos de finalizacin y evaluacin del proyecto.
11. Requerimiento a la DiNIECE:

ASISTENCIA TCNICA: describir el tipo de asistencia que se requerir y para qu momento. Por ejemplo: previa o durante la implementacin del Proyecto.

INFORMACIN DE EVALUACIN: bases de datos con los resultados de los ONE, diferentes tipos de
procesamiento de la informacin, materiales de uso de
la informacin de evaluacin.

OTRA (especificar).

BIBLIOGRAFA

Criterios de evaluacin ONE 2005. DINIECE,
Ministerio de Educacin, Ciencia y Tecnologa de la Nacin, 2005.

Allen, David (compilador - 2000), La evaluacin del aprendizaje de los estudiantes, Buenos Aires,
Paids.

Barber Gregori, Elena (1999), Evaluacin de la
enseanza, evaluacin del aprendizaje, Barcelona, edeb.

Carrin Carranza, Carmen (2001), Valores y
principios para evaluar la educacin, Mxico, Paids.

Cano Garca, E. (1999), Evaluacin de la calidad educativa, Madrid, La Muralla.

Landsheere, G. de (1999), El pilotaje de los sistemas educativos, Madrid, La Muralla OEI.

Lpez, F. (1994) La gestin de la calidad en
educacin, Madrid, La Muralla.
SITIOGRAFA

Elola, Nydia y Toranzos Lilia, (2000) Evaluacin
educativa. Una aproximacin conceptual., Biblioteca Digital, OEI.
http://www.campus-oei.org/calidad/luis2.pdf

H.- Apoyo desde la DiNIECE


Las jurisdicciones cuentan con el Equipo Nacional
para asistirlos y ayudarlos tanto en el planteo de los proyectos como en su implementacin. Por cualquier duda
o consulta, pueden contactarse con Jorge Novello y/o
Rafael del Campo al 011-4129-1486 int. 1486 o escribir
a jnovello@me.gov.ar rdelcampo@me.gov.ar.

75

76

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

Hacia una cultura de la Evaluacin / ONE 2009 / Censo

77

GLOSARIO

AGRUPAMIENTO DE TEMS: Conjunto de tems que evalan una misma capacidad cognitiva o un mismo contenido.
Este agrupamiento da la posibilidad de calcular un puntaje parcial de la prueba, de la cual forman parte.
ANLISIS DE SITUACIONES: Ver Capacidades Cognitivas.
ANCLAJES: Un conjunto de tems comunes a pruebas diferentes que se aplican a grupos de alumnos tambin distintos y
permiten la equiparacin de los puntajes obtenidos.
APLICACIN CENSAL: Aplicacin de una prueba de evaluacin, a la totalidad de los alumnos de una cohorte de todo el
pas. Brinda informacin relevante sobre la poblacin total.
APLICACIN MUESTRAL: Aplicacin de una prueba de evaluacin, a grupos de alumnos seleccionados de manera tal que
sus caractersticas sean representativas de la poblacin total. La
seleccin de la muestra en nuestro caso, es aleatoria y estratificada (por jurisdiccin, mbito, rgimen y modalidad).
AZAR: Ver Respuesta por Azar.
BANCO DE TEMS: Un conjunto de reactivos (interrogantes,
disparadores o ejercicios) organizados segn el criterio lgico
del rea disciplinaria, curricular o por competencia, curso o
edad de los alumnos, destinados a ser utilizados para construir
futuros instrumentos de evaluacin.
BLOQUE DE TEMS: Conjunto de tems de una prueba. Los
bloques permiten una mayor cobertura de la diversidad de contenidos y capacidades. A partir de 2009 los ONE se estructuran
en bloques.
CALIDAD (de la Educacin): Una educacin de calidad es
aquella que logra que los alumnos realmente aprendan lo que
se supone deben aprender, aquello que est establecido en los
planes y programas curriculares al cabo de determinados ciclos
del sistema educativo formal. Es trabajar atendiendo a los resultados e incrementar oportunidades de aprendizaje para todos
con la permanente intencin de ir disminuyendo las diferencias.
Es aquella que brinda medios y orienta a los equipos de supervisin, docentes y alumnos para que se realice efectivamente el
proceso de enseanza y el proceso de aprendizaje, poniendo
nfasis en las estrategias de gestin y didcticas.
CAPACIDADES COGNITIVAS: Operaciones mentales que el
sujeto utiliza para establecer relaciones con y entre los objetos, situaciones y fenmenos. Se logran a travs del proceso
de enseanza y del proceso de aprendizaje y cobran significado
de acuerdo con la determinacin de contenidos socialmente
relevantes y altamente significativos, frente a los que se ponen
en juego y a travs de los cuales se desarrollan. En las tablas
de especificaciones que enmarcan la aplicacin de nuestros instrumentos de evaluacin, quedaron establecidas hasta el momento capacidades cognitivas de acuerdo a la disciplina que se
evale (Ver Adenda).
CBC: Contenidos Bsicos Comunes. Conjunto de saberes
relevantes que integran el proceso de enseanza de todo el
pas. Son la matriz bsica para un proyecto cultural nacional;
matriz a partir de la cual, cada jurisdiccin continua actualizando sus propios lineamientos o diseos curriculares y da paso, a

su vez, a diversos pero compatibles proyectos curriculares institucionales.


CIVED: Civic Eduaction Study o Estudio Internacional de
Educacin Cvica. Prueba de evaluacin internacional puesta en
marcha por la IEA (International Association for the Evaluation
of Educational Achievement) cuyo objetivo es evaluar los conocimientos y actitudes de los alumnos dentro de cuatro campos:
1. Democracia.
2. Identidad Nacional.
3. Cohesin Social y Diversidad.
4. Economa / Medios de Comunicacin
y Medio Ambiente.
En nuestro pas esta prueba se aplica en 9 ao de la EGB.
o 2 ao del nivel Secundario y en 3 ao del nivel Polimodal o
ltimo ao del nivel Secundario.
COMPRENSIN LECTORA: Ver Capacidades Cognitivas.
CONFIABILIDAD: El grado de estabilidad de los puntajes
obtenidos en mediciones sucesivas del mismo atributo o la consistencia de los puntajes arrojados por los distintos tems que
conforman la prueba.
CONTENIDOS: Conjunto de saberes o formas culturales cuya asimilacin y apropiacin por parte de los alumnos
se considera esencial para su desarrollo personal y social. Son
instrumentos para leer, analizar e interpretar la realidad. La explicitacin de los contenidos, desde lo establecido por las diferentes disciplinas, permite determinar con mayor certeza de
qu conocimiento debe apropiarse el alumno y cmo organizar
las estrategias didcticas para implementar en los procesos de
enseanza y aprendizaje. Son seleccionados y organizados por
el sistema educativo para ser enseados y aprendidos en la escuela, sobre lo construido por la cultura vigente en un determinado momento histrico.
CUESTIONARIOS COMPLEMENTARIOS: Tambin denominados como cuestionarios de contexto. Cuestionarios auto-administrados a los directivos, a los docentes y a los alumnos de
las escuelas donde se llevan a cabo las pruebas de evaluacin, a
fin de recoger informacin relevante acerca de las condiciones
materiales, institucionales y sociales en las cuales, la comunidad
educativa desarrolla sus respectivas tareas.
DIFICULTAD DE UN TEM: Medida que indica cun difcil result un tem para los estudiantes que lo resolvieron. Sus valores oscilan entre menos infinito y ms infinito en la escala logit
usada en el modelo Rasch. En trminos ms prcticos, los tems
asumen valores entre -3 y +3. Valores positivos y altos indican
alta dificultad y valores negativos indican baja dificultad.
DISTRACTORES: Cualquiera de las opciones o respuestas
errneas posibles, que conforman los ejercicios de seleccin
mltiple o de respuesta fija.
EQUIDAD: Calidad para todos. Es reconocer puntos de partida distintos y puntos de llegada similares, a partir de una visin
crtica y objetiva de datos confiables. Una escuela es equitativa
cuando posee la capacidad de compensar mejor las desigualdades sociales, debilitando el condicionamiento del origen social
de los alumnos con respecto a sus logros de aprendizaje.

78

Direccin Nacional de Informacin y Evaluacin de la Calidad Educativa / Ministerio de Educacin

EQUIPARACIN: Proceso estadstico que se utiliza para


ajustar puntuaciones de dos o ms pruebas de modo que sean
intercambiables y comparables, es decir que se pueda establecer una correspondencia entre sus puntuaciones, de tal modo
que las puntuaciones de cualquiera de ellas puedan expresarse
en trminos de las de las otras.
ESCALAMIENTO: El desarrollo de reglas sistemticas y de
unidades significativas de medida para cuantificar las observaciones empricas. Una escala de medida se establece cuando se
define el conjunto de valores posibles que pueden asignarse y
se establece la regla de asignacin que establece la correspondencia entre el sistema emprico y el sistema numrico. Proceso
de transformacin de las respuestas en puntuaciones.
EVALUACIN: Proceso sistemtico de relevamiento de datos, incorporado al sistema de acciones educativas, que permite
obtener informacin vlida y confiable para formular juicios
de valor acerca de una realidad, en este caso nos referimos al
campo educativo. Estos juicios pueden ser utilizados en la toma
de decisiones con el objeto de mejorar las acciones educativas
valoradas.
FACTORES ASOCIADOS: Variables sociales, culturales y
econmicas que inciden en el rendimiento acadmico de los
alumnos.
INDICADOR: Parmetro que permite cuantificar e inferir el
valor y la existencia o inexistencia de una variable. Da cuenta de
cmo vamos a traducir en el mbito emprico nuestra definicin
conceptual de la variable. Sirve de puente entre las conceptualizaciones y la realidad emprica.
INTERPRETACIN Y EXPLORACIN:
Ver Capacidades Cognitivas.
INSTRUMENTO PILOTO: Prueba de evaluacin denominada
piloto que consiste en una instancia previa a la construccin
del instrumento definitivo en la que se administra un conjunto
de tem a una muestra de sujetos, a fin de obtener informacin
sobre la calidad y pertinencia de dichos tem para evaluar los
contenidos y las capacidades previamente establecidos en las
tablas de especificaciones.
INFORME DE RESULTADOS: Publicacin destinada a la difusin de la informacin relevada sobre los aprendizajes de los
alumnos y de los datos vinculados con su historia acadmica,
las expectativas de los docentes respecto de stos, las formas
de organizacin del trabajo docente y de la escuela en su conjunto. Informacin que se recoge mediante la aplicacin de
pruebas estandarizadas y de cuestionarios complementarios,
respectivamente.
INTERPRETACIN Y EXPLORACIN:
Ver Capacidades Cognitivas.
TEM: Mnima parte de un test o prueba que recibe puntaje. Los formatos de tem ms utilizados para evaluar rendimiento acadmico son los de eleccin mltiple o de respuesta
fija, en los cuales el alumno debe elegir la respuesta correcta
de entre un conjunto limitado de respuestas posibles y los de
construccin o tem abierto, en los cuales el alumno debe construir la respuesta.
NAP: Ncleos de Aprendizaje Prioritarios. Constituyen un
conjunto de saberes comunes que deben estar al alcance de todos los nios y las nias del pas, de manera tal que nos permita
compartir el mundo a todos los argentinos, y reafirmar, desde
el Estado, el derecho y la oportunidad de todos a acceder a
nuestra cultura. (El acuerdo alcanzado en el Consejo Federal de
Cultura y Educacin, entre el Ministerio nacional, las provincias
y la Ciudad de Buenos Aires, permiti establecer los Ncleos de
Aprendizajes Prioritarios, conformndose una base comn para

la enseanza en todo el pas).


NIVELES DE DESEMPEO: Categoras de tareas que permiten identificar grupos de estudiantes con niveles similares de
rendimiento frente a la prueba. Se establecen fundamentalmente con el propsito de facilitar la comunicacin de lo que
pueden hacer los estudiantes. Se determinan combinando los
hallazgos de los ONE y los criterios conceptuales curriculares y
pedaggicos.
NIVELES DE LOGRO: Ver Niveles de Desempeo.
OMISIN: Ausencia total de respuesta en un ejercicio. El
ndice de omisin es el porcentaje de ejercicios no respondidos
sobre el total de la poblacin de alumnos evaluados.
ONE (Operativo Nacional de Evaluacin): Acciones de evaluacin instrumentadas a partir del nuevo marco legal otorgado
por la sancin de la Ley Federal de Educacin, con el objetivo
de suministrar informacin vlida y confiable sobre qu y cunto aprenden los alumnos durante su permanencia en el sistema
educativo formal y acerca de cules son los factores asociados
a ese aprendizaje.
OPERACIN USANDO ALGORITMOS:
Ver Capacidades Cognitivas.
PIRLS: Progress in International Reading Literacy Study o Estudio internacional sobre el progreso de la alfabetizacin lectora. Prueba de evaluacin internacional puesta en marcha por la
IEA (International Association for the Evaluation of Educational
Achievement), cuyo objetivo es evaluar tanto los procesos que
se ponen en juego para la comprensin como los propsitos de
lectura. En nuestro pas se aplica en 4 ao de la E.G.B. (Ver documento Pruebas Nacionales e Internacionales para 2001).
PISA: Programme for International Student Assessment o
Programa para la evaluacin internacional de estudiantes. Prueba de evaluacin internacional o programa creado por la OECD
(organizacin para la Cooperacin y el Desarrollo Econmico)
que evala tres reas:
1. Prueba de Alfabetizacin Lectora estructurada sobre
la base de tres dimensiones: Procesos o tareas de
lectura - Contenidos o tipos de textos - Contextos o
propsitos del texto.
2. Prueba de Alfabetizacin Cientfica estructurada sobre la base de tres dimensiones: Procesos Cientficos
- Conceptos Cientficos - Situaciones y Contextos.
3. Prueba de Alfabetizacin Matemtica estructurada
sobre la base de tres dimensiones: Las Grandes Ideas
(contenidos) - Competencias matemticas o procesos
de matematizacin - Situaciones y contextos.
El objetivo del estudio PISA 2000 es elaborar indicadores
del alcance de la preparacin de los alumnos de 15 aos de los
sistemas educativos de los pases participantes, ya que sta es
la edad en la que la mayora de los alumnos de los pases miembros de OECD terminan su escolaridad obligatoria. La evaluacin no se limita a lo que los alumnos han aprendido sino que
pone especial inters en el uso que hacen de estos aprendizajes
para jugar un papel comprometido como ciudadanos.
PRODUCCIN ESCRITA: Ver Capacidades Cognitivas.
PRUEBA PILOTO: Ver Instrumento Piloto.
PRUEBA REFERIDA A CRITERIOS: Los instrumentos referidos
a criterios estn enfocados a determinar si un alumno ha logrado un nivel predeterminado o criterio prefijado, en una disciplina dada. Proveen informacin precisa sobre logros respecto de
ese criterio (estndares o metas educativas).
PRUEBA REFERIDA A NORMAS: Los instrumentos referidos
a normas comparan al estudiante con la norma de su grupo.

Las mediciones normativas reportan cul es la posicin relativa


de un sujeto con respecto de la norma de su grupo.
RECOMENDACIONES METODOLGICAS: Publicaciones
y videos destinados a los docentes, cuyo contenido surge del
anlisis y de la interpretacin de los resultados alcanzados por
los alumnos en cada uno de los Operativos Nacionales de Evaluacin. En este material se plantean propuestas, tanto tericas
como metodolgicas para la enseanza de aquellos contenidos
y capacidades, que en forma recurrente presentan dificultad en
los alumnos.
RECONOCIMIENTO DE CONCEPTOS Y PRINCIPIOS: Ver
Capacidades cognitivas.

TIMSS: Third International Mathematics and Science Study o Tercer Estudio Internacional de Matemtica y Ciencias.
Prueba de evaluacin internacional, puesta en marcha por la
IEA (international Association for the Evaluation of Educational
Achievement). Su objetivo es evaluar el nivel de rendimiento de
los alumnos, de manera conjunta en Matemtica y Ciencias. El
ncleo central del estudio es la poblacin de alumnos de 13
aos. (Ver documento Pruebas Nacionales e Internacionales
para 2001).
VALIDEZ: El grado en que un test o prueba mide lo que dice
medir o evala lo que pretende evaluar. Brinda informacin vlida con respecto al atributo que mide o evala el test.

RECONOCIMIENTO DE HECHOS: Ver Capacidades cognitivas.


RECONOCIMIENTO DE VALORES: Ver Capacidades
cognitivas.
REFLEXIN SOBRE LOS HECHOS DEL LENGUAJE: Ver
Capacidades cognitivas.
RESOLUCIN DE PROBLEMAS: Ver Capacidades cognitivas.

BIBLIOGRAFA
Coll,Csar. Aprendizaje escolar y construccin del conocimiento, Barcelona, 1990.

RESPUESTA POR AZAR: Respuesta que los alumnos dan fortuitamente, sin dominar el contenido y capacidad especficos
evaluados en el tem.

Coll, Csar; Pozo, J.I; Sarabia, B; Valls, E. Los contenidos


en la Reforma. Enseanza y aprendizaje de conceptos, procedimientos y actitudes, Madrid, 1992.

SERCE: Segundo Estudio Regional Comparativo y Explicativo (SERCE 2006). El SERCE es un Estudio de Evaluacin,
producto de una construccin colectiva y participativa de los
pases latinoamericanos que conforman la red del Laboratorio
Latinoamericano de Evaluacin de Calidad Educativa (LLECE).

Cortada de Kohan, Nuria. Teoras Psicomtricas y Construccin de Tests, Buenos Aires, 1999.

SISTEMA NACIONAL DE EVALUACIN DE LA CALIDAD DE


LA EDUCACIN: dispositivo administrativo para la conduccin
del sistema educativo. Su funcin es ofrecer informacin sobre
los resultados de la educacin, el funcionamiento de distintos
niveles del sistema, las condiciones que afectan los procesos
en las distintas instancias y el aporte de distintos actores. Esto
con el propsito de definir las polticas educativas, orientar el
desarrollo de planes de mejoramiento y rendir cuentas sobre la
respuesta del sistema a las demandas de la sociedad.

Instituto para el Desarrollo de la Calidad Educativa. Documento Pruebas Nacionales e Internacionales para
2001,
Hambleton, R.K; Swaminathan, H; Jane Rogers, H. Fundamentals of Item Response Theory, United States
of Amrica, 1991.
Jacob, 1994; tomado de Cea DAncona, Ma. ngeles.
Metodologa Cuantitativa. Estrategias y Tcnicas de
Investigacin Social, Madrid, 1996.

TABLA DE ESPECIFICACIONES: En el caso de nuestras pruebas de evaluacin es un cuadro de doble entrada en el cual se
ingresan dos tipos de informacin: las capacidades y los contenidos a evaluar, Cada cruce identifica un desempeo, es decir,
una capacidad determinada en relacin con contenidos de cada
rea de conocimiento.

Martinez Arias, Rosario. Psicometra: Teora de los Tests


Psicolgicos y Educativos, Madrid, 1995.

TEORA CLSICA DE LAS PRUEBAS (TCP): ver Teora Clsica


de los Test (TCT).

Ministerio de Cultura y Educacin de la Nacin. Recomendaciones Metodolgicas para la Enseanza


- 3er Operativo Nacional de Evaluacin (1995), Buenos Aires, 1997.

TEORA CLSICA DE LOS TEST (TCT): Teora basada en el Modelo Lineal de la Regresin con dos variables: teora psicomtrica
que considera como hiptesis fundamental, que el puntaje de un
sujeto en un test (observable) es funcin de dos componentes: el
puntaje verdadero (inobservable) y el puntaje de error.
TEORA DE LA RESPUESTA AL TEM (TRI): Teora basada en
la modelizacin de las probabilidades de respuestas correctas
a un tem segn las funciones de distribucin normal y logstica. Intenta dar una fundamentacin probabilstica al problema de la medicin de constructos inobservables. Considera al
tem como unidad bsica del test. Sus modelos son funciones
matemticas que relacionan la probabilidad de una respuesta
particular a un tem, con la aptitud general del sujeto.
TEORA DEL RASGO LATENTE: ver Teora de la Respuesta al
tem (TRI).

Ministerio de Cultura y Educacin de la Nacin. Manual


de Estrategias para el uso e incorporacin de la informacin de la Evaluacin, Buenos Aires, 1997.

Ministerio de Cultura y Educacin de la Nacin. Contenidos Bsicos Comunes para la Educacin General
Bsica, Buenos Aires, 1995.
Ministerio de Cultura y Educacin de la Nacin. Ncleos
de Aprendizaje Prioritarios para la Educacin General Bsica, Buenos Aires, 2004 - 2006.
Ministerio de Cultura y Educacin de la Nacin. Propuesta
de Tablas de Especificaciones, Buenos Aires, 1999.
Vianna, Heraldo Marelim. Termos Tcnicos em medidas
educacionais, So Paulo, 1981.

Vous aimerez peut-être aussi