Académique Documents
Professionnel Documents
Culture Documents
1
I NTRODUCCIN Y FINALIDAD
Los primeros datos sobre la validez de las rbricas, bajo esta denominacin o cualquier
otra, como matrices de evaluacin, escalas de anclajes o similares, se remontan a la
dcada de 1960 y, cuando aquello, las rbricas se destinaban, preferentemente, a la
evaluacin del desempeo de tareas laborales.
Concretamente, la finalidad del presente anlisis es describir con mayor profusin que
en alguna otra ocasin anterior, las caractersticas de la validez de las rbricas para la
evaluacin de competencias, a partir de la teora general del desempeo de tareas.
A continuacin, tras un breve resumen de esta teora del desempeo competente, que
sirva de contexto para fundamentar el uso de las rbricas de evaluacin, se comentarn
los aspectos ms destacados de stas y la metodologa de las escalas de observacin de
conductas y de anclajes conductuales. Por ltimo, se propondrn algunos modelos para
el anlisis de fiabilidad de las rbricas y se dar cuenta de una variedad de sesgos e
inexactitudes en el diseo de rbricas, cuya prevencin es el mejor modo de asegurar su
validez.
Ni que decir tiene que todos los modelos de docencia, cuyo objetivo general sea el
desarrollo de competencias, como el aprendizaje por proyectos, el aprendizaje basado
en problemas (Marina, Pellicer y Manso, 2015), el aprendizaje por tareas, etc. deben
necesariamente de utilizar rbricas de evaluacin para operativizar los distintos criterios
y graduar los logros obtenidos por cada aprendiz. De todos modos, el empleo de
rbricas no necesariamente tiene por qu sustituir ningn mtodo vlido de evaluacin
de rasgos, conocimientos o destrezas, aunque ciertamente ste sea uno de los mtodos
ms adecuados para la evaluacin del desempeo de tareas.
2
D ESEMPEO Y COMPETENCIA
El marco conceptual que ofrece uno de los soportes ms firmes para el empleo de
rbricas de evaluacin son las teoras del desempeo y de las competencias. Estas
teoras, que devienen del mundo del trabajo, son, con todo, de total aplicacin a la hora
de explicar los principales fenmenos del aprendizaje.
1
Concepto de desempeo
Entre las variables del desempeo, sintetizadas por Viswesvaran (2001), todas ellas de
aplicacin tambin para evaluar el desempeo de las tareas de aprendizaje, podramos
citar: la productividad y la calidad de los productos terminados, la experiencia, la
cantidad de esfuerzo para obtener un buen producto, la competencia interpersonal, la
competencia comunicativa, la competencia de coordinacin, la aceptacin de reglas o el
liderazgo.
2
Determinantes directos e indirectos del desempeo
3
Criterios del desempeo
4
Las competencias
Las competencias, que como ya se ha dicho en otras ocasiones, trascienden los objetivos
de conocimiento, destreza o actitud (Basoredo, 2016) y deben entenderse no como el
mejor desempeo alcanzado en las condiciones ms favorables, sino como un
desempeo tpico y habitual, en circunstancias ordinarias (Klehe y Anderson, 2007), y,
por tanto, el empleo de rbricas de evaluacin permite la constatacin del nivel
alcanzado, en ausencia de excepcionalidad.
3
E LEMENTOS CONCEPTUALES Y DEL CONTENIDO
Las rbricas de evaluacin educativa son guas precisas para evaluar los aprendizajes y
productos del mismo, que utilizan tablas para desglosar los distintos niveles del
desempeo de las tareas de los/as estudiantes, en un aspecto determinado, con criterios
especficos preestablecidos sobre el rendimiento (Gatica-Lara y Uribarren, 2013; Mertler,
2001).
Atendiendo al formato, las rbricas de evaluacin son tablas de doble entrada en las cuales
la primera columna contiene las variables objeto de medida, la primera fila los distintos
valores y las siguientes filas los detalles de los criterios e indicadores correspondientes a
cada variable.
Las rbricas de evaluacin son una de las herramientas alternativas a las tcnicas
convencionales de cuestionario o exmenes, tal y como reconocen algunos autores
(Alsina, 2013; Oakleaf, 2009), en el contexto de una evaluacin autntica o basada en el
desempeo, tal y como se ha comentado anteriormente (Herman, Aschbacher y Winters,
1992).
Los dos tipos de rbricas de evaluacin, acerca de cuyas caractersticas hay un notable
consenso (Moskal, 2000; Mertler, 2001; Jonsson y Svingby, 2007; Lpez Carrasco, 2007;
Gatica-Lara y Uribarren; 2013), son las holsticas y las analticas.
Las rbricas holsticas nicamente utilizan una variable global para evaluar el
desempeo, aunque se especifiquen convenientemente cada uno de los valores de la
escala, mientras que las analticas diversifican los contenidos de la evaluacin en varias
dimensiones, descritas rigurosamente, as como las especificaciones de los grados de la
escala correspondientes. Si, adems, se acompaan ejemplos de los detalles de los
distintos criterios, las rbricas analticas son preferibles a las holsticas, tal y como
reconocen Jonsson y Svingby (2007).
En relacin con la justificacin de las rbricas, Alsina (2013) las admite en cualquier
nivel de enseanza, con el fin de poder compartir entre las personas interesadas los
criterios de evaluacin; Green y Bowser (2006) extienden su empleo tanto a la evaluacin
formativa como a la sumativa y Malini y Andrade (2010), adems, para cualquier tipo de
disciplinas, particularmente, en la Enseanza Superior. Las razones ms profusamente
aludidas para su empleo (Moskal, 2000; Jonsson y Svingby, 2007; Oakleaf, 2009; Gatica-
Lara y Uribarren, 2013) son su capacidad de:
Son pocos los estudios que explican el proceso de diseo de una rbrica de evaluacin;
por tanto, tal vez fuera conveniente sealar el sugerido por Mertler (2001), que apunta
una serie de pasos recomendables para cualquier diseo de los criterios de evaluacin de
la herramienta, a saber:
4
E SCALAS BASADAS EN INFORMACIN SOBRE CONDUCTAS
El correlato de este tipo de escalas son las escalas grficas de evaluacin, que admiten
diversos tipos. A partir de stas se desarrollaron las ya citadas escalas de Likert, Thurstone
o Guttman, con el fin de proponer algunos criterios ms concretos para definir las
categoras. Las escalas grficas de evaluacin permiten a la persona que evala una mayor
libertad para cuantificar sus juicios y realizar una discriminacin muy precisa entre los
distintos valores atribuidos (Landy y Farr, 1980).
El esmerado procedimiento de diseo de una BARS parte de una primera eleccin de las
dimensiones a evaluar y su definicin, a continuacin se formulan especificaciones para
un desempeo superior, medio e insuficiente de la tarea, se aportan ejemplos de estas tres
cualidades, y diversos jueces, hasta en tres ocasiones independientes, analizan la
asociacin realizada entre cada ejemplo y la calificacin que le corresponde, eliminando
unos u otras en el caso de falta de consistencia (Smith y Kendall, 1963). Estos ejemplos
se van recopilando a lo largo del tiempo con ayuda de la tcnica de incidentes crticos
(Flanagan, 1954).
Entre sus principales limitaciones hay que citar: Un alto coste en tiempos y medios, la
dificultad de acuerdo entre los jueces respecto a los incidentes relacionados con el grado
medio del desempeo (Debnath, Lee y Tandon, 2015) y ciertos tipos de sesgos al poner
la atencin sobre conductas que pudieran no ser tan significativas o condicionar la
evaluacin por el ajuste exclusivo a las descripciones de los anclajes (Murphy y Constans,
1987).
La fiabilidad y validez de las BOS es moderadamente alta, similar a la de las BARS, con
las que se ha comparado en diversas ocasiones, porque en ambos tipos de escalas se dan
ejemplos concretos de las mejores y peores conductas del desempeo de las tareas, a
criterio de personas expertas en el dominio que se trate (Latham y Wesley, 1977).
Asimismo, desde la perspectiva de los procesos de aprendizaje, las BOS minimizan las
barreras para entenderse y, consecuentemente, reducen la ambigedad de los procesos de
tarea, lo que mejora la actitud y el compromiso con el trabajo (Tziner y Kopelman, 2002).
Dicho de otro modo, las BOS clarifican los objetivos de aprendizaje, aumentan la
satisfaccin con el proceso de evaluacin, incrementan el grado de aceptacin de las
tareas y mejoran el rendimiento en las evaluaciones posteriores (Tziner, Kopelman y
Livneh, 1993).
Debido a la gran similitud entre los mtodos de ambos tipos de escalas, a las BOS se les
atribuyen idnticas desventajas que a las BARS, altos costes de tiempos y medios,
dificultad de discriminacin del desempeo de grado medio y peligro de ciertos sesgos
por diversas razones, los cuales pudieran llegar a distorsionar la competencia de los/as
evaluadores/as.
5
D ISTINTOS GRADOS DE EVALUACIN DE UNA RBRICA
Las dos vas o fuentes argumentales principales, utilizadas en esta ocasin para explicar
los distintos grados progresivos del aprendizaje de una competencia, son el proceso de
adquisicin de cualquier destreza (Anderson, 1982; Kanfer y Ackerman, 1989;
VanLehn, 1996) y las bases generales de la adquisicin del conocimiento experto
(Ericsson y Charness, 1994; Ericsson, 2005; Dreyfus y Dreyfus, 1986; Berliner, 1994).
Cuando, por otra parte, se reflexiona sobre las caractersticas distintivas del
comportamiento de personas con escasa experiencia sobre un tema respecto al de
personas expertas, igualmente es posible percibir diferencias de grado en el aprendizaje
de competencias.
1
Nivel de principiante
Acta siguiendo reglas estereotipadas, sin atender a las condiciones del contexto. Se
suele mantener a la expectativa, porque no sabe qu hacer. Manifiesta un grado de
autonoma muy reducido, que le induce a realizar constantes demandas. Trabaja por
ensayo y error, con abundantes fallos, de modo que nicamente puede hacerse cargo de
tareas muy fciles.
2
Nivel de principiante avanzado
3
Nivel competente
4
Nivel de perito o competente avanzado
5
Nivel de experto
6
T AREAS DE APRENDIZAJE, CRITERIOS Y OBJETIVOS
1
Las tareas de aprendizaje
2
Tipos de criterios propios de las rbricas
En una seccin anterior se haca referencia a tres tipos de formulacin de los criterios
de evaluacin del desempeo, leyes, estndares o condiciones e indicadores (Gorriti y
Lpez Basterra, 2010). Cuando se trata de la evaluacin del desempeo de tareas
laborales esta clasificacin es suficiente, porque el objeto de la evaluacin suele
centrarse ms en el producto que en el propio proceso.
3
Objetivos especficos de aprendizaje
Una vez ms hay que afirmar que toda accin didctica soportada por el paradigma de
las competencias no puede prescindir jams de los objetivos de aprendizaje. Este
planteamiento lo que realmente hace es considerar los objetivos de aprendizaje desde la
perspectiva de los resultados, en cuyo caso, adems de expresar metas concretas a
conseguir, los objetivos especficos se convierten en puntos de referencia o criterios de
evaluacin.
7
D ISEO Y VALIDACIN DE UNA RBRICA
Detallar las tareas del/a aprendiz, requeridas para alcanzar las metas.
Elaborar un instrumento de evaluacin fiable.
Reunir pruebas de evidencia acerca de la validez de las inferencias derivadas del
proceso de evaluacin.
Utilizar los resultados para mejorar la evaluacin y el procedimiento de feedback de
los resultados.
Las tareas de diseo y validacin de una rbrica se centran en los pasos tercero y
cuarto del anterior proceso. En los dos mtodos analizados en una seccin precedente,
sobre las escalas conductuales (Smith y Kendall, 1963; Latham y Wesley, 1977), las
pruebas de evidencia se eligieron previamente para acumular contenidos que
permitieran realizar el propio diseo. Sin embargo, en el mbito de la Enseanza o la
Formacin, por la inmediatez que necesita la evaluacin de los aprendizajes, es ms
recomendable un mtodo de aproximaciones repetidas, al objeto de facilitar la
operatividad del sistema.
I
Aproximaciones sucesivas para la construccin de rbricas
En tercer lugar, conviene contrastar este primer protocolo, al menos, con dos expertos
para alcanzar un consenso sobre las dimensiones a evaluar y los trminos descriptivos
de cada uno de los cuatro grados de la rbrica.
La fase siguiente tiene por finalidad acumular pruebas de evidencia, recogiendo todo
tipo de observaciones, ejemplos de operaciones de tarea, ejercicios e incidentes crticos
para cada uno de los cuatro grados de competencia sealados.
II
Procedimientos de validacin de la rbrica
En una seccin anterior se haba comentado que la diferenciacin precisa entre los
distintos niveles o grados de la escala de evaluacin (Tierney y Simon, 2004), la
dificultad de comprensin de los trminos o su ambigedad (Andrade, 2000), son los
problemas principales de validacin de las rbricas.
Adems, la fiabilidad y la validez de una rbrica se ven afectadas por mltiples sesgos o
inexactitudes, alguno de los cuales podra ocurrir durante el proceso de diseo
(Morgeson y Campion, 1997). Los principales sesgos de naturaleza cognitiva, que
habran de evitarse necesariamente son los derivados de: la categorizacin de la
informacin, los descuidos, la informacin superflua, la informacin inadecuada, el
contraste de efectos, el halo o las actitudes de indulgencia y severidad.
Existe una notable variedad de mtodos estadsticos para la validacin de una rbrica.
Entre ellos, se propone iniciar el proceso con el anlisis de fiabilidad, con ayuda del
ndice kappa de Cohem (1960) o el promedio de desviaciones, AD, de Burke y Dunlap
(2002), cuyas especificaciones se acompaan (fig., 1).
Figura 1: Mtodos de fiabilidad o acuerdo entre evaluadores
8
E JEMPLO
Seguidamente, se compararn los enunciados de este primer protocolo (A) con los del
segundo protocolo (B), previsto para la edicin siguiente, tras incorporar los cambios
derivados del anlisis de los informes y los comentarios recogidos en el foro del curso.
Primera operacin
Anteproyecto del plan de anlisis de puestos (A.P):
Realizar un informe de unas 5 pginas para argumentar la necesidad de revisar las
estructuras de organizacin del personal y disear una nueva Relacin de Puestos de
trabajo (RPT).
Estadio inicial (0-1) A B
No es posible evaluar ningn nivel de competencia, por no resultar observable o
manifestar informacin totalmente insuficiente sobre contexto, agentes,
(Sin cambios)
metodologa, etc.
Segunda operacin
Redactar incidentes crticos (I.C.) para las funciones de un puesto
Redactar, por lo menos, 2 incidentes crticos para cada funcin (de 5 a 8) de un puesto
de trabajo conocido. Los I.C. sern 1 positivo y otro negativo.
Tercera operacin
Realizar el anlisis de un puesto de trabajo de la Admn. Pblica
Elegir la metodologa idnea y elaborar un informe que permita extraer inferencias
para varios mbitos de recursos humanos: Organizacin, valoracin de puestos,
seleccin, formacin y carrera administrativa.
Con toda probabilidad, un anlisis anlogo, realizado despus de la segunda edicin del
programa, permitira mejorar an ms los criterios de evaluacin contenidos en los
distintos niveles de la rbrica. Los resultados de una tercera edicin ya seran objeto de
un procedimiento de anlisis estadstico para la validacin definitiva del instrumento de
evaluacin de esta competencia.
9
C ONCLUSIONES
1
No es admisible cualquier tipo de rbrica para la evaluacin de competencias, por
muchas coincidencias superficiales que pudieran existir en la comparacin entre varias
propuestas.
2
El elemento esencial de cualquier rbrica de evaluacin de competencias es su
validez probada, mediante evidencias acerca del desempeo de las tareas y sus
indicadores de fiabilidad.
3
Disponer de un marco de referencia terico riguroso, que en el caso de la evaluacin
de competencias no puede se otro que el de las teoras del desempeo de tareas, el
aprendizaje de destrezas o el desarrollo del conocimiento experto, favorece la
elaboracin de propuestas de rbricas idneas, por los recursos que ofrecen y las
reglas que sugieren las referidas teoras.
4
De todos modos, con el fin de evitar una cierta parlisis de la ejecucin de los
programas de aprendizaje, por las necesidades de la validacin de la rbrica, se ha
propuesto una metodologa de aproximaciones sucesivas para la acumulacin de las
obligadas evidencias para su validacin.
5
Por ltimo, cualquier pretensin de generalizar el empleo de una rbrica de
evaluacin de competencias, exige la descripcin exacta y exhaustiva de los
procedimientos utilizados para su diseo y validacin.
Bibliografa
Anderson, J.R. (1982). Acquisition of cognitive skills. Psychological Review, 89(4),
369-406
Andrade, H.G. (2000). Use rubrics to promote thinking and learning. Educational
Leadership, 57(5), 13-18-
Borman, W. C., White, L. A., Pulakos, E. D. & Oppler, S. H., (1991). Models of
supervisory job performance ratings. Journal of Applied Psychology, 76(6), 863-872.
Burke, M. & Dunlap, W. (2002). Estimating interrater agreement with the average
deviation index: A users guide. Organizational Research Methods, 5(2), 159-172.
Campbell, J. P., Gasser, M. B. & Oswald F. L., (1996). The substantive nature of job
performance variability. En K. R. Murphy (Ed.), Individual differences and behavior in
organizations (pp. 258-299). San Francisco: Jossey Bass.
Denbat, S.C., Lee, B.B. & Tandon, S. (2015). Fifty years and going strong: What makes
Behaviorally Anchored Rating Scales so perennial as an appraisal method?
International Journal of Bussines and Social Science, 6(2), 16-25.
Dreyfus, H. & Dreyfus, S. (1986). Mint over machine. New York: The Free Press.
Green, R. & Bowser, M. (2006). Observations from the field: Sharing a literature
review rubric. Journal of Library Administration, 45-1(2), 185-202.
Jonsson, A. & Svingby, G. (2007). The use of scoring rubrics: Reliability, validity and
educational consecuences. Educational Researchs Review, 2, 130-144.
Klehe, U.C. & Anderson, N. (2007). El rol del desempeo tpico y mximo en seleccin
de personal. Revista de Psicologa del Trabajo y de las Organizaciones, 23 (1), 151-
178.
Landy, F.J. & Farr, J.L. (1980). Performance rating. Psychological Bulletin, 87(1), 72-
107.
Latham, G.P. & Wexley, K.N. (1977). Behavioral Observation Scales for performance
appraisal purposes. Personnel Psychology, 30, 255-268.
Malini, R. & Andrade, H.G. (2010). A review of rubric usue in higher education.
Assessment & Evaluation in Higher Education, 35(4), 435-448.
Marina, A., Pellicer, C. & Manso, J. (2015). Libro blanco de la profesin docente y su
entorno escolar. Madrid: Ministerio de Educacin Cultura y Deporte.
Moskal, B.M. (2000). Scoring rubrics: what, when and how?. Practical Assessment
Research & Evaluations, 7(3).
Popham, W.J. (1997). The role of instructional rubrics and self-assessment in learning
to write: A snorgasbord of finding. A paper presentedat the anual meting of the
American Educational Research Association. April, 21. Montreal, Canada.
Tziner, A., Kopelman, R. E. & Livneh, N., (1993). Effects of performance appraisal
format on perceived goal characteristics, appraisal process satisfaction and changes in
rated performance: A field experiment. Journal of Psychology, 127(3), 557-574.
Van Merrinboer, J.J.G. & Kirschner, P. (2007). Ten step to complex learning: A
systematic approach to Tour-Component Instructional Design. Hillsdale (NJ):
Lawrence Erlbaum Associates, Inc., Publishers.