Vous êtes sur la page 1sur 32

booksmedicos.

org
TEMA1B/ Implicaciones éticas y sociales de las pruebas 35

asignados de manera aleatoria a una de tres condiciones ocuparon más tiempo en responder a menos reactivos de
de prueba: grupo de amenaza del estereotipo, en la que manera más imprecisa, probablemente como resultado
la prueba se describió como un diagnóstico de la capaci­ de alternar su atendón entre tratar de responder los
dad verbal individual; grupo de control, en el que la reactivos y evaluar d significado que tenía su frustración
para ellos mismos. (Stede y Aronson, 1995, p. 809)
prueba se describió solo como una herramienta de in­
vestigación; y grupo de control-desafío, en el que la
prueba se describió como una herramienta de investiga­ En resumen, los autores proponen una perspectiva
sociopsicológica del significado de las puntuaciones de
ción y se exhortó a los participantes a “enfrentar el desa­
fio con seriedad”. Las calificaciones en la prueba verbal prueba más bajas de los afroestadounidenses y quizá
se ajustaron (análisis de covarianza) con base en las pun­ también de otros grupos amenazados por el estereotipo.
Su punto de vista destaca el hecho de que los resultados
tuaciones previas de aprovechamiento, con la finalidad
de eliminar los efectos de diferencias preexistentes entre de una prueba no residen dentro de los individuos. Las
grupos. puntuaciones de una prueba se presentan dentro de un
complejo campo sociopsicológico que está potencial-
Las diferencias raciales fueron leves y no significativas
en las condiciones de control y control-desafio, mientras mente influido por la historia nacional, los conflictos
que los individuos afroestadounidenses obtuvieron cali­ raciales y muchos otros factores sutiles.
ficaciones mucho más bajas que los de raza blanca en la
condición de amenaza del estereotipo (figura 1.7). • EFECTOS NO PLANEADOS
En otros estudios, Steele y Aronson (1995) investi­ DE LAS PRUEBAS DE ALTO RIESGO
garon el mecanismo de mediación a través del cual la
amenaza del estereotipo provocaba que los afroestadouni­ La perspectiva que prevalece entre el público en general
denses obtuvieran calificaciones más bajas en pruebas es que en los programas de pruebas que se aplican a nivel
estandarizadas. Los detalles rebasan el alcance de este nacional nunca o casi nunca se hace trampa. Se suele
libro; no obstante, revisemos la conclusión general: pensar que los riesgos son demasiado altos y que los
tramposos tienen muy pocas oportunidades de actuar.
Nuestra mejor evaluadón es que la amenaza del
Por lo tanto, se cree que el fraude en las pruebas debe ser
estereotipo causa una inefidenda dd procesamiento muy
un suceso muy poco frecuente. Por desgracia, es proba­
pareada a la que provocan otras presiones evaluativas.
Los partidpantes amenazados por d estereotipo ble que esta idea sea ingenua. Después de todo, un nú ­
mero cada vez mayor de individuos deben aprobar exá­
menes para ingresar a la universidad, conseguir un
15
empleo u obtener un ascenso. Además, cada vez es más
frecuente evaluar a las autoridades escolares a partir del
promedio de las puntuaciones de las pruebas aplicadas
en su distrito. Precisamente debido al riesgo tan elevado,
siempre habrá individuos sin escrúpulos que tratarán de
engañar al sistema.
En muchas grandes ciudades de Estados Unidos se
.| 8
reportan de forma esporádica engaños generalizados en
los sistemas de escuelas públicas. En la mayoría de los
casos, el engaño está motivado por el deseo que tienen
profesores y directivos de avanzar en su carrera gene­
Am enaza Solo Control- rando la ilusión de excelencia educativa. Por ejemplo,
del estereotipo control desafío
en 1999 docenas de profesores y dos directores del sistema
de escuelas públicas de la ciudad de Nueva York fueron
• F I G U R A 1 . 7 Promedio de reactivos verbales correctos
acusados de ayudar a estudiantes a hacer trampa en las
para personas de raza blanca y afroestadounidenses en tres
condiciones.
pruebas estandarizadas de lectura y matemáticas que se
utilizan para clasificar a las escuelas y para determinar si
Fuente: Con base en datos de Steele, C. M„ y Aronson, J. (1995).
“Stereotype threat and the intellectual test performance o f African los estudiantes pueden cursar el siguiente año escolar
Americans”. Journal of Personcdity and Social Psychology, 69,797-811. ( New York Times, 12 de diciembre de 1999). El esquema

www.FreeLibros.me
booksmedicos.org
36 CAPÍTULO 1 / Aplicaciones y consecuencias de la evaluación psicológica

de engaño fue descrito como “uno de los más grandes en brir a un grupo que estaba vendiendo los exámenes en el
la historia reciente de las escuelas públicas estadouniden­ extranjero. Cizek (1999) cataloga literalmente docenas
ses”. En el 2000, una clase completa de octavo grado, de de formas ingeniosas que han desarrollado los estudiantes
una escuela primaria de Chicago, fue obligada a resolver para hacer trampa en las pruebas: anotar la información
por segunda ocasión las Pruebas Iowa de Habilidades en el piso, en pañuelos desechables, en la parte posterior
Básicas, debido a que un administrador escolar presun­ de una etiqueta de agua embotellada; el uso de un bolí­
tamente respondió las pruebas incompletas y corrigió las grafo ultravioleta para escribir información en papel
respuestas incorrectas (Chicago Tribune, 2 de junio de “blanco”, y el uso de un transmisor de video (por ejem­
2000). Se avisó a las autoridades del posible fraude, ya plo, oculto en un estuche de anteojos) para enviar imá­
que las puntuaciones de las pruebas eran demasiado genes de la prueba a un cómplice en el exterior, quien
buenas para ser verdaderas: la calificación promedio de la luego asesora al estudiante mediante un receptor de au-
clase correspondía a estudiantes de dos grados superio­ dio (por ejemplo, oculto en el oído).
res. En 2005 el programa noticioso Dallas MomingNews Las historias acerca de transmisores en miniatura no
informó de evidencia importante de “engaño organiza­ son fantasiosas. Considere la siguiente historia, narrada
do y dirigido por educadores” en docenas de escuelas en desde una cultura monolítica donde los resultados de las
la prueba de aprovechamiento aplicada por el estado, y pruebas literalmente construyen o destruyen el futuro
encontró calificaciones sospechosas en cientos de escue­ de un joven. En China, 10 millones de jóvenes de 18
las más (www.dallasnews.com, 21 de marzo de 2005). años de edad resuelven cada año un examen durante dos
De manera perturbadora, un experto en evaluación se­ días, el cual determina si se les permitirá asistirá univer­
ñaló: “Están atrapando a los tramposos tontos; no serán sidades públicas. El éxito o el fracaso pueden repercutir
capaces de detectar a los tramposos inteligentes”. En de manera drástica en su vida y la de sus familiares, quie­
efecto, solo se lee acerca de los casos de engaño que son nes podrían depender de sus ingresos futuros. En 2009
detectados. Se desconoce la cantidad de casos sin detec­ ocho padres fueron encarcelados hasta por tres años
tar, aunque tal vez sea más grande de lo que el público después de que se determinó que estaban transmitiendo
podría creer. a sus hijos las respuestas robadas de un examen mediante
Un caso especialmente flagrante de engaño en pruebas auriculares diminutos. El engaño fue descubierto cuan­
a nivel nacional se descubrió en Louisiana en 1997. Este do la policía detectó señales de radio extrañas cerca de la
caso incluyó la venta al mayoreo del examen del Servicio escuela (www.guardian.co.uk, 3 de abril de 2009).
de Evaluación Educativa (Educational Testing Service, Recientemente, los esfuerzos por violar la seguridad
ETS), que se aplica a los maestros que desean convertirse de los exámenes se han vuelto incluso más descarados,
en directores de escuela. Como se informó en el New ya que algunas empresas que preparan a los estudiantes
York Times (28 de septiembre de 1997), copias de la para resolver las pruebas los alientan a robar copias de
prueba de 145 reactivos, junto con las respuestas correc­ exámenes de admisión universitarios como la Scholastic
tas, habían circulado entre los maestros del sur de Loui­ Assessment Test (SAT) (Los Angeles Times, 12 de octubre
siana, probablemente durante muchos años. En un esta­ de 2005). Por fortuna, el Tribunal Federal concedió una
do clasificado en los niveles más bajos de casi cualquier orden de restricción al editor de la SAT, que prohíbe
índice educativo, parece que muchas personas posible­ a los individuos o las empresas solicitar copias robadas
mente no calificadas lograron dirigir las escuelas me­ de la prueba. De cualquier forma, este episodio ilustra
diante el engaño. El ETS manejó este caso con discreción una vez más que las pruebas de alto riesgo han ejerci­
y pidió a más de 200 profesores que volvieran a resolver do una influencia de corrupción sobre el proceso de
la prueba para “confirmar” sus calificaciones iniciales. evaluación.
Por desgracia, el engaño en Louisiana no es un caso ais­ Se ha sospechado la existencia de prácticas desho­
lado. En otro ejemplo, se dice que el ETS no supervisó el nestas e inadecuadas por parte de autoridades escolares
manejo de la prueba del gobierno federal para inmigran­ ante el reciente aumento de las calificaciones en pruebas
tes que desean convertirse en ciudadanos, con el proba­ grupales de aprovechamiento con normas nacionales.
ble resultado de que los supervisores de la prueba hayan Por definición, para una prueba referida a la norma, el
aceptado dádivas. Los exámenes de conocimientos de 50 por ciento de los individuos examinados deben obte­
inglés para estudiantes extranjeros también fueron vul­ ner una puntuación por arriba del percentil 50 y el otro
nerables al engaño. En 1994, el ETS canceló las califica­ 50 por ciento por debajo de este. Si se utiliza la misma
ciones de 30,000 estudiantes de China después de descu­ prueba en una muestra grande de sistemas escolares típi-

www.FreeLibros.me
booksmedicos.org
TEMA1B/ Implicaciones éticas y sociales de las pruebas 37

eos y representativos, sus calificaciones promedio deben Basic Skills, ITBS), es una prueba grupal de aprovecha­
dividirse de manera uniforme (aproximadamente una miento respetada que requiere de la obediencia estricta a
mitad por arriba y la otra mitad por debajo del percentil las instrucciones y los límites de tiempo para la obten­
50 normalizado a nivel nacional). ción de resultados válidos. Sin embargo, los maestros
Según una encuesta reportada en los medios noticio­ consideraron que el programa de evaluación era poco
sos (Foster, 1990), prácticamente todos los estados de valioso, al quejarse de que sus beneficios no justifican el
EUA afirman que las calificaciones promedio de aprove­ tiempo y los costos requeridos. Como consecuencia de
chamiento de sus sistemas escolares exceden al percentil su menosprecio hacia el programa, la evaluación no es­
50. La imagen resultante, sumamente optimista, del apro­ tandarizada era prácticamente la regla más que la excep­
vechamiento de los estudiantes se conoce como efecto ción. Los maestros realizaban varias prácticas no estan­
del Lago Wobegon, en referencia a la humorística ciudad darizadas, la mayoría de las cuales tendían a inflar las
mítica de Minnesota ideada por Garrison Keillor, donde calificaciones de las pruebas. Algunas de esas prácticas
“todos los niños están por arriba del promedio”. incluían el ofrecimiento de elogios a los estudiantes que
¿Cómo surgió la inflación de las calificaciones de respondieron a preguntas de manera correcta (67 por
pruebas de aprovechamiento? Según Cannell (1988), la ciento), el uso de preguntas de la prueba del año anterior
principal causa la constituyen los administradores edu­ para practicar (44 por ciento), la recodificación de la
cativos que están desesperados por demostrar la exce­ hoja de respuestas de un estudiante si anotaba en un es­
lencia de sus sistemas escolares. Precisamente debido a pacio de respuesta “equivocado” (26 por ciento), otor­
que nuestra sociedad asigna tanta importancia a los re­ gar a los estudiantes todo el tiempo que necesitaran para
sultados de las pruebas de aprovechamiento, parece que resolver la prueba (24 por ciento), dar a los estudiantes
algunos educadores ayudan a los estudiantes a hacer tram­ reactivos que pertenecían directamente a la prueba (24
pa en las pruebas estandarizadas. Las supuestas trampas por ciento), y darles indicios o consejos durante la mis­
incluyen lo siguiente: ma (23 por ciento). En general, Moore (1994) señala que
los maestros modificaron sus estrategias de instrucción y
• Los maestros y los directores orientan a los estudian­ el currículo antes de que los estudiantes resolvieran la
tes sobre cómo responder las pruebas. prueba. Más del 90 por ciento de los maestros añadieron
• Los examinadores conceden más del tiempo permi­ al currículo lecciones relacionadas con la prueba, y más
tido para resolver la prueba. del 70 por ciento de ellos eliminaron algunos temas para
• Los administradores alteran las hojas de respuestas. dedicar más tiempo a desarrollar las habilidades relacio­
• Los maestros enseñan directamente los reactivos nadas con la prueba.
específicos de las pruebas. Lo que este estudio demuestra es que la evaluación
• Los maestros sacan copias de los exámenes para entre­ educativa obligatoria puede tener consecuencias impre­
garlas a sus alumnos. vistas que contaminan la validez de una prueba valiosa,
especialmente cuando los participantes cruciales no tie­
En resumen, la importancia que nuestra sociedad otorga nen voz en el proceso.
a las calificaciones de las pruebas de aprovechamiento Asimismo, al impartir una enseñanza basada en las
ha provocado una gran cantidad de efectos colaterales pruebas, los educadores podrían hacer hincapié en frag­
indeseables que debilitan los fundamentos de los pro­ mentos de conocimientos de hechos en lugar de im par­
gramas de aplicación de pruebas grupales con normas tir una habilidad general para pensar con claridad y re­
nacionales. solver problemas. En conclusión, parece que el énfasis
Moore (1994) informó de un caso especial en la eva­ excesivo en las pruebas de aprovechamiento con normas
luación educativa, a saber, las consecuencias distritales nacionales para la selección y evaluación promueve con­
de una evaluación del aprovechamiento exigida por un ductas inapropiadas, incluyendo el fraude y el engaño
tribunal. El autor entrevistó a 79 maestros de tercero a descarados por parte de estudiantes y autoridades esco­
quinto grado en una ciudad del medio oeste de Estados lares. ¿Qué tan extendido se encuentra el problema?
Unidos, donde un tribunal exigió el uso de una prueba Aunque las personas viven con la idea optimista de que
estandarizada para determinar la eficacia de un esfuerzo el fraude en los programas de evaluación con normas
por eliminar la segregación. El instrumento en cuestión, nacionales es poco común, la verdad perturbadora es
las Pruebas Iowa de Habilidades Básicas (Iowa Tests of que realmente no sabemos con qué frecuencia ocurre.

www.FreeLibros.me
booksmedicos.org
38 CAPÍTULO 1 / Aplicaciones y consecuencias de la evaluación psicológica

• REITERACIÓN: USO RESPONSABLE E1 orientador que siga utilizando el MMPI original po­
DE LAS PRUEBAS dría enfrentar una demanda por negligencia, en especial
si sus interpretaciones de la prueba dan por resultado
Ahora regresamos a los dilemas reales de la aplicación de afirmaciones engañosas o un diagnóstico falso.
pruebas que se mencionaron al inicio del tema IB. El El tercer problema implicó el hecho de recurrir a un
lector recordará que el primer dilema se relacionaba con traductor en la aplicación de la WISC-IV a un niño de
el hecho de si un psicólogo responsable puede negarse a nueve años de edad, cuyo primer idioma era el español.
dar retroalimentación a los candidatos a oficiales de po­ Este hecho suele ser un error, ya que sacrifica el control
licía que se canalizan para un examen de selección previo estricto de los materiales de la prueba. El examinador no
a su contratación. De manera sorprendente, la respuesta era bilingüe y, por lo tanto, no tenía manera de saber si
para esta pregunta es “sí”. En circunstancias normales, el traductor era fiel al texto original o si tal vez estaba
un profesional debe explicar los resultados de la evalua­ proporcionando indicios adicionales. En un mundo
dón al cliente. Pero existen excepciones, como explica el ideal, el procedimiento adecuado consistiría en incorpo­
Principio 9.10 del Código de ética de la APA: rar a un examinador hispanohablante que utilizara una
prueba traducida de manera formal y también estanda­
Los psicólogos toman medidas razonables para garantizar rizada con personas de origen hispano. Por ejemplo, la
que se den explicadones de los resultados al individuo o Escala de Inteligencia Wechsler para Niños-Revisada de
bs representantes designados, a menos que la naturaleza Puerto Rico (EIWN-R PR) sería una buena opción.
de la reladón impida una explicadón de los resultados El último dilema es el relacionado con la persona
(como ocurre en derta orientadón organizacional, que informó a un psicólogo que su hermano reciente­
evaluadones para selecdón de empleo o seguridad, mente muerto había sido, con toda probabilidad, un pe-
y evaluadones forenses), y este hecho se haya comunicado dófilo. ¿El psicólogo está obligado a informar de este
daramente con antelación a la persona evaluada.
caso a las autoridades competentes? La respuesta es “sí”,
pero ello podría depender de la jurisdicción del psicó­
El segundo dilema tenía que ver con un orientador que logo y de la redacción de los estatutos pertinentes. De
continuaba utilizando el MMPI, aunque el MMPI-2 es­ hecho, el psicólogo sí informó del caso a las autoridades,
taba disponible desde hacía varios años. ¿La negativa del con consecuencias inesperadas. La policía obtuvo una
orientador a utilizar el MMPI-2 es una muestra de in­ orden de cateo, fue al hogar de la madre de la cliente,
cumplimiento de las normas profesionales? La respuesta donde el hermano había vivido, y registró la habitación
a esta pregunta probablemente sea “sí”. El MMPI-2 tiene de este último. La madre se impresionó a causa de la in­
una validación adecuada y constituye una mejora signi­ esperada visita de la policía y culpó del infortunio a su
ficativa respecto al MMPI. Como se mencionó antes, el hija. Esto produjo una amarga separación ¡y la joven de­
MMPI-2 es ahora el estándar de cuidado en la evalua­ mandó después al psicólogo por violación de la confi­
dón de la psicopatología con base en el sistema MMPI. dencialidad!

1. Como ocurre con todas las actividades profesio­ tribución solo a las personas con las acreditaciones in­
nales de los psicólogos, la aplicación de pruebas se guía dispensables.
por estándares éticos y profesionales. El empleo respon­ 3. Aunque existen excepciones, en general la apli­
sable de pruebas está definido por lincamientos escritos cación de pruebas se guía por una pregunta fundamen­
y publicados por asociaciones profesionales como la tal: ¿qué beneficia al cliente? La implicación funcional de
American Psychological Association y otros grupos. este lincamiento es que la evaluación debería satisfacer
2. Los editores de pruebas también siguen linca­ un propósito constructivo para la persona examinada.
mientos profesionales, induyendo la expectativa de que 4. Los psicólogos tienen la obligación primordial
diseñarán pruebas de alta calidad, comercializarán sus de garantizar la confidencialidad de la información, in­
productos de manera responsable y restringirán su dis­ cluyendo los resultados de pruebas, que obtengan de sus

www.FreeLibros.me
booksmedicos.org
TEMA1B/ Implicaciones éticas y sociales de las pruebas 39

clientes en el transcurso de las consultas. Algunas rencias individuales. Por ejemplo, los profesionales de­
excepciones incluyen circunstancias poco comunes en ben conocer los efectos de la edad, el género, la raza, el
las que retener la información representaría un claro pe­ origen étnico y otras variables antecedentes sobre los
ligro para el cliente o para otras personas. resultados de una prueba.
5. Los psicólogos tienen el deber de advertir. Esta 11. Los factores culturales que pueden influir en los
disposición se deriva de la decisión de 1976 para el caso resultados de una prueba incluyen la manera cualitativa
Tarasoff. Los clínicos deben comunicar cualquier am e­ de enfocar una prueba, la confianza y desconfianza
naza grave, tanto a una víctima potencial como a las racial y la amenaza del estereotipo, que es la amenaza de
autoridades competentes. confirmar, como característica propia, un estereotipo
6. La responsabilidad final de la aplicación adecua­ negativo acerca del grupo al que se pertenece.
da de las pruebas siempre reside en el usuario de las mis­ 12. Las barreras lingüísticas también pueden inhibir
mas. Desde un punto de vista práctico, esto significa que el desempeño en una prueba de los individuos de m ino­
el usuario de pruebas debe tener la capacitación adecua­ rías. Las personas bilingües, y los individuos cuya lengua
da en evaluación y teoría de la medición. materna no es el inglés, podrían enfrentar problemas
7. El estándar profesional para el consentimiento sutiles en las pruebas desarrolladas para utilizarse en la
informado dispone que se debe informar a las personas cultura predominante.
examinadas acerca de las razones de la prueba, los tipos 13. La falta de conocimiento acerca de la naturaleza
de pruebas que se utilizarán, las posibles consecuencias de de las pruebas es otro factor que enfrentan algunos indi­
la evaluación y cuál información se dará a conocer y a viduos de grupos minoritarios. Las barreras del idioma
quién. y la dificultad de las pruebas son fuertes argumentos a
8. El estándar de cuidado prevaleciente es el habi­ favor del uso de un enfoque multidisciplinario de eva­
tual, acostumbrado y razonable. Satisfacer el estándar de luación (por ejemplo, especialistas en psicología, lenguaje
cuidado significa que el psicólogo debe abstenerse de y lectura).
utilizar pruebas obsoletas, en especial cuando está dispo­ 14. Se desconoce la prevalencia del engaño en las
nible una nueva edición.
pruebas de aprovechamiento que se aplican a nivel na­
9. Otros lincamientos para el empleo responsable cional. Sin embargo, en los últimos años han surgido
de pruebas incluyen la redacción cuidadosa y eficaz del varios informes, incluyendo la alteración de las hojas de
informe, así como la retroalimentación a los individuos respuestas por parte de las autoridades escolares, la ven­
evaluados, basada en la sensibilidad y la reflexión, para ta masiva de algunos exámenes para la obtención de li­
aclarar de forma cuidadosa sus ideas erróneas. cencias, y prácticas de evaluación impropias por parte de
10. Otra expectativa es que la evaluación estará los maestros (por ejemplo, otorgar tiempo adicional
guiada por el conocimiento y el respeto hacia las dife­ para terminar de resolver la prueba).

• TÉRMINOS Y CONCEPTOS CLAVE

deber de advertir p. 27 amenaza de estereotipo p. 34


consentimiento informado p. 28 efecto del Lago Wobegon p. 37
estándar de cuidado p. 30

www.FreeLibros.me
booksmedicos.org

Capítulo
Historia de la evaluación
psicológica

Formas rudimentarias de evaluación en China en 2200 a. C.


Fisiognomía, frenología y el psicógrafo
La era de los instrumentos de bronce de la evaluación
Las escalas de calificación y sus orígenes
Modificación de las ¡deas sobre el retraso mental en el siglo xix
Influencia de la investigación inicial de Binet sobre su prueba
Binet y la evaluación de procesos mentales superiores
Las escalas revisadas y el surgimiento del CI
Resumen
Términos y conceptos clave

a historia de la evaluación psicológica, además de inteligencia y sus sucesoras a menudo tuvieron efectos

L fascinante, tiene gran relevancia para las prácticas


actuales. Después de todo, las pruebas contemporáneas no
surgieron de la nada; evolucionaron lentamente a partir
importantes en quienes las presentaban, por lo que en
el primer tema también se documenta el efecto histórico
de los resultados de las pruebas psicológicas. En el tema
de una gran cantidad de precursores que surgieron a lo 2B, Los inicios de la evaluación en Estados Unidos, se
largo de los últimos 100 años. Por consiguiente, el capí­ hace una relación de la gran cantidad de pruebas desa­
tulo 2 presenta una revisión de las raíces históricas de las rrolladas por los psicólogos estadounidenses durante la
pruebas psicológicas actuales. En el tema 2A, Orígenes primera mitad del siglo xx.
de la evaluación psicológica, nos concentramos en los En su forma moderna, la evaluación psicológica se
esfuerzos de los psicólogos europeos por medir la inteli­ originó hace poco más de 100 años en estudios de labo­
gencia desde finales del siglo xix hasta poco tiempo antes ratorio sobre la discriminación sensorial, las habilidades
de la Primera Guerra Mundial. Esas primeras pruebas de motrices y el tiempo de reacción. El genio inglés Francis

40

www.FreeLibros.me
booksmedicos.org
TEMA 2A / Orígenes de la evaluación psicológica 41

Galton (1822-1911) elaboró la primera batería de prue­ principios de la evaluación psicológica, investigaremos
bas, una curiosa colección de mediciones sensoriales y su aplicación en campos específicos (como la personalidad,
motrices, que revisaremos más adelante. El psicólogo es­ la inteligencia y la neuropsicología), y reflexionaremos
tadounidense James McKeen Cattell (1860-1944) estu­ sobre las consecuencias sociales y legales de la evaluación.
dió con Galton y luego, en 1890, presentó la agenda de la Sin embargo, estos temas resultarán más comprensibles
evaluación moderna en un trabajo clásico titulado para el lector al considerarlos en un contexto histórico.
“Pruebas y mediciones mentales”. Al describir los pro­ Así que, por ahora, iniciaremos la revisión de las formas
pósitos y las aplicaciones de sus instrumentos, se mos­ rudimentarias de evaluación que existieron hace más de
traba especulativo y modesto: 4,000 años en la China imperial.

La psicología no puede alcanzar la certeza y exactitud


de las ciencias físicas, a menos que se base en la • FORMAS RUDIMENTARIAS DE
experimentación y las mediciones. La aplicación de una EVALUACIÓN EN CHINA EN 2200 A. C.
serie de pruebas y mediciones mentales a un gran número
de individuos permitiría avanzar en esa dirección. Los Aunque el uso generalizado de la evaluación psicológica
resultados tendrían un considerable valor científico en el es en gran medida un fenómeno del siglo xx, los historia­
descubrimiento de la constancia de bs procesos mentales, dores advierten que las formas rudimentarias de la evalua­
su interdependencia y su variación en circunstancias ción se remontan por lo menos al año 2200 a. C., cuando el
diferentes. Además, los individuos encontrarían que sus
emperador chino hacía que sus funcionarios se sometie­
pruebas son interesantes y, quizá, útiles respecto al
ran a examen cada tres años para determinar su aptitud
entrenamiento, el estilo de vida o la indicación
de enfermedad. El valor científico y práctico de dichas para el cargo (Bowman, 1989; Chaffee, 1985; Franke, 1963;
pruebas podría aumentar considerablemente si se Teng, 1942-43). Dicha evaluación fue modificada y per­
adoptara un sistema uniforme, de manera que las feccionada a lo largo de los siglos hasta que en la dinastía
determinaciones realizadas en momentos y lugares Han (202 a. C. a 200 d. C.) se introdujeron las pruebas
diferentes pudieran compararse y combinarse. escritas que examinaban cinco temas: leyes civiles, asun­
(Cattell, 1890) tos militares, agricultura, ingresos y geografía.
El sistema chino de exámenes adoptó su forma final
La conjetura de Cattell de que las pruebas “quizá” serían alrededor del año 1370, cuando se hizo hincapié en la
de utilidad en “el entrenamiento, el estilo de vida o la capacidad de los clásicos seguidores de Confucio. D u­
indicación de enfermedad” debe clasificarse como una de rante el examen preliminar se exigía que los candidatos
las declaraciones proféticas de todos los tiempos. Cual­ pasaran un día y una noche en una pequeña cabaña ais­
quier persona que haya crecido en el mundo occidental lada, donde debían elaborar ensayos sobre temas asigna­
sabe que la evaluación psicológica surgió de sus tímidos dos y escribir un poema. Quienes aprobaban, entre el 1
inicios para convertirse en un gran negocio y en una ins­ y 7 por ciento, avanzaban a los exámenes del distrito,
titución cultural que per mea la sociedad moderna. los cuales requerían tres sesiones separadas de tres días
Como veremos, la revisión histórica hace evidente la y tres noches.
importancia de la evaluación. Es común que los estudian­ Los exámenes del distrito eran agotadores y riguro­
tes de psicología consideren aburridas, áridas y pedantes sos, pero no constituían el nivel final. El porcentaje que
las cuestiones históricas; tales prejuicios en ocasiones es­ aprobaba, entre el 1 y 10 por ciento, tenía el privilegio de
tán justificados. Después de todo, muchos libros de texto ir a Beiging para participar en la serie final de exámenes.
no logran dejar en claro la importancia de los temas his­ De este último grupo, aprobaba quizás el 3 por ciento de
tóricos y solo ofrecen bosquejos imprecisos del desa­ los participantes, quienes se convertían en mandarines
rrollo inicial de la evaluación de la mente. De ahí que los y adquirían el derecho a ocupar cargos públicos.
estudiantes de psicología concluyan a menudo y de ma­ Aunque los chinos desarrollaron un programa ex­
nera incorrecta que los temas históricos son aburridos e haustivo de exámenes para el servicio público, las seme­
irrelevantes. janzas entre sus tradiciones y las prácticas actuales de
En realidad, la historia de la evaluación psicológica evaluación son, en su mayor parte, superficiales. Sus
es fascinante y de gran importancia para las prácticas prácticas de evaluación no solo eran innecesariamente
actuales. En los siguientes capítulos examinaremos los rigurosas, sino que los chinos tampoco lograron validar

www.FreeLibros.me
booksmedicos.org
42 CAPÍTULO 2 / Historia de la evaluación psicológica

sus procedimientos de selección. No obstante, parece Muchos autores latinos clásicos escribieron acerca de la
que el programa de examinación incluía criterios de eva­ fisiognomía, incluyendo a Juvenal, Suetonio y Plinio el
luación pertinentes. Por ejemplo, en los exámenes escri­ Viejo. Pero el florecimiento de la fisiognomía se daría si­
tos se daba mucho peso a la belleza de la caligrafía. Si glos más tarde, cuando un teólogo suizo escribió un libro
consideramos las características estilísticas de la escri­ sobre el tema que llegó a ser un éxito de ventas.
tura china, es indudable que la buena caligrafía era esen­ A finales del siglo x v i i i , Johann Lavater ( 1741-1801)
cial para una comunicación clara y precisa. Por ende, es publicó en Alemania sus Ensayos sobre la fisiognomía. Al
probable que la caligrafía fuera un factor de predicción poco tiempo el libro fue traducido al inglés y francés, y
importante de la capacidad para un empleo en el servicio las ventas se dispararon en Europa y Estados Unidos,
público. El sistema de examinación fue abolido por de­ hasta sumar un total de más de 150 ediciones (Graham,
creto real en 1906, en respuesta al descontento generali­ 1961). El libro de Lavater induía cientos de dibujos
zado (Franke, 1963). minuciosos que describían sus principios de la fisiogno­
mía, los cuales permitían juzgar el carácter a partir de la
apariencia facial. Lukasik (2004) describe el atractivo de
• FISIOGNOM ÍA, FREN OLOGÍA este enfoque:
Y EL PSICÓ GRAFO

Puesto que la fisiognomía de Lavater interpretaba el


La fisiognomía se basa en la idea de que es posible juzgar
carácter moral a partir de rasgos faciales inalterables e
las características internas de la gente a partir de su involuntarios, creó un sistema visual para discernir el
apariencia externa, en especial, del rostro. La fisiogno­ carácter moral permanente de un individuo a pesar de
mía, aunque equivocada y en la actualidad desprestigiada, sus máscaras sociales. Por ejemplo, los lectores de Pocket
representa una forma inicial de evaluación psicológica, Lavaterde 1817 aprendieron cómo examinar los rasgos
por lo que aquí presentamos una introducción al tema feriales de diversos hombres blancos para discriminar
que incluye a su derivado teórico más reciente: la fre­ *la fisiognomía de... un hombre de negocios” de la de
nología. “un granuja”, (p. 1)
El interés en la fisiognomía se remonta al siglo iv,
cuando el filósofo griego Aristóteles (384-322 a. C.) pu­ La fisiognomía conservó su popularidad durante siglos
blicó un breve tratado que se basaba en la premisa de la y estableció la base para la forma más especializada de
“armonía” entre el alma y el cuerpo. En esencia, Aristó­ curanderismo, conocida como frenología, la lectura de las
teles argüía que los cambios en el alma de una persona “protuberancias” de la cabeza.
(el carácter interno) tenían efecto en la apariencia del La fundación de la frenología suele atribuirse al mé­
cuerpo y viceversa. La relación entre ambos permitía al dico alemán Franz Joseph Gall ( 1758-1828), cuya “cien­
observador sagaz inferir características de personalidad cia” estaba cubierta con un barniz de credibilidad. En su
a partir de la apariencia de un individuo. Aristóteles registró trabajo más importante, Anatomía y fisiología del sistema
una extensa colección de rasgos que podían discernirse a nervioso en general y del cerebro en particular (1810), Gall
partir de las características del cabello, la frente, las cejas, sostenía que el cerebro es el órgano de los sentimientos y
los ojos, la nariz, los labios, etcétera. He aquí algunos facultades, y que esas capacidades están localizadas. Ade­
ejemplos. más —razonaba Gall— , en la medida en que una facul­
tad específica esté bien desarrollada, se habrá agrandado
El cabello que cuelga hada abajo sin rizaree, si es bello,
el componente correspondiente del cerebro. A la vez,
delgado y, además, suave, significa que el hombre es de
puesto que el cráneo se ajusta a la forma del cerebro, una
naturaleza pusilánime y de cuerpo débil, pero de una
disposidóntranquila e inofensiva. El cabello que es protuberancia craneal significaría un aumento de la fa­
fuerte, grueso y, además, corto, denota un hombre que es cultad subyacente. Esas suposiciones plausibles (aunque
de complexión robusta, seguro de sí mismo y embustero, incorrectas) permitieron a Gall y a sus seguidores deter­
casi siempre intranquilo y vanidoso, que ambidona la minar si un individuo era apasionado, reservado, opti­
belleza y es más tonto que sensato, aunque la fortuna mista, combativo, benevolente, seguro de sí mismo, feliz
puede favorecerle. (Aristóteles, Of Physiognomy, o imitador; en general, se determinaron docenas de ras­
www.exdassics.com/arist/arist63.htm) gos a partir de las protuberancias craneales.

www.FreeLibros.me
booksmedicos.org
TEMA 2A / Orígenes de la evaluación psicológica 43

Johann Spurzheim (1776-1832), discípulo de Gall, soriales simples con la inteligencia; de ahí que utilizaran
difundió la frenología en Estados Unidos e Inglaterra, una colección de instrumentos de bronce para medir um ­
donde adquirió gran fama. De hecho, algunos empresa­ brales sensoriales y tiempos de reacción, con la idea de
rios desarrollaron aparatos automatizados para medir las que tales capacidades constituían la esencia de la inte­
protuberancias con exactitud. En 1931, luego de décadas de ligencia. Por esa razón, en ocasiones se conoce a este pe­
ajustes, Henry C. Lavery, genio autoprodamado y parti­ riodo como la era de los instrumentos de bronce de la
dario ferviente de la frenología, gastó una pequeña fortu­ evaluación psicológica.
na en el desarrollo de una máquina conocida como el A pesar de la salida en falso, los primeros experimen-
psicógrafo (McCoy, 2000), la cual constaba de cientos de talistas brindaron a la psicología, al menos, una metodo­
partes ensambladas en un dispositivo similar a un casco logía adecuada. Pioneros como Wundt, Galton, Cattell y
que se ajustaba a la cabeza del examinado. Cada una de las Clark Wissler demostraron que era posible someter a la
32 facultades mentales recibía una calificación que iba mente al escrutinio y la medición científica. Este fue un
de 1 a 5 (de “deficiente” a “muy elevado”) de acuerdo con cambio aciago para las suposiciones axiomáticas de la
la forma en que las sondas hacían contacto con la cabeza. psicología, un cambio que se mantiene hasta el momen­
Un motor accionado por correa imprimía las aseveracio­ to actual.
nes para cada una de las 32 facultades, lo que constituyó Muchas fuentes acreditan a Wilhelm Wundt (1832-
una de las primeras descripciones automatizadas de la 1920) la creación del primer laboratorio psicológico en
personalidad. Al inicio, el psicógrafo tuvo un éxito espec­ Leipzig, Alemania. Es menos conocido el hecho de que
tacular y sus promotores ganaron pequeñas fortunas, pero Wundt se ocupaba desde años atrás de la medición de
hacia mediados de la década de 1930, prevaleció el escep­ procesos mentales, por lo menos desde 1862, cuando ex­
ticismo del público y la empresa que fabricaba el instru­ perimentó con su medidor del pensamiento (Diamond,
mento fue a la bancarrota (McCoy, 2000). 1980). Este aparato era un péndulo calibrado con agujas
que sobresalían de cada lado. El péndulo oscilaba de un
lado a otro, tocando campanas con las agujas. La tarea
• LA ERA DE LOS INSTRUM ENTOS del observador consistía en tomar nota de la posición del
DE BRONCE DE LA EVALUACIÓN péndulo cuando sonaban las campanas. Por supuesto,
Wundt ajustaba las agujas de antemano y, por ende, co­
La psicología experimental floreció a finales del siglo xix nocía la posición exacta del péndulo cuando cada cam­
en Europa continental e Inglaterra. Por primera vez en pana era golpeada. Wundt creía que la diferencia entre la
la historia, los psicólogos se alejaron de los métodos posición observada del péndulo y la posición real ofrecía
completamente subjetivos e introspectivos que se ha­ una forma de determinar la velocidad de pensamiento
bían utilizado de manera tan infructuosa en los siglos del observador.
anteriores. En vez de ello, las capacidades humanas El análisis de Wundt resultó relevante para un anti­
fueron sometidas a prueba en laboratorios donde los in ­ guo problema en la astronomía. El problema consistía
vestigadores utilizaban procedimientos objetivos que en que dos o más astrónomos que usaban al mismo
permitían la repetición. Habían quedado atrás los días tiempo el mismo telescopio (con oculares múltiples) re­
en que laboratorios rivales mantenían controversias en­ portaban diferentes tiempos de cruce a medida que las
carnizadas acerca del “pensamiento sin imágenes”, en estrellas se desplazaban a través de una línea de cua­
las que un grupo apoyaba su existencia mientras que drícula en el telescopio. Incluso en la época de Wundt
otro afirmaba que dicho evento mental era imposible. era un hecho bien conocido en la historia de la ciencia
Aunque el nuevo énfasis en los métodos objetivos y que Kinnebrook, un ayudante del Observatorio Real de
las cantidades mensurables supuso un progreso conside­ Inglaterra, fue despedido en 1796 porque sus tiempos
rable respecto al mentalismo en buena parte estéril que de cruce estelar estaban rezagados casi un segundo (Bo-
le precedió, la nueva psicología experimental era en sí un ring, 1950). El análisis de Wundt ofreció otra explica­
callejón sin salida, al menos en lo concerniente a la eva­ ción que no suponía incompetencia por parte de nadie.
luación psicológica. El problema fue que los primeros En otras palabras, Wundt creía que la velocidad del pen­
psicólogos experimentales confundieron los procesos sen­ samiento podía diferir entre las personas:

www.FreeLibros.me
booksmedicos.org
44 CAPÍTULO 2 / Historia de la evaluación psicológica

Cada persona debe tener cierta velocidad de pensamiento Boring (1950) considera que las Indagaáones repre­
que nunca logrará exceder, debido a su constitución sentaron el inicio del movimiento de las pruebas menta­
mental. Pero así como una máquina de vapor puede les y la llegada de la psicología científica de las diferencias
ser más rápida que otra, es probable que esta velocidad individuales. El libro es una curiosa mezcla de investiga­
de pensamiento no sea la misma en todas las personas.
ción empírica y ensayos especulativos sobre temas tan
(Wundt, 1862, según la traducción de Rieber, 1980)
diversos como las “diferencias apenas perceptibles” en el
levantamiento de pesos y la disminución de la fertilidad
Este análisis de los tiempos reportados en la observación en animales endogámicos. No obstante, hay un tema co­
ante el telescopio parece simplista para los estándares mún que une esos distintos ensayos: Galton demuestra
actuales y no considera la posible contribución de factores que el tiempo y, de nuevo, las diferencias individuales no
como la atención, la motivación y la retroalimentación solo existen, sino que pueden medirse de forma objetiva.
correctiva de los ensayos previos. Por el lado positivo, Galton tomó los laboriosos procedimientos psicofí-
por lo menos fue un análisis empírico que intentaba sicos que utilizaban Wundt y otros investigadores y los
explicar las diferencias individuales en vez de tratar de adaptó a una serie de medidas sensoriomotrices simples
minimizarlas, y en eso consiste su relevancia para las y rápidas. De esta manera, Galton continuó la tradición
prácticas actuales de la evaluación psicológica. Aunque de los instrumentos de bronce en la evaluación de la
de manera burda, Wundt midió los procesos mentales y mente, pero con una diferencia importante: sus procedi­
reconoció a regañadientes las diferencias individuales. mientos estaban más abiertos a la recolección oportuna
Este énfasis en las diferencias individuales era extraño de datos de cientos, si no es que miles, de sujetos. En
para Wundt, a quien se reconoce más por proponer leyes virtud de sus esfuerzos por idear medidas viables de las
comunes de pensamiento para la mente adulta promedio. diferencias individuales, los historiadores de la evalua­
ción psicológica por lo general consideran a Galton
Galton y la primera batería como el padre de la evaluación mental (Goodenough,
de pruebas mentales 1949; Boring, 1950).
Para ampliar su estudio de las diferencias individua­
Sir Francis Galton (1822-1911) dio inicio a la nueva psi­ les, Galton instaló en Londres un laboratorio psicomé-
cología experimental en Inglaterra durante el siglo xix. A trico durante la Exhibición Internacional de la Salud
Galton le obsesionaba la medición, y su carrera intelec­ en 1884. El laboratorio se transfirió luego al Museo de
tual parece haber estado dominada por la creencia de Londres, donde permaneció seis años. Sobre una larga
que casi todo era mensurable. Son bien conocidos sus mesa, a un lado de una habitación estrecha, se colocaron
intentos de medir el intelecto por medio del tiempo de diversos instrumentos de medición antropométrica y psi-
reacción y las tareas de discriminación sensorial. Sin em­ cométrica. Por tres peniques, los sujetos entraban por un
bargo, para que el lector pueda apreciar el alcance de sus extremo y, a medida que avanzaban a lo largo de la mesa,
intereses, debe saber que Galton también desarrolló téc­ se les aplicaban pruebas sucesivas. Durante las décadas de
nicas para medir la belleza, la personalidad, el carácter 1880 y 1890 se evaluó por lo menos a 17,000 personas.
aburrido de las conferencias y la eficacia de la oración, Hasta la fecha se conservan alrededor de 7,500 de los re­
para mencionar solo algunas de las empresas que su bió­ gistros de datos individuales (Johnson etal, 1985).
grafo clasificó de manera detallada (Pearson, 1914,1924, Las pruebas y mediciones implicaban tanto el domi­
1930ab). nio físico como el conductual. Las características físicas
Galton fue un genio que estaba más interesado en los evaluadas eran, entre otras, la estatura, el peso, el largo y
problemas de la evolución humana que en la psicología ancho de la cabeza, la envergadura de los brazos, el largo
en sí (Boring, 1950). Sus dos trabajos de mayor influen­ del dedo medio y del antebrazo. Las pruebas conductua­
cia fueron Genio hereditario (1869), un análisis empírico les incluían la fuerza del apretón de manos, determinada
que pretendía demostrar la importancia abrumadora de por un dinamómetro; la capacidad vital de los pulmo­
los factores genéticos para la consecución de la excelen­ nes, medida por un espirómetro; la agudeza visual, el
cia, e Indagaciones sobre la facultad humana y su desarro­ tono audible más alto que podía emitirse, la velocidad de
llo (1883), una serie de ensayos que destacaban las dife­ golpe y el tiempo de reacción (TR) ante estímulos visua­
rencias individuales en las facultades mentales. les y auditivos.

www.FreeLibros.me
booksmedicos.org
TEMA 2A / Orígenes de la evaluación psicológica 45

Al final, los intentos simplistas de Galton de evaluar Fuerza del apretón de manos medida por un dina­
el intelecto con medidas de tiempo de reacción y de dis­ mómetro.
criminación sensorial resultaron infructuosos. Sin em ­ Velocidad del movimiento de la mano a lo largo de
bargo, dio un enorme impulso al movimiento evaluativo una distancia de 50 centímetros.
al demostrar que era posible diseñar pruebas objetivas y
Umbral de dos puntos para el tacto (distancia míni­
obtener puntuaciones significativas por medio de proce­
ma a la que se percibe todavía que dos puntos están
dimientos estandarizados.
separados).
Grado de presión necesaria para causar dolor (pun­
Cattell importó a Estados Unidos tas de goma presionadas contra la frente).
los instrumentos de bronce Diferenciación de peso (discernir los pesos relativos
James McKeen Cattell (1860-1944) estudió la nueva psi­ de cajas de aspecto idéntico que pesaban de 100 a
cología experimental con Wundt y Galton antes de esta­ 110 gramos y que diferían por un gramo).
blecerse en la Universidad de Columbia, donde, durante Tiempo de reacción para el sonido (utilizando un
26 años, fue el decano indiscutible de la psicología esta­ dispositivo similar al de Galton).
dounidense. Con Wundt realizó una serie de estudios Tiempo para nombrar colores.
complejos y minuciosos sobre el tiempo de reacción
Bisecar una línea de 50 centímetros.
(1880-1882), en los que se medían con gran precisión las
fracciones de segundo que presuntamente se requerían Juicio temporal de 10 segundos.
para distintas reacciones mentales. También advirtió, casi Número de letras que el sujeto puede repetir luego
de pasada, que él y otros colegas presentaban diferencias de oírlas una sola vez.
pequeñas, pero constantes, en el tiempo de reacción, por
lo que propuso a Wundt estudiar dichas diferencias in ­ La fuerza del apretón de manos parece una curiosa adi­
dividuales de manera sistemática. Aunque Wundt reco­ ción a una batería de pruebas mentales, un aspecto que
nocía las diferencias individuales, filosóficamente estaba Cattell (1890) trató directamente en su trabajo. Opinaba
más inclinado al estudio de las características generales que, puesto que era imposible separar la energía corpo­
de la mente, por lo que no apoyó la propuesta de Cattell ral de la mental, una medida fisiológica ostensible, como
(Fancher, 1985). la presión del dinamómetro, era también un indicador
Sin embargo, en el estudio de las diferencias indivi­ del poder mental de la persona. Es claro que el sesgo fi­
duales, Cattell recibió un apoyo entusiasta de Galton, siológico y sensorial de la batería completa refleja su he­
quien acababa de abrir su laboratorio psicométrico en rencia galtoniana (Fancher, 1985).
Londres. Después de mantener correspondencia con En 1891 Cattell aceptó un puesto en la Universidad de
Galton durante algunos años, Cattell hizo arreglos para Columbia, que en esa época era la mayor universidad
obtener una beca de investigación en Cambridge duran­ de Estados Unidos. Su influencia posterior en la psicolo­
te dos años, lo que le permitiría continuar con el estudio gía estadounidense se debió sobre todo a su producción
de las diferencias individuales. Estableció su propio labo­ científica y se expresó en gran parte a través de sus nu ­
ratorio de investigación y desarrolló una serie de prue­ merosos y prestigiados discípulos (Boring, 1950). Entre
bas que, en esencia, eran extensiones y adiciones a la sus muchos alumnos de doctorado se encuentran los
batería de Galton. siguientes (seguidos por el año en que obtuvieron su
Cattell (1890) inventó el término prueba mental en grado): E. L. Thomdike (1898), quien hizo enormes
su famoso trabajo titulado “Pruebas y mediciones men­ contribuciones a la teoría del aprendizaje y la psicología
tales”. Este trabajo describía su programa de investiga­ educativa; R. S. Woodworth (1899), quien fue el autor
ción y exponía en detalle 10 pruebas mentales que pro­ de Psicología experimental (1938), un libro de gran difu­
ponía para aplicar al público en general. Era claro que sión e influencia; y E. K. Strong (1911), quien diseñó el
dichas pruebas constituían una adaptación y ampliación Inventario de Intereses Vocacionales ( Vocational Interest
de la tradición galtoniana: Blank) cuya versión revisada todavía es de uso generali­

www.FreeLibros.me
booksmedicos.org
46 CAPÍTULO 2 / Historia de la evaluación psicológica

zado. Pero entre los alumnos de Cattell, probablemente to del enfoque de los instrumentos de bronce fue un
fue Clark Wissler (1901) quien tuvo mayor influencia en acontecimiento deseable en la historia de la evaluación
la historia inicial de la evaluación psicológica. psicológica. Esto allanó el camino para la aceptación in­
Wissler consiguió las puntuaciones obtenidas en prue­ mediata de las mediciones más razonables y útiles de Al-
bas mentales y las calificaciones académicas de más de ffed Binet de los procesos mentales superiores.
300 alumnos de la Universidad de Columbia y la Uni­ Una reacción común entre los psicólogos a principios
versidad Barnard, con el propósito de demostrar que los del siglo xx fue concluir a regañadientes que Galton había
resultados obtenidos en las pruebas mentales podían estado equivocado al tratar de inferir habilidades com­
predecir el desempeño académico. Si consideramos la plejas a partir de otras más simples. Goodenough (1949)
perspectiva que se tenía al inicio del siglo xx sobre la in­ equiparó el enfoque de Galton con el hecho de “inferir la
vestigación y la evaluación, parece sorprendente que los naturaleza del genio a partir de la naturaleza de la estupi­
primeros experimentalistas esperaran tanto para llevar a dez o las propiedades del agua a partir de las del hidró­
cabo dicha investigación básica de validación. Los resul­ geno y el oxígeno que la componen”. Al parecer, los
tados de Wissler (1901) demostraron que prácticamente psicólogos académicos estaban de acuerdo con Goode­
no había ninguna tendencia a que las puntuaciones de nough y, a principios del siglo xx, en Estados Unidos
las pruebas mentales se correlacionaran con el logro aca­ prácticamente cesaron los intentos por desarrollar prue­
démico. Por ejemplo, la posición en el grupo tenía una bas de inteligencia Por su parte, Wissler estaba tan des­
correlación de .16 con el recuerdo de listas de números, animado por sus resultados que de inmediato cambió a la
de -.08 con la fuerza del dinamómetro, de .02 con la no­ antropología donde se convirtió en un fuerte ambienta­
minación de colores y de -.02 con el tiempo de reacción. lista para explicar las diferencias entre grupos étnicos.
La correlación más alta (.16) resultó estadísticamente El vacío creado por el abandono de la tradición de
significativa debido al gran tamaño de la muestra. Sin Galton no duró mucho. En Europa, Alfred Binet estaba
embargo, una correlación tan modesta conlleva muy a punto de hacer un importante avance en la evaluación
poca utilidad predictiva.1 de la inteligencia. En 1905 Binet introdujo su escala de
Las bajas correlaciones entre las propias pruebas men­ inteligencia y, poco después, H. H. Goddard la importó
tales también resultaron muy dañinas para el movimiento a Estados Unidos, donde se aplicó de una forma que
de evaluación de los instrumentos de bronce. Por ejem­ Gould (1981) describió como “el desmantelamiento de
plo, la correlación entre la nominación de colores y la ve­ las intenciones de Binet en Estados Unidos”. Si los psicó­
locidad de movimiento de la mano era de apenas .19, logos estadounidenses de principios del siglo xx trasto­
mientras que la correlación entre el tiempo de reacción y caron o no las intenciones de Binet es una pregunta im­
la nominación de colores era de -.15. No resultó sorpren­ portante que revisaremos en el tema 2B. Antes nos
dente el hallazgo de que diversas medidas físicas, como el ocuparemos de un tema más general, el surgimiento de
tamaño de la cabeza (una medida que era un vestigio de la las escalas de calificación en la historia de la psicología.
era de Galton), no se correlacionaran con distintas medi­
das sensoriales y de tiempo de reacción.
Con la publicación de los desalentadores resultados • LAS ESCALAS DE CA LIFICA CIÓ N
de Wissler (1901), los psicólogos experimentales aban­ Y SUS ORÍGENES
donaron el uso del tiempo de reacción y la discriminación
sensorial como medidas de inteligencia. Este alejamien­ Las escalas de calificación son de uso común en la psico­
logía como un medio para cuantificar variables psicológi­
cas subjetivas de muchos tipos. Un ejemplo de una escala
de calificación simple puede ser la escala de 11 puntos
usada por los médicos cuando preguntan a sus pacientes
1 En el tema 3B, Conceptos de confiabilidad, analizamos con mayor en la sala de emergencias: “En una escala de 0 a 10, don­
detalle el coeficiente de correlación. A manera de adelanto, diremos de 0 indica que no hay dolor y 10 es el dolor más intenso
que las correlaciones varían entre -1.0 y +1.0. Los valores cercanos a que haya sentido, ¿qué tan fuerte es su dolor en este mo­
cero indican una relación lineal débil e insignificante entre ambas va­
riables. Por ejemplo, las correlaciones entre - 2 0 y + 2 0 por lo general
mento?”. Aunque burda, esta es una forma de medición
tienen muy poco valor para fines de predicción individuaL Advierta psicológica. Los psicólogos han escrito muchos docu­
también que las correlaciones negativas indican una relación inversa. mentos acerca de las propiedades y las aplicaciones de

www.FreeLibros.me
booksmedicos.org
TEMA 2A / Orígenes de la evaluación psicológica 47

las escalas de calificación de este tipo (Guilford, 1954; siones importantes: sensualidad, codicia, ambición so­
Nunnally, i967;Nunnally y Bernstein, 1994). cial y am or racional. Se valió de jueces que evaluaban a
Los historiadores de la psicología solían pensar que los individuos en las cuatro inclinaciones con base en
las escalas de calificación numérica se habían originado una escala de 12 puntos (5,10,15,20 hasta 60). En 1692
en la era de los “instrumentos de bronce” de Francis publicó datos numéricos (que incluían datos de confia­
Galton (McReynolds y Ludwig, 1987). Sin embargo, bilidad) sobre cinco individuos calificados por él y por
ahora parece que una forma rudimentaria de escala de otros jueces, lo que constituyó un logro histórico. “Este
calificación puede remontarse a Galeno, el médico gre­ trabajo representa, al parecer, el primer caso de recopila­
corromano del siglo n. Galeno creía en la teoría predo­ ción y análisis sistemáticos de datos empíricos cuantita­
minante de los humores de la salud y la enfermedad, en tivos en toda la historia de la psicología” (McReynolds y
que la armonía o la falta de esta entre los cuatro fluidos Ludwig, 1984, p. 282).
o “humores” corporales determinaban la salud del indi­ Poco a poco, las escalas de calificación se pusieron de
viduo. Los cuatro humores eran la bilis amarilla, la bilis moda en los años posteriores a su primer uso serio por
negra, la flema y la sangre. La humorología de la época parte de Thomasius. Entre quienes aplicaban esos nue­
también incluía las dicotomías de caliente-frío y húme- vos recursos estaban los frenólogos, incluyendo al cono­
do-seco como elementos de la salud o la enfermedad. En cido profesional Orson Fowler. La frenología se describe
lo que respecta a la dimensión caliente-frío, Galeno reco­ en una sección anterior de este capítulo. Fowler descri­
nocía la necesidad de algo más complejo que una simple bió la aplicación de escalas de calificación de siete puntos
dicotomía: en su obra Frenología práctica (1851). Las protuberan­
cias en diferentes áreas del cráneo se calificaban como
Sugirió que este estándar, o valor neutral, debería ser la 1, MUY PEQUEÑA; 2, PEQUEÑA; 3, MODERADA; 4,
temperatura, tal como se refleja en la percepción sensorial PROMEDIO; 5, PRONUNCIADA; 6, GRANDE; 7,
directa, de una mezcla de cantidades iguales de hielo MUY GRANDE. Se suponía que, a partir de esas califica­
yagua en ebullición (Taylor, 1942). Además, Galeno
ciones, era posible cuantificar la fortaleza relativa de
propuso una convención de cuatro grados de calor y
cualidades morales e intelectuales específicas.2
cuatro grados de frío, en cualquier lado de ese estándar,
que podían inducirse en bs pacientes por medio de
El uso de las escalas de calificación dio a la práctica
diversos fármacos. (McReynolds y Ludwig, 1987, p. 283) de la frenología de Fowler una apariencia de respetabili­
dad; sin embargo, eso no impidió que fuera arrestado en
Aunque no lo dijo de manera tan explícita, Galeno pro­ 1886 por practicar la medicina sin licencia (New York
puso en efecto una escala de calificación de nueve pun­ Times, 17 de enero de 1886). Según el artículo del Times:
tos que abarcaba cuatro puntos por arriba y cuatro puntos
El frenólogo niega que practique la medicina y asegura
por debajo de un punto neutral. Si los incrementos suce­
que no ha violado la ley, que es simplemente un
sivos de calor o frío eran iguales o no en la escala de calor-
frenólogo y que no da remedios a las personas que le
frío (a lo que nos referimos ahora como la escala de solicitan que examine su cráneo. Había una multitud de
medición subyacente) fue un problema que se dejó a dientes en la antesala dd profesor en el hotel cuando el
otros, incluyendo al filósofo islámico del siglo ix Al-kindi detective llegó con la orden de aprehensión. El profesor
(Taylor, 1942). Al-kindi fue un erudito árabe considera­ Fowler tuvo que esperar la acdón del Gran Jurado y fue
do por muchos como el padre de la filosofía islámica, liberado bajo fianza.
quien cuestionó si los grados sucesivos de calor y frío po­
dían ser iguales, pero no propuso un medio de responder La frenología, que se revestía con los ropajes de la cien-
a la pregunta. Al-kindi hizo contribuciones importantes da, induyendo modelos de la cabeza y el cerebro, decla­
en muchos campos, como astronomía, química y medi­ raciones contundentes e induso escalas de calificación,
cina (www.muslimphiulosophy.com/kindi). floreció a principios del siglo xx y, con el tiempo, cayó en
De acuerdo con McReynolds y Ludwig (1984), la descrédito.
primera persona que construyó y aplicó escalas de califi­
cación para variables psicológicas fue Christian Thoma-
sius (1655-1728), un jurista y filósofo alemán cuya carrera 2 Es probable que la expresión común “Deberías hacer que te exami­
abarcó numerosos campos de investigación. Desarrolló nen la cabeza” aluda a la práctica (ahora desacreditada) de la frenolo­
una teoría de la personalidad que planteaba cuatro dimen­ gía (Ammer, 2003).

www.FreeLibros.me
booksmedicos.org
48 CAPÍTULO 2 / Historia de la evaluación psicológica

• M O D IFICACIÓ N DE LAS IDEAS tal. A la vanguardia de esos acontecimientos estaban dos


SOBRE EL RETRASO MENTAL médicos franceses, J. E. D. Esquirol y O. E. Seguin, cada
EN EL SIG LO XIX uno de los cuales revolucionó el pensamiento acerca de
las personas con retraso mental, lo que contribuyó a crear
Muchos inventos importantes se desarrollaron en res­ la necesidad de contar con las pruebas de Binet.
puesta a las necesidades prácticas generadas por los cam­
bios en los valores sociales. Tal es el caso de las pruebas
Esquirol y el diagnóstico del retraso mental
de inteligencia. Para ser precisos, Binet desarrolló la pri­
mera de esas pruebas a principios del siglo xx para ayu­ En los albores del siglo xix muchos médicos habían
dar a identificar a los niños del sistema escolar de París comenzado a percibir la diferencia entre el retraso men­
que tenían pocas probabilidades de beneficiarse de la tal (que entonces se conocía como idiocia o idiotismo) y
instrucción regular. Antes de esa época había poco inte­ la enfermedad mental (que a menudo se denominaba
rés en las necesidades educativas de los niños con retraso demencia). J. E. D. Esquirol (1772-1840) fue el primero
mental. De este modo, el nuevo humanismo hacia las en formalizar la diferencia por escrito. Su avance diagnós­
personas con retraso creó el problema práctico (identifi­ tico consistió en percatarse de que el retraso mental era
car a los individuos con necesidades especiales) que las un fenómeno permanente del desarrollo, mientras que
pruebas de Binet debían resolver. la enfermedad mental, por lo regular, tenía un inicio
A finales del siglo xix, el mundo occidental apenas más abrupto en la adultez. Consideraba que el retraso
dejaba atrás varios siglos de indiferencia y hostilidad ha­ mental era incurable, en tanto que los individuos con
d a las personas con trastornos psiquiátricos y mentales. alguna enfermedad mental podían mostrar mejoría (Es­
Los médicos empezaban a reconocer una distinción en­ quirol, 1845/1838).
tre los individuos con problemas emocionales y los que Esquirol hizo gran hincapié en las habilidades del
sufrían retraso mental. Durante siglos, todos esos margi­ lenguaje en el diagnóstico del retraso mental, lo que ex­
nados sociales recibieron tratamientos similares. En la plica en parte la importancia que se otorga a dichas ha­
Edad Media se les “diagnosticaba” a veces como brujos y bilidades en las pruebas de Binet y en las que se derivaron
se les condenaba a morir en la hoguera. Más tarde, de a partir de ellas. Después de todo, el uso original de las
manera alternada fueron ignorados, perseguidos o tortu­ escalas de Binet pretendía identificar a los niños con re­
rados. En su exhaustiva historia de la psicoterapia y el traso mental sin probabilidad de beneficiarse de la edu­
psicoanálisis, Bromberg (1959) presenta un capítulo espe­ cación ordinaria.
cialmente gráfico sobre las distintas formas de maltrato Esquirol también propuso el primer sistema de clasi­
hacia las personas con problemas mentales y emociona­ ficación del retraso mental, y no debería sorprender que
les, de las cuales solo se presentará aquí un ejemplo. En las habilidades del lenguaje fueran el principal criterio
1698 un destacado médico escribió un libro escalofrian­ de diagnóstico. Reconocía tres niveles de retraso mental:
te, Flagellum Salutis, en el que defendía las palizas como 1. los individuos que utilizaban frases cortas, 2. los que
forma de tratamiento en los casos de “melancolía, arre­ solo empleaban monosílabos, y 3. los que solo emitían
batos frenéticos, parálisis, epilepsia y en la expresión gemidos, pero no hablaban. Al parecer, Esquirol no re­
facial de debilidad mental” (Bromberg, 1959). conoció lo que ahora llamamos retraso mental leve* y sus
Para principios del siglo xix empezaron a prevalecer criterios corresponden a los equivalentes de las clasifica­
mentalidades más sensatas. Los médicos se percataron ciones modernas de retraso mental moderado, severo y
de que algunos de los individuos con problemas psiquiá­ profundo.
tricos padecían enfermedades reversibles que no necesa­
riamente implicaban una disminución del intelecto, mientras
Seguin y la educación de los individuos
que otras personas excepcionales, las que sufrían retraso
con retraso mental
mental, mostraban una mayor continuidad en el desa­
rrollo e invariablemente tenían un intelecto reducido. Quizá más que cualquier otro pionero en el campo del
Además, el nuevo humanismo empezó a influir en las retraso mental, a finales del siglo xix, O. Edouard Seguin
prácticas sociales hacia los individuos con problemas (1812-1880) contribuyó a establecer un nuevo huma­
psicológicos y mentales; así surgió un mayor interés en el nismo hacia las personas con retraso mental. Además de
diagnóstico y la búsqueda de remedio del retraso men­ ser discípulo de Esquirol, estudió con J. M. G. Itard

www.FreeLibros.me
booksmedicos.org
TEMA 2A / Orígenes de la evaluación psicológica 49

(1774-1838), quien ganó fama por el hecho de que du­ neurólogo J. M. Charcot (1825-1893) en el famoso Hos­
rante cinco años intentó modificar el comportamiento pital Salpetriere. De esta manera, por un breve periodo,
del niño salvaje de Aveyron, quien vivió en los bosques la trayectoria profesional de Binet fue paralela a la de
durante sus primeros 11 o 12 años (Itard, 1932/1801). Sigmund Freud, quien también estudió la histeria con
Seguin tomó prestadas las técnicas que utilizó Itard y Charcot. En el Hospital Salpetriere, Binet fue coautor
dedicó su vida al desarrollo de programas educativos (con C. Fere) de cuatro estudios en los que se pretendía
para personas con retraso mental. Ya en 1838 había esta­ demostrar que la inversión de la polaridad de un imán
blecido un grupo experimental para dichos individuos. podía inducir cambios completos en el estado de ánimo
Sus esfuerzos de tratamiento le valieron la aclamación (por ejemplo, de la felicidad a la tristeza) o la transferen­
internacional y al final se trasladó a Estados Unidos para cia de la parálisis histérica (por ejemplo, del lado izquier­
continuar su trabajo. En 1866 publicó Idiocy and Its do al derecho) en un sujeto hipnotizado. En respuesta a
Treatment by the Physiological Method, el primer libro las críticas públicas de otros psicólogos, Binet publicó
importante sobre el tratamiento del retraso mental en un documento donde se retractaba de sus hallazgos. Si
que defendía un enfoque sorprendentemente moderno bien este fue un episodio doloroso que provocó una des­
de la educación de individuos con retraso mental e in ­ viación temporal de su carrera, el bochorno le permitió
cluso se ocupaba de lo que hoy se conoce como modifi­ aprender dos cosas. Primero, no volvió a utilizar proce­
cación de conducta. dimientos experimentales inadecuados que permitieran
Estos fueron los antecedentes sociales e históricos que sugerencias no intencionales influyeran en sus re­
que permitieron el florecimiento de las pruebas de inteli­ sultados. Segundo, se volvió escéptico del zeitgeist (el
gencia. Examinemos ahora al desarrollo de las pruebas de espíritu de la época) en la psicología experimental. Más
inteligencia de nuestro tiempo por parte de Alfred Binet. tarde, cuando desarrolló sus escalas de inteligencia, apli­
Para ello, empezaremos con una revisión de las influen­ caría ambas lecciones.
cias iniciales que dieron forma a su conocida prueba. En 1891 Binet comenzó a trabajar en la Sorbona
como asistente no remunerado e inició una serie de es­
tudios y publicaciones que definirían su nueva “psicolo­
• INFLUENCIA DE LA INVESTIGACIÓN gía individuar’ y que, a la larga, culminarían en sus
IN ICIAL DE BINET SOBRE SU PRUEBA pruebas de inteligencia. Binet era un experimentalista
apasionado que utilizaba a menudo a sus dos hijas para
Como saben casi todos los estudiantes de psicología, Al­ examinar las pruebas de inteligencia existentes y otras
fred Binet (1857-1911) desarrolló en 1905 la primera nuevas. Los experimentos de Binet con sus hijas tuvie­
prueba moderna de inteligencia. Lo que se conoce m e­ ron gran influencia en su punto de vista sobre los proce­
nos, pero que es de igual importancia para quienes dimientos adecuados de evaluación:
quieren comprender sus contribuciones a la psicología
actual, es que Binet fue un investigador y autor prolífico El experimentador está obligado, hasta derto punto, a
mucho antes de que dirigiera su atención a la evaluación ajustar su método al sujeto al que se dirige. Hay dertas
de la inteligencia. La naturaleza de su investigación ini­ reglas que deben seguirse cuando se experimenta con un
cial tuvo gran repercusión sobre la forma posterior de su niño, al igual que existen dertas reglas para los adultos,
conocida prueba de inteligencia. Para quienes preten­ los histéricos y los dementes. Esas reglas no están escritas
den comprender plenamente su influencia innovadora en ninguna parte; cada uno las aprende por sí mismo y es
es obligatorio hacer una breve mención de la carrera ini­ retribuido en gran medida. Al cometer un error y explicar
cial de Binet. Para conocer más detalles, el lector puede luego la causa, uno aprende a no cometer ese error por
segunda vez. En cuanto a los niños, es necesario ser
consultar los trabajos de Fancher (1985), Goodenough
suspicaz ante dos de las causas prindpales de error:
(1949), Gould (1981) y Wolf (1973).
la sugestión y la falta de atendón. No es d momento
Binet comenzó su carrera en medicina, pero se vio de hablar sobre d primer punto. En lo que respecta
obligado a abandonarla por un colapso emocional. Des­ al segundo, la falta de atendón, es tan importante que
plazó su interés al campo de la psicología, donde estudió resulta necesario sospechar de ello siempre que se obtiene
el umbral de dos puntos e incursionó en la psicología un resultado negativo. En ese caso se debe suspender el
asociacionista de John Stuart Mili (1806-1873). Más tarde, experimento y reanudado en un momento más favorable,
trabajó durante cierto tiempo como aprendiz con el reinidándolo 10 o 20 veces, con gran padenda. En efecto,

www.FreeLibros.me
booksmedicos.org
50 CAPÍTULO 2 / Historia de la evaluación psicológica

es común que los niños se muestren poco dispuestos a esos niños de los grupos regulares e impartirles instruc­
prestar atención a experimentos que no son entretenidos, ción especial que fuera adecuada para sus destrezas inte­
y es inútil esperar que presten más atención con la lectuales más limitadas. Este fue el inicio de las aulas de
amenaza de castigo. Sin embaigo, a veces es posible dar educación especial.
al experimento cierto atractivo usando algunos trucos.
Se hizo evidente la necesidad de contar con una for­
(Binet, 1895, citado enPollack, 1971)
ma de seleccionar a los niños para esa ubicación especial,
y se solicitó a Binet y a su colega Simón que desarrolla­
Es interesante comparar las prácticas actuales de evalua­
ran una herramienta práctica con ese propósito. Así fue
ción (que llegan al extremo de especificar las palabras
como surgió la primera escala formal para evaluar la in­
exactas que debería usar el examinador) con el consejo
teligencia de los niños.
de Binet de tener una paciencia casi infinita y usar trucos
Las 30 pruebas de la escala de 1905 iban de pruebas
entretenidos al evaluar a los niños.
sensoriales simples a abstracciones verbales muy com­
plejas, lo que la hacía apropiada para evaluar todo el es­
• BINET Y LA EVALUACIÓN DE PROCESOS pectro de la inteligencia, del retraso mental severo a los
MENTALES SUPERIORES niveles más altos de genialidad. La escala completa se
resume en la tabla 2.1.
En 1896 Binet y Víctor Henri, su ayudante en la Sorbo- Con excepción de las pruebas muy sencillas, que fue­
na, publicaron una revisión fundamental del trabajo de ron diseñadas para la clasificación de los idiotas de muy
investigadores alemanes y estadounidenses sobre las di­ baja puntuación (un término diagnóstico desafortunado
ferencias individuales. En este trabajo de importancia que después se abandonó), las pruebas concedían un
histórica, argumentaban que la inteligencia podía me­ gran peso a las habilidades verbales, lo que refleja el ale­
dirse mejor por medio de los procesos psicológicos su­ jamiento de Binet respecto a la tradición galtoniana.
periores que por los procesos sensoriales elementales como Un aspecto interesante que a menudo pasan por alto
el tiempo de reacción. Después de varias salidas en falso, los estudiantes contemporáneos de psicología es que Bi­
Binet y Simón establecieron finalmente el sencillo formato net y Simón no ofrecieron un método preciso para obte­
de sus escalas de 1905, de lo que se hablará más adelante. ner una puntuación total en su escala de 1905. Conviene
La naturaleza de la escala de 1905 está en deuda con recordar que su propósito era de clasificación, no de me­
una prueba desarrollada antes por el doctor Blin (1902) dición, y que su motivación era del todo humanitaria, es
y su discípulo, M. Damaye, quienes intentaron mejorar decir, identificar a los niños que necesitaban recibir edu­
el diagnóstico del retraso mental por medio de una bate­ cación especial. Para los estándares contemporáneos, es
ría de pruebas que evaluaban 20 áreas como el lenguaje difícil aceptar la falta de claridad inherente a dicho enfo­
hablado, el conocimiento de las partes del cuerpo, la que, pero eso tal vez refleja una inclinación actual a la
obediencia a órdenes sencillas, la nominación de objetos cuantificación más que una debilidad de la escala de
comunes, y la capacidad de leer, escribir y resolver pro­ 1905. De hecho, su escala gozó de aceptación entre los
blemas aritméticos sencillos. Si bien Binet criticó la escala educadores parisinos y, pese a la ausencia de una cuanti­
por considerarla demasiado subjetiva, por incluir reacti­ ficación precisa, el método tuvo éxito en la selección de
vos que reflejaban la educación formal y por usar un for­ candidatos para recibir educación especial.
mato de sí o no en muchas preguntas (DuBois, 1970), le
impresionó mucho la idea de usar una batería de prue­
bas, una característica que adoptó en sus escalas de 1905. • LAS ESCALAS REVISADAS
En 1904 el Ministerio de Educación Pública de París Y EL SURGIM IEN TO DEL CI
designó una comisión para determinar las medidas edu­
cativas que deberían tomarse con los niños que no pu­ En 1908 Binet y Simón publicaron una revisión de la es­
dieran beneficiarse de la enseñanza regular. La comisión cala de 1905. En la escala anterior, más de la mitad de
concluyó que deberían emplearse exámenes médicos y b s reactivos se habían diseñado para los muy retarda­
educacionales para identificar a los niños que no estaban dos, aunque las principales decisiones diagnósticas impli­
en condiciones de aprender por medio de los métodos caban a los niños mayores y a los niños con intelecto li­
comunes. Además, se determinó que había que apartar a mítrofe. Para corregir este desequilibrio, se eliminó la

www.FreeLibros.me
booksmedicos.org
TEMA 2A / Orígenes de la evaluación psicológica 51

• T A B L A 2. 1 Principales tipos de pruebas psicológicas

1. Sigue un objeto en movimiento con los ojos.


2. Agarra un objeto pequeño que es tocado.
3. Agarra un objeto pequeño que es visto.
4. Reconoce la diferencia entre un cuadrado de chocolate y un cuadrado de madera.
5. Encuentra y come un cuadrado de chocolate envuelto en papel.
6. Ejecuta órdenes sencillas e imita ademanes simples.
7. Señala los objetos familiares nombrados, por ejemplo: “Enséñame la taza”.
8. Señala objetos representados en ilustraciones, por ejemplo: “Pon el dedo en la ventana”.
9. Nombra objetos en las ilustraciones, por ejemplo: “¿Qué es esto?” [el examinador señala la ilustración de un cartel].
10. Compara dos líneas de longitud claramente diferente.
11. Repite tres dígitos expresados en forma oral.
12. Compara dos pesos.
13. Muestra susceptibilidad a las sugerencias.
14. Define palabras comunes por su función.
15. Repite una oración de 15 palabras.
16. Dice en qué se distinguen dos objetos comunes, por ejemplo, papel y cartulina.
17. Nombra de memoria tantos objetos como pueda de los 13 que se presentaron sobre una pizarra durante 30 segundos.
[Esta prueba se eliminó más tarde porque permitía muchas posibilidades de distracción].
18. Reproduce de memoria dos diseños mostrados durante 10 segundos.
19. Repite una serie de dígitos que es mayor que en el reactivo 11 para probar la memoria inmediata.
20. Dice en qué se parecen dos objetos comunes, por ejemplo, mariposa y pulga.
21. Compara dos líneas de longitud ligeramente distinta.
22. Compara cinco cubos para colocarlos en orden de peso.
23. Indica cuál de los cinco pesos anteriores eliminó el examinador.
24. Produce rimas, por ejemplo: “¿Qué rima con ‘escuela’?”
25. Una prueba de completar palabras basada en la que propuso Ebbinghaus.
26. Utiliza tres sustantivos, por ejemplo, “París, río, fortuna” (o tres verbos) en una oración.
27. Responde a 25 preguntas abstractas (de comprensión), por ejemplo: “¿Qué deberías hacer si una persona que te ofendió
se disculpa contigo?”.
28. Invierte las manecillas de un reloj.
29. Después de doblar y cortar papel, dibuja la forma de los hoyos resultantes.
30. Define palabras abstractas indicando la diferencia, por ejemplo, aburrimiento y hastío.

Fuente: Con base en traducciones de Jenkins y Paterson (1961) y de Jensen (1980).

mayoría de los reactivos muy sencillos y se agregaron contró el cuerpo de una desafortunada nina cortado en
nuevos reactivos en el extremo superior de la escala. La 18 piezas. Se cree que la niña se asesinó a sí misma”. Sin
escala de 1908 incluía 58 problemas o pruebas, lo que embargo, este reactivo alteraba mucho a algunos de los
casi duplicaba el número de la escala de 1905. Se agrega­ sujetos estadounidenses, lo que demostraba la im por­
ron varias pruebas nuevas, muchas de las cuales se usan tancia de los factores culturales en la inteligencia (Fan­
todavía en la actualidad: reconstruir oraciones revueltas, cher, 1985).
copiar un diamante y realizar una secuencia de tres ór­ La principal innovación de la escala de 1908 fue la
denes. Algunos de los reactivos eran absurdos que los introducción del concepto de nivel mental. Las pruebas
niños tenían que detectar y explicar. Uno de esos reacti­ se habían estandarizado con base en alrededor de 300
vos resultaba divertido para los niños franceses: “Se en­ niños normales entre las edades de tres y 13 años, lo que

www.FreeLibros.me
booksmedicos.org
52 CAPÍTULO 2 / Historia de la evaluación psicológica

permitió a Binet y Simón ordenarlas de acuerdo con el paraban la edad mental de un niño con su edad cronoló­
nivel de edad en que por lo general eran aprobadas. Los gica. De este modo, un niño de nueve años de edad que
reactivos aprobados por el 80 o 90 por ciento de los ni­ funcionaba al nivel mental (o edad mental) de un niño
ños de tres años se colocaban en ese nivel de edad, y se de seis años tenía un retraso de tres años. Inmediata­
procedió de manera similar hasta la edad de 13 años. Bi­ mente, Stem (1912) señaló que tener un retraso de tres
net y Simón también desarrollaron un sistema aproxi­ años tenía significados diferentes a distintas edades. Un
mado de calificación por el cual se determinaba primero niño de cinco años que funcionaba al nivel de un niño de
la edad basal a partir del nivel de edad en que no se dos años estaba más afectado que un niño de 13 años
reprobaba más de una prueba. Por cada una de las cinco que funcionaba al nivel de un niño de 10. Stem sugirió que
pruebas que eran aprobadas en los niveles por arriba del un cociente de inteligencia calculado a partir de la divi­
basal, se reconocía un año completo de nivel mental. El sión de la edad mental entre la edad cronológica podría
método dejaba mucho que desear en tanto que no se ofrecer una mejor medida del funcionamiento relativo
acreditaban años parciales de nivel mental y porque los de un sujeto en comparación con sus pares de la misma
distintos niveles de edad tenían entre tres y ocho pruebas. edad.
En 1911 apareció una tercera revisión de las escalas En 1916 Terman y sus colaboradores en Stanford re­
de Binet y Simón en la que cada nivel de edad incluía visaron las escalas Binet-Simon, lo que tuvo como resulta­
exactamente cinco pruebas. La escala también se exten­ do la Stanford-Binet, una prueba exitosa que se estudiará
dió al rango de los adultos, y Binet introdujo, con cierta en un capítulo posterior. Terman sugirió multiplicar el
renuencia, nuevos métodos de calificación que conce­ cociente de inteligencia por 100 para eliminar las fraccio­
dían un quinto de un año por cada subprueba aprobada nes y fue también la primera persona en usar la abreviatu­
después del nivel basal. En sus escritos, Binet hacía gran ra CI; de este modo nació uno de los conceptos más cono­
hincapié en que el nivel mental exacto del niño no debe­ cidos y polémicos en la historia de la psicología. Binet
ría tomarse demasiado en serio como una medida abso­ murió en 1911 antes de que el CI arrasara la evaluación
luta de la inteligencia. estadounidense, por lo que no sabremos nunca lo que ha­
No obstante, la idea de derivar un nivel mental fue bría pensado de este nuevo desarrollo basado en sus esca­
un desarrollo monumental que habría de influir en la las. Sin embargo, Simón, su colaborador, declaró más
naturaleza de la evaluación de la inteligencia durante el tarde que el concepto de CI era una “traición” a los obje­
siglo xx. Al cabo de unos meses, lo que Binet llamó nivel tivos originales de sus escalas (Fancher, 1985, p. 104). A
mental se había traducido a edad mental, y en todos partir del interés humanista de Binet, podemos suponer
lados los evaluadores, incluyendo al propio Binet, com­ que su opinión habría sido similar.

gnsmm
1. Para bien o para mal, los resultados de las prue­ cerebrales. Por ejemplo, en 1885, Hubert von Grashey
bas psicológicas tienen el poder de alterar las vidas. Si se desarrolló el precursor del tambor de memoria para exa­
quiere comprender la influencia contemporánea de di­ minar la habilidad de reconocimiento visual de pacien­
chas pruebas resulta fundamental la revisión de las ten­ tes con daño cerebral.
dencias históricas. 4. La evaluación psicológica moderna debe su ini­
2. Formas rudimentarias de evaluación se remon­ cio a los instrumentos psicológicos de la era de bronce
tan al año 2200 a. C. en China. Los emperadores chinos que florecieron en Europa a finales del siglo xix. Por me­
se valían de exámenes escritos grupales para elegir a los dio de la prueba de umbrales sensoriales y tiempos de
funcionarios del servicio civil. reacción, pioneros en el desarrollo de las pruebas, como
3. De mediados a finales del siglo xix, varios médi­ sir Francis Galton, demostraron que era posible medir la
cos y psiquiatras desarrollaron procedimientos estanda­ mente de una forma objetiva y reproducible.
rizados para revelar la naturaleza y el grado de los síntomas 5. Wilhelm Wundt fundó el primer laboratorio de
de las personas con enfermedades mentales y lesiones psicología experimental en 1879 en Leipzig, Alemania.

www.FreeLibros.me
booksmedicos.org
TEMA 2A / Orígenes de la evaluación psicológica 53

Entre sus primeras investigaciones se incluye el intento afirmación de Binet de que el magnetismo podría curar
que hizo en 1862 de medir la velocidad del pensamien­ la histeria fue refutada, para su aflicción y vergüenza.
to con el medidor de pensamientos, un péndulo calibra­ Poco después, cambió sus intereses y realizó estudios
do con agujas que sobresalían de cada lado. sensoriales-perceptuales en los que utilizó a niños como
6. La primera referencia a pruebas mentales se hizo sujetos.
en 1890 en un trabajo clásico de James McKeen Cattell, 10. En 1905 Binet y Simón desarrollaron en París,
un psicólogo estadounidense que estudió con Galton. Francia, la primera prueba útil de inteligencia. Su senci­
Cattell importó a Estados Unidos el enfoque de los ins­ llo instrumento de 30 reactivos para medir principal­
trumentos de bronce. mente las funciones mentales superiores contribuyó a
7. Uno de los discípulos de Cattell, Clark Wissler, identificar a los escolares que no podían beneficiarse de
demostró que las medidas del tiempo de reacción y de la la enseñanza regular. Curiosamente, no había un méto­
discriminación sensorial no se correlacionaban con las do para calificar la prueba.
calificaciones obtenidas en la universidad, lo que impli­ 11. En 1908 Binet y Simón publicaron una escala
có que el movimiento de la evaluación mental se alejara corregida de 58 reactivos que incorporaba el concepto
de los instrumentos de bronce. de nivel mental. En 1911 apareció una tercera revisión de
8. A finales del siglo xix, un nuevo humanismo ha­ las escalas de Binet-Simón. Cada nivel de edad incluía
cia las personas con retraso mental, reflejado en el trabajo ahora exactamente cinco pruebas; la escala se extendió a
de los médicos franceses Esquirol y Seguin para diagnos­ la edad adulta.
ticar y remediar esa condición, ayudó a reconocer la ne­ 12. En 1912 Stem propuso dividir la edad mental
cesidad de las primeras pruebas de inteligencia. entre la edad cronológica para obtener un cociente de
9. Alfred Binet, quien inventó la primera prueba inteligencia. En 1916 Terman sugirió multiplicar el co­
auténtica de inteligencia, inició su carrera estudiando la ciente de inteligencia por 100 para eliminar las fraccio­
parálisis histérica con el neurólogo francés Charcot. La nes. Así nació el concepto de CI.

• TÉRMINOS Y CONCEPTOS CLAVE

fisiognomía p. 42
frenología p. 42

www.FreeLibros.me
booksmedicos.org

TEMA 2B

Los inicios de la evaluación en Estados Unidos


Primeros usos y abusos de las pruebas en Estados Unidos
Pruebas de grupo y la clasificación de los reclutas del ejército durante la Primera
Guerra Mundial
Evaluación educativa temprana
Desarrollo de las pruebas de aptitud
La evaluación vocacional y de la personalidad después de la Primera Guerra Mundial
Orígenes de las pruebas proyectivas
Desarrollo de los inventarios de intereses
Resumen de los principales logros en la historia de la evaluación
Resumen
Términos y conceptos clave

as escalas de Binet y Simón contribuyeron a resol­ • PRIMEROS USOS Y ABUSOS


L ver dilemas sociales prácticos, como la forma de
identificar a los niños que requerían educación especial.
Gracias a esta aplicación exitosa de una prueba mental,
DE LAS PRUEBAS EN ESTADOS UN ID O S

La primera traducción de la escala Binet-Simon


los psicólogos se dieron cuenta de que sus innovaciones
podían tener importancia pragmática para muchos seg­ En 1906 la Escuela Vineland de Entrenamiento de Nueva
mentos diferentes de la sociedad. Casi de inmediato los Jersey contrató a Henry H. Goddard para que realizara
psicólogos estadounidenses adoptaron un enfoque utili­ investigación sobre la clasificación y educación de los
tario; muchos adoptaron la evaluación de la inteligencia niños “con debilidad mental”. Goddard pronto se
como una respuesta confiable y objetiva a problemas percató de la necesidad de contar con un instrumento de
sociales percibidos, como la identificación de inmigran­ diagnóstico, por lo que se sintió complacido al leer acer­
tes con retraso mental y la clasificación rápida y precisa ca de la escala Binet-Simon de 1908. Muy pronto empezó
de los reclutas del ejército (Boake, 2002). a traducir la escala, haciendo cambios menores que per­
El hecho de que esas primeras pruebas en realidad mitieran aplicarla a los niños estadounidenses (Goddard,
resolvieran los dilemas sociales (o que solo los agrava­ 1910a).
ran) es un tema polémico que se analiza en las siguientes Goddard ( 1910b) examinó a 378 residentes del com­
secciones. Una cosa es cierta: la gran cantidad de prue­ plejo de Vineland y los categorizó por diagnóstico y edad
bas desarrolladas a principios del siglo xx moldearon la mental. Clasificó a 73 residentes como idiotas porque su
naturaleza de las pruebas contemporáneas. La revisión edad mental era de dos años o menos, 205 residentes
de esas tendencias históricas nos permitirá comprender fueron clasificados como tmbéáles con una edad mental
la naturaleza de las pruebas modernas y apreciar mejor de tres a siete años, y 100 residentes fueron considerados
los problemas sociales que generaron. débiles mentales con una edad mental de ocho a 12 años.

54

www.FreeLibros.me
booksmedicos.org
TEM A 2B / Los inicios de la evaluación en Estados Unidos 55

Resulta instructivo advertir que términos que original­ Sin embargo, luego de sus visitas repetidas a la isla Ellis,
mente eran neutros y descriptivos de los niveles de se convenció de que las tasas de debilidad mental eran
retraso mental (idiota, imbécil y débil mental) se intro­ mucho mayores de las que estimaban los médicos que
dujeron al léxico de las etiquetas peyorativas. De hecho, formaban parte del servicio de inmigración. Al cabo de
Goddard hizo su propia contribución al acuñar el térm i­ un año había cambiado radicalmente de opinión y soli­
no diagnóstico morón (del griego moronía que significa citó financiamiento del Congreso para que la isla Ellis
“tonto”). fuera dotada de expertos capacitados en la aplicación
Goddard (1911) utilizó también su traducción de las de las pruebas de inteligencia. En la década siguiente,
escalas de Binet-Simon para examinar a 1547 niños nor­ Goddard se convirtió en un apóstol del uso de las prue­
males. Consideraba débiles mentales a los niños cuya bas de inteligencia para identificar a los inmigrantes con
edad mental estaba rezagada cuatro años o más respecto debilidad mental. Aunque escribió que las tasas de inm i­
a su edad cronológica, quienes constituían el 3 por cien­ grantes mentalmente deficientes eran “alarmantes”, no
to de su muestra. Si se considera que todos esos niños se se unió a la demanda generalizada de restringir la inm i­
encontraban fuera de las instituciones para los retarda­ gración (Gelb, 1986).
dos, 3 por ciento es una tasa alarmante de deficiencia La historia de Goddard y su preocupación por la
mental. Goddard (1911) opinaba que esos niños debían “amenaza de la debilidad mental”, según el plantea­
ser segregados para impedir que “contaminaran a la miento satírico de Gould (1981), a menudo es ignorada
sociedad”. Esos primeros estudios despertaron la curio­ o minimizada en los libros sobre evaluación psicológica.
sidad de Goddard por los ciudadanos “débiles mentales” La mayoría de los textos sobre el tema no mencionan a
y las cargas que representaban para la sociedad. Tam­ Goddard en absoluto; y los pocos libros que lo hacen por
bién adquirió la reputación de ser uno de los principales lo general informan que “utilizó las pruebas en institu­
expertos en el uso de las pruebas de inteligencia para ciones para los retardados”, lo que desde luego es una
identificar a los individuos con deterioro en el intelecto. afirmación que se queda corta. En su influyente libro
Sus talentos pronto fueron muy solicitados. Historia de ¡a evaluadón psicológica, DuBois (1970) pre­
senta un retrato de Goddard, pero le dedica menos de
una línea de texto.
La escala Binet-Simon y la inmigración
El hecho es que Goddard fue uno de los psicólogos
En 1910 Goddard fue invitado a la isla Ellis por el comi­ estadounidenses de mayor influencia en los albores del
sionado de inmigración para ayudar a hacer más preciso siglo xx, por lo que cualquier persona reflexiva debería
el examen de los inmigrantes. A principios del siglo xx se preguntarse la razón de que tantos autores contemporá­
había desarrollado un mito oscuro y ominoso alrededor neos hayan ignorado o desairado al especialista que fue el
de la deficiencia mental y la inmigración: primero en traducir y aplicar las pruebas de Binet en
Estados Unidos. Aquí trataremos de dar una respuesta,
Se creía que los débiles mentales eran seres degenerados basada en parte en el trabajo original de Goddard, pero
responsables de muchos (si no es que de la mayoría) de también en la crítica que hizo Gould (1981) a sus volumi­
bs problemas sociales, que se reproducían a una tasa
nosos escritos sobre la deficiencia mental y la evaluación
alarmante, que amenazaban la aptitud biológica general
de la inteligencia. También hacemos referencia a la des­
de la nación, y que su cantidad se veía incrementada por
“nuevos” inmigrantes indeseables provenientes de los
cripción más favorable que hizo Gelb (1986) de Goddard.
países del sur y el este de Europa, quienes habían Es posible que Goddard haya sido ignorado en los
sustituido en gran medida a los “antiguos” inmigrantes libros de texto porque fue un estricto defensor de la in­
del norte y el occidente de Europa. (Gelb, 1986) fluencia de la herencia que concebía a la inteligencia en
términos mendelianos simples. Es indudable que su exi­
Al principio, Goddard no se preocupaba por la supuesta gencia de establecer una colonia para los “morones” que
amenaza de debilidad mental que representaban los in ­ restringiera su reproducción también le acarreó la desa­
migrantes. Escribió que no existían datos estadísticos probación contemporánea; y su insistencia en que m u­
adecuados y que las opiniones predominantes acerca de chas conductas indeseables (delincuencia, alcoholismo,
porcentajes excesivos de inmigrantes con deficiencia prostitución) se debían a la deficiencia mental heredada
mental eran “terriblemente exageradas” (Goddard, 1912). tampoco coincide con la postura ambientalista moderna.

www.FreeLibros.me
booksmedicos.org
56 CAPÍTULO 2 / Historia de la evaluación psicológica

Sin embargo, la razón más probable por la que los recibieron influencia de las ideologías sociales de su
autores modernos han ignorado a Goddard es que este época. Por último, Goddard fue un académico complejo
último ejemplificaba a muchos de los primeros psicólo­ que perfeccionó y contradijo sus opiniones profesiona­
gos destacados que hicieron un ostensible mal uso de las les en numerosas ocasiones. Un ejemplo irónico es que,
pruebas de inteligencia. En sus esfuerzos por demostrar después de que el daño estaba hecho y que sus escritos
que cada día ingresaban a Estados Unidos altas tasas de habían contribuido a restringir la inmigración, Goddard
inmigrantes con retraso mental, Goddard envió a sus (1928) se retractó y concluyó que la debilidad mental no
ayudantes a la isla Ellis para que aplicaran a los inmi­ era incurable y que los afectados no tenían que ser segre­
grantes recién llegados su traducción al inglés de las prue­ gados en instituciones.
bas Binet-Simon. Las pruebas se aplicaban con la ayuda El capítulo de Goddard en la historia de la evalua­
de un traductor poco después de que los inmigrantes ción es un recordatorio de que incluso las personas bien
habían desembarcado, por lo que podemos suponer que intencionadas que trabajan de acuerdo con las normas
muchos de ellos estaban asustados, confundidos y des­ aceptadas pueden hacer mal uso de las pruebas psicoló­
orientados. De esta manera, una prueba que se había gicas. Siempre debemos estar conscientes de que las metas
elaborado originalmente en francés, y luego se tradujo al de una ideología social perniciosa pueden sacar prove­
inglés, se traducía ahora al yiddish, húngaro, italiano o cho de la “ciencia” desinteresada.
ruso, se aplicaba a granjeros y peones desconcertados
que acababan de cruzar el Atlántico, y finalmente se inter­
la evaluación de los superdotados:
pretaba de acuerdo con las normas francesas originales.
Leta Stetter Hollingworth
¿Qué encontró Goddard y qué hizo con sus resulta­
dos? En muestras pequeñas de inmigrantes (de 22 a 50), Uno de los primeros usos de las pruebas de CI como la
sus ayudantes encontraron que el 83 por ciento de los Stanford-Binet fue la evaluación de los superdotados.
judíos, el 80 por ciento de los húngaros, el 79 por ciento Una pionera en este campo fue Leta Stetter Hollingworth
de los italianos y el 87 por ciento de los rusos que llega­ (1886-1939), quien dedicó su breve carrera (murió de
ban a Estados Unidos eran débiles mentales, es decir, con cáncer a la edad de 53 años) a la psicología de la geniali­
una edad inferiora 12 años en las escalas de Binet-Simon dad. En un estudio, Hollingworth (1928) demostró que
(Goddard, 1917). Su interpretación de esos hallazgos os­ el logro académico de los niños de elevada genialidad
cilaba entre el escepticismo cauto y la alarma provoca­ (cuyo CI en la Stanford-Binet rondaba alrededor de 165)
dora. Por un lado, afirma que en su estudio “los porcen­ era significativamente mayor al de los niños con una ge­
tajes actuales no son determinantes, ni siquiera de esos nialidad común (con un CI alrededor de 146). En otro
grupos, que corresponden a los débiles mentales”; pero estudio disipó la creencia, común en esa época, de que
en otra parte del informe afirma que sus cifras solo ten­ no debería permitirse que los niños superdotados ade­
drían que corregirse en una “cantidad relativamente pe­ lantaran grados porque quedarían rezagados respecto a
queña” para determinar los porcentajes reales de débiles los niños mayores en caligrafía y otras habilidades mo­
mentales entre los grupos de inmigrantes. Concluye ade­ trices (Hollingworth y Monahan, 1926). En otro estudio
más que la inteligencia del inmigrante promedio es baja, encontró que absolutos desconocidos consideraban que
“quizá al nivel de un morón”, pero luego menciona a la los adolescentes altamente superdotados eran significa­
privación de estímulos ambientales como causa princi­ tivamente mejor parecidos cuando los comparaban con
pal. Goddard parece apoyar la deportación de los inmi­ sujetos de control de la misma edad (Hollingworth, 1935).
grantes con bajo CI, pero al mismo tiempo adopta la Hollingworth fue una investigadora prolífica que
perspectiva humanitaria de que se podría utilizar a “tra­ hizo avanzar la ciencia de la evaluación del CI; además,
bajadores morones” si “somos lo bastante sagaces para al ser una idealista, se adelantó a su época. Propuso un
entrenarlos de manera adecuada”. fondo revolvente para subvencionar a los niños super­
Hay mucho más respecto a la era de Goddard de la dotados, quienes tendrían la obligación moral (pero no
evaluación inicial de la inteligencia, por lo que se exhorta legal) de pagar el dinero en 20 años. Imaginó que dicho
al lector interesado a consultar los trabajos de Gould fondo crecería de manera exponencial a lo largo de las
(1981) y Gelb (1986). El aspecto más importante a enfa­ décadas y beneficiaría a la nación de formas imprevisi­
tizar aquí es que, como sucedió con muchos de los pri­ bles (H. Hollingworth, 1934). Por desgracia, este extra­
meros psicólogos, las opiniones académicas de Goddard ordinario plan nunca se cristalizó.

www.FreeLibros.me
booksmedicos.org
TEM A 2B / Los inicios de la evaluación en Estados Unidos 57

Hollingworth también fue una feminista que atri­ riodo inicial de experimentación e incertidumbre. De
buía las diferencias de género en cuanto prestigio y logro una vez y para siempre, la evaluación de la inteligencia se
al medio social y cultural: había establecido sobre una base firme”.
Durante décadas, la Stanford-Binet fue el estándar
No es aconsejable buscar la causa de las diferencias de la evaluación de la inteligencia. Los nuevos instru­
sexuales relacionadas con el prestigio en las diferencias mentos se validaban en términos de su correlación con
afectivas e intelectuales primordiales y oscuras hasta no dicha prueba, la cual mantuvo su prestigio luego de las
haber agotado como causa el hecho conocido, evidente e revisiones efectuadas en 1937 y 1960. Para entonces, co­
inexorable de que las mujeres daña luz a los hijos y los menzó a competir con las escalas de Wechsler (Wechs­
crían, y que esto tiene como secuela inevitable que sean ler, 1949,1955). La última revisión de la Stanford-Binet
ellas quienes se ocupen de la administración del hogar,
se completó en el año 2003. En un capítulo posterior se
un campo donde no es posible la eminencia.
examinan en detalle esta prueba y las escalas de Wechs­
Puede agregarse como corolario que... tanto para el
enriquecimiento de la sociedad como para la paz de los ler. Vale la pena mencionar que las escalas de Wechsler
individuos, es conveniente que las mujeres puedan se convirtieron en una alternativa de gran aceptación a la
encontrar la forma de modificar su medio como hacen Stanford-Binet, sobre todo porque ofrecían algo más
bs hombres y conservar la posibilidad de procrear. En la que una puntuación de CI. Además del CI de la escala
actualidad dicha opción es obstaculizada por el prejuicio completa, las escalas de Wechsler ofrecían puntuacio­
individual, la pobreza y la promulgación de medidas nes de entre 10 y 12 subpruebas, así como un CI verbal y
legales. Pero las expectativas públicas cambiarán uno de ejecución. En contraste, las primeras versiones de
lentamente en la medida en que cambien las condiciones la Stanford-Binet solo proveían una puntuación global
que las generaron, y en otro siglo se encontrará la resumida, el CI global.
solución a este problema. (Hollingworth, 1914, p. 529)

Ha transcurrido casi un siglo desde la declaración de Ho­ • PRUEBAS DE GRUPO Y LA CLASIFICACIÓN


llingworth. Todavía existen las diferencias de género en DE LOS RECLUTAS DEL EJÉRCITO
prestigio y logro, aunque se han reducido de manera DURANTE LA PRIMERA GUERRA MUNDIAL
considerable.
Si consideramos la inclinación de los estadounidenses
a la eficiencia, era natural que los investigadores buscaran
La Stanford-Binet:
pruebas mentales de grupo que complementaran a las prue­
0 fundamento inicial del CI
bas individuales de inteligencia importadas de Francia,
Aunque Goddard fue el primero en traducir las escalas las cuales requerían mucho tiempo. Entre los primeros
de Binet en Estados Unidos, fue el profesor de Stanford, en desarrollar pruebas de grupo estuvo Pyle (1913), quien
Lewis M. Terman (1857-1956), quien ayudó a difundir publicó normas para una batería aplicada a niños en edad
la evaluación del CI con su revisión de las escalas de Bi­ escolar, conformada por pruebas muy utilizadas como la
net en 1916. La nueva escala Stanford-Binet, como se le capacidad de memoria, la sustitución de dígitos y sím ­
llamó, implicó una revisión importante y no una mera bolos, y la asociación de palabras expresadas de forma
extensión de las escalas de Binet. Entre los muchos cam­ oral (anotar rápidamente palabras en respuesta a una
bios que dieron lugar al prestigio incuestionable de la palabra estímulo). Pintner (1917) revisó y amplió la ba­
Stanford-Binet estuvo el uso del ahora conocido CI para tería de Pyle, a la que añadió una prueba cronometrada
expresar los resultados de la prueba. El número de reac­ de cancelación en la que el niño tenía que tachar la letra
tivos se incrementó a 90 y la nueva escala era adecuada a cada vez que esta aparecía en un texto.
para personas con retraso mental, niños y adultos nor­ Pero las pruebas de grupo tardaron en ponerse de
males y “superiores”. Además, la Stanford-Binet contaba moda, lo que se debió en parte a la laboriosa calificación
con instrucciones claras y bien organizadas de aplicación manual que exigían las primeras versiones. La idea de
y calificación, y se tuvo el cuidado de asegurar el uso de una prueba totalmente objetiva con una clave sencilla
una muestra representativa de sujetos para estandarizar de calificación era incongruente con pruebas como la de
la prueba. Como advierte Goodenough (1949): “La pu­ memoria lógica, para cuya calificación se requería el
blicación de la Revisión de Stanford señaló el fin del pe­ juicio del examinador. Lo más sorprendente de todo

www.FreeLibros.me
booksmedicos.org
58 CAPÍTULO 2 / Historia de la evaluación psicológica

(al menos para cualquiera que haya sido alumno duran­ Para tener en cuenta a los sujetos analfabetos y a los
te cierto tiempo en las escuelas estadounidenses) es que inmigrantes recién llegados que no comprendían el in­
el uso de las preguntas de opción múltiple todavía no se glés, Yerkes indicó a los examinadores que usaran méto­
había generalizado. dos principalmente pictóricos y gestuales para explicar
El lento ritmo del desarrollo de las pruebas de grupo las pruebas a los posibles reclutas del ejército. El exami­
se aceleró de forma notable cuando Estados Unidos en­ nador y un asistente se ponían de pie sobre un estrado
tró a la Primera Guerra Mundial en 1917. Fue entonces frente al grupo y recurrían a la pantomima para explicar
que Robert M. Yerkes, un conocido profesor de psicolo­ cada una de las ocho pruebas.
gía en Harvard, convenció al gobierno y al ejército esta­ La evaluación del ejército pretendía contribuir a aislar
dounidenses de aplicar pruebas de inteligencia a la tota­ y eliminar a quienes fueran mentalmente incompetentes,
lidad de los reclutas (1 millón 750 mil sujetos) con fines clasificar a los hombres según su capacidad mental y ayudar
de clasificación y asignación (Yerkes, 1919). Inmediata­ en la ubicación de los hombres competentes en puestos
mente después de ser comisionado en el ejército como de responsabilidad (Yerkes, 1921). Sin embargo, no queda
coronel, Yerkes formó el Comité de Examen de Reclutas, claro si el ejército en realidad utilizó las grandes cantida­
el cual se reunió en la escuela Vineland en Nueva Jersey des de datos proporcionados por Yerkes y sus entusiastas
con la finalidad desarrollar las nuevas pruebas grupa­ ayudantes. La lectura cuidadosa de sus memorias revela
les para evaluar a los nuevos efectivos del ejército. Yerkes que Yerkes hizo poco más que producir testimonios fa­
presidió el comité que incluía a otros miembros famo­ vorables de los oficiales de alto rango. En general, en sus
sos, como Goddard y Terman. memorias afirma que si el ejército hubiera utilizado los
De esta colaboración surgieron dos pruebas grupales, datos de la evaluación, se habría ahorrado millones de
la Alfa y la Beta del Ejército, cuya influencia sobre las dólares y habría incrementado su eficiencia.
pruebas de inteligencia posteriores difícilmente podría Hasta cierto punto, la gran cantidad de datos de las
sobreestimarse. En las décadas siguientes, el formato y pruebas tuvo poco efecto práctico sobre la eficiencia del
contenido de esas pruebas inspiraron avances en la eva­ ejército debido a la resistencia de la mentalidad militar a
luación grupal e individual. Revisaremos esas pruebas la innovación científica. Sin embargo, también es cierto
con cierto detalle, de manera que el lector pueda apreciar que los mandos militares tenían buenas razones para
su influencia en las pruebas modernas de inteligencia. dudar de la validez de los resultados de las pruebas. Por
ejemplo, un memorando interno describía el uso de la
pantomima para dar las instrucciones del examen no
Los exámenes Alfa y Beta del Ejército
verbal Beta:
La prueba Alfa se basó en el trabajo inédito en ese mo­
mento de Otis (1918) y constaba de ocho pruebas con En aras de hacer comparables los resultados de los
carga verbal para reclutas de funcionamiento promedio y distintos campamentos, se ordenó a los examinadores
alto. Las ocho pruebas eran: 1. seguimiento de instruc­ seguir una determinada serie detallada y específica de
ciones orales, 2. razonamiento aritmético, 3. juicio prác­ numeritos de ballet, los cuales no solo tenían el mérito
de ser perfectamente incomprensibles y de no estar
tico, 4. pares de sinónimos-antónimos, 5. oraciones
relacionados con la evaluación mental, sino que también
desordenadas, 6. completarmento de series de números, daban una atmósfera mística sumamente confusa y
7. analogías, y 8. información. La figura 2.1 presenta distractora a todo el desempeño, lo cual impedía
algunos reactivos característicos del examen Alfa del cualquier aproximación a la actitud que debería tener
Ejército. d sujeto mientras era examinado, (citado en Samelson,
La Beta del Ejército era una prueba grupal no verbal, 1977)
diseñada para aplicarse a analfabetos y reclutas cuya pri­
mera lengua no era el inglés. Constaba de varias pruebas Además, las condiciones de examen dejaban mucho que
visuales-perceptuales y motrices, como trazar un camino desear, ya que oleada tras oleada de reclutas entraban
a través de laberintos y visualizar el número correcto de por una puerta, eran examinados y prácticamente se les
cubos presentados en un dibujo tridimensional. La figu­ sacaba a empujones por el otro lado. Decenas de miles de
ra 2.2 describe la pizarra de demostraciones de las ocho reclutas recibían un cero literal en muchas de las sub­
partes del examen Beta. pruebas, no porque fueran retardados, sino porque no

www.FreeLibros.me
booksmedicos.org
TEM A 2B / Los inicios de la evaluación en Estados Unidos 59

SEGUIMIENTO DE INSTRUCCIONES ORALES

Marque una cruz en el primer círculo y también en el tercero


O O O O O

RAZONAMIENTO ARITMÉTICO

Resuelva cada problema:


¿Cuántos hombres son cinco hombres y 10 hombres? Respuesta ( )
Si tres toneladas y media de carbón cuestan $21, ¿cuánto costarán cinco toneladas y media? Respuesta ( )

JUICIO PRÁCTICO

¿Por qué están cubiertas de nieve las montañas altas?


□ Porque están cerca de las nubes.
□ Porque es raro que el sol brille sobre ellas.
□ Porque ahí el aire es frío.

PARES DE SINÓNIMOS-ANTÓNIMOS

¿Las siguientes palabras son iguales u opuestas?


obsequio-donación ¿iguales u opuestas?
acumular-dilapidar ¿iguales u opuestas?

ORACIONES DESORDENADAS

¿Es posible reordenar estas palabras para formar una oración?


envidia malos malicia rasgos son y ¿verdadero o falso?

OOMPLETAMIENTO DE SERIES DE NÚMEROS

Complete la serie: 3 6 8 16 18 36 ............

ANALOGÍAS

¿Qué opción completa la analogía?


lágrimas-pesar:: risas— alegría sonreír ninas sonrisa
granero-trigo:: biblioteca— escritorio libros papel bibliotecario

INFORMACIÓN

Hija la mejor alternativa:


H páncreas se localiza en el/la abdomen cabeza hombro cuello
La batalla de Gettysbui^ se libró en 1863 1813 1778 1812

Nota: Los examinados recibían instrucciones verbales para cada subprueba.

• F I G U R A 2. 1 Reactivos de muestra del Examen Alfa del Ejército.


Fuente: Reimpreso de Yerkes, R. M. (ed.) (1921). Psychological examining in the United States Army. Memoirs o f the National Acadeniy o f Sciences,
volumen 15. Reproducido con autorización de la Academia Nacional de Ciencias, Washington, DC.

www.FreeLibros.me
booksmedicos.org
CAPÍTULO 2 / Historia de la evaluación psicológica

T EST 5
62 62
59 5 6
327 32 7
249 2 49
1536 1536
37 4 5 37 45
45010 45001 C y
6 2 0 19 6 2 0 19

• FIGURA 2.2 La pizarra de demostraciones para las ocho partes


del examen Beta.
Fuente: Reproducido de Yerkes, R. M. (ed.) (1921) Psychological examining in
the United States Army. Memoirs of the National Academy o f Sciences, volumen 15.
Reproducido con autorización de la Academia Nacional de Ciencias,
Washington, DC.

www.FreeLibros.me
booksmedicos.org
TEM A 2B / Los inicios de la evaluación en Estados Unidos 61

podían comprender las instrucciones para responder a contribuir a evitar la duplicación en la evaluación de los
esos nuevos y enigmáticos instrumentos. Muchos de los aspirantes a ingresar a las universidades estadouniden­
reclutas se quedaban dormidos mientras los examinado­ ses. El formato de los primeros exámenes fue el ensayo
res daban instrucciones esotéricas y misteriosas por m e­ de respuesta corta, pero esto cambió muy pronto cuan­
dio de la pantomima. do C. C. Brigham, un discípulo de Yerkes, se convirtió
Por el lado positivo, las pruebas del ejército dieron a en secretario del consejo después de la Primera Guerra
b s psicólogos una enorme experiencia en la psicometría Mundial. En 1925 el Consejo de Universidades decidió
de la elaboración de pruebas. Se calcularon miles de desarrollar una prueba de aptitud académica que se
coeficientes de correlación, incluyendo el uso destacado emplearía en las admisiones a la universidad (Goslin, 1963).
de correlaciones múltiples en el análisis de los datos de Los nuevos instrumentos reflejaron el formato objetivo,
las pruebas. En muy pocos años la elaboración de pruebas ahora familiar, en el que había que ordenar oraciones,
dejó de ser un arte para convertirse en una ciencia. completar analogías y colocar el siguiente número en
una secuencia. En la década de 1930 se introdujo una
máquina calificadora, lo que hizo las pruebas objetivas de
• EVALUACIÓN EDUCATIVA grupo incluso más eficientes que antes. Esas pruebas
TEMPRANA evolucionaron luego en los exámenes actuales del Con­
sejo de Universidades, en particular, las Pruebas de Aptitud
Para bien o para mal, el grandioso esquema de Yerkes Académica, que actualmente se conocen como Pruebas de
para evaluar a los reclutas del ejército contribuyó al ini­ Evaluación Académica.
cio de la era de las pruebas grupales. Después de la Pri­ Las funciones del CEEB más tarde fueron absorbidas
mera Guerra Mundial, la industria, las escuelas públicas por el Educational Testing Service (ETS, Servicio de Eva­
y las universidades se apresuraron a indagar acerca de luación Educativa), una organización sin fines de lucro
las aplicaciones potenciales de esos sencillos instrumen­ que dirigió el desarrollo, la estandarización y la valida­
tos que casi cualquiera podía aplicar y calificar (Yerkes, ción de pruebas tan conocidas como el Examen de Regis­
1921). Los psicólogos que habían trabajado con Yerkes tro de Graduados, la Prueba de Admisión a la Escuela de
pronto abandonaron el servicio y llevaron consigo a la Derecho y las Pruebas de Admisión a los Cuerpos de Paz.
industria y la educación su nueva idea de las pruebas es­ Mientras tanto, Terman y sus colaboradores en
critas de inteligencia. Stanford estaban ocupados en el desarrollo de pruebas
Las pruebas Alfa y Beta del Ejército también se pu­ estandarizadas de logro. La Prueba de Logro de Stanford
sieron a la venta para uso general; en muy poco tiempo (Stanford Achievement Testy SAchT) se publicó por pri­
se convirtieron en los prototipos de una gran familia de mera vez en 1923 y en la actualidad todavía se utiliza una
pruebas grupales e influyeron en la naturaleza de las prue­ versión moderna de dicha prueba. Desde el inicio, la
bas de inteligencia, los exámenes de admisión a la univer­ Prueba de Logro de Stanford incorporó principios psi-
sidad, las pruebas de desempeño escolar y las pruebas de cométricos modernos, como el establecimiento de normas
aptitud. Para mencionar solo una consecuencia específica para las subpruebas que permitieran evaluar la variabili­
de los exámenes del ejército, el National Research Council dad intrasujeto y la elección de una muestra de estanda­
(Consejo Nacional de Investigación), una organización rización muy grande y representativa.
gubernamental de científicos, elaboró la Prueba Nacional
de Inteligencia (National Intdligence Test) que a la larga se
aplicó a siete millones de niños estadounidenses durante • DESARROLLO DE LAS PRUEBAS
la década de 1920. En consecuencia, pruebas bien conoci­ DE APTITUD
das como las escalas de Wechsler, las Pruebas de Aptitud
Académica y el Examen de Registro de Graduados en rea­ Las pruebas de aptitud miden capacidades más específi­
lidad tienen raíces que se remontan a Yerkes, Otis y las cas y delimitadas que las pruebas de inteligencia. Por
pruebas masivas de los reclutas del ejército durante la Pri­ tradición, las pruebas de inteligencia evalúan un cons­
mera Guerra Mundial. tructo más global, como la inteligencia general, aunque
A comienzos del siglo xx se estableció el College En- existen excepciones a esta tendencia que se revisarán
trance Examination Board (CEEB, Consejo de Exáme­ más adelante. En contraste, una única prueba de aptitud
nes de Admisión a la Universidad) con la finalidad de solo mide un dominio de capacidad, mientras que una

www.FreeLibros.me
booksmedicos.org
62 CAPÍTULO 2 / Historia de la evaluación psicológica

batería de múltiples pruebas de aptitud permite obtener • LA EVALUACIÓN VO CA CIO N A L


puntuaciones en diversas áreas distintivas de capacidad. Y DE LA PERSONALIDAD DESPUÉS
El desarrollo de las pruebas de aptitud se quedó reza­ DE LA PRIMERA GUERRA M UNDIAL
gado respecto a las pruebas de inteligencia por dos razo­
nes, una estadística y la otra social. El problema estadístico Si bien Galton, Kraepelin y otros habían utilizado méto­
fue que a menudo se necesitaba una nueva técnica, el dos rudimentarios de evaluación como la técnica de aso­
análisis factorial, para discernir qué aptitudes eran pri­ ciación libre antes de empezar el siglo xx, no fue sino
marias y, por ende, distintas entre sí. Spearman (1904) hasta la Primera Guerra Mundial que aparecieron las
inició la investigación sobre esta cuestión muy pronto, pruebas de personalidad con una forma parecida a su
pero no se perfeccionó sino hasta la década de 1930 aspecto contemporáneo. Como sucede a menudo en la
(Spearman, 1927; Kelley, 1928; Thurstone, 1938). Esta historia de la evaluación, fue de nuevo una necesidad
nueva familia de técnicas, el análisis factorial, permitió a práctica lo que impulsó este nuevo avance. La evaluación
Thurstone concluir que existen factores específicos de moderna de la personalidad empezó cuando Woodworth
capacidad mental principal como la comprensión ver­ trató de desarrollar un instrumento para detectar a los
bal, la fluidez de palabra, la facilidad con los números, la reclutas susceptibles a la psiconeurosis. Prácticamente to­
capacidad espacial, la memoria asociativa, la velocidad dos los programas, cuestionarios e inventarios modernos
perceptual y el razonamiento general (Thurstone, 1938; de personalidad están en deuda con la Hoja de Datos Per­
Thurstone y Thurstone, 1941). En capítulos posteriores sonales (Personal Data Sheet) de Woodworth (1919).
sobre la inteligencia y la evaluación de la capacidad se La Hoja de Datos Personales constaba de 116 pre­
hablará más de este tema. Aquí, el asunto importante es guntas que el sujeto debía responder subrayando Sí o
que Thurstone y sus seguidores pensaban que las prue­ No. Las preguntas eran exclusivamente de la variedad
bas globales de inteligencia no podían, por así decirlo, “evidente” y, en su mayoría, se relacionaban con sinto-
“desmenuzar la naturaleza”, por lo que se pensaba que matología bastante grave. Los siguientes son algunos
instrumentos como la Stanford-Binet no eran tan útiles reactivos representativos:
como las baterías de pruebas múltiples de aptitud para
identificar las fortalezas y debilidades intelectuales de una • ¿Las ideas corren por su cabeza de modo que no pue­
persona. de dormir?
La segunda razón del lento desarrollo de las baterías • ¿Durante su niñez se le consideraba un mal muchacho?
de aptitud fue la ausencia de una aplicación práctica • ¿Le molesta la sensación de que las cosas no son reales?
para dichos instrumentos perfeccionados. No fue sino • ¿Siente un fuerte deseo de cometer suicidio?
hasta la Segunda Guerra Mundial que surgió la necesidad
apremiante de elegir candidatos altamente calificados para Los lectores familiarizados con el Inventario Multifásico
tareas muy difíciles y especializadas. Los requisitos para el de Personalidad de Minnesota (Minnesota Multtphasic Per-
trabajo de pilotos, ingenieros de vuelo y navegadores eran sonality Inventory; MMPI) seguramente reconocerán la
muy específicos y exigentes. Una estimación general de deuda que tiene ese inventario más reciente con el instru­
la capacidad intelectual, como la que efectuaban las prue­ mento de Woodworth.
bas grupales de inteligencia empleadas durante la Prime­ El siguiente avance importante fue un inventario de
ra Guerra Mundial, no era suficiente para elegir buenos neurosis, el Inventario de Personalidad de Thurstone
candidatos para la escuela de pilotos. Las fuerzas arma­ ( Thurstone Personality Schedule; Thurstone y Thurstone,
das resolvieron este problema mediante el desarrollo de 1930). Después de elegir cientos de reactivos que podían
una batería especializada de aptitud conformada por 20 responderse en el formato de sí o no tanto del inventario
pruebas, que se aplicaban a los hombres que aprobaban de Woodworth como de otras fuentes, Thurstone los
las pruebas preliminares de selección. Esos instrumentos adaptó de manera racional en términos de cómo sería la
demostraron ser invaluables en la selección de pilotos, respuesta típica del neurótico. Como reflejo de la incli­
navegadores y artilleros, como se reflejó en las tasas mu­ nación de Thurstone hacia el perfeccionamiento estadís­
cho menores de fracasos de los hombres seleccionados tico, este inventario fue uno de los primeros en usar el
por la batería de pruebas en comparación con los selec­ método de consistencia interna en el que cada posible
cionados por medio de los antiguos métodos (Goslin, reactivo se correlacionaba con la puntuación total en la
1963). Dichas pruebas todavía se emplean con frecuen­ escala identificada tentativamente para determinar si
cia en las fuerzas armadas. pertenecía a dicha escala.

www.FreeLibros.me
booksmedicos.org
TEM A 2B / Los inicios de la evaluación en Estados Unidos 63

De la prueba de Thurstone surgió el Inventario de conformar una base para comparar las reacciones de los
Personalidad de Bemreuter (Bemreuter, 1931), el cual sujetos normales y los “dementes”.
hacía una medición un poco más fina que su predeceso Mientras los estadounidenses seguían el enfoque
ra de cuatro dimensiones de la personalidad: tendencia empírico para la evaluación objetiva de la personalidad,
neurótica, autosuficiencia, introversión-extroversión y un joven psiquiatra suizo, Hermann Rorschach (1884-
dominio-sumisión. Una innovación importante en la ela­ 1922), desarrollaba un medio completamente distinto
boración de la prueba fue el hecho de que un solo reactivo para el estudio de la personalidad. Rorschach recibió
del instrumento podía contribuir a más de una escala. una fuerte influencia del pensamiento junguiano y psi-
Cualquier cronología de los inventarios de autoin­ coanalítico, por lo que era natural que su método se en­
forme por fuerza debe incluir al Inventario Multifásico focara en la tendencia de los pacientes a revelar de manera
de Personalidad de Minnesota o MMPI (Hathaway y inconsciente sus conflictos más íntimos cuando respon­
McKinley, 1940). Más adelante se revisan en detalle esta dían a estímulos ambiguos. La prueba de Rorschach y
prueba y su revisión, el MMPI-2. Por ahora, bastará se­ otras pruebas proyectivas que se analizan más adelante
ñalar que las escalas del MMPI fueron elaboradas median­ se basaron en la hipótesis proyectiva: cuando se respon­
te el método iniciado por Woodworth, que comparaba de a estímulos ambiguos o no estructurados, de manera
las respuestas de sujetos normales y sujetos con proble­ inadvertida revelamos nuestras necesidades, fantasías y
mas psiquiátricos. Además, el MMPI introdujo el uso de conflictos más recónditos.
escalas de validez para identificar patrones de respuesta Rorschach estaba convencido de que la gente revela­
aleatorios o patrones falseados por el sujeto para dar una ba dimensiones importantes de la personalidad en sus
mala o una buena imagen de sí mismo. respuestas al ver manchas de tinta. Dedicó años al desa­
rrollo del conjunto correcto de 10 manchas de tinta y
analizó de manera sistemática las respuestas de amigos
• ORÍGENES DE LAS PRUEBAS personales y distintos grupos de pacientes (Rorschach,
PROYECTIVAS 1921). Por desgracia, murió apenas un año después de
que se publicó su monografía y la tarea de concluir su
El enfoque proyectivo se originó con el método de aso­ trabajo quedó en manos de otros. Más adelante en el tex­
ciación de palabras utilizado inicialmente por Francis to se revisan los avances en la prueba de Rorschach.
Galton a finales del siglo xix. Galton se concedía cuatro Mientras la prueba de Rorschach se desarrolló ori­
segundos para proponer tantas asociaciones como fuera ginalmente para revelar los mecanismos más recónditos
posible a una palabra estímulo y luego las categorizaba del sujeto anormal, la Prueba de Apercepción Temáti­
como representaciones recitadas como un loro, media­ ca o TAT (por las siglas de Thematic Apperception
das por imágenes o representaciones histriónicas. Esta Test) (Morgan y Murray, 1935) se desarrolló como un
última categoría lo convenció de que las operaciones instrumento para estudiar la personalidad normal. Por
mentales estaban “completamente sumergidas por deba­ supuesto, desde entonces ambas pruebas han sido am ­
jo del nivel de la conciencia”. Algunos historiadores han pliadas para examinar todo el espectro de la conducta
especulado incluso que la aplicación que hizo Freud de la humana.
asociación libre como herramienta terapéutica en el psi­ La TAT consta de una serie de imágenes ambiguas
coanálisis surgió del trabajo de Galton publicado en Bra- que muestran a una o más personas que participan en
m en 1879 (Forrest, 1974). una interacción. Se muestra una imagen a la vez al sujeto
W undt y Kraepelin continuaron el trabajo de Galton y se le pide que relate una historia acerca de ella; se le
en Alemania y, finalmente, Jung (1910) se encargó de indica que sea tan teatral como pueda, que analice pen­
llevarlo a buen término. La prueba de Jung constaba de 100 samientos y sentimientos y que describa el pasado, pre­
palabras estímulo, ante cada una de las cuales el sujeto sente y futuro de lo que se muestra en la imagen.
debía responder tan rápido como pudiera con la prime­ Murray (1938) creía que las necesidades subyacentes
ra palabra que le viniera a la mente. Kent y Rosanoff de la personalidad, como la necesidad de logro, serían
(1910) dieron al método de asociación un carácter dis­ reveladas por los contenidos de los relatos. Aunque se
tintivamente estadounidense al tabular las reacciones de desarrollaron numerosos sistemas de calificación, los
1,000 sujetos normales a una lista de 100 palabras es­ clínicos por lo general han confiado en un análisis im ­
tímulo. Esas tablas fueron diseñadas con la finalidad de presionista para dar sentido a los protocolos de la TAT.

www.FreeLibros.me
booksmedicos.org
64 CAPÍTULO 2 / Historia de la evaluación psicológica

Las aplicaciones modernas de la TAT se analizan en un sino que explicó dichas preferencias a partir de la identi­
capítulo posterior. ficación inconsciente con las características de los pa­
La técnica de completamiento de frases también cientes retratados. Esto constituyó una base teórica más
comenzó por esa época, con el trabajo de Payne (1928). aceptable para la prueba que las dudosas teorías genéti­
Han existido numerosas extensiones y variaciones de la cas de Szondi. No obstante, la investigación empírica
técnica, la cual consiste en dar a los sujetos una frase arrojó dudas sobre la validez de la prueba de Szondi y al
como “Me aburro cuando________”, y pedirles que com­ poco tiempo cayó en el olvido.
pleten la oración. Más adelante se revisan algunas aplica­
ciones modernas; por ahora baste mencionar que aún
sigue vigente el problema de calificación e interpreta­ • DESARROLLO DE LOS INVENTARIOS
ción que exasperó a los primeros encargados del desa­ DE INTERESES
rrollo de dichas pruebas.
Goodenough (1926) adoptó un enfoque totalmente Mientras los clínicos desarrollaban pruebas para anali­
nuevo de la evaluación proyectiva en su intento por de­ zar la personalidad y los conflictos inconscientes, otros
terminar no solo el nivel intelectual, sino también los psicólogos elaboraban instrumentos para ofrecer guía y
intereses y rasgos de personalidad de los niños mediante orientación a las masas de personas más normales. Entre
el análisis de sus dibujos. La prueba de Buck (1948) de tales instrumentos destaca el inventario de intereses, cu­
casa-árbol-persona era un poco más estandarizada y es­ yas raíces se remontan al estudio de Thomdike (1912)
tructurada, y requería que el sujeto dibujara una casa, un sobre las tendencias del desarrollo de los intereses de 100
árbol y una persona. La Proyección de la Personalidad en estudiantes universitarios. Entre 1919 y 1920 Yoakum
el Dibujo de la Figura Humana, de Machover (1949), fue elaboró un conjunto de 1,000 reactivos relacionados con
la extensión lógica del trabajo anterior. El dibujo de fi­ los intereses de la niñez a la madurez temprana (DuBois,
guras como método proyectivo para entender la perso­ 1970). Muchos de esos reactivos fueron incorporados al
nalidad todavía se emplea y en un capítulo posterior se Inventario de Intereses de Carnegie (Camegie Interest
analizan los desarrollos modernos en esta práctica. Inventory). Cowdery (1926-1927) mejoró y perfeccionó
Mientras tanto, en Europa la evaluación proyectiva el trabajo anterior sobre el instrumento de Carnegie al
estaba dominada por la Prueba Szondi, un instrumento aumentar la cantidad de reactivos, comparar las res­
extravagante basado en premisas completamente erró­ puestas de tres grupos que normaban el criterio (médi­
neas. Lipot Szondi fue un psiquiatra suizo nacido en cos, ingenieros y abogados) con las de grupos de control
Hungría, quien creía que los principales trastornos psi­ de no profesionales, y desarrollar una fórmula de pon­
quiátricos eran causados por genes recesivos. Su prueba deración de los reactivos. También fue el primer psicó­
constaba de 48 fotografías de pacientes psiquiátricos di­ logo que se percató de la importancia de la validación
vididos en seis conjuntos de los ocho tipos siguientes: cruzada. Probó sus nuevas escalas en otros grupos de
homosexual, epiléptico, sádico, histérico, catatónico, médicos, ingenieros y abogados para asegurarse de que
paranoico, maniaco y depresivo (Deri, 1949). A partir de las discriminaciones encontradas en los estudios origi­
cada conjunto de ocho fotografías, se indicaba al sujeto nales fueran diferencias de grupo confiables más que la
que eligiera las dos fotografías que más le gustaban y las capitalización del error de varianza.
dos que más le desagradaban. Se suponía que una perso­ Edward K. Strong (1884-1963) revisó la prueba de
na que de forma sistemática prefería un tipo de fotogra­ Cowdery y dedicó 36 años al desarrollo de claves empíricas
fía en los seis conjuntos tenía algunos genes recesivos para el instrumento modificado conocido como Inventa­
que la hacían sentir simpatía por la persona fotografiada. rio de Intereses Vocacionales de Strong (Strong Vocational
Se creía que las preferencias proyectivas revelaban genes Interest Blank, SVIB). Los individuos que presentaban la
recesivos que predisponían a los individuos a alteracio­ prueba podían ser calificados con claves separadas para va­
nes psiquiátricas específicas. rias docenas de ocupaciones, lo que ofrecía una serie de
Deri (1949) importó la prueba a Estados Unidos y puntuaciones de valor incalculable para la orientación vo-
cambió la lógica; no argumentó a favor de la explicación cacional. El inventario se convirtió en una de las pruebas
de los genes recesivos de la elección de las fotografías, de mayor uso de todos los tiempos (Strong, 1927). Su ver­

www.FreeLibros.me
booksmedicos.org
TEM A 2B / Los inicios de la evaluación en Estados Unidos 65

sión moderna, el Inventario de Intereses de Strong, todavía Ocupacionales de Kuder (Kuder, 1966; Kuder y Dia­
es muy utilizada por los consejeros. mond, 1979).
Durante décadas el único competidor serio del for­
mulario de Strong fue el Inventario de Preferencias de
Kuder (Kuder Preference Record; Kuder, 1934), el cual • RESUMEN DE LOS PRINCIPALES
difería del inventario de Strong en el hecho de que forza­ LOGROS EN LA HISTORIA
ba las elecciones dentro de triadas de reactivos. El registro DE LA EVALUACIÓN
de Kuder era una prueba ipsativa, es decir, comparaba la
fuerza relativa de los intereses dentro del individuo en Concluimos nuestra revisión histórica de la evaluación
vez de comparar sus respuestas con diversos grupos pro­ psicológica con un resumen presentado en forma de tabla
fesionales. Algunas revisiones más recientes del Inventa­ de los sucesos más destacados (incluyendo una cronolo­
rio de Preferencias de Kuder incluyen la Encuesta de gía de los desarrollos posteriores a 1950) en el apéndice A
Intereses Generales de Kuder y el Inventario de Intereses al final del libro.

1. En 1910 Henry Goddard tradujo la escala Binet- tricciones a la inmigración. Más tarde, algunos de esos
Simon de 1908. En 1911 utilizó la prueba para examinar pioneros de la evaluación se retractaron de sus opiniones
a más de mil escolares, para lo cual se basó en las normas anteriores.
francesas originales. Le perturbó encontrar que el 3 por 6. La evaluación educativa cayó en el ámbito del
ciento de la muestra sufría “debilidad mental” y reco­ Consejo de Exámenes de Admisión a la Universidad
mendó que esos niños fueran segregados de la sociedad. (CEEB), fundado a principios del siglo xx. En 1947 el
2. A principios del siglo xx se inventaron las prue­ consejo fue reemplazado por el Servicio de Evaluación
bas de inteligencia no verbales para facilitar la evaluación Educativa (ETS), el cual supervisaba la publicación de
de inmigrantes que no hablaban inglés. Por ejemplo, en pruebas tan conocidas como las Pruebas de Aptitud
1914 Knox publicó una prueba que consistía en un rom ­ Académica y el Examen de Registro de Graduados.
pecabezas de madera y además empleó la prueba ahora 7. El desarrollo del análisis factorial por L. L.
femiliar de sustitución de dígitos y símbolos. Thurstone y otros hizo posible el surgimiento de múlti­
3. En 1916 Lewis Terman dio a conocer la Stan­ ples baterías de pruebas de aptitud. Más tarde, la mejora
ford-Binet, una revisión de las escalas de Binet. Esta de esas baterías de pruebas fue estimulada por la necesi­
prueba bien diseñada y cuidadosamente normalizada dad práctica surgida durante la Segunda Guerra Mundial
colocó la evaluación de la inteligencia sobre bases firmes de seleccionar reclutas para puestos altamente especia­
de manera definitiva. lizados.
4. Durante la Primera Guerra Mundial Robert 8. La evaluación de la personalidad comenzó con
Yerkes encabezó un equipo de psicólogos que produjo la la Hoja de Datos Personales de Woodworth, una sencilla
Alfa del Ejército, una prueba de grupo con carga verbal lista de cotejo de síntomas en la que se respondía sí o no
para reclutas promedio y superiores, así como la Beta del y que se empleaba para descartar psiconeurosis en los
Ejército, una prueba grupal no verbal para reclutas anal­ reclutas durante la Primera Guerra Mundial. Muchos in­
fabetos o que no hablaban inglés. ventarios posteriores, incluyendo al conocido Inventa­
5. Los pioneros de la evaluación, como C. C. rio Multifásico de Personalidad de Minnesota, tomaron
Brigham, emplearon los resultados de las pruebas indi­ contenidos de la Hoja de Datos Personales.
viduales y grupales de inteligencia para corroborar las 9. La evaluación proyectiva empezó con la técnica
diferencias étnicas en la inteligencia y justificar así las res­ de asociación de palabras de Francis Galton; en 1910 C.

www.FreeLibros.me
booksmedicos.org
66 CAPÍTULO 2 / Historia de la evaluación psicológica

G. Jung se encargó de llevarla a buen término. Hermann dos, de manera inadvertida, revelan sus necesidades,
Rorschach publicó su famosa prueba de manchas de fantasías y conflictos más recónditos.
tinta en 1921. 11. La evaluación de los intereses vocacionales em­
10. La Prueba de Apercepción Temática (TAT), un pezó con el Inventario de Intereses de Carnegie que de­
instrumento con ilustraciones que narraban una histo­ sarrolló Yoakum entre 1919 y 1920. Después de varias
ria, fue presentada en 1935 por Morgan y Murray y se revisiones y ampliaciones, este instrumento surgió como
basaba en la hipótesis proyectiva: cuando los examina­ el Inventario de Intereses Vocacionales de Strong.
dos responden a estímulos ambiguos o no estructura-

• TÉRMINOS Y CONCEPTOS CIAVE

pruebas de aptitud p. 61
pruebas proyectivas p. 63
inventarios de intereses p. 64

www.FreeLibros.me

Vous aimerez peut-être aussi