Vous êtes sur la page 1sur 190

1

UNIVERSIDAD NACIONAL ABIERTA Y A DISTANCIA

ESCUELA DE CIENCIAS SOCIALES, ARTES Y HUMANIDADES

PROGRAMA DE PSICOLOGÍA

401517 – CURSO DE PSICOMETRÍA

MELISSA JUDITH ORTIZ BARRERO


(Director Nacional)

CLAUDIA ANDREA PAREDES


Acreditadora

Bogotá, D.C.
2010
2

ÍNDICE
I. Protocolo 5

Ficha Técnica 5

Introducción 6

Justificación 7

Intencionalidades formativas 8

Unidades didácticas 14

Contexto teórico 15

Metodología 16

Sistema de Evaluación 18

Recursos Tecnológicos 19

Glosario de Términos 22

II. Guía Didáctica 25

Presentación 25

Fases del Aprendizaje 25

Técnicas e Instrumentos para la Objetivación del Aprendizaje 26

Portafolio de Desempeño Personal y Grupal 27

Descripción de Actividades 28

III. Modulo 32

Unidad 1. Historia y conceptos básicos de la psicometría

Capítulo 1. Historia de la psicometría

Lección 1. Antecedentes y formas rudimentarias de las pruebas psicológicas

Lección 2. Era de los instrumentos de bronce

Lección 3. Estudio de las diferencias individuales e importancia de las


pruebas

Lección 4. Influencia de las primeras investigaciones sobre inteligencia

Lección 5. Consolidación institucional de la psicometría


3

Capítulo 2. La psicometría y su método

Lección 6. Definición de la psicometría

Lección 7. Vertiente práctica de la psicometría

Lección 8. Definiciones y objetivo de la psicometría

Lección 9. El método de la psicometría

Lección 10. La teoría de los test

Capítulo 3. Desarrollo de las pruebas y metodología estadística de la psicometría

Lección 11. Confiabilidad

Lección 12. Validez

Lección 13. Conceptos estadísticos, normas y estandarización parte i

Lección 14. Conceptos estadísticos, normas y estandarización parte ii

Lección 15. Construcción de pruebas

Unidad 2. Aproximación al uso de las pruebas psicológicas

Capítulo 4. Las pruebas y su proceso de aplicación TEMA 2A Y 2B

Lección 16. Definición de una prueba

Lección 17. Tipos y usos de las pruebas (obtención)

Lección 18. Procesos de aplicación estandarizados

Lección 19. Procesos de aplicación deseables

Lección 20. Influencias del evaluador y del evaluado

Capítulo 5. Pruebas de personalidad

Lección 21. Medición de la personalidad

Lección 22. MMPI

Lección 23. 16pf

Lección 24. Test de Rorschach

Lección 25. Casa-Arbol-Persona (H-T-P)

Capítulo 6. Pruebas de inteligencia y otras pruebas de las funciones cognitivas


4

Lección 26. Wisc

Lección 27. Barsit

Lección 28. Test de aptitudes diferenciales (DAT) o matrices progresivas de


Raven

Lección 29. Test guestaltico visomotor de Bender (p.405)

Lección 30. Minimental


5

I. PROTOCOLO

Ficha Técnica
Nombre del curso: Psicometría
Palabras clave: Validez, Confiabilidad, Pruebas psicoógicas, medición,
variables
Institución: Universidad Nacional Abierta y a Distancia -UNAD.
Ciudad: Bogotá – Colombia
Autor del Protocolo:
Melissa Ortiz B.

Año: 2010
Unidad es Académicas: 2

Campo de formación: Disciplinar

Área del conocimiento: Ciencias Sociales y Humanidades


Créditos académicos: Dos (2)
Tipo de curso: Teórico – práctico.
Estudiantes de pregrado del programa de
psicología de la Universidad Nacional Abierta y a
Destinatarios:
Distancia -UNAD-.

Los estudiantes evalúan las capacidades mentales


Competencia general
haciendo uso de diversos métodos, técnicas y
de aprendizaje:
pruebas de evaluación.
Metodología de oferta: A distancia. (Campus Virtual)
Formato de
Documentos impresos, Web.
circulación:
Denominación de las 1. Historia y conceptos básicos de la Psicometría
unidades didácticas: 2. Aproximación al uso de las pruebas psicológicas
6

Introducción

Las intencionalidades formativas de este curso van dirigidas principalmente al


desarrollo de competencias cognoscitivas y prácticas en el orden del analizar,
explicar los fundamentos conceptuales y metodológicos sobre los que se construye
la psicometría y los principales instrumentos de medición de eventos psicológicos.

Sus unidades didácticas abarcan los temas de la historia de la psicometría, sus


presupuestos básicos teóricos y metodológicos y la comprensión y uso de algunos
instrumentos que miden o evalúan diferentes características psicológicas de los
individuos, entre ellos están la prueba Rorschach, el MMPI, el 16 PF y el WISC-R.

El área temática abordará el estudio de los principios de la medición y evaluación


en la disciplina de la psicología y de los fenómenos psíquicos que son
determinantes en el comportamiento humano, en tanto que la psicometría es un
área de la psicología cuya finalidad intrínseca consiste en aportar soluciones al
problema de la medida en cualquier proceso de investigación del comportamiento. Es
además un campo metodológico que incluye teorías, métodos y usos de la medición
psicológica en aspectos conceptuales e instrumentales.

La metodología enseñanza - aprendizaje de este curso se adelantará utilizando las


estrategias de tipo interactivo desarrolladas por la UNAD, propias de la Educación a
Distancia. Los procesos de evaluación requerirán del estudiante su disposición
investigativa y participativa, se promoverá la discusión y la proposición.

Los documentos que el estudiante se encargará de leer para llevar a buen término
el curso serán principalmente escritos que se encuentran en las revistas
electrónicas científicas de psicología (medición y psicometría). La participación y el
trabajo activo tanto del estudiante como del tutor permitirán que el curso cumpla las
metas propuestas.
7

Al ser un curso diseñado para estudiantes de educación a distancia, hace énfasis


en la autogestión formativa mediada sincrónica y asincrónica, proponiendo
interacciones entre tutor y estudiante y de los estudiantes entre sí. Constituye dos
créditos académicos equivalentes a 96 horas de estudio, distribuidas de la siguiente
manera:

Estudio independiente: 64

Acompañamiento y seguimiento tutorial: 32

El campo de formación corresponde al área básica disciplinar dentro de los créditos


obligatorios del plan de estudios. El curso es conducente a la autogestión
estudiantil de los conocimientos metodológicos y conceptuales teóricos necesarios
para la comprensión y desarrollo de habilidades en medición de variables
psicológicas. A través del curso se prepara al estudiante para reflexionar
críticamente en torno a la utilidad de la medición y la evaluación de las habilidades
y destrezas cognoscitivas además de los riesgos y desventajas que pueden
generar.

Justificación

La psicometría es una herramienta indispensable para las actividades relacionadas


con la psicología principalmente en el campo de la evaluación y el diagnóstico,
permitiendo niveles altos y objetivos de medición del comportamiento humano. Una
de las dificultades que debe afrontar el psicólogo, en cualquiera de sus áreas de
desempeño, es precisamente la evaluación, puesto que el hombre con su
diversidad en todos los aspectos hace que la cuantificación del comportamiento sea
compleja.

La formación en psicometría provee a los estudiantes la posibilidad de acercarse a


la medición de eventos psicológicos; forma al estudiante en los paradigmas
8

particulares de resolución de problemas psicológicos, instalándolo en los procesos


de comprensión y uso técnico de pruebas propias de esta ciencia. Algunas
preguntas que guiarán este curso son las que siguen:

- ¿Cuál ha sido el curso histórico que ha permitido el desarrollo de pruebas o test


de medición de eventos psicológicos?
- ¿Qué significan en la medición los conceptos de validez y confiabilidad?
- ¿Qué pruebas se utilizan con mayor frecuencia en psicología y que fenómenos
psicológicos miden?
- Para resolver estos y otros cuestionamientos, el presente curso académico
abarcara dos elementos centrales de la psicometría: la historia, los elementos
metodológicos y conceptuales para la construcción de test y la segunda parte
estará dirigida a la comprensión y manejo de algunas pruebas de uso tradicional
en diferentes áreas de la psicología.

Intencionalidades Formativas

Propósitos de formación

1. Explicar los conceptos fundamentales sobre los que se construye la psicometría


como estrategia cuantitativa de la psicología, valiéndose de las principales
teorías y modelos psicológicos y estadísticos que la ha abordado.
2. Valorar los aportes teóricos de las diferentes escuelas psicológicas a la
comprensión de la medición, partiendo de criterios científicos y experimentales.
3. Demostrar la existencia e importancia de los procesos psicológicos y su
posibilidad de cuantificarlos.
4. Hacer una aproximación metodológica y conceptual sobre las capacidades
cuantitativas y cualitativas de algunas pruebas que se han utilizado para medir
diferentes características psicológicas, a través de ejercicios y aplicaciones y
calificación de algunos instrumentos de alta tradición en la psicología científica.
9

5. Contribuir a la mejora de hábitos de indagación y pesquisa sistemática través


del desarrollo de competencias de investigación formativa mediante el
conocimiento de protocolos y pruebas psicométricas.
6. Generar en el estudiante una actitud critica, a través del fomento de la discusión
y el trabajo colaborativo en redes de comunidad académica en psicometría, a
partir de la selección y valoración de las diferentes pruebas que aporta la
psicología y otras formas de abordaje de la medición del comportamiento.
7. Potenciar los procesos de autoaprendizaje del estudiante a través del desarrollo
de estrategias de autogestión formativa, a partir de la interacción con medios y
mediaciones incluidos escenarios virtuales, coherentes con la estructura
epistemológica y metodológica de la medición en psicología.
8. Desarrollar capacidades de medición y evaluación psicológica, a través del
entrenamiento en el uso de algunas pruebas y estrategias que permitan una
aproximación del estudiante a los problemas de desarrollo y consolidación de la
psicometría.

Los propósitos expuestos se pueden globalizar en la siguiente síntesis:

Contribuir al desarrollo del espíritu investigativo del estudiante en el área de


Psicometría, a partir del análisis de los elementos centrales de los métodos y
aproximaciones teóricas, mediante la organización y selección de actividades que
perfilen el autoaprendizaje y la discusión con sus pares y el docente guía.

Objetivos de aprendizaje

- Que el estudiante adquiera los conocimientos necesarios y suficientes que


permitan la comprensión de los aportes de la psicometría al desarrollo y estudio
del comportamiento (léase personalidad, actitud, aptitud, inteligencia,
competencia, etc.), mediante el estudio de las diferentes teorías y modelos
psicológicos y que la explican.
10

- Que el estudiante describa, relacione y comparare los aportes teóricos y


metodológicos que han permitido el desarrollo de la medición en psicología, a
través de ejercicios de aplicación de pruebas psicométricas.
- Que el estudiante comprenda la importancia de la medición, mediante el estudio
y aplicación a situaciones donde se requiera la cuantificación del
comportamiento.

- Que los estudiantes adquieran las destrezas necesarias para la formulación y


resolución de problemas de investigación psicométrica.

- Capacitar a los alumnos para comprender y analizar críticamente la bibliografía


relacionada con cualquiera de los campos de la Psicometría.

- Que los alumnos conozcan y sepan utilizar adecuadamente los principales


esquemas procedimentales para la medición de variables psicológicas.

- Dotar a los alumnos de herramientas para que generen sus propios criterios con
la finalidad de que puedan realizar juicios críticos en relación con la calidad y
adecuación de los diferentes instrumentos de medida que habrán de utilizar en
el desempeño de su labor como profesionales.

- Motivar positivamente a los alumnos hacia la Metodología de las Ciencias del


Comportamiento en general y respecto a los problemas propios de la
Psicometría en particular.

- Promover actitudes favorables a la investigación científica y al método científico


como una forma de enfrentarse a los problemas psicológicos.
11

Competencias

Teniendo en cuenta las fases del aprendizaje (reconocimiento, profundización y


transferencia), se desarrollarán entonces, competencias de tipo cognoscitivo,
práctico y afectivo que permitirán la apropiación e interiorización del conocimiento.
Las competencias que se presentan a continuación procuran vincular e integrar los
diferentes elementos teóricos y metodológicos de los diferentes contenidos del
presente curso y que el estudiante desarrollará a lo largo del aprendizaje mediático
sobre el que está basada su didáctica:

- Tener como meta de actuación la calidad del trabajo realizado (es decir, no sólo
trabajar de modo eficaz sino también del mejor modo posible).

- Interés por la investigación y creación de nuevos datos en Psicología, tanto


como receptor o evaluador de las innovaciones, como usuario o como
generador de las mismas.

- Conocer y cumplir la normativa ética propia de la profesión y de la investigación


psicológica y respetar los derechos de consultantes y usuarios de los servicios
psicológicos.

- Tener la capacidad de valorar los procedimientos utilizados para obtener datos


psicológicos relevantes así como para valorar la pertinencia de los informes
resultantes de la investigación y evaluación psicológicas.

- Transferencia y uso flexible del conocimiento.

- Habilidad para transferir el conocimiento académico a las diferentes situaciones


reales.
12

- Saber aplicar distintos métodos de medición, evaluación y diagnóstico en los


ámbitos aplicados de la Psicología.

- Conocer y respetar la diversidad psicológica, las creencias y valores de otros


grupos humanos.

- Tener interés y respeto por las aportaciones de otros campos a la Psicología y


de ésta a ellos.

- Manejo de informática e Internet como usuario.


- Saber planificar y realizar una búsqueda bibliográfica o de referencias tanto en
bases de datos informatizadas como en bibliotecas y hemerotecas.

- Conocer y utilizar adecuadamente los conceptos científicos propios de la


Psicología.

- Saber comunicar resultados psicológicos de forma oral adecuando la


presentación al destinatario/s de la misma.

- Saber analizar, sintetizar y resumir la información procedente de textos


científicos y profesionales relacionados con la psicología.

- Identificar la conducta o el proceso psicológico objeto de estudio, así como las


conductas o procesos vinculados y la estrategia para evaluarlos o medirlos.

Metas

Al finalizar el curso el estudiante estará en capacidad de:

- Reconocer los métodos y técnicas que se han usado en psicometría usando


como estrategia el desarrollo de ejercicios aplicados.
13

- Reconocer algunos hitos históricos del estudio de la medición psicológica a


partir de la lectura de los textos asignados al curso.
- Esbozar mediante mapas conceptuales, los componentes medulares de las
diferentes herramientas estadísticas que cuantifican el comportamiento.
- Analizar los conceptos y categorías fundamentales de las pruebas psicológicas,
usando como estrategia la comunicación interactiva (Chat) con sus compañeros
de curso y el tutor.
- A través del trabajo grupal, aplicar los conceptos básicos de la medición
psicológica para explicar y predecir el comportamiento en diferentes campos de
la acción humana.
14

UNIDADES DIDÁCTICAS

Unidad Capítulo Lección

Unidad 1. Historia Y Capítulo 1. Historía De


Conceptos Básicos La Psicometría
De La Psicometría Lección 1. Antecedentes Y Formas
Rudimentarias De Las Pruebas Psicológicas

Lección 2. Estudio De Las Diferencias


Individuales E Importancia De Las Pruebas

Lección 3. Era De Los Instrumentos De Bronce

Lección 4. Influencia De Las Primeras


Investigaciones Sobre Inteligencia

Lección 5. Consolidación Institucional De La


Psicometría

Capítulo 2. La Lección 6. Definición De La Psicometría


Psicometría Y Su
Método Lección 7. Vertiente Práctica De La Psicometría

Lección 8. Definiciones Y Objetivo De La


Psicometría

Lección 9. El Método De La Psicometría

Lección 10. La Teoría De Los Test

Capítulo 3. Desarrollo Lección 11. Confiabilidad (Completar)


De Las Pruebas Y
Metodología Lección 12. Validez (Completar)
Estadistica De La
Lección 13. Conceptos Estadisticos, Normas Y
Psicometría
Estandarización Parte I

Lección 14. Conceptos Estadisticos, Normas Y


Estandarización Parte Ii

Lección 15. Construcción De Pruebas


15

Unidad 2. Capítulo 4. Las Lección 16. Definición De Una Prueba


Aproximación Al Uso Pruebas Y Su Proceso
De Las Pruebas De Aplicación Lección 17. Tipos Y Usos De Las Pruebas
Psicológicas (Obtención)

Lección 18. Procesos De Aplicación


Estandarizados

Lección 19. Procesos De Aplicación Deseables

Lección 20. Influencias Del Evaluador Y Del


Evaluado

Capítulo 5. Pruebas Lección 21. Medición De La Personalidad


De Personalidad
Lección 22. Mmpi

Lección 23. 16pf

Lección 24. Test De Rorschach

Lección 25. Casa-Arbol-Persona (H-T-P)

Capítulo 6. Pruebas Lección 26. Wisc


De Inteligencia Y
Otras Pruebas De Lección 27. Barsit
Las Funciones
Lección 28. Test De Aptitudes Diferenciales (Dat)
Cognitivas
O Matrices Progresivas De Raven

Lección 29. Test Guestaltico Visomotor De


Bender (P.405)

Lección 30. Minimental


16

Descripción de las unidades didácticas

A partir de la concepción epistemológica para el autoaprendizaje de la psicometría


se ha seleccionado las palabras claves: psicometría, medición personalidad,
inteligencia, validez, confiabilidad, etc, como base para el diseño de las unidades
didácticas indispensables en el presente curso.

Unidad 1

Historia y Conceptos Básicos de la Psicometría

La unidad introduce al estudiante en el desarrollo histórico de la psicometría, sus


aproximaciones y autores más influyentes y el proceso científico por el cual la
medición adquiere importancia y reconsolida principalmente con el uso de test y de
herramientas estadísticas.

Unidad 2

Aproximación al Uso de Pruebas Estandarizadas

Presenta las características de cuatro pruebas de gran reconocimiento en la


psicología y con el acompañamiento del tutor se espera que los estudiantes logren
entrenarse en su uso e interpretación de resultados.

Contexto Teórico

La Psicometría es la ciencia de la medida de los aspectos "psicológicos" de una


persona, tales como conocimiento, habilidades, capacidades, o personalidad.

La medida de estos aspectos es difícil, y gran parte de la investigación y técnicas


acumuladas en esta disciplina están diseñadas para definirlos de manera fiable
antes de cuantificarlos. Los críticos argumentan que tales definiciones y
cuantificaciones son imposibles y que las mediciones a menudo son tergiversadas.
17

Los primeros trabajos de psicometría se desarrollaron para medir la inteligencia.


Posteriormente, la teoría psicométrica se ha aplicado a la medida de otros aspectos
como la personalidad, las actitudes, las creencias, el rendimiento académico y en
campos relacionados con la salud y la calidad de vida.

Los contenidos de la psicometría se articulan, fundamentalmente, en dos grandes


bloques: teoría de los test, que hace referencia a la construcción, validación y
aplicación de los test, y escalamiento, que incluye los métodos para la elaboración
de escalas psicofísicas y psicológicas.

A su vez, la teoría de los test se divide en dos ramas: la teoría clásica de los tests y
la más reciente teoría de respuesta a los ítems.

Los conceptos clave de la teoría clásica de los tests son: confiabilidad (fiabilidad) y
validez. "Confiabilidad" es medir algo de forma consistente; mientras que "validez"
es medir lo que realmente se pretende medir.

Ambas propiedades, confiabilidad y validez, admiten un tratamiento matemático


(estadístico).

La consistencia interna puede calcularse por correlación entre distintos tests. Los
métodos más conocidos se denominan: método de las formas paralelas, método
del test-retest y método de las dos mitades.

La validez puede calcularse correlacionando las mediciones con las de una medida
patrón aceptado como válida. Se distinguen los siguientes aspectos: validez de
contenido, validez predictiva y validez de constructo.

Metodología

Este curso se desarrollará de manera virtual, con el acompañamiento del tutor y el


trabajo orientado a través del Protocolo, la Guía de Actividades y el Protocolo. Para
18

cada Unidad Didáctica se desarrollarán actividades tanto individuales como


colaborativas que den cuenta de las competencias y metas a desarrollar. También
se generarán espacios de discusión y participación a través de foros virtuales que
serán señalados en la Guía de Actividades. Con esto no sólo se pretende un
aprendizaje memorístico de los conceptos más relevantes y característicos de la
Psicometría, sino que también se procurará la consolidación de un sentido crítico y
proponente que facilite la aplicación de estos conceptos y sus métodos de abordaje
a situaciones donde el actuar y el criterio del psicólogo sea determinante, elemento
básico de las intencionalidades formativas del curso.

Fase de reconocimiento hace referencia a la confrontación de los contenidos del


curso con los conocimientos y experiencias previas, identificando nuevos conceptos
a adquirir.

Fase de profundización se refiere al conjunto de actividades orientadas a precisar


las nociones, procedimientos y estado del arte en los campos de la medición
psicológica.

Fase de transferencia integra los aprendizajes mediante una recontextualización,


resignificación y aplicación autónoma a situaciones problémicas de naturaleza
teórica o práctica, generando competencias para el futuro desempeño
interdisciplinario y transdisciplinario en el campo profesional.

El proceso general se complementa y refuerza con procesos de autoevaluación,


coevaluación y heteroevaluación, articulados con sistemas de interactividad
pedagógica para socialización de logros del estudio independiente, en pequeños
grupos colaborativos y tutoría individual. El proceso final se refuerza con la
retroalimentación sobre los logros sustentados en los procesos evaluativos a nivel
formativo.
19

Sistema de Evaluación

La evaluación se concibe como un proceso continuo orientado a verificar las


competencias logradas en concordancia con los objetivos del curso académico de
Psicometría. El proceso de evaluación se guiará por el modelo institucional y se
ejecutará con base en los siguientes momentos: autoevaluación, coevaluación y
heteroevaluación

Autoevaluación: La realiza el estudiante al inicio y al final de cada fase de


aprendizaje con el fin de identificar las debilidades o vacíos cognoscitivos, como
sus logros o dominios en el abordaje de la medición psicológica. La autoevaluación
se entiende como una oportunidad para hacer la revisión y reflexión autocrítica de
los procesos, aprendizajes y productos que esta llevando a cabo el estudiante.
Tiene por objeto que el estudiante juzgue objetiva y constructivamente sus propios
esfuerzos, resultados y productos con base en las metas trazadas por él mismo.
Con esta se espera identificar los progresos alcanzados por el estudiante y las
necesidades, aspiraciones y metas para aprendizajes futuros.

Coevaluación: Es un proceso de trabajo colaborativo de los estudiantes en el cual


socializan el resultado de sus construcciones personales de conocimiento y reciben
la realimentación de sus compañeros, sustentan sus puntos de vista, asimilan
nuevos enfoques y ajustan sus planteamientos con el enriquecimiento conceptual
logrado en el dialogo de saberes. Los momentos de coevaluación integran la
orientación pedagógica de la guía de actividades y la autorregulación del
aprendizaje por parte del estudiante.

Heteroevaluación: Es una evaluación sumativa coordinada a nivel nacional en


cuanto a fechas y contenidos, además de la revisión y realimentación por parte del
tutor sobre las construcciones cognitivas registradas sistemáticamente en el
portafolio de desempeño personal.
20

El tutor enfoca la heteroevaluación como un análisis de logros a partir del


acompañamiento a los estudiantes en sus procesos de aprendizaje evidenciados
en resultados participativos en listas de correo, foros, mural electrónico, laboratorios
y demás eventos teóricos o prácticos con productos de conocimiento destinados a
registro en el portafolio de desempeño personal. Más el resultado del examen final.

La distribución porcentual de notas asignadas en los procesos evaluativos es la


siguiente:

Valores de notas por actividades

Resultados o productos de las actividades de


aprendizaje consignados en el PDP y PDG Evaluación final nacional
según fases de aprendizaje.

Fase de reconocimiento:
10% de la nota

Fase de profundización:
Prueba objetiva
30% de la nota

Fase de transferencia:
20% de la nota

Total: 60% de la nota definitiva Valor: 40% de la nota definitiva

Recursos Tecnológicos

Las actividades están centradas en el estudiante como autogestor de los procesos


de aprendizaje, por lo cual se establece una sinergia de medios y mediaciones. Los
recursos que el estudiante aprovechará son los siguientes:

• El computador como herramienta informática para estudio con CD ROM, con


informaciones visuales, auditivas y de texto escrito.
21

• El computador como canal electrónico hacia links hipertextuales en


ambientes virtuales de autoaprendizaje, útiles para gestión de conocimiento
actualizado.
• Sistemas y plataformas tecnológicas institucionales para videoconferencias y
audioconferencias.
• Protocolo académico, guía de actividades de aprendizaje, módulo, fuentes
hipertextuales de consulta, para estudio temático y orientación pedagógica.
• Programación de eventos de socialización y trabajo colaborativo y sesiones
de asesoría.
• Eventos de prácticas de laboratorio de carácter obligatorio en el curso.
• Interacciones programadas en aula virtual.

Una presentación sistematizada de estos recursos interactivos se puede visualizar


en la gráfica ―Recursos‖:
22

Fuentes Documentales

Además de los recursos didácticos como material impreso y ayudas audiovisuales


incluidas como parte de las unidades didácticas de este curso, se señala en cada
una de ellas una serie de fuentes documentales hipertextuales que permiten
profundizar con suficiencia y calidad las construcciones conceptuales definidas en
los objetivos y metas de aprendizaje.
23

GLOSARIO DE TÉRMINOS

Psicometría: Área de la psicología científica que se encarga de la medida de los


aspectos "psicológicos" de una persona, tales como conocimiento, habilidades,
capacidades, o personalidad.

La medida de estos aspectos es difícil, y gran parte de la investigación y técnicas


acumuladas en esta disciplina están diseñadas para definirlos de manera fiable
antes de cuantificarlos. Los críticos argumentan que tales definiciones y
cuantificaciones son imposibles y que las mediciones a menudo son tergiversadas.

Inteligencia: Es la capacidad evolutiva por la cual el individuo es capaz de tomar


decisiones dependiendo de su entorno, y mejorar sus condiciones de
supervivencia, como individuo, como grupo o como especie.

Esta definición se basa en que no vivimos para pensar, sino que pensamos para
vivir. Evolutivamente hablando, los seres más simples reaccionan ante el medio por
programación genética, miedos y afinidades instintivas. Un pequeño cambio en
estos instintos supone muchas generaciones. Para que la adaptación al medio sea
más rápida son los propios individuos los que han de reprogramar sus
comportamientos, aprendiendo del medio y reaccionando en consecuencia, esto
es, con inteligencia.

Habilidad: Grado de competencia de un sujeto concreto frente a un objetivo


determinado. Es decir, en el momento en el que se ha alcanzado el objetivo
propuesto en la habilidad, se considera que ésta se ha logrado a pesar de que este
objetivo se haya conseguido de una forma poco depurada y económica. Se
considera a la habilidad como a una aptitud innata o desarrollada o varias de estas,
y al grado de mejora que se consiga a estas mediante la práctica, se le denomina
talento.
24

Personalidad: Conjunto dinámico de características emocionales, de pensamiento


y de conducta que son únicas a cada persona. Hay diversas aproximaciones
teóricas a la personalidad en psicología, cada una proponiendo una relación distinta
entre la personalidad y otros constructos psicológicos, sobre cómo se desarrolla la
personalidad o cómo ésta interactúa con los sucesos. Se puede definir como la
suma total de las formas en que un individuo reacciona y se relaciona con los
demás; son los rasgos mensurables que exhibe una persona.

16PF: ―Sixteen Personality Factors" de Raymond Catell. El 16PF es una prueba


estructurada comúnmente utilizada y favorecida, por diversos investigadores
alrededor del mundo, como instrumento para la medida y comprensión de la
personalidad. Es el resultado de más de cuarenta años de investigación empírica
por el psicólogo Raymond B. Cattell, quien redujo 4504 rasgos de personalidad a
16 rasgos básicos, mediante análisis factorial. La prueba se basa en la medida
independiente de varios factores psicológicos. Ha sido debidamente validada y
revisada, y al presente existen varias formas (A, B, C, D & E) que facilitan la
aplicabilidad de la prueba a los diferentes intereses específicos de investigación.

MMPI: Inventario Multifasico de Personalidad de Minnesota (S.R. Hathaway y J.C.


Mckiney, USA.) Cuestionario de Personalidad encaminado a la búsqueda de
trastornos psicológicos, formado por 566 ítems a los que hay que responder V o F.
Tiene tres grupos de escalas y mide 19 variables. Tiene en cuenta la validez interna
de las respuestas del sujeto.

WISC R: Escala de Inteligencia (Revisada) de David Wechsler para Niños.

Test de Rorscharch: Test de personalidad Proyectivo (H. Rorscharch). Evalúa


aspectos profundos de la personalidad. Contiene diez láminas con manchas de
tinta inestructuradas susceptibles de diversas interpretaciones. Su aplicación
requiere conocimientos psicológicos amplios y una amplia experiencia.
25

Test Psicológico: Una situación experimental estandarizada que sirve de estímulo


a un comportamiento. Tal comportamiento se evalúa por una comparación
estadística, respecto a otros individuos colocados en la misma situación, lo que
permite clasificar al sujeto examinado, ya sea cuantitativamente, ya sea
tipológicamente (Pierre Pichot, "Los test mentales", Editorial Paidós. Buenos Aires.
1960

Teoría de los tests: Los contenidos de la psicometría se articulan,


fundamentalmente, en dos grandes bloques: teoría de los test, que hace referencia
a la construcción, validación y aplicación de los test, y escalamiento, que incluye los
métodos para la elaboración de escalas psicofísicas y psicológicas. La teoría de los
test se divide en dos ramas: la teoría clásica de los tests y la más reciente teoría de
respuesta a los ítems. Los conceptos clave de la teoría clásica de los tests son:
fiabilidad y validez. "Fiabilidad" es medir algo de forma consistente; mientras que
"validez" es medir lo que realmente se pretende medir. Ambas propiedades,
fiabilidad y validez, admiten un tratamiento matemático.
26

GUÍA DIDÁCTICA

Presentación
La guía de actividades del curso de Psicometría explicita la configuración de las
situaciones didácticas, mediante la planificación de actividades que permitan el
logro de metas de aprendizaje en las diversas fases del aprendizaje, con un sentido
crítico del cambio entre situaciones de entrada y de salida.

FASES DEL APRENDIZAJE

Fase de Reconocimiento

Corresponde a la interacción entre los conocimientos previos y las nuevas


conceptualizaciones del curso.

Las actividades se enmarcan en situaciones didácticas que para la fase de


reconocimiento, por unidad, pueden corresponder a las siguientes posibilidades de
situaciones didácticas:

Actividad de inducción al curso, con acompañamiento tutorial en grupo. Medio para


la interactividad: Videoconferencia

Estudio independiente, individual o en pequeño grupo: identifica conceptos


conocidos y conceptos nuevos que necesitan posterior profundización.

Tutoría sincrónica o asincrónica en grupo de curso sobre cada unidad temática.


Medio para la interactividad: lista de distribución en aula virtual o mural.

Tutoría sincrónica o asincrónica individual: asesoría para aclarar dudas en el


proceso de aprendizaje con el fin de seleccionar líneas apropiadas de identificación
de conceptos para trabajar en su reconceptualización.

Tutoría a pequeños grupos colaborativos para mejorar la estrategia de estudio.


27

Autoevaluación y coevaluación formativa.

Elaboración de portafolio.

Fase de Profundización

Corresponde al desarrollo de actividades de aprendizaje que permiten analizar,


reconceptualizar y resignificar los conceptos encontrados en la fase de
reconocimiento.

Fase de Transferencia

Se orienta a aplicar el conocimiento a situaciones problémicas, toma de decisiones


e interacciones con otros campos disciplinares.

Según cada caso particular de las temáticas de las unidades, en estas fases
pueden aparecer todas o sólo algunas de las situaciones didácticas referenciadas
en la fase de reconocimiento

TÉCNICAS E INSTRUMENTOS PARA LA OBJETIVACIÓN DEL APRENDIZAJE

En situaciones didácticas grupales

El estudiante y el tutor (cuando participa sincrónicamente en apoyo pedagógico de


la actividad), cumplirán el encuentro en fechas especificadas en la programación
académica semestral previamente comunicada y socializada en la agenda de aula
virtual, y aplicarán como instrumento un formato que registre la actividad colectiva,
en el marco de objetivos explícitos y de resultados participativamente calificados.
La técnica de apoyo pedagógico puede consistir, a nivel nacional, en
videoconferencia, combinación de mural digital (previamente diseñado y
enriquecido participativamente) con foro virtual dentro de días específicamente
asignados.
28

El instrumento incorporará en las conclusiones del encuentro, apreciaciones sobre:


logros, funcionalidad de la técnica grupal desarrollada, sugerencias de
mejoramiento. En otros casos, se diligenciarán informes grupales a partir de guías
de prácticas o laboratorios, formatos grupales sobre solución de situaciones
problémicas asignadas para trabajo colaborativo dentro de cada unidad temática o
como resultado de la participación en procesos de investigación formativa, formatos
de coevaluación para el caso de trabajo grupal colaborativo, etc.

En caso de estudio independiente individual

El estudiante aplicará como instrumento, formatos de informe para registro de sus


logros en la construcción de conocimiento, los cuales tendrán una inserción
oportuna en el portafolio del curso.

Los protocolos específicos pueden ser: formularios diligenciados, mapas


conceptuales complementados o modificados, guías diligenciadas, ensayos
elaborados como soporte de la reflexión y resignificación conceptual, etc.

Este tipo de protocolos incluirán informes autoevaluativos, donde el estudiante


explicitará su nivel de desempeño previo o situación cognitiva de entrada y el nivel
de logro alcanzado, conjuntamente con una prospectiva de profundización o
actualización del conocimiento.

PORTAFOLIO DE DESEMPEÑO PERSONAL (PDP) Y GRUPAL (PDG)

La evidencia del trabajo académico del estudiante es el portafolio de desempeño


personal, en el cual deben recopilarse de manera organizada los logros de
aprendizaje y sus soportes o productos intelectuales.

Los contenidos mínimos que deben aparecer en el PDP y PDG son los siguientes:
• Formatos de encuentro grupal: objetivos, logros, funcionalidad de las técnicas
aplicadas, conclusiones y sugerencias de mejoramiento.
29

• Informes de construcción y recontextualización cognitiva independiente:


conceptualizaciones, mapas conceptuales o ideogramas similares, ensayos
disciplinares, resúmenes de lecturas, etc.
• Informes de estudio colaborativo: socialización y foro grupal crítico sobre
formulación de situación problémica, diseños metodológicos, resultados o
logros, crítica o coevaluación de procesos y logros, informes de prácticas o
laboratorios, etc.
• Otros: documentales didácticos, videos, audio, publicaciones u otros soportes,
socializadas y conducentes a valoración heteroevaluativa en el centro regional.

DESCRIPCIÓN DE ACTIVIDADES

Las actividades de reconocimiento se manejan simultáneamente para las unidades


del curso, mediante una lectura de identificación de los contenidos,
correlacionándolos con los conocimientos y experiencias previas de los estudiantes
y las nociones nuevas que debe profundizar posteriormente.

En las actividades de profundización, el estudiante hace énfasis en interiorizar los


aspectos de conocimiento en que se encontró deficitario durante la fase de
reconocimiento. Para orientarlo en esta fase el tutor debe prescribir actividades
específicas destinadas a optimizar el proceso con relación a las metas de
aprendizaje.
30

UNIDAD I. HISTORIA Y CONCEPTOS BÁSICOS DE LA PSICOMETRÍA

Capítulo 1. Historia de la Psicometría

La revisión de los antecedentes históricos y de la evolución de la medición en


psicología, ofrece una perspectiva útil para comprender la Psicometría actual. Para
algunos autores, la historia de los tests mentales es tal vez uno de los mejores
ejemplos de la existencia de una interacción entre las demandas sociales y la
evolución de una disciplina científica. La historia de la medición psicológica ha
estado marcada por la interrelación entre la evolución interna de la Psicometría y de
la Psicología con el deseo de responder a las demandas sociales de cada
momento histórico, reflejando un mayor acento en las aplicaciones prácticas que en
el desarrollo teórico.

Este apartado pretende esbozar el entorno intelectual y social en el que nace la


Psicología moderna y con ella la Psicometría. A continuación, sólo se aborda una
de las dos líneas de trabajo que más trascendencia han tenido para la evolución de
la Psicometría: el estudio de las diferencias individuales; para la otra línea: la
Psicofísica, se puede recurrir a la bibliografía complementaria del tema. Por último,
se señalan los acontecimientos que han marcado la consolidación de la disciplina.

Lección 1. Antecedentes y formas rudimentarias de las pruebas psicológicas

Conocer la historia de las pruebas psicológicas es de gran importancia, los mayores


avances se comenzaron a dar durante la última parte del siglo XIX y la época
anterior a la primera guerra mundial, pero el uso extendido de las pruebas es un
fenómeno del siglo XX.
Sin embargo existen datos históricos que muestran que las formas rudimentarias de
las pruebas psicológicas datan aproximadamente del año 2200 a. C., en China
cuando el emperador hizo que se examinaran a sus oficiales de gobierno cada
tercer año para determinar su idoneidad para el cargo y por siglos se continuaron
haciendo estas pruebas modificándose y perfeccionándose hasta introducirse
31

exámenes por escrito durante la dinastía Han (200 d. C.). Ninguno de estos
procedimientos de selección fue validado.
El comienzo de las pruebas psicológicas como tal se ha ubicado en la investigación
experimental sobre las diferencias individuales que inició en Alemania y Gran
Bretaña terminado el siglo XIX siendo sus primeros representantes Wilhelm Wundt,
Francis Gallón y James McKeen Cattell. Pero las pruebas psicológicas le deben su
comienzo tanto a la primera psiquiatría como a los laboratorios de psicología
experimental. De hecho, el examen de los enfermos mentales aproximadamente a
mediados del siglo XIX resultó en e! desarrollo de muchas de las primeras pruebas
(Bondy, 1974), las cuales mostraban la ausencia de estandarización y, en
consecuencia, se relegaron al olvido. Sin embargo, influyeron en la determinación
del curso de las pruebas psicológicas, de modo que es importante mencionar
algunos avances psiquiátricos de esta época.
En 1885, el médico alemán Hubert von Grashey desarrolló el antecedente del
cilindro mnemónico como un medio para examinar a pacientes con lesión cerebral.
Se les mostraban a los sujetos palabras, símbolos o ilustraciones a través de una
ranura en una hoja de papel que se movía lentamente sobre los estímulos, muchos
pacientes podían reconocer los estímulos completos, pero no identificarlos cuando
se mostraban a través de la ranura en movimiento. Poco después, e! psiquiatra
alemán Conrad Rieger desarrolló una batería de pruebas excesivamente ambiciosa
para la detección del daño cerebral, la cual requería más de 100 horas para su apli-
cación, por lo que pronto cayó su aceptación. En resumen, la psiquiatría inicial
contribuyó al movimiento de las pruebas mentales al mostrar que los procedimientos
estandarizados pueden ayudar a revelar la naturaleza y grado de los síntomas en
pacientes con enfermedades mentales y con lesión cerebral.

Lección 2.Era de los instrumentos de bronce


La psicología experimental floreció a finales del siglo XIX en la Europa continental y
Gran Bretaña. Por primera vez en la historia, los psicólogos se alejaron de los
métodos totalmente subjetivos e introspectivos que se habían seguido de manera
32

tan infructuosa en siglos anteriores. En lugar de ello, las capacidades humanas se


sometieron a prueba en laboratorios. Los investigadores utilizaron procedimientos
objetivos que tenían posibilidad de replicarse. Lejos quedaron los días en que
laboratorios rivales tenían grandes discusiones acerca del "pensamiento sin
imágenes", donde un grupo afirmaba que existía, mientras otro decía que tal
acontecimiento mental era imposible.
Aunque el nuevo énfasis en los métodos objetivos y las cantidades medibles era
una gran mejoría sobre el mentalismo generalmente estéril que le precedió, la
nueva psicología experimental era, en sí misma, un callejón sin salida, al menos en
cuanto a pruebas psicológicas se refiere. El problema estaba en que los primeros
psicólogos experimentales confundieron los simples procesos sensoriales con la
inteligencia. Utilizaron diversos instrumentos de bronce para medir umbrales
sensoriales y tiempos de reacción, pensando que dichas capacidades eran
esenciales para la inteligencia. De aquí que en ocasiones se llame a este periodo la
era de los Instrumentos de Bronce de las pruebas psicológicas.
A pesar del falso comienzo de los primeros experimentalistas, al menos
proporcionaron una metodología apropiada a la psicología. Pioneros como Wundt,
Galton, Cattell y Wissler mostraron que era posible exponer a la mente al escrutinio
y la medición científicos.Éste fue un cambio decisivo en las suposiciones axiomá-
ticas de la psicología, un cambio que ha permanecido hasta la actualidad.
La mayor parte de las fuentes le atribuyen a Wilhelm Wundt (1832-1920) la
fundación del primer laboratorio psicológico en 1879 en Leipzig, Alemania. Es
menos sabido que este investigador llevaba años midiendo procesos mentales, al
menos desde 1862, cuando experimentó con su medidor del pensamiento
(Diamond, 1980). Este instrumento era un péndulo calibrado con agujas que
sobresalían a cada lado. El péndulo oscilaba de un lado a otro, golpeando
campanas con las agujas. La tarea del observador consistía en tomar nota de la
posición del péndulo cuando las campanas sonaban. Por supuesto, Wundt podía
ajustar de antemano las agujas y, por tanto, conocer la posición precisa del péndulo
cuando tocaba cada campana. Wundt consideraba que la diferencia entre la
posición observada del péndulo y la posición real podía proporcionar un medio para
33

determinar la velocidad de pensamiento del observador


Este análisis de los informes de tiempos en telescopio parece simplista según
normas actuales, y pasa por alto la posible contribución de factores como la
atención, motivación y retroa-limentación autocorrectora de los ensayos anteriores.
En su lado positivo, éste fue al menos un análisis empírico que buscaba explicar las
diferencias individuales, en vez de tratar de deshacerse de ellas por medio de
explicaciones. Y ésa es la relevancia para las prácticas actuales en cuanto a
pruebas psicológicas. A pesar de lo rudimentario, Wundt midió los procesos men-
tales y reconoció a regañadientes las diferencias individuales.
- Primera batería de pruebas
Sir Francis Galton (1822-1911) fue el pionero de la nueva psicología experimental
en la Gran Bretaña del siglo XIX. Estaba obsesionado con la medición y su carrera
intelectual parece haberse visto dominada por la creencia de que podía medirse
casi cualquier cosa. Sus intentos por medir el intelecto a través del tiempo de
reacción y de tareas de discriminación sensorial son muy conocidos. Sin embargo,
para apreciar sus amplios intereses, el lector debería estar enterado de que Galton
también diseñó técnicas para medir la belleza, la personalidad, el nivel de
aburrimiento de una lectura y la eficacia de la oración, por nombrar sólo unas
cuantas.
Pero finalmente Galton demostró una y otra vez que las diferencias individuales no
sólo existen, sino que se pueden medir de manera objetiva, el tomó prestados los
lentos procedimientos psicofisicos practicados por Wundt y otros investigadores en
el continente europeo, y los adaptó a una serie de medidas sensorio-motoras
simples y rápidas. Así, continuó con la tradición de los instrumentos de bronce en
las pruebas mentales, pero con una importante diferencia: sus procedimientos
fueron más adecuados para la oportuna recolección de datos de cientos, si no es
que miles, de sujetos. Debido a sus esfuerzos para diseñar medidas viables de las
diferencias individuales, en general, los historiadores de las pruebas psicológicas
consideran a Galton como el padre de las pruebas mentales.
En última instancia, los intentos simplistas de Galton por estimar el intelecto con
medidas de tiempo de reacción y discriminación sensorial resultaron infructuosos.
34

Sin embargo, proporcionó un enorme ímpetu al movimiento de evaluación al


demostrar que podían diseñarse pruebas objetivas y obtenerse puntuaciones sig-
nificativas a través de procedimientos estandarizados
- Pruebas de bronce en EUA
James McKeen Cattell (1860-1944) estudió la nueva psicología experimental tanto
con Wundt como con Galton, antes de establecerse en la Columbia University.
Después de tener correspondencia con Galton durante algunos años, Cattell obtuvo
una beca de dos años en Cambridge, de modo que pudiera continuar con el estudio
de las diferencias individuales. Cattell abrió su propio laboratorio de investigación y
desarrolló una serie de pruebas que eran principalmente extensiones y adiciones a
la batería de Galton.
Cattell (1890) inventó el término prueba mental en su famoso artículo intitulado
"Mental Tests and Measurements ". Este artículo describía su programa de
investigación, detallando 10 pruebas mentales que él proponía para su utilización
con el público en general. Estas pruebas eran con toda claridad «elaboraciones per-
feccionadas de la tradición de Galton.
En 1891, Cattell aceptó un puesto en la Columbia University, que en aquel entonces
era la universidad más grande de EUA. Su posterior influencia sobre la psicología
estadounidense superó en mucho a sus resultados científicos individuales y se
expresó en gran parte a través de sus numerosos e influyentes alumnos (Boring,
1950). Entre sus muchos y famosos estudiantes de doctorado y los años en que
obtuvieron sus títulos se encuentran E. L. Thorndike( 1898), quien realizó
contribuciones monumentales a la teoría del aprendizaje y a la psicología educativa;
R. S. Woodworth (1899), quien fue el autor del muy popular e influyente
Experimental Psychology (1938); y E. K. Strong (1911), cuyo Vocational Interest
Blank —revisado desde entonces— todavía tiene amplio uso. Peio entre los
alumnos de Cattell, probablemente fue Clark Wissler (1901) quien tuvo la mayor
influencia en la historia inicial de las pruebas psicológicas.
Wissler quiso relacionar los resultados de las pruebas mentales elaboradas con el
desempeño académico de 300 estudiantes universitarios esperando que la prueba
mental fuera un predictor del desempeño académico, pero los resultados de Wissler
35

(1901) mostraron que virtualmente no había una tendencia a que las puntuaciones
de una prueba mental se correlacionaran con el rendimiento académico. Por
ejemplo, la posición dentro de la clase se correlacionó en .16 con la memoria de
listas de números, -.08 con la fortaleza en el dinamómetro, .02 con c! nombrado du
colores y -.02 con el tiempo de reacción. La correlación más alta (.16) fue
estadísticamente significativa debido al gran tamaño de la muestra. Sin embargo,
una correlación tan pequeña lleva consigo muy poca utilidad predictiva.
Este tipo de resultados provocaron en los experimentalistas un alejamiento del enfo-
que de los instrumentos de bronce lo cual fue una evolución deseable en la historia
de las pruebas psicológicas y con ello se facilitó el camino para la aceptación
inmediata de las medidas más sensatas y útiles como las de Binet para los
procesos mentales superiores.

Lección 3. Estudio de las diferencias individuales e importancia de las pruebas

Debemos advertir de una doble simplificación. Primera, dejar a un lado, por razones
de tiempo, la Psicofísica que impide lograr una visión comprehensiva de la historia
de la medición en Psicología; segunda, reducir la historia del estudio de las
diferencias individuales a la historia de los tests psicológicos y presentarla
recurriendo a las aportaciones de algunas figuras clave. La última es reduccionista
pero difícil de evitar: gran parte de la Psicometría actual no se puede comprender
36

sin atender a los antecedentes y orígenes históricos de los tests psicológicos y de


la medida de la inteligencia.

El rápido progreso económico y social en la Europa de finales del siglo XIX planteó
la necesidad de evaluar las capacidades y conocimientos de los individuos en
contextos educativos, laborales, etc. Si la Filosofía y la Fisiología fueron las
disciplinas que más influyeron en el trabajo de los primeros psicofísicos, el impacto
más dramático sobre el estudio de las diferencias individuales vino de la Biología.
Al tiempo que Fechnner presentaba sus trabajos, Darwin (1809-1882) presentó su
teoría en La Evolución de las Especies (1859) y su aplicación al estudio del hombre
en El origen del hombre y la selección en relación al sexo (1871). Darwin defendió
que la inteligencia y el sentido moral también se habían ido perfeccionando de
manera gradual a través de la selección natural. Al defender esta idea Darwin no
hacía sino reflejar la visión científica y la opinión popular dominante en la Inglaterra
del siglo XIX, que justificaba el colonialismo y el sistema de clases bajo la creencia
de que el hombre de letras inglés de clase media era el pico de la evolución
humana (Rust y Golombok, 1989).

No es exagerado afirmar que las necesidades de la evaluación educativa fueron las


primeras demandas sociales con un impacto significativo y duradero en la evolución
del estudio de las diferencias individuales y, por ende, de la Psicometría. Los
intentos por medir la inteligencia como respuesta a esas demandas caminan de la
mano de los desarrollos metodológicos durante este periodo.

Thorndike (1997) señala el movimiento hacia la educación obligatoria en Francia,


Inglaterra y Estados Unidos a finales del siglo XIX, como uno de los desarrollos
críticos que propiciaron la medida de la inteligencia. La llegada por primera vez a
las escuelas de niños cuyos padres no habían recibido una educación o, como en
el caso americano, cuya lengua materna no era el inglés, generó una
heterogeneidad en la población de alumnos como antes no se había conocido. La
exposición de estos niños a un currículo antiguo, diseñado para un grupo selecto
37

de estudiantes, trajo como resultado niveles dramáticos de fracaso escolar


próximos al 50%. Este fracaso fue visto como una pérdida de recursos en un
tiempo en que eran limitados, de forma que se planteó la necesidad de destinar los
recursos a quienes más se pudieran beneficiar, el medio: la evaluación de la
inteligencia. Este es el contexto en el que se debe situar la obra de Binet.

Los pioneros de la Psicología llevaban años intentando una formulación aceptable


de la inteligencia. Según Rust y Golombok (1989) los primeros autores tenían unas
definiciones de la inteligencia que no iban más allá de lo que podría ser la
psicología popular del maestro común de escuela. Se reconocía la diferencia entre
una persona educada y una persona inteligente, entendiendo esta última como una
persona "educable", con un origen esencialmente genético y receptora ideal de los
recursos educativos, frente a los "torpes" incapaces de beneficiarse de la educación
normal.

Entre los pioneros en el estudio de las diferencias individuales destaca el


considerado por muchos autores, como el fundador de la Psicometría: Francis
Galton. Primo de Darwin, inició sus investigaciones llevado por el objetivo de
mostrar el componente hereditario del "genio". Para ello reunió el primer banco con
los datos de personas relacionadas y no relacionadas. Influido por el
asociacionismo de Locke y llevado por sus observaciones de que las personas con
deficiencias mentales presentaban una peor ejecución a la hora de discriminar
sensaciones de frío, calor, dolor, etc., pensó que la discriminación sensorial podía
ser el medio para cuantificar el intelecto de una persona. Sus aportaciones
propiamente metodológicas abarcan la formulación de las bases de procedimientos
estadísticos, como el ―coeficiente de correlación‖ desarrollado por K. Pearson
(1857-1936), las intuiciones sobre la forma de "campana", como imagen para
describir la distribución de puntuaciones en un test, así como las primeras
38

aplicaciones de las escalas de "rating" y los métodos de cuestionario (Anastasi y


Urbina, 1997).

J. M. Catell (1860-1944) trabajo con Wundt, con quién compartió el interés por los
fenómenos perceptivos y sensomotores, y el rigor en el control de las condiciones
en que se realizaban las observaciones, pero de quién se distanció ante el
despreció del experimentalista alemán por las diferencias individuales. Más tarde
trabajo con Galton e inició en Estados Unidos el estudio de las diferencias
individuales. Acuñó el término "test mental" en un artículo publicado en 1890 en la
revista Mind bajo el título ―Mental test and measurements‖. Asumió la idea de
Galton sobre la posibilidad de medir las funciones intelectuales por medio de tests
de discriminación sensorial y tiempo de reacción. Sin embargo, los primeros
estudios que se realizaron para evaluar este tipo de tests ofrecieron resultados
desalentadores: el "rendimiento intelectual" mostraba poca correspondencia de
unos tests a otros y prácticamente ninguna relación con estimaciones
independientes del nivel intelectual realizadas por los profesores. Por el contrario,
Ebbinghaus, apuntando ya un cambio de enfoque, había obtenido con un test de
terminación de frases una correspondencia clara con el rendimiento académico de
los niños.

Pero sin duda, la consolidación social de la medición psicológica vino de la obra del
francés Alfred Binet (1857-1911) cuya influencia en el desarrollo de la teoría de los
tests perdura en la actualidad. Binet a finales de los años noventa del siglo XIX
criticó la aproximación de Galton y Cattell con el argumento de que para medir
procesos mentales complejos era necesario observar la ejecución de los individuos
en actos mentales complejos, rechazando la idea de que fuese necesaria una
mayor precisión para la que no había instrumentos disponibles, ya que las
diferencias individuales eran mayores respecto a los procesos superiores que en
cuanto a la discriminación sensorial.
39

Tras las aportaciones de Binet, los mayores desarrollos en la medición de las


diferencias individuales hay que buscarlos en un área y lugar diferente. El test de
Binet fue introducido en Estados Unidos por H. H. Goddard, cuya traducción y
adaptación recibieron el beneplácito de la audiencia médica, al venir a cubrir la
necesidad de una medida estandarizada y objetiva para el diagnóstico de la
subnormalidad. Sin embargo, fue rápidamente desplazada por la revisión y
adaptación psicométricamente más sólida, realizada por L. M. Terman en 1916 en
la Universidad de Stanford. Al entrar Estados Unidos en la Primera Guerra Mundial,
un comité encabezado por R. M. Yerkes detecta la necesidad de clasificar de forma
rápida al millón y medio de reclutas con respecto a su nivel intelectual. De nuevo,
una demanda social provoca un avance metodológico: los primeros tests de
inteligencia de administración grupal y no verbales, para evaluar a los reclutas
analfabetos o que no tenían como lengua materna el inglés. En este contexto hay
que situar las contribuciones de A. S. Otis, por la introducción del formato de
elección múltiple y otros formatos de puntuación objetiva. Impulsado por las
necesidades militares aparece también el primer test estandarizado para la
evaluación de variables de personalidad: el ―Personal Data Sheet‖ de R. S.
Woodworth, un instrumento pensado para la detección de personas con
inestabilidad emocional.

- Importancia de las pruebas


Las pruebas se utilizan en casi todos los países con propósitos de orientación
psicológica, selección y asignación, los contextos de aplicación son diversos como
por ejemplo en colegios, universidades, servicio público, centros de orientación
psicológica, industrias, clínicas y hospitales.
Prácticamente desde que se ingresa al sistema escolar, se comienzan a tomar
pruebas. La mayoría de las personas han tomado un gran número de pruebas y no
les han dado mayor importancia. Pero es posible observar que para la edad de
pensionarse, el destino una persona sin saberlo ha sido moldeado por las pruebas
que ha presentado a lo largo de su vida.
40

Los resultados de las pruebas psicológicas pueden alterar profundamente el futuro


de una persona. Así, el haber sido admitido en una universidad y no en otra, ser
aceptado en un empleo y rechazado en otro, ser diagnosticado con depresión o un
trastorno de personalidad, que no se encuentre ningún trastorno, todas estas
decisiones dependen del criterio o interpretación de individuos expertos con poder
de decisión.

Lección 4. Influencia de las primeras investigaciones sobre inteligencia

En 1896, Binet y su ayudante en la Sorbona, Victor Henri, publicaron una revisión


fundamental de los trabajos alemanes y estadounidenses sobre diferencias
individuales. En este artículo, que posee gran importancia histórica, discutieron que
la inteligencia podía medirse mejor a través de los procesos psicológicos superiores
que con procesos sensoriales elementales, como el tiempo de reacción, después de
varios inicios en falso, Binet y Simón llegaron en un momento dado al sencillo
formato de sus escalas de 1905, que se analizan más adelante.'* El carácter de la
escala de 1905 le debe mucho a una prueba anterior elaborada por el Dr. Blin
(1902) y a su alumno M. Damaye. Estos investigadores habían intentado mejorar el
diagnóstico del retraso mental a través del uso de una batería de evaluación en 20
áreas como lenguaje hablado, conocimiento de las partes del cuerpo, obediencia a
órdenes simples; nombrado de objetos comunes y capacidad para leer, escribir y
hacer cálculos aritméticos sencillos. Binet criticó la escala por considerarla
demasiado subjetiva, por tener reactivos que reflejaban la educación formal y por
utilizar un formato de sí o no en muchas preguntas (DuBois, 1970). Pero se mostró
sumamente impresionado por la idea de utilizar una batería de pruebas, una
característica que adoptó en sus escalas de 1905
En 1904, el ministro de Educación Pública en París (Minister of Public Instructiva)
41

estableció una comisión para decidir sobre las medidas educativas que deberían
emprenderse con aquellos niños que no podían beneficiarse de la educación
regularla comisión concluyó que deberían utilizarse exámenes médicos y educativos
para identificar a aquellos niños que no podían aprender a ti uves de métodos
regulares. Lo que es más, se determinó que se debería retirar a estos niños de las
clases regulares y darles instrucción especial, adecuada a su habilidad intelectual
más limitada. Este fue el principio de las clases de educación especial.
Era evidente la necesidad de un medio para seleccionar los niños para tal
asignación especial y se le solicitó a Binet y a su colaborador Simón que
desarrollaran una herramienta práctica dirigida únicamente u dicho propósito. Así
surgió la primera escala formal para evaluar la inteligencia de los niños.
Existen cuatro maneras en que la escala de 1905 difería con respecto a aquéllas
construidas antes:
1. No afirmaba medir precisamente ninguna facultad en particular. Más bien, se
dirigía a evaluar el desarrollo mental general del niño con un grupo heterogéneo de
tareas. Así, la meta no era la medición, sino la clasificación.
2. Era una prueba breve y práctica. Tomaba menos de una hora para su aplicación y
requería pocos elementos en cuanto a equipo.
3. Medía de manera directa lo que Binet y Simón consideraban como el factor
esencial de la inteligencia —el juicio práctico— en lugar de perder el tiempo con
capacidades de menor nivel que implicaran elementos sensoriales, motores o
perceptuales. Así, miran una perspectiva práctica de la inteligencia.
4. Los reactivos estaban distribuidos según su nivel aproximado de dificultad, en vez
de en función del contenido. Se realizó una estandarización preliminar con 50 niños
normales cuyas edades iban de 3 a 11 años y también con varios niños
subnormales y con retraso.
Las 30 pruebas en la escala de 1905 iban de las pruebas sensoriales abiertamente
simples, a las abstracciones verbales bastante complejas., Así, la escala era
apropiada para evaluar la gama completa de la inteligencia — desde el retraso
mental grave hasta los niveles superiores de la inteligencia dotada.
Un punto interesante que con frecuencia pasan por alto los alumnos de psicología
42

en la actualidad, es que Binet y Simón no ofrecieron en su escala de 1905 un


método preciso para llegar a una puntuación total. Sería bueno recordar que su
propósito era la clasificación, no la medición, y que su motivación era comple-
tamente humanitaria, es decir, la de identificar a aquellos niños que necesitaban
asignarse a educación especial. Según normas contemporáneas, es difícil aceptar
la confusión inherente a dicho enfoque, pero ello puede reflejar una inclinación
moderna hacia la cuantificación más que una debilidad por parte de la escala de
1905. De hecho, su escala fue popular entre los educadores en París. Incluso en
ausencia de una cuantificación precisa, el enfoque fue exitoso en la selección de
candidatos para clases especiales.
En 1908, Binet y Simón publicaron una revisión de la escala de 1905. En la escala
anterior, más de la mitad de los reactivos habían sido diseñados para los individuos
con retraso muy notable; sin embargo, las principales decisiones diagnósticas
implicaban a niños mayores y a personas con un intelecto limítrofe. Para remediar
este desequilibrio, se abandonó la mayor parte de los reactivos muy simples y se
añadieron nuevos al extremo superior de la escala.
La principal innovación de la escala de 1908 era la introducción del concepto de
nivel mental. Las pruebas se habían estandarizado con cérea de 300 niños
normales entre 3 y 13 años de edad. Esto permitió que Binet y Simón ordenaran las
pruebas según el nivel de edad en el que por lo común se aprobaban. Cualesquiera
reactivos que aprobaran de 80 a 90% de los niños de tres años, se asignaba al nivel
de 3 años hasta los 13.
En 1911 apareció una tercera revisión de las escalas Binet-Sirnon. Ahora, cada
nivel de edad tenía exactamente cinco pruebas. La escala también se extendió
hasta el rango adulto. Binet introdujo nuevos métodos de calificación que concedían
una quinta parte de un año por cada subprueba aprobada por encima del nivel
basal. En sus escritos, Binet enfatizó en gran medida que no debería tomarse
demasiado en serio el nivel mental exacto del niño como una medida absoluta de la
inteligencia.

Sin embargo, la idea de obtener un nivel mental fue un desarrollo monumental que
43

habría de influir el carácter de las pruebas de inteligencia a lo largo del siglo XX.
Después de unos cuantos meses, lo que Binet llamó nivel mental se traducía como
edad mental. Y los examinadores en todas partes, incluyendo Binet mismo,
comparaban la edad mental de un niño con su edad cronológica. Así, un niño de
nueve años que funcionaba al nivel el mental (o edad mental) de un niño de seis
años, tenía un retraso de tres años.

En 1916, Terman y sus colaboradores en Stanford revisaron las escalas Binet-


Simon y produjeron la Stanford-Binet, una exitosa prueba. Terman sugirió multiplicar
el Cociente de Inteligencia por 100 para eliminar las fracciones; también fue la
primera persona en utilizar la abreviatura CI. Así nació uno de los conceptos más
populares y polémicos de la historia de la psicología. Binet murió en 1911, antes de
que el CI se generalizara en las pruebas estadounidenses.
44

Lección 5. Consolidación institucional de la Psicometría

De forma paralela a los avances teóricos y las aplicaciones prácticas, se fue


produciendo la consolidación institucional de la Psicología y, claro está, de la propia
Psicometría. Esta consolidación se refleja en la creación de asociaciones
profesionales, de publicaciones especializadas para la comunicación entre
profesionales y de empresas privadas dedicadas desde el inicio al floreciente
negocio de la evaluación psicológica.

J. Jastrow habla sobre los tests en la primera convención de la American


Psychological Association (APA) en 1892. La APA formó en 1895 un comité
especializado en la nueva tecnología de los tests. En 1899 Kilpatrick, presidente de
la APA, realizó un llamamiento a los psicólogos para que elaborarán tests de tal
naturaleza que "... pudieran ser aplicados tanto a niños como adultos, que fueran
de tal forma que todas las personas tuvieran las mismas oportunidades de mostrar
las capacidades examinadas, y que en aras de la economía del tiempo fueran
diseñados de forma que se pudieran administrar a una clase o escuela de una vez"
(Thorndike, 1997, pág. 6). Impulsado por la figura clave de Terman el uso de los
tests de inteligencia en las escuelas creció rápidamente. El propio Terman calculó
que en el periodo entre 1920 y 1921 más de dos millones de niños habían
respondido a un test de inteligencia. El uso de test también se extendió al mundo
laboral como prueba su incorporación a las prácticas de selección de la
administración americana.

Cattell fundó la Psychological Corporation para la producción industrial de tests en


1922. En 1947 se funda el Educational Testing Service (ETS) institución sin animo
de lucro que no sólo se ha encargado de la producción de tests estandarizados de
rendimiento y tests de aptitud académica, sino que desde su constitución, ha
contribuido a la formación y práctica profesional de influyentes psicómetras. Desde
1975, el ETS edita en formato CD-ROM el proyecto ERIC donde con una
45

periodicidad anual se recoge la información disponible sobre tests, escalamiento y


medición psicológica y educativa.

Galton, Pearson y Weldon fundaron en 1901 la revista Biometrika que desde


entonces publica trabajos matemáticos relacionados con la Biología y la Psicología.
Thorndike funda en Estados Unidos en 1936 la publicación Psychometrika, revista
de referencia para la Psicometría desde sus inicios. Desde entonces, la aparición
de revistas relacionadas con la medición psicológica ha sido continua. Como
muestra se pueden citar el Educational and Psychological Measurement (1941), el
British Journal of Statistical Psychology (ahora con el nombre de British Jorunal of
Statistical and Mathematical Psychology) (1947), el Journal of Mathematical
Psychology y el Journal of Educational Measurement (1964), el Multivariate
Behavioral Research y el Aplied Psychological Measurement (1977), el Applied
Measurement in Education (1988), etc.

Un acontecimiento que se ha convertido en referente obligado para todos los


profesionales es la publicación por las asociaciones profesionales más relevantes
de las guías técnicas y éticas de la medición psicológica y educativa. Las
recomendaciones elaboradas por la APA son, sin duda, las que han tenido y tienen
una mayor influencia.

Entonces

La psicometría es la ciencia de la medida de los aspectos "psicológicos" de una


persona, tales como conocimiento, habilidades, capacidades, o personalidad. La
medida de estos aspectos es difícil, y gran parte de la investigación y técnicas
acumuladas en esta disciplina están diseñadas para definirlos de manera fiable
antes de cuantificarlos. Los primeros trabajos de psicometría se desarrollaron para
medir la inteligencia. Posteriormente, la teoría psicométrica se ha aplicado a la
46

medida de otros aspectos como la personalidad, actitudes y creencias, rendimiento


académico, y en campos relacionados con la salud y la calidad de vida.

Los contenidos de la psicometría se articulan, fundamentalmente, en dos grandes


bloques: teoría de los test, que hace referencia a la construcción, validación y
aplicación de los test, y escalamiento, que incluye los métodos para la elaboración
de escalas psicofísicas y psicológicas. A su vez, la teoría de los test se divide en
dos ramas: la teoría clásica de los tests y la más reciente teoría de respuesta a los
ítems.

Los conceptos clave de la teoría clásica de los tests son: confiabilidad y validez.
"confiabilidad" es medir algo de forma consistente; mientras que "validez" es medir
lo que realmente se pretende medir. Ambas propiedades admiten un tratamiento
matemático.

La consistencia interna puede calcularse por correlación entre distintos tests. Los
métodos más conocidos se denominan: método de las formas paralelas, método
del test-retest y método de las dos mitades.

La validez puede calcularse correlacionando las mediciones con las de una medida
patrón aceptada como válida. Se distinguen los siguientes aspectos: validez de
contenido, validez predictiva y validez de constructo.

Complemente y discuta con el profesor el artículo anexo ―La medición de lo


Psicológico (que se encuentra en la siguiente página
http://www.psicothema.com/pdf/138.pdf)

Capitulo 2. La Psicometría y su Método

Lección 6. Definición de psicometría

Disciplina implicada directamente en la medición psicológica, con una doble


vertiente:
47

• teórica : supone la fundamentación teórica de la medida


48

• práctica: supone la construcción, evaluación y aplicación de instrumentos de


medida para evaluar o medir las características psicológicas de interés.

Más adelante se seguirá ampliando el concepto de Psicometría, explicaremos a


continuación algunos aspectos de la vertiente práctica de la psicometría. Se sugiere
a los estudiantes hacer la búsqueda por Internet de la vertiente teórica de la
psicometría (pueden también buscar en la red con la palabra clave ―psicología
matemática‖).

Lección 7. Vertiente práctica de la psicometría

Fase de Construcción de un Instrumento de Medida

En esta fase del proceso habría que cubrir las siguientes etapas:

• Delimitación y operativización de la variable psicológica que se desea medir


• Confección de los ítems
• Determinación del valor escalar de los ítems
• Confección de la prueba

Esta fase subsumiría lo que tradicionalmente se entiende al hablar de


escalamiento, el escalamiento de estímulos psicológicos

Una vez completada la fase de construcción se pasaría a la de la evaluación del


instrumento construido para, finalmente, concluir con la administración efectiva del
instrumento a un sujeto (o grupo de sujetos) en la fase de aplicación.

Fase de Evaluación de un Instrumento de Medida

La fase de evaluación del instrumento de medida es absolutamente crucial ya que


todas las medidas obtenidas al aplicar una prueba contienen error.

La consideración del error de medida inherente a toda medición psicológica hace


necesario:
49

• un planteamiento explícito acerca de hasta qué punto la medida obtenida en un


momento determinado proporciona una estimación adecuada del nivel real en
que posee el sujeto la característica psicológica que supuestamente se está
evaluando.
Por tanto, la consideración del error de medida exige el recurso a una teoría de
los tests que dé cuenta del mismo y proporcione una estimación del rasgo o
característica evaluada.
• la evaluación de la calidad de los instrumentos de medida, es decir, determinar
si éstos cumplen o no los criterios métricos de calidad que todo instrumento de
medida debe de satisfacer para poder ser utilizado con garantía como un
instrumento científico.
Esto supone que habrá que estudiar confiabilidad y validez de la prueba y
proceder al análisis de los ítems de la misma.

Una vez construida y evaluada positiva o favorablemente la prueba, nos


enfrentaríamos a la tercera fase del proceso: su aplicación a un sujeto o a una
muestra de sujetos.

Fase de Aplicación de un Instrumento de Medida

Una vez construida y evaluada positiva o favorablemente la prueba, nos


enfrentaríamos a la tercera fase del proceso: su aplicación a un sujeto o a una
muestra de sujetos.

El objetivo de esta fase es obtener una medida de cada sujeto o grupo en el rasgo
o característica evaluada por la prueba, determinar el valor escalar de cada sujeto o
grupo de sujetos, viendo la posición que éstos ocupan en el continuo que
representa la característica o rasgo evaluado con el instrumento de medida.

En particular, los contenidos del programa vinculados con esta fase son:

• la interpretación de las puntuaciones del test


50

• la equiparación de las puntuaciones del test.

La Psicometría y la Teoría de los Tests

La finalidad de este tema es presentar la Psicometría e introducir uno de sus


contenidos más importantes: la Teoría de Tests.

Intentar definir un concepto complejo como el de "Psicometría", al igual que ocurre


con la denominación de cualquier disciplina científica, es una tarea difícil, razón por
la que, al contrario de lo que se podría pensar, no abundan las definiciones
explícitas. Bajo la palabra "Psicometría" pueden convivir contenidos, enfoques,
objetivos y hasta concepciones diferentes sobre la ciencia y la función social de la
Psicología. Por todo ello, tal vez la única estrategia útil para abordar una
delimitación conceptual comprehensiva y lo más exacta posible de la Psicometría
sea recorrer desde una perspectiva histórica la evolución de la medición
psicológica, esbozar un análisis de la naturaleza del "objeto" de la medición
psicológica, describir el método psicométrico, presentar los contenidos de la
Psicometría y, a pesar de las dificultades ... no resistir la tentación final de proponer
una definición propia de la Psicometría.

Lección 8. Definiciones y objetivo de la Psicometría

En este apartado se aborda el significado de la denominación de la disciplina y se


señalan los elementos comunes de las definiciones propuestas por diferentes
autores.

El término "Psicometría" es el más extendido y general para hacer referencia a la


medición psicológica. Su significado popular y la etimología de la palabra apuntan
en la misma dirección: la disciplina que se encarga de la medición en Psicología.
De hecho, los diccionarios de uso más común como el de la Real Academia de la
Lengua o el de María Moliner también coinciden en su significado: la medida de los
fenómenos psíquicos.
51

Para avanzar en el camino hacia una delimitación conceptual de la disciplina es


necesario detenerse en las definiciones explícitas que, desde la propia Psicología,
se han propuesto para la Psicometría. Señalar los puntos comunes y las diferencias
de matiz entre ellas pueden ayudar a entender el alcance de la disciplina.

La Psicometría se ocupa de todas las medidas en el campo psicológico,


habiéndose desarrollado a través de dos ramas principales: los métodos
psicofísicos y la teoría de los tests. También se define a la Psicometría como la
metodología encargada del desarrollo y utilización de las técnicas de medición en
todos los ámbitos de la psicología.

Muñiz (1998) define la Psicometría como "... el conjunto de métodos, técnicas y


teorías implicadas en la medición de variables psicológicas... lo específico de la
Psicometría sería su énfasis y especialización en aquellas propiedades métricas
exigibles a las mediciones psicológicas independientemente del campo sustantivo
de aplicación y de los instrumentos utilizados".

La definición de Martínez-Arías (1984) introduce un matiz que apunta hacia la


relación entre la Psicometría y la Psicología Matemática. Para la autora, la
Psicometría "... aglutina todo el conjunto de modelos formales que posibilitan la
medición de variables psicológicas, centrándose en las condiciones que permiten
llevar a cabo todo proceso de medición en psicología".

No resulta difícil entresacar los elementos comunes de las definiciones anteriores.


La Psicometría es una disciplina metodológica, sin un contenido psicológico propio,
pero con un campo sustantivo: la teoría de la medición en sentido amplio. Muñiz
(1998) afirma que el trabajo psicométrico tiene como finalidad construir y utilizar
adecuadamente los tests y las escalas, de tal modo que se garantice su fiabilidad,
validez y aplicación adecuada.
52

El objeto de la medición en Psicología

Al presentar las definiciones explícitas de la Psicometría elaboradas por diferentes


autores, se entresacaron sus elementos comunes: disciplina metodológica, sin
contenido psicológico propio, pero con un dominio sustantivo: la teoría de la
medición psicológica en un sentido amplio. La definición de Muñiz (1998) señala
además, el rasgo definitorio de la preocupación psicométrica por la medida: las
condiciones métricas exigibles a todas medición. Sin embargo, hay otra fuente de
singularidad en la preocupación psicométrica por las condiciones métricas de la
medición que no es posible soslayar: la que viene impuesta por la peculiaridad de
los objetos psicológicos de medición.

A diferencia de las variables físicas, las variables psicológicas no se pueden


observar de manera directa. No quiere esto decir, que en psicología no se midan
conductas directamente observables, cuya cuantificación se suele obtener a través
de alguno de sus parámetros: duración, frecuencia, intensidad, etc., sino que,
incluso en estos casos, la conductas observables se interpretan como indicios o
resultado de variables inobservables más complejas. Atributos como "autoestima",
"habilidad lectora", "razonamiento analógico", etc., son variables inobservables que
sólo es posible medir por medio de los comportamientos observables a los que den
lugar.

Hay un amplio consenso sobre el término con el que referirse de forma genérica a
los objetos de medición: constructos. El término "constructo" se ha hecho familiar
en el campo de la medición psicológica desde su utilización en el artículo de L.
Cronbach y P. E. Meehl titulado "Construct validity in Psychological Test" (1955).
Cronbach y Meehl (1955) entendieron por constructo un instrumento intelectual
para organizar la experiencia en categorías. Crocker y Algina (1986) lo definen
como "... productos de la imaginación informada de los científicos sociales qué
intentan desarrollar teorías para explicar el comportamiento humano" (pág. 4).
53

Crocker y Algina (1986) ilustran el proceso de elaboración de constructos


insistiendo en su papel de "etiqueta" para resumir comportamiento y remarcan la
importancia de establecer alguna regla de correspondencia entre el constructo y los
comportamientos observables que son sus indicadores legítimos. La dificultad a la
hora de encontrar la conexión "legítima" entre el constructo y sus indicadores
comportamentales es valorada como uno de los lastres que impide el desarrollo de
la medida psicológica.

Lord y Novick (1968) fijaron la definición obligatoria de los constructos como


requisito previo para su medición. La definición de los constructos se debe abordar
a dos niveles:

• Definición operacional o “semántica”. Consiste en enumerar la serie de


comportamientos indicadores que ―engloba‖ el constructo. Dichos
comportamientos son considerados los ―indicadores empíricos‖ del constructo
objeto de la medición. La importancia de la definición operacional es evidente:
debe conectar la ―etiqueta verbal‖ con los datos observables.

• Definición conceptual o “sintáctica”. Recoge la teoría sobre el constructo


objeto de la medición. Se trata de un discurso ―conceptual‖ en el que se hacen
explícitas las relaciones del constructo objeto de la medición con otros
constructos y/o indicadores empíricos de otros constructos con los que el objeto
de la medición está relacionado.

La definición de los constructos a los dos niveles anteriores es el primer paso


inexcusable a la hora de iniciar cualquier medición.

- El supuesto sobre la estabilidad de los constructos

La medición psicológica asume, o al menos tiene en cuenta, algunos supuestos


sobre la naturaleza del objeto de la medición, es decir, sobre la naturaleza de los
54

constructos. Sin duda, el supuesto común a la práctica totalidad de los modelos de


medición es el de la estabilidad de la variable.

Numerosos estudiosos de la medición psicológica defienden la idea de que las


diferentes versiones de la teoría de los tests (e. g., la teoría clásica, la teoría de la
generalizabilidad y la teoría de respuesta al ítem) están elaboradas para hacer
inferencias con el mismo "esqueleto": la tendencia de las personas a comportarse
de manera prescrita en situaciones prescritas a partir de sus repuestas a un
conjunto de tareas predeterminadas. Por ejemplo, la perspectiva tradicional para
medir la inteligencia responde a este esquema inferencial: empleo de tests
estandarizados, compuesto por ítems o tareas predeterminadas, aplicados bajo
condiciones estandarizadas y con la pretensión de predecir el rendimiento futuro de
las personas en situaciones igualmente "estandarizadas": la escuela, el trabajo, el
ejercito, etc., En definitiva, los modelos de medida se han elaborado bajo el
supuesto de estabilidad de la variable.

El supuesto de estabilidad está siendo amenazado por las perspectivas más


recientes sobre la evaluación psicológica, es decir, por la necesidad de extender el
"paradigma metodológico tradicional" para responder, por ejemplo, a las inferencias
que el paradigma cognitivo plantea sobre las personas: las formas de uso y
adquisición de conocimientos y habilidades, en definitiva, para modelar el cambio.

La polémica sobre el objeto de la medición

La cuestión sobre la naturaleza del objeto no ha estado exenta de debate a lo largo


de la historia de la medición psicológica como reflejo de las discusiones sobre el
propio objeto de estudio de la psicología. Resulta difícil evitar plantearse preguntas
como las lanzadas por Meliá (1990): "¿Cuántos atributos latentes o rasgos
subyacentes existen?... ¿en qué medida son estables o evolucionan? ¿son
comunes a todas las personas?" (pág. 37).
55

Rust y Golombok (1989) defienden que la discusión sobre el objeto de medición ha


dividido a la Psicometría en dos escuelas: la Psicometría del rasgo y la Psicometría
funcional. Spearman (1904, 1907) da carta de naturaleza a la Psicometría de los
rasgos al plantear que la esencia de la tarea de la medida mental es identificar
rasgos a través de las tendencias de los individuos a comportarse de formas
prescritas en situaciones prescritas. El fuerte carácter hereditario atribuido por los
pioneros de la medida mental a los rasgos aparece suavizado en la definición de
Messick (1989): "Un rasgo es una característica relativamente estable de una
persona –un atributo, proceso duradero o disposición– que se manifiesta
consistentemente en algún grado a pesar de variaciones considerables en el rango
de contextos y circunstancias" (pág. 15). Por el contrario, la Psicometría funcional
defiende como un principio de partida que ningún rasgo o variable psicológica
interviniente es relevante. Plantea que dado que es posible definir y medir
directamente los comportamientos a los que supuestamente conducen los rasgos,
el papel de estos es redundante.

Rust y Golombok (1989) contrastan la preeminencia de la Psicometría funcional en


la evaluación educativa, con la de la Psicometría de los rasgos para la evaluación
clínica; y proponen resolver el enfrentamiento atendiendo a los procesos de toma
de decisión que realizan los clientes de la evaluación y de la selección
psicométrica: las decisiones se realizan resumiendo la medición en términos de
rasgos que reflejan lo que denominan "la psicología popular humana" ("don de
gentes", "genio", "liderazgo", etc.).

Lección 9. El método de la Psicometría

Meliá (1990) plantea que la conexión entre la Psicometría y la psicología


matemática, permite considerar el método de la Psicometría desde una doble
vertiente: por un lado, en tanto que la teoría psicométrica se refiera a contenidos
56

empíricos, el método no es otro que el método científico propio de toda ciencia


empírica; y por otro lado, el componente matemático de los modelos formales de
medición, sujeta a la teoría psicométrica, como a la psicología matemática, a los
criterios formales de las matemáticas.

La relación entre la psicología matemática y la Psicometría ha llevado a algunos


autores a defender que el método de la Psicometría es el de la psicología
matemática. El esquema elaborado por Jáñez (1989) es la referencia obligada a la
hora de presentar el método de la psicología matemática. De manera resumida, dos
son las características distintivas del método de la psicología matemática: a) la
presentación formal, generalmente en términos matemáticos, del componente
teórico; y b) el recurso a procedimientos deductivos basados en la lógica o a
procedimientos de simulación a la hora de derivar las consecuencias del modelo
matemático.

Mención especial merece la simulación, por la preponderancia que está


adquiriendo en Psicometría. El papel metodológico de la simulación no resulta fácil
de establecer. Muchos campos de la Psicometría la utilizan como técnica de
obtención de datos, cuando el problema de investigación hace imposible contrastar
el modelo con datos empíricos. Este es el caso cuando se pretende descubrir las
propiedades y características de índices estadísticos, métodos de estimación,
potencia de contrastes, etc. Además, la simulación preserva también el estatus de
método en cuanto generadora de conocimiento.

El análisis del método no puede obviar el papel instrumental de la Psicometría


como herramienta metodológica para la contrastación empírica de las teorías
psicológicas. La aplicación del método científico en psicología obliga a que la
Psicometría desempeñe un papel activo en diferentes momentos del proceso.
Arnau (1989) articula las relaciones entre el plano teórico y empírico del método
científico en tres niveles: el nivel teórico-conceptual, que abarca desde el
57

planteamiento del problema hasta la formulación de hipótesis empíricamente


contrastables; el nivel técnico-metodológico que abarca el plan de investigación y la
estrategia de recogida de datos; y el nivel estadístico-analítico, donde se realiza la
modelización estadística de los datos y las inferencias sobre las hipótesis
sometidas a contrastación. La generalización de los resultados hace retornar la
aplicación del método al nivel teórico-conceptual con lo que se cierra el ciclo. La
Psicometría acompaña a la aplicación del método en cada uno de los tres niveles.

El nivel teórico conceptual recoge a teoría que contextualiza el problema de


investigación. La teoría debe incluir la definición operacional y "sintáctica" de los
constructos implicados en las hipótesis. A su vez, la teoría condiciona la elección
del modelo de escalamiento y, por tanto, de las condiciones métricas que se
exigirán a las mediciones. La red nomológica desempeña además un papel crucial
durante la elaboración de tests para determinar la utilidad de las puntuaciones
obtenidas.

El nivel técnico metodológico implica la construcción o selección de los


instrumentos de medida idóneos para la medición de los constructos de interés. La
Psicometría debe guiar el proceso de elaboración de instrumentos, teniendo en
cuenta la teoría psicológica y el modelo de medida seleccionados en el nivel
teórico-conceptual.

Dentro del nivel estadístico analítico, las propiedades métricas de las mediciones
valoradas en el nivel anterior, condicionarán la modelización estadística de los
datos y la elaboración de proposiciones a partir de los resultados. Por ejemplo, la
información sobre la fiabilidad y validez de las mediciones, condicionará la
generalización de los resultados en el regreso del proceso de investigación al nivel
teórico conceptual.
58

Los contenidos de la Psicometría

Hay un consenso amplio en la disciplina sobre cuales son los contenidos propios de
la Psicometría. Las diferencias entre las propuestas de los autores responden a las
distintas tradiciones de investigación de las que procedan o a diferencias en las
estrategias de estudio de una misma temática. Si se unen las diferentes versiones
de la teoría de los tests bajo una denominación común, se obtiene la división en
tres grandes grupos de los contenidos psicométricos: teoría de la medición,
escalamiento y teoría de los tests. Los dos primeros contenidos han sido o serán
objeto de un tema en el programa de la asignatura. La teoría de los tests es
introducida en el siguiente apartado.

Lección 10. La teoría de los tests

La teoría de los tests puede verse como un esquema conceptual formalizado para
hacer inferencias a partir de las puntuaciones de las personas en los tests y permitir
la toma de decisiones que impliquen el constructo objeto de la medición. La teoría
de los tests proporciona los fundamentos para la elaboración y uso de los tests,
aportando además las herramientas para examinar las propiedades métricas de las
mediciones obtenidas con ellos.

La definición de ―test‖ no ha variado de forma significativa conforme evolucionaba la


teoría de los tests. Valgan como muestra las definiciones de Anastasi o Lord. Para
Anastasi (1968), un test psicológico es esencialmente una medida objetiva y
tipificada de una muestra de conducta; para Lord (1980) ―un test psicológico o
educativo es un instrumento para obtener una muestra de conducta‖ (pág. 3). La
definición de Yela (1996) expresa en términos más generales la finalidad de los
tests como ―un reactivo que aplicado a un sujeto revela y da testimonio de la índole
o grado de su instrucción, aptitud o manera de ser‖ (pág. 249). (definición de test)
59

La mayoría de los profesionales de la medición psicológica coinciden en que las


características definitorias de un test psicológico son:

• Procedimiento o instrumento estandarizado. Los tests plantean a las personas


evaluadas una serie de tareas previamente determinadas, a las que deben
responder siguiendo unas instrucciones fijadas de antemano y, de forma
habitual, en un contexto controlado.

• Obtención de muestras de conducta. Los tests están diseñados para la


obtención de los comportamientos reveladores del constructo objeto de la
medición.

• Asignación numérica. Los tests deben permitir la cuantificación objetiva de


acuerdo con unas reglas establecidas.

• Dispone de información sobre la calidad de las mediciones. Los autores de los


tests y, en algunas circunstancias, los usuarios deben aportar información
técnica sobre la precisión y relevancia para el objetivo de la evaluación de las
mediciones aportadas por el test.

Se han elaborado diversas clasificaciones de los tests utilizando diferentes


criterios. Crocker y Algina (1986) ofrecen una clasificación útil de los tests
atendiendo al carácter general de la tarea que deben realizar las personas: tests
de ejecución óptima, en los que se instruye a la persona para que conteste lo
mejor que pueda (incluiría los tests de inteligencia, aptitudes y rendimiento); y
tests de ejecución típica, que demandan de la persona información sobre sus
actitudes, sentimientos, intereses, etc., donde se incluirían los cuestionarios e
inventarios de personalidad.
60

Las definiciones de Anastasi y Lord utilizan la expresión ―muestras de conducta‖


que sintetiza la finalidad última de la teoría de los tests. Crocker y Algina (1986)
enumeran los problemas por los que la medida psicológica está contaminada
por el error:

• Ausencia de aproximaciones únicas a la medición de la mayoría de los


constructos. El problema reside básicamente en las diferencias en las
definiciones operacionales de la mayoría de las variables psicológicas, lo cual
suele conducir a procedimientos diferentes de medida y distintas conclusiones
sobre la evaluación de una misma persona.

• Muestreo limitado del comportamiento. Las mediciones suelen basarse en un


número limitado de comportamientos, obtenidos en un muestreo reducido de
situaciones y momentos temporales. Así, determinar, por ejemplo, el número de
ítems y la variedad de los contenidos de un test es uno de los problemas
habituales en la elaboración de los procedimientos de medida.

• Presencia inevitable de los errores de medida. Las limitaciones ―muestrales‖ en


la obtención de los comportamientos indicadores obliga a estimar el grado de
error presente de forma inevitable en cualquier medición.

• Evolución de las teorías psicológicas. Al ser los constructos ―herramientas


conceptuales‖ para la elaboración de teorías, el significado de las mediciones
siempre estará sujeto a la evolución de la teoría de la que forma parte,
dependiendo de la obtención de evidencias que la confirmen o modifiquen.

La finalidad de la teoría de los tests es aportar soluciones para minimizar el impacto


de estos problemas sobre la medición psicológica (Martínez-Arias, 1995).
61

La imposibilidad de observar de forma directa la mayoría de las variables


psicológicas obliga a considerar la teoría de los tests como una maquinaria
conceptual para la inferencia psicométrica. ¿En qué consiste la inferencia
psicométrica? La elaboración de ítems debe reflejar la definición operacional y
sintáctica del constructo objeto de la medición (Lord y Novick, 1968). El papel de los
ítems es el de provocar que las respuestas de las personas en una situación
estandarizada, reflejen la conductas que en situaciones ―espontáneas‖, se
considerarían los indicadores conductuales del constructo. La cuantificación se
produce cuando a través de un procedimiento de escalamiento se asignan valores
cuantitativos a los patrones de repuesta de las personas en el test. Sobre la
inferencia, desde el valor cuantitativo o puntuación resumen de la ejecución de la
persona hasta el constructo, pueden incidir diferentes fuentes de variabilidad ―no
deseada‖, por no relacionada con el constructo objeto de la medición, que pueden
amenazar la corrección de la inferencia: fuentes de variabilidad aleatoria, que
tradicionalmente se agrupan bajo la denominación general de ―fiabilidad‖; y fuentes
de variación sistemática, agrupadas bajo la etiqueta de ―validez‖. El objetivo
principal de la teoría de los tests es estudiar este proceso de inferencia y aportar
procedimientos para realizarla (Crocker y Algina, 1986). Este objetivo ha hecho que
bajo la denominación ―teoría de los tests‖ tengan cabida contenidos tan diversos
como: construcción de tests, elaboración de ítems, análisis de ítems, métodos de
puntuación e interpretación de las puntuaciones y, de forma preponderante, el
análisis de la fiabilidad y validez de las medidas aportadas por los tests.

La teoría de los tests suele dividirse en dos grandes ramas: la teoría clásica de los
tests y la teoría de respuesta a los ítems. La cita de Hambleton y van der Linden
(1982) expresa con toda claridad esta división: ―Las teorías de los tests pueden
dividirse en dos grandes categorías. La primera es la teoría clásica de los tests, que
parte de la concepción de Spearman de la puntuación observada en el test como
compuesta de un componente verdadero y otro de error... Importantes hitos en esta
larga y venerable tradición son Theory of mental tests de Gulliksen (1950) y
62

Statistical theories of mental test scores de Lord y Novick (1968)... La segunda es la


teoría de respuesta al ítem, o teoría del rasgo latente, como se ha llamado hasta
hace poco. Actualmente la teoría de respuesta al ítem esta teniendo un mayor
impacto en el campo de los tests‖ (pág. 373).

Complemente este apartado con la lectura anexa Los Test


(http://www.psicothema.com/pdf/660.pdf)
63

Capítulo 3.Desarrollo de las Pruebas y Metodología Estadística de la


Psicometría

Criterios de calidad en la construcción de test

Utilice como guía la siguiente página web: http://www.uned.es/psico-3-psicometria/


En ella encontrará la explicación de conceptos y técnicas importantes para la
construcción de pruebas tales como los de Validez y Confiabilidad (fiabilidad), que
se encuentran a continuación. Además encontrará ejercicios (plantillas) que podrá
resolver.

Lección 11. Confiabilidad

DEFINICIÓN:

Criterio de calidad relacionado con la precisión de las medidas obtenidas con un


test y que proporciona información acerca de:

• la estabilidad temporal de las puntuaciones obtenidas con el test (test-retest y


formas paralelas)
• la consistencia interna del test (alpha y dos mitades)

FÓRMULA GENERAL:
64

PROCEDIMIENTOS EMPÍRICOS PARA ESTIMAR EL COEFICIENTE DE


FIABILIDAD:

TEST-RETEST:

FORMAS PARALELAS:

BASADOS EN LA DIVISIÓN DEL TEST EN DOS MITADES:

ƒ PARALELAS: Fórmula de Spearman-Brown

ƒ ESTRICTA O ESENCIALMENTE TAU-EQUIVALENTES:

Fórmula de Rulon:
65

Fórmula de

Guttman/Flanagan:

BASADOS EN LA COVARIANZA DE LOS ITEMS:

Coeficiente alpha:

KR 20:

KR 21:

FACTORES DE LOS QUE DEPENDE LA FIABILIDAD:

LONGITUD DEL TEST: Fórmula de Spearman-Brown

VARIABILIDAD DE LA MUESTRA:
66

Lección12. Validez

DEFINICIÓN:

Criterio de calidad relacionado con la adecuación de las puntuaciones del


test para el objetivo que suscitó su aplicación.

TIPOS DE VALIDEZ:

VALIDEZ DE CONTENIDO:

Trata de garantizar que el test constituye una muestra


adecuada y representativa del contenido que éste
pretende evaluar.

Modo de evaluación:

Recurso a expertos

VALIDEZ DE CONSTRUCTO:

Trata de garantizar la existencia de un constructo psicológico que


subyaga y dé sentido y significado a las puntuaciones del test.

Modo de evaluación:

ƒ Análisis factorial
67

ƒ Matriz multimétodo-multirrasgo

VALIDEZ PREDICTIVA:

Trata de garantizar la eficacia del test para pronosticar una variable de


interés.

FIABILIDAD:

LONGITUD DEL TEST:

VARIABILIDAD DE LA MUESTRA:

Para el caso de dos variables:


68

FÓRMULA GENERAL DEL COEFICIENTE DE VALIDEZ:

DERIVADOS DEL COEFICIENTE DE VALIDEZ:

Lección 13. Conceptos estadísticos, normas y estandarización parte i

Por lo general, el resultado inicial de las pruebas es una puntuación natural como el
número total de afirmaciones de personalidad refrendadas en una dirección en
particular o el número total de problemas resueltos correctamente, quizá con ¡a
adición de puntos bonificados por las soluciones rápidas. En la mayor parte de los
casos, £sta puntuación inicial es inútil en sí misma.^'ara que los resultados de
prueba tengan significado, los examinadores deben ser capaces de convertir la
puntuación inicial a alguna forma de puntuación derivada que se base en la
comparación con un grupo normativo o de estandarización. Gran parte de las
pruebas se interpreta al comparar los resultados individuales con el desempeño del
grupo normativo; las pruebas referidas a criterio, que se analizan más adelante,
constituyen una excepción.
69

Un grupo normativo consiste en una muestra de personas examinadas que son re-
presentativas de la población hacia la cual se dirige la prueba. Considérese una
prueba del conocimiento de vocabulario, diseñada para utilizarse con futuros
estudiantes universitarios de primer grado. En este caso, podrían recolectarse los
resultados del desempeño de una muestra grande, heterogénea y nacional de
dichas personas, con propósitos de estandarización. E! objetivo esencial de !;i
estandarización de una prueba consiste en determinar la distribución de las
puntuaciones naturales en un grupo normativo, de modo que quienes desarrollan la
prueba tengan la posibilidad de publicar las puntuaciones derivadas conocidas
como normas. Como se analizará más adelante, las normas sé encuentran en
muchas variedades; por ejemplo, rangos percentiles, equivalentes por edad, equi-
valentes de ¡nado o puntuaciones estándar. En jVMÉ^al. i.is normas indican la
posición que Tiene (Jln individuo denlio •]•-• !a prueba, en relación con el
desempeño de otras personas de la misma edad, grado escolar, sexo y otras
variables. Para ser efectivas, las normas deben obtenerse con gran cuidado y
construirse según los preceptos ya conocidos que se analizan después; lo que es
más, pueden volverse anticuadas en sólo unos cuantos años, de modo que la regla,
más que la excepción, debe ser el establecimiento periódico de nuevas normas. El
tema de las normas se enfoca de manera indirecta, ya que el propósito es hacer un
análisis sobre las puntuaciones naturales y después se revisan los conceptos
estadísticos esenciales para una comprensión de las normas.

Puntuaciones naturales

El nivel más básico de información proporcionada por una prueba psicológica es la


puntuación natural. Por ejemplo, en una prueba de personalidad, con frecuencia la
puntuación natural es el número de preguntas respondidas en la dirección
codificada para una escala específica. En las pruebas de capacidad, por lo común la
puntuación natural se integra del número de problemas respondidos de manera
correcta, al que con frecuencia se le suman los puntos bonificados por el
desempeño rápido. Así, el resultado inicial de la prueba es casi siempre una suma
70

numérica, como 17 de 44 reactivos totales respondidos en la dirección codificada en


una escala de depresión, o 29 de 55 puntos de puntuación natural obtenidos en la
subes-cala de Diseño con Cubos de una prueba de inteligencia.
Sin embargo, debería ser obvio para el lector que las puntuaciones naturales, por sí
solas carecen absolutamente de significado. Por ejemplo, ¿de qué sirve conocer
que una persona resolvió de manera correcta 12 de 20 preguntas de razonamiento
abstracto? ¿Qué significado tiene que un examinando haya respondido en la
dirección codificad;: a 19 de 33 preguntas de verdadero-falso de una escala de
disp"si:'ión
Incluso es difícil pensar sobre dichas preguntas sin recurrir a comparaciones de una
variedad u otra. Se desea saber la manera en que otras personas han respondido a
estas pruebas, si las puntuaciones observadas son altas o bajas en comparación
con un grupo representativo de sujetos. En el caso de pruebas de capacidad, se
tiene curiosidad de saber si las preguntas fueron fáciles o difíciles, en especial en
relación con la edad del sujeto.
De hecho, parece casi trivial que una puntuación natural adquiera significado
principalmente en relación con las normas, un marco de referencia establecido de
manera independiente que se deriva de una muestra de estandarización.
Posteriormente .se ampliará más acerca de la derivación y el uso de las normas.
Por ahora bastará con saber que las normas se establecen de modo empírico, a
través de la aplicación de la prueba a una ¡nuestra grande y representativa de
personas. Después se compara la puntuación del examinado con la distribución de
puntuaciones obtenidas por la muestra de estandarización. Así, se determina, a
partir de las normas, si una puntuación obtenida es baja, promedio o alta La gran
parte de las pruebas psicológicas se interpreta a través de la consulta de normas;
como ya se señaló, estos instrumentos se denominan pruebas referidas a la norma.
Sin embargo, se recuerda al lector que existen otros tipos de instrumentos. En
particular, las pruebas referidas a criterio ayudan a determinar si una persona puede
alcanzar un criterio objetivamente definido, como la suma de pares de números de
dos dígitos con una precisión de 97%. En el caso de las pruebas referidas a criterio,
las normas no son esenciales. Al final de este tema se explicarán con más detalle
71

estas pruebas.
Existen diferentes tipos de normas, pero éstas tienen una característica en común:
cada una incorpora un resumen estadístico de un enorme conjunto de
puntuaciones. Así, para comprenderlas, el lector necesita dominar la estadística
descriptiva elemental. En este punto se hace un modesto paréntesis para revisar los
conceptos estadísticos esenciales.

Conceptos estadísticos especiales

Supóngase por el momento que se tiene acceso á una prueba de vocabulario de


alto nivel, apropiada para examinar las habilidades verbales de profesores
universitarios y otros profesionales (Gregory y Gernert, 1990). La prueba es un
cuestionario de opción múltiple con 30 palabras difíciles como firmamento,
paradisiaco y melifluo. Una profesora toma la prueba y elige la alternativa correcta
para 17 de las 30 palabras. Pregunta cómo se compara su calificación con otras
personas con el mismo nivel académico. ¿Cómo podría responderse a su pregunta?
Una manera de responder a la interrogante consistiría en darle una lista de las
puntuaciones naturales de la muestra preliminar de estandarización con 100
profesores representativos de su universidad. Sin embargo, incluso con esta
muestra normativa relativamente pequeña (lo típico son miles de individuos), la lista
de puntuaciones de prueba es un despliegue excesivo.
Cuando se nos confronta con un conjunto de datos cuantitativos, la tendencia
humana natural es la de resumir, condensar y organizar dichos datos en patrones
significativos. Por ejemplo, en la evaluación del significado de la puntuación de
vocabulario de la profesora, el lector podría calcular la puntuación promedio de toda
la muestra o establecer la posición relativa de la puntuación de la profesora.

- Distribución de frecuencias
Una manera simple y útil de resumir los datos consiste en tabular una distribución
de frecuencias , la cual se prepara al especificar un pequeño número de intervalos
de clase de igual tamaño y después determinar cuántas puntuaciones caen dentro
72

de cada intervalo. La suma de las frecuencias de todos los intervalos será igual a N,
el número total de puntuaciones en la muestra. No existe una regla simple para
determinar el tamaño de los intervalos; éste, obviamente, depende del número de
intervalos deseado. Es común que la distribución de frecuencias tenga entre 5 y 15
intervalos de clase. El cuadro indica que un profesor obtuvo una calificación de 4, 5
o 6; 8 profesores obtuvieron 7, 8 o 9, y así sucesivamente.
Un histograrna proporciona una representación gráfica de la misma información
contenida en la distribución de frecuencias. El eje horizontal representa las
puntuaciones agrupadas en intervalos de clase, mientras el eje vertical representa el
número de puntuaciones que caen dentro de cada intervalo de clase. En un
histograrna, la altura de una columna indica el número de puntuaciones que ocurren
dentro de ese intervalo. Un polígono de frecuencias es similar a un histograrna,
excepto que la frecuencia de los intervalos de clase se representa con puntos en
lugar de columnas. Después, los puntos independientes se unen por medio de
líneas rectas.

Distribución de frecuencia

de las puntuaciones de 100 profesores

en una prueba de vocabulario

Intervalo de clase Frecuencia

4-6 1
7-9 8
10-12 12
13-15 21
16-18 24
19-21 21
22-24 7
25-27 5
28-30 1
W=100
73

- Medidas de tendencia central

¿Se puede establecer una sola puntuación representativa de las 100 puntuaciones
de vocabulario en nuestra muestra? La media (X) o promedio aritmético es una de
dichas puntuaciones. Se calcula sumando todas las puntuaciones y dividiéndolas
entre N, el número de puntuaciones. Otro índice útil de tendencia central es la
mediana, la puntuación que se encuentra a la mitad cuando se han ordenado todas
las puntuaciones. Si el número de puntuaciones es par, la mediana es el promedio
de las dos puntuaciones a la mitad. En cualquier caso, la mediana es el punto que
divide en dos la distribución, de modo que la mitad de los casos se encuentren por
encima de ella y la mitad por debajo. Por último, la moda es simplemente la
puntuación que ocurre con mayor frecuencia. Si dos puntuaciones tienen la mayor
frecuencia de ocurrencia, se dice que la distribución es bimodal. La media es
sensible a los valores extremos y puede ser engañosa si una distribución tiene
pocas puntuaciones inusualmente altas o bajas. Considérese el caso extremo
donde nueve personas ganan $10 000.00 y una décima persona gana $910 000.00.
El ingreso promedio para este grupo de personas sería de $100 000; sin embargo,
este nivel de ingresos no es típico de nadie dentro del grupo. La mediana del ingre-
so, colocada en $10 000, es mucho más representativa. Por supuesto, éste es un
ejemplo extremo, pero ilustra un punto en general: si una distribución está sesgada
(es decir, es asimétrica), la mediana es un mejor índice de la tendencia central que
la medía.
- Medidas de variabilidad
Dos o más distribuciones de puntuaciones de prueba pueden tener la misma media
y, sin embargo, es posible que difieran en gran medida en el grado de dispersión de
las puntuaciones con respecto a la media. Para describir el grado de dispersión, es
necesario un índice estadístico que exprese la variabilidad de las puntuaciones en
una distribución.
El índice estadístico de variabilidad que se utiliza con mayor frecuencia en un grupo
74

de puntuaciones es la desviación estándar, simbolizada o/y abreviada DE. Desde


un punto de vista conceptual, el lector necesita saber que la DE refleja el grado de
dispersión en un grupo de puntuaciones. Si éstas se encuentran agrupadas
estrechamente cerca de un valor central, la Olí es pequeña. De hecho, en el caso
extremo donde todas las puntuaciones son idénticas, la DE es exactamente cero. A
medida que un grupo de puntuaciones se dispersa más, la DE se vuelve más
grande.
Como lo sugiere el nombre, ia varianza es una medida de variabilidad. Sin embargo,
en general, los psicólogos prefieren informar la desviación estándar, que se calcula
obteniendo la raíz cuadrada de la varianza. Por supuesto, la varianza y la
desviación estándar transmiten información intercambiable —una se puede calcular
a partir de la otra, al elevar al cuadrado (la desviación estándar para obtener la
varianza) u obtener la raíz cuadrada (de la varianza para obtener la desviación
estándar). Sm embargo, !a desviación estándar es la medida preferida de varianza
en las pruebas psicológicas, debido a su relevancia directo para la distribución
normal.

- Distribución normal
Los psicólogos prefieren una distribución normal de puntuaciones de prueba, aun
cuando muchas otras distribuciones son teóricamente posibles. Por ejemplo, dentro
de la esfera de posibilidades se encuentra la distribución rectangular de
puntuaciones de prueba -un número igual de resultados en cada intervalo de clase.
De hecho, muchos legos podrían incluso preferir una distribución rectangular de
puntuaciones de prueba, basados en la premisa equitativa de que las diferencias
individuales serían por ello menos pronunciadas. Por ejemplo, una mayor
proporción de personas obtendría puntuaciones en el rango superior si las pruebas
psicológicas se conformaran a una distribución rectangular de puntuaciones, en vez
de a una distribución normal.
75

Entonces, ¿por qué los psicólogos prefieren una distribución normal de


puntuaciones, aun hasta el punto de seleccionar reactivos de prueba que ayuden a
producir este tipo de distribución en la muestra de estandarización? Existen varias
razones para ello, incluyendo las consideraciones estadísticas y los dalos empíricos.
Aquí se hará un breve paréntesis para explicar la fascinación psicométrica con las
distribuciones normales.
Una razón por la que los psicólogos prefieren las distribuciones normales es que la
curva normal tiene características matemáticas útiles que forman la base para
varios tipos de investigación estadística. Supóngase que se tiene interés en
determinar si los CI promedio de dos grupos de personas fueron significativamente
diferentes. Sería apropiado utilizar una estadística inferencial como la prueba / para
la diferencia entre medias. Sin embargo, muchas estadísticas inferenciales se basan
en la suposición de que la población subyacente de puntuaciones se distribuye de
manera normal, o muy cercano a ello. Así, a fin de facilitar el uso de estadísticas
inferenciales, los psicólogos prefieren que las puntuaciones de prueba en la
población normal sigan una distribución normal o casi normal.
Otra base para preferir la distribución normal es su precisión matemática. Dado que
la distribución normal se define de manera precisa en términos matemáticos, es
posible calcular con gran exactitud el área bajo las diferentes regiones de la curva.
Así, una propiedad útil de las distribuciones normales es que el porcentaje de casos
que caen dentro de un cierto rango o más allá de un cierto valor se conoce de ma-
nera exacta. Una tercera base para preferir una distribución normal de las
puntuaciones de prueba es que, con frecuencia, la curva normal surge de manera
espontánea en la naturaleza.
- Transformación de las puntuaciones naturales
Darle sentido a los resultados de prueba es, en gran medida, una cuestión de
transformar las puntuaciones naturales en formas más interpretables y útiles de
76

información. En el análisis anterior acerca de las distribuciones normales, se


insinuaron las transformaciones al mostrar la manera en que el conocimiento sobre
la media y la desviación estándar de dichas distribuciones pueden ayudar a
determinar la posición relativa de una puntuación individual. En esta sección se
continuará con este tema de una manera más directa, al presentar los requisitos
formales para varios tipos de transformaciones de las puntuaciones naturales
Percentiles y rangos percentiles
Un percentil expresa el porcentaje de personas dentro de la muestra de
estandarización que obtuvieron puntuaciones por debajo de una puntuación natural
específica.
Se advierte al lector que no debe confundir los percentiles con el porcentaje de
respuestas correctas. Recuérdese que un perccntil indica sólo cómo se compara a
un individuo con la muestra de estandarización y no transmite el porcentaje de
preguntas respondidas de manera correcta. Es posible que, en una prueba difícil,
una puntuación natural de 50% de respuestas correctas podría traducirse a un
percenlil 90, 95 o incluso 100. A la inversa, en una prueba fácil, una puntuación
natural de 95% de respuestas correctas podría traducirse a un percentil 5, 10o 20.
Los percenliles también pueden concebirse como látigos en un grupo de 100 sujetos
representativos, donde I es el rango inferior y 100 el superior. Obsérvese que los
rangos percentiles son el reverso completo de los procedimientos comunes de
clasificación por rangos. Un rango percentil (RP) de I se encuentra en el extremo
inferior de la muestra, mientras que un RP de 99 se encuentra cerca del tope.

Puntuación estándar
Aunque los percentiles son el tipo más popular de puntuación transformada, las
puntuaciones estándar ejemplifican las propiedades psicomé-tricas más deseables.
Una puntuación estándar utiliza la desviación estándar de la distribución total de
puntuaciones naturales como la unidad fundamental de medida. La puntuación
estándar expresa la distancia de la media en unidades de desviación estándar. Por
ejemplo, una puntuación natural que se encuentra exactamente a una desviación
estándar por encima de la media se convierte en una puntuación estándar de +1.00.
77

Una puntuación natural que se encuentra exactamente a la mitad de una desviación


estándar por debajo de la media, se convierte en una puntuación estándar de -0.50.
Así, una puntuación estándar no sólo expresa la magnitud de la desviación con
respecto a la media, sino también la dirección de esa desviación (positiva o
negativa).
El cálculo de la puntuación estándar de un individuo (también llamada puntuación z)
es sencillo: se resta la puntuación natural de la persona examinada a la media del
grupo normativo y después se divide esta diferencia entre !a desviación estándar del
grupo normativo.
La puntuación estándar posee la propiedad psicométrica deseable de conservar las
magnitudes relativas de distancia entre los valores sucesivos, encontradas entre las
puntuaciones naturales originales. Esto se debe a que la distribución de las
puntuaciones estándar tiene la misma forma que la distribución de las puntuaciones
naturales. Como consecuencia, el uso de las puntuaciones estándar no distorsiona
la escala de medida subyacente.

Puntuaciones T y otras puntuaciones estandarizadas

Muchos psicólogos y educadores aprecian las propiedades psicométricas de las


puntuaciones estándar, pero consideran las fracciones decimales y los signos
positivos y negativos (p. ej., z = -2.32) como distracciones innecesarias. En
respuesta a estas preocupaciones, los especialistas en pruebas han diseñado cierto
número de variaciones para las puntuaciones estándar que colectivamente se
conocen como puntuaciones estandarizadas.
Desde un punto de vista conceptual, las puntuaciones estandarizadas son idénticas
a las puntuaciones estándar. Ambas contienen exactamente la misma información.
No se afecta la forma de la distribución de puntuaciones y la relación entre las
puntuaciones estándar y estandarizadas siempre se traza como una línea recta. Sin
embargo, las puntuaciones estandarizadas siempre se expresan como números
enteros positivos (no existen fracciones decimales ni signos negativos), de modo
que muchos usuarios de prueba prefieren representar los resultados en esta forma.
78

Las puntuaciones estandarizadas eliminan las fracciones y los signos negativos al


producir valores diferentes a cero para la media y 1.00 para la desviación estándar
de las puntuaciones transformadas. La media de las puntuaciones transformadas
puede establecerse en cualquier valor conveniente como 100 o 500 y la desviación
estándar en, digamos, 15 o 100. El punto importante acerca de las puntuaciones
estandarizadas es que se puede transformar cualquier distribución a una escala
preferida con media y desviación estándar predeterminadas.
Un tipo muy conocido de puntuación estandarizada es la puntuación T, que tiene
una media de 50 y desviación estándar de 10. Las escalas en puntuación T son
especialmente comunes en las pruebas de personalidad. Por ejemplo, en el MMP1,
cada escala clínica (como Depresión, Paranoia) se convierte a una medida común,
donde 50 es la puntuación promedio y 10 es la desviación estándar de la muestra
normativa.
Las puntuaciones estandarizadas se pueden adaptar para producir cualquier media
y desviación estandár. Sin embargo, para eliminar las puntuaciones estandarizadas
negativas, la media preseleccionada debe ser cuanto menos 5 veces tan grande
como la DE. En la práctica, quienes desarrollan pruebas dependen de unos cuantos
valores preferidos para las medias y desviaciones estándar de las puntuaciones
estandarizadas.

Lección 14. Conceptos estadísticos, normas y estandarización parte ii

Selección de un grupo normativo

Cuando se elige un grupo normativo, quienes desarrollan pruebas se esfuerzan por


obtener una muestra representativa de la población para la cual se diseñó la prueba
(Petersen, Kolen y Hoover, 1989). En teoría, obtener un grupo normativo
representativo es simple y sencillo. Considérese una prueba de rendimiento escolar
diseñada para niños de sexto grado de primaria en EUA. La población relacionada
la constituyen todos los niños en sexto grado, de costa a costa del país y en Alaska
79

y Hawai. Se puede obtener una muestra representativa de estos individuos


potenciales a través de un muestreo aleatorio por computadora de
aproximadamente 10 000 niños, entre los millones de niños elegibles. Cada uno
tendría igual probabilidad de ser elegido para realizar la prueba; es decir, la es-
trategia de selección sería un simple muestreo aleatorio. Los resultados de dicho
muestreo constituirían una fuente ideal para los datos normativos. Con una muestra
aleatoria amplia, es casi seguro que la diversidad de antecedentes étnicos, clases
sociales, localizaciones geográficas y entornos urbanos contra rurales tendrían una
representación proporcional en la muestra.
En el mundo real, obtener muestras normativas nunca es tan sencillo y definitivo
como el caso hipotético anterior. Los investigadores no tienen una lista completa de
todos los niños de sexto grado en el país y, aunque la tuvieran, quienes desarrollan
pruebas no podrían obligar a lodos los niños seleccionados a! azar a que
participaran en la estandarización de una prueba. También surgen asuntos
relacionados con el costo. Debe pagarse a los psicómetras para que apliquen la
prueba al grupo normativo. Los autores de la prueba pueden optar por unos cuantos
cientos de personas representativas en vez de utilizar un número mayor.
Para ayudar a asegurar que los grupos normativos de menor tamaño sean
verdaderamente representativos de la población para la cual se diseñó la prueba,
los autores de la misma utilizan un muestreo aleatorio estratificado. Este enfoque
consiste en estratificar, o clasificar, a la población blanco en cuanto a variables
antecedentes (como edad, sexo, raza, clase social, nivel educativo) y después
seleccionar al azar un porcentaje apropiado de personas dentro de cada estrato.
Por ejemplo, si 12% de la población relacionada es afroestadounidense, entonces
quien desarrolla la prueba elige los sujetos de manera aleatoria, pero con la restric-
ción de que 12% del grupo normativo debe ser también afroestadounidense.
En la práctica, muy pocos creadores de pruebas reproducen completamente el
muestreo aleatorio o el muestreo aleatorio estratificado en el proceso de selección
del grupo normativo. Lo que es más típico es un esfuerzo de buena fe por elegir una
muestra diversa y representativa de escuelas fuertes y débiles; vecindarios
minoritarios y blancos; ciudades grandes y pequeñas y comunidades del norte, este,
80

centro y sur. Si esta muestra engloba entonces aproximadamente el mismo


porcentaje de minorías, habitantes de las ciudades, familias de clase alta y baja que
el censo nacional, entonces los autores de la prueba se sienten seguros de que el
grupo es representativo.
Existe una importante lección en las incertidumbres, concesiones y aspectos
prácticos de la selección del grupo normativo; a saber, que las normas de pruebas
psicológicas no son absolutas, universales o intemporales. Son relativas a una
época histórica y a la población normativa particular de la cual se derivaron. Se
ilustrará la naturaleza efímera de las estadísticas normativas en una sección
posterior cuando se muestre cómo una importante prueba de CI en cuyas normas
se estableció un promedio nacional de 100 puntos en 1974, produjo un promedio
nacional de 107 en 1988. Incluso las normas que se seleccionan con gran cuidado y
se basan en muestras grandes pueden volverse obsoletas en el curso de un
decenio —y en ocasiones menos.

- Normas por edad y grado escolar


A medida que uno crece, se cambia de manera calculable, ya sea para mejorar o
empeorar. Esto es obviamente cierto en la infancia, cuando las habilidades
intelectuales mejoran visiblemente de un mes a otro. En la edad adulta, el cambio
personal es lento, pero aun se puede discernir. Por ejemplo, se espera que los
adultos muestren un nivel más maduro de vocabulario con cada decenio que
transcurre (Gregory y Gernert, 1990). Una norma por edad representa el nivel de
desempeño en la prueba para cada grupo independiente según la edad dentro de la
muestra normativa. El propósito de las normas por edad es el de facilitar las
comparaciones entre individuos de la misma edad. Con las normas por edad, el
desempeño de una persona se interpreta en relación con los sujetos dentro de la
estandarización que tienen la misma edad. El rango de edades para un grupo
normativo por edad puede variar de un mes a un decenio o más, según el grado en
que el desempeño en la prueba depende de los años de vida. Para características
que cambian con rapidez —como las capacidades intelectuales durante la infan-
cia— los creadores de pruebas podrían informar normas independientes de prueba
81

para grupos de edad definidos de manera estrecha; por ejemplo, intervalos de


cuatro meses. Eso permite que, por decir, el examinador compare los resultados de
prueba de un niño que tiene cinco años, dos meses de edad (edad 5-2) con la
muestra normativa de niños que van de los 5-0 a los 5-4 años. En contraste, las
características adultas cambian de manera más lenta y podría ser suficiente con
informar datos normativos para intervalos de edad de 5 o 10 años.
Las normas según el grado escolar son conceptualmente similares a las normas por
edad. Una norma por grado representa el nivel de desempeño en pruebas para
cada grado escolar dentro de la muestra normativa. Las normas por grado se
utilizan poco en el caso de pruebas de capacidad. Sin embargo, éstas son
especialmente útiles en entornos educativos, cuando se presentan los niveles de
rendimiento de los niños en edad escolar. Dado que el rendimiento académico en
muchas áreas de contenido depende en gran medida de la exposición al currículo
de materias según el grado escolar, la comparación de un estudiante contra una
muestra normativa del mismo grado es más apropiada que emplear comparaciones
basadas en la edad.

Pruebas referidas a criterio

Una alternativa a las pruebas referidas a la norma, es las pruebas referidas a criterio
(Frechtling, 1989; Glaser, 1963; Popham, 1978; Berk, 1984). Mientras que las
primeras utilizan una muestra representativa de personas como su marco de
referencia interpretativo, una prueba referida a criterio compara los logros de un
individuo examinado con un área bien definida de contenido. Por ejemplo, el
desempeño de la persona que se somete a prueba podría presentarse como un
nivel específico de habilidad en aritmética (suma correctamente 2 números de 3
dígitos en 100% de las ocasiones, pero sólo tiene 70% de precisión cuando suma 3
números de 3 dígitos).
Las pruebas referidas a criterio representan un cambio fundamental en perspectiva.
El cen tro de atención se coloca en aquello que el examinado puede hacer, más que
en comparaciones con los niveles de desempeño de otros individuos. Así, las
82

pruebas referidas a criterio iden tincan el dominio (o falta de dominio) absoluto de la


persona examinada en relación con conductas específicas. En general, estas
pruebas se han utilizado en entornos escolares para ayudar a los maestros dentro
del salón de clase a determinar qué se debe enseñar y también para evaluar los
efectos precisos de los esfuerzos de enseñanza del currículo escolar.
Las pruebas referidas a criterio son más adecuadas para examinar las habilidades
académicas básicas (p. ej., nivel de lectura, habilidades de cálculo aritmético) en
ambientes educativos. Sin embargo, estos tipos de instrumentos son sumamente
inapropiados para examinar capacidades de nivel superior, debido a que es difícil
formular objetivos específicos para dichas áreas de contenido. Considérese un caso
en particular: ¿cómo se desarrollaría una prueba referida a criterio para examinar la
pericia en programación de computadora»;'.' Sería difícil proponer conductas
específicas que pudieran poseer todos los expertos en programación de
computadoras y, por tanto, sería casi imposible construir una prueba referida a crite-
rio para esta habilidad de alto nivel. Berk (1984) analiza los problemas técnicos en
la construcción y evaluación de este tipo de pruebas.

Lección 15. Construcción de pruebas

Un autor de pruebas debe elegir estrategias y materiales y después tomar


decisiones continuas de investigación que afectarán la calidad de su instrumento en
germinación. El propósito de esta sección consiste en analizar el proceso mediante
el cual los psicómetras creen pruebas válidas. Aunque se examinarán muchas
cuestiones independientes, a todas las vincula un tema en común: las pruebas
válidas simplemente no aparecen en escena en plena madurez —surgen de manera
lenta de un proceso evolutivo. En este tema se enfatizarán los aspectos básicos del
desarrollo de pruebas.
- La construcción de pruebas consta de seis etapas entrelazadas:
- Definición de la prueba.
- Selección de un método de escalamiento.
- Construcción de los reactivos.
83

- Examen de los reactivos.


- Revisión de la prueba.
- Publicación de la prueba.
La definición de la prueba consiste en la delimitación de su alcance y propósito, los
cuales deben conocerse antes de que el autor pueda proseguir con su construcción.
La selección de un método de escalamiento es un proceso en el que se establecen
las reglas mediante las cuales se asignan números a los resultados de la prueba. La
construcción de los reactivos es tanto un arte como una ciencia y es aquí donde
puede requerirse la creatividad del autor. Una vez que se tiene disponible una
versión preliminar de la prueba, los autores en general la aplican a una muestra de
tamaño modesto de individuos, a fin de reunir los datos iniciales sobre las carac-
terísticas de los reactivos. El examen de éstos implica una variedad de
procedimientos estadísticos conocidos como análisis de reactivos, cuyo propósito
consiste en determinar cuáles reactivos deben conservarse, revisarse y eliminarse.
Con base en el análisis de reactivos y en otras fuentes de información, se revisa la
prueba. Si las revisiones son sustanciales, es posible que se requieran nuevos
reactivos y prepruebas adicionales con nuevos individuos. Así, la construcción de
pruebas implica un circuito de realimentación donde se podrían producir 2, 3 y 4
bosquejos de un instrumento. La publicación de la prueba es el paso final. Además
de difundir los materiales de una prueba, el autor debe producir un manual fácil de
comprender para el usuario. A continuación se examinarán con más detalle cada
uno de estos pasos.

Definición de la prueba

A fin de construir una nueva prueba, el autor debe tener una idea clara de aquello
que ha de medir y de cómo difiere ésta de los instrumentos existentes. Dado que la
existencia de las pruebas psicológicas está a punto de entrar en su segundo siglo y
ya que se han publicado miles de pruebas para este momento, es claro que la
responsabilidad de probar que un instrumentó es diferente y mejor que los
existentes depende del autor.
84

Considérese la sobrecogedora tarea que enfrenta un autor de pruebas que propone


otro instrumento de inteligencia general. Con docenas de dichos instrumentos en
existencia, ¿cómo es posible que uno nuevo haga una contribución útil al campo?
La respuesta es que la investigación contemporánea aumenta de manera continua
la comprensión acerca de la inteligencia e impulsa a buscar nuevas maneras y más
útiles de medir este constructo multifacético.
Selección de un método de escalamiento
El propósito inmediato del examen psicológico es asignar números a las respuestas
en una prueba de modo que pueda juzgarse que la persona examinada tiene una
mayor o menor cantidad de la característica medida. Las reglas mediante las cuales
se asignan números a las respuestas definen el método de escalamiento. Los
autores de pruebas seleccionan un método de este tipo que se adecué en forma
óptima a la manera en que han conceptuado el rasgo o rasgos medidos por su
prueba. Ningún método de escalamiento es uniformemente mejor que otros. En el
caso de algunos rasgos, la clasificación ordinal de parte de jueces expertos podría
ser el mejor enfoque de medición; en el caso de otros, la medición escalar compleja
de los datos de auiointorme puede producir las medidas más válidas.
No obstante, antes de revisar los métodos de escalamiento seleccionados, es
necesario que se presente un concepto relacionado, los niveles de medición.

Niveles de medición

Todos los números extraídos de los instrumentos de medición de cualquier tipo


pueden colocarse dentro de una de cuatro categorías jerárquicas: nominal, ordinal,
de intervalo o de razón. Cada categoría define un nivel de medición; el orden que se
lista es de menos a más informativo.
En las escalas nominales, los números sirven sólo como nombres de categorías.
Por ejemplo, cuando se obtienen datos para un estudio demográfico, un
investigador podría codificar a los varones como "1" y a las mujeres como "2".
Véase que los números son arbitrarios y no designan si hay "más" o "menos" de una
cosa. En las escalas nominales, los números son sólo una forma simplificada de
85

denominación. Las escalas ordinales constituyen una forma de ordenación o


clasificación. Si se le pidiera a profesores universitarios que clasificaran cuatro
automóviles en cuanto a cuál preferirían poseer, el orden preterido podría ser "1"
Cadillac, "2" Chevrolet, "3" Volkswagen, "4" Hyundai. Obsérvese en este caso que
los números no son intercambiables. Una clasificación de "1" es "más" que una
clasificación de "2" y así sucesivamente. El "más" se refiere al orden de preferencia.
Sin embargo, las escalas ordinales no proporcionan información sobre la fortaleza
relativa de las clasificaciones. En este ejemplo hipotético no se puede saber si los
profesores universitarios tienen una fuerte preferencia por los Cadillac por encima
de los Chevrolet o sólo hay una diferencia marginal en su preferencia.
Una escala de intervalo proporciona información acerca de clasificación, pero
también provee una medida para estimar las diferencias entre clasificaciones, para
construir una escala de intervalo se podría pedir a los profesores universitarios que
calificaran en una escala de I a 100 qué tanto les gustaría poseer los cuatro
automóviles antes citados. Supóngase que las calificaciones promedio van como
sigue: Cadillac, 90; Chevrolet, 70; Volkswagen, 60; Hyundai, 50. A partir de esta
información se puede inferir que la preferencia por un Cadillac es mucho más fuerte
que por un Chevrolet que, a su vez, tiene una preferencia levemente más fuerte que
el Volkswagen. Más importante aún es que también puede suponerse que los inter-
valos entre los puntos en esta escala son aproximadamente iguales: La diferencia
ende la preferencia de los profesores por un Chevrolet y un Volkswagen (10 puntos)
es más o menos la misma que existe entre un Volkswagen y un Hyundai (también
10 puntos). En pocas palabras, las escalas de intervalo se basan en la suposición
de unidades o intervalos de igual tamaño para la escala subyacente.
Una escala de razón tiene todas las características de una escala de intervalo, pero
también posee un punto cero conceptualmente significativo, en el que existe
ausencia total de la característica medida.
Las escalas de razón son poco comunes en la medición psicológica. Considérese si
existe algún sentido significativo en el que pueda pensarse que una persona tiene
cero inteligencia. No, en realidad. Lo mismo ocurre con la mayor parle de los
constructos en psicología, ¡os punios cero significativos simplemente no existen. Sin
86

embargo, unas cuantas medidas físicas que emplean los psicólogos califican para
escalas de razón. Por ejemplo, la estatura y el peso alcanzan esa calificación y
quizá también algunas medidas fisiológicas.
Los niveles de medición son relevantes para la construcción de pruebas debido a
que los procedimientos estadísticos paramétricos más poderosos y útiles (p. ej., rae
Pearson, análisis de varianza, regresión múltiple) deberían utilizarse sólo para
puntuaciones obtenidas de medidas que satisfacen los criterios de las escalas de
intervalo o de razón. Para las escalas que sólo son nominales u ordinales deben
emplearse procedimientos estadísticos no paramétricos menos poderosos (p. ej., j¡
cuadrada, correlación por rangos, pruebas de mediana).

Métodos representativos

- Clasificaciones de expertos

Supóngase que se desea medir la profundidad del coma en los pacientes que han
sufrido un traumatismo craneal reciente que ios ha dejado inconscientes. Una
escala de profundidad del coma sería muy importante para la predicción del curso
de la mejoría, debido a que es bien conocido que un periodo extenso de inconscien-
cia ofrece un pronóstico pobre de recuperación. Además, el personal de
rehabilitación tiene la necesidad práctica de saber si un paciente está en coma
profundo o se encuentra en un estado parcialmente comunicativo de conciencia con
somnolencia.
Un enfoque de la medición con una escala de la profundidad del coma consistiría en
depender de las clasificaciones de expertos en cuanto a aspectos conductuales. Por
ejemplo, se le puede pedir a un panel de neurólogos que enumere las conductas
asociadas con los diferentes niveles de conciencia. Después de que éstos han
presentado una gran lisia de conductas diagnósticas, los autores de la prueba —
preferiblemente expertos en traumatismos craneales— clasificarían las conductas
indicadoras en un continuo de conciencia que vaya desde el coma profundo hasta la
orientación básica. Teasdale y Jennett (1974) utilizaron justo este enfoque y
87

produjeron la Glasgow Coma Scale (Escala de Coma de Glasgow). Instrumentos


similares a éste se emplean de manera amplia en hospitales para la evaluación de
lesiones por traumatismo craneal.
La Glasgow Coma Scale se califica al observar al paciente y asignar el máximo nivel
de funcionamiento en cada una de las tres subes-calas. En cada una se supone que
el paciente presenta todos los niveles de conducta por debajo del nivel calificado.
Así, desde un punto de vista psicométrico, esta escala consiste de tres subescalas
(ojos, respuesta verbal y respuesta motora) cada una de las cuales produce una
clasificación ordinal de conducta.
Si se asignan números a las clasificaciones (p. ej., para ojos abiertos una
codificación de "no" = 1; "ante el dolor" = 2 y así sucesivamente), entonces pueden
sumarse los números para el nivel calificado en cada subescala, lo cual produce
una puntuación máxima posible de 14 puntos. La puntuación total en la Glasgow
Coma Scale predice la recuperación posterior con un grado muy alto de precisión.
- Método de intervalos de aparición balanceada
A principios de este siglo, L. L. Thurstone (1929) propuso un método para construir
escalas al nivel de intervalo a partir de afirmaciones de actitud. Su método de
intervalos de aparición balanceada todavía se utiliza en la actualidad, lo cual hace
que Thurstone sea uno de los gigantes de la teoría psicométrica. La metodología en
sí para construir intervalos de aparición balanceada es un tanto estadísticamente
compleja y abrumadora, pero la lógica subyacente es fácil de explicar (Ghiselli,
Campbell y Zedeck, 1981). Para ilustrar este método, se resumen los pasos
implicados en la construcción de una escala de actitudes hacia la membresía a una
iglesia.
1. Se obtienen tantas afirmaciones posibles de falso-verdadero que reflejen una
variedad de actitudes positivas y negativas hacia la iglesia. Dos ejemplos extremos
podrían ser: "Siento que los servicios religiosos me dan inspiración y me ayudan a
dar lo mejor de mí mismo durante la siguiente semana". "Pienso que las iglesias
buscan imponer gran cantidad de dogmas anticuados y supersticiones medievales".
Por supuesto, también se reunirían muchos reactivos moderados.
2. A continuación, se le pide a un número aproximado de 10 jueces expertos que
88

califiquen estas afirmaciones para determinar el grado de


favorabilidad/desfavorabilidad hacia la actitud. Los jueces deben ser calificados para
esa tarea; podría utilizarse a ministros para una escala de actitud hacia la
membresía a una iglesia. En general, se pide a cada juez que clasifique cada
afirmación en categorías de 1 a 11 que vayan desde "extremadamente favorable"
hasta "extremadamente desfavorable‖. Se le dice a los jueces que hagan a un lado
sus propios prejuicios y que consideren las 11 categorías como equidistantes.
3. Después de que los jueces han terminado con el proceso de evaluación, se
determina la calificación media de favorabilidad (de 1 a 11) y la desviación estándar
para cada reactivo. Por ejemplo, 10 jueces pueden haber dado una calificación
promedio de favorabilidad de 9.2 al primer reactivo antes enunciado; pero es
probable que las calificaciones difieran de un juez a otro, como se refleja en una
desviación estándar de 1.1 para este reactivo.
4. Debido a que la desviación estándar en la calificación de favorabilidad de un
reactivo refleja ambigüedad, los reactivos con desviaciones estándar grandes se
descartan. Por lo general, se eligen aproximadamente 20 a 30 reactivos, de modo
que las afirmaciones cubran el rango de la dimensión (favorable a desfavorable). Se
supone que las diferencias entre reactivos en la escala final satisfacen las
propiedades de una escala de intervalo.
5. Se pide a las personas que contesten la escala de actitud que marquen todas las
afirmaciones con las que concuerdan. Su calificación se determina al promediar los
valores de escala de los reactivos respaldados.

- Método de escalamiento absoluto

Thurstone (1925) también desarrolló el método de escalamiento absoluto, un


procedimiento para obtener una medida de la dificultad absoluta de los reactivos
con base en los resultados de diferentes grupos de personas examinadas de
diferentes edades. La metodología para determinar la dificultad individual de los
reactivos en un escalamiento absoluto es bastante compleja, aunque la
fundamentación subyacente no es tan difícil de comprender. En esencia, se aplica
89

un conjunto de reactivos comunes de prueba a dos o más grupos de diferentes eda-


des. La dificultad relativa de éstos sirve como fundamento para realizar una serie de
comparaciones entrelazadas para todos los reactivos y todos los grupos por edad.
Un grupo por edad sirve como grupo base. La dificultad de los reactivos se mide en
unidades comunes como unidades de capacidad en desviación estándar para el
grupo base. El método de escalamiento absoluto se utiliza ampliamente en pruebas
de rendimiento y aptitud (STEP, 1980; Donlon, 1984).
Thurstone (1925) ilustró el método de escalamiento absoluto con datos de prueba
de 3 000 escolares en las 65 preguntas de la prueba Binet original. Con la media de
inteligencia de los niños de 3 años, 6 meses de edad en la prueba Binet como punto
cero y la desviación estándar de su inteligencia como unidad de medición, construyó
una escala que iba de -2 a + 10 y después localizó cada una de las 65 preguntas en
esa escala. Thurstone (1925) encontró que la escala "hace surgir de manera
bastante sorprendente el hecho de que las preguntas se encuentran agrupadas de
manera indebida en ciertos rangos de dificultad y son más bien escasas en otros".
Un autor moderno de pruebas utilizaría este tipo de análisis como base para
eliminar reactivos redundantes (en el sentido de que miden el mismo nivel de
dificultad) y añadiría otros que analicen los rangos superiores (e inferiores) de
dificultad.
- Escalas Likert
Likert (1932) propuso un método sencillo y directo para asignar una escala a las
actitudes, el cual tiene amplia utilización hoy día. Una escala Likert le presenta a la
persona evaluada cinco respuestas ordenadas en un continuo de
acuerdo/desacuerdo o aprobación/desaprobación. Por ejemplo, un reactivo en una
escala para evaluar las actitudes hacia la membresía a una iglesia podría ser:
Los servicios religiosos me dan inspiración y me ayudan a dar lo mejor de mí mismo
durante la siguiente semana.

Dependiendo del fraseo de un reactivo en particular, una respuesta extrema de


"fuertemente de acuerdo" o "fuertemente en desacuerdo" indicaría la respuesta más
favorable en la actitud subyacente medida con este cuestionario. Likert (1932)
90

asignó una puntuación de 5 a esta respuesta extrema, 1 a la respuestas totalmente


contraria y 2, 3 y 4 a las respuestas intermedias. La puntuación total de la escala se
obtiene al sumar las puntuaciones de los reactivos individuales. Por tal razón, la
escala Likert también se conoce como escala sumatoria.
- Escalas Guttman
En una escala Gutiman, las personas que corroboran una afirmación también
concuerdan con afirmaciones más leves que tienen que ver con el mismo continuo
subyacente (Guttman, 1944, 1947). Así, cuando el examinador conoce la
confirmación más extrema de la persona evaluada en el continuo, le es posible
reconstruir también la respuesta intermedia. Las escalas Guttman se producen al
seleccionar reactivos que caigan en una secuencia ordenada de confirmaciones de
la persona examinada. Es poco común que se logre una escala Guttman perfecta
debido a los errores de medición pero, de todas maneras, es una meta adecuada
para ciertos tipos de pruebas.
Aunque el enfoque Guttman se diseñó originalmente para determinar si un conjunto
de afirmaciones de actitud es unidimensional, la técnica se ha utilizado para muchos
tipos diferentes de pruebas. Por ejemplo, Beck utilizó un método de escalamiento
del tipo Guttman para producir los reactivos individuales del Beck Depresaion
Invcntory (Inventario Beck de Depresión; BDI, Beck, Steer y Garbín, 1988; Beck y
colaboradores, 1961). Los reactivos de este inventario se parecen a los siguientes:
( ) En ocasiones me siento triste o afligido
( ) Con frecuencia me siento triste o afligido
( ) Me siento triste o afligido la mayor parte del tiempo
( ) Siempre me siento triste y no puedo tolerarlo.
Se pide al cliente que "marque en cada grupo las afirmaciones que, a su parecer, lo
representen de manera más certera". Un cliente que marque una alternativa
extrema (p. ej., "Siempre me siento triste y no puedo tolerarlo") casi con toda
seguridad coincidirá también con las afirmaciones más leves.
- Método de concordancia empírica
Es posible que el lector haya observado que la mayor parte de los métodos de
escalamiento que se analizan en la sección anterior dependen del juicio autorizado
91

de expertos para la selección y ordenación de los reactivos. También es posible


construir escalas de medición que se basen por completo en consideraciones
empíricas ajenas a la teoría o el juicio experto. En el método de concordancia
empírica, los reactivos de una prueba se seleccionan para una escala con base
únicamente en qué tan bien contrastan con un grupo criterio con respecto a una
muestra normativa. Por ejemplo, se podría obtener una escala de Depresión a partir
de una reserva de preguntas de falso-verdadero de un inventario de personalidad,
como se ve a continuación:
1. Se reúne a un grupo cuidadosamente selec
cionado y homogéneo de personas que ex
perimenten depresión mayor, a fin de que
respondan a la reserva de preguntas de falso-
verdadero.
2. En cada reactivo se compara la frecuencia
de confirmación del grupo de depresión con
la de la muestra normativa.
3. Los reactivos que muestran una gran dife-
rencia en frecuencia de confirmación entre
las muestras con depresión y normativa se se-
leccionan para la escala de Depresión, se
codifican en la dirección favorecida por los
individuos con depresión (verdadero o falso,
según sea apropiado).
4. Entonces, la puntuación en bruto de la escala
de Depresión es sencillamente el número de
reactivos respondidos en la dirección codi-
ficada.
El método de concordancia empírica puede producir algunas sorpresas
interesantes. Un descubrimiento común es que algunos reactivos seleccionados
para una escala pueden no mostrar relación obvia con el constructo a medir. Por
ejemplo, un reactivo como "Bebo mucho agua" (codificado como verdadero) podría
92

terminar dentro de una escala de Depresión. La fundamentación momentánea para


incluir este reactivo es sencillamente que funciona. Por supuesto, el reto que se les
presenta a los investigadores consiste en determinar por qué funciona el reactivo.

- Construcción de escalamiento racional (consistencia interna)


El enfoque racional de la construcción de una escala es un método popular para el
desarrollo de los inventarios de autoinforme. El nombre racional es en cierto modo
equivocado, ya que algunos métodos estadísticos son esenciales para este
enfoque. También, el nombre implica que otros enfoques no son racionales o son
irracionales, lo cual es falso. En el centro del método de escalamiento racional se
encuentra que todos los reactivos de la escala se correlacionan en sentido positivo
entre sí y también con la puntuación total de la misma. Un nombre alternativo y más
apropiado para este enfoque es el de consistencia interna, el cual enfatiza lo que en
realidad se hace.
Supóngase que un autor de pruebas desea desarrollar una nueva escala de
autoinforme para el potencial de liderazgo. Con base en una revisión de la literatura
pertinente, el investigador podría concluir que el potencial de liderazgo se
caracteriza por confianza en uno mismo, flexibilidad bajo presión, inteligencia
elevada, capacidad de persuasión, asertividad y la capacidad para percibir lo que
otros piensan y sienten. Estos conceptos sugieren que los siguientes reactivos de
falso-verdadero podrían ser útiles en la evaluación del potencial de liderazgo
(Oough y Bradley, 1992):
En general tengo confianza y segundad en
mí mismo. (V)
Cuando otras personas están en desacuerdo
conmigo, en general me quedo en silencio o
cedo de algún otro modo. (F)
Creo que me encuentro notablemente por
encima del promedio en cuanto a capacidad
intelectual. (V)
Con frecuencia siento que tengo una comprensión
93

deficiente de la manera en que otras


personas reaccionarán ante las cosas. (F).
Es probable que mis amigos me describieran
como una persona fuerte y enérgica. (V)
La V y la F después de cada afirmación indican la dirección codificada de manera
racional para el potencial de liderazgo.
Por supuesto, también se propondrían reactivos adicionales con intenciones
similares. El autor de la prueba podría comenzar con 100 reactivos que parecen —
con una base racional— evaluar el potencial de liderazgo. Estos reactivos
preliminares se aplicarían a una muestra amplia de individuos similares a la pobla-
ción blanco a la que se dirige la escala. Por ejemplo, si ésta se diseña para
identificar a estudiantes universitarios con potencial de liderazgo, entonces debería
aplicarse a una muestra representativa de varios cientos de estudiantes
universitarios. Para el desarrollo de la escala son deseables muestras muy grandes.
En este caso hipotético, supóngase que se obtienen resultados con 500 estudiantes
universitarios.
El siguiente paso en la construcción de un escalamiento racional consiste en
correlacionar las puntuaciones de cada uno de los reactivos preliminares con la
puntuación total de la prueba para los 500 participantes en la muestra del piloteo.
Debido a que las puntuaciones en los reactivos son dicotómicas (se asigna de
manera arbitraria un 1 para la respuesta que corresponde a la clave de calificación y
O a la alternativa), se requiere de un coeficiente r» de correlación biserial. Una vez
que se obtienen las correlaciones, el investigador busca en el listado las
correlaciones débiles y las inversas (correlaciones negativas). Estos reactivos se
descartan debido a que no contribuyen a la medición del potencial de liderazgo.
Podrían eliminarse hasta la mitad de los reactivos originales. Si de inicio se descarta
una gran proporción de éstos, el investigador podría volver a calcular las corre-
laciones entre los reactivos y el total, con base en una reserva reducida de aquéllos
para verificar la homogeneidad de los restantes. Los reactivos que sobreviven a
este procedimiento iterativo constituyen la escala de potencial de liderazgo. El lector
debería mantener en mente que el enfoque racional para la construcción de escalas
94

tan sólo produce una homogénea al medir un constructo especificado. Se necesita-


rían estudios adicionales con nuevas muestras de individuos para determinar la
confiabilidad y validez de la nueva escala.

Construcción de Reactivos

Construir los reactivos de una prueba es un procedimiento doloroso y laborioso que


impone demandas a la creatividad de los autores de pruebas. Quien los redacta se
enfrenta con una profusión de preguntas iníciales:
¿El contenido de los reactivos debe ser homogéneo o variado?
¿Qué rango de dificultad deberían cubrir los reactivos?
¿Cuántos reactivos iníciales deberían construirse?
¿Qué procesos cognitivos y dominios del reactivo deberían cubrirse?
¿Qué tipos de reactivos de prueba deberían utilizarse?

- Preguntas iníciales en construcción de pruebas


La primera pregunta tiene que ver con la homogeneidad contra la heterogeneidad
en el contenido de los reactivos de una prueba. En gran medida, aquello que dicta si
el contenido de los reactivos ha de ser homogéneo o variado es la manera en que el
autor de la prueba ha definido al nuevo instrumento. Considérese una prueba
culturalmente reducida de la inteligencia general. Dicho instrumento podría
incorporar reactivos variados, en tanto las preguntas no supongan una escolaridad
específica. El autor de la prueba podría tener la intención de incorporar problemas
novedosos que sean igualmente desconocidos para todas las personas evaluadas.
Por otro lado, con una prueba de pensamiento espacial que se base en la teoría, se
requerirían subescalas con reactivos que tengan contenido homogéneo.
El rango de dificultad de los reactivos debe ser el suficiente como para dar lugar una
diferenciación significativa de las personas evaluadas en ambos extremos.
Entonces, las pruebas más útiles son aquellas que incluyen una serie graduada de
reactivos muy fáciles, que aprueban casi todos, al igual que un grupo de éstos cada
95

vez más difíciles que casi nadie aprueba. Se observa un efecto de límite superior
cuando números significativos de examinandos obtienen puntuaciones perfectas o
casi perfectas. El problema con el efecto de límite superior es que no son posibles
las distinciones entre personas con puntuaciones elevadas, aunque estos individuos
podrían diferir de manera sustancial en cuanto al rasgo subyacente que mide la
prueba. Se observa un efecto de límite inferior cuando cantidades significativas de
examinandos obtienen puntuaciones que se encuentran cerca o en la parte más
baja de la escala. Por ejemplo, el WAIS-R tiene un importante efecto de límite
inferior en cuanto a que no puede discriminar entre los niveles moderado, grave y
profundo de retraso mental —todas las personas con discapacidades significativas
del desarrollo fallan en sus respuestas a casi todas las preguntas.
Los autores de pruebas esperan que algunos de los reactivos iniciales produzcan
contribuciones poco eficaces para el objetivo global de medición de su instrumento.
Por esta razón, es común la práctica de construir un primer borrador que contenga
un exceso de reactivos, quizás el doble del número de preguntas que se deseen
para el bosquejo final. Por ejemplo, el MMPI, que contiene 550 reactivos, original-
mente consistía de más de 1 000 afirmaciones de falso-verdadero acerca de la
personalidad.
Pautas para la redacción de reactivos de opción múltiple
o Elija palabras que tengan significados precisos.
o Evite la sintaxis compleja o extraña.
o Incluya toda la información necesaria para la selección de la respuesta.
o Incluya lo más posible de la pregunta dentro del planteamiento.
o No tome los planteamientos al pie de la letra de los libros de texto.
o Utilice opciones de igual extensión y fraseo paralelo.
o Utilice "ninguna de las anteriores" y "todas las anteriores" en raras
ocasiones.
o Reduzca al mínimo el empleo de negativos como no.
o Evite la utilización de palabras no funcionales.
o Evite la especificidad innecesaria en el planteamiento.
o Evite indicios innecesarios de la respuesta correcta.
96

o Presente los reactivos a otras personas para escrutinio editorial.

UNIDAD 2. APROXIMACIÓN AL USO DE LAS PRUEBAS PSICOLÓGICAS

Capítulo 4. Las Pruebas y su Proceso de Aplicación

Lección 16. Definición de una prueba

Una prueba es un procedimiento estandarizado para tomar una muestra de


conducta y describirla con categorías o puntuaciones. Además, la mayor parte tiene
normas o estándares, con base en los cuales pueden utilizarse los resultados para
pronosticar otras conductas más importantes. Incluidas dentro de esta perspectiva
se encuentran las pruebas tradicionales como los cuestionarios de personalidad y
las pruebas de inteligencia, pero la definición también incluye diversos
procedimientos que el lector podría no reconocer como tales. Por ejemplo, todos los
métodos siguientes pueden ser pruebas: una lista de verificación para clasificar las
habilidades sociales de un joven con retraso mental; una medida sin límite de
tiempo del dominio en la suma de pares de números de tres dígitos; valoraciones
por computadora del tiempo de reacción; e incluso, pruebas situacionales como la
observación de un individuo que trabaja en una tarea de grupo con dos "ayudantes"
poco cooperativos y que sólo le causan dificultades.
En suma, las pruebas son sumamente variadas en sus formatos y aplicaciones. Sin
embargo, la mayor parte posee estas características que las definen:
 Procedimiento estandarizado.
 Muestra de conducta.
 Puntuaciones o categorías.
 Normas o estándares.
 Predicción de conducta fuera de la prueba.
La imagen que se desea representar tiene que ver en especial con las pruebas
referentes a la norma —las que utilizan una población bien definida de personas
para su esquema interpretativo. Sin embargo, las características definitorias de una
97

prueba difieren un tanto en el caso especial de las pruebas referidas a criterio —las
que miden lo que una persona puede hacer, en lugar de comparar los resultados
con los niveles de desempeño de otros. Por tal razón, se tratan por separado las
pruebas referidas a criterio.
El procedimiento estandarizado es una característica esencial de cualquier prueba
psicológica. Se considera que una prueba está estandarizada si los procedimientos
para su aplicación son uniformes de un examinador a otro y de un ambiente a otro.
Por supuesto, la estandarización depende, en cierto grado, de la capacidad del
examinador. Incluso la mejor prueba puede resultar inútil en manos de un evaluador
descuidado, con entrenamiento deficiente o mal informado. Sin embargo, la mayoría
de los examinadores son competentes. Por tanto, la estandarización depende en
gran medida de las disposiciones de aplicación que se encuentran en el manual de
instrucciones que por lo común acompaña a una prueba.
La formulación de las instrucciones es un paso esencial para la estandarización de
una prueba. A fin de garantizar procedimientos uniformes de aplicación, quien
desarrolla una prueba debe proporcionar materiales estímulo comparables para
todos los examinados, debe especificar con una precisión considerable las
instrucciones verbales para cada reactivo o subprueba y debe aconsejarle al
examinador cómo ha de manejar una diversidad de dudas por parte de la persona
evaluada.
Para ilustrar estos puntos, considérense las diversas maneras en que una persona
que desarrolla una prueba podría enfocar la evaluación de la retención de dígitos —
el número máximo de dígitos presentados verbalmente que un sujeto puede
recordar de memoria. Podría ser que una prueba no estandarizada de retención de
dígitos sugiriera tan sólo que el examinador presentara de manera verbal series
cada vez más largas de números hasta que el sujeto fallara. El número de dígitos en
la serie más larga recordada sería, entonces, la capacidad de retención de dígitos
del sujeto. La mayoría de los lectores puede darse cuenta de que una prueba con
tal definición tan general carecerá de uniformidad de un examinador a otro. Si quien
aplica la prueba está en libertad de improvisar cualquier serie de dígitos, ¿qué
podría impedirle que presentara, con la inflexión familiar de un locutor de televisión,"
98

1 -800-325-3535"? Tal serie sería bastante más fácil de recordar que un conjunto
más aleatorio, por ejemplo, "7-2-8-1-9-4-6-3-7-4-2". La velocidad de presentación
también puede tener un efecto crucial sobre la uniformidad de una prueba de
retención de dígitos. Para propósitos de estandarización, es esencial que todos los
examinadores presenten cada serie a una tasa constante; por ejemplo, un dígito por
segundo. Por último, el examinador necesita saber cómo ha de reaccionar ante
respuestas inesperadas, como el que un sujeto le diga: "¿podría repetirlos de
nuevo?" Por razones obvias, el consejo habitual es "no".
Quien desarrolla una prueba puede incluso llegar hasta el punto de recomendar el
comportamiento deseado en el examinador, como mantener una expresión facial
neutra cuando se registra la respuesta de un sujeto. Estas influencias
aparentemente sutiles pueden tener un serio impacto sobre la uniformidad de los
procedimientos de prueba. Por ejemplo, un examinador que se sonríe con
displicencia cuando registra las respuestas podría provocar que el sujeto se sienta
ansioso y falle en una tarea fácil.
Una prueba psicológica también es una muestra limitada de conducta. Ni el sujeto ni
el examinador tienen el tiempo suficiente para una prueba realmente amplia, incluso
cuando ésta se dirige a un dominio conductual bien definido y finito. Así, las
restricciones prácticas dictan que una prueba es sólo una muestra de conducta. Sin
embargo, la muestra de conducta es de interés sólo en la medida que permita que
el examinador realice inferencias acerca del dominio total de conductas
relacionadas. Por ejemplo, el propósito de una prueba de vocabulario consiste en
determinar la reserva completa de palabras de la persona examinada, al pedir
definiciones de una muestra muy pequeña, pero cuidadosamente seleccionada, de
palabras. El hecho de que el sujeto pueda definir las 35 palabras particulares de una
subprueba de vocabulario (p. ej., en el WAIS-R) es de poca consecuencia directa.
Pero el significado de dichos resultados es de gran importancia debido a que señala
el conocimiento general de vocabulario del individúe evaluado.
Un punto interesante —del que el público en general tiene poco conocimiento— es
que los reactivos de prueba no necesitan parecerse a las conductas que la prueba
intenta pronosticar. La característica esencial de una buena prueba es que permita
99

que el examinador pronostique otras conductas —no que refleje aquéllas a predecir.
Si responder "cierto" a la afirmación "bebo mucha agua" ayuda a predecir la
depresión, entonces esta afirmación, en apariencia no relacionada, es un índice útil
de la depresión. Por tanto, el lector observará que la predicción exitosa es una
cuestión empírica que se resuelve a través de la investigación apropiada. Aunque la
mayoría de las pruebas toman una muestra directa del dominio de conductas que
esperan predecir, éste no es un requisito psicométrico.
Una prueba psicológica también debe permitir la derivación de puntuaciones o
categorías. Las pruebas se esfuerzan en ser una forma de medición similar a los
procedimientos de las ciencias físicas, donde los números representan dimensiones
abstractas como peso o temperatura. Toda prueba suministra una o más
puntuaciones o proporciona evidencia de que una persona pertenece a una
categoría y no a otra. En pocas palabras, las pruebas psicológicas resumen la
ejecución en números o clasificaciones.
La suposición implícita del punto de vista psicométrico es que las pruebas miden las
diferencias individuales en cuanto a rasgos o características que existen en cierto
sentido vago de la palabra. En la mayor parte de los casos, se supone que todas las
personas poseen el rasgo o característica medida, aunque en diferentes cantidades.
El propósito de la prueba consiste en estimar la cantidad del rasgo o cualidad que
posee un individuo.
En este contexto, se deben hacer dos advertencias. Primero, toda puntuación de
prueba siempre reflejará cierto grado de error de medición. La imprecisión de las
pruebas es simplemente inevitable: éstas deben depender de una muestra externa
de conducta para estimar la característica no observable y, por tanto, inferida. Con
frecuencia, los psicómetras expresan este punto fundamental con la ecuación:
X=T+e
donde X es la puntuación observada, T la puntuación verdadera y e el componente
de error positivo o negativo. Lo mejor que puede hacer quien desarrolla una prueba
es procurar que e sea muy pequeño. Nunca se le puede eliminar por completo,
como tampoco se puede saber su impacto exacto sobre el caso individual.
La segunda advertencia es que los consumidores de pruebas deben prevenirse de
100

materializar las características medidas. Los resultados no representan una "cosa"


que tenga realidad física; por lo común, representan una abstracción que se ha
demostrado que tiene utilidad para pronosticar conductas externas a la prueba. Por
ejemplo, cuando se analiza el CI de una persona, los psicólogos se refieren a una
abstracción que no tiene existencia directa, material, pero que, sin embargo, es útil
para pronosticar el rendimiento escolar y otros resultados.
Una prueba psicológica también debe poseer normas o estándares. En general, la
puntuación de prueba de una persona se interpreta al compararla con las
puntuaciones obtenidas por otros individuos en la misma prueba. Para este
propósito, es común que quienes desarrollan pruebas aplican normas —un
resumen de los resultados de prueba de un grupo grande y representativo de
personas. El grupo normativo se conoce como muestra de estandarización.
La selección y evaluación de la muestra de estandarización es crucial para la
utilidad de una prueba. Este grupo debe ser representativo de la población a la que
se dirige la prueba o, de otra manera, no será posible determinar la posición relativa
de un individuo examinado. En el caso extremo donde no se proporcionan normas,
el examinador no puede utilizar en absoluto los resultados de la prueba. Una
excepción a este punto ocurre en el caso de las pruebas referidas a criterio.
Las normas no sólo establecen un desempeño promedio, sino que también sirven
para indicar la frecuencia con la que se obtienen diferentes puntuaciones altas y
bajas Así, las normas permiten que el examinador determine el grado al que se
desvía una puntuación con respecto a las expectativas. Tal información puede ser
muy importante en la predicción de la conducta externa a la prueba del individuo
examinado. Las normas tienen tal importancia trascendental en la interpretación de
pruebas, que después se les considerará con amplitud en una sección
independiente dentro de este texto.
Por último, las pruebas no constituyen un fin en sí mismas. En general, el propósito
último de una prueba consiste en pronosticar conductas adicionales, diferentes de
aquellas que se muestrean de manera directa en la prueba. Así, el examinador
puede tener mayor interés en las conductas externas a la prueba pronosticadas por
ésta que en las respuestas de prueba en sí. Quizás un ejemplo concreto aclarará
101

este punto. Supóngase que un examinador aplica una prueba de manchas de tinta a
un paciente en un hospital psiquiátrico y que el paciente responde a una mancha de
tinta describiéndola como "ojos que se asoman sigilosamente". Con base en las
normas establecidas, el examinador podría pronosticar entonces que el sujeto es
sumamente suspicaz y obtendrá poco beneficio de una psicoterapia individual.

Lección 17. Tipos y usos de las pruebas

Las pruebas pueden agruparse de manera amplia en dos bandos: pruebas grupales
y pruebas individuales. Las pruebas grupales son medidas principalmente de lápiz y
papel, adecuadas para examinar a grandes grupos de personas a un mismo tiempo.
Las pruebas individuales son instrumentos que, por su diseño y propósito, deben
aplicarse a una sola persona. Una ventaja importante de estas últimas es que el
examinador puede estimar el nivel de motivación del sujeto y evaluar la relevancia
de otros factores (p. ej., impulsividad o ansiedad) sobre los resultados de prueba.
Por conveniencia, las pruebas se clasificarán en ocho categorías representadas en;
cada una de ellas contiene pruebas referidas a la norma, referidas a criterio, indi-
viduales y grupales. El lector observará que cualquier tipología de las pruebas es
una determinación puramente arbitraria. Por ejemplo, podría postularse incluso otra
dicotomía: pruebas que buscan medir el desempeño máximo (p. ej., una prueba de
inteligencia) contra las que buscan estimar una respuesta típica (p. ej., un inventario
de personalidad).
- Principales tipos de pruebas psicológicas:
 Pruebas de inteligencia: miden la capacidad de un individuo en áreas
relativamente globales como comprensión verbal, organización perceptual o
razonamiento y, por tanto, ayudan a determinar el potencial para el trabajo
escolar o para ciertas ocupaciones.
 Pruebas de aptitud: miden la capacidad para una tarea o tipo de habilidad
relativamente específica; en efecto, las pruebas de aptitud son una forma
estrecha de prueba de capacidad.
102

 Pruebas de aprovechamiento: miden el grado de aprendizaje, éxito o logro de


una persona en un tema o tarea.
 Pruebas de creatividad: evalúan el pensamiento novedoso y original y la
capacidad para encontrar soluciones poco comunes o inesperadas, en
especial, para problemas definidos de manera vaga.
 Pruebas de personalidad: miden los rasgos, cualidades o conductas que
determinan la individualidad de una persona; dichas pruebas incluyen listas
de verificación, inventarios y técnicas proyectivas.
 Inventarios de intereses: miden la preferencia de un individuo por ciertas
actividades o temas y, por tanto, ayudan a determinar la elección de carrera.
 Procedimientos conductuales: describen de manera objetiva una conducta y
estiman su frecuencia, identificando los antecedentes y consecuencias de la
conducta.
 Pruebas neuropsicológicas: miden el desempeño cognoscitivo, sensorial,
perceptual y motor para determinar el grado, localización y consecuencias
conductuales del daño cerebral

En un sentido estricto, existen cientos de tipos diferentes de pruebas, cada una de


las cuales mide un aspecto ligeramente diferente del individuo. Por ejemplo, podría
discutirse que incluso dos pruebas de inteligencia constituirían diferentes tipos de
medida. Una prueba podría revelar la suposición de que la inteligencia es un
constructo biológico que puede medirse mejor a través de las ondas cerebrales,
mientras otra podría fundamentarse en la perspectiva tradicional de que la
inteligencia se exhibe en la capacidad para aprender habilidades aculturadas como
el vocabulario. Agrupar ambas medidas bajo la categoría de pruebas de
inteligencia es con toda seguridad una simplificación exagerada pero, sin embargo,
es un punto de partida útil.
Las pruebas de inteligencia se diseñaron originalmente para tornar una muestra de
una amplia variedad de habilidades, a fin de estimar el nivel intelectual general del
individuo. Las escalas Binet-Simon tuvieron éxito, en parte, debido a que
incorporaban tareas heterogéneas, incluyendo definiciones de palabras, memoria de
103

diseños, preguntas de comprensión y tareas de visualización espacial. Las pruebas


grupales de inteligencia que florecieron con tal profusión durante y después de la
segunda Guerra Mundial también medían capacidades diversas —como lo
demuestra la prueba Army Alfa con sus ocho secciones diferentes que miden juicio
práctico, información, aritmética y razonamiento, entre otras habilidades.
Las pruebas modernas de inteligencia también emulan este patrón históricamente
establecido al tomar una muestra de una amplia variedad de destrezas
consideradas importantes en nuestra cultura. En general, el término prueba de
inteligencia se refiere a una prueba que produce una puntuación resumida general,
basada en los resultados de una muestra heterogénea de reactivos. Por supuesto,
una prueba de este tipo podría también proporcionar un perfil de las puntuaciones
de subprueba, pero es la puntuación general la que en términos generales atrae la
mayor atención.
Una prueba de aptitud mide uno o más segmentos claramente definidos y
relativamente homogéneos de una capacidad; tiene dos variedades: pruebas de una
sola aptitud y baterías de prueba de aptitudes múltiples. Como es obvio, las
primeras evalúan sólo una capacidad, mientras que las segundas proporcionan un
perfil de puntuaciones para varias aptitudes.
Con frecuencia, las pruebas de aptitud se emplean para pronosticar el éxito en una
profesión, curso de entrenamiento o esfuerzos educativos. Por ejemplo, las Medidas
Seashore de Talentos Musicales (Seashore, 1938), una serie de pruebas que
cubren tono, sonoridad, ritmo, tiempo, timbre y memoria tonal, pueden utilizarse
para identificar a niños que tienen un talento potencial para la música. También
existen pruebas de aptitudes especializadas para la evaluación de habilidades en
trabajo de oficina, capacidades mecánicas, destreza manual y capacidad artística.
El uso más común para las pruebas de aptitud consiste en determinar las
admisiones a la universidad. La mayoría de los estudiantes universitarios están
familiarizados con el SAT (del inglés Scliolastic Assessment Test; Prueba de
Evaluación Escolar, antes llamada Scholastic Aptitude Test; Prueba de Aptitud
Escolar) del Comité de Examen de Ingreso a la Universidad. Esta prueba contiene
una sección Verbal, que deslaca el conocimiento de palabras y la comprensión de
104

lectura, y una sección de Matemáticas, que destaca el álgebra, la geometría y el


razonamiento perspicaz. En efecto, las universidades que requieren con fines de
admisión ciertas puntuaciones mínimas en el SAT, utilizan la prueba para
pronosticar el éxito académico.
Las pruebas de aprovechamiento miden el grado de aprendizaje, éxito o logro de
una persona en una materia. La suposición implícita de la mayor parte de estas
pruebas es que las escuelas han enseñado la materia de manera directa. Por tanto,
el propósito de la prueba consiste en determinar la cantidad del material que el
sujeto ha absorbido o dominado. En general, las pruebas de aprovechamiento
tienen varias subpruebas; por ejemplo, lectura, matemáticas, lenguaje, ciencias
naturales y ciencias sociales, las cuales se revisan en el tema 8B, Pruebas grupales
de aprovechamiento.
La distinción entre pruebas de aptitud y de aprovechamiento es más una cuestión
de uso que de contenido (Gregory, 1994a). De hecho, cualquier prueba puede ser
de aptitud, en el sentido de que ayuda a pronosticar el desempeño futuro. De la
misma manera, cualquier prueba puede ser de aprovechamiento, en el sentido de
que refleja cuánto ha aprendido el sujeto. Por tanto, en la práctica, la distinción entre
estos dos tipos de instrumentos se determina por sus respectivos usos. En ciertas
ocasiones, un instrumento puede servir para ambos propósitos, actuando como una
prueba de aptitud para predecir el desempeño futuro, y como prueba de
aprovechamiento, para supervisar el aprendizaje pasado.
Las pruebas de creatividad evalúan la capacidad del sujeto para producir nuevas
ideas, discernimientos o creaciones artísticas que se consideran de valor social,
estético o científico. Así, las medidas de creatividad enfatizan la novedad y
originalidad en la solución de problemas confusos o en la producción de obras
artísticas.
Las pruebas de creatividad tienen una historia accidentada. En el decenio de 1960
se les promocionaba como una alternativa útil para las pruebas de inteligencia y se
les utilizó ampliamente en los sistemas educativos de EUA. Los educadores se
mostraron especialmente impresionados de que las pruebas de creatividad
requirieran del pensamiento divergente —empleando una variedad de respuestas
105

para un problema complejo o confuso— en oposiciónal pensamiento convergente —


encontrando una solución correcta única para un problema bien definido. Por
ejemplo, una prueba de creatividad podría pedirle al individuo examinado que
imaginara todas las cosas que sucederían si las nubes tuvieran cuerdas que
colgaran de ellas hasta el piso (Guilford, 1954). Se suponía que los alumnos que
pudieran dar un gran número de consecuencias eran más creativos que sus
compañeros menos imaginativos. Sin embargo, algunos psicómetras se mostraron
escép-ticos, concluyendo que la creatividad es sólo otra etiqueta para la inteligencia
aplicada (p. ej., McNemar, 1964).
Las pruebas de personalidad miden los rasgos, cualidades o conductas que
determinan la individualidad de una persona; esta información ayuda a pronosticar
la conducta. Estas pruebas pueden encontrarse en muchas variedades diferentes,
incluyendo listas de verificación, inventarios y técnicas proyectivas como frases
incompletas y manchas de tinta.
Los inventarios de intereses miden la preferencia de un individuo por ciertas
actividades o temas y, con ello, ayudan a determinar la elección de carrera; se
basan en la suposición explícita de que los patrones de interés determinan y, por
tanto, también predicen la satisfacción con el trabajo. Por ejemplo, si la persona
examinada tiene los mismos intereses que los contadores exitosos y satisfechos, se
considera probable que disfrutará del trabajo de un contador. La suposición de que
los patrones de interés pronostican la satisfacción con el trabajo se confirma en gran
medida a través de estudios empíricos.
Existen muchos tipos de procedimientos conductuales para evaluar los
antecedentes y consecuencias de la conducta, incluyendo listas de verificación,
escalas de clasificación, entrevistas y observaciones estructuradas. Estos métodos
comparten una suposición común de que la conducta puede comprenderse mejor
en términos de características definidas de manera clara como frecuencia, duración,
antecedentes y consecuencias. Los procedimientos conductuales tienden a ser
sumamente pragmáticos en el sentido de que generalmente se encuentran
entretejidos con enfoques de tratamiento.
Las pruebas neuropsicológicas se utilizan para la evaluación de personas de las
106

que se sospecha o se sabe que tienen una disfunción cerebral. La neuropsicología


es el estudio de las relaciones cerebro-conducta. A través de los años, los
neuropsicólogos han descubierto que ciertas pruebas y procedimientos son muy
sensibles a los efectos del daño cerebral, y emplean estas pruebas y
procedimientos especializados para hacer inferencias acerca de la localización,
grado y consecuencias de dicho daño.
Aunque las pruebas y procedimientos neuropsicológicos son útiles para llegar a un
diagnóstico neurológico, su principal propósito consiste en valorar las fortalezas y
debilidades sensoriales, motoras, cognitivas y conductuales de un paciente con
alteración neurológica. La evaluación de fortalezas y debilidades en estos pacientes
es crucial para documentar la mejoría, proyectar el grado de deterioro en los
padecimientos degenerativos y planificar tratamientos efectivos para incapacidades
específicas.

Lección 18. Procesos de aplicación estandarizados

La interpretación de una prueba psicológica es más confiable cuando las


mediciones se obtienen bajo las condiciones estandarizadas. Los procedimientos no
estandarizados pueden alterar el significado de los resultados de la prueba, que
pueden resultar inválidos y, por tanto, engañosos.
En las aplicaciones típicas, quienes aplican una prueba deben seguir de manera
cuidadosa los procedimientos estandarizados para la aplicación y calificación que
especifica el editor de la prueba. Las especificaciones concernientes a las
instrucciones para las personas examinadas, límites de tiempo, forma de
presentación o respuesta del reactivo y materiales o equipo de prueba deben
observarse de manera estricta. Sólo deben hacerse excepciones con base en el jui-
cio profesional considerado de modo cuidadoso, principalmente en las aplicaciones
clínicas (AERA, APA, NCME, 1985)
Supóngase que las instrucciones para la sección de vocabulario de una prueba de
inteligencia para niños especifica que el examinador debe preguntar: "¿qué significa
la palabra diván, qué es un diván?" Si el sujeto respondiera "nunca he escuchado
107

esa palabra", un examinador sin experiencia podría sentirse tentado a responder:


"ya sabes, un sofá —¿qué es un sofá?" Esto podría parecerle al lector como una
forma inocente de juego limpio, un simple refraseo de la pregunta original. Sin
embargo, al alejarse de los procedimientos estandarizados, el examinador ha
aplicado en realidad otra prueba. El punto de pedir la definición de diván (y no sofá)
es precisamente que diván es más difícil de definir y, por tanto, es un mejor índice
de habilidades de nivel superior en cuanto a vocabulario.
Aunque los procedimientos estandarizados de prueba son normalmente esenciales,
existen casos en que es deseable, o incluso necesaria, la flexibilidad en los
procedimientos. Como lo sugieren las normas de la APA, dichas desviaciones
deben ser razonadas y deliberadas. Aquí es pertinente realizar una analogía entre el
espíritu y la letra de la ley. Un examinador demasiado entusiasta podría captar, por
un decir, la letra de la ley al adherirse de manera literal y estricta a los
procedimientos de prueba expresados en el manual de edición. Pero, ¿en realidad
ésta era la intención del editor? ¿Siquiera es la manera en que, en realidad, se
aplicó la prueba a la muestra normativa? Es más probable que los editores
preferirían que los examinadores captaran el espíritu de la ley incluso si, en
ocasiones, fuera necesario adaptar un tanto los procedimientos de la prueba.
Considérese la siguiente situación que surgió cuando un psicólogo le aplicó una
prueba estandarizada de inteligencia a una estudiante universitaria ansiosa y
demasiado concreta. Cuando se le preguntó: "¿cuántos son cuatro dólares más
cinco dólares?", la estudiante respondió: "cuatro dólares son cuatro dólares y cinco
dólares son cinco dólares". Una interpretación literal del manual de prueba requeri-
ría que el examinador registrara un crédito de cero y prosiguiera con el siguiente
reactivo. Sin embargo, la pregunta tenía el propósito de examinar las habilidades
aritméticas y no lo concreto del pensamiento. Así, el examinador hizo de nuevo la
pregunta con un ligero cambio en cuanto a énfasis: "¿cuántos son cuatro dólares y
cinco dólares?" La sujeto lanzó una fuerte carcajada y respondió de inmediato
"nueve dólares —no me percaté de que era una pregunta de aritmética".
Los ajustes menores a los procedimientos, que se adhieren al espíritu en el que se
desarrolló la prueba, ocurren de manera regular y no son causa de alarma. Estas
108

adaptaciones menores no invalidan las normas establecidas —por el contrario, la


adaptación apropiada de los procedimientos es necesaria de modo que las normas
puedan continuar siendo válidas. Después de todo, los examinadores que
recolectaron dalos sobre la muestra de estandarización no actuaron como
autómatas sin corazón cuando presentaron las preguntas a los sujetos. Los
examinadores que deseen obtener resultados válidos deben ejercer, del mismo
modo, una flexibilidad razonada en los procedimientos de prueba.
Sin embargo, es necesario tener una considerable experiencia clínica para
determinar si un ajuste en el procedimiento es menor o tan sustancial que las
normas existentes ya no pueden aplicarse. Ésta es la razón por la cual los exa-
minadores en psicología pasan, por lo común, por una extensa experiencia
supervisada antes de que se les permita aplicar e interpretar pruebas individuales
de capacidad o de personalidad.

Lección 19. Procesos de aplicación deseables

Se analizarán primero las pruebas individuales y después se enumerarán de


manera breve algunos puntos importantes acerca de los procedimientos deseables
en las pruebas con grupos.
Un componente esencial de las pruebas individuales es que los examinadores
deben familiarizarse íntimamente con los materiales e instrucciones antes de
comenzar con la aplicación. En su mayoría, esto implica extensos ensayos y
anticipación de las circunstancias poco comunes y de la respuesta apropiada. Un
examinador bien preparado tiene memorizados los elementos clave de las
instrucciones verbales y está listo para manejar lo inesperado.
Con frecuencia, el estudiante de evaluación inexperto supone que los
procedimientos de examen son tan sencillos y simples que una sola lectura rápida
del manual será suficiente como preparación para la prueba. Aunque algunas
pruebas individuales son sumamente rudimentarias y poco complicadas, muchas de
ellas tienen aspectos complejos de aplicación que, si no se toman en cuenta,
pueden causar que el individuo examinado falle de manera innecesaria en los
109

reactivos. Por ejemplo, Choi y Proctor (1994) encontraron que 25 entre 27 es-
tudiantes de posgrado cometían serios errores en la aplicación de la Stanford-Binet:
Cuarta Edición, incluso aunque se videogrababan las sesiones y los estudiantes
sabían que se evaluarían sus habilidades de prueba. La atención apropiada a los
detalles de aplicación es esencial para obtener resultados válidos.
La necesidad de tener una íntima familiaridad con los procedimientos de prueba se
ilustra muy bien en la subprueba de Diseño con Cubos del WAIS-III (Wechsler,
1997). Los materiales para la subprueba incluyen nueve bloques (cubos) de color
rojo en dos lados, blanco en dos lados y rojo y blanco en dos lados. La tarea de la
persona evaluada consiste en utilizar los cubos para construir patrones represen-
tados en tarjetas. Para los diseños iniciales se necesitan cuatro cubos, mientras que
en los diseños más difíciles se utilizan los nueve cubos.
Los individuos inteligentes no tienen dificultad para comprender esta tarea y las
instrucciones exactas no influyen de manera apreciable en su desempeño. Sin
embargo, las personas cuya inteligencia es promedio o inferior a éste requieren de
las elaboradas demostraciones y correcciones que se especifican en el Manual del
WAIS-III (Wechsler, 1997). En particular, el examinador muestra los primeros dos
diseños y responde al éxito o fracaso del examinado en ellos, según un flujo
complejo de reacción y contrarreacción como se presenta en las tres páginas de
instrucciones. Lo sentimos por el examinador que no ha ensayado esta subprueba y
anticipado la respuesta apropiada para las personas que fallan en los primeros dos
diseños.

- Sensibilidad hacia las discapacidades


Otro ingrediente importante de la aplicación válida de una prueba es la sensibilidad
a las discapacidades de la persona evaluada. Las discapacidades en audición,
visión, habla o control motor pueden distorsionar gravemente los resultados de
prueba. Si el examinador no reconoce la discapacidad física responsable del
desempeño deficiente en la prueba, puede clasificarse al sujeto como discapacitado
a nivel intelectual o emocional cuando, de hecho, el problema esencial es una
discapacidad sensorial o motora.
110

Vernon y Brown (1964) informaron sobre el trágico caso de una niña pequeña a la
que se le relegó a un hospital para individuos con retraso mental, como
consecuencia de la insensibilidad del examinador hacia una discapacidad física. El
examinador no se dio cuenta de que la niña era sorda y concluyó que el CI de 29 en
la Stanford-Binet era válido. La niña permaneció en el hospital durante cinco años,
pero se le dio de alta después de que obtuvo un CI de 113 en una prueba de
inteligencia basada en el desempeño. Después de dejar el hospital, ingresó a una
escuela para sordos y logró buen progreso.
Las pruebas válidas con sujetos que tienen discapacidades auditivas requieren
antes que nada que el examinador ¡detecte la existencia de la discapacidad! Con
frecuencia esto es más difícil de lo que parece. Muchas personas con una pérdida
auditiva leve aprenden a compensar su discapacidad fingiendo que comprenden lo
que otros dicen y esperando que las siguientes señales dentro de la conversación
les ayuden a aclarar las palabras o frases percibidas apenas. Como resultado, otras
personas —incluyendo los psicólogos— pueden no darse cuenta de que el individuo
con una alteración auditiva leve tiene alguna discapacidad.
Las indicaciones de una posible dificultad auditiva incluyen falta de respuesta
normal ante el sonido, falta de atención, dificultades para obedecer instrucciones
orales, observación intensa de los labios del hablante y articulación deficiente
(Sattler, 1988). En todos los casos donde se sospecha la existencia de una altera-
ción auditiva, es crucial canalizar al sujeto a un examen audiológico. Si se confirma
un problema auditivo grave, entonces el examinador debería considerar el uso de
una de las pruebas especializadas. En el caso de personas con una pérdida auditiva
leve, es esencial que el examinador se coloque de frente al sujeto, hable más fuerte
y repita las instrucciones lentamente. También es importante localizar una
habitación silenciosa para la prueba. De manera ideal, dicha habitación tendrá
cortinas y superficies con textura en las paredes para reducir al mínimo los efectos
distractores de los ruidos de fondo.
En contraste con los individuos que tienen alteraciones auditivas, las personas con
discapacidades visuales generalmente atienden bien a los materiales de prueba
presentados de modo verbal. La persona con alteraciones visuales introduce un tipo
111

diferente de reto para el examinador; delectar la existencia de una alteración visual


y después, asegurarse de que el sujeto puede ver bien los materiales de prueba.
La visión borrosa o doble puede significar problemas visuales, como los dolores de
cabeza o las náuseas después de leer. En general, es tan común que los niños
requieran anteojos correctores, que los examinadores deben estar alertas a un
problema de visión en cualquier sujeto joven que no utilice anteojos y que no haya
pasado por un examen reciente de la visión.
Las alteraciones del habla representan otro problema para quienes deben hacer un
diagnóstico. Las respuestas verbales de las personas con alteraciones del habla
son difíciles de descifrar. Debido a la incapacidad del examinador para entender las
respuestas, los sujetos pueden recibir un menor crédito del que merecen
Incluso si su discapacidad es leve, las personas con parálisis cerebral u otras
alteraciones motoras pueden recibir penalización en pruebas de ejecución con límite
de tiempo. Cuando se somete a prueba a una persona con una discapacidad
motora leve, los examinadores podrían omitir las subpruebas de ejecución
cronometradas o descontar estos resultados si son consistentemente más bajos que
las puntuaciones de las subpruebas sin límite de tiempo Si un sujeto tiene una
discapacidad motora obvia —como lo es una dificultad para manipular las piezas de
un rompecabezas— entonces los instrumentos estándar aplicados de manera
norma! son generalmente inapropiudos. Se han desarrollado de manera expresa
varios instrumentos alternativos para examinar a personas con parálisis cerebral y
otras alteraciones motoras y las pruebas estándar se han adaptado de modo
ingenioso y se han establecido nuevas normas para estas adaptaciones.

- Procedimientos deseables con pruebas de grupo


Por lo común, los psicólogos y educadores suponen que casi cualquier adulto puede
aplicar de manera adecuada las pruebas grupales, en tanto tenga el manual
requerido. La aplicación de una prueba grupal parecería un procedimiento simple y
sencillo en el que se pasan los formatos y lápices, se leen las instrucciones, se toma
el tiempo y se recogen los materiales.
En realidad, conducir una prueba grupal requiere tanto refinamiento como aplicar
112

una prueba individual. Sin duda, la más grande fuente de error en la aplicación de
una prueba grupal tiene que ver con tomar de manera inadecuada el tiempo en las
pruebas cronometradas. Los examinadores deben concederé! tiempo suficiente
para el proceso completo de prueba: organización, lectura de las instrucciones en
voz alta y presentación de la prueba en sí por parte de los sujetos. Conceder el
tiempo suficiente requiere previsión en la programación. Por ejemplo, en muchos
ambientes escolares, los niños deben proceder a la siguiente clase en un horario
establecido, sin considerar las actividades en proceso. Los examinadores sin
experiencia podrían sentirse tentados a reducir el límite de tiempo designado para
una prueba, de modo que se pueda respetar el horario de la escuela. Por supuesto,
reducir el tiempo en una prueba causa que las normas sean completamente
inválidas y con toda probabilidad reduce la puntuación de la mayoría de los sujetos
en el grupo.
Conceder demasiado tiempo para una prueba puede constituir también un tremendo
error. Por ejemplo, considérese el impacto de recibir tiempo adicional en la Miller
Analogies Test (MAT; Prueba de Analogías de Miller), una prueba de razonamiento
de alto nivel que en algún tiempo requirieron muchas universidades para la solicitud
de ingreso al posgrado. Dado que la MAT es una prueba con límite de tiempo que
necesita de pensamiento analógico rápido, conceder más tiempo permitiría que la
mayoría de los individuos examinados resolvieran vanos problemas adicionales. Es
probable que este tipo de error de prueba disminuyera la validez de los resultados
de la MAT, como mecanismo de predicción del desempeño en el posgrado.
Una segunda fuente de error en la aplicación de pruebas grupales es la falta de
claridad en las instrucciones para los examinados. Los examinadores deben leer las
instrucciones con lentitud, con una voz clara y fuerte que atraiga la atención de los
sujetos. Las instrucciones no deben parafrasearse. Cuando el manual lo permite, los
examinadores deben detenerse en la lectura y aclarar las dudas de los individuos
que tienen alguna confusión.
Las variaciones en las condiciones físicas de aplicación de prueba constituyen una
tercera fuente de error potencial en la conducción de una prueba grupal. Los
examinadores deben asegurarse de que la habitación de examen esté bien
113

iluminada y, de ser necesario, que tenga calefacción o aire acondicionado para


controlar las variaciones extremas en cuanto a temperatura y humedad. Es poco
común que los autores de pruebas entren en detalles sobre las especificaciones
relativas a iluminación, temperatura y humedad, dado que los examinadores y
sujetos, con unas cuantas excepciones, tendrán que tolerar las condiciones
existentes. Sin embargo, es obvio que los examinandos no pueden tener un
desempeño óptimo si se les somete a prueba en una habitación con iluminación po-
bre o que es demasiado fría u opresivamente caliente y húmeda. Los examinadores
previsores deberían hacerle el favor a sus examinados de programar que las
pruebas grupales importantes se presenten en un ambiente agradable y bien
iluminado.
La importancia de la superficie de escritura se aumenta por la tendencia actual a
utilizar hojas separadas de respuesta. Los sujetos necesitan de un espacio más
amplio de escritorio cuando emplean hojas separadas de respuesta que bajo otras
condiciones. Aunque pocos editores de prueba lo señalan, sería bueno especificar
en los manuales de prueba las variaciones admisibles en cuanto a superficie de
escritura que de todos modos permiten resultados comparables de prueba.
El ruido es otro factor que debe controlarse en las pruebas grupales. Durante algún
tiempo se ha sabido que el ruido provoca una disminución en el desempeño, en
especial para tareas de alta complejidad (p. ej. Boggs y Simón, 1968). Es de
sorprender que exista poca investigación acerca de los efectos del ruido en las
pruebas psicológicas. Sin embargo, parece casi seguro que el ruido fuerte, en
especial si es intermitente e imposible de predecir, causará que las puntuaciones de
prueba se reduzcan de manera sustancial. No se puede esperar que los niños en
una escuela primaria tengan un buen desempeño mientras que un obrero de la
construcción golpea con un marro una pared de cemento en la habitación contigua.
Para ser justos con los examinandos, existen ocasiones en las que debe
reprogramarse la aplicación de la prueba.
Una cuarta fuente de error en la aplicación de una prueba grupal es la incapacidad
para explicar cuándo pueden adivinarse las respuestas y si está permitido hacerlo.
Quizá con más frecuencia que cualquier otra duda, a los examinadores se les
114

pregunta si "¿existe alguna sanción por adivinar mal una respuesta?" En la mayoría
de los casos, quienes desarrollan pruebas anticipan esta cuestión y proporcionan
pautas explícitas para los sujetos en cuanto a las ventajas, desventajas, o ambas,
de conjeturar una respuesta. Los examinadores no deben dar consejo adicional
sobre adivinar las respuestas —ello constituiría una grave desviación con respecto
al procedimiento estandarizado.
La mayoría de quienes desarrollan pruebas incorporan una corrección de conjeturas
basada en principios establecidos de probabilidad. Considérese una prueba de
opción múltiple que tiene cuatro alternativas por reactivo. En aquéllos donde el
sujeto realiza una conjetura aleatoria, sin tener el conocimiento, las probabilidades
de estar en lo correcto son de 1 entre 4, mientras que las probabilidades de estar
mal son de 3 entre 4. Así, por cada tres conjeturas incorrectas, habrá una correcta
que refleje la suerte más que el conocimiento. Supóngase que una niña responde
correctamente a 35 preguntas de una prueba de 50 reactivos, pero en nueve
preguntas sus respuestas son erróneas. En total ha respondido a 44 preguntas,
dejando seis sin responder. El hecho de que haya elegido la alternativa incorrecta
en nueve preguntas sugiere que ha obtenido tres respuestas correctas por suerte
más que por conocimiento. Recuérdese que, en el caso de las conjeturas aleatorias,
se espera que haya, en promedio, tres respuestas erróneas por cada respuesta
correcta, de modo que para nueve respuestas incorrectas se esperarían tres
conjeturas correctas en otras preguntas. La puntuación corregida de la niña —
aquella que de hecho se informa y se compara con las normas existentes— sería
entonces de 32, es decir, 35 menos 3. En otras palabras, es probable que conociera
32 respuestas, pero al adivinar en otras 12 aumentó su puntuación en otros 3
puntos.
La corrección para la puntuación que se ejemplifica en el párrafo anterior, se refiere
sólo a las respuestas aleatorias, sin conocimientos.
El efecto de tal corrección consiste en eliminar las ventajas que de otra manera se
concederían a quienes toman riesgos de manera aventurada. En algunos casos, un
individuo examinado puede eliminar una o dos de las alternativas, con lo cual
aumenta las probabilidades de adivinar correctamente entre las opciones restantes.
115

En esta situación puede ser adecuado que la persona trate de adivinar la respuesta.
Un redactor hábil de reactivos puede diseñar preguntas de modo que la alternativa
correcta sea totalmente contraria a la intuición y las alternativas incorrectas tengan
una cualidad persuasivamente atractiva. Para estos reactivos, una conjetura basada
en conocimientos es casi siempre incorrecta.
Ya sea que una prueba grupal utilice o no una corrección para la puntuación, el
punto importante reside en enfatizar en este contexto que quien aplica la prueba
debe seguir el procedimiento estandarizado y nunca ofrecer consejo adicional
acerca de adivinar las respuestas. En las pruebas grupales, las desviaciones con
respecto al manual de instrucciones son simplemente inaceptables.

Lección 20. Influencias del evaluador y del evaluado

- La importancia del rapport

Los editores de pruebas instan a los examinadores a establecer un rapport —una


atmósfera cómoda y cálida que sirva para motivar a los examinandos y que eduzca
la cooperación. Dar lugar a un ambiente cordial para la prueba es un aspecto crucial
de una prueba válida. Un examinador que no establece rapport puede provocar que
una persona reaccione con ansiedad, falta de cooperación de naturaleza pasivo-
agresiva u hostilidad abierta. El fracaso para establecer el rapport distorsiona los
datos de la prueba: se subestima la capacidad y se hace un juicio inadecuado de la
personalidad.
El rapport es de particular importancia en las pruebas individuales y en particular
cuando se evalúa a niños. Wechsler (1974) ha señalado que el establecimiento del
rapport crea fuertes demandas sobre las habilidades clínicas del examinador:
Debe lograr que el niño se sienta cómodo, mantenerlo interesado en las tareas en
cuestión y alentarlo a realizar su mejor estuerzo. No existe una fórmula mágica para
"ganarse" al niño; las aproximaciones que tienen éxito con algunos niños pueden
enfadar a otros. Con experiencia, el examinador desarrollará una perceptividad que
116

le permitirá establecer relaciones cordiales con los niños y adaptarse a las


necesidades especificas de cada uno. Las sugerencias generales que aparecen a
continuación se ofrecen para ayudar al examinador en sus esfuerzos.
Para lograr que el niño se sienta cómodo con su entorno, el examinador podría
hacer que participe en alguna conversación informal, antes de adentrarse en el
asunto más serio de aplicar de sus pasatiempos o intereses es una buena maneta
de romper el hielo, aunque en el caso de un niño tímido, puede ser mejor alentarlo a
que hable sobre algún aspecto concreto del ambiente —un cuadro en la pared, un
animal en el salón de clases o un libro o juguete (que no sea parte del material de
prueba) en la habitación de examen. En general, este periodo introductorio no
requiere más de 5 a 10 minutos, aunque la prueba no debe comenzar hasta que el
niño parezca lo suficientemente relajado como para dar su máximo esfuerzo.

Un estudio de Gregory, Lehman y Mohán (1976) ilustra la importancia de establecer


rapport cuando se examina a los niños. Estos investigadores buscaron determinar
los efectos del bajo nivel de exposición al plomo sobre el CI al aplicar el WISC a 193
niños que vivían cerca de una fundición de plomo. Los niños se asignaron a cinco
diferentes estudiantes de posgrado que aplicaron las pruebas, con base en una ro-
tación casi aleatoria en la que el examinador que estuviera libre atendía al primer
niño que llegara. Los grupos de niños sometidos a prueba por cada uno de los cinco
psicómetras no difería en el promedio de edad, exposición al plomo o clase social.
Lo que es más, las magnitudes de las muestras eran sustanciales, ya que su nú-
mero iba de los 30 a los 45 niños. De aquí que el promedio de los CI examinados
dentro de los cinco grupos debería haber sido muy similar.
Sin embargo, las diferencias entre los CI examinados en los cinco grupos fueron
penosamente grandes, con puntuaciones promedio que variaban hasta 14 puntos.
Clasificadas de menor a mayor, las puntuaciones promedio de los cinco grupos
fueron 90, 94,95,96 y 104. El examinador cuyos sujetos obtuvieron en promedio un
CI de 90 era muy formal, preciso, frío y apresurado. De hecho examinó con mucho a
la mayoría de los sujetos (45, en comparación con 37 del siguiente examinador más
prolífico) y, en general, terminaba mucho antes con cada niño. En el otro extremo se
117

encontraba el examinador, cuyos sujetos obtuvieron un CI promedio de 104. Fue


mucho más allá del buen rapport, hasta llegar al grado de ofrecer apoyo y aliento
que rayaba en conducir a los sujetos a la respuesta correcta. Por ejemplo, en
Diseño con Cubos instó a un niño a "Vamos, coloca los cubos de las esquinas y si-
gue a partir de allí".
Por tanto, los examinadores pueden diferir en cuanto a sus capacidades para
establecer rapport. Es probable que los examinadores fríos obtengan menos
cooperación de sus sujetos, lo cual tiene como consecuencia que se reduzca el
desempeño en una prueba de capacidad o que se obtengan resultados
distorsionados o defensivos en pruebas de personalidad. Los examinadores
demasiado solícitos pueden errar en la dirección opuesta, dando señales sutiles (y
en ocasiones más que obvias) de las respuestas correctas. Se deben evitar ambos
extremos.

- La persona examinada

Los examinandos difieren no sólo en las características que los examinadores


desean evaluar, sino también en otros aspectos ajenos que podrían alterar los
resultados de prueba. Por ejemplo, un individuo inteligente podría tener un
desempeño deficiente en una prueba cronometrada de la capacidad debido a
ansiedad ante ésta; un asesino cuerdo podría tener el propósito de parecer
mentalmente enfermo en un inventario de personalidad con la finalidad de evitar una
acusación; un estudiante con capacidad promedio podría prepararse para tener un
mejor desempeño en una prueba de aptitud. Algunos sujetos carecen totalmente de
motivación y no les interesa si obtienen un buen resultado en pruebas psicológicas.
En todos estos casos, los resultados de prueba pueden ser imprecisos debido a los
efectos penetrantes y causantes de distorsión de ciertas características del
examinando como la ansiedad, simulación, entrenamiento o antecedentes
culturales.
- Ansiedad ante la prueba
La ansiedad ante la prueba se refiere a aquellas respuestas fenomenológicas,
118

fisiológicas y conductuales que acompañan a la preocupación acerca del posible


fracaso en una prueba. No hay duda de que los sujetos experimentan diferentes
niveles de ansiedad ante la prueba, que van desde una actitud despreocupada,
hasta un temor incapacitante ante el prospecto de que se les someta a prueba.
Un amplio cuerpo de investigación ha confirmado el concepto de sentido común de
que la ansiedad ante la prueba se correlaciona en sentido negativo con el
rendimiento escolar, las puntuaciones de pruebas de aptitud y las medidas de
inteligencia (Naveh-Benjamin, McKeachie y Lin, 1987; McKeachie, 1984). Sin
embargo, la interpretación de estos descubrimientos de correlación no es simple.
Una posibilidad es que los estudiantes desarrollen ansiedad ante la prueba, debido
a antecedentes de tener un mal desempeño en los exámenes. Es decir, las dis-
minuciones en desempeño pueden anteceder y causar dicha ansiedad. En apoyo a
este punto de vista, Paulman y Kennelly (1984) encontraron que —con
independencia de su ansiedad— muchos estudiantes con ansiedad ante la prueba
también tenían ineficiencias en presentación de exámenes en ambientes
académicos. Dichos estudiantes lograban pobres resultados en pruebas, estuvieran
ansiosos o no. Lo que es más, Naveh-Benjamin, McKeachie y Lin (1987)
determinaron que una gran proporción de estudiantes universitarios con ansiedad
ante la prueba tenían malos hábitos de estudio que los predisponían a un pobre
desempeño en pruebas. La ansiedad de estos individuos es, en parte, un
subproducto de la frustración que han tenido toda la vida con respecto a resultados
mediocres en pruebas.
Otras líneas de investigación indican que la ansiedad ante la prueba tiene un efecto
perjudicial directo sobre el desempeño en pruebas. Es decir, es probable que esta
ansiedad sea tanto una causa como un efecto en la ecuación que la vincula con el
desempeño deficiente en pruebas. Considérese el estudio original que realizó
Sarason (1961) sobre este tema, quien sometió a prueba a sujetos con alta y baja
ansiedad bajo instrucciones neutras o inductores de ansiedad. Los sujetos eran
estudiantes universitarios a los que se les pidió que memorizaran palabras de dos
sílabas con un bajo nivel de significado —una tarea difícil. La mitad de los sujetos
trabajó bajo instrucciones neutras —simplemente se les dijo que memorizaran las
119

listas. A los sujetos restantes se les dijo que memorizaran las listas y que la tarea
era una prueba de inteligencia. Se les instó a tener el mejor desempeño posible. Los
dos grupos no difirieron de manera significativa en su desempeño cuando las
instrucciones eran neutras y no amenazantes. Sin embargo, cuando éstas excitaban
la ansiedad, los niveles de desempeño de los sujetos con alto grado de ansiedad
descendieron de modo notable, dejándolos con una enorme desventaja, en
comparación con aquellos que tenían baja ansiedad. Esto indica que los sujetos con
ansiedad ante la prueba muestran disminuciones significativas en su desempeño
cuando perciben la situación como una prueba. En contraste, los sujetos con bajo
nivel de ansiedad sufren un efecto relativamente nulo de tal redefinición simple del
contexto.
Las pruebas con estrictos límites de tiempo representan un problema especial para
las personas con altos niveles de ansiedad ante la prueba. La presión de tiempo
parece exacerbar el grado de amenaza personal, causando reducciones
significativas en el desempeño de las personas con ansiedad ante la prueba.
Siegman (1956) demostró este punto hace muchos años al comparar los niveles de
desempeño de pacientes médicos/psiquiátricos con alta y baja ansiedad en las
subpruebas con y sin límite de tiempo del WAIS. El WAIS consiste de 11 sub-
pruebas que incluyen seis subpruebas para las cuales el examinador utiliza un
cronómetro, a fin de imponer estrictos límites de tiempo y cinco subpruebas para las
cuales el sujeto tiene un tiempo ilimitado de respuesta. Es interesante que los
sujetos con alta y baja ansiedad tuvieron una capacidad total idéntica en el WAIS.
Sin embargo, cada grupo tuvo un mejor desempeño en la dirección prevista en los
diferentes tipos de subpruebas. En particular, los sujetos con bajo nivel de ansiedad
superaron a aquéllos con ansiedad elevada en las subpruebas con límite de tiempo,
mientras que se observó el patrón inverso en las subpruebas sin límite de tiempo.
- Motivación para el engaño
Los resultados de prueba pueden ser imprecisos si la persona tiene razones para
desempeñarse de una manera inadecuada o no representativa. El falseamiento
abierto de los resultados de prueba es poco común, pero llega a suceder. Una
pequeña fracción de personas que buscan beneficiarse de la rehabilitación o de
120

instituciones sociales "se fingirán malos" en pruebas de personalidad o de


capacidad. En ocasiones, las personas que anticipan una acusación criminal
fingirán enfermedad mental en pruebas de personalidad. Considérese el caso del
cliente de psicoterapia que contestó una prueba de personalidad por instrucciones
de su terapeuta. El terapeuta deseaba una evaluación precisa de la depresión
aparentemente leve del cliente. Los resultados fueron ambiguos, lo cual indica ya
sea un grado monumental de trastorno psicológico o un intento consciente de
exagerar los síntomas. Dos semanas después, el terapeuta descubre de manera
inadvertida que el cliente está a punto de ser acusado de abuso sexual infantil. En
apariencia, había falseado los resultados de prueba anticipando que pronto se
harían cargos legales en su contra. En parte, había planeado defenderse aduciendo
que la enfermedad mental era una factor atenuante para su conducta.
En la mayoría de los casos, un psicómetra bien entrenado puede detectar el
falseamiento consciente al hacer dos preguntas: 1) ¿El cliente tiene motivación para
tener un desempeño engañoso en las pruebas? 2) ¿El patrón general de resultados
es sospechoso a la luz de otra información conocida del cliente? Si la respuesta
para ambas preguntas es ―sí‖ entonces el examinador hará bien en ser escéptico
con los resultados de la prueba.

Capítulo 5. Pruebas de Personalidad

Lección 21. Medición de la personalidad

En algunos aspectos, medir la personalidad, se asemeja mucho a evaluar la


inteligencia, En uno u otro caso se intenta cuantificar algo que no podemos ver ni
tocar, y en ambos casos una buena prueba ha de ser confiable y valida a la vez.

Al evaluar la personalidad, no nos interesa la mejor conducta, lo que queremos


averiguar es la conducta típica del sujeto, es decir, como suele comportarse en
situaciones ordinarias.

En la intrincada tarea de medir la personalidad los psicólogos recurren a cuatro


121

instrumentos básicos: la entrevista personal, la observación directa del


comportamiento, los test objetivos y los test proyectivos.

La historia de la evaluación de la personalidad puede caracterizarse por dos


tendencias superpuestas. Primero, las técnicas proyecíivas desestructuradas, como
la prueba Rorschach, dominaron las pruebas de personalidad a inicios del siglo XX
y después perdieron su popularidad. En segundo lugar, los enfoques estructurados
como los inventarios de autoinforme y las clasificaciones conductuales obtuvieron
importancia a mediados del siglo y luego aumentaron rápidamente su popularidad.
Las técnicas proyectiva son resplandecientes en cuanto a las hipótesis que dan por
resultado sin embargo, las técnicas proyectivas carecen en gran medida de la
aprobación de los clínicos con orientación psicométrica. Los métodos más objetivos
para la evaluación de la persona los favorecen los psicólogos con una mentalidad
dirigida a la medición con instrumentos de respuesta de cierjo/ falso y de elección
forzosa, incluyendo la prueba de personalidad de más amplio uso, el Inventario
multifásico de la personalidad (MMPI) y su revisión más reciente, el MMPI-2.
Los psicómetras contemporáneos han dependido de tres tácticas para el desarrollo
de las pruebas: los enfoques ligados a la teoría, las estrategias analítico-factoriales
y los métodos con codificación de criterio. Por supuesto, las fronteras son un tanto
artificiales y muchos de los autores de pruebas utilizan una combinación de
métodos.

Cada vez que un psicólogo se enfrenta a la difícil tarea de medir la personalidad de


un individuo, asumen un reto ya que la personalidad es algo que ellos no pueden ni
ver ni tocar, pero que saben que esta presente en cada una de las persona, y tratar
de ver como es la personalidad de un individuo en particular no es tarea fácil para
los mismos.

Para ilustrar esta temática veremos tres instrumentos, dos de carácter objetivo y
dos proyectivo.
122

Lección 22. 16 PF

FICHA TÉCNICA

Nombre original : "Sixteen Personality Factor Questionnaire (16 PF)". Institute for
Personality and Ability Testing, Champaign, Illinois, U.S.A.
123

Autor: R.B. Cattell.

Nombre en la Adaptación Española: Cuestionario de Personalidad 16 PF.

Adaptación Española: Sección de Estudios de TEA Ediciones, S.A. Madrid, 1.975.

Administración: Individual y Colectiva.

Duración: Variable, 45 a 60 minutos.

Aplicación: Adolescentes y Adultos, con un nivel cultural equivalente al de la


Enseñanza Media para las Formas A Y B.

Significación: Apreciación de dieciséis rasgos de primer orden y cuatro de segundo


orden de la personalidad; posible medida de la distorsión motivacional en las
Formas A, C y D, y de la Negación en la Forma A.

Material: Manual, Cuadernillos, Hojas de respuestas y plantillas de corrección.

El Cuestionario de Personalidad de 16 Factores es un instrumento de valoración


objetiva, elaborado mediante investigación psicológica con el fin de ofrecer en el
menor tiempo posible una visión muy completa de la personalidad.

El 16 PF se diseño para ser aplicado a sujetos de 16 años en adelante y existen en


uso o en preparación, seis formas diferentes; la C y la D están destinadas a sujetos
con formación medio-baja; la A y la B para personas con nivel de formación igual o
superior al de bachillerato superior. Las restantes formas del cuestionario E y F,
están proyectadas para sujetos que presentan algún déficit en su formación y nivel
de comprensión lectora.
124

La visión global de la personalidad que intenta el 16 PF se basa en la evaluación de


16 dimensiones funcionalmente independientes y psicológicamente significativas,
aisladas y definidas repetidamente durante más de treinta años de investigaciones
factoriales, en grupos de sujetos normales y clínicos.

Los rasgos de personalidad evaluados por el 16 PF no están únicamente aislados y


definidos por el Cuestionario, sino que se encuadran dentro del contexto de una
teoría general de la personalidad; la primera publicación comercial de la prueba
(1949) fue precedida de una fase de cerca de diez años de investigación empírica
factorial.

Las dimensiones del 16 PF se especifican y definen brevemente más adelante; los


factores, identificados por letras, se describen en sus dos polos o extremos
mediante
una denominación técnica y unos cuantos adjetivos de uso corriente.

Además de los 16 factores primarios mencionados, el cuestionario puede evaluar


ocho dimensiones secundarias que, como se indica posteriormente, son rasgos
más amplios, obtenidos a partir de los factores primarios.

INSTRUCCIONES PARA LA APLICACIÓN

Las contestaciones se recogen en una Hoja de respuestas separada, nunca sobre


el mismo Cuadernillo. En primer lugar se le pide al sujeto que anote los datos de
identificación (apellidos, nombre, edad, etc.), en la parte superior de la Hoja de
Respuestas. A continuación se le indica que lea, a la vez que lo hace el examinador
en voz alta, las instrucciones de la portada del Cuadernillo y conteste en la Hoja a
los cuatro ejemplos que se proponen.
125

En ocasiones es preferible leer y discutir con el sujeto ciertos puntos de las


instrucciones, aunque el examinador debe ser siempre juez crítico en cualquier
situación particular.
Para contestar en la Hoja y señalar sus respuestas, el sujeto debe colocar la Hoja
de forma apaisada; el espacio dedicado a los cuatro ejemplos de entrenamiento se
encuentran en la parte superior, fuera del recuadro dedicado a los elementos, y
éstos están dispuestos en forma de columnas, una para cada página del
Cuadernillo.

Es probable que ayude al examinado conocer este diseño intencional en columnas,


de modo que al final de cada columna y página tenga un control de que viene
contestando a cada elemento en el lugar correspondiente.

Aunque el Cuestionario no tiene un tiempo limitado, es preferible recordarles que


no deben entretenerse demasiado en cada cuestión, sino contestar de un modo
natural, sincero y rápido.

Terminada la aplicación se recoge la Hoja de respuestas y el Cuadernillo,


comprobando si se han anotado bien los datos de identificación y si se ha dado una
y sólo una respuesta a cada cuestión.

NORMAS PARA LA CORRECCIÓN Y PUNTUACIÓN

Las hojas de respuestas pueden ser corregidas manualmente. Cada respuesta


puede recibir 2, 1 ó 0 puntos, excepto en el factor B (Inteligencia), cuyas
contestaciones reciben 1 ó 0 puntos. La puntuación de cada elemento contribuye
sólo a un factor o escala (excepto en DM de la Forma A).

La utilización de la plantilla, preparada al efecto, facilita la corrección manual; en


ella se pueden obtener las puntuaciones directas en los 16 factores. Basta
126

colocarla sobre la hoja de respuestas de modo que por los espacios transparentes
de referencia - en la parte izquierda y fuera del recuadro dedicado a las
contestaciones - aparezcan las estrellas superior e inferior de la hoja.

Cada una de las escalas ocupa en la plantilla una zona aproximadamente


horizontal, separada por líneas y claramente diferenciadas. La puntuación directa
de cada escala se puede hallar comenzando por la izquierda y sumando los puntos
obtenidos por las contestaciones del sujeto que aparezcan a través de los espacios
transparentes; al terminar en el margen derecho de la plantilla, se anota el
resultado en la casilla existente
en el margen derecho de la hoja de respuestas.

FIABILIDAD

La consistencia de las 16 escalas, puede mostrarse de muy diferentes modos. El


primer tipo de consistencia es la fiabilidad o concordancia de los resultados a través
del tiempo. La fiabilidad puede, a su vez, subdividirse en:

a. Coeficiente de permanencia o correlación test-retest en dos ocasiones distintas


separadas por un pequeño intervalo de tiempo;

b. Coeficiente de estabilidad o correlación test-retest con un intervalo de tiempo


más largo.

En diferentes aplicaciones de 16PF de diversas formas o diversas combinaciones


se ha encontrado coeficientes de permanencia entre 0,70 y 0,90 aproximadamente.
En todos los casos, el retest se realizo dentro de la semana siguiente a la primera
aplicación. En otras aplicaciones, igualmente se han encontrado coeficientes de
estabilidad del orden del 0,71 y 0,88 con muestras de 132 personas y con un
intervalo de tiempo de 2 meses. Los coeficientes de estabilidad más bajos se
127

presentan en aplicaciones test-retest con intervalos de 4 años con valores entre


0,41 y 0,64.

VALIDEZ

El concepto de validez exige la elección de los elementos que sean buenas


medidas de los factores de personalidad tal como estos factores son definidos por
los estudios de investigación. Este concepto de validez de las escalas puede
evaluarse directamente correlacionando las puntuaciones directas con los factores
puros. En aplicaciones de diversas formas de PF16 se ha encontrado que la validez
es mayor cuando se combinan las Formas y los índices son relativamente
elevados, incluso en las escalas que contienen menos elementos.

El concepto de validez también puede evaluarse indirectamente determinando en


que grado las correlaciones obtenidas entre las escalas del 16 PF y un grupo
representativo de variables psicológicas diversas, están de acuerdo con aquellas
que se esperaría obtener a partir de los criterios conceptuales o factores puros.
Para ello, en una aplicación de las formas A, B, C y D a 606 varones y mujeres se
encontró coeficientes de validez entre 0.90 y 0,96.

En ambas estimaciones de la validez, directa e indirecta, se encuentra gran


congruencia. En ambos estudios los índices más elevados son obtenidos por las
escalas A y F, y los más bajos por las escalas M, N, O y Q1.

NORMAS INTERPRETATIVAS

CONVERSIÓN DE PUNTUACIONES DIRECTAS EN DECATIPOS

El significado de las puntuaciones directas de una forma o combinación de formas


del 16 PF depende, naturalmente, de la forma o formas utilizadas.
128

Consecuentemente, antes de que las puntuaciones directas puedan ser evaluadas


e interpretadas, deben convertirse a una escala común y única que sitúe la
puntuación del sujeto (adolescentes, universitario o de la población general adulta)
en relación con las obtenidas por un grupo normativo y definido de la población.
Las tablas construidas en la tipificación permiten la conversión de las puntuaciones
directas en otras denominadas decatipos, una escala típica de diez puntos que ha
mostrado en la práctica un grado bastante bueno, en la discriminación de los
resultados.

Los decatipos se distribuyen sobre una escala de diez puntos equidistantes en


unidades típicas (supuesta la distribución normal), con una media en el decatipo
5,50 y una desviación de 2 decatipos. Así, pues, los decatipos 5 y 6 se extienden,
respectivamente, a media desviación típica a ambos lados de la media, y
comprenden el grupo central de la población, mientras que los extremos superior
del decatipo 10 e inferior del decatipo 1 se encuentran a dos y media desviaciones
típicas a ambos lados de la media.

Se puede, por tanto, considerar que los decatipos 5 y 6 son valores medios, 4 y 7
muestran una pequeña desviación (en una y otra dirección, respectivamente), 2-3 y
8-9 indican una gran desviación, y 1 y 10 son valores extremos, entendiendo todas
estas posiciones como relativas a la población especifica sobre la cual se realizó la
tipificación.

La selección del baremo adecuado permite obtener los decatipos correspondientes


a las puntuaciones directas alcanzadas por cualquier sujeto en las 16 escalas. Las
tablas cubren, para cada una de las formas del cuestionario, las poblaciones
adolescentes y adultos de uno y otro sexo. Para su elaboración, se han conjugado
los criterios de significación estadística y de utilización práctica. El Psicólogo debe
129

elegir aquel baremo que mejor se ajuste a los sujetos examinados y a la finalidad
de su estudio.

INTERPRETACIÓN

Cada uno de los factores primarios evaluados por el 16 PF tiene una denominación
alfabética (desde A a Q ) y un 4 nombre técnico. La definición e interpretación de
los mismos, tal como se presenta en los párrafos siguientes, es breve, no técnica y,
naturalmente, menos exacta que la descripción critica y más profunda que presenta
el "Handbook" u otras obras similares; si el Psicólogo desea profundizar mas en el
significado y operatividad de los factores debería examinar los numerosos perfiles
estudiados en el "Handbook" para grupos clínicos o profesionales bien definidos.

En las siguientes descripciones interpretativas de las puntuaciones bajas (decatipos


1-3) y altas (decatipos 8-10) el nombre técnico se incluye entre paréntesis;
previamente se da una breve definición menos técnica, con varios adjetivos
descriptivos que suelen utilizarse frecuentemente en la práctica.

FACTOR A

PUNTUACIONES BAJAS (1-3)

Reservada, alejada, crítica, fría.


(Sizotimia)

La persona que puntúa bajo tiende a ser dura, fría, escéptica y a mantenerse
alejada. Le gustan más las cosas que las personas, trabajar en solitario y evitar las
opiniones comprometidas. Suele ser precisa y rígida en su manera de hacer las
cosas y en sus criterios personales, rasgos que son deseables en muchas
ocupaciones. En ocasiones puede ser crítica, obstaculizadora e inflexible.
130

PUNTUACIONES ALTAS (8-10)

Abierta, afectuosa, reposada, participativa.


(Afectotimia)

La persona que puntúa alto tiende a ser afable, reposada, emocionalmente


expresiva (de aquí el polo de afectotimia), dispuesta a cooperar, solícita con los
demás, bondadosa, amable y adaptable. Le gustan las ocupaciones que exijan
contactos con la gente y las situaciones de relación social. Fácilmente forma parte
de grupos activos, es generosa en sus relaciones personales, poco temerosa de las
críticas y bastante capaz de recordar los nombres de las personas.

FACTOR B

PUNTUACIONES BAJAS (1-3)

Inteligencia baja, pensamiento concreto.


(Poca capacidad mental para los estudios)

La persona que puntúa bajo tiende a ser lenta para aprender y captar las cosas;
corta e inclinada a interpretaciones concretas y literales. Su cortedad puede ser
debida a una escasa capacidad intelectual o a la influencia de factores
psicopatológicos que limitan su actuación.

PUNTUACIONES ALTAS (8-10)

Inteligencia alta, pensamiento abstracto, brillante.


(Mucha capacidad mental para los estudios).
131

La persona que puntúa alto tiende a ser rápida en su comprensión y aprendizaje de


las ideas. Existe alguna relación con el nivel cultural y con la viveza mental. En una
situación de diagnóstico psicopatológico, estas puntuaciones altas contraindican la
existencia de un deterioro mental.

FACTOR C

PUNTUACIONES BAJAS (1-3)

Afectada por los sentimientos, poco estable emocionalmente, turbable.


(Poca fuerza del ego)

La persona que puntúa bajo tiende a presentar poca tolerancia a la frustración;


cuando las condiciones no son satisfactorias es voluble, plástica, evade las
necesidades y llamadas de la realidad, neuróticamente fatigada, displicente, de
emoción y turbación fácil, activa cuando se encuentra insatisfecha; presenta
síntomas neuróticos (fobias, alteraciones del sueño, quejas psicosomáticas, etc).
Estas puntuaciones bajas son comunes a casi todas las formas de alteraciones
neuróticas y a algunas psicóticas.

PUNTUACIONES ALTAS (8-10)

Emocionalmente estable, tranquila, madura, afronta la realidad.


(Mucha fuerza del ego)

La persona que puntúa alto tiende a ser emocionalmente madura, estable, realista
acerca de la vida, tranquila, con buena firmeza interior y capacidad para mantener
una sólida moral de grupo. A veces puede presentar ajustes conformistas en el
caso de problemas no resueltos.
132

FACTOR E

PUNTUACIONES BAJAS (1-3)

Sumisa, débil, acomodaticia, conformista.


(Sumisión)

La persona que puntúa bajo tiende a ceder ante los demás, a ser dócil, y a
conformarse. Es, a menudo, dependiente, acepta las ideas de los otros, y se
muestra ansiosa por una exactitud obsesiva. Esta pasividad es parte de muchos
síndromes neuróticos.

PUNTUACIONES ALTAS (8-10)

Dominante, independiente, agresiva, competitiva, obstinada.


(Dominancia)

La persona que puntúa alto es dogmática, segura de sí misma, de mentalidad


independiente. Tiende a ser austera, autoreguladora, hostil y extrapunitiva,
autoritaria (en el manejo de los demás), y a hacer caso omiso de toda autoridad.

FACTOR F

PUNTUACIONES BAJAS (1-3)

Sobria, prudente, seria, taciturna.


(Desurgencia)

La persona que puntúa bajo tiende a ser reprimida, reticente, introspectiva. A veces
es terca, pesimista, indebidamente cauta; es considerada por los demás como
133

presumida y estiradamente correcta. Suele ser una persona sobria y digna de


confianza.

PUNTUACIONES ALTAS (8-10)

Descuidada (confiada a la buena ventura), animada e impulsiva, entusiasta.


(Surgencia)

La persona que puntúa alto tiende a ser jovial, activa, charlatana, franca, expresiva,
acalorada y descuidada. Frecuentemente se le escoge como líder electo. Puede ser
impulsiva y de actividad imprevisible o cambiante.

FACTOR G

PUNTUACIONES BAJAS (1-3)


Despreocupada, evita las normas, acepta pocas obligaciones.
(Poca fuerza del superego)

La persona que puntúa bajo suele ser inestable en sus propósitos. Sus acciones
son casuales y faltas de atención a los compromisos del grupo y las exigencias
culturales. Su alejamiento de la influencia del grupo puede llevarle a actos
antisociales, lo cual le hace ser más efectiva, a la vez que su negativa de sujeción a
las normas le permite tener menos conflictos somáticos en situaciones de tensión.

PUNTUACIONES ALTAS (8-10)

Escrupulosa (consciente), perseverante, sensata, sujeta a normas.


(Mucha fuerza del superego)

La persona que puntúa alto tiende a ser de carácter exigente, dominada por el
134

sentido del deber, perseverante, responsable, organizada, y 'no malgasta un


minuto'. Normalmente es escrupulosa y moralista. Más que a tipos graciosos
prefiere como compañeros a personas trabajadoras. Hay que distinguir el íntimo
'imperativo categórico' de este superego esencial (en el sentido sicoanalítico), del
'yo social ideal' del Q3 aparentemente similar.

FACTOR H

PUNTUACIONES BAJAS (1-3)


Cohibida, reprimida, tímida, falta de confianza en sí misma.
(Trectia)

La persona que puntúa bajo suele ser tímida, alejada, cautelosa, retraída, que
permanece al margen de la actividad social. Puede presentar sentimientos de
inferioridad. Tiende a ser lenta y torpe al hablar y expresarse, no le gustan las
ocupaciones con contactos personales. Más que un grupo amplio, prefiere uno o
dos amigos íntimos, y no es dada a mantenerse en contacto con todo lo que está
ocurriendo a su alrededor.

PUNTUACIONES ALTAS (8-10)


Emprendedora, socialmente atrevida, espontánea, no inhibida
(Parmia)

La persona que puntúa alto tiende a ser sociable, atrevida, dispuesta a intentar
nuevas cosas, espontánea, de numerosas respuestas emocionales. Su indiferencia
(falta de vergüenza) le permite soportar sin fatiga el 'toma y daca' del trato con la
gente y las situaciones emocionales abrumadoras. Sin embargo, puede
despreocuparse por los detalles, e invertir mucho tiempo charlando. Tiende a ser
emprendedora y estar activamente interesada por el otro sexo.
135

FACTOR I

PUNTUACIONES BAJAS (1-3)

Sensibilidad dura, confiada en sí misma, realista


(Harria)

La persona que puntúa bajo tiende a ser práctica, realista, varonil, independiente,
responsable y, a la vez, escéptica de las elaboraciones culturales subjetivas. A
veces es inamovible, dura, cínica, pagada de sí misma. Tiende a mantener el grupo
trabajando sobre unas bases prácticas, realistas y acertadas.

PUNTUACIONES ALTAS (8-10)

Sensibilidad blanda, dependiente, impresionable, superprotegida.


(Premsia)

La persona que puntúa alto suele dejarse afectar por los sentimientos, idealista,
soñadora, artista, descontentadiza femenina. A veces solicita para sí la atención y
ayuda de los otros; es impaciente, dependiente, poco práctica. Le disgustan las
personas y profesiones rudas. Suele frenar la acción del grupo y turbar su moral
con actividades inútiles e idealistas.

FACTOR L

PUNTUACIONES BAJAS (1-3)

Confiable, adaptable, no afectada por los celos o envidia, de trato fácil.


(Alaxia)
136

La persona que puntúa bajo suele no presentar tendencia a los celos o envidia; es
adaptable, animosa, no competitiva, interesada por los demás, buena colaboradora
del grupo.

PUNTUACIONES ALTAS (8-10)


Suspicaz, engreída, difícil de engañar.
(Protensión)

La persona que puntúa alto suele ser desconfiada y ambigua. A menudo se


encuentra complicada con su propio yo, le gusta opinar sobre sí misma, y está
interesada en la vida mental íntima. Suele actuar con premeditación, es despegada
de los otros y colabora deficientemente con el grupo.

NOTA: Este Factor no es necesariamente 'Paranoia'; de hecho, los datos de los


esquizofrénicos paranoicos no son tan claros como cabría esperar a partir de los
valores típicos del Factor L.

FACTOR M

PUNTUACIONES BAJAS (1-3)

Práctica, cuidadosa, convencional, regulada por realidades externas, formal y


correcta.
(Praxernia)

La persona que puntúa bajo suele mostrarse ansiosa por hacer las cosas
correctamente, atenta a los problemas prácticos y sujeta a los dictados de lo que es
evidentemente posible. Se preocupa por los detalles, capaz de serenidad en
situaciones de emergencia, aunque a veces es poco imaginativa.
137

PUNTUACIONES ALTAS (8-10)

lmaginativa, centrada en sus necesidades íntimas, abstraída, despreocupada de los


asuntos prácticos.

(Autia)
La persona que puntúa alto tiende a ser poco convencional, despreocupada de lo
cotidiano, bohemia, motivada por si misma, creadora, imaginativa, preocupada por
lo 'esencial' y despreocupada de las personas particulares y la realidad física. Sus
intereses, dirigidos hacia su intimidad, la llevan a veces a situaciones irreales, con
explosiones expresivas. Su individualidad le empuja a verse excluido de las
actividades del grupo.

FACTOR N

PUNTUACIONES BAJAS (1-3)

Franca, natural, sencilla, sentimental.


(Sencillez)

La persona que puntúa bajo suele ser sencilla, sentimental, llana, poco sofisticada.
Se le satisface fácilmente y se muestra contenta con lo que le acontece; es natural,
espontánea, poco refinada y torpe.

PUNTUACIONES ALTAS (8-10)


Astuta, calculadora, mundana, perspicaz.
(Astucia)
La persona que puntúa alto suele ser refinada, experimentada, mundana y astuta.
A menudo es 'cabeza dura' y analítica. Su enfoque es intelectual y poco
sentimental, aproximándose a las situaciones de una manera casi cínica.
138

FACTOR O

PUNTUACIONES BAJAS (1-3)

Apacible, segura de sí, flexible, serena.


(Adecuación imperturbable)

La persona que puntúa bajo tiende a ser plácida, de ánimo invariable. Su confianza
en sí misma y su capacidad para tratar con cosas es madura y poco ansiosa; es
flexible y segura, pero puede mostrarse insensible cuando el grupo no va de
acuerdo con ella, lo cual puede provocar antipatías y recelos.

PUNTUACIONES ALTAS (8-10)

Aprensiva, preocupada, depresiva, turbable.


(Tendencia a la culpabilidad)

La persona que puntúa alto suele ser depresiva, preocupada, llena de presagios e
ideas largamente gestadas. Ante las dificultades presenta tendencia infantil a la
ansiedad. En
los grupos no se siente aceptada ni con libertad para actuar. Una puntuación alta
es muy corriente en los grupos clínicos de todo tipo.

FACTOR Q1

PUNTUACIONES BAJAS (1-3)

Conservadora, respetuosa de las ideas establecidas, tolerante de los defectos


tradicionales.
139

(Conservadurismo)

La persona que puntúa bajo confía en lo que le han enseñado a creer y acepta lo
'conocido y verdadero', a pesar de sus inconsistencias, aunque se le presente algo
que pudiera ser mejor. Es precavida y puntillosa con las nuevas ideas, tiende a
posponer u oponerse a los cambios, a seguir la línea tradicional, a ser
conservadora en religión y política, y a despreocuparse de las ideas analíticas e
'intelectuales'.

PUNTUACIONES ALTAS (8-10)

Analítico-critica, liberal, experimental, de ideas libres y pensamiento abierto.


(Radicalismo)

La persona que puntúa alto suele interesarse por cuestiones intelectuales y dudar
de los principios fundamentales. Es escéptica y de espíritu inquisitivo en las ideas,
sean tradicionales o nuevas. Suele estar bien informada, poco inclinada a moralizar
y más a preguntarse por la vida en general y a ser más tolerante con las molestias
y el cambio.

FACTOR Q2

PUNTUACIONES BAJAS (1-3)

Dependiente, buena compañera y de fácil unión al grupo.


(Adhesión al grupo)

La persona que puntúa bajo prefiere trabajar y tomar decisiones con los demás, le
gusta y depende de la aprobación social. Tiende a seguir las directrices del grupo,
incluso mostrando falta de decisiones personales. No es necesariamente gregaria
140

por decisión propia, sino que necesita del apoyo del grupo.

PUNTUACIONES ALTAS (8-10)

Autosuficiente, prefiere sus propias decisiones, llena de recursos.


(Autosuficiencia)

La persona que puntúa alto es temperamentalmente independiente, acostumbrada


a seguir su propio camino; toma sus decisiones y actúa por su cuenta. No tiene en
consideración la opinión del grupo, aunque no es necesariamente dominante en
sus relaciones con los demás. No le disgusta la gente, simplemente no necesita de
su asentimiento y apoyo.

FACTOR Q3

PUNTUACIONES BAJAS (1-3)

Autoconflictiva, despreocupada de protocolos, orientada por sus propias


necesidades.
(Baja integración)

La persona que puntúa bajo no está preocupada por aceptar y ceñirse a las
exigencias sociales. No es excesivamente considerada, cuidadosa o esmerada.
Puede sentirse desajustada, y muchas de sus desadaptaciones (especialmente las
afectivas, pero no las paranoicas) puntúan en esta dirección de la variable.

PUNTUACIONES ALTAS (8-10)

Controlada, socialmente adaptada, llevada por su propia imagen.


(Mucho control de su autoimagen)
141

La persona que puntúa alto suele tener mucho control de sus emociones y
conducta en general, y ser cuidadosa y abierta a lo social; evidencia lo que
comúnmente se llama 'respeto hacia sí misma'; tiene en cuenta la reputación social.
No obstante, a veces tiende a ser obstinada. Los líderes eficaces y algunos
paranoicos puntúan alto en Q3.

FACTOR Q4

PUNTUACIONES BAJAS (1-3)


Relajada, tranquila, aletargada, no frustrada.

(Poca tensión érgica)


La persona que puntúa bajo suele ser sosegada, relajada, tranquila y satisfecha (no
frustrada). En algunas situaciones, su estado de mucha satisfacción le puede llevar
a la pereza y al bajo rendimiento, en el sentido de que no tiene motivación para
intentar algo (como un alto nivel de tensión érgica puede desbaratar también el
rendimiento escolar o Profesional).

PUNTUACIONES ALTAS (8-10)

Tensa, frustrada, presionada, sobreexcitada.


(Mucha tensión érgica)

La persona que puntúa alto suele ser tensa, excitable, intranquila, irritable e
impaciente. Está a menudo fatigada pero incapaz de permanecer inactiva. Dentro
del grupo tiene una pobre visión del grado de cohesión, del orden y del mando. Su
frustración representa un exceso del impulso de estimulación no descargada.
142

Lección 23. MMPI


INVENTARIO MULTIFASICO DE LA PERSONALIDAD DE MINNESOTA (MMPI).

DESCRIPCIÓN GENERAL

FICHA TÉCNICA

Nombre: Inventario Multifásico de la Personalidad de Minnesota.

Autores: S. R. Hathaway y J. C. Mc Kinley.

Administración: Individual y Colectiva.

Duración: Variable, de 45 a 60 minutos.

Aplicación: Sujetos cuyas edades oscilen entre 14 y 64 años, con una


cultura equivalente a seis años de escolaridad y saber leer con fluidez; los sujetos
no deben presentar alteraciones severas en su contacto con la realidad y
limitaciones en su dotaci6n intelectual.

Significación: Evalúa las características de personalidad, de manera


multifásica puesto que intenta abarcar diversos aspectos de la persona mediante el
uso de 14 escalas; 4 de validez y 10 Clínicas.

ANTECEDENTES

Este inventario fue construido originalmente por el Psicólogo Starke Hathaway y el


Psiquiatra J.C. Mckinley; los primeros estudios sobre el tema aparecieron hacia
1.940. Posteriormente, en 1.943, la Universidad de Minnesota publicó el
cuestionario y, en 1.945, autorizó su publicación a la Corporación de Psicología.
Los autores de la prueba pretendían que el MMPI fuera útil para la evaluación
143

diagnóstica de rutina. A finales de la década de 1.930 y principios de 1.940, un


objetivo primordial para el Psicólogo Clínico y el Psiquiatra era asignar
clasificaciones Psico-diagnósticas apropiadas a casos individuales.

Desde su primera publicación en 1.943, ha sido uno de los instrumentos de Psico-


evaluación más objetivo y útil tanto en la investigación como en la práctica clínica
ya que su uso se facilita por la alta calidad interpretativa de sistemas actuariales
que ayudan en el proceso Clínico de elaboración de decisiones.

Por otra parte para su elaboración Hathaway y Mckinley, tuvieron en cuenta la


educación y cultura de los sujetos a quienes se les administró, para que las frases
fueran comprendidas aún por personas de bajo nivel intelectual.

En su elaboración los autores utilizaron un enfoque de codificación empírica en la


construcción de las diversas escalas del MMPI. Inicialmente se procedió a reunir
una gran cantidad de reactivos potenciales para el inventario, seleccionando una
amplia variedad de enunciados afirmativos de tipos de personalidad extraídos de
fuentes tales como: historias de casos e informes Psicológicos y Psiquiátricos;
luego se seleccionaron grupos criterio apropiados y se procedió a elaborar las
escalas administrando los 504 reactivos originales a "Grupos Normales" y a
"Grupos Clínicos", realizando un análisis de estos reactivos; poco tiempo después
se elaboraron 2 escalas clínicas adicionales, primero la escala de Masculinidad-
Feminidad (MF) y la escala de introversión social (IS) desarrollada por Drake en
1.946.

ESTRUCTURA DEL INVENTARIO

El Inventario Multifásico de la Personalidad de Minnesota (MMPI) incluye 566


enunciados afirmativos de autoreferencia. La tarea de la persona que resuelve la
144

prueba consiste en dar respuesta a cada afirmación como verdadera si se aplica a


sí misma y como falsa si se considera que no es aplicable a sí misma.

El contenido de los ítems de este instrumento es muy variado. Estos dan


información sobre conductas exteriores, sentimientos que puedan observarse y
actitudes generales de tipo social; además algunos ítems intentan detectar
"síntomas morbosos", mientras que otros parecen no poseer ningún sentido
favorable o desfavorable.

DESCRIPCIÓN DE LAS ESCALAS

Como ya se ha visto el MMPI está formado por 14 escalas de validez: frases


omitidas (?), sinceridad (L), puntuación de validez (F) y factor corrector (K); 10
escalas clínicas: escala 1 (Hipocondriasis), escala 2 (Depresión), escala 3
(Histeria), escala 4 (Desviación Psicopática), escala 5 (Masculinidad-Feminidad),
escala 6 (Paranoia), escala 7 (Psicastenia), escala 8 (esquizofrenia), escala 9
(hipomanía), escala 0 Si (introversión o extroversión social).

ESCALAS DE VALIDACIÓN

ESCALA DE FRASES OMITIDAS (?)


Comprende todos aquellos elementos clasificados por el sujeto como NO SE o "No
puedo decir"; el valor de esta puntuación afecta el significado de las demás
puntuaciones.

ESCALA DE SINCERIDAD (L)


Se construyó con el fin de detectar un intento deliberado por parte del sujeto para
presentarse a sí mismo de una manera favorable evaluando el grado de franqueza
del sujeto.
145

PUNTUACIÓN DE VALIDEZ (F)


Se desarrolló para detectar formas desviadas de responder a los reactivos de la
prueba; puntuaciones altas indican el descontrol de las emociones, como también
indican síntomas del Neurótico y Psiquiátrico.

FACTOR CORRECTOR (K)


Se elaboró como un índice de los intentos del examinado por negar su patología y
presentarse a sí mismo de una manera favorable o para aparecer de manera muy
desfavorable. Está integrada por 30 frases, es una escala de corrección para las
Escalas Clínicas: 1 (Hs), 4 (Dp), 7(Pf), 8 (Es) y 9 (Ma) y se relaciona con la actitud
defensiva ante la debilidad Psicológica o exhibicionismo Psicológico.

ESCALAS CLÍNICAS

Se encuentran subdivididas en tres zonas así:

l. - ZONA PSICONEUROTICA

Comprende las siguientes Escalas:

ESCALA 1 HS (Hipocondriasis o Somatización)


Se desarrolló para identificar pacientes que manifestaran un patrón de síntomas
asociados con la clasificación de hipocondría y/o Somatización localizada (se
caracteriza por una preocupación anormal por las propias funciones corporales y
temores concomitantes a la enfermedad), Esta escala consta de 33 reactivos
asociados
con preocupaciones Somáticas o con el funcionamiento físico en general.

ESCALA 2 D (Depresión).
146

Se elaboró con el propósito de evaluar el grado en que un sujeto puede presentar


depresión sintomática caracterizada por pesimismo, falta de esperanza en el futuro
e insatisfacción general con la propia situación de vida. Esta escala consta de 60
reactivos que tratan diversos aspectos de la depresión (negación de la felicidad y el
mérito personal, retardo psicomotor, ausencia de interés en lo que les rodea.

ESCALA 3 Hi (Histeria).
Se desarrolló para identificar individuos que utilizaban reacciones histéricas ante las
situaciones de tensión, además de determinar Somatización no Localizada sin
determinación de una causa real. Consta de 60 reactivos de dos tipos generales;
algunos tienen que ver con una negación general de la Salud Física y una variedad
de quejas sintomáticas algo más especificas.

ZONA SOCIAL

Comprende las siguientes escalas:

ESCALA 4 Dp (Desviación Psicótica)


Se elaboró con el fin de identificar personas asociales, antisociales, sociales y
disociales. Esta escala consta de 50 reactivos que cubren un amplio rango de
temas incluyendo falta de satisfacción en la vida, problemas sexuales y dificultad
con la autoridad.

ESCALA 5 MF (Masculinidad- Feminidad)


Se desarrolló para definir los intereses que son propios de hombres y mujeres;
además de identificar la homosexualidad. Consta de 60 reactivos relacionados con
material sexual y diversidad de temas.

ZONA PSIQUIATRICA
147

Comprende las siguientes escalas:

ESCALA 6 PA (Paranoia)
Se elaboró a fin de identificar pensamientos o ideas paranoides (sentimientos
de persecución, ideas de grandeza, suspicacia, opiniones, actitudes rígidas, etc).
Consta de 40 a 60 reactivos relacionados con conductas Psicóticas.

ESCALA 7 Pt (Psicastenia)
Se desarrolló con el propósito de encontrar características de la personalidad
clasificada como Psicastenia (reacciones fóbicas - obsesivo compulsivas y
excesivas dudas); sin embargo en la actualidad no es de uso común. Esta escala
consta de 48 reactivos que cubren una variedad de síntomas y conductas
relacionadas con pensamientos obsesivos, sentimientos de temor y/o ansiedad y
dudas sobre la propia capacidad.

ESCALA 8 Es (Esquizofrenia)
Se elaboro para identificar individuos asociados con la esquizofrenia, aislamiento
emocional, las relaciones inadecuadas con las familias, apatía e indiferencia. Esta
escala consta de 78 reactivos que cubren un amplio grupo de conductas; siendo la
más amplia de todas las escalas clínicas.

ESCALA 9 Ma (Manía - Hipomanía)


Se desarrolló básicamente para identificar estados de ánimo de las personas con
características maníaco depresivas, tipo maníaco.

ESCALA O Si (Introversión - Extroversión Social)


Aunque esta escala se desarrolló después de las otras Escalas Clínicas, ha sido
tratada como estándar. Se diseñó para evaluar la tendencia de los sujetos a
aislarse de los contactos y responsabilidades sociales; además de identificar
aspectos relacionados con la extroversión social. Consta de 70 reactivos de dos
148

tipos generales: un grupo se refiere a la participación social, en tanto que el otro a


una inadaptación neurótica general y autodesprecio.

MATERIAL DE LA PRUEBA

FORMA INDIVIDUAL

- Hoja de anotación y perfil.


- 12 Plantillas de corrección.

FORMA COLECTIVA

- Cuadernillo con 566 reactivos.


- Hoja de respuestas y Perfil.
- Clave de corrección.
- 15 plantillas de corrección (incluyendo escalas adicionales).

ESCALAS ADICIONALES

Comprende las siguientes Escalas:

FUERZA DEL YO (Es)


La desarrolló Barron (1.953), específicamente para predecir la respuesta de
pacientes neuróticos a la Psicoterapia individual. Consta de 68 reactivos que hacen
referencia al funcionamiento físico, aislamiento, actitudes hacia la religión, posición
moral, adecuación personal y habilidad para enfrentar fobias y ansiedades.

DEPENDENCIA (Dy)
La desarrolló Navran (1.954), para evaluar la intensidad de las necesidades de
dependencia. Consta de 57 reactivos.
149

DOMINANCIA (Do)
La desarrollaron Gough, McClosky y Meehl (1.951); esta variable de la personalidad
puede ser importante en la psicología de la participación social. Consta de 28
reactivos que permiten detectar la iniciativa social, capacidad para el mando,
persistencia, acciones esforzadas, preocupación e identificación con la comunidad
o sociedad y sentimiento de la responsabilidad.

RESPONSABILIDAD (Re)
La desarrollaron los mismos autores de la Escala de Dominancia en 1.952. Consta
de 32 reactivos los cuales se refieren a la preocupación por temas sociales y
morales, desaprobación de privilegios, énfasis en los deberes y la autodisciplina,
seguridad personal, etc. (Gough, 1.952).

CONTROL (Cn)
La desarrolló Cuadra, (1.953) para estudiar el problema de la necesidad de
hospitalización. Consta de 50 reactivos que incluyen la conciencia de las propias
debilidades, sensibilidad a las críticas sociales, ciencias religiosas y participación en
actividades riesgosas.

FUNDAMENTO ESTADÍSTICO

CONFIABILIDAD

En los cuestionarios de personalidad, la estimación de este estadístico depende en


gran medida de que el grupo comprenda sólo sujetos normales, incluya sólo
enfermos Psiquiátricos hospitalizados, o esté formado por personas de ambos
grupos. Es muy probable que los rasgos de personalidad sean más estables en los
sujetos normales que en los enfermos Psiquiátricos; por esto teniendo en cuenta
150

las dificultades aludidas para una prueba como el MMPI, los datos que se citan a
continuaci6n parecen bastante satisfactorios.

Hathaway y Mc Kinley (1.942) y Mc Kinley y Hathaway (1.942, 1.944), han aplicado


la forma individual a un grupo de 47 sujetos normales no seleccionados, presentan
coeficientes de fiabilidad en seis de las variables básicas; utilizando el
procedimiento de test-retest con un tiempo de intervalo entre tres días y más de un
año.

Cottle (1.950) obtiene coeficientes de confiabilidad test-retest aplicando la forma


individual y la forma colectiva en un grupo de 30 enfermos Psiquiátricos no
seleccionados; Holaberg y Alessi (1.949), citan coeficientes de confiabilidad
obtenidos mediante la aplicación de la forma individual completa y una versión
reducida de la misma.

VALIDEZ

El criterio de validez se obtuvo principalmente en la predicción de casos clínicos; el


valor del pronóstico del MMPI se halló comparando sus resultados con el
diagnóstico final elaborado por Profesionales Neuropsiquiátricos de los Centros
Clínicos. De esta manera, se ha observado que una puntuación alta en una escala
predice positivamente el diagnóstico clínico final del profesional, y discrimina en
más de un 60% las nuevas admisiones de enfermos psiquiátricos. Este porcentaje
ha sido obtenido en la diferenciación entre varios tipos de casos clínicos.

INSTRUCCIONES PARA LA APLICACIÓN Y CORRECCIÓN

APLICACIÓN
151

Esta prueba puede administrarse con facilidad en forma individual o colectiva y


dicha aplicación puede ser realizada por examinadores no profesionales
(familiarizados con todo el material presentado en el Manual); aunque necesita de
un clínico experimentado para su interpretación. Además la disponibilidad de
diversas formas básicas asegura que puede administrarse a un amplio espectro de
personas de la manera más conveniente para los sujetos y el examinador.

Las formas se encuentran disponibles para administraciones individuales, en grupo,


para individuos ciegos u otros que no pueden leer y formas abreviadas que siempre
conducen a una pérdida de información.

Las instrucciones que deben darse al sujeto son las indicadas en la primera página
del cuadernillo forma colectiva.

Seisdedos y Cordero en el Manual publicado por TEA Ediciones, 1.986, afirman


que el MMPI debe ser presentado como una tarea seria e importante, brindando al
sujeto la seguridad de que las respuestas serán estudiadas en su propio beneficio.
Si se consigue esta actitud, se favorecerá en gran medida la cooperación de los
examinados; algunos pueden necesitar posteriores aclaraciones sobre el propósito
perseguido y el uso que van a tener los resultados. Si es posible, deben darse
respuestas sinceras, evitando eludir o desviar la responsabilidad.

CORRECCIÓN Y VALORACIÓN

Algunos autores afirman que en primer lugar, deben separarse las hojas de
respuestas según el sexo de los examinados, y también borrar las respuestas que
tengan señaladas las dos contestaciones (V y F), que se considerarán como
respuestas NO SE.
152

Otros consideran que se realiza observando detalladamente la hoja de respuestas


y anotando el número de respuestas omitidas; luego se procede a contar
cuidadosamente el número de respuestas que caen dentro de las plantillas,
anotando las puntuaciones en bruto de las diferentes escalas; en caso de no tener
disponibles las plantillas se podrá utilizar la clave de corrección.

Posteriormente se anotan las puntuaciones en bruto de las diferentes escalas con


el mayor cuidado convirtiendo esta puntuación en Puntajes T que vienen
relacionados en
la hoja del perfil arriba del nombre de la escala.

Por otra parte hay cinco escalas Clínicas que son modificadas por diversas
proporciones del valor en bruto obtenido por la Escala K. De esta forma, la escala
1Hs, deberá ser incrementada en su puntaje en bruto, por el 0.5 (la mitad) del valor
de la Escala K en bruto.

Al puntaje en bruto de la Escala 4 Dp, se le agrega el 0.4 de K.

Al puntaje en bruto de la Escala 7 Pt, se le agregará el puntaje completo de K.

Al puntaje en bruto de la Escala 8 Es, se le agregará el puntaje completo de K y al


puntaje en bruto de la Escala 9 Ma, se le agregará el 0.2 de K.

Una vez modificados los puntajes de estas cinco escalas, se elabora el perfil,
ubicando cada puntaje en bruto en el nivel de su conversión correspondiente en
calificaciones T.

CODIFICACIÓN DEL PERFIL


153

Con respecto al MMPI se han utilizado dos sistemas de codificación: el sistema


original de Hathaway (1.947) y un sistema más completo desarrollado por Welsh
(1.948). En la actualidad existe una gran cantidad de material publicado en ambos
sistemas. A continuación se describirán los pasos de cada uno de ellos:

- CODlGO DE WELSH

Paso 1.
Escribir los dígitos que representan las escalas ordenadas según la cuantía de la
puntuación T, de mayor a menor.

Paso 2.
Introducir los símbolos que indiquen la cuantía de los valores T (90 o mayor, 80 -89,
- 70 -79, - 60 - 69, -50 - 59,- 40 – 49, 30-39 # 29 o menor a la derecha de #) .

Paso 3.
Se pueden codificar las escalas de validación y colocarlas separadamente a la
derecha del código de las escalas clínicas.

- CODIGO DE HATHAWAY.

Paso 1.
Se registra el número de la Escala que tiene la mayor puntuación T.

Paso 2.
Se anotan a continuación de este número, y por orden descendente de las
puntuaciones T, los números de las escalas que tengan valores superiores a 54.

Paso 3.
154

Insertar un apóstrofe (‗) después del último número de escala en la clave que tenga
una puntuación T de 70 o más.

Paso 4.
Se subrayan los números de las escalas cuyos valores T sean iguales o se
diferencien en solo un punto.

Paso 5.
Utilizar un guión (-) y luego registrar el número de la escala menor en el perfil si
dicha escala tiene una puntuaci6n T menor que 46.

Paso 6.
Siga la misma regla para subrayar esas puntuaciones bajas como se indicó en el
paso 4 para puntuaciones altas.

Paso 7.
A la derecha y separada de las escalas clínicas, registre los puntajes crudos para L,
F y K en ese orden y separada por dos puntos (:). Si la puntuación directa de L es
igual o mayor que 10, o si la F es igual o mayor que 16, se coloca un "X"; a fin de
sugerir que el perfil puede ser inválido.

INTERPRETACIÓN

A continuación se presenta de manera breve algunos indicadores para la


interpretaci6n del MMPI, a fin de ser una guía didáctica en dicha explicación. Es
muy importante para la interpretación del MMPI tener un conocimiento previo de las
características clínicas correspondientes a los nombres de las escalas; además es
importante tener en cuenta las características cuantitativas del MMPI, que son las
que permitirán la organización de las escalas en el perfil; se podrá observar, que se
155

utilizarán con frecuencia los términos elevada o baja, para designar la ubicación
general de cada escala dentro del perfil.

Cuando se hable de una Escala elevada se hará referencia a que tiene un puntaje
por arriba de la media estadística y, en comparación con las demás, tiende a
sobresalir. Su puntaje es el más alto o uno de los más altos.

Se hablará de Escalas bajas, cuando el puntaje de la misma sea inferior a la media


estadística o en comparación con los demás, sea uno de los más reducidos o el
más reducido.

Otro aspecto importante al aplicar el MMPI es tener en cuenta la finalidad de la


aplicaci6n y las situaciones que la rodean. Para poder interpretar los perfiles del
MMPI en forma integral, se debe tomar en cuenta que en esta técnica concurren
dos aspectos fundamentales: una parte cuantitativa y otra cualitativa.

La parte cuantitativa proporciona una información, tanto de la severidad con que un


rasgo se acentúa en la personalidad (por la elevación de cada escala), como de la
comparación de las características de un sujeto con otros de su mismo grupo o de
otros grupos sociales.

El aspecto cualitativo del inventario debe ser entendido en base a los elementos
clínicos que proporcionan cada una de las escalas y de las combinaciones en que
se encuentran relacionadas; en este punto se debe tener en cuenta que todas las
escalas del perfil tienen relación entre sí, además de la configuración que se puede
observar con la clave.
156

Lección 24. El Test de Rorschach

Se ha discutido desde hace algún tiempo la utilización de las pruebas proyectivas,


ya que no cumplen con los requisitos psicométricos (confiabilidad, validez y
normas), por eso algunos autores opinan que no se les debe dar el titulo de
pruebas, sino utilizar uno menos comprometedor como el de técnicas o métodos
proyectivos de evaluación. Levy en 1963 propuso llamarlas «técnicas de
provocación de respuestas», ya que dependen de la habilidad del clínico para
hacer interpretaciones, otros más estrictos, sugieren que se deben retirar del
arsenal de pruebas psicológicas. Se abordan los argumentos a favor y en contra de
las pruebas proyectivas y su valor de uso como instrumentos propios del quehacer
psicológico. Veamos aquí el test de Rorschach

El test de Rorschach es una técnica y método proyectivo de psicodiagnóstico,


creado por el psicoanalista suizo Hermann Rorschach (1884-1922). Se publicó por
vez primera en 1921 y alcanzó una amplia difusión.

El test consiste en una serie de láminas en las que encontramos manchas


aleatorias de tinta. El psicoterapeuta pide al sujeto que dé sentido a esas manchas.
A partir de estas interpretaciones el psicoterapeuta intenta ver lo que sucede en la
mente del paciente.

El test de Rorschach es quizás el más conocido de los test, debe su nombre al


psiquiatra suizo Hermann Rorschach (1884-1922).

Básicamente es un test proyectivo aunque a partir de él se ha estudiado su


cuantificación. Por lo que se lo considera una de las pruebas más completas. Pero
su mayor logro es la amplia difusión que posee, ya que a partir de ella existe una
157

amplia cantidad de investigaciones y casuística. El material actual disponible es


inmenso.

El test de Rorschach consta de 10 láminas compuestas por manchas de tinta


(negras y policromáticas) sobre un fondo blanco. Estas láminas poseen una
morfología vaga por lo que resultan especialmente sugerentes. Las láminas son
presentadas de manera sucesiva a un paciente preguntándole lo que ve en ellas y
como y donde manifiesta lo observado. Esta basado en lo que las personas
perciben, ya que visualizan en las manchas diferentes aspectos. El análisis del test
está basado en lo percibido. Para mencionar solo algunos pocos ejemplos que
ilustran sobre las características del test, cabe mencionar que interesa (entre otras
cosas) la localización de lo observado, su forma, si presenta movimientos (que tipos
de movimientos) si se perciben diferentes aspectos, si se perciben utilizando toda la
lámina o parte de ella (en que detalles de una lámina se visualizan los elementos),
si lo observado tiene dimensión, profundidad, color, reflejo, sombra, brillo, si se
observan objetos inanimados, humanos, animales, paisajes, el tipo de respuestas,
etc. Sería interminable describir la infinidad de respuestas posibles.

Varios caminos han tenido un desarrollo independiente. Los de mayor desarrollo y


difusión fueron los de Klopfer y Rapaport, también alcanzaron un importante
desarrollo las lecturas de Beck, Hertz y Piotrowsky entre otros. El nombre de John
Exner merece una mención particular, integró las cinco principales corrientes en un
único Sistema Comprensivo, y es en la actualidad la corriente de mayor desarrollo,
difusión, utilización y expansión en el mundo. A diferencia de los anteriores posee
un enfoque menos complicado en sus lecturas y desarrollos diagnósticos. Se
presenta a si mismo como un medio y no un fin, por lo que se promociona como un
test para ser utilizado en diferentes ámbitos y por diferentes lecturas teóricas.

Proporciona más de cincuenta rasgos de la Personalidad estudiada, superando a


cualquier otra prueba. Del sujeto estudiado, nos habla entre otros rasgos de:
158

• Inteligencia: Capacidad. Estilo. Fantasía. Complejidad. Ajuste. Distorsión.


• Afectos: Interés. Formas de mostrarlos. Control. Influencia de las emociones en
la resolución de problemas. Constricción de las muestras afectivas.
Oposicionismo.
• Vivencialidad: Recursos psicológicos disponibles. Modos de afrontamiento:
Reflexivo. Impulsivo. Ambigual. Activo o pasivo.
• Autopercepción: Autoestima: Egocentrismo, narcisismo, dependencia,
aislamiento. Preocupación corporal.
• Interrelaciones: Modelos de lo humano. Interés por los demás. Habilidad social.
Interés por lo convencional. Visión de las relaciones sociales bien como de
cooperación o bien como agresivas.
• Estrés: Nivel. Presiones que inciden en él
• Tono de humor: Valoración de las interacciones con el entorno. Nivel de
Depresión. Potencialidad suicida.

En la descripción de la Personalidad, no sólo se refiere a lo patológico, sino


también a rasgos positivos en los que la terapia puede apoyarse o incluso
potenciarlos.

Con frecuencia descubre problemas que el propio sujeto ignoraba, haciéndole


involucrarse más en la terapia.

Libre del error de deseabilidad social, el Rorschach es insustituible cuando de la


evaluación dependan consecuencias ajenas al mero diagnóstico: Custodia de hijos,
puestos de trabajo, mejor trato por parte de la Justicia, etc.

Es ideal para la Selección de Personal de alta cualificación, ya que, además de lo


dicho, la rica información que proporciona señalará a los sujetos más idóneos para
desempeñar tareas concretas.
159

Requiere mayor nivel de conocimientos que otras pruebas. No solo sobre el propio
Rorschach sino también sobre Personalidad y Psicopatología, solo así se logra
conseguir toda la amplitud de información que es capaz de proporcionar.

El Rorschach como test perceptivo

El test de Rorschach no es propiamente un test proyectivo, sino que nació como un


test perceptivo. Esto es, da cuenta de qué y cómo la persona ve el mundo; su
capacidad para resistir el estrés, su tendencia a la introversión o extroversión, si
sufre de algún tipo de problema emocional, la mucha o poca adecuación a la
realidad social, etc.

Métodos de interpretación

Rorschach murió en 1922, a un año de presentar su test. Esto, sumado a su


difusión un tanto tardía, llevo a que distintos psicólogos americanos y europeos
160

definieran sus propios métodos de interpretación del test. Los métodos de mayor
renombre fueron los de Klopfer y Rapaport, junto a los de Beck, Hertz y Piotrowsky.
Con el tiempo, la diversidad de métodos y la falta de un método común llevo al
desprestigio del test por su falta de confiabilidad; esto es, cada psicólogo tenía su
propio método y era casi imposible comparar resultados.

A inicios de los 70, la Fundación Rorschach comenzó una serie de estudios para
determinar cuales eran los métodos de tabulación e interpretación más utilizados,
para después iniciar una serie de investigaciones sobre aquellos indicadores que
proveían de información clínica relevante. El resultado de estos esfuerzos es el
ahora conocido Método Comprehensivo de Exner, editado por primera vez el año
1974.

El método comprehensivo de Exner

El método comprehensivo de Exner es el resultado de las investigaciones iniciadas


en los 70 por la Fundación Rorschach para generar un método único de
codificación, tabulación e interpretación del Rorschach. Cada una de las variables
que presenta el modelo cuenta con investigaciones empíricas que respaldan su
validez. En estos momentos, es el estándar de facto para la aplicación e
interpretación del Rorschach y, según la experiencia del autor, da resultados
bastante válidos.

Si bien las propiedades psicométricas del test de Rorschach son limitadas, el


procedimiento se está fortaleciendo en tanto los sistemas de codificación se hacen
más específicos y los investigadores dedican más atención a la comprobación
empírica de sus conceptos. La validez de la interpretación puede mejorar con el uso
frecuente de la técnica y con la mayor experiencia clínica.

Para complementar información sobre este test, recomendamos ver las siguientes
páginas:
161

www.rorschach.org

http://www.serymp.org

Lección 25. Casa – Árbol – Persona (H-T-P)

La H-T-P es una prueba proyectiva que utiliza dibujos a pulso de una casa, un árbol
y una persona (Buck, 1948, 1981). A la persona examinada se le da casi completa
libertad de trazar los tres objetos, se piden dibujos a lápiz y a colores por separado.
Aunque el examinador puede improvisar una prueba H-T-P con meras hojas de
papel en blanco, Buck (1981) recomienda el uso de una forma de dibujo con cuatro
hojas que tiene en la primera página la información de identificación. Las páginas 2,
3 y 4 tienen como título Casa, Árbol y Persona. Se necesitan dos formatos de dibujo
para cada examinando, uno para los dibujos a lápiz y el otro para los dibujos a color.
Buck (1981) también proporciona un formato independiente de cuatro hojas para
una fase de interrogatorio posterior a los dibujos que consiste de 60 preguntas
diseñadas para obtener las opiniones de la persona examinada en cuanto a los
elementos de los dibujos. Muchos profesionales consideran que la fase de
interrogatorio no amerita un esfuerzo adicional. También se cuestiona el valor de los
dibujos realizados con colores (Killian, 1987).
La Técnica Proyectiva del Dibujo de casa-árbol-persona tiene en mucho la misma
herencia que la Prueba del Dibujo de la Figura Humana. Como la Prueba DFH, la H-
T-P se concibió en un principio como una medida de inteligencia, completa con un
sistema de calificación cuantitativa para estimar un nivel aproximado de capacidad
(Buck, 1948). Sin embargo, los clínicos pronto abandonaron el empleo de la H-T-P
corno medida de inteligencia y ahora se le utiliza casi de manera exclusiva como
medida proyectiva de la personalidad.
Aunque no se ahondará en los detalles, la interpretación de la H-T-P depende de
tres suposiciones generales: el dibujo de la Casa refleja la vida hogareña y las
relaciones intrafamiliares de la persona examinada, el del Árbol refleja la manera en
que el individuo experimenta el ambiente y el de la Persona hace eco de sus re-
laciones interpersonales. Buck (1981) proporciona numerosas hipótesis
162

interpretativas tanto para los aspectos cuantitativos como cualitativos de los tres
dibujos.
La H-T-P es una atractiva prueba que ha fascinado a los clínicos por más de 40
años. Por desgracia, Buck (1948, 1981) nunca ha proporcionado algún tipo de
evidencia que sustente la confiabilidad o validez de este instrumento. De hecho,
quizás él mismo es su peor crítico. En cierto punto dentro de su manual de la
prueba, incluso llega a afirmar que la investigación sobre validación no es posible
con la H-T-P (Buck, 1981, p. 164). Entre los impedimentos para dicha investigación
cita los siguientes elementos:
1. Ningún signo en sí mismo es indicación infalible de alguna fortaleza o
debilidad en el individuo.
2. Ningún signo en la H-T-P tiene un solo significado.
3. La importancia de un signo puede diferir notablemente de una constelación a
otra.
4. La cantidad de datos diagnósticos y pronósticos que pueden obtenerse de
cada uno de los puntos de análisis puede variar en gran medida de una
persona a otra.
5. Los colores no tienen algún significado absoluto y universal.
6. Ninguno de los elementos del sistema de calificación cuantitativa puede
tomarse automáticamente por su valor aparente

Capítulo 6. Pruebas de Inteligencia y otras pruebas de las funciones cognitivas

En la medición de estas capacidades con test de inteligencia nos encontramos con


un gran problema derivado del hecho de que la expresión de las mismas está muy
influenciada por el momento en que se realizan.

El cansancio, el estado de humor y otros múltiples factores pueden afectar


significativamente su expresión de un día a otro o entre el comienzo y el final de un
mismo día.

El segundo gran problema es que cada medición concreta utiliza un test de


163

inteligencia específico y particular y que los resultados pueden variar en gran


medida en función de si el individuo ha realizado un test de inteligencia similar en el
pasado o por la mayor o menor simpatía o afinidad cultural con el mismo, aunque si
está bien diseñados este aspecto debería ser bastante reducido.

Una conclusión sencilla sería el pensar que estas capacidades no son estables a
lo largo de la vida y que se encuentran muy influenciadas por el medio ambiente.
Sin embargo, algunos expertos opinan que existe una gran estabilidad de las
capacidades a lo largo de la vida, especialmente a partir de los 6 años.

Por su parte, el lenguaje, como expresión del inconsciente colectivo, claramente


opina que la inteligencia es una cualidad fija puesto que utiliza el verbo ser y no el
verbo estar en expresiones como "Esa persona es muy inteligente".

Para ilustrar la relación entre el desarrollo de la comprensión de la inteligencia y la


medición psicológica, ilustraremos la temática a partir de la prueba WISC-R
164

Lección 26. WISC - R, escala de inteligencia de Wechsler para niños - revisada

CARACTERÍSTICAS

Versión revisada, modificada y actualizada del WISC. El WISC-R mantiene un gran


número de elementos del WISC tradicional, sustituyendo o eliminando los que
resultaban obsoletos y añadiendo otros, en ciertas pruebas, para aumentar su
fiabilidad; se ha modificado el orden de aplicación a fin de que sea más ameno para
el niño.

Algunas pruebas amplían sus instrucciones con nuevos ejemplos, evitando así
posibles ambigüedades y garantizando que el niño comprenda la naturaleza de la
tarea que ha de realizar.

Aplicación: Individual.

Tiempo: Aproximadamente 1 hora y 30 minutos.


Edad: De 6 a 16 años.

Juego completo con 25 cuadernos de anotación y material manipulativo.

En la escala del WISC-R se incluyen las siguientes pruebas:

Escala verbal: Escala de ejecución:


Información. Figuras Incompletas.
Semejanzas. Ordenación de Dibujos.
Aritmética. Diseños con Cubos.
165

Comprensión. Composición de Objetos

Un buen ejemplo de su uso lo encontrará en el artículo anexo: Estructura factorial


de la Escala de Inteligencia para Niños de Wechsler-Revisada (WISC-R). Un
acercamiento desde el ámbito clínico
(http://www.cop.es/delegaci/andocci/VOL.%2019_3_6.pdf)
166

Lección 27. MEDICIÓN RÁPIDA DE HABILIDAD INTELECTUAL - BARSIT


INTRODUCCIÓN
Con el BARSIT se obtiene rápidamente un índice de la aptitud para aprender, mediante la valorización de
factores de inteligencia verbal y razonamiento numérico, haciendo también intervenir elementos
cognoscitivos lógico-verbales y de información general.
El BARSIT es una prueba que puede emplearse colec¬tivamente y utiliza material impreso (papel y lápiz). Es
de fácil aplicación y se recomienda como prueba inicial.
El BARSIT tiene un doble uso:
a. Para escolares a partir de la terminación del 3er.
Grado (Psicología Educativa)
b. Para adultos con educación primaria (Psicología
del Trabajo y Educativa)
Propósitos
1. Determinar rápidamente el nivel de inteligencia
o aptitud para aprender.
2. Comparar la composición de grupos. Si se usa con
este fin, se obtiene una apreciación de la distribución del grupo y se puede comparar la composición de
dicho grupo con sus afines.
3. Seleccionar previamente casos excepcionales. Al
aplicar el BARSIT a grupos, se pueden escoger
los individuos que hayan alcanzado resultados superiores
o inferiores para el estudio detallado de tales casos
extremos - supra o subnormales - y aplicarles reactivos
adecuados.
4. Adaptabilidad del sujeto. El BARSIT como prueba
inicial sirve de adiestramiento para aquellos individuos
que no hayan tenido anteriormente ocasión de realizar
pruebas o tests. Este primer contacto con una prueba,
relativamente sencilla, establece una "empatia" entre el sujeto y las sucesivas pruebas, y los resultados
serán orientadores para determinar la aplicación de otros tests.

Descripción de la prueba

La prueba está impresa en un pliego de cuatro páginas y a dos colores: negro y azul. La primera página
contiene los datos de identificación del sujeto, las instrucciones y diez ejemplos que deben ser resueltos
con la ayuda del examinador. En las tres páginas restantes figuran sesenta Ítems o cuestiones escalonadas
experimentalmente con arreglo a la dificultad intrínseca1 que presentan y mezclan progresivamente los
cinco tipos de preguntas o reactivos que se van formulando:
1. Información o conocimientos generales.
2. Comprensión de vocabulario mediante el conocimiento
de opuestos.
3. Razonamiento verbal, discriminando la palabra que
expresa un concepto diferente a otras cuatro que
mantienen entre sí una semejanza de categoría.
4. Razonamiento lógico mediante la asociación a un
elemento dado del análogo, de acuerdo con otra
167

asociación conocida.
5. Razonamiento numérico mediante series de números
que deben completarse, una vez deducida la regla
que rige a cada serie.
A excepción de las series numéricas, los otros cuatro tipos de preguntas se formulan por el sistema de
selección múltiple. En este caso el sujeto no debe escribir ninguna palabra, limitándose a subrayar la
respuesta seleccionada como adecuada a la cuestión que se le presenta.

APLICACIÓN Y CALIFICACIÓN

Instrucciones previas a la aplicación de la prueba


1 ° El examinador debe tener un conocimiento cabal de la prueba y debe haberse familiarizado con las
instrucciones de este Manual antes de aplicarla por primera vez.
2° No es necesaria una especial preparación psicológica para aplicar el BARSIT, pero el examinador debe
poseer las condiciones necesarias para dirigir el grupo.
3° Los sujetos que vayan a efectuar el test deben poder trabajar en condiciones favorables: salón apropiado
con mesas adecuadas (distanciadas para evitar copias), buena iluminación y ventilación.
4° Deben disponer de lápices y ejemplares impresos del BARSIT, uno para cada sujeto; además de algunos
lápices de reserva para utilizarlos en casos de emergencia.

5° Un solo examinador difícilmente podrá atender grupos mayores de veinticinco examinandos. En caso de
tener que aplicar en una sesión la prueba a un grupo numeroso - disponiéndose de local amplio y adecuado
- el examinador debe obtener la colaboración de auxiliares.
6° Los auxiliares deben haber sido previamente instruidos. Sus funciones serán: distribuir y recoger los
ejemplares, evitar copias, y hacer que los examinandos sigan estrictamente las instrucciones de la parte de
la prueba que están efectuando.
En el caso de producirse alguna rotura de la punta de un lápiz, el auxiliar deberá suministrar
inmediatamente otro (nunca debe emplearse tiempo en sacar una nueva punta).

En ningún caso los auxiliares intervendrán positiva o negativamente en los trabajos de los que
efectúan la prueba. No deben ni siquiera comprobar cómo son los resultados, absteniéndose de todo
acto o movimiento de aprobación o desaprobación.

El sujeto no debe sentirse cohibido por esta comprobación, ni tampoco estimulado.

Cómo debe aplicarse el BARSIT

Una vez que estén convenientemente sentados los examinandos se procederá a entregar a cada uno
un lápiz y un ejemplar de la prueba.

Cuando se distribuyan los formularios se colocarán éstos delante del individuo, de manera que
tengan a la vista solamente la página en donde aparecen las instrucciones.

Al efectuar dicha distribución, nunca deben ser colocadas las hojas al revés.

El examinador debe explicar brevemente lo que se espera, diciendo: "Ustedes van a realizar una
prueba sencilla y muchas de las cuestiones que se les preguntan son bastante fáciles. Deben procurar
168

responder el mayor número posible de cuestiones para demostrar la cantidad de trabajo que son
capaces de hacer en poco tiempo".

(Cuando los examinandos tengan instrucción superior a la primaria, podrán abreviarse las siguientes
instrucciones. Después de la lectura que ellos mismos hayan hecho, el examinador se limitará a
cerciorarse de que han sido comprendidas las instrucciones.)

Para comenzar dirá:

"Escriban con letra clara sus apellidos y sus nombres dentro del cuadro que hay en la parte
superior de la página que tienen a la vista, después la edad y la fecha del día en que se
efectúa la prueba".

Terminados de anotar estos datos, el aplicador de la prueba leerá en voz alta las instrucciones que
figuran en la primera página al mismo tiempo que lo hacen por su cuenta los sujetos que realizan la
prueba.

Es conveniente que el aplicador lea en forma muy clara y no pase a una cuestión nueva sin
asegurarse que todos están siguiendo y comprendiendo lo que se está leyéndoles.

Al terminar de leer cada uno de los ejemplos, debe preguntar a alguno de los que se examinan,
para que éste dé la respuesta y explique qué debe hacerse.

De todos modos, el examinador debe dictar la respuesta correcta.

Es conveniente insistir hasta estar seguro de que las instrucciones, y especialmente la forma en
que deben ir poniendo las soluciones, han sido bien comprendidas.

El aplicador de la prueba les dirá:

"No deben escribir ninguna palabra, y solamente subrayar una de las cinco palabras que se
encuentran después de la pregunta y que sea la que mejor conteste a ella".

(Cuando sea necesario, explicará que subrayar quiere decir poner una raya por debajo.)

Al llegar a los ejemplos 5 y 10, les dirá:

"Cuando ustedes encuentren series de números como éstas, deben tratar de encontrar cuáles son
los dos números que faltan y escribirlos en los espacios punteados".

Si las series han sido leídas con cierta entonación, haciendo una marcada pausa al llegar a los
espacios punteados, el sujeto descubrirá fácilmente los números que faltan. En el caso de que no lo
comprenda, se le ayudará dándole las explicaciones necesarias.

Después les repetirá:

"Cuando encuentren series de números deben escribir los dos números que faltan para llenar los
espacios punteados".

Es necesario comprobar que todos han comprendido bien estas instrucciones y han resuelto los
diez ejemplos correctamente.
169

Por último el aplicador leerá las seis líneas que figuran al pie de la página en donde se les recomienda
que trabajen con rapidez, pero que procuren no cometer errores y que no se distraigan mirando lo
que hacen los demás.

Se les preguntará si tienen alguna duda, y en el caso de que alguien formule alguna pregunta, ésta será
aclarada, pero una vez dada la orden de comenzar no deben darse nuevas explicaciones. Antes de dar la
orden de que pueden empezar les dirá:

"Van a disponer de diez minutos para contestar el mayor número de preguntas posible"."Hay
tres páginas por llenar y deben trabajar sin distraerse".

Llegado este momento se procurará atraer la atención de todos y se dará la orden:

"Vuelvan la página. ¡Comiencen por la página dos y contesten las cuestiones que allí
encuentren! "¡No se entretengan! ¡Empiecen!

Tiempo de ejecución
Se otorgan diez minutos. El tiempo se comienza a contar a partir del momento de dar la orden:
"Empiecen", o sea después de finalizadas las instrucciones de la primera página. Transcurridos
exactamente diez minutos después de dada la orden de "empiecen", se dirá "¡ALTO! Dejen los lápices de
encima de la mesa", y el aplicador, ayudado por los auxiliares, recogerá las pruebas. Esta operación de
recoger los formularios debe hacerse muy rápidamente.

Calificación

Para calificar el BARSIT, se revisarán las contestaciones dadas, de acuerdo con la clave de corrección, y a
cada cuestión bien resuelta se otorga un punto. (En la parte superior de la clave, encima de cada columna
de respuestas se destaca un número que corresponde a la página del test. Si se hacen coincidir ambos
números, la operación de corregir las pruebas es sumamente fácil.)

Se considera la respuesta como incorrecta si se ha subrayado más de una palabra, y si en las series
numéricas solamente aparece bien uno de los dos números que se deben escribir, también se
conceptuará como incorrecta.

Una vez calificada la prueba se anotarán los puntos obtenidos en la casilla correspondiente de la primera
página, y se le asignará la centila que le pertenece, de acuerdo con la Tabla de normotipos.

INTERPRETACIÓN Y DATOS ESTADÍSTICOS


Cómo han sido obtenidos los normotipos

Con el BARSIT se han realizado aplicaciones en Argentina, Colombia, Uruguay y Venezuela, y actualmente se
están efectuando nuevos experimentos en otras repúblicas americanas.

Las tablas que figuran en esta primera edición del manual corresponden a los resultados
obtenidos con sujetos venezolanos.

Para establecer las normas correspondientes a


los escolares, se acumularon por separado las puntuaciones alcanzadas por estudiantes de diferentes
regiones del país (varones y niñas), que hubieren cursado o estuvieren terminando tercero, cuarto,
quinto o sexto grado de instrucción primaria. (La educación primaria en Venezuela alcanza hasta el 6°
170

grado.) Se ha excluido intencionalmente los datos de escolares de edades anormales en relación con el
grado.

Patrocinaron las investigaciones el Laboratorio de Psicología Aplicada (Psicotecnia) de la Escuela


Normal M.A.C.; los servicios de Psicología Aplicada de los Liceos "Fermín Toro" y "Aplicación"; la
Sección de Psicopedagogía del Instituto Pedagógico, y el Instituto de Psicología y Psicología Aplicada
(Psicotecnia) de la Facultad de Filosofía y Letras de la Universidad Central de Venezuela.

Todas las aplicaciones del BARSIT se llevaron a cabo durante el primero o último mes de cada año
escolar, dirigidas por el propio autor, y realizadas con la colaboración de estudiantes seleccionados
de los cursos de Mediciones y evaluación psicopedagógica.

Para establecer las normas de personas adultas,


representativas de la población trabajadora venezolana, se han reunido las puntuaciones de individuos
comprendidos entre las edades de veinte a treinta años. Se han distribuido en tres grupos de acuerdo con el
nivel de instrucción:

1. Primaria completa (sexto grado)


2. Casi completa (cuarto o quinto grados)
3. Incompleta (hasta tercer grado)
Los datos proceden de diferentes regiones del país, y han sido facilitados por diversas industrias
que han adoptado el BARSIT como prueba preliminar de preempleo o para fines de entrenamiento, y en
proporción muy considerable por los servicios de selección que dirige el Dr. Pedro Sánchez Landaeta.

Cómo usar los normotipos

El generalizado sistema de las centilas o rangos percentilares se utiliza en los normotipos venezolanos (en este
Manual se publican los revisados en Diciembre de 1956, véase Cuadro n° 1).

Del mismo modo que cuartila o decila expresa un valor estadístico que indica cuartas partes o
décimas partes del total de un grupo, la centila señala las centésimas partes del grupo a que nos
referimos. Una centila siempre indica la porción que está por debajo, por lo cual puede utilizarse
como una medida de ordenación o posición.

Así por ejemplo, a un adulto con instrucción primaria completa, que haya obtenido 42 puntos con el
BARSIT, de acuerdo con los normotipos le corresponde la centila 66.

Este valor significa que si comparamos dicha puntuación con los resultados de adultos de su
mismo nivel, 66% de individuos quedan igual o por debajo de él, y por tanto solamente 34%
pueden alcanzar una puntuación superior a la que él ha obtenido.

Otro ejemplo: A un escolar de 12 años, que haya cursado el 5° grado y solamente conteste bien 30
cuestiones o Ítems del BARSIT, de acuerdo con las Escalas de los normotipos de 5° grado, a 30 puntos
le corresponde la centila 10.

Comparándose esta puntuación con lo que es normal en su grupo, solamente 10% de


escolares de su mismo nivel de instrucción obtienen resultados iguales o inferiores, y por
tanto cabe esperar que 90% alcancen resultados superiores a 30 puntos.

Cuadro 1
Test rápido Barranquilla - normotipos venezolanos
CENTILAS CENTILAS
171

PUNTOS Escolares de nueve a catorce Trabajadores adultos de 20 a 30 años PUNTOS


GRADOSaños CON INSTRUCCIÓN PRIMARIA DE
SEXTO QUINTO CUARTO TERCERO 6° GRADO 5° 0 4° 3 ° o MENOS
60 99 90
59 59
58 98 58
57 57
56 97 99 56
55 96 55
54 95 54
53 9 o 10a 94 98 53
52 99 93 52
51 98 91 97 51
50 97 89 96 50
49 95 87 49
48 93 99 85 95 48
47 91 98 99 82 94 47
46 87 96 80 92 99 46
45 82 95 98 76 91 45
44 75 92 97 99 73 89 98 44
43 69 89 96 70 88 43
42 61 85 95 66 86 97 42
41 54 81 93 98 62 84 41
40 46 74 91 97 58 82 96 40
39 39 68 88 96 54 80 95 39
38 31 61 85 95 50 77 94 38
37 25 53 81 94 46 74 93 37
36 19 47 76 93 42 71 92 36
35 13 39 71 91 38 69 91 35
34- 9 32 65 89 34 65 89 34
33 7 25 60 87 30 62 87 33
32 5 20 54 84 27 59 85 32
31 3 15 48 81 23 55 82 31
30 2 10 42 78 20 52 80 30
29 1 8 37 75 17 48 77 29
28 5 31 71 15 45 74 28
27 4 26 67 12 42 71 27
26 2 21 63 10 39 69 26
25 17 59 9 35 65 25
24 1 13 55 7 32 62 24
23 10 50 6 29 58 23
22 8 45 5 26 54 22
21 6 41 4 23 51 21
20 4 37 3 20 48 20
19 3 33 18 45 19
18 2 29 2 16 41 18
17 25 14 37 17
16 1 21 1 12 34 16
15 19 10 31 15
14 16 9 28 14
13 13 8 25 13
12 11 7 22 12
11 12-14a 9 6 19 11
10 11-13a 7 5 17 10
9 6 4 15 9
8 5 3 13 8
7 4 11 7
6 3 9 6
<N
5 2 2 8 5
4 7 4
3 ' 1 6 3
2 10- 1 5 2
1 4 1
12ª
N° de casos 498 309 387 316 930 997 650 N° de casos
Media 40.4 36.5 31.4 23.0 38.0 29.4 20.6 Media
Desviación 5.2 5.4 6.8 9.2 9.9 11.9 11.4 Desviación
172

Cómo interpretar los resultados cualitativamente

Cuando se desee una rápida interpretación cualitativa de los puntos obtenidos con el BARSIT, basada en
cinco categorías: Excelente, Superior, Mediano, Inferior y Muy inferior, de acuerdo con el nivel de
instrucción, se puede usar la escala valorativa, según el Cuadro n° 2.

Cuadro 2

Interpretación cualitativa según la


puntuación obtenida con el BARSIT

MUY INFERIOR 10% INFERIOR 20% MEDIANO SUPERIOR EXCELENTE 10%


40%
20%
ESCOLARES
Sexto grado hasta 34 de 35 a 37 de de 38 a 43 de de 44 a 46 de más de 46
Quinto grado hasta 30 31 a 33 de 24 34 a 39 de 28 40 a 43 de 35 más de 43
Cuarto grado hasta 23 a 27 de 12a a 34 de 19 a a 39 de 28 a más de 39
Tercer grado hasta 11 18 27 34 más de 34

Sexto grado 4° o 5° hasta 26 de 27 a 33 de de 34 a 43 de de 44 a 50 de más de 50


grado Hasta Ser. hasta 15 16 a 23 de 7 24 a 35 de 15 36 a 44 de 27 más de 44
grado hasta 6 a 14 a 26 a 34 más de 34

Validez
Conseguimos puntuaciones de calificaciones escolares. Con ello intentábamos obtener criterios
externos que nos permitieran calcular el grado de conexión entre los rendimientos de la prueba y las
notas escolares.
Al lado de resultados alentadores: r - + 716; otros eran de r = + .446.
El diagrama n° 1 muestra la relación que existe entre el éxito en los estudios y las puntuaciones del
BARSIT. (Datos procedentes del Colegio San José, Barranquilla, noviembre 1944, cuarto año, B. N =
26, X = 31, DE = 6.8)

Más estudios de validez


Los alumnos del curso de Mediciones y evaluación del Instituto Pedagógico Nacional (Cursos para
Directores, 1947-48), recopilaron nuevos datos de los resultados del BARSIT y las calificaciones
escolares^alcanzadas por los estudiantes de los terceros grados de las Escuelas Públicas de Caracas. Se
tomaron 267 muestras (X = 23, DE = 9). El coeficiente de validez que se obtuvo fue de + .457.

Confiabilidad
Un primer intento para calcular coeficientes de confiabilidad se llevó a cabo repitiendo la aplicación
de la prueba al mismo grupo, transcurridas unas semanas de la primera aplicación, y el resultado
de este coeficiente de constancia fue de r = + .91. (Liceo de Aplicación, Caracas, octubre-
noviembre de 1948.) La falta de otras pruebas tipificadas no nos permitió calcular co eficientes de
equivalencia.
173

INFORMACIÓN COMPLEMENTARIA ACERCA DEL BARSIT


Es común en los manuales de pruebas ofrecer las referencias necesarias de la información bibliográfica. En esta
edición tenemos que suplir la falta de trabajos publicados sobre el BARSIT, por el acopio de datos que han
quedado inéditos. La bibliografía sobre pruebas en español es relativamente escasa. Tenemos conocimiento
de trabajos científicos llevados a cabo en Argentina, Colombia, Costa Rica, Cuba, Chile, Ecuador, España,
Guatemala, México, Panamá, Perú, Puerto Rico, Uruguay y Venezuela. Pero la falta de comunicación entre
los profesionales y la poca difusión de las ediciones circunscribe la aplicación de los resultados y la utilización
de los mismos.

Historia del BARSIT


En el año 1940, en Barranquilla, Colombia se creó un Instituto de Psicología Aplicada (Instituto
Psicotécnico), como ampliación del Laboratorio de Psicología Experimental del Colegio de Barranquilla,
"destinado a la investigación y estudio, desde el punto de vista del rendimiento y bienestar de los
alumnos. . . tendiendo a determinar el nivel mental, y tipo predominante de su inteligencia. . ." (Revista
del Museo del Atlántico, Publicación Bimestral, Director Julio Enrique Blanco, Barranquilla, República de
Colombia, Número preliminar octubre de 1941.

Durante más de un lustro se recopilaron datos que pudieran ser utilizados para la fijación de
estándares o normotipos. Fruto de ello es el "Informe de la labor realizada durante los años 1940, 1941,
1942, 1943 y 1944 por Francisco del Olmo Barrios", (Suplemento a los Nos. 8 y 9 de la Revista del Museo del
Atlántico, marzo de 1945), y (Franziska Baumgarten: "Progress of Psychotechnique" I. 1939-1945 Bern. - La
Psychotechnique en Colombie, por Mercedes Rodrigo, página 115).

Entre las 32 pruebas adoptadas por el Instituto de Barranquilla (página 46, del informe citado), se experimentó el
"Rapid Survey Intelligence Test" de Rudolf Pintner, previamente traducido con autorización personal
del autor.
Los resultados de ese experimento demostraron que no se podía utilizar en nuestro medio. Surgían
marcadas dificultades, especialmente en cuanto a la adaptación a los límites de tiempo para
efectuar los diferentes tipos de ejercicios. El tiempo de tres minutos para cada una de las cuatro
partes de que consta la prueba resultó demasiado breve para los sujetos examinados, ya que no
estaban habituados a realizar pruebas calculadas para tiempos cortos. Además presenta un segundo
inconveniente a los aplicadores de las pruebas, pues las instrucciones se deben impartir por separado,
página por página, siendo esto un obstáculo al tener que mantener una estrecha vigilancia para evitar que se
intente comenzar a resolver partes del test mientras se dan las instrucciones. Durante los años 1943 y 1944,
se estudió una nueva prueba que llenara un cometido similar a la del Dr. Pintner, pero evitando los
inconvenientes de los tiempos parciales. Se crearon nuevos Ítems para medir el vocabulario, el
razonamiento verbal y otros para el razonamiento lógico; para medir el razonamiento numérico se
organizaron series adecuadas, y además se introdujeron nuevos Ítems de información general, factor que
ha demostrado su validez en pruebas de otros autores (Terman, Wechsler, etcétera). Terminadas las
experiencias en 1945 se trataron estadísticamente los resultados.

Se habían examinado los siguientes escolares: De 13 años: 1003; de 12 años: 462; de 11 años: 338;
de 10 años: 252; de 9 años: 108.
Calculados los resultados con esta muestra de 951 varones y 1202 niñas que estaban terminando
el año escolar en escuelas oficiales y colegios privados, se obtuvieron los siguientes datos:

Segundo año N = 565 X= 19 46 DE = 8.37 T er cer año N = 7 8 5 X = 28 99 DE = 7 .57 C u a r t o


a ñ o N = 8 0 3 X = 3 4 2 1 D E = 6 . 6 7 (La instrucción primaria en Colombia finalizaba en esa época
al 4° año.)
174

Cuestionario

…AHORA EMPIEZAN A CONTAR LOS DIEZ MINUTOS

1. El queso se fabrica de:

las flores, la harina, la leche, las uvas, el azúcar

2. Lo contrario de abierto es:

liso, cerrado, delante, claro, despejado

3. De estas cinco palabras una pertenece a una clase diferente. ¿ Cuál es ?

rojo, amarillo, morado, bandera, verde

4. El pájaro canta, y el perro:

habla, rebuzna, cacarea, maulla, ladra

5. Escriba los dos números que faltan a esta serie:

10 15 20 25 … 35 40 45 … 55

6. Para medir la temperatura se emplea el:

litro, gramo, termómetro, metro, kilovatio

7. Lo contrario de dormido es:

noche, luz, amanecer, despierto, claridad

8. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?

agua, platino, café", té, cerveza

9. El zapato protege al pie, y el sombrero protege a:

la cabeza, la mano, el dedo, el brazo, la rodilla

10. Escriba los dos números que faltan a esta serie:


175

6 9 12 .......... 18 21 24 ............ 30

11. El triángulo es una figura formada por:

4 lados, 6 lados, 5 lados, 3 lados, 9 lados

12. Lo contrario de negro es:

oscuro, sombra, opaco, sucio, blanco

13. De estas cinco palabras una pertenece a una clase diferente. ¿ Cuál es ?

Pedro, Enrique, Ana, José, Carlos

14. El naranjo es un árbol, y el perro es:

un objeto, un animal, una cosa, un mineral, un vegetal

15. Escriba los dos números que faltan a esta serie:

7 9 11 13 ............ 17 ............. 21 23

16. El gato es un:

insecto, mamífero, ave, pez, reptil

17. Lo contrario de triste es:

alegre, preocupado, dolorido, desgraciado, enfermo

18. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?

Bogotá, Lima, Alpes, Caracas, Quito

19. La piel cubre al hombre, y las plumas cubren a:

la vaca, el perro, el gato, la gallina, el caballo

20. Escriba los dos números que faltan a esta serie:

7 14 21 28 42 49 63 70
176

21. Treinta es el triple de:

quince, tres, diez, doce, cinco

22. Lo contrario de calor es:

sudor, fatiga, blanco, frío, luz

23. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?

cuchara, plato, tenedor, cuchillo, cucharita

24. Para coser se emplea la aguja, y para dibujar se emplea el:

lápiz, bastón, tintero, pie, ojo

25. Escriba los dos números que faltan a esta serie:

40 36 32 28 20 16 12 4

26. La Cordillera de los Andes está en:

Europa, Asia, América, Australia, África

27. Lo contrario de arriba es:

dentro, abajo, cerca, completo, lejos

28. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?

General, Teniente, Capitán, Presidente, Coronel

29. Con el cuero se fabrica el calzado, y con la tela:

piel, lana, algodón, seda, vestidos

30. Escriba los dos números que faltan a esta serie:

64 58 52 46 .......... 34 28 ........... 16 10

31. Roma es la capital de:

Nicaragua, España, Grecia, Italia, Paraguay


177

32. Lo contrario de sí es:

antes, afirmar, duda, luego, no

33. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?

vaso, copa, agua, jarra, taza

34. La nariz sirve para oler, y los ojos sirven para:

oír, ver, gustar, tocar, andar

35. Escriba los dos números que faltan a esta serie:

5 10 20 …. 80 160 …. 640 1280

36. El idioma oficial de Haití es el:

inglés, francés, español, holandés, portugués

37. Lo contrario de despacio es:

de prisa, lento, pausado, débil, grueso

38. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?

carpintero, herrero, médico, albañil, zapatero

39. Al lunes sigue el martes, y a enero sigue:

junio, viernes, mes, febrero, año

40. Escriba los dos números que faltan a esta serie:

2 4 … 16 32 … 128 256

41. Fernando de Magallanes fue un famoso:

militar, aviador, navegante, sabio, sacerdote


178

42. Lo contarlo de blando es:

suave, duro, liso, grueso, débil

43. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?

ver, oír, oler, andar, gustar

44. El codo articula el brazo, y la rodilla articula:

el corazón, los dedos, los pulmones, el cerebro, la pierna

45. Escriba los dos números que faltan a esta serie:

5 6 8 11 15 20 … 33 41 … 60

46. Cristóbal Colón descubrió América en el:

siglo XIII, siglo XVII, siglo IV, siglo XV, siglo XIV

47. Lo contarlo de fuera es:

libre, lejos, distinto, malo, dentro

48. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?

Venus, Júpiter, Satélite, Urano, Neptuno

49. Octubre es anterior a noviembre, y jueves es anterior a:

diciembre, viernes, septiembre, miércoles, día

50. Escriba los dos números que faltan a esta serie:

90 80 71 63 … 50 45 … ..................... 38 36 35

51. Los primeros ferrocarriles empezaron a funcionar hacia:

1900, 1800, 1825, 1750, 1710

52. Lo contarlo de empezar es:

iniciar, adelantar, obstruir, terminar, buscar


179

53. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?

feliz, triste, satisfecho, alegre, contento

54. La paz viene después de la guerra, y la calma viene después de:

la tormenta, el crepúsculo, el bienestar, la felicidad, el ocaso

55. Escriba los dos números que faltan a esta serie:

120 100 82 66 … 40 30 ...................... … 16 12 10

56. La bitácora es de uso indispensable en:

música, biología, navegación, teatro, química

57. Lo contarlo de homogéneo es:

compacto, heterogéneo, abstracto, sutil, neutro

58. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?

Stravinski, Bach, Mozart, Newton, Chopin

59. La biblioteca es para guardar libros, y la pinacoteca para guardar:

periódicos, discos, películas, monedas, cuadros

60. Escriba los dos números que faltan a esta serie:

6561 2187 729 81 … 9 3


180

Lección 28. Test de aptitudes diferenciales (DAT)

El DAT se publicó inicialmente en 1947 para proporcionar una base paia la


orientación educativa y vocacional de los alumnos de bachillerato. Después, los
examinadores encontraron que esta prueba es útil en la orientación vocacional de
jóvenes adultos que se encuentran fuera de la escuela y en la selección de emplea-
dos. La paieba ha tenido revisiones periódicas y es una de las baterías de prueba
de aptitudes múltiples más popular de todos los tiempos (Bennett, Seashore y
Wesman, 1982, 1984).
Razonamiento Verbal (RV), Razonamiento Numérico (RN), Razonamiento Abstracto
(RA), Velocidad y Precisión Perceptual (VPP), Razonamiento Mecánico (RM),
Relaciones Espaciales (RE), Ortografía (O), Uso del lenguaje (UL).
Los autores eligieron las áreas para las ocho pruebas con base en datos
experimentales y experienciales, más que en un análisis factorial formal realizado
por ellos mismos. En la construcción del DAT, los autores se guiaron por varios
criterios explícitos:
 Cada prueba debe ser independiente: existen situaciones en las que se
requiere o se desea sólo una parte de la batería.
 Las pruebas deben medir poder: para la mayor parte de los propósitos
vocacionales a los que contribuyen los resultados de una prueba, la
evaluación del poder —resolver problemas difíciles en el tiempo adecuado—
es de interés primordial.
 La batería de prueba debe producir un perfil: las ocho calificaciones
independientes puede convertirse en rangos percentiles y representarse en
una gráfica común de perfil.
 Las normas deben ser adecuadas: en la quinta edición, las normas se
obtuvieron de 100 000 estudiantes para la estandarización de otoño y 70 000
para la de primavera.
 Los materiales de prueba deben ser prácticos: con límites de tiempo de 6 a 30
minutos por prueba, el DAT completo puede aplicarse en una sesión escolar
181

matutina o vespertina.
 Las pruebas deberían ser fáciles de aplicar: cada una contiene excelentes
ejemplos de "calentamiento" y las pueden aplicar personas con un mínimo de
entrenamiento especial.
 Deben estar disponibles formas alternas: con propósitos de repetición de
prueba, la disponibilidad de formas alternas (en la actualidad formas C y D)
reducirá cualesquier efecto de la práctica.
La confiabilidad del DAT es, por lo general, bastante alta, con coeficientes por
mitades que en gran medida se localizan en el rango de .90 y confiabilidades de
formas alternas que se encuentran en el rango de .73 a .90, con mediana de .83.
Razonamiento mecánico es una excepción, con confiabilidades tan bajas como .70
en el caso de las niñas. Las pruebas muestran un patrón mixto de
intercorrelaciones, que los autores interpretan de manera optimista como una
confirmación de la independencia de las ocho pruebas. En realidad, muchas de las
correlaciones son bastante altas y parece probable que las ocho pruebas reflejen un
menor número de factores de capacidad. Con toda seguridad, las pruebas de
Razonamiento Verbal y Capacidad numérica miden un solo factor sólido, con
correlaciones alrededor de .70 en diversas muestras.
El manual presenta amplios datos que demuestran que las pruebas del DAT, en
especial la combinación RV + RN, constituyen buenos medios de predicción de las
calificaciones en educación media superior y universidad (correlaciones en los
rangos de .60 y .70). Por tal razón, la combinación de RV + RN se considera con
frecuencia como un índice de la aptitud escolar. La evidencia de ¡a validez
diferencial de las otras pruebas es bastante limitada.
Aun así, el DAT revisado es mejor que las ediciones anteriores. Una mejoría
importante es la eliminación del aparente sesgo de género en las pruebas de Uso
del Lenguaje y Razonamiento Mecánico —una fuente de críticas en ediciones
anteriores. Los editores de la Quinta Edición llevaron a cabo un cuidadoso estudio
sobre sesgo de género, raza, étnico y regional, a fin de eliminar los reactivos que
podrían ser estereotípicos u ofensivos para subgrupos identificables.
Lo que es más, realizaron análisis estadísticos complejos para eliminar reactivos de
182

dificultad desigual entre subgrupos raciales equiparados en términos de desempeño


general.

Ejemplo de reactivo

RELACIONES ESPACIALES

¿Cuál de las figuras de la derecha se puede hacer al doblar el patrón a la izquierda? El patrón siempre representa la parte externa de la figura.

Lección 29. Test guestaltico visomotor de Bender

Más allá de cualquier duda, la prueba de dibujo de más amplia utilización es el Test
Guestállico Visomotor, conocido de manera más común como Prueba Gestalt de
Bender (BGT, Bender, 1938). La BGT consta de nueve figuras estímulo (figura 9-9);
se instruye a la persona evaluada para que copie cada figura en una hoja de papel
en blanco. Se dice al examinando que la BGT: "... no es una prueba de capacidad
artística, pero intente copiar el dibujo lo más precisamente posible. Trabaje con la
rapidez o lentitud que usted desee" (Huit, 1977).
Se han diseñado vanos sistemas de calificación para determinar si el desempeño de
una' persona es el más común en individuos con daño' cerebral o sin él (Hain, 1964;
Hutt y Briskin, '• 1960; Lacks, 1999; Pascal y Suttell, 1951;" Pauker, 1976). En el
caso de adultos, el mejor de estos enfoques de calificación se encuentra en Lacks
(1999). Esta autora identificó 12 signos cualitativos que se califican según presencia
contra ausencia en el protocolo completo. La presencia de cualesquiera de los cinco
signos indica daño cerebral (cuadro 9 -11). Con: base en la confirmación
independiente de otras fuentes de información, Lacks reseña tasas de' éxito de 82 a
86% en una muestra combinada de admisiones a la unidad de tratamiento psi-*
quiátrico agudo de un centro urbano de salud mental comunitaria (Lacks y Newport,
1980). En Gregory (1999) se analizan diversas variaciones interesantes en la BGT.
Grolh-Marnat |;{1990) dedica un capítulo completo a este instrumento, incluyendo
183

pautas interpretativas para niños y adultos.

A.

1.

o o o o o o o o o o
o o o o o o o o o o
o o o o o o o o o o
2.

3. 4.

Resumen de signos diagnósticos en el Test Guestáltico Visomotor

1. Rotación: la figura se rota de 80 a 180 grados.

2. Dificultad de superposición: problema para di


bujar las partes de una sola figura que debe
rían traslaparse.

3. Simplificación: se simplifica la figura.


4. Fragmentación: la figura se descompone de
tal manera que se pierde la gestalt general.
5. Retrogresión: sustitución con una forma gestalt
más primitiva que el estímulo.
6. Perseveración: los aspectos de un estímulo
anterior se llevan al estímulo actual.
7. Colisión: dos figuras independientes se super
ponen o chocan entre sí.
8. Impotencia: numerosas borraduras e incapa
cidad para terminar un dibujo a satisfacción
184

de la propia persona.
9. Dificultad de cierre: dificultad para lograr que
se toquen las partes adyacentes de una figura.

10. Falta de coordinación motora: el temblor es


evidente en el dibujo.
11. Dificultad de angulación: dificultad grave en la
reproducción de los ángulos de los dibujos.
12. Cohesión: disminución o incremento aislados
en tamaño de una subparte de un dibujo.

Nota: Se puede contar un decimotercer error si la prueba completa requiere más de 15 minutos.

Fuente: Basado en Lacks, P (1999). Bender-Gestalt screening forbrain dysfunction (2* edición). Nueva York: John Wiley.

Lección 30. Minimental Test

La herramienta de uso más amplio para el estado mental es el Mini-mental state


examination, MMSE (Examen del Estado Minimental), una prueba de detección de 5
a 10 minutos que produce un índice global del funcionamiento cognitivo (Folstein,
Folstein y McHugh, 1975; Tornbaugh, McDowell, Kristjansson y Hubley, 1996). La
prueba contiene 30 reactivos calificables que tienen que ver con orientación,
memoria inmediata, atención, cálculo, producción y comprensión del lenguaje y
copia de diseños. Los reactivos son tan fáciles que la mayoría de los adultos
normales casi siempre obtienen puntuaciones en el rango de 27 a 30 puntos.
La confrabilidad de este sencillo instrumento es excelente. Folstein y colaboradores
(1975) informan de una confiabilidad lest-retest a 24 horas de .89 para 22 pacientes
con diversos síntomas de depresión. La confiabilidad para un periodo de 28 días
con 23 pacientes clínicamente estables con diagnósticos de demencia, depresión y
esquizofrenia fue un impresionante .99. Se encuentran disponibles datos normativos
que provienen de varias fuentes (p. ej., Lindal y Stefansson, 1993; Tombaugh,
McDowell, Kristjansson y Hubley, 1996).
Con una puntuación de corte de 23 o menor como anormal y 24 o mayor como
normal, el MMSE tiene cerca de 80 a 90% de precisión en la identificación de
pacientes ancianos de los que se sospecha la presencia de enfermedad de
Alzheimer u otros tipos de demencia. Esta puntuación de corte produce menos
185

falsos positivos (pacientes normales a los que se clasifica dentro del diagnóstico de
demencia). La sensibilidad del instrumento depende de varios factores, incluyendo
la puntuación de corte utilizada, el nivel educativo de la persona evaluada, el grado
de la demencia, la naturaleza de la patología subyacente y el tipo de entorno en el
que se lleva a cabo la evaluación (Anthony, LeResche, Niaz, Von Korff y Folstein,
1982; Tombaugh, McDowell, Kristjansson y Hubley, 1996; Tsai y Tsuang, 1979). A
pesar de sus limitaciones, el MMSE continúa siendo la prueba más confiable y
práctica para la detección de demencia en ancianos (Ferris, !992). Debring, Van
Gorp, Stuck y otros investigadores (1994) recomiendan su empleo como parte de
una batería corta de detección de la declinación cognitiva en ancianos. En el cuadro
9-14 se resumen medias adicionales del estado mental geriátrico.
186
187

CONCLUSIÓN

Lea y discuta con sus compañeros los aspectos más importantes del artículo anexo
Importancia del Avance en la Investigación Psicométrica ubicado en la siguiente
dirección electrónica: http://www.salvador.edu.ar/psic/ua1-9pub02-7-01.htm
188

REFERENCIAS USADAS Y BIBLIOGRAFÍA RECOMENDADA

Anastasi, A. (1968). Psychological testing. New York: MacMillan.

Anastasi, A. y Urbina, S. (1997). Psychological Testing (7ª ed.). Englewood Cliffs,


NJ: Prentice-Hall.

Arnau, J. (1989). Metodología de la investigación y diseño. En J. Arnau y H.


Carpintero (Eds.). Historia, teoría y método. Madrid: Alhambra Universidad.

Canpintero, H. (1996). Historia de las ideas psicológicas. Madrid: Pirámide.

Cronbach, L.J. y Meehl, P.E. (1955). Construct validity in psychological tests.


Psychological Bulletin, 52, 281-302.

Crocker, L. y Algina, J. (1986). Introduction to classical and modern test theory. New
York: Holt, Rinehart and Winston.

Gregory, R. (2001). Evaluación psicológica: Historia, principios y aplicaciones.


México: Manual Moderno

Hambleton, R.K. y van der Linden, W.J. (1982). Advances in IRT and applications:
An introduction. Applied Psychological Measurement, 6(4), 373-378.

Lord, F.M. (1980). Applications of item response theory to practical testing


problems. Hillsdale, New Jersey: Lawrence Erlbaum Associates.

Lord, F.M. y Novick, M.R (1968). Statistical theories of mental test scores. New
York: Addison-Wesley.

Martínez-Arias, R (1995). Psicometría: Teoría de los tests psicológicos y


educativos. Madrid: Síntesis.
189

Meliá, J.L. (1990). La construcción de la Psicometría coma ciencia teórica y


aplicada. Valencia: Cristóbal Serrano.

Messick, S. (1989). Validity. En Linn, R.L. (Ed.). Educational measurement. New


York: MacMillan.

Muñiz, J. (1991). Introducción a los métodos psicofísicos. Barcelona: PPU.

Muñiz, J. (1998). La teoría clásica de los tests. Madrid: Pirámide.

Nunnally, J. C. (1973). Introducción a la medición psicológica. Buenos Aires:


Paidós.

Rust, J. y Golombok, S. (1989). Modern psychometrics: The science of


psychological assessment. London: Routledge.

Thorndike, R. M. (1997). The early history of intellegence testing. En D. P.


Flanagan, J. L. Genshaft y Harrison, P.L. (Eds.), Contemporary intelectual
assessment, theories, tests and issues, (pp. 3-17). New York: The Guildford
Press.

Van der Linden, W. J. (1986). The changing conception of measurement in


education and psychology. Applied Psychological Measurement, 10, 325-
332.

Yela, M. (1968). Apuntes de psicometría y estadística. Madrid: Universidad


Complutense de Madrid.
190

http://www.scribd.com/doc/3476657/Evaluacion-Psicologica1-tema-6

http://www.psicoactiva.com/software.htm

Vous aimerez peut-être aussi