Académique Documents
Professionnel Documents
Culture Documents
PROGRAMA DE PSICOLOGÍA
Bogotá, D.C.
2010
2
ÍNDICE
I. Protocolo 5
Ficha Técnica 5
Introducción 6
Justificación 7
Intencionalidades formativas 8
Unidades didácticas 14
Contexto teórico 15
Metodología 16
Sistema de Evaluación 18
Recursos Tecnológicos 19
Glosario de Términos 22
Presentación 25
Descripción de Actividades 28
III. Modulo 32
I. PROTOCOLO
Ficha Técnica
Nombre del curso: Psicometría
Palabras clave: Validez, Confiabilidad, Pruebas psicoógicas, medición,
variables
Institución: Universidad Nacional Abierta y a Distancia -UNAD.
Ciudad: Bogotá – Colombia
Autor del Protocolo:
Melissa Ortiz B.
Año: 2010
Unidad es Académicas: 2
Introducción
Los documentos que el estudiante se encargará de leer para llevar a buen término
el curso serán principalmente escritos que se encuentran en las revistas
electrónicas científicas de psicología (medición y psicometría). La participación y el
trabajo activo tanto del estudiante como del tutor permitirán que el curso cumpla las
metas propuestas.
7
Estudio independiente: 64
Justificación
Intencionalidades Formativas
Propósitos de formación
Objetivos de aprendizaje
- Dotar a los alumnos de herramientas para que generen sus propios criterios con
la finalidad de que puedan realizar juicios críticos en relación con la calidad y
adecuación de los diferentes instrumentos de medida que habrán de utilizar en
el desempeño de su labor como profesionales.
Competencias
- Tener como meta de actuación la calidad del trabajo realizado (es decir, no sólo
trabajar de modo eficaz sino también del mejor modo posible).
Metas
UNIDADES DIDÁCTICAS
Unidad 1
Unidad 2
Contexto Teórico
A su vez, la teoría de los test se divide en dos ramas: la teoría clásica de los tests y
la más reciente teoría de respuesta a los ítems.
Los conceptos clave de la teoría clásica de los tests son: confiabilidad (fiabilidad) y
validez. "Confiabilidad" es medir algo de forma consistente; mientras que "validez"
es medir lo que realmente se pretende medir.
La consistencia interna puede calcularse por correlación entre distintos tests. Los
métodos más conocidos se denominan: método de las formas paralelas, método
del test-retest y método de las dos mitades.
La validez puede calcularse correlacionando las mediciones con las de una medida
patrón aceptado como válida. Se distinguen los siguientes aspectos: validez de
contenido, validez predictiva y validez de constructo.
Metodología
Sistema de Evaluación
Fase de reconocimiento:
10% de la nota
Fase de profundización:
Prueba objetiva
30% de la nota
Fase de transferencia:
20% de la nota
Recursos Tecnológicos
Fuentes Documentales
GLOSARIO DE TÉRMINOS
Esta definición se basa en que no vivimos para pensar, sino que pensamos para
vivir. Evolutivamente hablando, los seres más simples reaccionan ante el medio por
programación genética, miedos y afinidades instintivas. Un pequeño cambio en
estos instintos supone muchas generaciones. Para que la adaptación al medio sea
más rápida son los propios individuos los que han de reprogramar sus
comportamientos, aprendiendo del medio y reaccionando en consecuencia, esto
es, con inteligencia.
GUÍA DIDÁCTICA
Presentación
La guía de actividades del curso de Psicometría explicita la configuración de las
situaciones didácticas, mediante la planificación de actividades que permitan el
logro de metas de aprendizaje en las diversas fases del aprendizaje, con un sentido
crítico del cambio entre situaciones de entrada y de salida.
Fase de Reconocimiento
Elaboración de portafolio.
Fase de Profundización
Fase de Transferencia
Según cada caso particular de las temáticas de las unidades, en estas fases
pueden aparecer todas o sólo algunas de las situaciones didácticas referenciadas
en la fase de reconocimiento
Los contenidos mínimos que deben aparecer en el PDP y PDG son los siguientes:
• Formatos de encuentro grupal: objetivos, logros, funcionalidad de las técnicas
aplicadas, conclusiones y sugerencias de mejoramiento.
29
DESCRIPCIÓN DE ACTIVIDADES
exámenes por escrito durante la dinastía Han (200 d. C.). Ninguno de estos
procedimientos de selección fue validado.
El comienzo de las pruebas psicológicas como tal se ha ubicado en la investigación
experimental sobre las diferencias individuales que inició en Alemania y Gran
Bretaña terminado el siglo XIX siendo sus primeros representantes Wilhelm Wundt,
Francis Gallón y James McKeen Cattell. Pero las pruebas psicológicas le deben su
comienzo tanto a la primera psiquiatría como a los laboratorios de psicología
experimental. De hecho, el examen de los enfermos mentales aproximadamente a
mediados del siglo XIX resultó en e! desarrollo de muchas de las primeras pruebas
(Bondy, 1974), las cuales mostraban la ausencia de estandarización y, en
consecuencia, se relegaron al olvido. Sin embargo, influyeron en la determinación
del curso de las pruebas psicológicas, de modo que es importante mencionar
algunos avances psiquiátricos de esta época.
En 1885, el médico alemán Hubert von Grashey desarrolló el antecedente del
cilindro mnemónico como un medio para examinar a pacientes con lesión cerebral.
Se les mostraban a los sujetos palabras, símbolos o ilustraciones a través de una
ranura en una hoja de papel que se movía lentamente sobre los estímulos, muchos
pacientes podían reconocer los estímulos completos, pero no identificarlos cuando
se mostraban a través de la ranura en movimiento. Poco después, e! psiquiatra
alemán Conrad Rieger desarrolló una batería de pruebas excesivamente ambiciosa
para la detección del daño cerebral, la cual requería más de 100 horas para su apli-
cación, por lo que pronto cayó su aceptación. En resumen, la psiquiatría inicial
contribuyó al movimiento de las pruebas mentales al mostrar que los procedimientos
estandarizados pueden ayudar a revelar la naturaleza y grado de los síntomas en
pacientes con enfermedades mentales y con lesión cerebral.
(1901) mostraron que virtualmente no había una tendencia a que las puntuaciones
de una prueba mental se correlacionaran con el rendimiento académico. Por
ejemplo, la posición dentro de la clase se correlacionó en .16 con la memoria de
listas de números, -.08 con la fortaleza en el dinamómetro, .02 con c! nombrado du
colores y -.02 con el tiempo de reacción. La correlación más alta (.16) fue
estadísticamente significativa debido al gran tamaño de la muestra. Sin embargo,
una correlación tan pequeña lleva consigo muy poca utilidad predictiva.
Este tipo de resultados provocaron en los experimentalistas un alejamiento del enfo-
que de los instrumentos de bronce lo cual fue una evolución deseable en la historia
de las pruebas psicológicas y con ello se facilitó el camino para la aceptación
inmediata de las medidas más sensatas y útiles como las de Binet para los
procesos mentales superiores.
Debemos advertir de una doble simplificación. Primera, dejar a un lado, por razones
de tiempo, la Psicofísica que impide lograr una visión comprehensiva de la historia
de la medición en Psicología; segunda, reducir la historia del estudio de las
diferencias individuales a la historia de los tests psicológicos y presentarla
recurriendo a las aportaciones de algunas figuras clave. La última es reduccionista
pero difícil de evitar: gran parte de la Psicometría actual no se puede comprender
36
El rápido progreso económico y social en la Europa de finales del siglo XIX planteó
la necesidad de evaluar las capacidades y conocimientos de los individuos en
contextos educativos, laborales, etc. Si la Filosofía y la Fisiología fueron las
disciplinas que más influyeron en el trabajo de los primeros psicofísicos, el impacto
más dramático sobre el estudio de las diferencias individuales vino de la Biología.
Al tiempo que Fechnner presentaba sus trabajos, Darwin (1809-1882) presentó su
teoría en La Evolución de las Especies (1859) y su aplicación al estudio del hombre
en El origen del hombre y la selección en relación al sexo (1871). Darwin defendió
que la inteligencia y el sentido moral también se habían ido perfeccionando de
manera gradual a través de la selección natural. Al defender esta idea Darwin no
hacía sino reflejar la visión científica y la opinión popular dominante en la Inglaterra
del siglo XIX, que justificaba el colonialismo y el sistema de clases bajo la creencia
de que el hombre de letras inglés de clase media era el pico de la evolución
humana (Rust y Golombok, 1989).
J. M. Catell (1860-1944) trabajo con Wundt, con quién compartió el interés por los
fenómenos perceptivos y sensomotores, y el rigor en el control de las condiciones
en que se realizaban las observaciones, pero de quién se distanció ante el
despreció del experimentalista alemán por las diferencias individuales. Más tarde
trabajo con Galton e inició en Estados Unidos el estudio de las diferencias
individuales. Acuñó el término "test mental" en un artículo publicado en 1890 en la
revista Mind bajo el título ―Mental test and measurements‖. Asumió la idea de
Galton sobre la posibilidad de medir las funciones intelectuales por medio de tests
de discriminación sensorial y tiempo de reacción. Sin embargo, los primeros
estudios que se realizaron para evaluar este tipo de tests ofrecieron resultados
desalentadores: el "rendimiento intelectual" mostraba poca correspondencia de
unos tests a otros y prácticamente ninguna relación con estimaciones
independientes del nivel intelectual realizadas por los profesores. Por el contrario,
Ebbinghaus, apuntando ya un cambio de enfoque, había obtenido con un test de
terminación de frases una correspondencia clara con el rendimiento académico de
los niños.
Pero sin duda, la consolidación social de la medición psicológica vino de la obra del
francés Alfred Binet (1857-1911) cuya influencia en el desarrollo de la teoría de los
tests perdura en la actualidad. Binet a finales de los años noventa del siglo XIX
criticó la aproximación de Galton y Cattell con el argumento de que para medir
procesos mentales complejos era necesario observar la ejecución de los individuos
en actos mentales complejos, rechazando la idea de que fuese necesaria una
mayor precisión para la que no había instrumentos disponibles, ya que las
diferencias individuales eran mayores respecto a los procesos superiores que en
cuanto a la discriminación sensorial.
39
estableció una comisión para decidir sobre las medidas educativas que deberían
emprenderse con aquellos niños que no podían beneficiarse de la educación
regularla comisión concluyó que deberían utilizarse exámenes médicos y educativos
para identificar a aquellos niños que no podían aprender a ti uves de métodos
regulares. Lo que es más, se determinó que se debería retirar a estos niños de las
clases regulares y darles instrucción especial, adecuada a su habilidad intelectual
más limitada. Este fue el principio de las clases de educación especial.
Era evidente la necesidad de un medio para seleccionar los niños para tal
asignación especial y se le solicitó a Binet y a su colaborador Simón que
desarrollaran una herramienta práctica dirigida únicamente u dicho propósito. Así
surgió la primera escala formal para evaluar la inteligencia de los niños.
Existen cuatro maneras en que la escala de 1905 difería con respecto a aquéllas
construidas antes:
1. No afirmaba medir precisamente ninguna facultad en particular. Más bien, se
dirigía a evaluar el desarrollo mental general del niño con un grupo heterogéneo de
tareas. Así, la meta no era la medición, sino la clasificación.
2. Era una prueba breve y práctica. Tomaba menos de una hora para su aplicación y
requería pocos elementos en cuanto a equipo.
3. Medía de manera directa lo que Binet y Simón consideraban como el factor
esencial de la inteligencia —el juicio práctico— en lugar de perder el tiempo con
capacidades de menor nivel que implicaran elementos sensoriales, motores o
perceptuales. Así, miran una perspectiva práctica de la inteligencia.
4. Los reactivos estaban distribuidos según su nivel aproximado de dificultad, en vez
de en función del contenido. Se realizó una estandarización preliminar con 50 niños
normales cuyas edades iban de 3 a 11 años y también con varios niños
subnormales y con retraso.
Las 30 pruebas en la escala de 1905 iban de las pruebas sensoriales abiertamente
simples, a las abstracciones verbales bastante complejas., Así, la escala era
apropiada para evaluar la gama completa de la inteligencia — desde el retraso
mental grave hasta los niveles superiores de la inteligencia dotada.
Un punto interesante que con frecuencia pasan por alto los alumnos de psicología
42
Sin embargo, la idea de obtener un nivel mental fue un desarrollo monumental que
43
habría de influir el carácter de las pruebas de inteligencia a lo largo del siglo XX.
Después de unos cuantos meses, lo que Binet llamó nivel mental se traducía como
edad mental. Y los examinadores en todas partes, incluyendo Binet mismo,
comparaban la edad mental de un niño con su edad cronológica. Así, un niño de
nueve años que funcionaba al nivel el mental (o edad mental) de un niño de seis
años, tenía un retraso de tres años.
Entonces
Los conceptos clave de la teoría clásica de los tests son: confiabilidad y validez.
"confiabilidad" es medir algo de forma consistente; mientras que "validez" es medir
lo que realmente se pretende medir. Ambas propiedades admiten un tratamiento
matemático.
La consistencia interna puede calcularse por correlación entre distintos tests. Los
métodos más conocidos se denominan: método de las formas paralelas, método
del test-retest y método de las dos mitades.
La validez puede calcularse correlacionando las mediciones con las de una medida
patrón aceptada como válida. Se distinguen los siguientes aspectos: validez de
contenido, validez predictiva y validez de constructo.
En esta fase del proceso habría que cubrir las siguientes etapas:
El objetivo de esta fase es obtener una medida de cada sujeto o grupo en el rasgo
o característica evaluada por la prueba, determinar el valor escalar de cada sujeto o
grupo de sujetos, viendo la posición que éstos ocupan en el continuo que
representa la característica o rasgo evaluado con el instrumento de medida.
En particular, los contenidos del programa vinculados con esta fase son:
Hay un amplio consenso sobre el término con el que referirse de forma genérica a
los objetos de medición: constructos. El término "constructo" se ha hecho familiar
en el campo de la medición psicológica desde su utilización en el artículo de L.
Cronbach y P. E. Meehl titulado "Construct validity in Psychological Test" (1955).
Cronbach y Meehl (1955) entendieron por constructo un instrumento intelectual
para organizar la experiencia en categorías. Crocker y Algina (1986) lo definen
como "... productos de la imaginación informada de los científicos sociales qué
intentan desarrollar teorías para explicar el comportamiento humano" (pág. 4).
53
Dentro del nivel estadístico analítico, las propiedades métricas de las mediciones
valoradas en el nivel anterior, condicionarán la modelización estadística de los
datos y la elaboración de proposiciones a partir de los resultados. Por ejemplo, la
información sobre la fiabilidad y validez de las mediciones, condicionará la
generalización de los resultados en el regreso del proceso de investigación al nivel
teórico conceptual.
58
Hay un consenso amplio en la disciplina sobre cuales son los contenidos propios de
la Psicometría. Las diferencias entre las propuestas de los autores responden a las
distintas tradiciones de investigación de las que procedan o a diferencias en las
estrategias de estudio de una misma temática. Si se unen las diferentes versiones
de la teoría de los tests bajo una denominación común, se obtiene la división en
tres grandes grupos de los contenidos psicométricos: teoría de la medición,
escalamiento y teoría de los tests. Los dos primeros contenidos han sido o serán
objeto de un tema en el programa de la asignatura. La teoría de los tests es
introducida en el siguiente apartado.
La teoría de los tests puede verse como un esquema conceptual formalizado para
hacer inferencias a partir de las puntuaciones de las personas en los tests y permitir
la toma de decisiones que impliquen el constructo objeto de la medición. La teoría
de los tests proporciona los fundamentos para la elaboración y uso de los tests,
aportando además las herramientas para examinar las propiedades métricas de las
mediciones obtenidas con ellos.
La teoría de los tests suele dividirse en dos grandes ramas: la teoría clásica de los
tests y la teoría de respuesta a los ítems. La cita de Hambleton y van der Linden
(1982) expresa con toda claridad esta división: ―Las teorías de los tests pueden
dividirse en dos grandes categorías. La primera es la teoría clásica de los tests, que
parte de la concepción de Spearman de la puntuación observada en el test como
compuesta de un componente verdadero y otro de error... Importantes hitos en esta
larga y venerable tradición son Theory of mental tests de Gulliksen (1950) y
62
DEFINICIÓN:
FÓRMULA GENERAL:
64
TEST-RETEST:
FORMAS PARALELAS:
Fórmula de Rulon:
65
Fórmula de
Guttman/Flanagan:
Coeficiente alpha:
KR 20:
KR 21:
VARIABILIDAD DE LA MUESTRA:
66
Lección12. Validez
DEFINICIÓN:
TIPOS DE VALIDEZ:
VALIDEZ DE CONTENIDO:
Modo de evaluación:
Recurso a expertos
VALIDEZ DE CONSTRUCTO:
Modo de evaluación:
ƒ Análisis factorial
67
ƒ Matriz multimétodo-multirrasgo
VALIDEZ PREDICTIVA:
FIABILIDAD:
VARIABILIDAD DE LA MUESTRA:
Por lo general, el resultado inicial de las pruebas es una puntuación natural como el
número total de afirmaciones de personalidad refrendadas en una dirección en
particular o el número total de problemas resueltos correctamente, quizá con ¡a
adición de puntos bonificados por las soluciones rápidas. En la mayor parte de los
casos, £sta puntuación inicial es inútil en sí misma.^'ara que los resultados de
prueba tengan significado, los examinadores deben ser capaces de convertir la
puntuación inicial a alguna forma de puntuación derivada que se base en la
comparación con un grupo normativo o de estandarización. Gran parte de las
pruebas se interpreta al comparar los resultados individuales con el desempeño del
grupo normativo; las pruebas referidas a criterio, que se analizan más adelante,
constituyen una excepción.
69
Un grupo normativo consiste en una muestra de personas examinadas que son re-
presentativas de la población hacia la cual se dirige la prueba. Considérese una
prueba del conocimiento de vocabulario, diseñada para utilizarse con futuros
estudiantes universitarios de primer grado. En este caso, podrían recolectarse los
resultados del desempeño de una muestra grande, heterogénea y nacional de
dichas personas, con propósitos de estandarización. E! objetivo esencial de !;i
estandarización de una prueba consiste en determinar la distribución de las
puntuaciones naturales en un grupo normativo, de modo que quienes desarrollan la
prueba tengan la posibilidad de publicar las puntuaciones derivadas conocidas
como normas. Como se analizará más adelante, las normas sé encuentran en
muchas variedades; por ejemplo, rangos percentiles, equivalentes por edad, equi-
valentes de ¡nado o puntuaciones estándar. En jVMÉ^al. i.is normas indican la
posición que Tiene (Jln individuo denlio •]•-• !a prueba, en relación con el
desempeño de otras personas de la misma edad, grado escolar, sexo y otras
variables. Para ser efectivas, las normas deben obtenerse con gran cuidado y
construirse según los preceptos ya conocidos que se analizan después; lo que es
más, pueden volverse anticuadas en sólo unos cuantos años, de modo que la regla,
más que la excepción, debe ser el establecimiento periódico de nuevas normas. El
tema de las normas se enfoca de manera indirecta, ya que el propósito es hacer un
análisis sobre las puntuaciones naturales y después se revisan los conceptos
estadísticos esenciales para una comprensión de las normas.
Puntuaciones naturales
estas pruebas.
Existen diferentes tipos de normas, pero éstas tienen una característica en común:
cada una incorpora un resumen estadístico de un enorme conjunto de
puntuaciones. Así, para comprenderlas, el lector necesita dominar la estadística
descriptiva elemental. En este punto se hace un modesto paréntesis para revisar los
conceptos estadísticos esenciales.
- Distribución de frecuencias
Una manera simple y útil de resumir los datos consiste en tabular una distribución
de frecuencias , la cual se prepara al especificar un pequeño número de intervalos
de clase de igual tamaño y después determinar cuántas puntuaciones caen dentro
72
de cada intervalo. La suma de las frecuencias de todos los intervalos será igual a N,
el número total de puntuaciones en la muestra. No existe una regla simple para
determinar el tamaño de los intervalos; éste, obviamente, depende del número de
intervalos deseado. Es común que la distribución de frecuencias tenga entre 5 y 15
intervalos de clase. El cuadro indica que un profesor obtuvo una calificación de 4, 5
o 6; 8 profesores obtuvieron 7, 8 o 9, y así sucesivamente.
Un histograrna proporciona una representación gráfica de la misma información
contenida en la distribución de frecuencias. El eje horizontal representa las
puntuaciones agrupadas en intervalos de clase, mientras el eje vertical representa el
número de puntuaciones que caen dentro de cada intervalo de clase. En un
histograrna, la altura de una columna indica el número de puntuaciones que ocurren
dentro de ese intervalo. Un polígono de frecuencias es similar a un histograrna,
excepto que la frecuencia de los intervalos de clase se representa con puntos en
lugar de columnas. Después, los puntos independientes se unen por medio de
líneas rectas.
Distribución de frecuencia
4-6 1
7-9 8
10-12 12
13-15 21
16-18 24
19-21 21
22-24 7
25-27 5
28-30 1
W=100
73
¿Se puede establecer una sola puntuación representativa de las 100 puntuaciones
de vocabulario en nuestra muestra? La media (X) o promedio aritmético es una de
dichas puntuaciones. Se calcula sumando todas las puntuaciones y dividiéndolas
entre N, el número de puntuaciones. Otro índice útil de tendencia central es la
mediana, la puntuación que se encuentra a la mitad cuando se han ordenado todas
las puntuaciones. Si el número de puntuaciones es par, la mediana es el promedio
de las dos puntuaciones a la mitad. En cualquier caso, la mediana es el punto que
divide en dos la distribución, de modo que la mitad de los casos se encuentren por
encima de ella y la mitad por debajo. Por último, la moda es simplemente la
puntuación que ocurre con mayor frecuencia. Si dos puntuaciones tienen la mayor
frecuencia de ocurrencia, se dice que la distribución es bimodal. La media es
sensible a los valores extremos y puede ser engañosa si una distribución tiene
pocas puntuaciones inusualmente altas o bajas. Considérese el caso extremo
donde nueve personas ganan $10 000.00 y una décima persona gana $910 000.00.
El ingreso promedio para este grupo de personas sería de $100 000; sin embargo,
este nivel de ingresos no es típico de nadie dentro del grupo. La mediana del ingre-
so, colocada en $10 000, es mucho más representativa. Por supuesto, éste es un
ejemplo extremo, pero ilustra un punto en general: si una distribución está sesgada
(es decir, es asimétrica), la mediana es un mejor índice de la tendencia central que
la medía.
- Medidas de variabilidad
Dos o más distribuciones de puntuaciones de prueba pueden tener la misma media
y, sin embargo, es posible que difieran en gran medida en el grado de dispersión de
las puntuaciones con respecto a la media. Para describir el grado de dispersión, es
necesario un índice estadístico que exprese la variabilidad de las puntuaciones en
una distribución.
El índice estadístico de variabilidad que se utiliza con mayor frecuencia en un grupo
74
- Distribución normal
Los psicólogos prefieren una distribución normal de puntuaciones de prueba, aun
cuando muchas otras distribuciones son teóricamente posibles. Por ejemplo, dentro
de la esfera de posibilidades se encuentra la distribución rectangular de
puntuaciones de prueba -un número igual de resultados en cada intervalo de clase.
De hecho, muchos legos podrían incluso preferir una distribución rectangular de
puntuaciones de prueba, basados en la premisa equitativa de que las diferencias
individuales serían por ello menos pronunciadas. Por ejemplo, una mayor
proporción de personas obtendría puntuaciones en el rango superior si las pruebas
psicológicas se conformaran a una distribución rectangular de puntuaciones, en vez
de a una distribución normal.
75
Puntuación estándar
Aunque los percentiles son el tipo más popular de puntuación transformada, las
puntuaciones estándar ejemplifican las propiedades psicomé-tricas más deseables.
Una puntuación estándar utiliza la desviación estándar de la distribución total de
puntuaciones naturales como la unidad fundamental de medida. La puntuación
estándar expresa la distancia de la media en unidades de desviación estándar. Por
ejemplo, una puntuación natural que se encuentra exactamente a una desviación
estándar por encima de la media se convierte en una puntuación estándar de +1.00.
77
Una alternativa a las pruebas referidas a la norma, es las pruebas referidas a criterio
(Frechtling, 1989; Glaser, 1963; Popham, 1978; Berk, 1984). Mientras que las
primeras utilizan una muestra representativa de personas como su marco de
referencia interpretativo, una prueba referida a criterio compara los logros de un
individuo examinado con un área bien definida de contenido. Por ejemplo, el
desempeño de la persona que se somete a prueba podría presentarse como un
nivel específico de habilidad en aritmética (suma correctamente 2 números de 3
dígitos en 100% de las ocasiones, pero sólo tiene 70% de precisión cuando suma 3
números de 3 dígitos).
Las pruebas referidas a criterio representan un cambio fundamental en perspectiva.
El cen tro de atención se coloca en aquello que el examinado puede hacer, más que
en comparaciones con los niveles de desempeño de otros individuos. Así, las
82
Definición de la prueba
A fin de construir una nueva prueba, el autor debe tener una idea clara de aquello
que ha de medir y de cómo difiere ésta de los instrumentos existentes. Dado que la
existencia de las pruebas psicológicas está a punto de entrar en su segundo siglo y
ya que se han publicado miles de pruebas para este momento, es claro que la
responsabilidad de probar que un instrumentó es diferente y mejor que los
existentes depende del autor.
84
Niveles de medición
embargo, unas cuantas medidas físicas que emplean los psicólogos califican para
escalas de razón. Por ejemplo, la estatura y el peso alcanzan esa calificación y
quizá también algunas medidas fisiológicas.
Los niveles de medición son relevantes para la construcción de pruebas debido a
que los procedimientos estadísticos paramétricos más poderosos y útiles (p. ej., rae
Pearson, análisis de varianza, regresión múltiple) deberían utilizarse sólo para
puntuaciones obtenidas de medidas que satisfacen los criterios de las escalas de
intervalo o de razón. Para las escalas que sólo son nominales u ordinales deben
emplearse procedimientos estadísticos no paramétricos menos poderosos (p. ej., j¡
cuadrada, correlación por rangos, pruebas de mediana).
Métodos representativos
- Clasificaciones de expertos
Supóngase que se desea medir la profundidad del coma en los pacientes que han
sufrido un traumatismo craneal reciente que ios ha dejado inconscientes. Una
escala de profundidad del coma sería muy importante para la predicción del curso
de la mejoría, debido a que es bien conocido que un periodo extenso de inconscien-
cia ofrece un pronóstico pobre de recuperación. Además, el personal de
rehabilitación tiene la necesidad práctica de saber si un paciente está en coma
profundo o se encuentra en un estado parcialmente comunicativo de conciencia con
somnolencia.
Un enfoque de la medición con una escala de la profundidad del coma consistiría en
depender de las clasificaciones de expertos en cuanto a aspectos conductuales. Por
ejemplo, se le puede pedir a un panel de neurólogos que enumere las conductas
asociadas con los diferentes niveles de conciencia. Después de que éstos han
presentado una gran lisia de conductas diagnósticas, los autores de la prueba —
preferiblemente expertos en traumatismos craneales— clasificarían las conductas
indicadoras en un continuo de conciencia que vaya desde el coma profundo hasta la
orientación básica. Teasdale y Jennett (1974) utilizaron justo este enfoque y
87
Construcción de Reactivos
vez más difíciles que casi nadie aprueba. Se observa un efecto de límite superior
cuando números significativos de examinandos obtienen puntuaciones perfectas o
casi perfectas. El problema con el efecto de límite superior es que no son posibles
las distinciones entre personas con puntuaciones elevadas, aunque estos individuos
podrían diferir de manera sustancial en cuanto al rasgo subyacente que mide la
prueba. Se observa un efecto de límite inferior cuando cantidades significativas de
examinandos obtienen puntuaciones que se encuentran cerca o en la parte más
baja de la escala. Por ejemplo, el WAIS-R tiene un importante efecto de límite
inferior en cuanto a que no puede discriminar entre los niveles moderado, grave y
profundo de retraso mental —todas las personas con discapacidades significativas
del desarrollo fallan en sus respuestas a casi todas las preguntas.
Los autores de pruebas esperan que algunos de los reactivos iniciales produzcan
contribuciones poco eficaces para el objetivo global de medición de su instrumento.
Por esta razón, es común la práctica de construir un primer borrador que contenga
un exceso de reactivos, quizás el doble del número de preguntas que se deseen
para el bosquejo final. Por ejemplo, el MMPI, que contiene 550 reactivos, original-
mente consistía de más de 1 000 afirmaciones de falso-verdadero acerca de la
personalidad.
Pautas para la redacción de reactivos de opción múltiple
o Elija palabras que tengan significados precisos.
o Evite la sintaxis compleja o extraña.
o Incluya toda la información necesaria para la selección de la respuesta.
o Incluya lo más posible de la pregunta dentro del planteamiento.
o No tome los planteamientos al pie de la letra de los libros de texto.
o Utilice opciones de igual extensión y fraseo paralelo.
o Utilice "ninguna de las anteriores" y "todas las anteriores" en raras
ocasiones.
o Reduzca al mínimo el empleo de negativos como no.
o Evite la utilización de palabras no funcionales.
o Evite la especificidad innecesaria en el planteamiento.
o Evite indicios innecesarios de la respuesta correcta.
96
prueba difieren un tanto en el caso especial de las pruebas referidas a criterio —las
que miden lo que una persona puede hacer, en lugar de comparar los resultados
con los niveles de desempeño de otros. Por tal razón, se tratan por separado las
pruebas referidas a criterio.
El procedimiento estandarizado es una característica esencial de cualquier prueba
psicológica. Se considera que una prueba está estandarizada si los procedimientos
para su aplicación son uniformes de un examinador a otro y de un ambiente a otro.
Por supuesto, la estandarización depende, en cierto grado, de la capacidad del
examinador. Incluso la mejor prueba puede resultar inútil en manos de un evaluador
descuidado, con entrenamiento deficiente o mal informado. Sin embargo, la mayoría
de los examinadores son competentes. Por tanto, la estandarización depende en
gran medida de las disposiciones de aplicación que se encuentran en el manual de
instrucciones que por lo común acompaña a una prueba.
La formulación de las instrucciones es un paso esencial para la estandarización de
una prueba. A fin de garantizar procedimientos uniformes de aplicación, quien
desarrolla una prueba debe proporcionar materiales estímulo comparables para
todos los examinados, debe especificar con una precisión considerable las
instrucciones verbales para cada reactivo o subprueba y debe aconsejarle al
examinador cómo ha de manejar una diversidad de dudas por parte de la persona
evaluada.
Para ilustrar estos puntos, considérense las diversas maneras en que una persona
que desarrolla una prueba podría enfocar la evaluación de la retención de dígitos —
el número máximo de dígitos presentados verbalmente que un sujeto puede
recordar de memoria. Podría ser que una prueba no estandarizada de retención de
dígitos sugiriera tan sólo que el examinador presentara de manera verbal series
cada vez más largas de números hasta que el sujeto fallara. El número de dígitos en
la serie más larga recordada sería, entonces, la capacidad de retención de dígitos
del sujeto. La mayoría de los lectores puede darse cuenta de que una prueba con
tal definición tan general carecerá de uniformidad de un examinador a otro. Si quien
aplica la prueba está en libertad de improvisar cualquier serie de dígitos, ¿qué
podría impedirle que presentara, con la inflexión familiar de un locutor de televisión,"
98
1 -800-325-3535"? Tal serie sería bastante más fácil de recordar que un conjunto
más aleatorio, por ejemplo, "7-2-8-1-9-4-6-3-7-4-2". La velocidad de presentación
también puede tener un efecto crucial sobre la uniformidad de una prueba de
retención de dígitos. Para propósitos de estandarización, es esencial que todos los
examinadores presenten cada serie a una tasa constante; por ejemplo, un dígito por
segundo. Por último, el examinador necesita saber cómo ha de reaccionar ante
respuestas inesperadas, como el que un sujeto le diga: "¿podría repetirlos de
nuevo?" Por razones obvias, el consejo habitual es "no".
Quien desarrolla una prueba puede incluso llegar hasta el punto de recomendar el
comportamiento deseado en el examinador, como mantener una expresión facial
neutra cuando se registra la respuesta de un sujeto. Estas influencias
aparentemente sutiles pueden tener un serio impacto sobre la uniformidad de los
procedimientos de prueba. Por ejemplo, un examinador que se sonríe con
displicencia cuando registra las respuestas podría provocar que el sujeto se sienta
ansioso y falle en una tarea fácil.
Una prueba psicológica también es una muestra limitada de conducta. Ni el sujeto ni
el examinador tienen el tiempo suficiente para una prueba realmente amplia, incluso
cuando ésta se dirige a un dominio conductual bien definido y finito. Así, las
restricciones prácticas dictan que una prueba es sólo una muestra de conducta. Sin
embargo, la muestra de conducta es de interés sólo en la medida que permita que
el examinador realice inferencias acerca del dominio total de conductas
relacionadas. Por ejemplo, el propósito de una prueba de vocabulario consiste en
determinar la reserva completa de palabras de la persona examinada, al pedir
definiciones de una muestra muy pequeña, pero cuidadosamente seleccionada, de
palabras. El hecho de que el sujeto pueda definir las 35 palabras particulares de una
subprueba de vocabulario (p. ej., en el WAIS-R) es de poca consecuencia directa.
Pero el significado de dichos resultados es de gran importancia debido a que señala
el conocimiento general de vocabulario del individúe evaluado.
Un punto interesante —del que el público en general tiene poco conocimiento— es
que los reactivos de prueba no necesitan parecerse a las conductas que la prueba
intenta pronosticar. La característica esencial de una buena prueba es que permita
99
que el examinador pronostique otras conductas —no que refleje aquéllas a predecir.
Si responder "cierto" a la afirmación "bebo mucha agua" ayuda a predecir la
depresión, entonces esta afirmación, en apariencia no relacionada, es un índice útil
de la depresión. Por tanto, el lector observará que la predicción exitosa es una
cuestión empírica que se resuelve a través de la investigación apropiada. Aunque la
mayoría de las pruebas toman una muestra directa del dominio de conductas que
esperan predecir, éste no es un requisito psicométrico.
Una prueba psicológica también debe permitir la derivación de puntuaciones o
categorías. Las pruebas se esfuerzan en ser una forma de medición similar a los
procedimientos de las ciencias físicas, donde los números representan dimensiones
abstractas como peso o temperatura. Toda prueba suministra una o más
puntuaciones o proporciona evidencia de que una persona pertenece a una
categoría y no a otra. En pocas palabras, las pruebas psicológicas resumen la
ejecución en números o clasificaciones.
La suposición implícita del punto de vista psicométrico es que las pruebas miden las
diferencias individuales en cuanto a rasgos o características que existen en cierto
sentido vago de la palabra. En la mayor parte de los casos, se supone que todas las
personas poseen el rasgo o característica medida, aunque en diferentes cantidades.
El propósito de la prueba consiste en estimar la cantidad del rasgo o cualidad que
posee un individuo.
En este contexto, se deben hacer dos advertencias. Primero, toda puntuación de
prueba siempre reflejará cierto grado de error de medición. La imprecisión de las
pruebas es simplemente inevitable: éstas deben depender de una muestra externa
de conducta para estimar la característica no observable y, por tanto, inferida. Con
frecuencia, los psicómetras expresan este punto fundamental con la ecuación:
X=T+e
donde X es la puntuación observada, T la puntuación verdadera y e el componente
de error positivo o negativo. Lo mejor que puede hacer quien desarrolla una prueba
es procurar que e sea muy pequeño. Nunca se le puede eliminar por completo,
como tampoco se puede saber su impacto exacto sobre el caso individual.
La segunda advertencia es que los consumidores de pruebas deben prevenirse de
100
este punto. Supóngase que un examinador aplica una prueba de manchas de tinta a
un paciente en un hospital psiquiátrico y que el paciente responde a una mancha de
tinta describiéndola como "ojos que se asoman sigilosamente". Con base en las
normas establecidas, el examinador podría pronosticar entonces que el sujeto es
sumamente suspicaz y obtendrá poco beneficio de una psicoterapia individual.
Las pruebas pueden agruparse de manera amplia en dos bandos: pruebas grupales
y pruebas individuales. Las pruebas grupales son medidas principalmente de lápiz y
papel, adecuadas para examinar a grandes grupos de personas a un mismo tiempo.
Las pruebas individuales son instrumentos que, por su diseño y propósito, deben
aplicarse a una sola persona. Una ventaja importante de estas últimas es que el
examinador puede estimar el nivel de motivación del sujeto y evaluar la relevancia
de otros factores (p. ej., impulsividad o ansiedad) sobre los resultados de prueba.
Por conveniencia, las pruebas se clasificarán en ocho categorías representadas en;
cada una de ellas contiene pruebas referidas a la norma, referidas a criterio, indi-
viduales y grupales. El lector observará que cualquier tipología de las pruebas es
una determinación puramente arbitraria. Por ejemplo, podría postularse incluso otra
dicotomía: pruebas que buscan medir el desempeño máximo (p. ej., una prueba de
inteligencia) contra las que buscan estimar una respuesta típica (p. ej., un inventario
de personalidad).
- Principales tipos de pruebas psicológicas:
Pruebas de inteligencia: miden la capacidad de un individuo en áreas
relativamente globales como comprensión verbal, organización perceptual o
razonamiento y, por tanto, ayudan a determinar el potencial para el trabajo
escolar o para ciertas ocupaciones.
Pruebas de aptitud: miden la capacidad para una tarea o tipo de habilidad
relativamente específica; en efecto, las pruebas de aptitud son una forma
estrecha de prueba de capacidad.
102
reactivos. Por ejemplo, Choi y Proctor (1994) encontraron que 25 entre 27 es-
tudiantes de posgrado cometían serios errores en la aplicación de la Stanford-Binet:
Cuarta Edición, incluso aunque se videogrababan las sesiones y los estudiantes
sabían que se evaluarían sus habilidades de prueba. La atención apropiada a los
detalles de aplicación es esencial para obtener resultados válidos.
La necesidad de tener una íntima familiaridad con los procedimientos de prueba se
ilustra muy bien en la subprueba de Diseño con Cubos del WAIS-III (Wechsler,
1997). Los materiales para la subprueba incluyen nueve bloques (cubos) de color
rojo en dos lados, blanco en dos lados y rojo y blanco en dos lados. La tarea de la
persona evaluada consiste en utilizar los cubos para construir patrones represen-
tados en tarjetas. Para los diseños iniciales se necesitan cuatro cubos, mientras que
en los diseños más difíciles se utilizan los nueve cubos.
Los individuos inteligentes no tienen dificultad para comprender esta tarea y las
instrucciones exactas no influyen de manera apreciable en su desempeño. Sin
embargo, las personas cuya inteligencia es promedio o inferior a éste requieren de
las elaboradas demostraciones y correcciones que se especifican en el Manual del
WAIS-III (Wechsler, 1997). En particular, el examinador muestra los primeros dos
diseños y responde al éxito o fracaso del examinado en ellos, según un flujo
complejo de reacción y contrarreacción como se presenta en las tres páginas de
instrucciones. Lo sentimos por el examinador que no ha ensayado esta subprueba y
anticipado la respuesta apropiada para las personas que fallan en los primeros dos
diseños.
Vernon y Brown (1964) informaron sobre el trágico caso de una niña pequeña a la
que se le relegó a un hospital para individuos con retraso mental, como
consecuencia de la insensibilidad del examinador hacia una discapacidad física. El
examinador no se dio cuenta de que la niña era sorda y concluyó que el CI de 29 en
la Stanford-Binet era válido. La niña permaneció en el hospital durante cinco años,
pero se le dio de alta después de que obtuvo un CI de 113 en una prueba de
inteligencia basada en el desempeño. Después de dejar el hospital, ingresó a una
escuela para sordos y logró buen progreso.
Las pruebas válidas con sujetos que tienen discapacidades auditivas requieren
antes que nada que el examinador ¡detecte la existencia de la discapacidad! Con
frecuencia esto es más difícil de lo que parece. Muchas personas con una pérdida
auditiva leve aprenden a compensar su discapacidad fingiendo que comprenden lo
que otros dicen y esperando que las siguientes señales dentro de la conversación
les ayuden a aclarar las palabras o frases percibidas apenas. Como resultado, otras
personas —incluyendo los psicólogos— pueden no darse cuenta de que el individuo
con una alteración auditiva leve tiene alguna discapacidad.
Las indicaciones de una posible dificultad auditiva incluyen falta de respuesta
normal ante el sonido, falta de atención, dificultades para obedecer instrucciones
orales, observación intensa de los labios del hablante y articulación deficiente
(Sattler, 1988). En todos los casos donde se sospecha la existencia de una altera-
ción auditiva, es crucial canalizar al sujeto a un examen audiológico. Si se confirma
un problema auditivo grave, entonces el examinador debería considerar el uso de
una de las pruebas especializadas. En el caso de personas con una pérdida auditiva
leve, es esencial que el examinador se coloque de frente al sujeto, hable más fuerte
y repita las instrucciones lentamente. También es importante localizar una
habitación silenciosa para la prueba. De manera ideal, dicha habitación tendrá
cortinas y superficies con textura en las paredes para reducir al mínimo los efectos
distractores de los ruidos de fondo.
En contraste con los individuos que tienen alteraciones auditivas, las personas con
discapacidades visuales generalmente atienden bien a los materiales de prueba
presentados de modo verbal. La persona con alteraciones visuales introduce un tipo
111
una prueba individual. Sin duda, la más grande fuente de error en la aplicación de
una prueba grupal tiene que ver con tomar de manera inadecuada el tiempo en las
pruebas cronometradas. Los examinadores deben concederé! tiempo suficiente
para el proceso completo de prueba: organización, lectura de las instrucciones en
voz alta y presentación de la prueba en sí por parte de los sujetos. Conceder el
tiempo suficiente requiere previsión en la programación. Por ejemplo, en muchos
ambientes escolares, los niños deben proceder a la siguiente clase en un horario
establecido, sin considerar las actividades en proceso. Los examinadores sin
experiencia podrían sentirse tentados a reducir el límite de tiempo designado para
una prueba, de modo que se pueda respetar el horario de la escuela. Por supuesto,
reducir el tiempo en una prueba causa que las normas sean completamente
inválidas y con toda probabilidad reduce la puntuación de la mayoría de los sujetos
en el grupo.
Conceder demasiado tiempo para una prueba puede constituir también un tremendo
error. Por ejemplo, considérese el impacto de recibir tiempo adicional en la Miller
Analogies Test (MAT; Prueba de Analogías de Miller), una prueba de razonamiento
de alto nivel que en algún tiempo requirieron muchas universidades para la solicitud
de ingreso al posgrado. Dado que la MAT es una prueba con límite de tiempo que
necesita de pensamiento analógico rápido, conceder más tiempo permitiría que la
mayoría de los individuos examinados resolvieran vanos problemas adicionales. Es
probable que este tipo de error de prueba disminuyera la validez de los resultados
de la MAT, como mecanismo de predicción del desempeño en el posgrado.
Una segunda fuente de error en la aplicación de pruebas grupales es la falta de
claridad en las instrucciones para los examinados. Los examinadores deben leer las
instrucciones con lentitud, con una voz clara y fuerte que atraiga la atención de los
sujetos. Las instrucciones no deben parafrasearse. Cuando el manual lo permite, los
examinadores deben detenerse en la lectura y aclarar las dudas de los individuos
que tienen alguna confusión.
Las variaciones en las condiciones físicas de aplicación de prueba constituyen una
tercera fuente de error potencial en la conducción de una prueba grupal. Los
examinadores deben asegurarse de que la habitación de examen esté bien
113
pregunta si "¿existe alguna sanción por adivinar mal una respuesta?" En la mayoría
de los casos, quienes desarrollan pruebas anticipan esta cuestión y proporcionan
pautas explícitas para los sujetos en cuanto a las ventajas, desventajas, o ambas,
de conjeturar una respuesta. Los examinadores no deben dar consejo adicional
sobre adivinar las respuestas —ello constituiría una grave desviación con respecto
al procedimiento estandarizado.
La mayoría de quienes desarrollan pruebas incorporan una corrección de conjeturas
basada en principios establecidos de probabilidad. Considérese una prueba de
opción múltiple que tiene cuatro alternativas por reactivo. En aquéllos donde el
sujeto realiza una conjetura aleatoria, sin tener el conocimiento, las probabilidades
de estar en lo correcto son de 1 entre 4, mientras que las probabilidades de estar
mal son de 3 entre 4. Así, por cada tres conjeturas incorrectas, habrá una correcta
que refleje la suerte más que el conocimiento. Supóngase que una niña responde
correctamente a 35 preguntas de una prueba de 50 reactivos, pero en nueve
preguntas sus respuestas son erróneas. En total ha respondido a 44 preguntas,
dejando seis sin responder. El hecho de que haya elegido la alternativa incorrecta
en nueve preguntas sugiere que ha obtenido tres respuestas correctas por suerte
más que por conocimiento. Recuérdese que, en el caso de las conjeturas aleatorias,
se espera que haya, en promedio, tres respuestas erróneas por cada respuesta
correcta, de modo que para nueve respuestas incorrectas se esperarían tres
conjeturas correctas en otras preguntas. La puntuación corregida de la niña —
aquella que de hecho se informa y se compara con las normas existentes— sería
entonces de 32, es decir, 35 menos 3. En otras palabras, es probable que conociera
32 respuestas, pero al adivinar en otras 12 aumentó su puntuación en otros 3
puntos.
La corrección para la puntuación que se ejemplifica en el párrafo anterior, se refiere
sólo a las respuestas aleatorias, sin conocimientos.
El efecto de tal corrección consiste en eliminar las ventajas que de otra manera se
concederían a quienes toman riesgos de manera aventurada. En algunos casos, un
individuo examinado puede eliminar una o dos de las alternativas, con lo cual
aumenta las probabilidades de adivinar correctamente entre las opciones restantes.
115
En esta situación puede ser adecuado que la persona trate de adivinar la respuesta.
Un redactor hábil de reactivos puede diseñar preguntas de modo que la alternativa
correcta sea totalmente contraria a la intuición y las alternativas incorrectas tengan
una cualidad persuasivamente atractiva. Para estos reactivos, una conjetura basada
en conocimientos es casi siempre incorrecta.
Ya sea que una prueba grupal utilice o no una corrección para la puntuación, el
punto importante reside en enfatizar en este contexto que quien aplica la prueba
debe seguir el procedimiento estandarizado y nunca ofrecer consejo adicional
acerca de adivinar las respuestas. En las pruebas grupales, las desviaciones con
respecto al manual de instrucciones son simplemente inaceptables.
- La persona examinada
listas. A los sujetos restantes se les dijo que memorizaran las listas y que la tarea
era una prueba de inteligencia. Se les instó a tener el mejor desempeño posible. Los
dos grupos no difirieron de manera significativa en su desempeño cuando las
instrucciones eran neutras y no amenazantes. Sin embargo, cuando éstas excitaban
la ansiedad, los niveles de desempeño de los sujetos con alto grado de ansiedad
descendieron de modo notable, dejándolos con una enorme desventaja, en
comparación con aquellos que tenían baja ansiedad. Esto indica que los sujetos con
ansiedad ante la prueba muestran disminuciones significativas en su desempeño
cuando perciben la situación como una prueba. En contraste, los sujetos con bajo
nivel de ansiedad sufren un efecto relativamente nulo de tal redefinición simple del
contexto.
Las pruebas con estrictos límites de tiempo representan un problema especial para
las personas con altos niveles de ansiedad ante la prueba. La presión de tiempo
parece exacerbar el grado de amenaza personal, causando reducciones
significativas en el desempeño de las personas con ansiedad ante la prueba.
Siegman (1956) demostró este punto hace muchos años al comparar los niveles de
desempeño de pacientes médicos/psiquiátricos con alta y baja ansiedad en las
subpruebas con y sin límite de tiempo del WAIS. El WAIS consiste de 11 sub-
pruebas que incluyen seis subpruebas para las cuales el examinador utiliza un
cronómetro, a fin de imponer estrictos límites de tiempo y cinco subpruebas para las
cuales el sujeto tiene un tiempo ilimitado de respuesta. Es interesante que los
sujetos con alta y baja ansiedad tuvieron una capacidad total idéntica en el WAIS.
Sin embargo, cada grupo tuvo un mejor desempeño en la dirección prevista en los
diferentes tipos de subpruebas. En particular, los sujetos con bajo nivel de ansiedad
superaron a aquéllos con ansiedad elevada en las subpruebas con límite de tiempo,
mientras que se observó el patrón inverso en las subpruebas sin límite de tiempo.
- Motivación para el engaño
Los resultados de prueba pueden ser imprecisos si la persona tiene razones para
desempeñarse de una manera inadecuada o no representativa. El falseamiento
abierto de los resultados de prueba es poco común, pero llega a suceder. Una
pequeña fracción de personas que buscan beneficiarse de la rehabilitación o de
120
Para ilustrar esta temática veremos tres instrumentos, dos de carácter objetivo y
dos proyectivo.
122
Lección 22. 16 PF
FICHA TÉCNICA
Nombre original : "Sixteen Personality Factor Questionnaire (16 PF)". Institute for
Personality and Ability Testing, Champaign, Illinois, U.S.A.
123
colocarla sobre la hoja de respuestas de modo que por los espacios transparentes
de referencia - en la parte izquierda y fuera del recuadro dedicado a las
contestaciones - aparezcan las estrellas superior e inferior de la hoja.
FIABILIDAD
VALIDEZ
NORMAS INTERPRETATIVAS
Se puede, por tanto, considerar que los decatipos 5 y 6 son valores medios, 4 y 7
muestran una pequeña desviación (en una y otra dirección, respectivamente), 2-3 y
8-9 indican una gran desviación, y 1 y 10 son valores extremos, entendiendo todas
estas posiciones como relativas a la población especifica sobre la cual se realizó la
tipificación.
elegir aquel baremo que mejor se ajuste a los sujetos examinados y a la finalidad
de su estudio.
INTERPRETACIÓN
Cada uno de los factores primarios evaluados por el 16 PF tiene una denominación
alfabética (desde A a Q ) y un 4 nombre técnico. La definición e interpretación de
los mismos, tal como se presenta en los párrafos siguientes, es breve, no técnica y,
naturalmente, menos exacta que la descripción critica y más profunda que presenta
el "Handbook" u otras obras similares; si el Psicólogo desea profundizar mas en el
significado y operatividad de los factores debería examinar los numerosos perfiles
estudiados en el "Handbook" para grupos clínicos o profesionales bien definidos.
FACTOR A
La persona que puntúa bajo tiende a ser dura, fría, escéptica y a mantenerse
alejada. Le gustan más las cosas que las personas, trabajar en solitario y evitar las
opiniones comprometidas. Suele ser precisa y rígida en su manera de hacer las
cosas y en sus criterios personales, rasgos que son deseables en muchas
ocupaciones. En ocasiones puede ser crítica, obstaculizadora e inflexible.
130
FACTOR B
La persona que puntúa bajo tiende a ser lenta para aprender y captar las cosas;
corta e inclinada a interpretaciones concretas y literales. Su cortedad puede ser
debida a una escasa capacidad intelectual o a la influencia de factores
psicopatológicos que limitan su actuación.
FACTOR C
La persona que puntúa alto tiende a ser emocionalmente madura, estable, realista
acerca de la vida, tranquila, con buena firmeza interior y capacidad para mantener
una sólida moral de grupo. A veces puede presentar ajustes conformistas en el
caso de problemas no resueltos.
132
FACTOR E
La persona que puntúa bajo tiende a ceder ante los demás, a ser dócil, y a
conformarse. Es, a menudo, dependiente, acepta las ideas de los otros, y se
muestra ansiosa por una exactitud obsesiva. Esta pasividad es parte de muchos
síndromes neuróticos.
FACTOR F
La persona que puntúa bajo tiende a ser reprimida, reticente, introspectiva. A veces
es terca, pesimista, indebidamente cauta; es considerada por los demás como
133
La persona que puntúa alto tiende a ser jovial, activa, charlatana, franca, expresiva,
acalorada y descuidada. Frecuentemente se le escoge como líder electo. Puede ser
impulsiva y de actividad imprevisible o cambiante.
FACTOR G
La persona que puntúa bajo suele ser inestable en sus propósitos. Sus acciones
son casuales y faltas de atención a los compromisos del grupo y las exigencias
culturales. Su alejamiento de la influencia del grupo puede llevarle a actos
antisociales, lo cual le hace ser más efectiva, a la vez que su negativa de sujeción a
las normas le permite tener menos conflictos somáticos en situaciones de tensión.
La persona que puntúa alto tiende a ser de carácter exigente, dominada por el
134
FACTOR H
La persona que puntúa bajo suele ser tímida, alejada, cautelosa, retraída, que
permanece al margen de la actividad social. Puede presentar sentimientos de
inferioridad. Tiende a ser lenta y torpe al hablar y expresarse, no le gustan las
ocupaciones con contactos personales. Más que un grupo amplio, prefiere uno o
dos amigos íntimos, y no es dada a mantenerse en contacto con todo lo que está
ocurriendo a su alrededor.
La persona que puntúa alto tiende a ser sociable, atrevida, dispuesta a intentar
nuevas cosas, espontánea, de numerosas respuestas emocionales. Su indiferencia
(falta de vergüenza) le permite soportar sin fatiga el 'toma y daca' del trato con la
gente y las situaciones emocionales abrumadoras. Sin embargo, puede
despreocuparse por los detalles, e invertir mucho tiempo charlando. Tiende a ser
emprendedora y estar activamente interesada por el otro sexo.
135
FACTOR I
La persona que puntúa bajo tiende a ser práctica, realista, varonil, independiente,
responsable y, a la vez, escéptica de las elaboraciones culturales subjetivas. A
veces es inamovible, dura, cínica, pagada de sí misma. Tiende a mantener el grupo
trabajando sobre unas bases prácticas, realistas y acertadas.
La persona que puntúa alto suele dejarse afectar por los sentimientos, idealista,
soñadora, artista, descontentadiza femenina. A veces solicita para sí la atención y
ayuda de los otros; es impaciente, dependiente, poco práctica. Le disgustan las
personas y profesiones rudas. Suele frenar la acción del grupo y turbar su moral
con actividades inútiles e idealistas.
FACTOR L
La persona que puntúa bajo suele no presentar tendencia a los celos o envidia; es
adaptable, animosa, no competitiva, interesada por los demás, buena colaboradora
del grupo.
FACTOR M
La persona que puntúa bajo suele mostrarse ansiosa por hacer las cosas
correctamente, atenta a los problemas prácticos y sujeta a los dictados de lo que es
evidentemente posible. Se preocupa por los detalles, capaz de serenidad en
situaciones de emergencia, aunque a veces es poco imaginativa.
137
(Autia)
La persona que puntúa alto tiende a ser poco convencional, despreocupada de lo
cotidiano, bohemia, motivada por si misma, creadora, imaginativa, preocupada por
lo 'esencial' y despreocupada de las personas particulares y la realidad física. Sus
intereses, dirigidos hacia su intimidad, la llevan a veces a situaciones irreales, con
explosiones expresivas. Su individualidad le empuja a verse excluido de las
actividades del grupo.
FACTOR N
La persona que puntúa bajo suele ser sencilla, sentimental, llana, poco sofisticada.
Se le satisface fácilmente y se muestra contenta con lo que le acontece; es natural,
espontánea, poco refinada y torpe.
FACTOR O
La persona que puntúa bajo tiende a ser plácida, de ánimo invariable. Su confianza
en sí misma y su capacidad para tratar con cosas es madura y poco ansiosa; es
flexible y segura, pero puede mostrarse insensible cuando el grupo no va de
acuerdo con ella, lo cual puede provocar antipatías y recelos.
La persona que puntúa alto suele ser depresiva, preocupada, llena de presagios e
ideas largamente gestadas. Ante las dificultades presenta tendencia infantil a la
ansiedad. En
los grupos no se siente aceptada ni con libertad para actuar. Una puntuación alta
es muy corriente en los grupos clínicos de todo tipo.
FACTOR Q1
(Conservadurismo)
La persona que puntúa bajo confía en lo que le han enseñado a creer y acepta lo
'conocido y verdadero', a pesar de sus inconsistencias, aunque se le presente algo
que pudiera ser mejor. Es precavida y puntillosa con las nuevas ideas, tiende a
posponer u oponerse a los cambios, a seguir la línea tradicional, a ser
conservadora en religión y política, y a despreocuparse de las ideas analíticas e
'intelectuales'.
La persona que puntúa alto suele interesarse por cuestiones intelectuales y dudar
de los principios fundamentales. Es escéptica y de espíritu inquisitivo en las ideas,
sean tradicionales o nuevas. Suele estar bien informada, poco inclinada a moralizar
y más a preguntarse por la vida en general y a ser más tolerante con las molestias
y el cambio.
FACTOR Q2
La persona que puntúa bajo prefiere trabajar y tomar decisiones con los demás, le
gusta y depende de la aprobación social. Tiende a seguir las directrices del grupo,
incluso mostrando falta de decisiones personales. No es necesariamente gregaria
140
por decisión propia, sino que necesita del apoyo del grupo.
FACTOR Q3
La persona que puntúa bajo no está preocupada por aceptar y ceñirse a las
exigencias sociales. No es excesivamente considerada, cuidadosa o esmerada.
Puede sentirse desajustada, y muchas de sus desadaptaciones (especialmente las
afectivas, pero no las paranoicas) puntúan en esta dirección de la variable.
La persona que puntúa alto suele tener mucho control de sus emociones y
conducta en general, y ser cuidadosa y abierta a lo social; evidencia lo que
comúnmente se llama 'respeto hacia sí misma'; tiene en cuenta la reputación social.
No obstante, a veces tiende a ser obstinada. Los líderes eficaces y algunos
paranoicos puntúan alto en Q3.
FACTOR Q4
La persona que puntúa alto suele ser tensa, excitable, intranquila, irritable e
impaciente. Está a menudo fatigada pero incapaz de permanecer inactiva. Dentro
del grupo tiene una pobre visión del grado de cohesión, del orden y del mando. Su
frustración representa un exceso del impulso de estimulación no descargada.
142
DESCRIPCIÓN GENERAL
FICHA TÉCNICA
ANTECEDENTES
ESCALAS DE VALIDACIÓN
ESCALAS CLÍNICAS
l. - ZONA PSICONEUROTICA
ESCALA 2 D (Depresión).
146
ESCALA 3 Hi (Histeria).
Se desarrolló para identificar individuos que utilizaban reacciones histéricas ante las
situaciones de tensión, además de determinar Somatización no Localizada sin
determinación de una causa real. Consta de 60 reactivos de dos tipos generales;
algunos tienen que ver con una negación general de la Salud Física y una variedad
de quejas sintomáticas algo más especificas.
ZONA SOCIAL
ZONA PSIQUIATRICA
147
ESCALA 6 PA (Paranoia)
Se elaboró a fin de identificar pensamientos o ideas paranoides (sentimientos
de persecución, ideas de grandeza, suspicacia, opiniones, actitudes rígidas, etc).
Consta de 40 a 60 reactivos relacionados con conductas Psicóticas.
ESCALA 7 Pt (Psicastenia)
Se desarrolló con el propósito de encontrar características de la personalidad
clasificada como Psicastenia (reacciones fóbicas - obsesivo compulsivas y
excesivas dudas); sin embargo en la actualidad no es de uso común. Esta escala
consta de 48 reactivos que cubren una variedad de síntomas y conductas
relacionadas con pensamientos obsesivos, sentimientos de temor y/o ansiedad y
dudas sobre la propia capacidad.
ESCALA 8 Es (Esquizofrenia)
Se elaboro para identificar individuos asociados con la esquizofrenia, aislamiento
emocional, las relaciones inadecuadas con las familias, apatía e indiferencia. Esta
escala consta de 78 reactivos que cubren un amplio grupo de conductas; siendo la
más amplia de todas las escalas clínicas.
MATERIAL DE LA PRUEBA
FORMA INDIVIDUAL
FORMA COLECTIVA
ESCALAS ADICIONALES
DEPENDENCIA (Dy)
La desarrolló Navran (1.954), para evaluar la intensidad de las necesidades de
dependencia. Consta de 57 reactivos.
149
DOMINANCIA (Do)
La desarrollaron Gough, McClosky y Meehl (1.951); esta variable de la personalidad
puede ser importante en la psicología de la participación social. Consta de 28
reactivos que permiten detectar la iniciativa social, capacidad para el mando,
persistencia, acciones esforzadas, preocupación e identificación con la comunidad
o sociedad y sentimiento de la responsabilidad.
RESPONSABILIDAD (Re)
La desarrollaron los mismos autores de la Escala de Dominancia en 1.952. Consta
de 32 reactivos los cuales se refieren a la preocupación por temas sociales y
morales, desaprobación de privilegios, énfasis en los deberes y la autodisciplina,
seguridad personal, etc. (Gough, 1.952).
CONTROL (Cn)
La desarrolló Cuadra, (1.953) para estudiar el problema de la necesidad de
hospitalización. Consta de 50 reactivos que incluyen la conciencia de las propias
debilidades, sensibilidad a las críticas sociales, ciencias religiosas y participación en
actividades riesgosas.
FUNDAMENTO ESTADÍSTICO
CONFIABILIDAD
las dificultades aludidas para una prueba como el MMPI, los datos que se citan a
continuaci6n parecen bastante satisfactorios.
VALIDEZ
APLICACIÓN
151
Las instrucciones que deben darse al sujeto son las indicadas en la primera página
del cuadernillo forma colectiva.
CORRECCIÓN Y VALORACIÓN
Algunos autores afirman que en primer lugar, deben separarse las hojas de
respuestas según el sexo de los examinados, y también borrar las respuestas que
tengan señaladas las dos contestaciones (V y F), que se considerarán como
respuestas NO SE.
152
Por otra parte hay cinco escalas Clínicas que son modificadas por diversas
proporciones del valor en bruto obtenido por la Escala K. De esta forma, la escala
1Hs, deberá ser incrementada en su puntaje en bruto, por el 0.5 (la mitad) del valor
de la Escala K en bruto.
Una vez modificados los puntajes de estas cinco escalas, se elabora el perfil,
ubicando cada puntaje en bruto en el nivel de su conversión correspondiente en
calificaciones T.
- CODlGO DE WELSH
Paso 1.
Escribir los dígitos que representan las escalas ordenadas según la cuantía de la
puntuación T, de mayor a menor.
Paso 2.
Introducir los símbolos que indiquen la cuantía de los valores T (90 o mayor, 80 -89,
- 70 -79, - 60 - 69, -50 - 59,- 40 – 49, 30-39 # 29 o menor a la derecha de #) .
Paso 3.
Se pueden codificar las escalas de validación y colocarlas separadamente a la
derecha del código de las escalas clínicas.
- CODIGO DE HATHAWAY.
Paso 1.
Se registra el número de la Escala que tiene la mayor puntuación T.
Paso 2.
Se anotan a continuación de este número, y por orden descendente de las
puntuaciones T, los números de las escalas que tengan valores superiores a 54.
Paso 3.
154
Insertar un apóstrofe (‗) después del último número de escala en la clave que tenga
una puntuación T de 70 o más.
Paso 4.
Se subrayan los números de las escalas cuyos valores T sean iguales o se
diferencien en solo un punto.
Paso 5.
Utilizar un guión (-) y luego registrar el número de la escala menor en el perfil si
dicha escala tiene una puntuaci6n T menor que 46.
Paso 6.
Siga la misma regla para subrayar esas puntuaciones bajas como se indicó en el
paso 4 para puntuaciones altas.
Paso 7.
A la derecha y separada de las escalas clínicas, registre los puntajes crudos para L,
F y K en ese orden y separada por dos puntos (:). Si la puntuación directa de L es
igual o mayor que 10, o si la F es igual o mayor que 16, se coloca un "X"; a fin de
sugerir que el perfil puede ser inválido.
INTERPRETACIÓN
utilizarán con frecuencia los términos elevada o baja, para designar la ubicación
general de cada escala dentro del perfil.
Cuando se hable de una Escala elevada se hará referencia a que tiene un puntaje
por arriba de la media estadística y, en comparación con las demás, tiende a
sobresalir. Su puntaje es el más alto o uno de los más altos.
El aspecto cualitativo del inventario debe ser entendido en base a los elementos
clínicos que proporcionan cada una de las escalas y de las combinaciones en que
se encuentran relacionadas; en este punto se debe tener en cuenta que todas las
escalas del perfil tienen relación entre sí, además de la configuración que se puede
observar con la clave.
156
Requiere mayor nivel de conocimientos que otras pruebas. No solo sobre el propio
Rorschach sino también sobre Personalidad y Psicopatología, solo así se logra
conseguir toda la amplitud de información que es capaz de proporcionar.
Métodos de interpretación
definieran sus propios métodos de interpretación del test. Los métodos de mayor
renombre fueron los de Klopfer y Rapaport, junto a los de Beck, Hertz y Piotrowsky.
Con el tiempo, la diversidad de métodos y la falta de un método común llevo al
desprestigio del test por su falta de confiabilidad; esto es, cada psicólogo tenía su
propio método y era casi imposible comparar resultados.
A inicios de los 70, la Fundación Rorschach comenzó una serie de estudios para
determinar cuales eran los métodos de tabulación e interpretación más utilizados,
para después iniciar una serie de investigaciones sobre aquellos indicadores que
proveían de información clínica relevante. El resultado de estos esfuerzos es el
ahora conocido Método Comprehensivo de Exner, editado por primera vez el año
1974.
Para complementar información sobre este test, recomendamos ver las siguientes
páginas:
161
www.rorschach.org
http://www.serymp.org
La H-T-P es una prueba proyectiva que utiliza dibujos a pulso de una casa, un árbol
y una persona (Buck, 1948, 1981). A la persona examinada se le da casi completa
libertad de trazar los tres objetos, se piden dibujos a lápiz y a colores por separado.
Aunque el examinador puede improvisar una prueba H-T-P con meras hojas de
papel en blanco, Buck (1981) recomienda el uso de una forma de dibujo con cuatro
hojas que tiene en la primera página la información de identificación. Las páginas 2,
3 y 4 tienen como título Casa, Árbol y Persona. Se necesitan dos formatos de dibujo
para cada examinando, uno para los dibujos a lápiz y el otro para los dibujos a color.
Buck (1981) también proporciona un formato independiente de cuatro hojas para
una fase de interrogatorio posterior a los dibujos que consiste de 60 preguntas
diseñadas para obtener las opiniones de la persona examinada en cuanto a los
elementos de los dibujos. Muchos profesionales consideran que la fase de
interrogatorio no amerita un esfuerzo adicional. También se cuestiona el valor de los
dibujos realizados con colores (Killian, 1987).
La Técnica Proyectiva del Dibujo de casa-árbol-persona tiene en mucho la misma
herencia que la Prueba del Dibujo de la Figura Humana. Como la Prueba DFH, la H-
T-P se concibió en un principio como una medida de inteligencia, completa con un
sistema de calificación cuantitativa para estimar un nivel aproximado de capacidad
(Buck, 1948). Sin embargo, los clínicos pronto abandonaron el empleo de la H-T-P
corno medida de inteligencia y ahora se le utiliza casi de manera exclusiva como
medida proyectiva de la personalidad.
Aunque no se ahondará en los detalles, la interpretación de la H-T-P depende de
tres suposiciones generales: el dibujo de la Casa refleja la vida hogareña y las
relaciones intrafamiliares de la persona examinada, el del Árbol refleja la manera en
que el individuo experimenta el ambiente y el de la Persona hace eco de sus re-
laciones interpersonales. Buck (1981) proporciona numerosas hipótesis
162
interpretativas tanto para los aspectos cuantitativos como cualitativos de los tres
dibujos.
La H-T-P es una atractiva prueba que ha fascinado a los clínicos por más de 40
años. Por desgracia, Buck (1948, 1981) nunca ha proporcionado algún tipo de
evidencia que sustente la confiabilidad o validez de este instrumento. De hecho,
quizás él mismo es su peor crítico. En cierto punto dentro de su manual de la
prueba, incluso llega a afirmar que la investigación sobre validación no es posible
con la H-T-P (Buck, 1981, p. 164). Entre los impedimentos para dicha investigación
cita los siguientes elementos:
1. Ningún signo en sí mismo es indicación infalible de alguna fortaleza o
debilidad en el individuo.
2. Ningún signo en la H-T-P tiene un solo significado.
3. La importancia de un signo puede diferir notablemente de una constelación a
otra.
4. La cantidad de datos diagnósticos y pronósticos que pueden obtenerse de
cada uno de los puntos de análisis puede variar en gran medida de una
persona a otra.
5. Los colores no tienen algún significado absoluto y universal.
6. Ninguno de los elementos del sistema de calificación cuantitativa puede
tomarse automáticamente por su valor aparente
Una conclusión sencilla sería el pensar que estas capacidades no son estables a
lo largo de la vida y que se encuentran muy influenciadas por el medio ambiente.
Sin embargo, algunos expertos opinan que existe una gran estabilidad de las
capacidades a lo largo de la vida, especialmente a partir de los 6 años.
CARACTERÍSTICAS
Algunas pruebas amplían sus instrucciones con nuevos ejemplos, evitando así
posibles ambigüedades y garantizando que el niño comprenda la naturaleza de la
tarea que ha de realizar.
Aplicación: Individual.
Descripción de la prueba
La prueba está impresa en un pliego de cuatro páginas y a dos colores: negro y azul. La primera página
contiene los datos de identificación del sujeto, las instrucciones y diez ejemplos que deben ser resueltos
con la ayuda del examinador. En las tres páginas restantes figuran sesenta Ítems o cuestiones escalonadas
experimentalmente con arreglo a la dificultad intrínseca1 que presentan y mezclan progresivamente los
cinco tipos de preguntas o reactivos que se van formulando:
1. Información o conocimientos generales.
2. Comprensión de vocabulario mediante el conocimiento
de opuestos.
3. Razonamiento verbal, discriminando la palabra que
expresa un concepto diferente a otras cuatro que
mantienen entre sí una semejanza de categoría.
4. Razonamiento lógico mediante la asociación a un
elemento dado del análogo, de acuerdo con otra
167
asociación conocida.
5. Razonamiento numérico mediante series de números
que deben completarse, una vez deducida la regla
que rige a cada serie.
A excepción de las series numéricas, los otros cuatro tipos de preguntas se formulan por el sistema de
selección múltiple. En este caso el sujeto no debe escribir ninguna palabra, limitándose a subrayar la
respuesta seleccionada como adecuada a la cuestión que se le presenta.
APLICACIÓN Y CALIFICACIÓN
5° Un solo examinador difícilmente podrá atender grupos mayores de veinticinco examinandos. En caso de
tener que aplicar en una sesión la prueba a un grupo numeroso - disponiéndose de local amplio y adecuado
- el examinador debe obtener la colaboración de auxiliares.
6° Los auxiliares deben haber sido previamente instruidos. Sus funciones serán: distribuir y recoger los
ejemplares, evitar copias, y hacer que los examinandos sigan estrictamente las instrucciones de la parte de
la prueba que están efectuando.
En el caso de producirse alguna rotura de la punta de un lápiz, el auxiliar deberá suministrar
inmediatamente otro (nunca debe emplearse tiempo en sacar una nueva punta).
En ningún caso los auxiliares intervendrán positiva o negativamente en los trabajos de los que
efectúan la prueba. No deben ni siquiera comprobar cómo son los resultados, absteniéndose de todo
acto o movimiento de aprobación o desaprobación.
Una vez que estén convenientemente sentados los examinandos se procederá a entregar a cada uno
un lápiz y un ejemplar de la prueba.
Cuando se distribuyan los formularios se colocarán éstos delante del individuo, de manera que
tengan a la vista solamente la página en donde aparecen las instrucciones.
Al efectuar dicha distribución, nunca deben ser colocadas las hojas al revés.
El examinador debe explicar brevemente lo que se espera, diciendo: "Ustedes van a realizar una
prueba sencilla y muchas de las cuestiones que se les preguntan son bastante fáciles. Deben procurar
168
responder el mayor número posible de cuestiones para demostrar la cantidad de trabajo que son
capaces de hacer en poco tiempo".
(Cuando los examinandos tengan instrucción superior a la primaria, podrán abreviarse las siguientes
instrucciones. Después de la lectura que ellos mismos hayan hecho, el examinador se limitará a
cerciorarse de que han sido comprendidas las instrucciones.)
"Escriban con letra clara sus apellidos y sus nombres dentro del cuadro que hay en la parte
superior de la página que tienen a la vista, después la edad y la fecha del día en que se
efectúa la prueba".
Terminados de anotar estos datos, el aplicador de la prueba leerá en voz alta las instrucciones que
figuran en la primera página al mismo tiempo que lo hacen por su cuenta los sujetos que realizan la
prueba.
Es conveniente que el aplicador lea en forma muy clara y no pase a una cuestión nueva sin
asegurarse que todos están siguiendo y comprendiendo lo que se está leyéndoles.
Al terminar de leer cada uno de los ejemplos, debe preguntar a alguno de los que se examinan,
para que éste dé la respuesta y explique qué debe hacerse.
Es conveniente insistir hasta estar seguro de que las instrucciones, y especialmente la forma en
que deben ir poniendo las soluciones, han sido bien comprendidas.
"No deben escribir ninguna palabra, y solamente subrayar una de las cinco palabras que se
encuentran después de la pregunta y que sea la que mejor conteste a ella".
(Cuando sea necesario, explicará que subrayar quiere decir poner una raya por debajo.)
"Cuando ustedes encuentren series de números como éstas, deben tratar de encontrar cuáles son
los dos números que faltan y escribirlos en los espacios punteados".
Si las series han sido leídas con cierta entonación, haciendo una marcada pausa al llegar a los
espacios punteados, el sujeto descubrirá fácilmente los números que faltan. En el caso de que no lo
comprenda, se le ayudará dándole las explicaciones necesarias.
"Cuando encuentren series de números deben escribir los dos números que faltan para llenar los
espacios punteados".
Es necesario comprobar que todos han comprendido bien estas instrucciones y han resuelto los
diez ejemplos correctamente.
169
Por último el aplicador leerá las seis líneas que figuran al pie de la página en donde se les recomienda
que trabajen con rapidez, pero que procuren no cometer errores y que no se distraigan mirando lo
que hacen los demás.
Se les preguntará si tienen alguna duda, y en el caso de que alguien formule alguna pregunta, ésta será
aclarada, pero una vez dada la orden de comenzar no deben darse nuevas explicaciones. Antes de dar la
orden de que pueden empezar les dirá:
"Van a disponer de diez minutos para contestar el mayor número de preguntas posible"."Hay
tres páginas por llenar y deben trabajar sin distraerse".
"Vuelvan la página. ¡Comiencen por la página dos y contesten las cuestiones que allí
encuentren! "¡No se entretengan! ¡Empiecen!
Tiempo de ejecución
Se otorgan diez minutos. El tiempo se comienza a contar a partir del momento de dar la orden:
"Empiecen", o sea después de finalizadas las instrucciones de la primera página. Transcurridos
exactamente diez minutos después de dada la orden de "empiecen", se dirá "¡ALTO! Dejen los lápices de
encima de la mesa", y el aplicador, ayudado por los auxiliares, recogerá las pruebas. Esta operación de
recoger los formularios debe hacerse muy rápidamente.
Calificación
Para calificar el BARSIT, se revisarán las contestaciones dadas, de acuerdo con la clave de corrección, y a
cada cuestión bien resuelta se otorga un punto. (En la parte superior de la clave, encima de cada columna
de respuestas se destaca un número que corresponde a la página del test. Si se hacen coincidir ambos
números, la operación de corregir las pruebas es sumamente fácil.)
Se considera la respuesta como incorrecta si se ha subrayado más de una palabra, y si en las series
numéricas solamente aparece bien uno de los dos números que se deben escribir, también se
conceptuará como incorrecta.
Una vez calificada la prueba se anotarán los puntos obtenidos en la casilla correspondiente de la primera
página, y se le asignará la centila que le pertenece, de acuerdo con la Tabla de normotipos.
Con el BARSIT se han realizado aplicaciones en Argentina, Colombia, Uruguay y Venezuela, y actualmente se
están efectuando nuevos experimentos en otras repúblicas americanas.
Las tablas que figuran en esta primera edición del manual corresponden a los resultados
obtenidos con sujetos venezolanos.
grado.) Se ha excluido intencionalmente los datos de escolares de edades anormales en relación con el
grado.
Todas las aplicaciones del BARSIT se llevaron a cabo durante el primero o último mes de cada año
escolar, dirigidas por el propio autor, y realizadas con la colaboración de estudiantes seleccionados
de los cursos de Mediciones y evaluación psicopedagógica.
El generalizado sistema de las centilas o rangos percentilares se utiliza en los normotipos venezolanos (en este
Manual se publican los revisados en Diciembre de 1956, véase Cuadro n° 1).
Del mismo modo que cuartila o decila expresa un valor estadístico que indica cuartas partes o
décimas partes del total de un grupo, la centila señala las centésimas partes del grupo a que nos
referimos. Una centila siempre indica la porción que está por debajo, por lo cual puede utilizarse
como una medida de ordenación o posición.
Así por ejemplo, a un adulto con instrucción primaria completa, que haya obtenido 42 puntos con el
BARSIT, de acuerdo con los normotipos le corresponde la centila 66.
Este valor significa que si comparamos dicha puntuación con los resultados de adultos de su
mismo nivel, 66% de individuos quedan igual o por debajo de él, y por tanto solamente 34%
pueden alcanzar una puntuación superior a la que él ha obtenido.
Otro ejemplo: A un escolar de 12 años, que haya cursado el 5° grado y solamente conteste bien 30
cuestiones o Ítems del BARSIT, de acuerdo con las Escalas de los normotipos de 5° grado, a 30 puntos
le corresponde la centila 10.
Cuadro 1
Test rápido Barranquilla - normotipos venezolanos
CENTILAS CENTILAS
171
Cuando se desee una rápida interpretación cualitativa de los puntos obtenidos con el BARSIT, basada en
cinco categorías: Excelente, Superior, Mediano, Inferior y Muy inferior, de acuerdo con el nivel de
instrucción, se puede usar la escala valorativa, según el Cuadro n° 2.
Cuadro 2
Validez
Conseguimos puntuaciones de calificaciones escolares. Con ello intentábamos obtener criterios
externos que nos permitieran calcular el grado de conexión entre los rendimientos de la prueba y las
notas escolares.
Al lado de resultados alentadores: r - + 716; otros eran de r = + .446.
El diagrama n° 1 muestra la relación que existe entre el éxito en los estudios y las puntuaciones del
BARSIT. (Datos procedentes del Colegio San José, Barranquilla, noviembre 1944, cuarto año, B. N =
26, X = 31, DE = 6.8)
Confiabilidad
Un primer intento para calcular coeficientes de confiabilidad se llevó a cabo repitiendo la aplicación
de la prueba al mismo grupo, transcurridas unas semanas de la primera aplicación, y el resultado
de este coeficiente de constancia fue de r = + .91. (Liceo de Aplicación, Caracas, octubre-
noviembre de 1948.) La falta de otras pruebas tipificadas no nos permitió calcular co eficientes de
equivalencia.
173
Durante más de un lustro se recopilaron datos que pudieran ser utilizados para la fijación de
estándares o normotipos. Fruto de ello es el "Informe de la labor realizada durante los años 1940, 1941,
1942, 1943 y 1944 por Francisco del Olmo Barrios", (Suplemento a los Nos. 8 y 9 de la Revista del Museo del
Atlántico, marzo de 1945), y (Franziska Baumgarten: "Progress of Psychotechnique" I. 1939-1945 Bern. - La
Psychotechnique en Colombie, por Mercedes Rodrigo, página 115).
Entre las 32 pruebas adoptadas por el Instituto de Barranquilla (página 46, del informe citado), se experimentó el
"Rapid Survey Intelligence Test" de Rudolf Pintner, previamente traducido con autorización personal
del autor.
Los resultados de ese experimento demostraron que no se podía utilizar en nuestro medio. Surgían
marcadas dificultades, especialmente en cuanto a la adaptación a los límites de tiempo para
efectuar los diferentes tipos de ejercicios. El tiempo de tres minutos para cada una de las cuatro
partes de que consta la prueba resultó demasiado breve para los sujetos examinados, ya que no
estaban habituados a realizar pruebas calculadas para tiempos cortos. Además presenta un segundo
inconveniente a los aplicadores de las pruebas, pues las instrucciones se deben impartir por separado,
página por página, siendo esto un obstáculo al tener que mantener una estrecha vigilancia para evitar que se
intente comenzar a resolver partes del test mientras se dan las instrucciones. Durante los años 1943 y 1944,
se estudió una nueva prueba que llenara un cometido similar a la del Dr. Pintner, pero evitando los
inconvenientes de los tiempos parciales. Se crearon nuevos Ítems para medir el vocabulario, el
razonamiento verbal y otros para el razonamiento lógico; para medir el razonamiento numérico se
organizaron series adecuadas, y además se introdujeron nuevos Ítems de información general, factor que
ha demostrado su validez en pruebas de otros autores (Terman, Wechsler, etcétera). Terminadas las
experiencias en 1945 se trataron estadísticamente los resultados.
Se habían examinado los siguientes escolares: De 13 años: 1003; de 12 años: 462; de 11 años: 338;
de 10 años: 252; de 9 años: 108.
Calculados los resultados con esta muestra de 951 varones y 1202 niñas que estaban terminando
el año escolar en escuelas oficiales y colegios privados, se obtuvieron los siguientes datos:
Cuestionario
10 15 20 25 … 35 40 45 … 55
8. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?
6 9 12 .......... 18 21 24 ............ 30
13. De estas cinco palabras una pertenece a una clase diferente. ¿ Cuál es ?
7 9 11 13 ............ 17 ............. 21 23
18. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?
7 14 21 28 42 49 63 70
176
23. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?
40 36 32 28 20 16 12 4
28. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?
64 58 52 46 .......... 34 28 ........... 16 10
33. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?
38. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?
2 4 … 16 32 … 128 256
43. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?
5 6 8 11 15 20 … 33 41 … 60
siglo XIII, siglo XVII, siglo IV, siglo XV, siglo XIV
48. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?
90 80 71 63 … 50 45 … ..................... 38 36 35
53. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?
58. De estas cinco palabras una pertenece a una clase diferente. ¿Cuál es?
matutina o vespertina.
Las pruebas deberían ser fáciles de aplicar: cada una contiene excelentes
ejemplos de "calentamiento" y las pueden aplicar personas con un mínimo de
entrenamiento especial.
Deben estar disponibles formas alternas: con propósitos de repetición de
prueba, la disponibilidad de formas alternas (en la actualidad formas C y D)
reducirá cualesquier efecto de la práctica.
La confiabilidad del DAT es, por lo general, bastante alta, con coeficientes por
mitades que en gran medida se localizan en el rango de .90 y confiabilidades de
formas alternas que se encuentran en el rango de .73 a .90, con mediana de .83.
Razonamiento mecánico es una excepción, con confiabilidades tan bajas como .70
en el caso de las niñas. Las pruebas muestran un patrón mixto de
intercorrelaciones, que los autores interpretan de manera optimista como una
confirmación de la independencia de las ocho pruebas. En realidad, muchas de las
correlaciones son bastante altas y parece probable que las ocho pruebas reflejen un
menor número de factores de capacidad. Con toda seguridad, las pruebas de
Razonamiento Verbal y Capacidad numérica miden un solo factor sólido, con
correlaciones alrededor de .70 en diversas muestras.
El manual presenta amplios datos que demuestran que las pruebas del DAT, en
especial la combinación RV + RN, constituyen buenos medios de predicción de las
calificaciones en educación media superior y universidad (correlaciones en los
rangos de .60 y .70). Por tal razón, la combinación de RV + RN se considera con
frecuencia como un índice de la aptitud escolar. La evidencia de ¡a validez
diferencial de las otras pruebas es bastante limitada.
Aun así, el DAT revisado es mejor que las ediciones anteriores. Una mejoría
importante es la eliminación del aparente sesgo de género en las pruebas de Uso
del Lenguaje y Razonamiento Mecánico —una fuente de críticas en ediciones
anteriores. Los editores de la Quinta Edición llevaron a cabo un cuidadoso estudio
sobre sesgo de género, raza, étnico y regional, a fin de eliminar los reactivos que
podrían ser estereotípicos u ofensivos para subgrupos identificables.
Lo que es más, realizaron análisis estadísticos complejos para eliminar reactivos de
182
Ejemplo de reactivo
RELACIONES ESPACIALES
¿Cuál de las figuras de la derecha se puede hacer al doblar el patrón a la izquierda? El patrón siempre representa la parte externa de la figura.
Más allá de cualquier duda, la prueba de dibujo de más amplia utilización es el Test
Guestállico Visomotor, conocido de manera más común como Prueba Gestalt de
Bender (BGT, Bender, 1938). La BGT consta de nueve figuras estímulo (figura 9-9);
se instruye a la persona evaluada para que copie cada figura en una hoja de papel
en blanco. Se dice al examinando que la BGT: "... no es una prueba de capacidad
artística, pero intente copiar el dibujo lo más precisamente posible. Trabaje con la
rapidez o lentitud que usted desee" (Huit, 1977).
Se han diseñado vanos sistemas de calificación para determinar si el desempeño de
una' persona es el más común en individuos con daño' cerebral o sin él (Hain, 1964;
Hutt y Briskin, '• 1960; Lacks, 1999; Pascal y Suttell, 1951;" Pauker, 1976). En el
caso de adultos, el mejor de estos enfoques de calificación se encuentra en Lacks
(1999). Esta autora identificó 12 signos cualitativos que se califican según presencia
contra ausencia en el protocolo completo. La presencia de cualesquiera de los cinco
signos indica daño cerebral (cuadro 9 -11). Con: base en la confirmación
independiente de otras fuentes de información, Lacks reseña tasas de' éxito de 82 a
86% en una muestra combinada de admisiones a la unidad de tratamiento psi-*
quiátrico agudo de un centro urbano de salud mental comunitaria (Lacks y Newport,
1980). En Gregory (1999) se analizan diversas variaciones interesantes en la BGT.
Grolh-Marnat |;{1990) dedica un capítulo completo a este instrumento, incluyendo
183
A.
1.
o o o o o o o o o o
o o o o o o o o o o
o o o o o o o o o o
2.
3. 4.
de la propia persona.
9. Dificultad de cierre: dificultad para lograr que
se toquen las partes adyacentes de una figura.
Nota: Se puede contar un decimotercer error si la prueba completa requiere más de 15 minutos.
Fuente: Basado en Lacks, P (1999). Bender-Gestalt screening forbrain dysfunction (2* edición). Nueva York: John Wiley.
falsos positivos (pacientes normales a los que se clasifica dentro del diagnóstico de
demencia). La sensibilidad del instrumento depende de varios factores, incluyendo
la puntuación de corte utilizada, el nivel educativo de la persona evaluada, el grado
de la demencia, la naturaleza de la patología subyacente y el tipo de entorno en el
que se lleva a cabo la evaluación (Anthony, LeResche, Niaz, Von Korff y Folstein,
1982; Tombaugh, McDowell, Kristjansson y Hubley, 1996; Tsai y Tsuang, 1979). A
pesar de sus limitaciones, el MMSE continúa siendo la prueba más confiable y
práctica para la detección de demencia en ancianos (Ferris, !992). Debring, Van
Gorp, Stuck y otros investigadores (1994) recomiendan su empleo como parte de
una batería corta de detección de la declinación cognitiva en ancianos. En el cuadro
9-14 se resumen medias adicionales del estado mental geriátrico.
186
187
CONCLUSIÓN
Lea y discuta con sus compañeros los aspectos más importantes del artículo anexo
Importancia del Avance en la Investigación Psicométrica ubicado en la siguiente
dirección electrónica: http://www.salvador.edu.ar/psic/ua1-9pub02-7-01.htm
188
Crocker, L. y Algina, J. (1986). Introduction to classical and modern test theory. New
York: Holt, Rinehart and Winston.
Hambleton, R.K. y van der Linden, W.J. (1982). Advances in IRT and applications:
An introduction. Applied Psychological Measurement, 6(4), 373-378.
Lord, F.M. y Novick, M.R (1968). Statistical theories of mental test scores. New
York: Addison-Wesley.
http://www.scribd.com/doc/3476657/Evaluacion-Psicologica1-tema-6
http://www.psicoactiva.com/software.htm