Vous êtes sur la page 1sur 9

Papeles del Psiclogo

ISSN: 0214-7823
papeles@correo.cop.es
Consejo General de Colegios Oficiales de
Psiclogos
Espaa

Prieto, Gerardo; Delgado, Ana R.


FIABILIDAD Y VALIDEZ
Papeles del Psiclogo, vol. 31, nm. 1, enero-abril, 2010, pp. 67-74
Consejo General de Colegios Oficiales de Psiclogos
Madrid, Espaa

Disponible en: http://www.redalyc.org/articulo.oa?id=77812441007

Cmo citar el artculo


Nmero completo
Sistema de Informacin Cientfica
Ms informacin del artculo Red de Revistas Cientficas de Amrica Latina, el Caribe, Espaa y Portugal
Pgina de la revista en redalyc.org Proyecto acadmico sin fines de lucro, desarrollado bajo la iniciativa de acceso abierto
Papeles del Psiclogo, 2010. Vol. 31(1), pp. 67-74 Seccin Monogrfica
http://www.cop.es/papeles

FIABILIDAD Y VALIDEZ
Gerardo Prieto y Ana R. Delgado
Universidad de Salamanca

En este captulo se describen conceptualmente las propiedades psicomtricas de fiabilidad y validez y los procedimientos para eva-
luarlas. El apartado dedicado a la fiabilidad o precisin de las puntuaciones de las pruebas describe los distintos modelos, procedi-
mientos empricos e ndices estadsticos para cuantificarla. En cuanto a la validez, la propiedad psicomtrica ms importante y la
que ha experimentado mayores transformaciones a lo largo de la historia de la Psicometra, se resumen las principales concepciones
y los debates en torno a la misma.
Se previene al lector de dos frecuentes malentendidos: en primer lugar, considerar que la fiabilidad y la validez son caractersticas
de los tests cuando corresponden a propiedades de las interpretaciones, inferencias o usos especficos de las medidas que esos tests
proporcionan; en segundo lugar, tratar la fiabilidad y la validez como propiedades que se poseen o no en lugar de entenderlas co-
mo una cuestin de grado.
Palabras clave: Fiabilidad, Psicometra, Tests, Validez.

The psychometric properties of reliability and validity and the procedures used to assess them are conceptually described in this
chapter. The part devoted to the reliability, or test score accuracy, is focused in the models, procedures and statistical indicators most
usually employed. As to validity, the most important psychometric property, and the one whose conception has changed the most, we
summarize its history in testing contexts.
The reader is prevented that reliability and validity are not, as usually thought, properties of the testing instruments but of the particu-
lar inferences made from the scores. Another common error is considering reliability and validity, not as questions of degree, but as
absolute properties.
Key words: Reliability, Psychometrics, Testing, Validity.
os psiclogos utilizan diversos procedimientos es- tests proporcionan. El segundo se refiere a la considera-
L tandarizados para obtener muestras de la con-
ducta de las personas. Estos recursos,
cin de que la fiabilidad y la validez se poseen o no, en
lugar de entenderlas como una cuestin de grado (AE-
genricamente denominados tests, incluyen un procedi- RA, APA y NCME, 1999).
miento de puntuacin que permite obtener medidas que
pueden ser usadas con distintos propsitos: estimar el ni- FIABILIDAD
vel de la personas en un constructo (ansiedad, calidad La fiabilidad se concibe como la consistencia o estabilidad
de vida, visualizacin espacial), evaluar la competen- de las medidas cuando el proceso de medicin se repite.
cia tras un periodo de aprendizaje, clasificar a los pa- Por ejemplo, si las lecturas del peso de una cesta de man-
cientes en categoras diagnsticas o seleccionar a los zanas varan mucho en sucesivas mediciones efectuadas en
aspirantes ms aptos para un puesto de trabajo. La legi- las mismas condiciones, se considerar que las medidas
timidad y eficiencia de estas prcticas depende de su son inestables, inconsistentes y poco fiables. La carencia de
fiabilidad y validez. precisin podra tener consecuencias indeseables en el cos-
En este captulo se describen, de forma conceptual, es- te de ese producto en una ocasin determinada. De esta
tas dos caractersticas psicomtricas y los procedimientos concepcin se sigue que de la variabilidad de las puntua-
ms frecuentes para evaluarlas. De entrada, hay que ciones obtenidas en repeticiones de la medicin puede ob-
prevenir al lector de dos frecuentes malentendidos. El tenerse un indicador de la fiabilidad, consistencia o
primero consiste en considerar que la fiabilidad y la vali- precisin de las medidas. Si la variabilidad de las medidas
dez son caractersticas de los tests. Por el contrario, co- del objeto es grande, se considerar que los valores son
rresponden a propiedades de las interpretaciones, imprecisos y, en consecuencia, poco fiables. De manera
inferencias o usos especficos de las medidas que esos semejante, si una persona contestase a un test repetida-
mente en las mismas condiciones, de la variabilidad de las
Correspondencia: Gerardo Prieto. Facultad de Psicologa. Uni- puntuaciones podra obtenerse un indicador de su grado
versidad de Salamanca. Avda. De la Merced 109-131, 37005 Sa- de fiabilidad. La imposibilidad de lograr que las medidas
lamanca. Espaa. Email: gprieto@usal.es se lleven a cabo exactamente en las mismas condiciones es

67
Seccin Monogrfica FIABILIDAD Y VALIDEZ

uno de los problemas de las medicin psicolgica y educa- tpico de medida del peso de un objeto fuese de dos
tiva. El nivel de atencin y de motivacin de una persona gramos, se puede aventurar que el peso observado di-
puede variar al contestar repetidamente a la misma prue- ferir del peso verdadero en ms de dos gramos solo
ba, la dificultad de dos tests pretendidamente iguales cons- la tercera parte de las veces. Aunque la TCT permite
truidos para medir el mismo constructo puede ser desigual, estimar el ETM para personas situadas en distintos ran-
las muestras de examinadores que califican un examen de gos de la variable (denominados errores tpicos de me-
selectividad pueden diferir en el grado de severidad, etc. dida condicionales ), suele emplearse un nico valor
Por tanto, el esfuerzo de los evaluadores ha de centrarse en aplicable de forma general a todas las puntuaciones de
estandarizar el procedimiento de medicin para minimizar las personas de una poblacin. Obviamente, la valora-
la influencia de aquellas variables extraas que pueden cin del ETM depende de la magnitud de los objetos
producir inconsistencias no deseadas. La estandarizacin que se estn midiendo: dos gramos es un error despre-
del procedimiento implica obtener las medidas en todas las ciable si se pesan objetos muy pesados como sacos de
ocasiones en condiciones muy semejantes: con el mismo cereales, pero es un error notable si se pesan objetos
tiempo de ejecucin, las mismas instrucciones, similares ms livianos como los diamantes. Es decir, el valor del
ejemplos de prctica, tareas de contenido y dificultad equi- ETM est en las mismas unidades que los objetos medi-
valentes, similares criterios de calificacin de los evaluado- dos y carece de un lmite superior estandarizado que
res de exmenes, etc. facilite su valoracin. Por ello, se ha propuesto un ndi-
El estudio de la fiabilidad parte de la idea de que la ce estandarizado de consistencia o precisin denomi-
puntuacin observada en una prueba es un valor con- nado coeficiente de fiabilidad que puede oscilar entre
creto de una variable aleatoria consistente en todas las 0 y 1. De la TCT se deriva que este coeficiente es el co-
posibles puntuaciones que podran haber sido obteni- ciente entre la varianza de las puntuaciones verdade-
das por una persona en repeticiones del proceso de ras y la varianza de las puntuaciones observadas en
medida en condiciones semejantes (Haertel, 2006). una poblacin de personas. En consecuencia, indica la
Obviamente, no es posible repetir la medicin un n- proporcin de la variabilidad de las puntuaciones ob-
mero muy grande de veces a los mismos participantes. servadas que no puede atribuirse al error de medida;
Por tanto, la distribucin de las puntuaciones es hipot- por ejemplo, si el coeficiente de fiabilidad es de 0,80,
tica y sus propiedades deben ser estimadas indirecta- se considera que el 20% de la variabilidad observada
mente. La media de esa distribucin, que reflejara el es espuria.
nivel de una persona en el atributo de inters, es deno- Para estimar empricamente los estadsticos de fiabili-
minada puntuacin verdadera en la Teora Clsica de dad (ETM y coeficiente de fiabilidad) se emplean diver-
los Tests (TCT). La TCT es un conjunto articulado de sos diseos de recogida de datos que reflejan distintas
procedimientos psicomtricos desarrollados fundamen- repeticiones del proceso de medida. Los ms conocidos
talmente en la primera mitad del siglo pasado, que se se denominan test-retest (aplicacin de un test a una
ha utilizado extensivamente para la construccin, an- muestra de personas en dos ocasiones entre las que el
lisis y aplicacin de los tests psicolgicos y educativos. atributo se mantiene estable), formas paralelas (aplica-
Aunque la TCT surgi en el contexto de la medicin de cin a una muestra de personas en la misma ocasin o
las aptitudes humanas, sus propuestas se extienden a en distintas ocasiones de dos versiones del test equiva-
otras reas. Se asume que la puntuacin verdadera de lentes en contenido, dificultad, etc), consistencia entre las
una persona no cambia entre ocasiones, por lo que la partes de una prueba (divisin del test en dos subconjun-
variabilidad de las puntuaciones observadas se debe a tos equivalentes de tems o estimacin a partir de las co-
la influencia de un error de medida aleatorio, no siste- varianzas entre los tems de la prueba) y consistencia de
mtico (producido por causas desconocidas e incontro- las puntuaciones de distintos calificadores (evaluacin
lables en esa situacin). La cantidad de error en cada de una muestra de conducta por calificadores indepen-
caso sera la diferencia entre una puntuacin observa- dientes). La estimacin del coeficiente de fiabilidad a
da y la puntuacin verdadera. La desviacin tpica de partir de estos diseos suele basarse en la correlacin
los errores, denominada error tpico de medida (ETM), entre las puntuaciones observadas obtenidas en las dis-
indica la precisin de las puntuaciones de una perso- tintas formas de replicacin. Existe una extensa biblio-
na, es decir, su variabilidad en torno a la puntuacin grafa para obtener una informacin detallada de estos
verdadera. El ETM refleja el error que puede esperarse procedimientos y de los conceptos y desarrollos de la
en una puntuacin observada. Por ejemplo, si el error TCT. Excelentes exposiciones pueden encontrarse en este

68
GERARDO PRIETO Y ANA R. DELGADO Seccin Monogrfica

volumen (Muiz, 2010) y en los textos de Gulliksen grado de error que afecta a las puntuaciones localiza-
(1950), Martnez-Arias, Hernndez-Lloreda y Hernn- das en distintos niveles de la variable. Por el contrario, el
dez-Lloreda (2006) y Muiz (1998). ETE vara a lo largo de la variable. Por tanto, puede ser
Adems de la TCT, se emplean otros enfoques para considerado una medida individual de la precisin, da-
cuantificar la fiabilidad de las puntuaciones de los tests: do que indica la magnitud del error con la que se esti-
la Teora de la Generalizabilidad (TG) y la Teora de man los parmetros de las personas o los tems situados
Respuesta al tem (TRI). en distintas posiciones del continuo latente. La funcin
La TCT permite cuantificar solamente dos componen- que describe cmo cambian los valores del ETE de las
tes de la varianza de las puntuaciones observadas: la personas en los distintos niveles de la variable es espe-
varianza verdadera y la varianza de error. La TG, con- cialmente til para determinar los rangos en los que un
cebida como una extensin de la TCT, trata de especifi- test es ms fiable y para determinar la fiabilidad de los
car la contribucin a la varianza observada de un puntos de corte empleados en la clasificacin de perso-
nmero mayor de facetas: la variabilidad entre las per- nas en categoras diagnsticas o de rendimiento.
sonas, las ocasiones en que se mide, las diferentes for- Puesto que el ETE permite cuantificar un intervalo para
mas del instrumento, los diferentes calificadores y las estimar el parmetro de una persona, ser mayor la incer-
interacciones entre los componentes. La estimacin de tidumbre sobre su localizacin cuanto mayor sea el inter-
estas influencias se lleva a cabo mediante el anlisis de valo. Si se adopta la perspectiva opuesta, es decir, de
varianza. Los componentes distintos a las diferencias cunta certidumbre se dispone sobre la localizacin de la
entre personas (formas del test, calificadores, ocasio- persona, entonces se cuantifica la denominada funcin de
nes, etc) se interpretan como fuentes del error de las informacin que es anloga al recproco de la varianza
medidas, sirviendo como evidencia de las posibles cau- de error condicional de la TCT. La funcin de informacin
sas del error y permitiendo mejorar los procedimientos del test indica en qu medida ste permite diferenciar en-
de medicin. Este modelo es especialmente til para tre las personas en los distintos niveles del atributo. Vase
evaluar la fiabilidad de las calificaciones otorgadas una exposicin ms detallada en de Ayala (2009).
por evaluadores a los productos obtenidos en pruebas Terminaremos este apartado con algunas consideracio-
o exmenes abiertos (los examinados no estn constre- nes prcticas acerca de la interpretacin y el uso de los
idos por un formato cerrado, tal como los de las prue- estadsticos de fiabilidad, comenzando por responder a
bas de eleccin mltiple, para emitir sus respuestas). una de las preguntas ms frecuentes de los usuarios de
Un tratamiento ms exhaustivo puede encontrarse en las pruebas: qu grado de fiabilidad deben tener las
los textos de Brennan (2001) y en este volumen (Mart- puntuaciones para que su uso sea aceptable? Sin duda,
nez-Arias, 2010). la magnitud requerida depende de las consecuencias de-
La TRI es un conjunto de modelos de medida dirigidos rivadas del uso de las puntuaciones. Cuando las puntua-
a estimar estadsticamente los parmetros de las perso- ciones vayan a emplearse para tomar decisiones que
nas y los tems en un continuo latente a partir de las res- impliquen consecuencias relevantes para las personas
puestas observables. En todos los procedimientos de (p. ej., aceptacin o rechazo en una seleccin de perso-
estimacin estadstica de parmetros, se cuantifica la nal), el coeficiente de fiabilidad debera ser muy alto (al
cantidad de error de la estimacin a partir del error tpi- menos de 0,90). Sin embargo, si se trata de describir las
co (un ndice de la variabilidad de los estimadores del diferencias individuales a nivel de grupo, bastara con
parmetro). Cuanto mayor sea el error tpico, menor se- alcanzar valores ms modestos (al menos 0,70). No obs-
r la precisin de la estimacin y mayor ser la incerti- tante, estas convenciones deben seguirse con cautela: si
dumbre sobre el valor del parmetro. De forma similar, la evaluacin de la fiabilidad se ha llevado a cabo me-
en los modelos de la TRI la incertidumbre sobre la locali- diante los procedimientos derivados de la TCT, los resul-
zacin de una persona o un tem en la variable latente tados no habrn de ser necesariamente intercambiables,
se cuantifica a partir del error tpico de estimacin (ETE) puesto que los diferentes diseos de recogida de datos
de la persona o del tem. Este estadstico se diferencia antes mencionados (test-retest, formas paralelas, consis-
del error tpico de medida de las personas correspon- tencia interna, etc) aprecian distintas fuentes de error:
diente a la TCT. Como ya se ha expuesto, el ETM es una inestabilidad de las medidas, falta de equivalencia de
medida global del error, un nico valor aplicable de for- las pruebas, heterogeneidad de los tems, escasez de
ma general a todas las puntuaciones de las personas de concordancia de los evaluadores, etc. Por tanto, es acon-
una poblacin, que suele subestimar o sobrestimar el sejable disponer de estimaciones de la fiabilidad a partir

69
Seccin Monogrfica FIABILIDAD Y VALIDEZ

de distintos diseos para lograr una mejor comprensin verdaderas, aunque se estimen de manera muy precisa, no
del error que afecta a las puntuaciones (Prieto y Muiz, resultan apropiadas para conseguir el objetivo de la medi-
2000). Adems, los estadsticos de fiabilidad varan en- da (representar un constructo, predecir un criterio de inte-
tre poblaciones y estn afectados por otras condiciones rs, etc). Es til tener presente que la fiabilidad es una
como la longitud de la prueba y la variabilidad de las cuestin relativa a la calidad de los datos, mientras que la
muestras de personas. En consecuencia, se ha de evitar validez se refiere a la calidad de la inferencia (Zumbo,
el error de considerar que la estimacin de la fiabilidad 2007).
procedente de un nico estudio refleja la verdadera y
nica fiabilidad de la prueba. Los constructores y los VALIDEZ
usuarios de las pruebas deben informar detalladamente El concepto de validez ha experimentado transformacio-
de los mtodos de cuantificacin, de las caractersticas nes importantes durante el ltimo siglo, provocadas por
de las muestras y de las condiciones en las que se han los diversos objetivos a los que se han destinado los
obtenido los datos (AERA, APA y NCME, 1999). Como tests. De acuerdo con Kane (2006), entre 1920 y 1950
hemos indicado anteriormente, el error tpico de medida el uso principal de las pruebas consisti en predecir al-
est expresado en las mismas unidades que las puntua- guna variable de inters denominada criterio (por ejem-
ciones de la prueba. Por ello, es difcil establecer compa- plo, el rendimiento laboral o acadmico). En la
raciones entre la fiabilidad de las puntuaciones de actualidad este enfoque sigue siendo de suma importan-
distintos tests en base a este estadstico. Por el contrario, cia cuando se emplean las pruebas para seleccionar a
la magnitud del coeficiente de fiabilidad oscila siempre los candidatos ms aptos para un empleo, en los pro-
entre unos lmites estandarizados (0 y 1), por lo que es gramas de admisin, en la adscripcin de pacientes a
muy til para elegir el test ms fiable entre los potencial- tratamientos, etc. En estos casos, la evaluacin de la utili-
mente utilizables para una aplicacin especfica. Sin em- dad de la prueba suele cuantificarse mediante la correla-
bargo, el error tpico de medida aporta ms informacin cin entre sus puntuaciones y las de alguna medida del
para describir la precisin de las puntuaciones. criterio (coeficiente de validez). Sin embargo, el xito de
En ocasiones, se utilizan las puntuaciones de los tests, este tipo de justificacin depende de la calidad de la me-
no simplemente para estimar la posicin de una persona dida del criterio, especialmente de su representatividad
en la poblacin de inters (denominada interpretacin (por ejemplo, los indicadores para medir el criterio son
relativa), sino para asignarla a una categora diagnsti- suficientes y representativos del puesto de trabajo a de-
ca o de rendimiento (patolgica/normal, apto/no apto, sempear?). De ah que el nfasis se desplazase a la jus-
aceptado/excluido, etc). Para realizar este tipo absoluto tificacin de que la puntuacin en el criterio proceda de
de interpretaciones, se suelen emplear puntos de corte una muestra de indicadores que representase de forma
que guan la clasificacin. Puesto que la fiabilidad de las apropiada el dominio o contenido a medir (la totalidad
puntuaciones no suele ser la misma en todos los niveles de los indicadores posibles). Por tanto, esta fase inicial
de la variable, conviene conocer el grado de error en las de desarrollo del concepto termin con la propuesta de
cercanas del punto de corte, dado que si es alto ser dos vas regias para establecer la validez de las prue-
elevado el nmero de falsos positivos y negativos en la bas: la validacin de criterio (la correlacin entre las
clasificacin. En este caso, es aconsejable emplear la puntuaciones del test y las puntuaciones en el criterio) y
funcin de error de estimacin o de informacin deriva- la validacin de contenido (la justificacin de que los
da de los modelos de la TRI. tems para medir el criterio son una muestra representati-
Terminaremos este apartado analizando la relacin entre va del contenido a evaluar).
la fiabilidad y la validez de las puntuaciones, la propiedad La validacin de contenido se extendi desde el anli-
que se describe en el siguiente apartado. En la actualidad sis del criterio al de la validez de los tests predictores:
se considera que la validez, definida como el grado en que una prueba no puede considerarse vlida si los tems
las interpretaciones y los usos que se hacen de las puntua- que la componen no muestrean adecuadamente el con-
ciones estn justificados cientficamente, es la propiedad tenido a evaluar. La validacin de contenido es un en-
psicomtrica ms importante. Obviamente, la utilidad de foque especialmente frtil cuando las facetas del
unas puntuaciones escasamente fiables para tales fines es- dominio a medir pueden identificarse y definirse clara-
tar seriamente comprometida. De ah que se considere la mente. Es ste el caso de los tests dirigidos a evaluar el
fiabilidad como condicin necesaria de la validez. Sin em- rendimiento acadmico que puede especificarse en fun-
bargo, no ser una condicin suficiente si las puntuaciones cin de los objetivos de la instruccin (conceptos y ha-

70
GERARDO PRIETO Y ANA R. DELGADO Seccin Monogrfica

bilidades que un alumno ha de poseer). La metodolo- necesarias para justificar una adecuada representacin
ga de validacin descansa fundamentalmente en la del constructo, Messick incluy en el marco de valida-
evaluacin de expertos acerca de la pertinencia y la cin la justificacin de las consecuencias del uso de los
suficiencia de los tems, as como de la adecuacin de tests (las implicaciones individuales y sociales). Como
otras caractersticas de la prueba como las instruccio- se comentar ms adelante, la inclusin de la denomi-
nes, el tiempo de ejecucin, etc. Sin embargo, especifi- nada validacin de las consecuencias es an objeto de
car con precisin el contenido de las manifestaciones debate. Este breve resumen de la historia del concepto
de constructos como la extraversin, la memoria de tra- de validez, de la que hemos mencionado algunos hitos
bajo o la motivacin de logro es una tarea ms difcil. importantes, permite comprender los conceptos actua-
De ah que tanto la validacin de contenido como la de les de validez y validacin, de los que destacaremos a
criterio se considerasen insuficientes para justificar el continuacin sus principales caractersticas.
uso de pruebas dirigidas a evaluar aptitudes cognitivas En la actualidad se considera que la validez se refiere
o atributos de la personalidad. Esta insatisfaccin se al grado en que la evidencia emprica y la teora apo-
concret en el influyente artculo de Cronbach y Meehl yan la interpretacin de las puntuaciones de los tests re-
(1955) en el que se propone la validacin de construc- lacionada con un uso especfico (AERA, APA y NCME,
to como el modo principal de validacin. Cronbach 1999). La validacin es un proceso de acumulacin de
(1971) puntualiz que en un test para medir un rasgo pruebas para apoyar la interpretacin y el uso de las
de personalidad no hay nicamente un criterio relevan- puntuaciones. Por tanto, el objeto de la validacin no es
te que predecir, ni un contenido que muestrear. Se dis- el test, sino la interpretacin de sus puntuaciones en rela-
pone, por el contrario, de una teora acerca del rasgo cin con un objetivo o uso concreto. El proceso de vali-
y de sus relaciones con otros constructos y variables. Si dacin se concibe como un argumento que parte de
se hipotetiza que la puntuacin del test es una manifes- una definicin explcita de las interpretaciones que se
tacin vlida del atributo, se puede contrastar la asun- proponen, de su fundamentacin terica, de las predic-
cin analizando sus relaciones con otras variables. En ciones derivadas y de los datos que justificaran cientfi-
consecuencia, la validacin de constructo puede conce- camente su pertinencia. Dado que las predicciones
birse como un caso particular de la contrastacin de suelen ser mltiples, una nica prueba no puede susten-
las teoras cientficas mediante el mtodo hipottico-de- tar un juicio favorable sobre la validez de las interpreta-
ductivo. Aunque el usuario no sea, en general, cons- ciones propuestas. Son necesarias pruebas mltiples y
ciente de ello, las tcnicas de medida implican teoras convergentes obtenidas en diferentes estudios. Por ello,
(que se suponen suficientemente corroboradas en el se considera que la validacin es un proceso dinmico y
momento de usarlas para contrastar hiptesis cientfi- abierto. Obviamente, los usos y las interpretaciones rela-
cas o prcticas), por lo que deben venir avaladas ellas cionadas pueden ser muy variados. Por ello, las fuentes
mismas por teoras cuyo grado de sofisticacin depen- de validacin son mltiples y su importancia vara en
der del momento en que se encuentre el programa de funcin de los objetivos. Los Standards for educational
investigacin en el que han surgido (Delgado y Prieto, and psychological testing (AERA, APA y NCME, 1999)
1997). Dado que una teora postula una red de rela- se refieren a las ms importantes: el contenido del test,
ciones entre constructos y atributos observables, no po- los procesos de respuesta, la estructura interna de la
dremos asumir que las puntuaciones son vlidas si la prueba, las relaciones con otras variables y las conse-
teora es formalmente incorrecta, las predicciones deri- cuencias derivadas del uso para el que se proponen.
vadas de la teora no se cumplen en los datos empri- Antes de resumir estos enfoques metodolgicos, hemos
cos o se han violados otros supuestos auxiliares. As, de puntualizar que reflejan distintas facetas de la validez
desde finales del siglo pasado se ha impuesto la con- que las engloba como un nico concepto integrador. Por
cepcin de que la validacin de constructo constituye tanto, no es riguroso utilizar trminos, como validez pre-
un marco integral para obtener pruebas de la validez, dictiva, validez de contenido, factorial, etc, que induci-
incluyendo las procedentes de la validacin de criterio ran a considerar distintos tipos de validez.
y de contenido (Messick, 1989). El marco de validacin
se define a partir de teoras en las que se especifican el Validacin del contenido del test
significado del constructo a evaluar, sus relaciones con Los tests estn compuestos por un conjunto de tems des-
otros constructos, sus manifestaciones y sus potenciales tinados a obtener una puntuacin que represente el ni-
aplicaciones e interpretaciones. Adems de las pruebas vel de una persona en un constructo (extraversin,

71
Seccin Monogrfica FIABILIDAD Y VALIDEZ

competencia en matemticas, etc). Difcilmente se podr Anlisis de la estructura interna del test
justificar la calidad de las medidas si los tems no repre- Algunos tests proporcionan una medida de un solo cons-
sentan de forma suficiente las diferentes facetas de las tructo, otros evalan varios constructos incluyendo una su-
manifestaciones del constructo. Si eso sucede, el cons- bescala para cada uno de ellos. El anlisis de la estructura
tructo estar infrarrepresentado y, en consecuencia, las interna persigue verificar empricamente si los tems se
puntuaciones no alcanzarn el grado de validez reque- ajustan a la dimensionalidad prevista por el constructor de
rido. Asimismo, la evidencia de que las respuestas a los la prueba. Cuando un test construido inicialmente para
tems estn influidas por variables ajenas al constructo evaluar a las personas de una poblacin especfica se pre-
de inters constituye una de las principales amenazas a tende adaptar a una poblacin diferente (de otra cultura,
la validez produciendo la denominada varianza irrele- por ejemplo), es obligado analizar si la estructura interna
vante al constructo. Tambin son objeto de la validez de de la prueba se mantiene invariante. En caso contrario, el
contenido las instrucciones, los ejemplos de prctica, el significado de las puntuaciones diferir entre ambas pobla-
material de la prueba, el tiempo de ejecucin, etc. La ciones. El anlisis de la estructura interna del test suele lle-
consulta a expertos es la va ms usual para apreciar la varse a cabo con ayuda de los modelos de anlisis
calidad del contenido, especialmente en mbitos educa- factorial que se describen en detalle en el artculo de Fe-
tivos, aunque cada vez son ms empleados los mtodos rrando y Anguiano (2010) de este monogrfico.
cualitativos basados en la observacin directa, las en- Entre los mtodos para evaluar la unidimensionalidad
trevistas o el anlisis de archivos. Los procedimientos es- de la prueba, ocupa un lugar importante el anlisis del
tandarizados de consulta facilitan la obtencin de datos funcionamiento diferencial de los tems (DIF). Se podr
cuantitativos indicativos del porcentaje de tems de cali- aseverar que un test tiene una validez similar en grupos
dad, el porcentaje de las facetas del dominio suficiente- de distinto sexo, cultura, lengua materna, etc., si sus
mente evaluadas, el porcentaje de jueces que han tems no presentan DIF, como puede leerse en el artculo
valorado positivamente la calidad de los materiales, la de Gmez-Benito, Hidalgo y Guilera (2010).
concordancia entre los expertos, etc. Un tratamiento
exhaustivo de la validacin del contenido puede encon- Asociacin de las puntuaciones con otras variables
trarse en Sireci (1998). Las relaciones de las puntuaciones del test con otras va-
riables externas a la prueba constituyen una importante
Anlisis de los procesos de respuesta fuente de validacin. Cuando se emplean las puntuaciones
Debido a la influencia de la ciencia cognitiva, la valida- para seleccionar los candidatos ms aptos para un em-
cin de los tests de inteligencia, aptitudes y rendimiento pleo, en los programas de admisin, en la adscripcin de
debe incluir el anlisis de los procesos, las estrategias de pacientes a tratamientos, etc, la justificacin se basa en su
resolucin de problemas y las representaciones mentales utilidad para predecir un criterio externo. El criterio es una
que emplean los participantes para resolver los tems. Se medida de la variable de inters: rendimiento laboral,
obtendr evidencia de validez cuando los procesos utili- presencia o ausencia de un trastorno neuropsicolgico,
zados se ajustan a los que se postulan en las teoras re- calificaciones acadmicas, etc. La utilidad de la prueba se
lativas al constructo medido. La metodologa de estudio suele cuantificar mediante la correlacin entre sus puntua-
es muy diversa: entrevistas a los examinados para que ciones y las de alguna medida del criterio (coeficiente de
describan cmo resuelven las tareas, anlisis de los mo- validez), o mediante otros procedimientos: diferencia en
vimientos oculares o tiempos de respuesta, etc. Cuando las puntuaciones entre grupos de distinto nivel en el crite-
las teoras acerca del constructo han superado las etapas rio, grado de acuerdo en las clasificaciones en categoras
meramente exploratorias, se pueden construir los tests a diagnsticas realizadas mediante el test y expertos, etc. La
partir de un diseo cognitivo que especifica ciertos sub- eleccin de un criterio fiable y vlido (suficiente, objetivo y
conjuntos de tems para suscitar determinados procesos representativo de la conducta de inters) es el punto crtico
latentes. Las respuestas a los tems permiten estimar, me- que determina la bondad del proceso de validacin. En
diante modelos complejos de la TRI, los parmetros de la funcin del momento temporal en el que se evala el crite-
persona en los distintos componentes cognitivos de la ta- rio, se distinguen distintos tipos de recogida de datos: re-
rea e identificar clases de personas que emplean distin- trospectiva (el criterio se ha obtenido antes de administrar
tas estrategias de procesamiento. En este enfoque se el test, por ejemplo en base a un diagnstico clnico ante-
basan las tendencias ms avanzadas del diagnstico rior), concurrente (las puntuaciones del test y del criterio se
cognitivo (Yang y Embretson, 2007). obtienen en la misma sesin) y predictiva (el criterio se mi-

72
GERARDO PRIETO Y ANA R. DELGADO Seccin Monogrfica

de en un momento posterior). Los resultados entre estos rcter personal y social. Citemos como ejemplo de los pri-
procedimientos pueden diferir: se preferir el ms adecua- meros el efecto en la validez de las puntuaciones del entre-
do al uso que se pretende (por ejemplo, el enfoque predic- namiento y aprendizaje de los tests que suelen seguir
tivo es ms apropiado al pronstico de un rendimiento muchas de las personas que se presentan a programas de
laboral futuro). De suma importancia es analizar si la utili- seleccin. Hasta qu punto son sensibles las pruebas a
dad predictiva o diagnstica se mantiene invariante en este tipo de manipulacin? Existen otros efectos de carcter
distintos grupos de personas. La cuestin de la variabili- institucional tales como la peculiaridad del uso de los tests
dad de los resultados en distintos grupos, distintos estu- en un contexto social. Pinsese en el fraude social relacio-
dios, diferentes medidas del criterio, etc. afecta a la nado con el uso de las pruebas psicotcnicas que se emple-
generalizacin de la validez de la prueba. El meta-anlisis an en nuestro pas para otorgar el permiso de armas o el
(vase el artculo de Snchez-Meca y Botella, 2010) per- de conducir. Si pensamos en las consecuencias, podra-
mite indagar cmo varan las correlaciones entre el test y mos decir que ejercen su funcin? Est claro que si la vali-
el criterio en funcin de distintas facetas de los estudios. dez se refiere al grado en que la teora y la evidencia
Cuando las puntuaciones de los tests se usan para esti- emprica apoyan la interpretacin de las puntuaciones de
mar el nivel de las personas en un constructo, sus corre- los tests en relacin con un uso especfico, las consecuen-
laciones con las de otros tests que miden el mismo u cias no pueden ser ajenas al proceso de validacin.
otros constructos son de una relevancia especial. Se es- Aunque parece existir un cierto consenso sobre esta
pera que la asociacin entre pruebas que midan el mis- cuestin, tambin existen voces discordantes. Por ejem-
mo constructo, sean mayores (validacin convergente) plo, Borsboom y Mellenberg (2007) consideran que el
que entre tests que miden constructos diferentes (valida- concepto de validez debe limitarse a un mbito ms res-
cin discriminante). Para obtener evidencia emprica, se tringido que el de la amplia definicin incluida en las
emplean tcnicas como el anlisis factorial o la matriz propuestas de Messick (1989) y en los actuales
multirrasgo-multimtodo (Campbell y Fiske, 1959) en la Standards. A su juicio, la validacin debe limitarse a
que se resumen las correlaciones de un test con marca- contrastar si existe una relacin causal entre el constructo
dores (tests de validez comprobada) que miden varios y las puntuaciones del test; las interpretaciones de las
constructos a travs de distintos mtodos. puntuaciones en contextos aplicados (seleccin de perso-
nal, acreditacin, etc) y el impacto social del uso de las
Validacin de las consecuencias del uso de los tests pruebas seran ajenas, stricto sensu, al mbito de la vali-
La ltima versin de los Standards for educational and psy- dez. Si bien esta postura simplificadora parece libre de
cological testing (AERA, APA y NCME, 1999) plantea la problemas, definir la validez de constructo como la vali-
previsin de las posibles consecuencias del uso de los tests dez de la inferencia causal implica identificarla con la va-
como parte del proceso de validacin. Desde esta pers- lidez interna de la evidencia a favor del constructo (para
pectiva, el anlisis y justificacin de las consecuencias ocu- una versin actualizada de los distintos tipos de validez
pan un lugar preponderante cuando los tests vayan a en los diseos experimentales vase Shadish, Cook y
emplearse para tomar decisiones crticas para personas e Campbell, 2002). Esta identificacin podra, tal vez, jus-
instituciones: seleccin, contratacin, graduacin, promo- tificarse en programas de investigacin bsica ya avan-
cin profesional, evaluacin de programas, etc. La literatu- zados, pero imposibilitara en la prctica la mayor parte
ra psicomtrica denomina estos usos como de alto riesgo. de las aplicaciones psicolgicas, y esto sin tener en cuen-
Estas prcticas no son ajenas al contexto espaol: seleccin ta los conocidos problemas del concepto de causacin.
de los candidatos a piloto, al ejrcito profesional y los cuer- De ah que el pragmatismo nos lleve a preferir una postu-
pos de seguridad, oposiciones para ingresar en diversas ra ms flexible, la que considera que los procedimientos
instituciones y empresas, exmenes universitarios, pruebas de validacin han de servir para apoyar la inferencia a
de selectividad, evaluacin del profesorado universitario, la mejor explicacin posible, incluyendo la evidencia
evaluacin del grado de dependencia, obtencin del per- aportada por los diversos mtodos cualitativos y cuantita-
miso de armas y del carnet de conducir, etc. En estos ca- tivos a disposicin de los psicmetras en cada momento
sos, la pertinencia del uso no se limita a la comprobacin (Zumbo, 2007). Si se considera que la validacin es un
de que las puntuaciones representan adecuadamente los proceso abierto en el tiempo, la validez es necesariamen-
constructos y a la justificacin terica de la red nomolgica te una cuestin de grado, como sealan los Standards,
que vincula los constructos con los criterios de inters. Las algo que, por otra parte, es comn a los distintos concep-
aplicaciones de alto riesgo tienen efectos colaterales de ca- tos de validez empleados por los epistemlogos.

73
Seccin Monogrfica FIABILIDAD Y VALIDEZ

El debate sobre la inclusin de las consecuencias en el El sesgo de los instrumentos de medicin. Tests justos.
concepto de validez no es un tecnicismo que preocupe Papeles del Psiclogo, 31(1), 75-84.
solo a los sesudos tericos de la psicometra. Tomar par- Gulliksen, H. (1950). Theory of mental tests. New York,
tido por la inclusin conlleva responsabilidades: pueden Wiley.
y deben los constructores de las pruebas aventurar las Haertel, E. H. (2006). Reliability. En R.L. Brennan (Ed.),
consecuencias deseables e indeseables de su uso? qu Educational Measurement (pp. 65-110). Wesport, CT:
repertorio metodolgico usar para ello? en qu instan- American Council on Education and Praeger Publishers.
cia recae el anlisis y la justificacin de las consecuen- Kane, M.T. (2006). Validation. En R.L. Brennan (Ed.), Edu-
cias? Estas y otras cuestiones relacionadas seguirn cational Measurement (pp. 17-64). Wesport, CT: Ameri-
alimentando el debate y la generacin de propuestas: can Council on Education and Praeger Publishers.
una excelente revisin sobre la validacin de las conse- Martnez-Arias, M.R. (2010), Evaluacin del desempe-
cuencias puede consultarse en Padilla, Gmez, Hidalgo o. Papeles del Psiclogo, 31(1), 85-96.
y Muiz (2007). Martinez-Arias, M.R., Hernndez-Lloreda, M.J. y Her-
Para terminar, un comentario terminolgico: acorde nndez-Lloreda, M.V. (2006). Psicometra. Madrid:
con la trayectoria del uso de los tests en contextos anglo- Alianza Editorial.
sajones, validation tiene en ingls un significado legal: Messick, S. (1989). Validity. En R.L. Linn (Ed.), Educatio-
declarar legalmente vlido. Por el contrario, en nuestra nal measurement (pp- 13-103). New York: American
lengua, el trmino validacin tiene dos significados: ac- Council on Education.
cin y efecto de validar, que comparte con el idioma in- Muiz, J. (1998). Teora Clsica de los Tests. Madrid: Pi-
gls, y firmeza, fuerza, seguridad o subsistencia de rmide.
algn acto. Aunque solemos referirnos a la primera Muiz, J. (2010). Las teoras de los tests: Teora Clsica
acepcin, la ms asptica, es la segunda la que ms se y Teora de Respuesta a los tems. Papeles del Psiclo-
acerca al objetivo que persigue la investigacin psicol- go, 31(1), 57-66.
gica en su variante psicomtrica. Padilla, J.L., Gmez, J., Hidalgo, M.D. y Muiz, J.
(2007). Esquema conceptual y procedimientos para
REFERENCIAS analizar la validez de las consecuencias del uso de los
American Educational Research Association, American tests. Psicothema, 19, 173-178.
Psychological Association y National Council on Mea- Prieto, G. y Muiz, J. (2000). Un modelo para evaluar la
surement in Education. (1999). Standards for educa- calidad de los tests utilizados en Espaa. Papeles del
tional and psychological testing. Washington, DC: Psiclogo, 77, 65-71.
American Educational Research Association. Snchez-Meca, J. y Botella, J. (2010). Revisiones siste-
Borsboom, D. y Mellenberg, G.J. (2007). Test Validity in mticas y meta-anlisis: herramientas para la prctica
Cognitive Assessment. En J.P. Leighton y M.J. Gierl profesional. Papeles del Psiclogo, 31(1), 7-17.
(Eds.), Cognitive Diagnostic Assessment for Education Shadish, W.R., Cook, T.D., y Campbell, D.T. (2002). Ex-
(pp. 85-115). Cambridge: Cambridge University Press. perimental and Quasi-Experimental Designs for Gene-
Brennan, R.L. (2001). Generalizability theory . New ralized Causal Inference. Boston: Houghton-Mifflin.
York: Springer-Verlag. Sireci, S.G. (1998). The construct of content validity. En
de Ayala, R.J. (2009). The Theory and Practice of Item Zumbo, B.D. (Ed.), Validity Theory and the Methods
Response Theory. New York: The Guilford Press. Used in Validation: Perspectives From the Social and
Campbell, D.T. y Fiske, D.W. (1959). Convergent and Behavioral Sciences (pp. 83-117). Kluwer Academic
discriminant validation by the multitrait-multimethod Press, The Netherlands.
matrix. Psychological Bulletin, 56, 81-105. Yang, X. y Embretson, S.E. (2007). Construct Validity
Cronbach, L. J. (1971). Test validation. En R.L. Thorndike and Cognitive Diagnostic Assessment. En J.P. Leighton
(Ed.), Educational measurement (pp. 443-507). Was- y M.J. Gierl (Eds.), Cognitive Diagnostic Assessment
hington, DC: American Council on Education. for Education (pp. 119-145). Cambridge: Cambridge
Cronbach, L.J. y Meehl, P.E. (1955). Construct validity in University Press.
psychological tests. Psychological Bulletin, 52, 281-302. Zumbo, B.D. (2007). Validity: Foundational Issues and
Delgado, A.R. y Prieto, G. (1997). Introduccin a los mto- Statistical Methodology. In C.R. Rao and S. Sinharay
dos de investigacin de la psicologa. Madrid: Pirmide. (Eds.) Handbook of Statistics, Vol. 26: Psychometrics,
Gmez-Benito, J., Hidalgo, M.D. y Guilera, G. (2010). (pp. 45-79). Elsevier Science B.V.: The Netherlands.

74

Vous aimerez peut-être aussi