Académique Documents
Professionnel Documents
Culture Documents
Validez:
Conceptosbsicos
a validez de los instrumentos de medicin tiene que ver con lo que miden y con
qu tan bien lo hacen; nos indican qu se puede inferir a partir de sus resultados.
A este respecto, debe tenerse el cuidado de no aceptar el nombre de la prueba o
el test como indicador de lo que mide, pues aunque son ttulos cortos, conve
mentes para propsitos de identificacin, casi todos son demasiado generales y vagos
rara indicar el rea de conducta que cubren; no obstante, cada vez son mayores los es
uerzos por utilizar nombres ms especficos y que puedan definirse de manera empri
ca. El rasgo medido por determinadaprueba slo puede definirse mediante el examen
de las fuentes objetivas de informacin y las operaciones empricas utilizadas para es
tablecer su validez. Ms an, la validez no puede expresarse en trminos generales, no
es posible decir en abstracto que es "alta" o "baja", sino que hay que referirse al uso
particular para el que se planea utilizar el instrumento.
En principio, todos los procedimientosutilizados para determinar la validez se inte
resan en las relaciones entre la ejecucin en las pruebas y otros factoresobservados in
dependientemente de las caractersticas de la conducta considerada. Para investigar
estas relaciones se han empleado distintos mtodos, cuyos nombres tradicionalmente
e han concentrado en aspectos de la validez que son importantes para distintos usos
Je la prueba. En la medida en que se han desarrollado y expandido las aplicaciones de
los instrumentos, tambin se han modificado los conceptos de validez (Anastasi,
l 986a; Messick, 1988, 1989).
114
PROCEDIMIENTOS
DE LA DESCRIPCIN
DEL CONTENIDO
Naturaleza.
Los procedimientos de validacin por la descripcin del contenido
comprenden principalmente el examen sistemtico del contenido de la prueba para
115
determinar si cubre una muestra representativa del rea de conducta que debe medir
,e, Esca forma de validacin se utiliza sobre todo en los instrumentos diseados para
medir qu tan bien ha dominado el individuo una habilidad o un curso de estudio.
Puede parecer que basta con la simple inspeccin del contenido de la prueba para
establecer su validez para dicho propsito; por ejemplo, una prueba de multiplicacin,
onografa o contabilidad parecera vlida por definicin si est constituida por reacti
vos de multiplicacin, ortografao contabilidad. Pero la solucin no es tan sencilla. Un
problema es el muestreo adecuado del universo de reactivos. El rea de conducta por
examinar debe analizarse sistemticamente para garantizar que los reactivos cubran to
dos los aspectos importantes y en la proporcin correcta. Es fcil cargar en exceso las
pruebas con los aspectos del campo que ms se prestan para la preparacin de reactivos
objetivos. Por ello, resulta conveniente describir de antemano toda el rea considerada
en lugar de hacerlo despus de que la prueba est lista; por ejemplo, un examen educa
tivo bien formulado debe cubrir los objetivos de la instruccin y no slo su temario. En
consecuencia, hay que definir el contenido de manera ampliapara que, adems delco
nocimiento real, incluya objetivos importantes como la aplicacin de principios y la
interpretacin de datos. Ms an, la validez depende ms de la relevancia que las res
puestas del individuo tengan para el rea conducrual considerada que la importancia
aparente del contenidodel reactivo. La simple inspeccin de la prueba no siempre bas
ta para revelar los procesos empleados por los examinados al presentarla.
En relacin con el rea muestreada por la prueba, es importante prevenir cualquier
tendencia a la sobregeneralizacn: por ejemplo, una prueba de ortografa compuesta
por reactivos de opcin mltiple puede medir la habilidad para reconocer las palabras
escritas correcta e incorrectamente, pero no puede suponerse que tambin mida la ha
bilidad para tomar un dictado, la frecuencia de los errores ortogrficos en un trabajo
de redaccin y otros aspectos de la habilidad ortogrfica (Ahlstrorn, 1964; Knoell y
Harris, 1952). Otro problema procede de la posible inclusin de factores irrelevantes
en los resultados; as, la habilidad para comprender instrucciones verbales o la rapidez
para ejecutar tareas rutinarias sencillas pueden afectar indebidamente una prueba di
seada para medir el aprovechamiento en matemticas o mecnica.
Procedimientos especficos. La validez de contenido se introduce desde el inicio
en la prueba mediante la eleccin de reactivos apropiados. Para las pruebas educacio
nales, la preparacin de los reactivos es precedida por una revisin cuidadosa y siste
mtica de textos y resmenes importantespara el curso y por la consulta con expertos
en la materia. Sobre la base de la informacin recabada se establecen las especificacio
nes de la prueba que deben seguir los redactores de los reactivos y en las que tienen que
precisar las reas o temas del contenido, los objetivos o procesos educativos que han
de probarse y la importancia relativa de temas y procesos individuales. Las especifica
ciones finales deben indicar el nmero de reactivos de cada clase que hay que preparar
para cada tema; por ejemplo, la evaluacin de la habilidad de lectura puede incluir la
comprensin del vocabulario en el contexto, la comprensin literal del contenido y
la extraccin de inferencias correctas de la informacin proporcionada. Tambin puede
muestrear material de diversas fuentes, como ensayos, poemas, artculos periodsticos o
instructivos para manejar equipo. Una prueba de matemticas puede cubrir habilidades
116
117
e. puesto. En esos casos, debe realizarse un anlisis exhaustivo del puesto para demos
zrar una similitud estrecha entre las actividades del puesto y la prueba. Schoenfeldt,
Schoenfeldt, Acker y Perlson (1976) ofrecen una clara y detallada explicacin de la
a;hcacin de esos procedimientos de validacin al desarrollo de una prueba de lectu
industrial. Trabajando junto a supervisores y empleados, los investigadores analiza
n el nivel de lectura requerido para ingresar a una compaa manufacturera en
crminos del tema y las habilidades de comprensin, y luego formularon reactivos que
... rrespondieran a dichos requisitos. Esca aproximacin suele emplearse al elaborar
ruebas para los empleados del gobierno estadounidense a nivel federal y estatal
Hardt, Eyde, Primoff y Tordy, 1981; Menne, McCarthy y Merme, 1976; Prirnoff y Ey
.le, 1988; Tordy, Eyde, Primoff y Hardt, 1976).
Por otro lado, en el caso de los tests de aptitud y de personalidad, la validacin de
contenido no slo suele ser inapropiada, sino incluso engaosa. Aunque es obvio que
en las etapas iniciales de la elaboracin de cualquier instrumento deben hacerse con
sideraciones sobre la relevancia y representatividad del contenido, la validacin final
de los tests de aptitud o personalidad debe verificarse empricamente mediante los
procedimientos que describiremos en las siguientes secciones. En comparacin con las
pruebas de aprovechamiento, estos tests tienen menor parecido intrnseco con el do
minio de conducta que pretenden muestrear. En consecuencia, su contenido hace ms
que revelar las hiptesis que llevaron a quien las realiz a elegir ciertos contenidos pa
ra medir un rasgo especfico. Las hiptesis tienen que ser confirmadas empricamente
para establecer la validez de los instrumentos.
A diferencia de las pruebas de aprovechamiento, los tests de aptitud y de persona
lidad no se basan en un curso especfico de educacin o en un conjunto uniforme de
experiencias de las cuales pueda extraerse el contenido del instrumento; por cense
cuencia, es probable que en estas pruebas se encuentren ms diferencias en los mto
dos de trabajo o en los procesos psicolgicos empleados por los individuos al responder
a los mismos reactivos. Ello supone que una misma prueba puede medir funciones di
ferentes en distintas personas, lo que hace prcticamente imposible determinar las
funciones psicolgicas medidas por la prueba a partir de la inspeccin de su conteni
do; por ejemplo, los estudiantes de posgrado pueden resolver un problema en trminos
verbales o matemticos, mientras que un mecnico llegar a la misma solucin en tr
minos de visualizacin espacial; o una prueba que en estudiantes de secundaria mide
el razonamiento aritmtico, cuando se aplica a universitarios puede medir apenas las
diferencias individuales en la velocidad de los clculos.
Validez de facie. La validez de contenido no debe confundirse con la validez de
facie (conocida tambin como validez aparente). Esta ltima no es validez en el senti
do tcnico, es decir, no se refiere a lo que la prueba verdaderamente mide, sino a lo
que parece medir. La validez de facie alude a si la prueba "parece vlida" a los exami
nados que la presentan, al personal administrativo que decide sobre su uso y a otros
observadores sin capacitacin tcnica. En esencia, la cuestin de la validez de facie
tiene que ver con el rapport y las relaciones pblicas. Aunque el uso comn del trmi
no "validez" a este respecto puede resultar confuso, la validez de facie es en s misma
un rasgo deseable de los instrumentos; as, cuando las pruebas originalmente disea
das para nios y formuladas dentro de las aulas empezaron a extender su uso a los adul
118
tos, fue comn que enfrentaran crticas y resistencia por carecer de validez de facie. Es
indudable que si el contenido de la prueba parece irrelevante, inapropiado, tonto o in
fantil, el resultado sea una pobre cooperacin, cualquiera que sea su verdadera validez.
En particular en la evaluacin de adultos, para que una prueba funcione no basta con
que sea objetivamente vlida, tambin debe parecerlo. La validez de facie tambin in
fluye en la aceptacin de la prueba en decisiones legislativas y judiciales, as corno en
el juicio que de ella haga el pblico en general.
En un innovador programa de investigacin sobre el punto de vista del examinado
(citado en el captulo 1}, Baruch Nevo y sus asociados incluyeron la investigacin de
la validez de facie (B. Nevo, 1985, 1992; B. Nevo y Sfez, 1985). Al principio les lla
m la atencin observar que, a pesar de su probable contribucin a las actitudes pre
valeciente hacia las pruebas, eran muy pocas las investigaciones sobre la validez de
facie. Propusieron luego una evaluacin cuantitativa de la validez aparente al hacer
que examinados y otros interesados sin conocimiento psicorntrico calificaran la con
veniencia de cierta prueba para determinado uso; los mismos procedimientospueden
emplearse para calificar reactivos de una sola prueba o una batera. A este respecto re
sultan ilustrativos los datos obtenidos al analizar las respuestas de 1 385 estudiantes is
raeles a un cuestionario de retroalimentacin de examinados aplicado despus de un
examen de admisin a la universidad compuesto por seis pruebas. Los resultados mos
traron un prometedor acuerdo entre calificadores, confiabilidad en el retest y diferen
ciacin entre pruebas y entre subgrupos de aspirantes que planeaban especializarse en
distintas reas. Se recomend que los manuales incluyeran regularmente datos cuali
tativos y cuantitativos sobre la validez de facie.
La validez de facie o aparente a menudo puede mejorarse mediante el simple recur
so de replantear los reactivos de modo que parezcan relevantes y plausibles en el me
dio particular en el que sern usados; por ejemplo, si se construye una prueba simple
de razonamiento aritmtico para aplicarla a maquinistas, los reactivos deben plantear
se en trminos de operaciones con las mquinas y no de "cuntas naranjas pueden
comprarse con X pesos" u otros problemas tradicionales de los textos escolares. De
igual modo, es posible elaborar una prueba de aritmtica para personal naval en la ter
minologa nutica sin alterar con ello las funciones medidas. Por supuesto, la validez
de facie no debe considerarse como sustituto de la validez determinada objetivamen
te. No puede suponerse que al mejorar la validez de facie de una prueba mejore su va
lidez objetiva, pero tampoco se puede presumir que cuando se modifica una prueba
para aurnentar su validez de facie su validez objetiva quede inalterada. La validez de la
prueba en su forma final siempre debe verificarse de manera directa.
PROCEDIMIENTOS
DE CRITERIO-PREDICCIN
119
120
121
las relaciones causales. En qu medida las diferencias en los resultados de los tests de
122
123
124
125
Las muestras industriales disponibles para la validacin de las pruebas suelen ser
demasiado pequeas para producir una estimacin estable de la correlacin entre pre
dicror y el criterio. Por la misma razn, los coeficientes obtenidos pueden ser demasia
do pequeos para alcanzar significacin estadstica en la muestra empleada, por lo que
no logran aportar evidencias sobre la validez del instrumento. Se ha estimado que al
rededor de la mitad de las muestras de validacin usadas en estudios industriales no
mcluye ms de 40 o 50 casos (Schmdt, Hunter y Urry, 1976). Con muestras tan pe
queas, tcnicamente no es posible aplicar la validacin de criterioprediccin.
Al aplicar sus tcnicas de reciente desarrollo a los datos de muchas muestras ex
tradas de un gran nmero de especialidades ocupacionales, Schmidt, Hunter y sus
colaboradores pudieron demostrar que la validez de las pruebas de aptitud verbal, nu
mrica y de razonamiento puede generalizarse entre ocupaciones mucho ms de lo
que se haba reconocido. La varianza de los coeficientes de validez que se encontra
ban en los primeros estudios industriales demostr no ser mayor a lo que se habra es
perado por azar, incluso cuando las funciones del puesto en particular parecan ser
muy distintas entre los puestos. Evidentemente, el desempeo exitoso de una amplia
variedad de tareas ocupacionales depende en un grado sustancial de un ncleo co
mn de habilidades cognoscitivas. Las pruebas incluidas en esos estudios cubran
principalmente la clase de contenido y habilidades muestreadas en las pruebas tradi
conales de inteligencia y de aptitud acadmica. Parecera que este grupo de conoci
mientos y habilidades cognoscitivas es un buen predictor del desempeo en las
actividades acadmicas y ocupacionales requeridas en las sociedades tecnolgica
mente avanzadas; no obstante, en general pueden tomarse decisiones de seleccin
ms precisas al considerar los resultados obtenidos en dos o tres grupos cognoscitivos
amplios, de preferencia complementados con las medidas de las habilidades tcnicas
especificas para trabajos particulares (Hartigan y Wigdor, 1989; L. L. Wise, McHenry
v Campbell, 1990; Zeidner y [ohnson, 1991).
Metaanaltsis.
Los procedimientos estadsticos empleados para investigar la gene
ralizacin de la validez permiten integrar los descubrimientos de diferentes estudios.
Estos procedimientos hacen posible combinar los datos de investigaciones realizadas
en momentos o en lugares diferentes, o de informaciones publicadas en distintos estu
dios. Tales procedimientos, inicialmente designados como metaanlisis, empezaron a
u arse en la investigacin psicolgica durante los setenta (Glass, 1976; Schmidt y
Hunter, 1977), aunque en otras ciencias han estado en uso durante varias dcadas
(Hartigan y Wigdor, 1989, captulo 6). En la psicologa, el metaanlisis ha recibido
cada vez mayor atencin como sustituto de la revisin tradicional de la bibliografa
(Lipsey y Wilson, 1993; Schrndt, 1992). Por lo comn, estas revisiones sealaban el
nmero de estudios que encontraron efectos estadsticamente significativos en, por
ejemplo, las diferencias entre las medias de los grupos experimental y de control o las
correlaciones entre los resultados de la prueba y otras variables. Con este procedi
miento, a menudo se perdan resultados prometedores porque las muestras empleadas
en los estudios eran demasiado pequeas para arrojar diferencias significativas.
Al combinar los descubrimientos publicados de varios estudios y sopesarlos hasta
donde fuera posible sobre la base de las caractersticas sustantivas y metodolgicas re
levantes de cada estudio, el metaanlisis puede revelar descubrimientos positivos sus
126
tanciales, Otra ventaja es que permite calcular los efecws del camaflo, la magnittl o la
medida.
Por razones tanto tericas como prcticas, la magnitud estimada de una dife
rencia o una correlacin es ms til que la simple demostracin de que es significati
vamente mayor que cero.
Las dcadas de los ochenta y los noventa han presenciado el rpido resurgimiento
de la investigacin metaanaltica casi en cualquier campo de la psicologa. Sus apli
caciones a la investigacin de la seleccin y clasificacin de personal son las que han
atrado la mayor atencin ( vase el captulo 17). El inters en el meraanlisis crece a
paso firme y de continuo se establecen procedimientos ms refinados. Aunque persiste
cierta controversia acerca de las tcnicas, los resultados principales no varan aprecia
blemente entre procedimientos. 2
PROCEDIMIENTOS
erarse en Hanigan y Wigdor ( 1989), Hedges ( 1988), Hunter y Schmidt ( 1990), L. R. James, Dcmaree, Mula,k
y Ladd (1992), L. V. Joncs y Appclbuum (1989), R. Rosenthal (1991), Schmidt (1992), Schmidt ti al. (1993))
Schrmdr, Ones y llunrcr (1992). Para una introduccin sencilla a los procedimientos esr.idsticos, vase F. M.
Wolf ( 1986). Para una visin ms amplia del uso del meta,anilisis en la investigacin conductual, vase Cook <t
al. (1992), Cooper y Hedges (1994), Hasselblad y Hedges (1995) y Wachter y Straf (1990).
127
128
muy bien con cualquier otra ya disponible, sin agregar ventajas como la brevedad o fa
cilidad de aplicacin, entonces el nuevo instrumento es una duplicacin innecesaria.
Otro uso de las correlaciones con otras pruebas consiste en demostrar que la nueva
est relativamente libre de la influencia de ciertos factores irrelevantes; por ejemplo,
un test de aptitud especial o uno de personalidad no deberan tener una correlacin
elevada con tests de inteligencia general o de aptitud acadmica. De modo similar, la
comprensin de lectura no debera afectar apreciablemente el desempeo en dichos
instrumentos. De acuerdo con ello, las correlaciones con los tests de inteligencia ge
neral, lectura o comprensin verbal en ocasiones se aportan como evidencia indirecta
o negativa de validez. En esos casos, las correlaciones elevadas pondran a la prueba
bajo sospecha, aunque, por otro lado, las correlaciones bajas no son garanta de vali
dez. Advierta que este uso de las correlaciones con otros instrumentos es similar al de
las tcnicas complementarias que vimos al estudiar los procedimientos de descripcin
de contenido.
Anlisis factorial. Desarrollado como un medio para identificar rasgos psicolgi
cos, el anlisis factorial es particularmenterelevante para los procedimientosde valida
cin de constructo. En esencia, se trata de una refinada tcnica estadstica para analizar
las interrelaciones de los datos conductuales; por ejemplo, si se aplican 20 pruebas a
300 personas, el primer paso consiste en calcular las correlaciones de cada instrumento
con el resto. Una inspeccin de la tabla de las 190 correlaciones resultantes puede re
velar ciertas agrupaciones entre las pruebas, lo que indica la localizacin de rasgos co
munes. As, si pruebas como las de vocabulario, analogas, opuestos y completamento
de oraciones muestran altas correlaciones entre s y correlaciones bajas con las otras
pruebas, podemos inferir tentativamente la presencia de un factor de comprensin
verbal. Como el anlisis mediante la inspeccin de una tabla de correlacin es difcil
e incierto, se han elaborado tcnicas estadsticas ms precisas para localizar los factores
comunes que se requieren para explicar las correlaciones obtenidas, y que estudiare
mos en el captulo 11 en relacin con su uso en la investigacin sobre la naturalezade
la inteligencia, de la que se originaron.
En el proceso del anlisis factorial, se reduce el nmero de variables o categoras en
cuyos trminos puede describirseel desempeo de cada individuo a un nmero relativa
mente pequeo de factores o rasgos comunes. En el ejemplo citado, cinco o seis factores
pueden ser suficientes para explicar las correlaciones entre las 20 pruebas. En lugar de
que cada individuo sea descrito en trminos de los 20 resultados originales, la descrip
cin se hace de acuerdo con los resultados que haya obtenido en cinco o seis factores.
Un propsito importante del anlisis factorial es simplificar la descripcin de la conduc
ta, reduciendo el nmero de categoras a unos cuantos factores o rasgoscomunes.
Una vez que los factores han sido identificados, sirven para describir la composicin
factorial de las pruebas. Cada instrumento puede entonces caracterizarse en funcin
de los factores principales que determinan sus calificaciones, junto con el peso o car
ga de cada uno y la correlacin de la prueba con cada factor, que suele expresarse como
la validez facrmial de la prueba. De esta manera, si el factor de comprensin verbal co
rrelaciona .66 con una prueba de vocabulario, la validez factorial de esca prueba de vo
cabulario como medida del rasgo de comprensin verbal es .66. Observe que la valide:
factorial es en esencia la correlacin de la prueba con lo que exista en comn en un
129
130
131
c-@dNMH+
Matriz hipottica multimtodo-multirrasgo
Mtodo 1
Mtodo 1
c.
Rasgos
A1
A1
(.89)
B1
.51
c.
.__.3
8
.3'7~< 76)
.s1
~~:izm:
A2
Bz
C2
:.it',. .
1
1
iu
',
Mtodo3
B,
,..,
1
......
C3
Ll t
C.93>
......
.1i', .46
' ......
83
A2
1
1
...
.56 ,,.22
A3
Mtodo 3
(.89)
r;
Mtodo 2
Mtodo 2
.......
......
.67,,.42
.lli
11
1
',.p:
'.J
.11',, . 45
,.,
1
......
.33
' .......
......
L:a
...
11
1
.....,
.ii~: .. ss
(.94)
~92)
~(.85)
Nora. Las letras A, B, C se refieren a los rasgos; los subndices 1, 2, 3 a los mtodos. Los coeficientes de validez
(un solo rasgo, mtodos diferentes) son los eresconjuntos de diagonales de nmeros en negritas; los coeficientes
de confiabilidad (mismo rasgo, mismo mtodo) son los nmerosentre parntesis sobre la diagonal principal. Los
tringuloscontinuos encierran las correlaciones entre rasgos mltiplesy un solo mtodo; los tringulos puntea
dos encierran las correlaciones entrerasgos y mtodos mltiples.
(Tomado de Campbell y Fske, 1959, pg. 82. Copyright 1959 por la American PsychologicalAssociation.Re
producidocon autorizacin).
lacin tambin puede revisarse para los reactivos individuales de la prueba. De mane
ra ideal, la mayora de los examinados debera fallar un reactivo en el pretest y apro
bario en el postest: los reactivos que se fallan en ambos son demasiado difCciles, y los
que se aciertan en los dos son demasiado sencillos para los propsitos del examen. Si
una proporcinconsiderablede examinadosacierta un reactivo en el pretest y lo falla
en el postest, obviamentehay algo mal en el reactivo, la educacin o en ambos.
Por ejemplo, podemos aplicar a un grupo de sujetos una prueba diseada para medir
la predisposicin a la ansiedad y someterlosluego a una situacin destinadaa ponerlos
ansiosos, como tener que presentar un examen en condiciones distractoras y estre
santes. Despus correlacionamos los resultados obtenidos en la prueba con ndices
fisiolgicos y con otras expresiones de ansiedad durante y despus del examen. O
bien, podemos evaluar una hiptesisdiferente sobre la prueba de ansiedad aplicndola
antes y despus de una experiencia que genere ansiedad para luego ver si las califica
ciones se elevan significativamenteen la segunda aplicacin de la prueba. En cal expe
132
133
1980). Entre las fuentes de error del procedimientoest el hecho de no tomar en consi
deracin, primero, las correlaciones entre las variablesiniciales y entre las variables sub
secuentes; segundo, la confiabilidad de las variables y su estabilidad en el tiempo, y
tercero, la posible contribucin de variables no medidas, coino la edad y la escolaridad
en el ejemplo citado. El modelamientode ecuaciones estructurales proporciona los me
dios para evitar estas dificultades, ya que utiliza ecuacionesde regresin para predecir las
variables dependientes a partir de las independientesen los diseos de series de tiempos
u otros modelos causales. El procedimiento utiliza correlaciones parciales para encon
trar los coeficientes de regresin, lo que le permite incorporar todas las correlaciones
entre las variables; asimismo, considera los errores de medicin y de muestreo e incluye
las previsiones para reconoceral menos la posibilidad de otras variablescausales no me
didas (Bentler, 1988; L. R. James et. al., 1982; Loehlin, 1992; Rogosa, 1979).
En el modelarniento de ecuaciones estructurales el primer paso consiste en disear
un modelo de las relacionescausales hipotticas que quieren probarse. Es importante
que el modelo se base en una profunda familiaridad con los conocimientosacerca de las
variables y la situacin investigadas, por lo que las relaciones hipoterzadasdeben resul
rar tericamenteracionales. La comprobacindel modelo se realiza al resolver un con
junto de ecuaciones"simultneas de regresin lineal. En el modelamiento causal suele
haber ms ecuaciones que incgnitas, lo que permite encontrar soluciones para varios
modelos alternativos. Cada modelo se compara con la matriz original de correlacin
emprica para supervisar la conveniencia del ajuste, y es posible encontrar un ajuste casi
igualmente bueno en varios modelos causales (MacCallum, Wegener,Uchino y Fabr
~. 1993 ). Esos modelos estadsticamenteequivalentes representan diferentes trayecto
nas causales y, por ende, brindan explicaciones alternativas de los efectos observadosde
manera emprica. El investigador,sobre la base del conocimiento que tenga de la situa
cin, evaluar la credibilidad y el significado sustantivo de los modelos alternativos.
Otra caractersticadel modelamientode ecuacionesestructuraleses que suele calcu
lar relacionescausales entre consrructos ms que entre variablesaisladas; por ejemplo,
para evaluar la actitud de un estudiante hacia las matemticas pueden usarse varios
indicadores, como las medidas de inters, de orientacin a la meta, el autoconcepto
sobre la aptitud para las matemticas y otras variables afectivas pertinentes. La varan
:a comn entre esos indicadores definira entoncesun constructode la actitud del indi
viduo hacia las matemticas, que luego se relacionara con el desempeo subsecuente
en la materia. El uso de constructos proporciona estimaciones ms estables y confiables
que cancelan los erroresy las varianzas especficas de los indicadores separados.
En la actualidad, son varias las aproximaciones metodolgicas al modelamiento de
ecuaciones estructurales, as como las modificaciones y los refinamientos del procedi
miento considerado ( vase por ejemplo, Anderson y Gerbing, 1988; Bentler, 1990; Bo
llen y Long, 1993; Breckler, 1990; Cole, Maxwell, Arvey y Salas, 1993; James, 1980;
~ Para una introduccindetallada al procedimiento,vase Bollen (1989) y Loehln (1992). Lo. clculos reales
pueden ser realizados con programas de cmputo disponibles como LISREL (Haydulc., 1988; [oreskog y SOrbom,
1986, 1989) y EQS (Bentler, 1985).
134
135
136
RECAPITULACIN
E INTEGRACIN
ncauvo
Pregunta
ilustrativa
Evidencia
de valide:
Validacin de conrerudo
Criterio de predsccin:
temporal
El rendimiento de Guillermo
indica problemas especficos?
;Cmo se relaciona el resultado
obtenido por Elena con otros
indicadores de su habilidad de
razonamiento?
13 7
Es comn que en los manuales se manifieste la validez comparada con otros crite
rios prcticos para ayudar al usuario a comprender qu es lo que mide la prueba. Aun
que tal vez no est directamente interesado en la prediccin de cualquiera de los
criterios especficos empleados, al examinarlos puede hacerse una idea del rea de
conducta muestreada por la prueba. Si seguimosun poco ms esta lnea de pensamien
to, vemos que codos los usos de una prueba y las interpretaciones de sus resultados im
plican la validez de constructo, un hecho que cada vez es ms reconocido (J. P.
Campbell, 1990a; Guion, 1991; Messick, 1980b, 1988, 1989; Tenopyr, 1986). Como
es muy raro que las pruebas se usen en condiciones idnticas a aquellas en las que se
obtuvo la validez, resulta inevitable la inclusin de cierto grado de generalizacin de
los resultados. El significado interpretativo de los resultados de la prueba siempre se
basa en constructos, que pueden variar considerablemente en su amplitud o generali
:acin con respecto a las reas de conducta, las poblaciones y los contextos.
Messick (1980b, 1989) arga convincentemente que el trmino validez, en tanto
que designa la significacin interpretativa de una prueba, debera reservarse para la
validez de constructo. Sostena que otros procedimientos con los que se haba asocia
do tradicionalmente el trmino "validez"tendran que designarse con ttulos ms des
criptivos. As, la validez de contenido podra llamarse "relevancia del contenido" y
"cobertura de contenido" podra designar a las especificaciones y representatividad de
dominio, respectivamente.La validez relacionada con el criterio podra denominarse
"utilidad predictiva" y "utilidad de diagnstico" para corresponder a la validez predc
civa y concurrente. Estas denominaciones ms descriptivas sin duda contribuiran a
una mejor comprensin de lo que realmente hacen los distintos procedimientos;de
cualquier forma, en los manuales debe presentarse de manera clara la distincin entre
los diferentes procedimientosde validacin, ya que ello permite identificar las pruebas
que se requieren para propsitos particulares.
Desde OtrO ngulo, incluso cuando la aplicacin prctica inmediata se concentre en
la descripcin de contenido (como en la evaluacin educativa) o la prediccin del cri
terio (como en la seleccin de personal), el uso de constructosde amplitud adecuada es
ms efectivo que las medidas del desempeo en pruebas especficas. La investigacin
del criterio ha hecho cada vez ms claro que tanto las medidas del criterio como los re
sultados de La prueba pueden expresarse de modo ms efectivo como igualacin de
construcros. Adems, la investigacin de Las relacionescausales entre constructos(co
mo en el modelamientode ecuaciones estructurales) est siendo aceptada como una
contribucin importante a la comprensinde cmo y por qu funcionan las pruebas.6
Validacin en el proceso de elaboracin de los tests. Cada vez se acepta ms
que la formulacin de una prueba vlida requiere de mltiples procedimientosque se
emplean de manera secuenciada en diferentesetapas de la elaboracin del test (Anas
tasi, l986a; Guion, 1991; Jackson, 1970, 1973; N. G. Peterson et al., 1990). La validez
se incluye desde el inicio en la prueba en lugar de limitarse a las ltimas etapas de su
desarrollo, como tradicionalmente sucede en la validacin relacionada con un erice,
6
138
ro. El proceso de validacin inicia con las definiciones detalladas del rasgo o del cons
139
8 Vase tambin Arkes (1993), para una revisin ms amplia con referencias adicionales.
9
Entre parntesis, digamos que una nueva aproximacin a la psicologa como un todo postula "la psicologa
discursiva", en la que los problemas se investigan mediante el discurso de las personas en la vida diaria y los
mtodos experimentales tradicionales (vase, por ejemplo, Harr y Stearns, 1995; J. Smith, Hart y Van Lan
gcnhove, 1995).