Académique Documents
Professionnel Documents
Culture Documents
ACCIN PSICOLGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
Resumen
La finalidad de este trabajo ha sido realizar
una revisin sobre la evolucin histrica de la
validez de contenido, as como presentar algunos de los mtodos de estudio ms utilizados
para su estimacin. El concepto de validez de
contenido ha sido objeto de un largo proceso
de modificaciones desde su origen. Sin embargo, estos cambios han estado focalizados en
qu el tipo de evidencias se deben presentar
para su estudio y los mtodos ms adecuados
para encontrar dichas evidencias. Sin embargo, su definicin se ha mantenido estable a lo
largo del tiempo. En la actualidad, la validez de
contenido se considera condicin necesaria
(aunque no suficiente) para realizar interpretaciones de las puntuaciones en los tests. Finalmente, la combinacin de mtodos tanto cualitativos como cuantitativos se entiende como el
procedimiento ms completo a la hora de realizar un estudio de validez de contenido en profundidad. Dentro de los primeros, destaca el
Abstract
The purpose of this paper has been to carry out
a review of the historical evolution of one aspect
of test validity - content validity - as well as to
expose some of the most popular methods used
for its evaluation. The concept of content validity has undergone many modifications from its
inception to the present time. However, in the
past these changes have focused on which pieces of evidence must be presented and the diffe-
Correspondencia: Ignacio Pedrosa, Facultad de Psicologa, Universidad de Oviedo, Plaza Feijoo, s/n, Cabina
4, 33003, Oviedo, Espaa. Email: pedrosaignacio@uniovi.es.
Recibido: 19/02/2013
Aceptado: 12/06/2013
ACCIN PSICOLGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
Introduccin
Un test es un instrumento de medida a partir del cual es posible obtener una muestra de
conducta sobre la que se pretenden hacer ciertas inferencias, mientras que el concepto de
validez se refiere al conjunto de pruebas y datos que han de recogerse para garantizar la
pertinencia de tales inferencias (Muiz, 2000).
Segn la edicin ms reciente de los Estndares para el uso de tests psicolgicos y educacionales (American Educational Research Association [AERA], American Psychological
Association [APA], y National Council on Measurement in Education [NCME], 1999), validez se refiere al grado en que la evidencia y la
teora apoyan las interpretaciones de las puntuaciones en los tests (1999, p. 9). Ms concretamente, se validan las inferencias relativas al uso especfico de un test, y no el propio
test (AERA, APA y NCME, 1985, p. 9). Es decir, no existen tests vlidos sino que los tests
son vlidos para algo, siendo indispensable indicar a los usuarios potenciales del test sus limitaciones as como concretar para qu es vlido exactamente.
Como sintetiza Sireci (2009), las fuentes de
evidencia de validez han sufrido un proceso de
embalaje y desembalaje. En este sentido,
parece ser que la tendencia a lo largo de la his-
ACCIN PSICOLGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
ACCIN PSICOLGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
Tabla 1
Publicaciones sobre la definicin de los aspectos de la validez de contenido
Representacin
del Dominio
Mosier (1947)
Goodenough (1949)
Cureton (1951)
APA (1952)
AERA/APA/NCME (1954)
Lennon (1956)
Loevinger (1957)
AERA/APA/NCME (1966)
Nunnally (1967)
Cronbach (1971)
AERA/APA/NCME (1974)
Procedimientos
de construccin
Thorndike (1949)
APA (1952)
Lennon (1956)
Ebel (1956, 1961)
AERA/APA/NCME (1966)
Cronbach (1971)
AERA/APA/NCME (1974)
Guion (1977, 1980)
Loevinger (1957)
Ebel (1956, 1961)
AERA/APA/NCME(1966)
Nunnally (1967)
Cronbach (1971)
Guion (1977, 1980)
Tenopyr (1977)
Fitzpatrick (1983)
Tenopyr (1977)
Fitzpatrick (1983)
Messick (1975, 80, 88,
89a, b)
AERA/APA/NCME (1985)
Mtodos y aplicaciones
para la estimacin de la validez
de contenido
Segn Sireci (1998a), se pueden establecer
dos planteamientos para estimar la validez de
contenido: mtodos basados en el juicio de expertos y la utilizacin de mtodos estadsticos
derivados de la aplicacin del instrumento de
medida.
Si bien resultara excesivamente ambicioso
pretender aglutinar en el presente estudio la
totalidad de mtodos existentes para estimar la
validez de contenido, a lo largo de las siguientes pginas se trata de exponer, a modo de evolucin histrica, aquellos que presentan o han
tenido una mayor difusin y aplicacin a nivel
prctico.
ACCIN PSICOLGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
ACCIN PSICOLGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
n - N/2
N/2
ACCIN PSICOLGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
N
jk X
j)
(X
2N - 2
ndice de congruencia
(Hambleton, 1980, 1984)
De forma progresiva siguen apareciendo
nuevos mtodos, surgiendo, por ejemplo, un
nuevo ndice propuesto por Hambleton (1980)
basado, en este caso, en una perspectiva centrada en los test referidos al criterio. A partir
de este tipo de tests, plante el denominado ndice de congruencia tem-objetivo, segn el
cual compara el grado en que un tem evala
el constructo esperado en relacin al resto de
dimensiones que componen el instrumento.
Ms adelante, el propio Hambleton (1984),
propuso una variacin de su mtodo con el objetivo tanto de facilitar la labor de los expertos
como de poder obtener ste ndice independientemente del nmero de alternativas empleadas para evaluar los tems. As, adems de
la relacin de cada tem respecto al constructo,
es posible obtener un ndice de congruencia
que describa el ajuste de cada tem respecto al
instrumento total teniendo en cuenta las valoraciones de la totalidad de expertos.
Escalamiento multidimensional
y anlisis de clusters
(Sireci y Geisienger, 1992)
Una dcada ms tarde, estos autores establecen un mtodo en una lnea diferente. As,
pretenden valorar la tasa de similaridad de los
tems basndose en el escalamiento multidimensional y el anlisis de clusters. Este procedimiento supone, adems de un cambio en la
perspectiva de anlisis de los datos aportados
por los expertos, una solucin al problema previamente sealado sobre el sesgo introducido
en la investigacin cuando los expertos conocen las especificaciones del contenido que se
pretende valorar.
El planteamiento consiste en presentar el
conjunto de tems a los expertos para que sean
estos quienes los asocien en base a su similaridad. La lgica subyacente es aquellos tems similares sern agrupados conjuntamente formando un mismo cluster y se encontrarn, a
su vez, muy prximos entre s a la hora de realizar el escalamiento multidimensional. La
combinacin de ambos resultados permite
analizar as la convergencia/divergencia de los
constructos obtenidos.
En un estudio de estos mismos autores (Sireci y Geisienger, 1995), puede verse la aplica-
10
ACCIN PSICOLGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
Mx
Vmx
ACCIN PSICOLGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
(j)
11
12
ACCIN PSICOLGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
Tabla 2
Sntesis de los mtodos basados en el juicio de expertos para el anlisis de la validez de contenido
Ao
Autores
Mtodo
1961
1975
1977
1980
1980, 1984
1986
1992
1997
2001
2002
2003
2012
Tucker
Lawshe
Rovinelli y Hambleton
Aiken
Hambleton
Lynn
Sireci y Geisienger
Levine, et al.
Fitch, et al.
Hernndez-Nieto
Rubio, et al.
Claeys, et al.
tructo que se pretende evaluar, siendo el conjunto de respuestas una muestra del comportamiento de inters (Fitzpatrick, 1983).
13
ACCIN PSICOLGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
Si bien es cierto que estas propuestas cuentan con un importante apoyo metodolgico, no
estn, en su mayora, exentas de limitaciones.
As, aunque el escalamiento multidimensional,
el anlisis de clusters y el anlisis factorial permiten definir claramente los constructos evaluados y su relevancia, su interpretacin puede
presentar problemas cuando las propiedades
de las respuestas obtenidas se solapan con las
interpretaciones del contenido (Davison, 1985;
Green, 1983).
Una alternativa a esta problemtica es la
Teora de la Generalizabilidad (TG). En este
procedimiento se disea, en primer lugar, un
estudio de decisin en el que se tienen en
cuenta determinadas variables o facetas que
constituyen posibles fuentes de error a la hora
de analizar la validez (i.e., instrucciones dadas
a los participantes, el nivel de habilidad de los
participantes, etc.). A continuacin se calcula
la puntuacin media que el conjunto de participantes otorga a todos los tems. Esto se realiza con el objetivo determinar qu tems presentan un mayor ajuste al contenido que se
quiere evaluar.
Adems, teniendo en cuenta los anlisis
previos, es posible establecer qu facetas son
relevantes a la hora de generalizar los resultados del estudio de la validez de contenido. Una
aplicacin de este mtodo puede consultarse
en Crocker, et al. (1988), en donde describen
cuatro posibles estudios a la hora de llevar a la
prctica la Teora de la Generalizabilidad.
De los procedimientos anteriores, quizs el
empleo del escalamiento multidimensional,
precisamente por aportar una visin novedosa,
requiera una breve resea, habiendo definido
ya en el apartado precedente el fundamento de
los mtodos relacionados con el anlisis de
clusters y el anlisis factorial.
La lgica que subyace a este mtodo es que
aquellos tems que evalen constructos similares deben ser percibidos como ms prximos
entre s en cuanto a su contenido que aquellos
que evalan cuestiones diferentes. As, el empleo del escalamiento multidimensional, no
slo permite agrupar estos tems en torno a un
constructo como los mtodos precedentes,
sino que, adems, permite analizar a nivel tan-
Discusin y conclusiones
Como se ha podido comprobar en la parte
inicial del manuscrito, el concepto de validez
de contenido ha sido objeto de un largo proceso de modificaciones desde su origen a mediados del S. XX. Sin embargo, estos cambios han
estado focalizados en la relevancia que este
tipo de validez debe presentar, as como en los
diferentes mtodos para su estudio, mantenindose su definicin esencialmente estable a
lo largo del tiempo.
En este sentido, las posturas en torno al
concepto de validez en general han sido diversas y variadas, presentando a lo largo de estas
dcadas diferentes enfoques, tanto unitarios
como fragmentados (Sireci, 2009). Si bien es
cierto que han existido (y existen) diferentes
perspectivas en este sentido, el acuerdo acerca
de la importancia que la validez de contenido
presenta a la hora de crear y validar cualquier
instrumento de medida es unnime (Abad,
Olea, Ponsoda y Garca, 2011; Kane, 2009).
14
ACCIN PSICOLGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
Dejando a un lado las disquisiciones tericas, sin duda alguna, los numerosos ndices y
coeficientes generados a lo largo de los aos en
torno al estudio de la validez de contenido, revelan la importancia que sta presenta en el
proceso de creacin y validacin de los instrumentos de medida.
A la hora de decidir qu mtodo emplear
en la investigacin aplicada, se considera necesario combinar ambas perspectivas, pues
como apuntan Haynes, Richard y Kubany
(1995), el estudio de la validez de contenido
debe ser un proceso multimtodo, tanto a nivel
cualitativo como cuantitativo. Un ejemplo de
ello es la recomendacin de Sireci (1998a), en
donde expone cmo el empleo de la Teora de
la Generalizabilidad, unida a la evaluacin por
parte de los expertos, ofrece un clculo exhaustivo y preciso de este tipo de validez.
As, el mero hecho de que contar con un
grupo de expertos que informen sobre la falta o
exceso de tems representativos del constructo o
que simplemente determinen a qu dimensin
corresponde cada elemento, no aporta de por s
informacin relevante para el proceso de validacin (Sireci, 1998a). En este mismo sentido,
como indica Fitzpatrick (1983), el uso de mtodos nicamente basados en las respuestas dadas por los participantes al test, no garantiza
que verdaderamente se est evaluando la variable de inters a menos que se cuente con evidencias de validez convergente. Por otro lado, si
exclusivamente se tienen en cuenta las respuestas al test, esto supone realmente un punto de
vista ms cercano al estudio de la validez de
constructo que de contenido.
Dentro de todos los mtodos expuestos en
el presente estudio, a nivel aplicado y en relacin a los referidos al juicio de expertos, destaca especialmente el uso del IVC planteado por
Lawshe (1975). Si bien todos los mtodos presentan puntos dbiles y crticas, trabajos como
el de Polit, Beck y Owen (2007) justifican el
empleo de este ndice por sus numerosas ventajas, respecto al resto de mtodos existentes.
As, en su estudio, estos autores comparan dicho mtodo con un amplio nmero de ndices
alternativos y destacan los siguientes beneficios a favor del IVC: facilidad de clculo, facili-
ACCIN PSICOLGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
15
Agradecimientos: Investigacin financiada por el Programa de Formacin de Personal Universitario del Ministerio de Educacin (AP2010-1999).
Referencias
Abad, F. J., Olea, J., Ponsoda, V. y Garca, C. (2011).
Medicin en ciencias sociales y de la salud [Measurement in Social and Educational Sciences].
Madrid, Espaa: Sntesis.
Aiken, L. R. (1980). Content validity and reliability
of single items or questionnaires. Educational
and Psychological Measurement 40, 955959.
American Psychological Association. (1952). Technical recommendations for psychological tests
16
ACCIN PSICOLGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
ACCIN PSICOLGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X
17
Lynn, M. R. (1986). Determination and quantification of content validity. Nursing Research, 35,
382-385.
Muiz, J. (2000). Teora clsica de los tests [Clasical Tests Theory] (6. Ed.). Madrid, Espaa:
Pirmide.
Mussio, S. J. y Smith, M. K. (1973). Content validity: A procedural manual. Chicago: International
Personel Management Association.
Nunnally, J. C. y Bernstein, I. H. (1994). Psychometric Theory (3. Ed.). New York: McGraw Hill.
Polit, D. F., Beck, C. T. y Owen, S. V. (2007). Is the
CVI an acceptable indicator of content validity?
Appraisal and recommendations. Research in
Nursing and Health, 30(4), 459-467.
Rovinelli, R. J. y Hambleton, R. K. (1977). On the
use of content specialists in the assessment of
criterion-referenced test item validity. Dutch
Journal of Educational Research, 2, 49-60.
Rubio, D. M., Berg-Weber, M., Tebb, S. S., Lee,
E. S. y Rauch, S. (2003). Objectifying content
validity: Conducting a content validity study
in social work research. Social Work Research,
27(2), 94-104.
Rulon, P. J. (1946). On the validity of educational
tests. Harvard Educational Review, 16, 290296.
Sireci, S. G. (1998a). The construct of content validity. Social Indicators Research, 45, 83-117.
Sireci, S. G. (1998b). Gathering and analyzing content validity data. Educational Assessment, 5,
299-321.
Sireci, S. G. (2003). Validity content. En R. F. Ballesteros (Ed.), Encyclopedia of psychological assessment. Londres, UK: Sage.
Sireci, S. G. (2007). On Validity Theory and Test
Validation. Educational Researcher, 36(8), 477
481. doi:10.3102/0013189X07311609
Sireci, S. G. (2009). Packing and unpacking sources
of validity evidence. En R. W. Lissitz (Ed.), The
concept of validity: Revisions, new directions and
18
ACCIN PSICOLGICA, junio 2014, vol. 10, n.o 2, 3-20. ISSN: 1578-908X