Vous êtes sur la page 1sur 26

Cuando en el primer captulo hablamos de la dificultad de medir variables psicolgicas,

porque la gran mayora de ellas no pueden ser observadas de forma directa y, por lo tanto, no se
pueden medir directamente, dimos una solucin al problema planteando que la medicin se
poda llevar a cabo mediante indicadores. Con esto, lo que queremos decir es que para poder
medir este tipo de variables, a las que denominamos constructos tericos, variables latentes o
atributos psicolgicos es necesario seleccionar una serie de conductas que representen algn
aspecto de ese constructo y que sean consideradas indicadores del mismo. Dichas conductas, Ya
s son observables de forma directa y por lo tanto, pueden ser medidas mediante los
instrumentos adecuados, elaborados ad hoc. Diremos que se ha obtenido una medida del
constructo, cuando se obtenga una medida de las conductas seleccionadas como indicadores.
Ahora bien, los instrumentos elaborados para medir estas conductas, han de cumplir una
serie de requisitos para que puedan ser utilizados con las suficientes garantas de calidad; entre
estos requisitos, hay dos fundamentales:
Que proporcionen medidas fiables a partir de las cuales
Se puedan hacer inferencias vlidas
La Fiabilidad de las medidas como hemos visto en el tema 4, hace referencia al grado en que
las puntuaciones obtenidas al aplicar los tests, reflejan su nivel real en el rasgo o caracterstica
medida, es decir, al grado en que esas puntuaciones estn libres de errores aleatorios, presentes
en cualquier proceso de medicin.
La validez de las inferencias que se puedan hacer, a partir de las puntuaciones obtenidas por
los sujetos al aplicarles el test (que abordaremos en este tema y el siguiente) se refiere al grado
de relacin que se puede establecer entre la evidencia emprica obtenida y el concepto terico
que se tiene del constructo que se intenta medir.
Algunas de las crticas que se han hecho en relacin con la construccin y evaluacin de
los tests es, que muchas veces, el proceso ha estado orientado a obtener instrumentos de
medicin fiables, ms que a la obtencin de instrumentos vlidos. A nuestro juicio, por muy
fiables que sean las medidas que proporciona un test, si stas no se refieren a aquello que se
quiere medir, difcilmente se podrn interpretar las puntuaciones obtenidas, de ah la
importancia del tema que vamos a ver.
En el presente tema, expondremos las distintas clases de evidencia que se pueden
obtener a la hora de llevar a cabo un proceso de validacin: Contenido, constructo y relativa al
criterio, haciendo hincapi, en cul sera la ms adecuada en cada caso y exponiendo los
procedimientos estadsticos que van a permitir su obtencin e interpretacin
Respecto a los estudios de validacin referida al criterio: en este tema nos
centraremos en la forma de llevarlos a cabo cuando hay un nico predictor y un solo indicador
del criterio, dejando para el tema siguiente, los casos en los que se cuenta con varios
predictores. Resulta necesario, que el alumno aprenda a diferenciar claramente las distintas
formas de llevar a cabo un estudio de validacin y la forma de interpretar la evidencia obtenida,
pues slo as se estar en condiciones de interpretar las puntuaciones obtenidas por los sujetos
en los tests y, a partir de ellas, tomar decisiones con una cierta garanta de xito.

Al igual que el concepto de Psicometra ha evolucionado a lo largo de los aos, con la


incorporacin de los conocimientos cientficos que han ido surgiendo a partir de las
investigaciones realizadas, al concepto de validez, que es un concepto psicomtrico, le ha
sucedido lo mismo. Mientras que la medicin de las caractersticas fsicas (longitud, peso) tal
y como se viene haciendo, ha probado sus ventajas y su utilidad, y nadie plantea hoy da
seriamente la necesidad de cambiar por otras formas de medicin, no sucede lo mismo con las
caractersticas psicolgicas (constructos tericos) ya que, en ocasiones, la aparicin de nuevos
conocimientos, puede aconsejar la modificacin de la forma de medicin de las mismas y la
bsqueda de enfoques alternativos.
El concepto Validez, convencionalmente y en relacin con los tests, hace referencia al
grado en que el test mide aquello que pretende medir. De este modo, un test ser vlido para
medir razonamiento espacial, si mide este tipo de razonamiento y no otra cosa. Ahora bien,
cuando decimos que un test mide razonamiento espacial, surgen interrogantes como.
Mide realmente eso?
En qu grado lo mide?
Mide slo razonamiento espacial?
Intentar dar solucin a estos interrogantes, forma parte de los estudios de validacin de los tests
De la definicin de validez que hemos expuesto, se deduce que el concepto hace
referencia al grado de relacin entre el test y el constructo que se pretende medir. En la medida
en que dicha relacin sea ms estrecha, el test ser ms vlido. Ahora bien, debemos aclarar que
cuando hablamos de la relacin entre el test y el constructo, en realidad, estamos haciendo
referencia a la relacin entre las puntuaciones obtenidas por los sujetos en el test y la
medida obtenida en el indicador o indicadores del constructo.
En esencia, el concepto de validez no ha cambiado sustancialmente a lo largo de los
aos, lo que s ha cambiado es la forma de abordar y operativizar esa relacin entre el test y
el constructo. Hasta los aos 50 del siglo pasado, los tests se valoraban fundamentalmente por
su utilidad prctica, sobre todo para la seleccin y clasificacin de personal, siendo el criterio,
algn constructo terico como la aptitud para el vuelo, o el rendimiento futuro en un puesto de
trabajo. La forma de operativizar la relacin entre el test y el criterio, era mediante un
coeficiente de correlacin. As, un test era vlido, en la medida en que existiese correlacin
entre las puntuaciones obtenidas por los sujetos en el test y las obtenidas en el criterio externo
seleccionado. Al concepto de validez as entendido, se le denomin validez predictiva de los
test (Un test era vlido en la medida en que existiera correlacin entre las puntuaciones
obtenidas por los sujetos en el test y las obtenidas en el criterio externo seleccionado).
Supongamos que se desea llevar a cabo una seleccin de vendedores y, adems de otras
tcnicas, se piensa utilizar un test en el proceso de seleccin. No se sabe si el test es vlido o no,
pero para que se pueda decir que el test tiene validez predictiva, debe permitir diferenciar a los
bueno de los malos vendedores, distinguiendo los diferentes grados de pericia o capacidad para
las ventas (constructo a medir). Para comprobar la validez predictiva del test, es necesario

seleccionar algn indicador (o indicadores), que permita obtener una medida del criterio
externo; as por ejemplo, un indicador puede ser el nmero de ventas realizadas en una semana
(variable observable relacionada con el constructo).
Una vez seleccionado el indicador, se aplicar el test a todos los aspirantes al puesto y,
despus de un cursillo de tcnicas de ventas, se les pondr a vender durante una semana; pasada
sta, se les evaluar en funcin del nmero de ventas realizadas, y ese dato, ser su medida en el
criterio externo.
Para comprobar si el test tiene validez predictiva, se calcular la correlacin entre las
puntuaciones que han obtenido en el test todos los aspirantes y el nmero de ventas realizadas
en la semana de prueba. Si la correlacin es alta, diremos que el test tiene validez predictiva,
puesto que, los que hayan obtenido puntuaciones altas en el test, sern tambin los que hayan
realizado un mayor nmero de ventas, y los que obtengan puntuaciones bajas en el test, habrn
realizado un nmero de ventas menor. Como puede verse, el estudio de la validez predictiva,
supone una alta dificultad y un alto coste, y en ocasiones resulta imposible llevarlo a cabo o,
simplemente, no tiene sentido hacerlo.
Por este motivo, poco a poco, fue surgiendo otra forma de estudiar la validez de los test
relacionada con criterios externos, la validez concurrente, que se diferencia de la validez
predictiva en que la recogida de la informacin, tanto del test como del criterio, se hace
simultneamente.
Vamos a seguir con el ejemplo anterior, pero con un enfoque diferente. Queremos
disponer de un test que sirva para hacer una seleccin de vendedores para cubrir 4 puestos de
trabajo. Para ello, hacemos lo siguiente: A una muestra de vendedores de las mismas
caractersticas que los que exigen los puestos de trabajo a cubrir, se les aplica el tests cuya
capacidad predictiva se quiere estudiar y, al mismo tiempo, se pide a sus jefes directos, que los
evalen en cuanto a su grado de pericia para las ventas (por ejemplo, el nmero de ventas
realizadas en la ltima semana). De este modo, las puntuaciones obtenidas por los vendedores
en el criterio externo (n de ventas en la ltima semana) y las obtenidas en el test, se obtienen en
el mismo momento temporalValidacin concurrente.
La correlacin entre las dos series de puntuaciones, nos van a indicar, si el test puede ser
utilizado posteriormente para hacer la seleccin con ciertas garantas de xito, al avalar, en
cierta medida, que los aspirantes que obtengan mejores resultados en el test, sern buenos
vendedores.
En otras ocasiones, se puede obtener la medida del criterio con anterioridad a la del test,
hablndose en este caso de validez retrospectiva. La forma de operativizar la relacin entre el
test y el criterio, tanto en la validez predictiva, como en la concurrente y en la retrospectiva, es
mediante un Coeficiente de Correlacin.
Al mismo tiempo, y junto a las concepciones de la validez ligada a criterios externos, se
fue perfilando un nuevo enfoque de la validez, relacionada con criterios internos al propio
test: la validez de contenido: Esta nueva concepcin surge, porque hay muchos contextos en
los que no interesa demasiado estudiar la utilidad de un test para predecir otras variables y, por
lo tanto, no tiene sentido la utilizacin de criterios externos. Esto sucede sobre todo, en los tests
de conocimientos en este tipo de tests, no se utilizan criterios externos con los que
correlacionar las puntuaciones obtenidas, el planteamiento es distinto, y lo que se trata de
estudiar es hasta qu punto, a partir del contenido de los test, se puede inferir el
rendimiento en una determinada materia; el test en s mismo constituye su propio criterio.

:
Supongamos que se necesita preparar un test (examen) para medir el conocimiento que
los alumnos de Psicometra tienen de la materia. Esto, que a primera vista puede parecer
sencillo, implica un esfuerzo por definir, en primer lugar, todos los contenidos propios de la
Psicometra y, en segundo lugar, hacer un muestreo de cada uno de esos contenidos, de manera
que queden reflejados todos ellos en el test; slo de esta manera podremos tener cierta garanta
de que el test tiene validez de contenido. As, no se podra preparar un test (examen) en el que
slo hubiese preguntas de fiabilidad, ya que de las puntuaciones que obtuvieran los sujetos en el
test, no se podra inferir ms que el grado de conocimientos de los sujetos acerca de la
fiabilidad, no de la Psicometra, puesto que el dominio, universo o campo de contenidos de la
Psicometra, es algo mucho ms amplio. Recordemos que en el tema 2, cuando se abord el
problema de la construccin de instrumentos de medicin psicolgica, ya se estudi la forma de
elaborarlos de manera que tuvieran validez de contenido.
La aparicin de la validez de contenido, marc una nueva tendencia en los estudios de la
validez, al estar ms centrada en qu es lo que mide el test, que en su utilidad para predecir otras
variables. Sin embargo, la respuesta real a todos los interrogantes que dejaban sin responder los
anteriores mtodos, vendr de la mano de otra nueva concepcin de la validez: la validez de
constructo. Este tipo de validez, implica recoger toda la informacin necesaria, para poder
tener garanta suficiente, de que las conductas observables que se han elegido como
indicadores del constructo que se quiere medir, lo son realmente.
Todo esto, nos hace reflexionar sobre la importancia que tiene, a la hora de construir un test, el
definir claramente para qu se va a utilizar y qu es lo que se quiere medir. Puesto que, en la
medida en que el constructo est mejor definido, ser ms fcil especificar qu conductas
observables se van a utilizar como indicadores del mismo, una vez especificadas esas conductas,
se podrn tomar decisiones acerca de qu tems (qu contenido) se van a incluir en el tests para
medirlas. Ahora bien, que el constructo est bien definido, no nos exime de comprobar que,
realmente, las puntuaciones obtenidas al aplicar el test, miden esa caracterstica o atributo y se
pueden utilizar para el objetivo deseado, ya que pueden estar midiendo adems, alguna
caracterstica no prevista e introduciendo un error sistemtico en las puntuaciones obtenidas en
el test. El estudio de la validez de constructo del test, permitir responder a las preguntas, de si
el test mide aquello para lo que se construy y si mide slo eso. Tambin en este enfoque de la
validez, la manera de operativizar la relacin entre el test y el constructo, suele hacerme
mediante tcnicas correlacionales.
En el documento publicado por la APA en 1966, estos 4 tipos de validez, quedaron
reducidos a 3: validez de contenido, validez relativa al criterio (quedando incluidas la
concurrente y la predictiva) y validez de constructo. As mismo, se asume que los distintos
tipos de validez van unidos a objetivos concretos en el uso de test, de ah la importancia de
definir cules van a ser estos objetivos son:
Determinar el rendimiento o actuacin de un sujeto en un universo de situaciones
(contenido).
Inferir el grado en el que un sujeto posee algn rasgo o atributo (constructo) que se
supone vendr reflejado por su ejecucin en el test.
Predecir el rendimiento o comportamiento futuro (predictiva) o estimar su rendimiento
actual sobre una variable externa al test (concurrente).
En 1974 se produce un avance en la definicin del concepto de validez, ya que, por
primera vez se afirma que la validez se refiere a la adecuacin de las inferencias que se realizan a

partir de las puntuaciones de los test u otras formas de medida. Se mantiene la distincin entre
los 3 tipos de validez y se consideran como formas independientes de interpretar las inferencias
realizadas. Por otro lado, se hace ya referencia explcita, a que la validez, no es una propiedad
implcita a los tests, ya que lo que se trata de validar, no es el test en s mismo, sino las
inferencias que se hagan a partir de las puntuaciones obtenidas por los sujetos.
En 1985 y 1999 ya se define una concepcin unitaria de validez, que hace referencia
al grado en que la evidencia emprica obtenida y los conocimientos aportados por las teoras
apoyan las inferencias que se hagan a partir de las puntuaciones obtenidas en el test cuando ste
se utiliza para un objetivo concreto.
Parece haber un acuerdo ms o menos generalizado en el que, desde el punto de vista
cientfico, la nica validez que se debe considerar es la validez de constructo, y que las otras 2 (de
contenido y la relativa al criterio), quedaran incluidas en sta y seran consideradas como
estrategias de validacin para comprender mejor lo que mide un test.
Ya no se habla de distintos tipos de validez, la validacin de los tests, es un proceso
continuo, que permite obtener distintos tipos de evidencia emprica, y un proceso de validacin
ideal, debe incluir los tipos de evidencia implicados en los 3 tipos tradicionales de validez: la de
constructo, la de contenido y la relativa al criterio. Aunque siempre que se aplique un test
psicolgico es necesario llevar a cabo un estudio de validacin de constructo, (difcilmente se
puede hacer ninguna inferencia, si no se sabe lo que mide realmente el test), este tipo de
validacin no siempre es suficiente. Segn sea la interpretacin que se vaya a hacer de las
puntuaciones y el objetivo que se pretende al aplicar el test, ser necesario obtener otros tipos de
evidencia; as por ejemplo, cuando se utilizan los test en seleccin de personal, si el que una
persona sea seleccionada depende de la prediccin que se haga acerca de su rendimiento futuro
en el trabajo, ser necesario llevar a cabo un estudio de validacin relativa al criterio, y en los
tests de conocimientos, la estrategia fundamental, sera la validacin de contenido.
La evolucin del concepto de validez, tuvo lugar gracias al esfuerzo de muchos autores,
pero es de destacar algunos de los trabajos de Cronbach. Si consideramos que el trmino
validez, hace referencia a la adecuacin de las inferencias realizadas a partir de las puntuaciones
de los tests, resulta fcil definir la validacin como: proceso mediante el cual, el constructor o el
usuario de los tests, recoge la evidencia emprica necesaria para apoyar las inferencias que van a
realizar; entendiendo por evidencia tanto los datos, observaciones y hechos como los argumentos
que permitan apoyar o sustentar esos hechos.
Si esto es as, para llevar a cabo un proceso de validacin se requiere:
- Explicitar claramente, el tipo de inferencia que se quiere realizar, para a
continuacin,
- Disear el estudio emprico que permita obtener la informacin necesaria acerca del
grado en que las puntuaciones obtenidas en el test (o los tests) son tiles para el tipo de
inferencia requerida.
Siguiendo con las normas marcadas en los Estndares de 1985 y 1999, en este tema,
vamos a considerar la validez como un concepto unitario y el proceso de validacin, como un
proceso continuo que permitir recoger la evidencia necesaria para poder interpretar las
puntuaciones obtenidas al aplicar los tests para un determinado objetivo. En este sentido, no

vamos a hablar de distintos tipos de validez, sino de distintas estrategias para obtener esa
evidencia.

El objetivo que se persigue al llevar a cabo un estudio de validacin de contenido, es


analizar hasta qu punto los elementos o tems que componen un test, son una muestra relevante
y representativa del constructo sobre el que se van a realizar las inferencias.
La relevancia del constructo: implica la necesidad de una clara y exhaustiva
especificacin de todas las posibles conductas observables que son representativas del
constructo a medir (especificacin del dominio de conducta)
La representatividad del constructo: hace referencia, a la necesidad de que todas esas
conductas estn representadas en el test (representatividad de dominio)
Partiendo de esto, es fcil darse cuenta de que la distincin entre la validez de
constructo y de contenido es un poco artificial:
En lo que respecta a la especificacin del dominio de conductas, o nos limitamos a
describirlas simplemente, o en cuanto se intente establecer alguna definicin operativa o
formal entre esas conductas y el constructo, se entra de lleno en el terreno de la
validacin de constructo.
En lo referente a la representatividad del dominio, las investigaciones se han
centrado fundamentalmente, en los procedimientos de muestreo de dominio.
Messick afirma que la especificacin y representatividad del dominio, son en realidad
metas a conseguir a la hora de construir el test, pero no son garantas de validez pues no
proporcionan evidencia emprica para poder interpretar las puntuaciones.
Sin entrar en estas polmica, diremos que cuando se lleva a cabo un estudio de
validacin de un test, es necesario analizar hasta qu punto, los elementos que lo componen, son
una muestra representativa de la clase de problemas o situaciones sobre las que van a hacer
inferencias y extraer conclusiones.
En el mbito de la evaluacin educativa: En los tests referidos al criterio (TCR) y en
los denominados tests de rendimiento acadmico, las puntuaciones obtenidas se suelen utilizar
para hacer inferencias acerca del grado en que los sujetos dominan un campo de conocimiento
(dominio), no para hacer inferencias acerca de una conducta externa al test, ni acerca del rasgo o
constructo medido. En estos tests, se pone de manifiesto, el inters de los estudios de validacin
de contenido, ya que es relativamente fcil llevar a cabo la especificacin del dominio (campo
de conocimiento), sin hacer referencia al constructo. En estos tests, las puntuaciones obtenidas
se suelen utilizar para dar cuenta de si los sujetos han alcanzado un nivel mnimo de
competencia en una determinada materia y la definicin y especificacin del dominio, suele
hacerse ms en funcin de los objetivos instruccionales y educativos que se persigan, que en
referencia al constructo.
De este modo, si queremos construir un test (examen) de psicometra (campo de
conocimiento) vlido, la especificacin del dominio, incluira el anlisis de todos aquellos
componentes de la psicometra que han de ser evaluados (teora de la medicin, validez, anlisis
de tems). Una vez especificado el dominio, para que el contenido del test sea vlido, ser
necesario elaborar un conjunto de tems que representen cada uno de esos componentes. Para
que el contenido del test sea relevante, todos los tems del test han de medir algn aspecto del
dominio y no otra cosa y ser representativo, si los tems son una muestra representativa de

todos los componentes especificados de la psicometra; es decir, una muestra representativa del
dominio
La forma tpica de llevar a cabo un estudio de validacin de contenido, es utilizando
un grupo de expertos que sern los encargados de analizar 2 aspectos fundamentales:
Que el test no incluya aspectos irrelevantes del dominio de inters.
Que incluya todos los elementos importantes que definen el dominio.
Se trata de hacer un anlisis racional del contenido del test y, por lo tanto, los resultados del
estudio estarn basados en los juicios subjetivos emitidos por los expertos.
Para llevar a cabo la especificacin del dominio, (como se expuso en el tema 2), es necesario:
- Analizar las reas de contenido que se deben cubrir.
- analizar los procesos que se van a evaluar y la importancia relativa de cada uno de
ellos. En los tests educativos, se deben establecer los objetivos instruccionales que se
desean alcanzar.
- Hecho esto, se puede construir una tabla de doble entrada, en la que las columnas
representen las distintas reas de contenido (dominio) que definen el constructo a medir
y las filas las distintas operaciones o procesos cognitivos implicados a la hora de
responder a las preguntas o tems de la prueba, o los distintos objetivos instruccionales.
Las celdillas de esta tabla, incluyen el porcentaje de tems que deben contener la prueba,
en relacin con cada rea de contenido y cada proceso cognitivo empleado u objetivo
instruccional, para que se considere que el dominio est bien representado.
Para evaluar la relevancia de los tems en relacin con el dominio hay varios
procedimientos:
Uno de ellos es el propuesto por Hambleton, que consiste en presentar a los expertos
una serie de fichas, cada una de las cuales contiene un tem. Cada experto expresar en
una escala de 5 puntos el grado de ajuste de cada tem, con su correspondiente
especificacin en el dominio (conducta, rea de conocimiento) de manera que el 1
indique un mal ajuste y el 5 un ajuste muy bueno. Hecho esto, se calcula la media o la
mediana de los valores asignados por cada uno de los expertos a cada tem, y el valor
obtenido ser el que indique el grado de relevancia del tem. De esta forma, se podrn
seleccionar los tems que muestren un alto grado de ajuste y eliminar aquello que por su
bajo nivel de ajuste no sean relevantes.
La representatividad de los tems que conforman el test: hace referencia al grado en que se
han cubierto las especificaciones del dominio, tanto en cuanto a contenidos como a los objetivos
propuestos. En la medida en que el dominio este ms y mejor representado, las inferencias que
se puedan hacer acerca de las puntuaciones de los tests, sern ms precisas. Lo ideal sera, poder
contar con un banco de tems referidos al dominio de inters y a partir de este, extraer una
muestra aleatoria de tems, sin embargo, esto no siempre es posible.
: supongamos que un grupo de 100 expertos han de juzgar la relevancia de 3
tems para medir la calidad de la enseanza (constructo de inters). En la tabla adjunta, se
incluye la valoracin asignada a cada uno de los tems por el grupo de expertos:

TEMS
A
B
C

1
0
20
10

ESCALA
3
10
30
50

2
10
40
20

4
60
10
10

5
20
0
10

Para calcular la relevancia de cada tem, sabiendo que la categora 1 indica un mal ajuste entre
el tem y el constructo y la categora 5, un muy buen ajuste, calculamos la mediana de cada
tem, aplicando la siguiente frmula:
(/100)
. = +

Li = Lmite inferior del intervalo donde se encuentra la mediana.


NP /100 = 50% de la muestra.
= n de sujetos situados en el intervalo de la mediana.
f b = n de sujetos de la muestra por debajo del intervalo de la mediana

Para ello, diseamos la tabla de frecuencias acumuladas (para saber el intervalo en el que se
encuentra la Med.)

TEMS
A
B
C

1
0
20
10

ESCALA
3
20
90
80

2
10
60
30

4
80
100
90

5
100
100
100

50 20
=4
60
50 20
= 2.25
= 1.5 +
40
50 30
= 2.9
= 2.5 +
50
= 3.5 +

Ante estos resultados, se puede decir que el tem A tiene un buen ajuste y, por lo tanto, se puede
considerar como un tem relevante para la medida de la calidad de la enseanza; los otros dos,
no deberan incluirse, puesto que el ajuste no es muy bueno.
.
Este tipo de validacin es, realmente, el que da significado a las puntuaciones de los
test, pues permite obtener evidencia de que las conductas observables que se han elegido como
indicadores del constructo (variable latente inobservable), realmente lo son. Este tipo de
estudios de validacin, permite responder, entre otras cosas, a las preguntas de si el test mide
realmente la variable que intenta medir y si existe en realidad esa variable.
Partiendo de que los tests son instrumentos que permiten describir de manera indirecta,
u operativizar, el grado en que los sujetos poseen alguna caracterstica postulada a nivel terico,
denominada constructo, la validacin de constructo ser el proceso que permitir obtener
evidencia acerca de la capacidad del tests para medirlo.

Este tipo de estudios de validacin, trata de garantizar cientficamente, que la variable


que el test pretende medir es, en efecto, una variable aceptable, cuyo concepto ofrece suficiente
consistencia lgica dentro de un sistema terico de la Psicologa y descansa en suficientes
comprobaciones experimentales que lo verifican.
Para llevar a cabo un estudio de validacin del constructo, es necesario:
- Definir cuidadosamente el constructo de inters a partir de las teoras que existen
acerca del mismo y postular una serie de hiptesis acerca de la naturaleza y grado de
relacin entre el constructo (variable latente inobservable) y una serie de variables
(conductas directamente observables) y, entre el constructo de inters y otros
constructos.
- Disear el instrumento de medida adecuado, que deber de contar con elementos
relevantes y representativos de aquellas conductas que sean manifestaciones especficas
y concretas del constructo.
- Obtener datos empricos de las relaciones entre las puntuaciones obtenidas al
aplicar el test y las variables (conductas observables) hipotetizadas.
Como podemos observar, es necesario estudiar:
Por una parte, la relacin entre el constructo y las conductas observables representativas
del constructo.
Por otra, la relacin entre el constructo y otros constructos y, finalmente,
La relacin entre esas conductas tomadas como indicadores del constructo y las
puntuaciones obtenidas por los sujetos en el test.
Si se confirman las relaciones postuladas en las hiptesis planteadas, tal y como predice
la teora, se puede considerar que tanto el constructo como el test son tiles. En caso contrario,
ser necesario hacer una nueva evaluacin del constructo y/o de las dems variables incluidas en
el estudio, o bien estudiar ms detenidamente el marco terico.
Los estudios de validacin de constructo estn centrados, fundamentalmente, en el
anlisis de la estructura del test, tanto interna como externa es decir, en el estudio de las
interrelaciones entre las puntuaciones obtenidas por los sujetos en los distintos tems que
conforman el test (estructura interna) y en las relaciones entre las puntuaciones obtenidas en el
test y otras medidas obtenidas en variables externas al mismo y consideradas relevantes
(estructura externa).
Entre los mtodos ms utilizados para llevar a cabo la validacin del constructo, hemos de
destacar dos, que veremos a continuacin:

Mtodo propuesto por Campbell y Fiske y permite el anlisis de la estructura externa del
test (o conjunto de test). La lgica del procedimiento es la siguiente:
Se intenta medir un mismo constructo mediante distintos procedimientos y distintos
constructos mediante el mismo procedimiento y, una vez obtenidas todas las medidas,
calcular las intercorrelaciones entre ellas.

Si las correlaciones entre las medidas obtenidas del mismo constructo a travs de
distintos procedimientos son altas, el constructo quedar validado y se dir que existe
validez convergente.
Por otra parte, si estas correlaciones son significativamente ms altas que las obtenidas
al correlacionar las medidas de distintos constructos con el mismo procedimiento, se
dir que existe validez discriminante.
: Supongamos que se quieren medir 3 constructos: Razonamiento numrico
(RN), Factor espacial (FE) y Razonamiento abstracto (RA). Se han elaborado una serie de
pruebas con diferentes formatos: Verdadero-falso (V-F), Eleccin Mltiple (EM) y Frases
incompletas (FI). Tenemos por tanto, tres constructos diferentes y tres procedimientos distintos
de medir cada uno de ellos.
Para analizar la validez convergente y discriminate, se selecciona una muestra de sujetos a los
que se aplican todas las pruebas, obtenindose las puntuaciones de los mismos, en cada
constructo y mediante cada uno de los procedimientos. A partir de esas medidas, se calculan
todas las intercorrelaciones posibles, que pueden ordenarse en una matriz como la que aparece
en la tabla siguiente, y explicaremos los coeficientes de correlacin obtenidos

Los valores que se encuentran entre parntesis en la diagonal de la matriz, representan


los distintos coeficientes de fiabilidad. Se trata de la correlacin entre las puntuaciones
obtenidas al medir el mismo constructo, mediante el mismo procedimiento (por
ejemplo, 2 tests paralelos)
Los valores que aparecen subrayados, son las correlaciones obtenidas, al medir el
mismo constructo, con distintos procedimientos- la cuanta de estos valores, ofrece
informacin acerca de la validez convergente.
Finalmente, los valores que aparecen en negrilla, corresponden a las correlaciones
obtenidas al medir distintos constructos, con los mismos procedimientos.

Para ver si existe evidencia de validez discriminante hay que comparar los
valores correspondientes a los ndices de validez convergente (subrayados) con los que
aparecen en negrilla. Dado que en nuestro ejemplo los primeros son bastante ms altos que
los segundos, podemos decir que en efecto, hay evidencia de validez discriminante.

10

Uno de los problemas que plantea el procedimiento de la matriz multimtodoMultirasgo, es que no existe un criterio estadstico que permita tomar decisiones acerca de si un
test tiene realmente validez convergente y discriminante, lo nico que se puede decir es que
parece haber evidencia de su existencia o de su ausencia. Actualmente, para poder obtener
mayor informacin, se est utilizando el anlisis factorial confirmatorio.

Es quizs la tcnica ms utilizada, tanto en su vertiente exploratoria como confirmatoria,


para poner a prueba las hiptesis planteadas acerca de la estructura interna del constructo y de
las relaciones del mismo con otras variables. Resulta de inters conocer la utilidad de esta
tcnica para el estudio de la validacin de constructo.
Las medidas que proporcionan los tests, pueden hacer referencia a variables
unidimensionales o multidimensionales y, precisamente, el Anlisis Factorial nos va a permitir
descubrir la estructura que subyace a las puntuaciones obtenidas por los sujetos en los distintos
tems del test, o en un conjunto de tests.
Cuando el Anlisis Factorial se utiliza desde el Enfoque exploratorio no se
establecen hiptesis previas acerca del nmero de dimensiones, es la propia tcnica la que nos
aportara esta informacin.
Desde el Enfoque confirmatorio se establecen a priori hiptesis acerca de la
estructura subyacente y del nmero de dimensiones, y mediante las tcnicas oportunas, se
comprueba si se pueden aceptar las hiptesis propuestas.
Bajo el epgrafe Anlisis factorial (AF) se incluyen una serie de tcnicas
estadsticas, cuyo objetivo es representar y explicar un conjunto de variables observables (tems
de un test, conjunto de tests, escalas, etc.) mediante un menor nmero de variables latentes o
inobservables, llamadas factores. Cada factor, se podra considerar como un constructo (variable
latente) que vendra definido, por las variables observables que lo conforman. Estas variables,
son las que van a permitir dar una interpretacin psicolgica al constructo (factor).
Para llevar a cabo un anlisis factorial se parte de un conjunto de n medidas,
tomadas a la misma muestra de sujetos, en un conjunto de variables observables (por ejemplo,
las puntuaciones obtenidas por una muestra de sujetos en los n tems de un test) y, a partir de
ellas, se obtiene una matriz (n X n) con las intercorrelaciones entre todas ellas. Es a partir de esa
matriz de correlaciones cuando, aplicando alguna tcnica estadstica de anlisis factorial, se
intenta identificar un nmero ms reducido de variables latentes llamadas factores.
Cuando en un mismo factor se agrupan mltiples indicadores del constructo, se
obtiene evidencia de la validez convergente.
Cuando en el anlisis, se han obtenido medidas de otros constructos y stas aparecen
agrupadas en distintos factores, se obtiene evidencia de validez discriminante.
: supongamos que a la matriz de correlaciones obtenidas en el ejemplo anterior, se le
hubiera aplicado alguna tcnica de Anlisis factorial, y que la estructura factorial encontrada
hubiese sido la siguiente:

11

Variables
RN (V-F)
RN (E-M)
RN (F-I)
FE (V-F)
FE (E-M)
FE (F-I)
RA (V-F)
RA (E-M)
RA (F-I)

Factor 1
0.86
0.75
0.92
.
.
.
0.42
0.51
.

Factor 2
.
.
.
0.82
0.74
0.63
0.33
.
0.54

: cmo podemos observar, tras la factorizacin se han


obtenido 2 factores. En el primero de ellos: se agrupan las medidas correspondientes a
las variables utilizadas como indicadores del constructo Razonamiento numrico, junto
a dos, correspondientes al constructo Razonamiento Abstracto. El segundo Factor: est
definido por todas las medidas correspondientes a las variables utilizadas como
indicadores del constructo Razonamiento espacial, junto a otras dos correspondientes al
Razonamiento abstracto. Estos resultados parecen indicar que, en realidad, estamos ante
2 constructos bien definidos (RN y RE); respecto al tercer constructo hipotetizado (RA),
sera necesario hacer una nueva evaluacin del mismo, estudiar ms detenidamente su
marco terico, o bien revisar los tests utilizados para su medicin.

Este tipo de estudios de validacin, permiten obtener evidencia acerca del grado en que
las puntuaciones obtenidas en el test, pueden utilizarse eficazmente para hacer inferencias acerca
del comportamiento real de los sujetos, en un criterio, que no puede ser medido directamente,
bien por no estar disponible en el momento de la investigacin, bien porque su medida puede
resultar difcil o costosa y, por lo tanto, sea aconsejable obtener informacin del mismo por
otros procedimientos.
En los estudios de validacin referida al criterio, el objetivo principal es evaluar la
hiptesis de relacin entre test y criterio. La forma de analizar esta relacin, depende de muchos
factores, entre ellos, la complejidad del criterio y la dificultad para definirlo claramente. Para
Croker y Algina se suelen utilizar 2 tipos de ndices o medidas para describir la capacidad
de un test o conjunto de tests, para predecir un criterio:
coeficiente de validez, de determinacin, de
alineacin, de valor predictivo, etc...
(errores de estimacin).
Este tipo de estudios se suelen realizar desde 2 perspectivas diferentes, dependiendo de:

12

El uso que se vaya a dar al test y


El tipo de inferencias que se vayan a hacer
Validez predictiva cuando los tests se van a utilizar para la seleccin, clasificacin o
colocacin de personas en determinados programas o puestos de trabajo, lo interesante
es analizar la validez predictiva de los tests, es decir, su capacidad para pronosticar a
partir de las puntuaciones obtenidas por los sujetos, su posterior rendimiento en el
programa de formacin, en el trabajo, en un curso de formacin etc. Es necesario
recordar, que cuando se trata de obtener evidencia acerca de la validez predictiva de un
test, la medida del criterio se obtiene con posterioridad a la del test.
Validez concurrente si por el contrario, se trata de utilizar los test para hacer un
diagnstico, es ms adecuado llevar a cabo un estudio de la validez concurrente. En
estos estudios, la medida del criterio se obtiene a la vez que la del test.
A diferencia de lo que ocurra en el proceso de validacin de constructo, la validacin
referida al criterio, es un proceso en el que la teora no juega el papel principal, en su lugar, se
acenta el inters en el aspecto emprico del proceso ms que en el terico. No obstante, un
anlisis cuidadoso y una conceptualizacin terica del criterio, facilitan la tarea de aislar las
dimensiones y subdimensiones que lo conforman, de manera que, cada una de ellas, pueda ser
predicha por diferentes variables (validacin de constructo del criterio). Un estudio de
validacin de constructo del criterio, ayudar a determinar las dimensiones a medir, cmo se
medir cada una de ellas y si se desea, cmo combinarlas.
Para disear un estudio de validacin referida al criterio, es necesario seguir una serie
de pasos:
Definir claramente el criterio que se quiere medir.
Identificar el indicador o indicadores que se van a utilizar para obtener la medida del
criterio.
Seleccionar una muestra de sujetos, que sea representativa de la poblacin en la que
posteriormente se va a utilizar el test
Aplicar el test a la muestra de sujetos y obtener una puntuacin para cada uno de ellos.
Obtener una medida, de cada sujeto, en el criterio, bien en el mismo momento de la
aplicacin del test (validacin concurrente) o bien al cabo de un cierto tiempo
(validacin predictiva).
Determinar el grado de relacin entre las puntuaciones obtenidas por los sujetos en el
test y la medida criterio.

Ya se ha comentado que cuando los tests se utilizan para la seleccin, clasificacin y


colocacin de las personas en determinados puestos de trabajo o programas especficos, los
estudios de validacin tienen como objetivo estudiar la efectividad con la que se puede
pronosticar (inferir), a partir de las puntuaciones que hayan obtenido los sujetos en los test, la
eficiencia o xito alcanzado en el puesto de trabajo o en el programa en el que hayan sido
admitidos. Se trata por lo tanto, de utilizar los tests para seleccionar aquellas personas que vayan
a tener una mayor probabilidad de realizar un trabajo o aprovechar el programa con xito.
En este punto, surge el problema de analizar qu es aquello que constituye el xito.
Este concepto es algo muy complejo (un constructo terico) que tiene muchas facetas y, por

13

tanto, es muy difcil de definir de forma precisa y ms difcil todava obtener una medida
adecuada y completa del mismo. Recordemos que en nuestro ejemplo de la seleccin de
vendedores, se utiliz como indicador del criterio de xito, el nmero de ventas realizadas en
una semana; se trata de un indicador de tipo prctico, fcil de obtener y probablemente, de cara
al cliente, es un indicador vlido. Sin embargo, otros indicadores del criterio resultan ms
difciles de operativizar, como por ejemplo, al intentar determinar qu es lo que constituira el
xito como profesor de psicometra, indicadores como: su capacidad de empata, su nivel de
conocimientos, la calidad de sus publicaciones
Tanto en un caso como en otro, tenemos que tener en cuenta que todos los indicadores son
parciales y no ofrecen una comprensin completa del criterio. Entonces Cmo decidir cul
es el indicador que se debe elegir?
Thorndike y Hagen: consideran que los indicadores deben cumplir una serie de requisitos:
Que sean relevantes un indicador es relevante en la medida en que se corresponde
con el criterio. No existe evidencia emprica que nos permita decidir si un indicador es
relevante o no. Para apreciar la relevancia, es necesario tener en cuenta consideraciones
racionales y apoyarse en los juicios de expertos. La presencia de indicadores
irrelevantes, puede influir negativamente en las predicciones que se hagan y las
decisiones que se tomen. As, cuando un profesor est evaluando un examen de
matemticas de un nio, en el juicio que emita acerca de su capacidad, pueden estar
influyendo otros factores como las faltas de ortografa o la presentacin. Estos factores,
pueden ser irrelevantes para la medida de la capacidad matemtica del nio, y su
influencia, atenuar la importancia del indicador seleccionado como relevante de aquello
que se quiere predecir.
Que estn libres de sesgos es decir, que las medidas del criterio, representen la
verdadera competencia de los sujetos y no estn determinadas por factores que acten
de manera diferencial en determinados grupos. De este modo, si se quiere evaluar la
competencia de las secretarias de una empresa, pidindoles a sus jefes directos que las
evalen, el juicio de los jefes ser un indicador libre de sesgos, si la evaluacin que
hagan de la competencia de sus secretarias, no depende ms que de su competencia
profesional y no de otros factores.
Que sean fiables es decir, las medidas que proporcionen los indicadores (medidas del
criterio) han de ser estables. Una persona no puede ser considerada competente para el
trabajo que realiza un da y al da siguiente ser considerado incompetente. Si esto
ocurriese, si la medida del criterio no fuese fiable, sera imposible encontrar un tests
capaz de pronosticarla.
Que sean accesibles a la hora de seleccionar los indicadores, se suelen presentar
problemas de distinta ndole. Pueden ser problemas econmicos, que haya que esperar
mucho tiempo para poder obtener la medida del criteriotodas estas limitaciones hay
que tenerlas en cuenta a la hora de seleccionar los indicadores y, trata en la medida de lo
posible, de seleccionar aquellos que sean ms accesibles, siempre y cuando cumplan
con los otros requisitos.

Cuando se quiere obtener un ndice numrico que evidencie la validez de un test en


relacin con un criterio, se pueden utilizar numerosos procedimientos, aunque los ms

14

utilizados estn basados en correlaciones. No obstante, la utilizacin de una tcnica u otra va a


depender de:
El diseo de recogida de datos para la validacin y
Del nmero de variables implicadas:

Un nico test predictor y un slo indicador del criterio Los procedimientos ms


utilizados son la correlacin y el modelo de la regresin lineal simple. Segn la
naturaleza de las variables implicadas, se utilizar un tipo de correlacin u otra
(correlacin de Pearson, biserial, biserial puntual, coeficiente phi, tretracrica etc...)
Varios tests predictores y un slo indicador de criterio en ocasiones se utiliza una
batera de tests para predecir un nico criterio. En estos casos, los procedimientos que
se utilizan son: la correlacin y la regresin lineal mltiple. Si el criterio es cualitativo,
se suele utilizar otra tcnica multivariante denominada anlisis discriminante y cuando
se utilizan criterios dicotmicos, la regresin logstica.
Varios predictores cuantitativos y varios indicadores del criterio cuantitativos en
estos casos las tcnicas ms adecuadas son la regresin lineal mltiple y la correlacin
cannica. Sin embargo, rara vez se utilizan a la hora de llevar a cabo un estudio de
validacin, por la dificultad para interpretar los resultados que proporcionan.
Procedimientos basados en la teora de decisin: validez y utilidad en las decisiones
los procedimientos propuestos, se basan en diferentes mtodos para optimizar las
decisiones realizadas con el test: tcnicas mximin y mnimax y, especialmente, la
Teora de la utilidad multiatributo.

Vamos a exponer aquellas ms importantes para comprender la forma de llevar a cabo un


estudio de validacin.

La correlacin y la regresin lineal simple son, en este caso, las tcnicas ms


utilizadas para obtener evidencia acerca del grado en que las puntuaciones obtenidas por los
sujetos pueden ser utilizadas para predecir las que obtendran en el criterio:
La correlacin, porque nos permitir conocer el grado de asociacin entre el test y el
criterio.
El modelo de regresin, porque nos permitir pronosticar, a partir de las
puntuaciones obtenidas en el predictor, las puntuaciones en el criterio.
Nosotros slo vamos a exponer su aplicacin, para estudiar las relaciones entre el test y el
criterio.

Correlacin entre las puntuaciones obtenidas por los sujetos en el test


predictor y las obtenidas en el criterio. A partir de esta definicin, se pone de manifiesto la
importancia que tiene el indicador elegido para obtener la medida del criterio ya que, en ltima
instancia, a partir de las puntuaciones obtenidas por los sujetos en el test, se podrn obtener
tantos coeficientes de validez como indicadores del criterio se elijan para su validacin. As
mismo, un test puede ser muy vlido para predecir un criterio cuando se utiliza un determinado

15

indicador y obtener coeficientes de validez prcticamente nulos con respecto a otros


indicadores.
El tipo de correlacin utilizada para el clculo del coeficiente de validez, depender de la
naturaleza de las variables implicadas. En la siguiente tabla, se expone cul es el ndice ms
adecuado en cada caso:<
INDICADOR
CRITERIO
Continua
Dicotomizada
Dicotmica

Continua
Pearson
Biserial
Biserial puntual

TEST
Dicotomizada
Biserial
Tetracrica
biserial

Dicotmica
Biserial puntual
biserial

Si designamos por X las puntuaciones del test y por Y las del indicador del criterio, la
frmula del coeficiente de validez ser:
Correlacin de Pearson cuanto tanto el test (X) como el criterio (Y) son 2 variables
cuantitativas continuas:
N XY X Y
rxy =
2
2
2
2

N X ( X ) N Y ( Y )

Correlacin biserial siendo X la variable cuantitativa e Y la variable dicotomizada:


.
X p X q pq X p X p
=
rb =
Sx
y
Sx
y
X p = Media en X de los que obtuvieron un 1 en Y.
X q = Media en X de los que obtuvieron un 0 en Y.

S x = Desviacin tpica en X de todas las personas de la muestra.


p y q= Proporcin de personas que obtuvieron un 1 y un 0 respectivamente en Y.
y = ordenada que en una distribucin normal corresponde a la abscisa que divide el rea
total en dos partes iguales a p y q.
X = Media en X de todas las personas de la muestra.
Correlacin biserial puntual X la variable continua e Y la dicotmica (los smbolos
incluidos en esta frmula, tienen el mismo significado que los de la frmula anterior)
=
rbp

X p Xq
=
pq
Sx

Xp X
Sx

p/q

Coeficiente las 2 variables son dicotmicas:

16

cb ad

( a + b )( c + d )( a + c )( b + d )

Dnde: a, b, c y d, representan el nmero de personas de la muestra, cuyas puntuaciones


en X y en Y son respectivamente (0,1), (1,1), (0,0), (1,0).
Para una mejor comprensin, se puede construir una tabla de doble entrada:

X
0
a
c

1
0

1
b
d

Coeficiente biserial la variable X se ha dicotomizado y la variable Y es


dicotmica:

biserial =

bc ad

( a + b )( c + d )

pq
y

Dnde: a, b, c y d, tienen el mismo significado que en la frmula anterior y p, q e y, el


mismo significado que en la correlacin biserial puntual. Se trata de un hbrido entre los
dos coeficientes:

Correlacin tetracrica tanto X como Y son variables continuas que se han


dicotomizado artificialmente. Su clculo es muy laborioso, pero se han ofrecido algunas
aproximaciones muy sencillas.
La ms utilizada, consiste en calcular la razn bc/ad y consultar la tabla
correspondiente.
Si la razn es menor que la unidad: se debe usar la recproca ad/bc para
consultar la tabla, y en este caso, la correlacin sera negativa.
El significado de a, b, c y d es el mismo que en las correlaciones anteriores (tabla de
doble entrada)

Sea cual sea el coeficiente utilizado para calcular el coeficiente de validez: Los
valores que puede alcanzar van a estar incluidos en el intervalo -1 y 1.

Una vez conocido el grado de asociacin entre el test y el criterio (coeficiente de


validez), se puede utilizar el modelo de regresin para hacer pronsticos. En los temas
correspondientes al estudio de la fiabilidad, se explic la utilizacin del modelo de regresin

17

lineal para hacer estimaciones acerca de las puntuaciones verdaderas de los sujetos, a partir de
su puntuacin emprica. Ahora, vamos a ver de qu forma se va a utilizar el modelo para, a
partir de las puntuaciones obtenidas por los sujetos en el test, hacer estimaciones acerca de
su puntuacin en el criterio.
Mediante el modelo de regresin se intenta buscar una ecuacin lineal que haga
mnimos los errores de pronstico. Dicha ecuacin pondr de manifiesto la relacin de
dependencia lineal entre el test y el criterio, y tomar la siguiente forma:
= +

a ordenada en el origen o termino constante, que representa el valor pronosticado en


el criterio (Y) cuando en el test (X) se obtiene un valor 0.
b pendiente de la recta de regresin. Representa el cambio en los valores del criterio
Y, por cada cambio unitario en el test X.

El valor de la pendiente (b): se puede obtener en funcin del coeficiente de validez y de las
desviaciones tpicas de las puntuaciones obtenidas por los sujetos en el test y en el criterio,
mediante la siguiente expresin:
=

Una vez calculado el valor de la pendiente, se calcula el de la ordenada en el origen, mediante la


siguiente expresin:
=
Esta expresin pone de manifiesto que la recta de regresin debe pasar por el punto (, )

Una vez obtenidos los valores de a y de b, se puede obtener la ecuacin de la recta de regresin,
que puede venir dada en tres tipos de puntuaciones:

Puntuaciones directas: = + = ( ) +

Puntuaciones diferenciales: = ( )

18

Puntuaciones tpicas: =
La diferencia entre la ecuacin de regresin en puntuaciones directas y
diferenciales es: que en estas ltimas, la ordenada en el origen es 0 y, por lo
tanto, la ecuacin pasa por el origen de coordenadas. Ahora bien, al tener ambas
ecuaciones la misma pendiente, se trata de dos rectas paralelas.
Las ecuaciones de regresin en puntuaciones tpicas: al igual que las
puntuaciones diferenciales, pasan por el origen de coordenadas y, teniendo en
cuenta que en la escala de puntuaciones tpicas la desviacin tpica es la unidad,
la pendiente de la recta de regresin ser el coeficiente de validez.
Hasta aqu, hemos utilizado una muestra de sujetos a la que se les ha aplicado el test cuya
capacidad predictiva respecto al criterio se quiere validar; a estos mismos sujetos, se les ha
calificado en el criterio y, con todos esos datos, se han construido las ecuaciones de regresin.
Pues bien, la verdadera utilidad de estas ecuaciones, no est en pronosticar las puntuaciones de
los sujetos en el criterio (no tendra mucho sentido, ya que conocemos las puntuaciones que
realmente han obtenido), sino en la posibilidad de pronosticar la puntuacin que obtendrn en el
criterio, otra muestra de sujetos, de las mismas caractersticas que la muestra utilizada para la
construccin de las ecuaciones de regresin, a partir de las puntuaciones que obtengan en el test.
Mediante la aplicacin de las ecuaciones de regresin, obtenemos una estimacin puntual de
las puntuaciones de los sujetos en el criterio.

El coeficiente de validez indica la eficacia del test o variable predictora para estimar el criterio.
En la medida en que el coeficiente de validez sea ms alto, la estimacin ser ms exacta. En el
lmite, cuando el coeficiente de validez, fuera la unidad, el valor estimado coincidira con la
puntuacin que realmente obtuvieran los sujetos en el criterio. Sin embargo, dado que nunca se
alcanzan coeficientes de validez, perfectos (iguales a 1 en valor absoluto), la estimacin del
criterio, estar afectada por el denominado error de estimacin del criterio y se define como:
la diferencia entre la puntuacin que ha obtenido el sujeto en el criterio y la que se le pronostica
mediante la ecuacin de regresin:

=
Con cada sujeto, se comete un determinado error de estimacin del criterio. A la varianza de
todos los errores de estimacin cometidos con los sujetos de la muestra seleccionada, se le
denomina varianza residual, varianza error o error cuadrtico medio y viene expresada
por:

19

( )2

Y = puntuaciones obtenidas por cada sujeto en el criterio.


Y= puntuaciones pronosticas a cada sujetos mediante la ecuacin de regresin.
N = nmero de sujetos de la muestra
La Varianza error representa la variabilidad media de las puntuaciones de los sujetos en el
criterio, respecto a la puntuacin que se les pronostica mediante la recta de regresin.
La desviacin tpica de todos estos errores de estimacin del criterio cometidos con los sujetos
de la muestra seleccionada, se denomina: Error tpico de estimacin y su frmula es:
( )2
=

Cuando se utilizan las ecuaciones de regresin para hacer pronsticos se cumplen unas
propiedades fundamentales:
La media de las puntuaciones obtenidas por los sujetos en el criterio, es igual a la media
=

de las puntuaciones pronosticadas:

La suma de todos los errores de estimacin es 0, lo que implica, que la media de los
errores cometidos sea igual a 0: (Y Y) = 0
La varianza de las puntuaciones obtenidas por los sujetos en el criterio (Variable
Dependiente Y), es igual a la varianza de las puntuaciones pronosticadas, ms la

+
varianza de los residuos o varianza error: =

Debido a los errores de estimacin que se cometen al hacer los pronsticos, ms que
estimaciones puntuales, es conveniente hacerlas por intervalos. Para ello, asumiendo que la
distribucin de dichos errores se ajusta a una distribucin normal, cuya desviacin tpica,
viene dada por el error tpico de estimacin, se establece un intervalo confidencial en torno
a la puntuacin pronosticada. Los pasos a seguir son los siguientes:
Determinar un nivel de confianza y buscar la puntuacin tpica asociada.
Calcular el error tpico de estimacin.
Calcular el error mximo.
Aplicar la ecuacin de regresin correspondiente y obtener la puntuacin pronosticada.
Establecer el intervalo de confianza.

20

Ya hemos comentado que la varianza de las puntuaciones obtenidas por los sujetos en el
criterio (Y: variable dependiente), se puede expresar como la suma de la varianza de las
puntuaciones pronosticadas (Y) a partir de la variable predictora y la varianza de los
residuos o varianza error:

=
+

A partir de esta ecuacin, se puede averiguar la proporcin de la varianza de las puntuaciones


de los sujetos en el criterio, que se puede explicar a partir de las varianza de las puntuaciones
en el predictor (varianza de las puntuaciones pronosticadas) y qu proporcin no se puede
explicar y corresponde a los residuos. Si dividimos todos los trminos de la ecuacin, por la
varianza de las puntuaciones del criterio, tendremos:
2
2

1= 2+ 2

Ahora bien, si nos fijamos en la ecuacin, en el segundo miembro, el primer trmino representa
la proporcin de la varianza del criterio, que se puede pronosticar o predecir a partir del tests o
variable predictora, y es igual a coeficiente de validez al cuadrado. Por lo tanto, la expresin
anterior se puede expresar tambin como:
2

2
2 = 1

As mismo, a partir de esta ecuacin, podemos deducir otra forma de expresin de la varianza
error y del error tpico de estimacin:

2
2 )

= 2 (1
2
. = 1

Cuando la escala que se utiliza, es la de puntuaciones tpicas, dado que la desviacin tpica es la
unidad, la frmula del error tpico de estimacin es:
2
. = 1

21

Una vez visto esto, vamos a interpretar los resultados obtenidos, en funcin de 3 coeficientes

El coeficiente de determinacin, equivale al coeficiente de validez al cuadrado y representa la


proporcin (o porcentaje) de la varianza de las puntuaciones de los sujetos en el criterio (Y:
variable dependiente), que se puede pronosticar a partir del test (X: variable predictora o
independiente). Tambin se define como la varianza comn o asociada entre el test y el criterio

2
. =

. = =

2
= 1

Aunque la frmula es equivalente a la del error tpico de estimacin en puntuaciones tpicas, de


cara a la interpretacin de este coeficiente, conviene saber que, en realidad, indica la proporcin
que representa el error tpico de estimacin, respecto a la desviacin tpica de las puntuaciones en
el criterio.
En la medida en que el error tpico, sea ms pequeo que la desviacin tpica del
criterio, el coeficiente K ser menor.
El valor de K oscila entre 0 y 1: ser mximo cuando el coeficiente de validez sea 0 y
mnimo cuando el coeficiente de validez sea 1.
El coeficiente de alienacin, representa la inseguridad o el azar, que afecta a los
pronsticos.
El coeficiente de alineacin al cuadrado es el complementario del coeficiente de
determinacin, y representa, por lo tanto, la proporcin (o el porcentaje) de la varianza de las
puntuaciones de los sujetos en el criterio que no se puede predecir a partir del test, esto es, la
proporcin de varianza error que hay en la varianza de las puntuaciones de los sujetos en el
criterio.

2
. . = 1 1

22

Es el complementario del coeficiente de alineacin y es otra forma de expresar la capacidad


del test para pronosticar el criterio, ya que representa la proporcin (o porcentaje) de seguridad
en los pronsticos.
: Supongamos que se quiere llevar a cabo un estudio de validacin relativa al criterio,
de un test de aptitud mecnica (X). Para ello, se aplica a una muestra de sujetos, representativa
de la poblacin en la que se va a utilizar el test. Estos sujetos, son evaluados posteriormente por
sus supervisores, en una escala de 0 a 10, utilizando como indicador de su capacidad mecnica
el tiempo, medido en horas, que tarda cada uno en reparar un coche (Y) con la misma avera.
Los resultados (X e Y) aparecen en la tabla.
- Como vemos, tanto el test como la medida del criterio, son variables cuantitativas, por
lo tanto, para calcular el coeficiente de validez, el ndice ms adecuado es la
correlacin producto-momento de Pearson:
=

[ 2 ( )2 ][ 2 ( )2 ]

Para hallar el coeficiente de validez, hacemos los siguientes clculos:


X
12
14
15
7
9
4
61

Y
9
7
10
8
5
4
43

X2
144
196
225
49
81
16
711

Y2
81
49
100
64
25
16
335

X.Y
108
98
150
56
45
16
473

Y
7.89
8.68
9.08
5.91
6.71
4.73
43

(Y-Y)
1.11
-1.68
0.92
2.09
-1.71
-0.73
0

(Y-Y)2
1.23
2.82
0.85
4.37
2.92
0.53
12.72

El coeficiente de validez ser igual a:


=

6 4.73 43.61

[6 711 (61)2 ][6 335 (43)2 ]

215
= ,
296,22

Dado que el valor mximo del coeficiente de validez, es la unidad, se puede deducir que el test
tiene una buena capacidad predictiva. Ms adelante, profundizaremos en la interpretacin de los
resultados obtenidos.
Las ecuaciones de regresin: una vez obtenido el coeficiente de validez, vamos a
calcular las ecuaciones de regresin en puntuaciones directas, diferenciales y tpicas.
Una vez construidas esas ecuaciones de regresin, se pueden utilizar posteriormente
para predecir las puntuaciones (estimacin/pronstico) que obtendrn en el criterio,
otros sujetos, de las mismas caractersticas que los de la poblacin sobre la que se
construyeron, a partir de sus puntuaciones en el test. Para calcular las puntuaciones
pronosticadas, basta sustituir el valor de X en la ecuacin, por las puntuaciones
obtenidas por los sujetos; estas puntuaciones, se recogen en la columna 6 de la tabla
anterior. Recordemos, que la media de las puntuaciones pronosticadas (), es igual que
la de las puntuaciones obtenidas por los sujetos en el criterio ()

23

En la columna 7, aparecen recogidos los errores de estimacin cometidos con cada uno de los
sujetos al hacer los pronsticos ( ); recordemos que la suma de estos errores, es igual a
cero. As mismo, hay que recordar que si el coeficiente de validez hubiese sido la unidad, los
errores de prediccin o de estimacin, hubiesen sido nulos. (Como ejercicio complementario, el
alumno puede calcular las puntuaciones pronosticadas en puntuaciones diferenciales y tpicas).
As las ecuaciones de regresin seran:
En puntuaciones directas: = + , por lo que tenemos que calcular los valores
correspondientes a b y a

Como sabemos: =

, 2 , 2
,

= , por tanto, tenemos primero que calcular

61
43
=
=
= ,
=
= ,
6
6

2
711
2 =
10,172 = 15,07; = 3,88
2 =

6
2
335
2 =
7,172 = 55,84; = 2,10
2 =

6
=

Por tanto:
=

2,10

= 0,73
= 0,395

3,88

= = 7,17 0,395 10,17 = 3,15

Quedando las rectas de regresin:


En puntuaciones directas:

En puntuaciones diferenciales:

= 3,15 + 0,395
= = 0,395

En puntuaciones tpicas:

= = 0,73
El error tpico de estimacin: como hemos dicho, la varianza de las puntuaciones de
los sujetos en el criterio, es igual a la varianza de las puntuaciones pronosticadas, ms la
2
varianza de los errores de estimacin (.
):
2
2
2 =
+ .

2 = 4,43

2
322,36
2 =
51,41 = 2,31

6
( )2
2
=
0 = 2,12
.

2
2
2 =
+ .
4,43 = 2,31 + 2,12

24

La desviacin tpica de los errores de estimacin, se denomina error tpico de estimacin, y en


nuestro ejemplo sera.
2
= 2,12 = 1,46
. =

Intervalos confidenciales:

Ya contamos con todos los datos para poder hacer un estimacin acerca de la puntuacin que se
le pronosticara a un sujeto en el criterio, a partir de su puntuacin en el test. Supongamos, que
queremos saber qu puntuacin le correspondera en el criterio, a un sujeto que en el test
hubiese obtenido una puntuacin X=13. Vamos a hacer una estimacin puntual y una
estimacin por intervalos. Para establecer los intervalos confidenciales o de confianza, dijimos
que haba que seguir una serie de pasos.
Determinar un nivel de confianza y buscar la puntuacin tpica asociada: para este
ejemplo, el NC= 95%, por lo tanto Z C = 1,96
Calcular el error tpico de estimacin: que ya lo tenamos calculado S YX =1,46
Calcular el error mximo. . = = 1,96 1,46 = 2,86
Aplicar la ecuacin de regresin correspondiente y obtener la puntuacin
pronosticada.
Puntuacin pronosticada en puntuaciones directas: = 3,15 +
0,396 (13) = ,
Puntuacin pronosticada en puntuaciones diferenciales: = 0,396(13
10,17) = ,
Puntuacin pronosticada en puntuaciones tpicas:
13 10,17
= =
=
= 0,304 = 0,73 0,304 = ,

3,88
Establecer el intervalo de confianza.
Las puntuaciones pronosticadas en el apartado anterior son, la estimacin puntual, de las que
obtendra en el criterio, el sujeto que en el test obtuvo una puntuacin de 13 puntos. Ahora
hacemos la estimacin por intervalos:
En puntuaciones directas:
. = 8,28 2,86 5,42 11,14

En puntuaciones diferenciales:

. . = 1,18 2,86 1,68 4,04

En puntuaciones tpicas: para establecer el intervalo en puntuaciones tpicas, hay que


tener en cuenta que el error tpico de estimacin es diferente y hay que calcularlo, por lo
que el E.Mx. ser tambin diferente.
= 1 2 = 1 0,732 = 1 0,53 = 0.69, por tanto, en puntuaciones tpicas, el
E.Mx, ser:
= = 1,96 0,69 = 1,35, por tanto, el intervalo de confianza en puntuaciones
tpicas ser:
= 0,22 1,35 1,13 1,57
A la vista de los resultados obtenidos, podemos decir que la puntuacin en el criterio de ese
sujeto, estar comprendida en los intervalos encontrados y eso lo afirmamos con un nivel de

25

confianza del 95%, o lo que es lo mismo, con una probabilidad igual o menor de 0,05 de
equivocarnos.
Coeficiente de determinacin: el coeficiente de determinacin, vena expresado por:
2

2,31
2
. =
= 2=
= 0,52
4.43
Este resultado se puede multiplicar por 100 y expresarse como porcentajes. De este modo,
podemos decir que existe un porcentaje de varianza comn o asociada entre ambas variables de
un 52%, o lo que es lo mismo, a partir de la variacin de las puntuaciones obtenidas por los
sujetos en el test, se puede predecir el 52% de la variacin de las puntuaciones de esos mismos
sujetos en el criterio, quedando un 48% de la varianza de las puntuaciones en el criterio, sin
explicar por el test; es decir, un 48% de varianza error (S2 XY )
2

2,12
=
= 0,48

4,43
Coeficiente de alienacin: definido por la expresin:

2
. = = 1
=
= 0.69

Esto quiere decir que el error tpico de estimacin, representa el 69% de la desviacin tpica de
las puntuaciones en el criterio, y que, por lo tanto, hay un porcentaje alto de inseguridad en los
pronsticos, frente al 31% de seguridad (C.V.P)
Coeficiente de valor predictivo: definido por:
2
. . = 1 . = 1 1
= 1 0,69 = 0,31

26

Vous aimerez peut-être aussi