Académique Documents
Professionnel Documents
Culture Documents
porque la gran mayora de ellas no pueden ser observadas de forma directa y, por lo tanto, no se
pueden medir directamente, dimos una solucin al problema planteando que la medicin se
poda llevar a cabo mediante indicadores. Con esto, lo que queremos decir es que para poder
medir este tipo de variables, a las que denominamos constructos tericos, variables latentes o
atributos psicolgicos es necesario seleccionar una serie de conductas que representen algn
aspecto de ese constructo y que sean consideradas indicadores del mismo. Dichas conductas, Ya
s son observables de forma directa y por lo tanto, pueden ser medidas mediante los
instrumentos adecuados, elaborados ad hoc. Diremos que se ha obtenido una medida del
constructo, cuando se obtenga una medida de las conductas seleccionadas como indicadores.
Ahora bien, los instrumentos elaborados para medir estas conductas, han de cumplir una
serie de requisitos para que puedan ser utilizados con las suficientes garantas de calidad; entre
estos requisitos, hay dos fundamentales:
Que proporcionen medidas fiables a partir de las cuales
Se puedan hacer inferencias vlidas
La Fiabilidad de las medidas como hemos visto en el tema 4, hace referencia al grado en que
las puntuaciones obtenidas al aplicar los tests, reflejan su nivel real en el rasgo o caracterstica
medida, es decir, al grado en que esas puntuaciones estn libres de errores aleatorios, presentes
en cualquier proceso de medicin.
La validez de las inferencias que se puedan hacer, a partir de las puntuaciones obtenidas por
los sujetos al aplicarles el test (que abordaremos en este tema y el siguiente) se refiere al grado
de relacin que se puede establecer entre la evidencia emprica obtenida y el concepto terico
que se tiene del constructo que se intenta medir.
Algunas de las crticas que se han hecho en relacin con la construccin y evaluacin de
los tests es, que muchas veces, el proceso ha estado orientado a obtener instrumentos de
medicin fiables, ms que a la obtencin de instrumentos vlidos. A nuestro juicio, por muy
fiables que sean las medidas que proporciona un test, si stas no se refieren a aquello que se
quiere medir, difcilmente se podrn interpretar las puntuaciones obtenidas, de ah la
importancia del tema que vamos a ver.
En el presente tema, expondremos las distintas clases de evidencia que se pueden
obtener a la hora de llevar a cabo un proceso de validacin: Contenido, constructo y relativa al
criterio, haciendo hincapi, en cul sera la ms adecuada en cada caso y exponiendo los
procedimientos estadsticos que van a permitir su obtencin e interpretacin
Respecto a los estudios de validacin referida al criterio: en este tema nos
centraremos en la forma de llevarlos a cabo cuando hay un nico predictor y un solo indicador
del criterio, dejando para el tema siguiente, los casos en los que se cuenta con varios
predictores. Resulta necesario, que el alumno aprenda a diferenciar claramente las distintas
formas de llevar a cabo un estudio de validacin y la forma de interpretar la evidencia obtenida,
pues slo as se estar en condiciones de interpretar las puntuaciones obtenidas por los sujetos
en los tests y, a partir de ellas, tomar decisiones con una cierta garanta de xito.
seleccionar algn indicador (o indicadores), que permita obtener una medida del criterio
externo; as por ejemplo, un indicador puede ser el nmero de ventas realizadas en una semana
(variable observable relacionada con el constructo).
Una vez seleccionado el indicador, se aplicar el test a todos los aspirantes al puesto y,
despus de un cursillo de tcnicas de ventas, se les pondr a vender durante una semana; pasada
sta, se les evaluar en funcin del nmero de ventas realizadas, y ese dato, ser su medida en el
criterio externo.
Para comprobar si el test tiene validez predictiva, se calcular la correlacin entre las
puntuaciones que han obtenido en el test todos los aspirantes y el nmero de ventas realizadas
en la semana de prueba. Si la correlacin es alta, diremos que el test tiene validez predictiva,
puesto que, los que hayan obtenido puntuaciones altas en el test, sern tambin los que hayan
realizado un mayor nmero de ventas, y los que obtengan puntuaciones bajas en el test, habrn
realizado un nmero de ventas menor. Como puede verse, el estudio de la validez predictiva,
supone una alta dificultad y un alto coste, y en ocasiones resulta imposible llevarlo a cabo o,
simplemente, no tiene sentido hacerlo.
Por este motivo, poco a poco, fue surgiendo otra forma de estudiar la validez de los test
relacionada con criterios externos, la validez concurrente, que se diferencia de la validez
predictiva en que la recogida de la informacin, tanto del test como del criterio, se hace
simultneamente.
Vamos a seguir con el ejemplo anterior, pero con un enfoque diferente. Queremos
disponer de un test que sirva para hacer una seleccin de vendedores para cubrir 4 puestos de
trabajo. Para ello, hacemos lo siguiente: A una muestra de vendedores de las mismas
caractersticas que los que exigen los puestos de trabajo a cubrir, se les aplica el tests cuya
capacidad predictiva se quiere estudiar y, al mismo tiempo, se pide a sus jefes directos, que los
evalen en cuanto a su grado de pericia para las ventas (por ejemplo, el nmero de ventas
realizadas en la ltima semana). De este modo, las puntuaciones obtenidas por los vendedores
en el criterio externo (n de ventas en la ltima semana) y las obtenidas en el test, se obtienen en
el mismo momento temporalValidacin concurrente.
La correlacin entre las dos series de puntuaciones, nos van a indicar, si el test puede ser
utilizado posteriormente para hacer la seleccin con ciertas garantas de xito, al avalar, en
cierta medida, que los aspirantes que obtengan mejores resultados en el test, sern buenos
vendedores.
En otras ocasiones, se puede obtener la medida del criterio con anterioridad a la del test,
hablndose en este caso de validez retrospectiva. La forma de operativizar la relacin entre el
test y el criterio, tanto en la validez predictiva, como en la concurrente y en la retrospectiva, es
mediante un Coeficiente de Correlacin.
Al mismo tiempo, y junto a las concepciones de la validez ligada a criterios externos, se
fue perfilando un nuevo enfoque de la validez, relacionada con criterios internos al propio
test: la validez de contenido: Esta nueva concepcin surge, porque hay muchos contextos en
los que no interesa demasiado estudiar la utilidad de un test para predecir otras variables y, por
lo tanto, no tiene sentido la utilizacin de criterios externos. Esto sucede sobre todo, en los tests
de conocimientos en este tipo de tests, no se utilizan criterios externos con los que
correlacionar las puntuaciones obtenidas, el planteamiento es distinto, y lo que se trata de
estudiar es hasta qu punto, a partir del contenido de los test, se puede inferir el
rendimiento en una determinada materia; el test en s mismo constituye su propio criterio.
:
Supongamos que se necesita preparar un test (examen) para medir el conocimiento que
los alumnos de Psicometra tienen de la materia. Esto, que a primera vista puede parecer
sencillo, implica un esfuerzo por definir, en primer lugar, todos los contenidos propios de la
Psicometra y, en segundo lugar, hacer un muestreo de cada uno de esos contenidos, de manera
que queden reflejados todos ellos en el test; slo de esta manera podremos tener cierta garanta
de que el test tiene validez de contenido. As, no se podra preparar un test (examen) en el que
slo hubiese preguntas de fiabilidad, ya que de las puntuaciones que obtuvieran los sujetos en el
test, no se podra inferir ms que el grado de conocimientos de los sujetos acerca de la
fiabilidad, no de la Psicometra, puesto que el dominio, universo o campo de contenidos de la
Psicometra, es algo mucho ms amplio. Recordemos que en el tema 2, cuando se abord el
problema de la construccin de instrumentos de medicin psicolgica, ya se estudi la forma de
elaborarlos de manera que tuvieran validez de contenido.
La aparicin de la validez de contenido, marc una nueva tendencia en los estudios de la
validez, al estar ms centrada en qu es lo que mide el test, que en su utilidad para predecir otras
variables. Sin embargo, la respuesta real a todos los interrogantes que dejaban sin responder los
anteriores mtodos, vendr de la mano de otra nueva concepcin de la validez: la validez de
constructo. Este tipo de validez, implica recoger toda la informacin necesaria, para poder
tener garanta suficiente, de que las conductas observables que se han elegido como
indicadores del constructo que se quiere medir, lo son realmente.
Todo esto, nos hace reflexionar sobre la importancia que tiene, a la hora de construir un test, el
definir claramente para qu se va a utilizar y qu es lo que se quiere medir. Puesto que, en la
medida en que el constructo est mejor definido, ser ms fcil especificar qu conductas
observables se van a utilizar como indicadores del mismo, una vez especificadas esas conductas,
se podrn tomar decisiones acerca de qu tems (qu contenido) se van a incluir en el tests para
medirlas. Ahora bien, que el constructo est bien definido, no nos exime de comprobar que,
realmente, las puntuaciones obtenidas al aplicar el test, miden esa caracterstica o atributo y se
pueden utilizar para el objetivo deseado, ya que pueden estar midiendo adems, alguna
caracterstica no prevista e introduciendo un error sistemtico en las puntuaciones obtenidas en
el test. El estudio de la validez de constructo del test, permitir responder a las preguntas, de si
el test mide aquello para lo que se construy y si mide slo eso. Tambin en este enfoque de la
validez, la manera de operativizar la relacin entre el test y el constructo, suele hacerme
mediante tcnicas correlacionales.
En el documento publicado por la APA en 1966, estos 4 tipos de validez, quedaron
reducidos a 3: validez de contenido, validez relativa al criterio (quedando incluidas la
concurrente y la predictiva) y validez de constructo. As mismo, se asume que los distintos
tipos de validez van unidos a objetivos concretos en el uso de test, de ah la importancia de
definir cules van a ser estos objetivos son:
Determinar el rendimiento o actuacin de un sujeto en un universo de situaciones
(contenido).
Inferir el grado en el que un sujeto posee algn rasgo o atributo (constructo) que se
supone vendr reflejado por su ejecucin en el test.
Predecir el rendimiento o comportamiento futuro (predictiva) o estimar su rendimiento
actual sobre una variable externa al test (concurrente).
En 1974 se produce un avance en la definicin del concepto de validez, ya que, por
primera vez se afirma que la validez se refiere a la adecuacin de las inferencias que se realizan a
partir de las puntuaciones de los test u otras formas de medida. Se mantiene la distincin entre
los 3 tipos de validez y se consideran como formas independientes de interpretar las inferencias
realizadas. Por otro lado, se hace ya referencia explcita, a que la validez, no es una propiedad
implcita a los tests, ya que lo que se trata de validar, no es el test en s mismo, sino las
inferencias que se hagan a partir de las puntuaciones obtenidas por los sujetos.
En 1985 y 1999 ya se define una concepcin unitaria de validez, que hace referencia
al grado en que la evidencia emprica obtenida y los conocimientos aportados por las teoras
apoyan las inferencias que se hagan a partir de las puntuaciones obtenidas en el test cuando ste
se utiliza para un objetivo concreto.
Parece haber un acuerdo ms o menos generalizado en el que, desde el punto de vista
cientfico, la nica validez que se debe considerar es la validez de constructo, y que las otras 2 (de
contenido y la relativa al criterio), quedaran incluidas en sta y seran consideradas como
estrategias de validacin para comprender mejor lo que mide un test.
Ya no se habla de distintos tipos de validez, la validacin de los tests, es un proceso
continuo, que permite obtener distintos tipos de evidencia emprica, y un proceso de validacin
ideal, debe incluir los tipos de evidencia implicados en los 3 tipos tradicionales de validez: la de
constructo, la de contenido y la relativa al criterio. Aunque siempre que se aplique un test
psicolgico es necesario llevar a cabo un estudio de validacin de constructo, (difcilmente se
puede hacer ninguna inferencia, si no se sabe lo que mide realmente el test), este tipo de
validacin no siempre es suficiente. Segn sea la interpretacin que se vaya a hacer de las
puntuaciones y el objetivo que se pretende al aplicar el test, ser necesario obtener otros tipos de
evidencia; as por ejemplo, cuando se utilizan los test en seleccin de personal, si el que una
persona sea seleccionada depende de la prediccin que se haga acerca de su rendimiento futuro
en el trabajo, ser necesario llevar a cabo un estudio de validacin relativa al criterio, y en los
tests de conocimientos, la estrategia fundamental, sera la validacin de contenido.
La evolucin del concepto de validez, tuvo lugar gracias al esfuerzo de muchos autores,
pero es de destacar algunos de los trabajos de Cronbach. Si consideramos que el trmino
validez, hace referencia a la adecuacin de las inferencias realizadas a partir de las puntuaciones
de los tests, resulta fcil definir la validacin como: proceso mediante el cual, el constructor o el
usuario de los tests, recoge la evidencia emprica necesaria para apoyar las inferencias que van a
realizar; entendiendo por evidencia tanto los datos, observaciones y hechos como los argumentos
que permitan apoyar o sustentar esos hechos.
Si esto es as, para llevar a cabo un proceso de validacin se requiere:
- Explicitar claramente, el tipo de inferencia que se quiere realizar, para a
continuacin,
- Disear el estudio emprico que permita obtener la informacin necesaria acerca del
grado en que las puntuaciones obtenidas en el test (o los tests) son tiles para el tipo de
inferencia requerida.
Siguiendo con las normas marcadas en los Estndares de 1985 y 1999, en este tema,
vamos a considerar la validez como un concepto unitario y el proceso de validacin, como un
proceso continuo que permitir recoger la evidencia necesaria para poder interpretar las
puntuaciones obtenidas al aplicar los tests para un determinado objetivo. En este sentido, no
vamos a hablar de distintos tipos de validez, sino de distintas estrategias para obtener esa
evidencia.
todos los componentes especificados de la psicometra; es decir, una muestra representativa del
dominio
La forma tpica de llevar a cabo un estudio de validacin de contenido, es utilizando
un grupo de expertos que sern los encargados de analizar 2 aspectos fundamentales:
Que el test no incluya aspectos irrelevantes del dominio de inters.
Que incluya todos los elementos importantes que definen el dominio.
Se trata de hacer un anlisis racional del contenido del test y, por lo tanto, los resultados del
estudio estarn basados en los juicios subjetivos emitidos por los expertos.
Para llevar a cabo la especificacin del dominio, (como se expuso en el tema 2), es necesario:
- Analizar las reas de contenido que se deben cubrir.
- analizar los procesos que se van a evaluar y la importancia relativa de cada uno de
ellos. En los tests educativos, se deben establecer los objetivos instruccionales que se
desean alcanzar.
- Hecho esto, se puede construir una tabla de doble entrada, en la que las columnas
representen las distintas reas de contenido (dominio) que definen el constructo a medir
y las filas las distintas operaciones o procesos cognitivos implicados a la hora de
responder a las preguntas o tems de la prueba, o los distintos objetivos instruccionales.
Las celdillas de esta tabla, incluyen el porcentaje de tems que deben contener la prueba,
en relacin con cada rea de contenido y cada proceso cognitivo empleado u objetivo
instruccional, para que se considere que el dominio est bien representado.
Para evaluar la relevancia de los tems en relacin con el dominio hay varios
procedimientos:
Uno de ellos es el propuesto por Hambleton, que consiste en presentar a los expertos
una serie de fichas, cada una de las cuales contiene un tem. Cada experto expresar en
una escala de 5 puntos el grado de ajuste de cada tem, con su correspondiente
especificacin en el dominio (conducta, rea de conocimiento) de manera que el 1
indique un mal ajuste y el 5 un ajuste muy bueno. Hecho esto, se calcula la media o la
mediana de los valores asignados por cada uno de los expertos a cada tem, y el valor
obtenido ser el que indique el grado de relevancia del tem. De esta forma, se podrn
seleccionar los tems que muestren un alto grado de ajuste y eliminar aquello que por su
bajo nivel de ajuste no sean relevantes.
La representatividad de los tems que conforman el test: hace referencia al grado en que se
han cubierto las especificaciones del dominio, tanto en cuanto a contenidos como a los objetivos
propuestos. En la medida en que el dominio este ms y mejor representado, las inferencias que
se puedan hacer acerca de las puntuaciones de los tests, sern ms precisas. Lo ideal sera, poder
contar con un banco de tems referidos al dominio de inters y a partir de este, extraer una
muestra aleatoria de tems, sin embargo, esto no siempre es posible.
: supongamos que un grupo de 100 expertos han de juzgar la relevancia de 3
tems para medir la calidad de la enseanza (constructo de inters). En la tabla adjunta, se
incluye la valoracin asignada a cada uno de los tems por el grupo de expertos:
TEMS
A
B
C
1
0
20
10
ESCALA
3
10
30
50
2
10
40
20
4
60
10
10
5
20
0
10
Para calcular la relevancia de cada tem, sabiendo que la categora 1 indica un mal ajuste entre
el tem y el constructo y la categora 5, un muy buen ajuste, calculamos la mediana de cada
tem, aplicando la siguiente frmula:
(/100)
. = +
Para ello, diseamos la tabla de frecuencias acumuladas (para saber el intervalo en el que se
encuentra la Med.)
TEMS
A
B
C
1
0
20
10
ESCALA
3
20
90
80
2
10
60
30
4
80
100
90
5
100
100
100
50 20
=4
60
50 20
= 2.25
= 1.5 +
40
50 30
= 2.9
= 2.5 +
50
= 3.5 +
Ante estos resultados, se puede decir que el tem A tiene un buen ajuste y, por lo tanto, se puede
considerar como un tem relevante para la medida de la calidad de la enseanza; los otros dos,
no deberan incluirse, puesto que el ajuste no es muy bueno.
.
Este tipo de validacin es, realmente, el que da significado a las puntuaciones de los
test, pues permite obtener evidencia de que las conductas observables que se han elegido como
indicadores del constructo (variable latente inobservable), realmente lo son. Este tipo de
estudios de validacin, permite responder, entre otras cosas, a las preguntas de si el test mide
realmente la variable que intenta medir y si existe en realidad esa variable.
Partiendo de que los tests son instrumentos que permiten describir de manera indirecta,
u operativizar, el grado en que los sujetos poseen alguna caracterstica postulada a nivel terico,
denominada constructo, la validacin de constructo ser el proceso que permitir obtener
evidencia acerca de la capacidad del tests para medirlo.
Mtodo propuesto por Campbell y Fiske y permite el anlisis de la estructura externa del
test (o conjunto de test). La lgica del procedimiento es la siguiente:
Se intenta medir un mismo constructo mediante distintos procedimientos y distintos
constructos mediante el mismo procedimiento y, una vez obtenidas todas las medidas,
calcular las intercorrelaciones entre ellas.
Si las correlaciones entre las medidas obtenidas del mismo constructo a travs de
distintos procedimientos son altas, el constructo quedar validado y se dir que existe
validez convergente.
Por otra parte, si estas correlaciones son significativamente ms altas que las obtenidas
al correlacionar las medidas de distintos constructos con el mismo procedimiento, se
dir que existe validez discriminante.
: Supongamos que se quieren medir 3 constructos: Razonamiento numrico
(RN), Factor espacial (FE) y Razonamiento abstracto (RA). Se han elaborado una serie de
pruebas con diferentes formatos: Verdadero-falso (V-F), Eleccin Mltiple (EM) y Frases
incompletas (FI). Tenemos por tanto, tres constructos diferentes y tres procedimientos distintos
de medir cada uno de ellos.
Para analizar la validez convergente y discriminate, se selecciona una muestra de sujetos a los
que se aplican todas las pruebas, obtenindose las puntuaciones de los mismos, en cada
constructo y mediante cada uno de los procedimientos. A partir de esas medidas, se calculan
todas las intercorrelaciones posibles, que pueden ordenarse en una matriz como la que aparece
en la tabla siguiente, y explicaremos los coeficientes de correlacin obtenidos
Para ver si existe evidencia de validez discriminante hay que comparar los
valores correspondientes a los ndices de validez convergente (subrayados) con los que
aparecen en negrilla. Dado que en nuestro ejemplo los primeros son bastante ms altos que
los segundos, podemos decir que en efecto, hay evidencia de validez discriminante.
10
Uno de los problemas que plantea el procedimiento de la matriz multimtodoMultirasgo, es que no existe un criterio estadstico que permita tomar decisiones acerca de si un
test tiene realmente validez convergente y discriminante, lo nico que se puede decir es que
parece haber evidencia de su existencia o de su ausencia. Actualmente, para poder obtener
mayor informacin, se est utilizando el anlisis factorial confirmatorio.
11
Variables
RN (V-F)
RN (E-M)
RN (F-I)
FE (V-F)
FE (E-M)
FE (F-I)
RA (V-F)
RA (E-M)
RA (F-I)
Factor 1
0.86
0.75
0.92
.
.
.
0.42
0.51
.
Factor 2
.
.
.
0.82
0.74
0.63
0.33
.
0.54
Este tipo de estudios de validacin, permiten obtener evidencia acerca del grado en que
las puntuaciones obtenidas en el test, pueden utilizarse eficazmente para hacer inferencias acerca
del comportamiento real de los sujetos, en un criterio, que no puede ser medido directamente,
bien por no estar disponible en el momento de la investigacin, bien porque su medida puede
resultar difcil o costosa y, por lo tanto, sea aconsejable obtener informacin del mismo por
otros procedimientos.
En los estudios de validacin referida al criterio, el objetivo principal es evaluar la
hiptesis de relacin entre test y criterio. La forma de analizar esta relacin, depende de muchos
factores, entre ellos, la complejidad del criterio y la dificultad para definirlo claramente. Para
Croker y Algina se suelen utilizar 2 tipos de ndices o medidas para describir la capacidad
de un test o conjunto de tests, para predecir un criterio:
coeficiente de validez, de determinacin, de
alineacin, de valor predictivo, etc...
(errores de estimacin).
Este tipo de estudios se suelen realizar desde 2 perspectivas diferentes, dependiendo de:
12
13
tanto, es muy difcil de definir de forma precisa y ms difcil todava obtener una medida
adecuada y completa del mismo. Recordemos que en nuestro ejemplo de la seleccin de
vendedores, se utiliz como indicador del criterio de xito, el nmero de ventas realizadas en
una semana; se trata de un indicador de tipo prctico, fcil de obtener y probablemente, de cara
al cliente, es un indicador vlido. Sin embargo, otros indicadores del criterio resultan ms
difciles de operativizar, como por ejemplo, al intentar determinar qu es lo que constituira el
xito como profesor de psicometra, indicadores como: su capacidad de empata, su nivel de
conocimientos, la calidad de sus publicaciones
Tanto en un caso como en otro, tenemos que tener en cuenta que todos los indicadores son
parciales y no ofrecen una comprensin completa del criterio. Entonces Cmo decidir cul
es el indicador que se debe elegir?
Thorndike y Hagen: consideran que los indicadores deben cumplir una serie de requisitos:
Que sean relevantes un indicador es relevante en la medida en que se corresponde
con el criterio. No existe evidencia emprica que nos permita decidir si un indicador es
relevante o no. Para apreciar la relevancia, es necesario tener en cuenta consideraciones
racionales y apoyarse en los juicios de expertos. La presencia de indicadores
irrelevantes, puede influir negativamente en las predicciones que se hagan y las
decisiones que se tomen. As, cuando un profesor est evaluando un examen de
matemticas de un nio, en el juicio que emita acerca de su capacidad, pueden estar
influyendo otros factores como las faltas de ortografa o la presentacin. Estos factores,
pueden ser irrelevantes para la medida de la capacidad matemtica del nio, y su
influencia, atenuar la importancia del indicador seleccionado como relevante de aquello
que se quiere predecir.
Que estn libres de sesgos es decir, que las medidas del criterio, representen la
verdadera competencia de los sujetos y no estn determinadas por factores que acten
de manera diferencial en determinados grupos. De este modo, si se quiere evaluar la
competencia de las secretarias de una empresa, pidindoles a sus jefes directos que las
evalen, el juicio de los jefes ser un indicador libre de sesgos, si la evaluacin que
hagan de la competencia de sus secretarias, no depende ms que de su competencia
profesional y no de otros factores.
Que sean fiables es decir, las medidas que proporcionen los indicadores (medidas del
criterio) han de ser estables. Una persona no puede ser considerada competente para el
trabajo que realiza un da y al da siguiente ser considerado incompetente. Si esto
ocurriese, si la medida del criterio no fuese fiable, sera imposible encontrar un tests
capaz de pronosticarla.
Que sean accesibles a la hora de seleccionar los indicadores, se suelen presentar
problemas de distinta ndole. Pueden ser problemas econmicos, que haya que esperar
mucho tiempo para poder obtener la medida del criteriotodas estas limitaciones hay
que tenerlas en cuenta a la hora de seleccionar los indicadores y, trata en la medida de lo
posible, de seleccionar aquellos que sean ms accesibles, siempre y cuando cumplan
con los otros requisitos.
14
15
Continua
Pearson
Biserial
Biserial puntual
TEST
Dicotomizada
Biserial
Tetracrica
biserial
Dicotmica
Biserial puntual
biserial
Si designamos por X las puntuaciones del test y por Y las del indicador del criterio, la
frmula del coeficiente de validez ser:
Correlacin de Pearson cuanto tanto el test (X) como el criterio (Y) son 2 variables
cuantitativas continuas:
N XY X Y
rxy =
2
2
2
2
N X ( X ) N Y ( Y )
X p Xq
=
pq
Sx
Xp X
Sx
p/q
16
cb ad
( a + b )( c + d )( a + c )( b + d )
X
0
a
c
1
0
1
b
d
biserial =
bc ad
( a + b )( c + d )
pq
y
Sea cual sea el coeficiente utilizado para calcular el coeficiente de validez: Los
valores que puede alcanzar van a estar incluidos en el intervalo -1 y 1.
17
lineal para hacer estimaciones acerca de las puntuaciones verdaderas de los sujetos, a partir de
su puntuacin emprica. Ahora, vamos a ver de qu forma se va a utilizar el modelo para, a
partir de las puntuaciones obtenidas por los sujetos en el test, hacer estimaciones acerca de
su puntuacin en el criterio.
Mediante el modelo de regresin se intenta buscar una ecuacin lineal que haga
mnimos los errores de pronstico. Dicha ecuacin pondr de manifiesto la relacin de
dependencia lineal entre el test y el criterio, y tomar la siguiente forma:
= +
El valor de la pendiente (b): se puede obtener en funcin del coeficiente de validez y de las
desviaciones tpicas de las puntuaciones obtenidas por los sujetos en el test y en el criterio,
mediante la siguiente expresin:
=
Una vez obtenidos los valores de a y de b, se puede obtener la ecuacin de la recta de regresin,
que puede venir dada en tres tipos de puntuaciones:
Puntuaciones directas: = + = ( ) +
Puntuaciones diferenciales: = ( )
18
Puntuaciones tpicas: =
La diferencia entre la ecuacin de regresin en puntuaciones directas y
diferenciales es: que en estas ltimas, la ordenada en el origen es 0 y, por lo
tanto, la ecuacin pasa por el origen de coordenadas. Ahora bien, al tener ambas
ecuaciones la misma pendiente, se trata de dos rectas paralelas.
Las ecuaciones de regresin en puntuaciones tpicas: al igual que las
puntuaciones diferenciales, pasan por el origen de coordenadas y, teniendo en
cuenta que en la escala de puntuaciones tpicas la desviacin tpica es la unidad,
la pendiente de la recta de regresin ser el coeficiente de validez.
Hasta aqu, hemos utilizado una muestra de sujetos a la que se les ha aplicado el test cuya
capacidad predictiva respecto al criterio se quiere validar; a estos mismos sujetos, se les ha
calificado en el criterio y, con todos esos datos, se han construido las ecuaciones de regresin.
Pues bien, la verdadera utilidad de estas ecuaciones, no est en pronosticar las puntuaciones de
los sujetos en el criterio (no tendra mucho sentido, ya que conocemos las puntuaciones que
realmente han obtenido), sino en la posibilidad de pronosticar la puntuacin que obtendrn en el
criterio, otra muestra de sujetos, de las mismas caractersticas que la muestra utilizada para la
construccin de las ecuaciones de regresin, a partir de las puntuaciones que obtengan en el test.
Mediante la aplicacin de las ecuaciones de regresin, obtenemos una estimacin puntual de
las puntuaciones de los sujetos en el criterio.
El coeficiente de validez indica la eficacia del test o variable predictora para estimar el criterio.
En la medida en que el coeficiente de validez sea ms alto, la estimacin ser ms exacta. En el
lmite, cuando el coeficiente de validez, fuera la unidad, el valor estimado coincidira con la
puntuacin que realmente obtuvieran los sujetos en el criterio. Sin embargo, dado que nunca se
alcanzan coeficientes de validez, perfectos (iguales a 1 en valor absoluto), la estimacin del
criterio, estar afectada por el denominado error de estimacin del criterio y se define como:
la diferencia entre la puntuacin que ha obtenido el sujeto en el criterio y la que se le pronostica
mediante la ecuacin de regresin:
=
Con cada sujeto, se comete un determinado error de estimacin del criterio. A la varianza de
todos los errores de estimacin cometidos con los sujetos de la muestra seleccionada, se le
denomina varianza residual, varianza error o error cuadrtico medio y viene expresada
por:
19
( )2
Cuando se utilizan las ecuaciones de regresin para hacer pronsticos se cumplen unas
propiedades fundamentales:
La media de las puntuaciones obtenidas por los sujetos en el criterio, es igual a la media
=
La suma de todos los errores de estimacin es 0, lo que implica, que la media de los
errores cometidos sea igual a 0: (Y Y) = 0
La varianza de las puntuaciones obtenidas por los sujetos en el criterio (Variable
Dependiente Y), es igual a la varianza de las puntuaciones pronosticadas, ms la
+
varianza de los residuos o varianza error: =
Debido a los errores de estimacin que se cometen al hacer los pronsticos, ms que
estimaciones puntuales, es conveniente hacerlas por intervalos. Para ello, asumiendo que la
distribucin de dichos errores se ajusta a una distribucin normal, cuya desviacin tpica,
viene dada por el error tpico de estimacin, se establece un intervalo confidencial en torno
a la puntuacin pronosticada. Los pasos a seguir son los siguientes:
Determinar un nivel de confianza y buscar la puntuacin tpica asociada.
Calcular el error tpico de estimacin.
Calcular el error mximo.
Aplicar la ecuacin de regresin correspondiente y obtener la puntuacin pronosticada.
Establecer el intervalo de confianza.
20
Ya hemos comentado que la varianza de las puntuaciones obtenidas por los sujetos en el
criterio (Y: variable dependiente), se puede expresar como la suma de la varianza de las
puntuaciones pronosticadas (Y) a partir de la variable predictora y la varianza de los
residuos o varianza error:
=
+
1= 2+ 2
Ahora bien, si nos fijamos en la ecuacin, en el segundo miembro, el primer trmino representa
la proporcin de la varianza del criterio, que se puede pronosticar o predecir a partir del tests o
variable predictora, y es igual a coeficiente de validez al cuadrado. Por lo tanto, la expresin
anterior se puede expresar tambin como:
2
2
2 = 1
As mismo, a partir de esta ecuacin, podemos deducir otra forma de expresin de la varianza
error y del error tpico de estimacin:
2
2 )
= 2 (1
2
. = 1
Cuando la escala que se utiliza, es la de puntuaciones tpicas, dado que la desviacin tpica es la
unidad, la frmula del error tpico de estimacin es:
2
. = 1
21
Una vez visto esto, vamos a interpretar los resultados obtenidos, en funcin de 3 coeficientes
2
. =
. = =
2
= 1
2
. . = 1 1
22
[ 2 ( )2 ][ 2 ( )2 ]
Y
9
7
10
8
5
4
43
X2
144
196
225
49
81
16
711
Y2
81
49
100
64
25
16
335
X.Y
108
98
150
56
45
16
473
Y
7.89
8.68
9.08
5.91
6.71
4.73
43
(Y-Y)
1.11
-1.68
0.92
2.09
-1.71
-0.73
0
(Y-Y)2
1.23
2.82
0.85
4.37
2.92
0.53
12.72
6 4.73 43.61
215
= ,
296,22
Dado que el valor mximo del coeficiente de validez, es la unidad, se puede deducir que el test
tiene una buena capacidad predictiva. Ms adelante, profundizaremos en la interpretacin de los
resultados obtenidos.
Las ecuaciones de regresin: una vez obtenido el coeficiente de validez, vamos a
calcular las ecuaciones de regresin en puntuaciones directas, diferenciales y tpicas.
Una vez construidas esas ecuaciones de regresin, se pueden utilizar posteriormente
para predecir las puntuaciones (estimacin/pronstico) que obtendrn en el criterio,
otros sujetos, de las mismas caractersticas que los de la poblacin sobre la que se
construyeron, a partir de sus puntuaciones en el test. Para calcular las puntuaciones
pronosticadas, basta sustituir el valor de X en la ecuacin, por las puntuaciones
obtenidas por los sujetos; estas puntuaciones, se recogen en la columna 6 de la tabla
anterior. Recordemos, que la media de las puntuaciones pronosticadas (), es igual que
la de las puntuaciones obtenidas por los sujetos en el criterio ()
23
En la columna 7, aparecen recogidos los errores de estimacin cometidos con cada uno de los
sujetos al hacer los pronsticos ( ); recordemos que la suma de estos errores, es igual a
cero. As mismo, hay que recordar que si el coeficiente de validez hubiese sido la unidad, los
errores de prediccin o de estimacin, hubiesen sido nulos. (Como ejercicio complementario, el
alumno puede calcular las puntuaciones pronosticadas en puntuaciones diferenciales y tpicas).
As las ecuaciones de regresin seran:
En puntuaciones directas: = + , por lo que tenemos que calcular los valores
correspondientes a b y a
Como sabemos: =
, 2 , 2
,
61
43
=
=
= ,
=
= ,
6
6
2
711
2 =
10,172 = 15,07; = 3,88
2 =
6
2
335
2 =
7,172 = 55,84; = 2,10
2 =
6
=
Por tanto:
=
2,10
= 0,73
= 0,395
3,88
En puntuaciones diferenciales:
= 3,15 + 0,395
= = 0,395
En puntuaciones tpicas:
= = 0,73
El error tpico de estimacin: como hemos dicho, la varianza de las puntuaciones de
los sujetos en el criterio, es igual a la varianza de las puntuaciones pronosticadas, ms la
2
varianza de los errores de estimacin (.
):
2
2
2 =
+ .
2 = 4,43
2
322,36
2 =
51,41 = 2,31
6
( )2
2
=
0 = 2,12
.
2
2
2 =
+ .
4,43 = 2,31 + 2,12
24
Intervalos confidenciales:
Ya contamos con todos los datos para poder hacer un estimacin acerca de la puntuacin que se
le pronosticara a un sujeto en el criterio, a partir de su puntuacin en el test. Supongamos, que
queremos saber qu puntuacin le correspondera en el criterio, a un sujeto que en el test
hubiese obtenido una puntuacin X=13. Vamos a hacer una estimacin puntual y una
estimacin por intervalos. Para establecer los intervalos confidenciales o de confianza, dijimos
que haba que seguir una serie de pasos.
Determinar un nivel de confianza y buscar la puntuacin tpica asociada: para este
ejemplo, el NC= 95%, por lo tanto Z C = 1,96
Calcular el error tpico de estimacin: que ya lo tenamos calculado S YX =1,46
Calcular el error mximo. . = = 1,96 1,46 = 2,86
Aplicar la ecuacin de regresin correspondiente y obtener la puntuacin
pronosticada.
Puntuacin pronosticada en puntuaciones directas: = 3,15 +
0,396 (13) = ,
Puntuacin pronosticada en puntuaciones diferenciales: = 0,396(13
10,17) = ,
Puntuacin pronosticada en puntuaciones tpicas:
13 10,17
= =
=
= 0,304 = 0,73 0,304 = ,
3,88
Establecer el intervalo de confianza.
Las puntuaciones pronosticadas en el apartado anterior son, la estimacin puntual, de las que
obtendra en el criterio, el sujeto que en el test obtuvo una puntuacin de 13 puntos. Ahora
hacemos la estimacin por intervalos:
En puntuaciones directas:
. = 8,28 2,86 5,42 11,14
En puntuaciones diferenciales:
25
confianza del 95%, o lo que es lo mismo, con una probabilidad igual o menor de 0,05 de
equivocarnos.
Coeficiente de determinacin: el coeficiente de determinacin, vena expresado por:
2
2,31
2
. =
= 2=
= 0,52
4.43
Este resultado se puede multiplicar por 100 y expresarse como porcentajes. De este modo,
podemos decir que existe un porcentaje de varianza comn o asociada entre ambas variables de
un 52%, o lo que es lo mismo, a partir de la variacin de las puntuaciones obtenidas por los
sujetos en el test, se puede predecir el 52% de la variacin de las puntuaciones de esos mismos
sujetos en el criterio, quedando un 48% de la varianza de las puntuaciones en el criterio, sin
explicar por el test; es decir, un 48% de varianza error (S2 XY )
2
2,12
=
= 0,48
4,43
Coeficiente de alienacin: definido por la expresin:
2
. = = 1
=
= 0.69
Esto quiere decir que el error tpico de estimacin, representa el 69% de la desviacin tpica de
las puntuaciones en el criterio, y que, por lo tanto, hay un porcentaje alto de inseguridad en los
pronsticos, frente al 31% de seguridad (C.V.P)
Coeficiente de valor predictivo: definido por:
2
. . = 1 . = 1 1
= 1 0,69 = 0,31
26