Vous êtes sur la page 1sur 10

1.

Confiabilidad

a) Estimación de puntuaciones verdaderas: sabemos que la


confiabilidad es una estimación estadística del error de
medición. A partir del conocimiento de la puntuación
observada en un test, y conociendo la confiabilidad del
mismo, se pueden determinas intervalos para las
puntuaciones verdaderas. Los métodos considerados para
estimar las puntuaciones verdaderas son:

- Desigualdad de Chebychev: no asume ninguna forma


concreta en la distribución de los errores de medición, por
lo cual da intervalos bastante amplios.

- Basada en la regresión lineal: usa el criterio de los


mínimos cuadrados, para estimar un intervalos de
confianza de los puntajes verdaderos, a partir de los
puntajes observados.

- Distribución normal de errores: asume la distribución


normal de los errores, dando intevalos más ajustados.

b) Confiabilidad y variabilidad de la muestra: matemáticamente


la confiabilidad de un test y la variabilidad de la muestra tiene
una relación directa. Al aumentar la variabilidad, aumenta la
confiabilidad.

1
c) Confiabilidad y longitud del tests: La confiabilidad de un tests
depende también de la cantidad de ítems que lo componen.
Si se aumentan ítems paralelos a los ya existentes, es
posible aumentar la confiabilidad del tests.

d) Confiabilidad de las diferencias de puntuaciones: estima


hasta que punto son confiables las diferencias de
puntuaciones de una persona en dos tests.

1. METODO DE LAS FORMAS PARALELAS

Una primera posibilidad para calcular la confiabilidad de un test


está en construir deliberadamente dos versiones equivalentes o
formas paralelas (por ejemplo forma A y forma B. En principio,
deben tener el mismo número de ítems, estos deben ser de
dificultad análoga, deben medir los mismo y las instrucciones,
tiempos límites de administración, ejemplos y otros aspectos de
cada uno de los tests, tienen que ser equiparables. Una manera
da calcular dicha correlación (aunque no la única) viene dada por
el cociente de la covarianza (SAB) entre el producto de la varianza
de las puntuaciones en ambos test:

s AB
rxx' 
s As B

SAB   (A - A)(B  B)
n

2
Los supuestos de paralelismo son aceptados puesto que ambas
versiones del test han sido construidas lo más similares posibles.
Sin embargo, a pesar de haber sido construidas lo más similares
posibles, Suen (1990) afirma que ello no garantiza que los
supuestos de paralelismo se cumplan, por lo cual el coeficiente r
de Pearson entre ambas formas del test se conoce como
coeficiente de equivalencia. El problema de la forma paralela es
que es costosa y con frecuencia muy difícil de elaborar (Cerdá,
1984; Aiken, 1996)

2.1 METODO TEST – RETEST

Un método sencillo para obtener dos tests paralelos es usar el


mismo test en el diseño denominado test - retest. Esto implica
aplicar el test a un grupo, en un momento en el tiempo, y luego
de un lapso temporal volver a aplicar dicho test en el mismo
grupo, calculando la correlación de las puntuaciones entre
ambas aplicaciones como se indicó anteriormente.

Desafortunadamente el alcance del supuesto referido al


paralelismo de los test en el diseño test – retest es sólo
aproximado y no está garantizado. Esto se debe a que muchos
factores cómo la maduración de las personas a las que se aplicó
el test o el efecto del aprendizaje entre la primera y segunda
aplicación pueden interferir, de tal manera que el puntaje
verdadero en el retest, pues ser diferente que el obtenido en la
primera aplicación. Es decir, esta constituye sólo una

3
aproximación que se conoce con el nombre de coeficiente de
estabilidad.

Hay que tomar en cuenta el efecto del aprendizaje, pues algunos


tests al haberlos pasado una vez, los aprendizajes así adquiridos
pueden afectar en forma considerable los resultados en la
segunda aplicación. Por ejemplo, supongamos que se ha
aplicado una prueba de vocabulario a un conjunto de alumnos, y
varios de ellos, luego de terminada la prueba, van a buscar los
significados en un diccionario. Si les volvemos a aplicar la
prueba, estos efectos estarán afectando la confiabilidad, pues es
probable que reduzca la varianza de las puntuaciones y con ello
la correlación entre ambas aplicaciones.

Para Aiken (1996) esta forma de calcular la confiabilidad


básicamente indica el grado en que se pueden afectar las
puntuaciones de un test por las fluctuaciones que se pueden
producir en el intervalo temporal. Además es importante tener en
cuenta el intervalo entre test y retest, pues si este es corto, el
coeficiente suele ser más alto, pues los efectos de la memoria
juegan un rol más significativo.
A partir de lo anterior nos enfrentamos al problema de determinar
cuál es el tiempo adecuado que debe transcurrir entre cada
aplicación. Aunque no hay reglas específicas respecto a dicho
lapso, generalmente suele ser mayor a 1 mes. Lo importante es
tener claro cual es la variable que nos interesa medir y como
puede verse afectada por el aprendizaje y/o la memoria,

4
indicando claramente en el manual de la prueba o reporte de
investigación, el lapso considerado entre ambas aplicaciones.
Por ejemplo puede redactarse de la siguiente: “La confiabilidad
se obtuvo mediante el método test – retest, con un lapso de 3
meses entre ambas aplicaciones. El coeficiente calculado fue de
0.84.”

2.2 COMBINACIÓN DE FORMAS PARALELAS Y TEST


RETEST

Una alternativa que busca controlar los efectos del aprendizaje


implica construir dos formas paralelas y combinarlas con el
método de test retest. Es decir, se aplica en un primer momento
al grupo la forma A del tests, y en el segundo momento, se aplica
la forma B.

El problema con este método es que sigue sujeto a los


inconvenientes que presentan las formas paralelas.

2.3 METODOS DE DIVISIÓN POR MITADES Y CONSISTENCIA


INTERNA
Una buena alternativa para el problema del paralelismo de los
tests, consiste en construir un solo test, pero dividirlo en dos
mitades y tratar los puntajes de cada una de esas mitades como
si fueran los puntajes obtenidos por medio de dos versiones
equivalentes del mismo test. El coeficiente r de Pearson obtenido
entre las dos mitades se conoce como Confiabilidad Por Mitades

5
es una expresión del grado en el que covarían las dos mitades
de un test (Muñiz (1996b)
Se considera a una sola prueba como consistente de dos partes,
cada una de las cuales mide lo mismo es decir, se les trata como
formas paralelas. Para ello una previa condición a la aplicación
de este método es que las dos partes en que vayamos a dividir el
test sean verdaderamente equivalentes. Por ejemplo, en las
pruebas de ejecución máxima los ítems suelen estar ordenados
según su índice de dificultad de forma creciente. Por lo tanto, el
dividir una prueba en una primera parte formada por los ítems del
1 al 10 y otra con los ítems del 11 al 20, produce dos mitades que
rompen el supuesto de la dificultad análoga de las formas
paralelas.

Una alternativa a este problema está en dividir la prueba en


ítems pares e impares. Luego se calcula el coeficiente de
correlación r de Pearson entre los puntajes obtenidos en cada
mitad.

Es sumamente importante considerar que el coeficiente r de


Pearson obtenido con el método anterior se ve afectado por la
longitud del test cómo fue demostrado por Lord en 1957
(Suen,1990). Así, este coeficiente r de Pearson se constituye en
una subestimación de la confiabilidad. Para corregir este
problema relacionado con la reducción de la cantidad de ítems a
la mitad, se debe emplear la fórmula profética de Spearman –
Brown:

6
2r
rtotal 
1 r

Con la aplicación de dicha corrección, se obtiene un r que sea un


mejor estimador de 2xt. Sin embargo, a pesar de la corrección de
Spearman – Brown, aún queda un inconveniente principal en
dicha metodología. Suen (1990) señala que hay distintas
maneras en las cuales se puede dividir un test, lo cual conduce a
diferentes coeficientes de consistencia dos - mitades.

La pregunta que queda abierta es ¿cuál de dichos coeficientes


resulta ser el más adecuado? Para tratar de solucionar ese
problema se asume que el promedio de los coeficientes r de
Pearson obtenidos entre las diferentes formas de dividir un test
en dos mitades es el mejor estimador de2xt , desarrollándose las
fórmulas de Kuder – Richardson y la de Cronbach.

2.4 COEFICIENTES DE CONSISTENCIA INTERNA

Nunnally y Bernstein (1995) señalan que la consistencia interna


describe estimaciones de confiabilidad basadas en la correlación
promedio entre reactivos dentro de una prueba. Existen diversos
métodos para calcular este tipo de coeficiente. Entre los más
usados podemos mencionar 2 de ellos.

2.4.1 FÓRMULAS KUDER – RICHARDSON

7
Se emplea como una estimación de la media de todos los
coeficientes obtenidos por las diversas formas de división por
mitades, siempre y cuando los ítems se califiquen de manera
dicotómica.:

 k

 k  
 p 1-p  
i i

r   1 i 1

 k - 1  s2 
 

En esta fórmula k es la cantidad de reactivos, s2 es la varianza de


las calificaciones totales en la prueba, y p es la proporción de
personas que respondieron correctamente al reactivo i. Esta
formula se conoce como la fórmula 20 de Kuder – Richardson.

Por otro lado, tenemos también la fórmula 21 de Kuder –


Richardson, que se basa en la suposición de que todos los
reactivos son de igual dificultad:

 k  x  k - x  
r   1 
 k - 1  ks 2 

Cómo lo señala Suen (1990), las fórmulas anteriores son


empleadas sobretodo en la medición de habilidades u otras
características cognitivas.

2.4.2 COEFICIENTE ALPHA DE CRONBACH

8
Cómo se señaló anteriormente, las formulas de Kuder –
Richardson pueden aplicarse sólo cuando los reactivos se
califican de manera dicotómica, mientras que el coeficiente 
puede calcular la confiabilidad de una prueba que consiste en
reactivos a los que se les asigna dos o más valores estimados de
respuesta. Su formula viene dada por:

 k
2

 k 
  si 
   1 i 1 
 k - 1  
2
sx
 

 

Nunnally y Bernstein (1995) indican que a pesar que el


coeficiente  ignora ciertas fuentes de error de medición
potencialmente importantes, es sorprendente la poca diferencia
que por lo general implican estas fuentes. Agrega además que el
valor obtenido en una muestra de 300 o más personas es muy
similar al valor obtenido empleando el método de las formas
equivalentes.

Cerdá (1984) afirma que el problema con estos coeficientes de


consistencia interna es que sólo consideran los efectos de los
diferentes reactivos en la confiabilidad. Los errores de medición
que provocan las diferentes condiciones o momentos de
aplicación no se reflejan en este tipo de coeficientes

9
A la pregunta que tan alto debe ser un coeficiente de
confiabilidad, se puede responder según Aiken (1996) “depende
de lo que planeamos hacer con los resultados”. Sin embargo él
considera que para las pruebas objetivas de personalidad un
coeficiente de 0.85 es bueno.

10

Vous aimerez peut-être aussi