Vous êtes sur la page 1sur 62

UNIVERSIDAD DE BUENOS AIRES FACULTAD DE PSICOLOGA

CONSTRUCCION Y ADAPTACION DE PRUEBAS PSICOLOGICAS

Dra. Isabel M. Mikulic Prof. Titular Regular T. y T. de Exploracin y Diagnstico Mdulo I, Ctedra I

FICHA DE CATEDRA: N 2

INDICE

1. INTRODUCCIN 2. PRIMERA PARTE: LOS TESTS Y LA EVALUACIN PSICOLGICA 2.1.TESTS, PRUEBAS, DIAGNSTICO Y EVALUACIN PSICOLGICA 2.2. SUPUESTOS BSICOS
SUPUESTO 1. LOS RASGOS Y ESTADOS PSICOLGICOS EXISTEN SUPUESTO 2. LOS RASGOS Y ESTADOS PSICOLGICOS PUEDEN CUANTIFICARSE Y MEDIRSE. SUPUESTO 3. PUEDEN SER TILES DIVERSOS ENFOQUES PARA MEDIR ASPECTOS DEL MISMO OBJETO DE ESTUDIO SUPUESTO 4 LA EVALUACIN PUEDE SEALAR FENMENOS QUE REQUIEREN UNA MAYOR ATENCIN SUPUESTO 5 DIVERSAS FUENTES DE INFORMACIN ENRIQUECEN Y SON PARTE DEL PROCESO DE EVALUACIN. SUPUESTO 6 DIVERSAS FUENTES DE ERROR SON PARTE DEL PROCESO DE EVALUACIN SUPUESTO 7 LAS PRUEBAS Y OTRAS TCNICAS DE MEDICIN TIENEN VENTAJAS Y DESVENTAJAS

3. QUIN, QU Y POR QU EVALUAR? 3.1.QUINES SON LAS PARTES? 1.EL QUE CONSTRUYE LA PRUEBA 2.EL QUE USA LA PRUEBA 3.EL QUE RESPONDE LA PRUEBA 3.2.EN QU TIPO DE CONTEXTOS SE REALIZAN LAS EVALUACIONES? 1. CONTEXTO CLNICO

2. CONTEXTO EDUCATIVO 3. CONTEXTO JURDICO 4. CONTEXTO ORGANIZACIONAL 5. OTROS CONTEXTO 4. EVALUACIN DE LA CALIDAD DE LAS PRUEBAS: VALIDEZ, CONFIABILIDAD Y UTILIDAD. 4.1.CONFIABILIDAD 4.1.1 FACTORES QUE DETERMINAN LA FALTA DE CONFIABILIDAD a) AL CONSTRUIR O ADAPTAR UN TEST b) AL ADMINISTRAR UN TEST c) AL EVALUAR UN TEST 4.1.2
TCNICAS PARA MEDIR LA CONFIABILIDAD

4.2. VALIDEZ 4.2.1.VALIDEZ DE CONTENIDO 4.2. 2.VALIDEZ EN RELACIN A UN CRITERIO 4.2.3. VALIDEZ DE CONSTRUCTO 4.2.4 COEFICIENTE DE VALIDEZ 4.2.5.VALIDEZ DE LA PRUEBA Y TEORA DE LA DECISIN 4.2.6.COMBINACIN DE INFORMACIN A PARTIR DE DIFERENTES PRUEBAS 4.3. VALIDEZ Y UTILIDAD PRCTICA DE LOS TESTS PARA DECISIONES DE
CLASIFICACIN

SEGUNDA PARTE: CONSTRUCCIN Y ADAPTACIN DE LOS TESTS

1. DISEO Y ELABORACIN DE LOS TESTS 1.1.


TEORAS DE LOS TESTS: A) TEORA CLSICA DE LOS TESTS B) TEORA DE LA GENERALIZABILIDAD

C) TEORA DE RESPUESTA AL ITEM

1.2. 1.3. 1.4. 1.5. 1.6. 2. 2.1. 2.2. 2.3. 2.4.

DEFINICIN DEL DOMINIO DEL TEST SELECCIN Y ELABORACIN DE LAS ESCALAS REDACCIN DE TEMS REVISIN DEL TEST POR EXPERTOS ANLISIS Y SELECCIN DE TEMS ADAPTACIN DE LOS TESTS MTODOS DE ADAPTACIN DE TESTS TCNICAS DE TRADUCCIN MTODOS PARA ESTABLECER LA EQUIVALENCIA ENTRE TESTS FUENTES DE SESGO

i. SESGO DE CONSTRUCTO ii. SESGO METODOLGICO: EN LAS MUESTRAS, EN EL


INSTRUMENTO Y EN LA ADMINISTRACIN.

iii. SESGO DE ITEM

TERCERA PARTE: ADAPTACIN DE TESTS DE UNA CULTURA A OTRA

1. PAUTAS DE LA COMISIN INTERNACIONAL DE TESTS 1. CONTEXTO 2. ADAPTACIN DE LOS TESTS 3. APLICACIN 4. INTERPRETACIN DE LAS PUNTUACIONES 2. CONCLUSION 3. REFERENCIA BIBLIOGRAFICA 4. ANEXO

1. INTRODUCCION El avance en la difcil tarea de comprender la conducta de las personas de manera integrada se nutre del esfuerzo que realiza la psicologa por articular los diferentes fundamentos tericos con la diversidad de mbitos de aplicacin, a travs de la evaluacin psicolgica. Para que el progreso cientfico de la Psicologa sea cada vez ms una realidad, hemos de esforzarnos por armonizar la explicacin terica y los procesos de observacin emprica, hasta lograr en muchos casos compatibilizarlos. El proceso cientfico depende conjuntamente del modelo explicativo y del metodolgico, y por ende del perfeccionamiento de los instrumentos que permiten la objetivizacin de los fenmenos, y del perfeccionamiento de la interpretacin terica de dichos fenmenos, a travs del contraste entre teora y observacin. La Psicologa reconoce en la Psicometra esa rama que se ocupa de las cuestiones relacionadas con la medicin, y si bien es cierto que las ciencias atraviesan una poca de crisis de paradigmas y en especial las ciencias sociales y conductuales, an as podemos encontrar contenidos tradicionales en la Psicometra que son punto de acuerdo entre la mayora de los autores e investigadores de la Psicologa. Se podran sintetizar en tres ejes: a) Los procesos operacionales de medicin en Psicologa asociados a las escalas de medida: el objetivo de la Psicometra ser hallar la mejor manera de observar, clasificar y transformar categoras manifiestas en escalas cuantitativas partiendo de la aceptacin del isomorfismo entre propiedades atribuidas a las categoras psicolgicas y las propiedades atribuidas a los nmeros que las representan (Stevens, 1951) b) Confiabilidad o precisin de los instrumentos de medida en Psicologa: es uno de los tres problemas de medida asociados a las escalas de medida que merecen atencin ya que si una prueba psicomtrica no es confiable en su medicin, su inconsistencia repercutir negativamente no solo en la validez del instrumento sino en todos los procesos relacionales que se incluyan. c) Validez de una prueba: es la propiedad fundamental en tanto permite decir de una prueba que mide lo que pretende medir y es un valor social sobresaliente que asume una funcin tanto cientfica como poltica (Messick, 1995) En la primer parte hemos de sentar pues las bases para una definicin de la Psicologa como aquella disciplina que estudia la conducta de las personas en interaccin con su contexto, a fin de poder con esta base construir el edificio del

diagnstico y la evaluacin psicolgica.

Postularemos a la evaluacin psicolgica

como un proceso de toma de decisiones cuyo objetivo es apuntar, con precisin y validez, a la tarea de psicologa aplicada para solucionar problemas individuales, sociales y ambientales. Luego, explicitaremos un recorte que implica definirla como un proceso para verificar la medida o grado en que se logran metas u objetivos propuestos a travs de la categorizacin, comparacin, anlisis y contrastacin de datos cuanti-cualitativos por medio de tcnicas objetivas y proyectivas. En este sentido su mxima expresin es el Psicodiagnstico que utiliza el diseo del caso nico. Distintas reas y campos de aplicacin de la Psicologa se ven beneficiados por los avances constantes que produce la evaluacin y el diagnstico psicolgico, sin embargo, existen an mltiples problemas metodolgicos y tericos como el que refleja el tema que nos ocupa, que preocupan a los investigadores y especialistas en el rea de la Psicometra. En la segunda parte nos detendremos a considerar qu motiva la elaboracin de pruebas nuevas? No hay un listado exhaustivo de motivaciones que lleven a la construccin de nuevos tests, sin embargo, si analizamos las tcnicas existentes encontraremos tres fuentes principales de trabajo de desarrollo de pruebas. La primera seala que muchas de las pruebas de uso ms generalizado se originaron en respuesta a cierta necesidad prctica. La prueba de inteligencia Binet se cre para identificar a los nios de las escuelas de Pars que podan necesitar lo que hoy se conoce como educacin especial. La Stanford Binet Intelligence Scale (Escala de Inteligencia Stanford Binet) se origin en la idea de proporcionar una escala tipo Binet que pudiera utilizarse con los estadounidenses, aunque las revisiones llegaron ms all de la simple traduccin del francs al ingls. La Wechsler-Bellevue Intelligence Scale (Escala Wechsler-Bellevue de Inteligencia) que dio origen a la coleccin de escalas Wechsler, apareci con la intencin de ofrecer una prueba de inteligencia ms adecuada que la Stanford-Binet. Las pruebas Otis construidas para evaluar la enorme cantidad de reclutas durante la Primera Guerra Mundial al igual que la Woodworth Personal Data Sheet (Hoja de Datos Personales Woodworth), prototipo de muchas pruebas de personalidad posteriores. El Inventario Multifactico de Personalidad de Minnesota (MMPI) se elabor para ayudar en la clasificacin de los pacientes mentales en la prctica clnica de los hospitales de la Universidad de Minnesota. Tambin la enorme cantidad de pruebas de aprovechamiento para su uso en las escuelas y la industria tiene una orientacin altamente prctica. Estos son solo algunos ejemplos del hecho de que muchos tests se originan en respuesta a una necesidad muy prctica.

Algunos tests se construyen a partir de un fundamento terico importante como las Matrices Progresivas (Test de Raven) que se elaboraron basadas en la teora de Spearman sobre inteligencia. Por ejemplo, la Primary Mental Habilities Test (prueba de Capacidades Mentales Primarias) de Thurstone, prototipo de muchas evaluaciones de inteligencia multifactoriales posteriores, se dise con la intencin de sustentar la teora de Thurstone sobre las inteligencias mltiples. Estos son slo algunos ejemplos de cmo las teoras pueden generar nuevas pruebas, que primero se utilizarn tan solo para fines de investigacin, pero que despus se emplean en contextos aplicados. Finalmente, y este el caso que nos convoca, una gran de trabajo de elaboracin de tests se dedica a adaptar o revisar los instrumentos ya existentes. Por ejemplo, poco despus de que Alfred Binet introdujera las pruebas de inteligencia en Francia, el Servicio de Salud Pblica de Estados Unidos comenz a usar dichas pruebas para medir la inteligencia de personas que buscaban inmigrar a Estados Unidos. Henry Goddard (1913) el investigador en jefe asignado al proyecta y un especialista en retraso mental pronto plante lo significativas que son dichas pruebas cuando se usan con personas de diversos antecedentes culturales y lingsticos. Goddard us intrpretes en la administracin de las pruebas, emple a un psiclogo bilinge y administr pruebas mentales a inmigrantes seleccionados que les parecan retardados mentales a los observadores entrenados (Goddard, 1917). Por tanto, el impacto del lenguaje y la cultura en los resultados de las calificaciones de las pruebas de capacidad mental fue reconocido por los psiclogos ya desde principios del Siglo XX. Una forma para que los primeros elaboradores de pruebas abordaran este hecho psicomtrico de la vida fue elaborar pruebas especficas para una cultura. Es decir, la prueba sera diseada para ser usada con personas de una cultura pero no de otra. Las primeras versiones de algunas de las pruebas de inteligencia ms conocidas son representativas de este enfoque de la elaboracin de pruebas. Por ejemplo, la versin de 1937 de la Escala de Inteligencia Stanford-Binet, que disfrut de un uso extendido hasta que fue revisada en 1960, no inclua nios de minoras en su muestra de estandarizacin. Del mismo modo, la Escala de Inteligencia Wechsler-Bellevue no contena a miembros de minoras en sus muestras de estandarizacin. Ya David Wechsler en 1944 sealaba que una gran cantidad de negros haban sido examinados durante los ensayos de estandarizacin pero esos datos los omitimos debido a que no sentamos que las normas derivadas de mezclar las poblaciones podran interpretarse sin salvedades especiales. De esta manera Wechsler sostuvo que los baremos de sus pruebas cuando no incluan adultos o nios de minoras en las

muestras de estandarizacin, no podan usarse para las poblaciones de color de Estados Unidos. Aun cuando muchas pruebas publicadas eran especficas para una cultura, pronto se hizo evidente que se administraban de manera inapropiada, a personas de culturas diferentes. No era sorprendente encontrar que quienes, perteneciendo a culturas diferentes, respondan a esas pruebas; obtenan puntajes inferiores como grupo que las personas del grupo para el cual se elabor y estandariz el test. Histricamente estos esfuerzos por revisar las pruebas existentes y adaptarlas; conservando la estructura fundamental del instrumento, han logrado extender su uso a poblaciones especiales. Ya sea por la diferencia de idioma o por la existencia de una discapacidad auditiva, visual o motriz, la elaboracin o adaptacin de las nuevas versiones de las ediciones existentes constituye una tercera fuente importante de esfuerzos en la construccin de tests.

Primera Parte 2. LOS TESTS Y LA EVALUACION PSICOLOGICA

2.1 Tests, pruebas, diagnstico y evaluacin psicolgica Las races de las pruebas y la evaluacin psicolgica contempornea pueden encontrarse en Francia a principios del Siglo XX. En 1905 Alfred Binet y un colega haban publicado una prueba que fue diseada para ayudar a colocar a los nios parisienses en edad escolar en clases apropiadas. La prueba de Binet tuvo consecuencias que superaron los lmites de Pars, en poco tiempo se prepar una versin en ingls para usar en escuelas de Estados Unidos. En ese pas se estaba estudiando el uso de pruebas psicolgicas por primera vez en el ejrcito. Tanto en la primera como en la segunda guerra mundial, las pruebas cumplieron con el objetivo de examinar con rapidez a grandes cantidades de reclutas en busca de problemas intelectuales y emocionales. El apogeo de las pruebas psicolgicas se dio en la dcada de 1950 y principios de la de 1960. Se administraban pruebas en escuelas, en instituciones de salud mental, en dependencias gubernamentales, etc. Prueba era el trmino usado para referirse a todo, desde la administracin de una prueba hasta la interpretacin de la evaluacin de la misma. Es en esta etapa histrica en que la palabra prueba adquiere una posicin tan poderosa como la que sustenta. Sin embargo, para la poca de la Segunda Guerra Mundial comenz a surgir una distincin semntica entre prueba y otro trmino ms incluyente evaluacin. Si bien es cierto que subsiste an hoy da la ambigedad en el uso de dichos trminos, para nuestros objetivos definiremos evaluacin psicolgica como la recopilacin e integracin de datos relacionados con la psicologa con el propsito de hacer una valoracin psicolgica, lograda con el uso de herramientas como pruebas, entrevistas, estudios de caso, observacin conductual y aparatos y procedimientos de medicin diseados en forma especial (Cohen y Swerdlik, 2001). Definiremos prueba psicolgica como el proceso de medir variables relacionadas con la psicologa por medio de dispositivos o procedimientos diseados para obtener una muestra de comportamiento (Cohen y Swerdlik, 2001). Por su parte entendemos que definir lo que entendemos por tests requerira un extenso apartado, ya que histricamente se registran polmicas en torno a su conceptualizacin. Sin embargo, siguiendo a Anastasi & Urbina (1998) entendemos que un test es un instrumento de evaluacin cuantitativa de los atributos psicolgicos de un individuo. La Asociacin de Psiclogos Americanos (1999), propone una conceptualizacin abarcativa y exhaustiva al definir a un Test como un

procedimiento evaluativo por medio del cual una muestra de comportamiento de un dominio especificado es obtenida y posteriormente evaluada y puntuada empleando un proceso estandarizado. Definiremos las situaciones de diagnstico como aquellas en las que se produce el conocimiento mediato, no directo, sino a travs de indicadores que son observables comportamentales y / o clnicos, de personas concretas, no de grupos ni de colectividades (Pelechano Barber, 1988)

2.2. Siete supuestos en las pruebas y la evaluacin psicolgica Existen una serie de suposiciones bsicas rescatadas por Cohen & Swerdlik (2001) que resultan particularmente tiles para comprender una serie de controversias y polarizaciones que se harn presentes al avanzar en el estudio de los tests y la evaluacin psicolgica. A continuacin las detallamos sintticamente. 1. Los rasgos y estados psicolgicos existen: Un rasgo se ha definido como cualquier forma distinguible, relativamente perdurable, en la que un individuo vara de otro (Guilford, 1959). Los estados tambin distinguen a una persona de otra pero son relativamente menos perdurables (Chaplin et al., 1988) Aqu la situacin es importante puesto que un comportamiento puede tomarse de una manera en un contexto (una persona que habla con Dios en la iglesia) y de otra manera (desviado) si realiza el mismo comportamiento en un contexto inadecuado (bao pblico). Tambin la forma exacta en que se manifiesta un rasgo particular depende de la situacin por ejemplo un delincuente puede comportarse de manera sumisa ante un oficial y ms violenta ante un familiar. 2. Los rasgos y estados psicolgicos pueden cuantificarse y medirse: La ponderacin del valor comparativo de los reactivos de una prueba ocurre como resultado de una interaccin compleja entre muchos factores: consideraciones tcnicas, en forma en que se ha definido un constructo para los propsitos de la prueba y el valor que le da la sociedad a los comportamientos que se estn evaluando. 3. Pueden ser tiles diversos enfoques para medir aspectos del mismo objeto de estudio: Pueden existir varias pruebas y tcnicas de medicin diferentes para medir el mismo constructo. Algunas pruebas son mejores que otras, en general, deber demostrarse la utilidad de las pruebas para los escenarios en los que debern ser aplicadas segn su diseo original y luego demostrarse de nuevo para otros escenarios adicionales en los que no se contemple su uso.

10

4. La evaluacin puede sealar fenmenos que requieren una mayor atencin o estudio: una suposicin en la medicin es que las herramientas de evaluacin pueden usarse con propsitos de diagnstico. Puede definirse diagnstico en forma amplia como una conclusin alcanzada con base en la evidencia y opinin por medio de un proceso de distincin de la naturaleza de algo y descartar conclusiones alternativas. Diagnstico se usa en un sentido amplio con la identificacin de fenmenos psicolgicos o conductuales para un mayor estudio. 5. Diversas fuentes de informacin enriquecen y son parte del proceso de evaluacin: Los datos de una prueba de inteligencia pueden ser tiles para entender a un estudiante, un preso, un empleado o un paciente en terapia o cualquier persona que demande una evaluacin pero para el proceso de toma de decisiones se requerir informacin adicional como por ejemplo sobre su historia familiar. 6. Diversas fuentes de error son parte del proceso de evaluacin: Error en el contexto de las pruebas y la evaluacin se refiere a algo que se considera un componente del proceso de medicin. En este contexto error se refiere a la suposicin de que factores distintos al que pretende medir la prueba influirn en el desempeo de sta. Debido a que el error es una variable en cualquier proceso de evaluacin psicolgica, a menudo hablamos de varianza de error. Por ejemplo, el puntaje que obtiene una persona en una prueba de inteligencia puede estar sujeto a debate respecto al grado en que la puntuacin obtenida refleja en verdad el CI del evaluado y el grado en que refleja la varianza de error. Las fuentes potenciales de error son muy variadas, como por ejemplo que el evaluado tenga gripe cuando responde la prueba. Tanto el evaluado como el evaluador son fuentes de varianza de error si tenemos en cuenta por ejemplo el grado de experticia que demuestran en la administracin de una prueba. Tambin las pruebas mismas son fuentes de varianza de error por ser unas mejores que otras para medir lo que pretenden medir. 7. Las pruebas y otras tcnicas de medicin tienen ventajas y desventajas: Si se quieren usar pruebas adecuadas se deber tener en cuenta: cmo se elabor la prueba, las condiciones para su aplicacin, cmo y a quin se debe administrar, cmo deberan interpretarse los resultados de la prueba y a quienes, y cul es el significado de la puntuacin. Ello implica conocer las limitaciones de las pruebas y compensarlas con datos de otras fuentes.

11

3.Quin, qu y por qu evaluar? 3.1.Quines son las partes? 1. El que construye la prueba Quienes se dedican a elaborar pruebas, brindan una amplia variedad de antecedentes y detalles respecto del proceso de elaboracin. Sin embargo, la APA (American Psychological Association) estima que ms de 20.000 pruebas nuevas se elaboran cada ao y abarcan pruebas elaboradas para un estudio de investigacin especfico, revisiones de anteriores publicadas , etc. Reconociendo que las pruebas y las decisiones tomadas como resultado de su administracin pueden tener un impacto significativo en las vidas de las personas que responden las pruebas, varias organizaciones publicaron normas de comportamiento tico referidas a la elaboracin y uso responsable de pruebas. Las ms conocidas son las Normas o Standards for Educational and Psychological Testing elaboradas por la Asociacin Estadounidense de Investigacin Educativa, la Asociacin Psicolgica Estadounidense y el Consejo Nacional sobre Medicin en Educacin. 2. El que usa la prueba Si bien las pruebas son usadas por una variedad de profesionales, todos debern cumplir los principios ticos correspondientes. La prueba debe guardarse para que su contenido especfico no sea dado a conocer con anticipacin. Descripciones previas a la administracin de la prueba, de los materiales que contiene la misma, en el caso de pruebas de inteligencia, no son aconsejables pues podran comprometer los resultados. El que administra la prueba debe estar familiarizado con los materiales y procedimientos de la prueba y tener todos los materiales necesarios para administrarla en forma apropiada. Tambin debe asegurarse de que el saln en el que se realice la prueba sea el adecuado, evitando condiciones distractoras como ruido excesivo, calor, fro, interrupciones, luz solar deslumbrante, hacinamiento, ventilacin inadecuada, etc. Es fundamental la empata entre el evaluador y el evaluado. En el contexto de situacin de prueba, la empata puede definirse como una relacin de trabajo entre evaluador-evaluado. Lograr la empata con el evaluado no debe alterar las condiciones de administracin de la prueba. Existen otros factores que pueden influir en el desempeo en pruebas de inteligencia como por ejemplo que el evaluador sea familiar o no, que est presente o ausente, y sus modales en general. Otro factor importante ha sido el gnero. 3. El que responde la prueba:

12

Las personas evaluadas enfocan una situacin de evaluacin de diferentes formas y los administradores deben ser sensibles a la diversidad de respuestas posibles ante una situacin de prueba. El evaluado en situacin de diagnstico o evaluacin puede variar en: a) ansiedad experimentada y grado en que sta podra afectar los resultados b) capacidad y disposicin para cooperar con el evaluador o comprender las instrucciones escritas. c) el dolor fsico o la angustia emocional que est sufriendo el evaluado. d) malestar e incomodidad derivado de no haber comido suficiente o por otras condiciones fsicas. e) grado en que est alerta y despierto y no somnoliento f) grado en que estn predispuestos a estar de acuerdo o en desacuerdo cuando se les presenten los reactivos g) grado en que han recibido preparacin previa. h) importancia que atribuyan a describirse a s mismos en forma buena o mala i) grado de suerte que tiene el evaluado al responder sin conocer de lo que responde. Tambin el evaluado tiene derechos en situaciones de evaluacin como por ejemplo a dar su consentimiento para ser evaluado, a que los resultados sean confidenciales y a ser informado de los resultados.

3.2.En qu tipo de contextos se realizan evaluaciones? 1. Contexto clnico Las pruebas y otros mtodos de evaluacin se usan en forma amplia en escenarios clnicos como los hospitales pblicos, consultorios privados, clnicas privadas y el sello de las pruebas en este contexto es que solo se usa con un individuo a la vez, las pruebas colectivas solo se usan en el screening o rastrillaje de casos que requieren una mayor evaluacin psicolgica. 2. Contexto educativo A menudo se usan pruebas en escenarios educativos para diagnosticar problemas de aprendizaje. Las medidas de inteligencia y logro aplicadas en forma individual se usan con ms frecuencia con propsitos de diagnstico y por lo general son administradas por profesionales con capacitacin. Existen otras pruebas que se administran a los aspirantes a un nuevo ingreso, por ejemplo a las Universidades o

13

Posgrados. Tambin se usan las pruebas en un contexto de orientacin vocacional o de counseling. 3. Contexto jurdico Los tribunales se basan en datos de pruebas psicolgicas y testimonios de expertos relacionados como una fuente de informacin para ayudar a responder si la persona es competente para ser enjuiciada o para saber si un acusado distingua el bien del mal en el momento de cometer el delito. 4. Contexto organizacional En el mundo de los negocios, las pruebas se usan en particular en el rea de recursos humanos. Los psiclogos usan pruebas y procedimientos de medicin para evaluar cualquier conocimiento o habilidades en las que necesite ser evaluado un empleado, un candidato a ser empleado, para tomar decisiones de ascensos, transferencias, y elegibilidad para una mayor capacitacin. 5. Otros contextos En el rea de psicologa del consumidor tambin se usan pruebas, al igual que para evaluar a personas con discapacidad o con deficiencias neuropsicolgicas.

4. Evaluacin de la Calidad de las pruebas: Confiabilidad y Validez Sabemos cules son las pruebas ms usadas pero adems necesitamos saber cules son las mejores pruebas qu implica una buena prueba? Ms all de la simple lgica existen criterios tcnicos que usan los profesionales al evaluar para estimar la solidez psicomtrica de los instrumentos. La Psicometra como ciencia de la medicin psicolgica estudia la confiabilidad y la validez de las pruebas.

4.1. Confiabilidad Una buena prueba es confiable, es decir es consistente y es precisa. Las pruebas psicolgicas son confiables en grados diversos. En el dominio de las mediciones comportamentales, la variabilidad es mucho mayor dada las caractersticas del objeto epistmico y de los instrumentos de medicin utilizados. Las diferencias en el desempeo de un sujeto en sucesivas ocasiones pueden estar causadas por diversas razones: distinta motivacin en las diversas situaciones en que fue evaluado, distintos niveles de cansancio o de ansiedad, estar ms o menos familiarizado con el contenido del test, etc. Por todo ello, los puntajes de una persona no sern perfectamente consistentes de una ocasin a la siguiente y decimos que la medicin contiene cierta cantidad de error. Es decir que el puntaje que obtiene una persona en una prueba incluye el puntaje real de la persona y un

14

margen de error que puede aumentar o disminuir dicha puntuacin verdadera. Este error de medicin, aleatorio e impredecible, se distingue de los errores sistemticos que tambin afectan el desempeo de los evaluados por un test, pero de una manera ms consistente que aleatoria. Los errores sistemticos pueden a) afectar a todas las observaciones por igual y ser un error constante, o b) afectar a cierto tipo de observaciones de manera diferente que a otras y ser un sesgo. El error aleatorio, por su parte, es muy difcil de predecir y controlar pues est relacionado con factores casuales que pueden provenir tanto de aspectos tcnicos de la medicin psicolgica como de la variacin natural de la conducta humana (Cortada de Kohan, 1999)

4.1.1

Factores que determinan la falta de confiabilidad

Si bien son mltiples las causas por las cuales los puntajes obtenidos por un evaluado pueden no ser confiables, sintetizaremos solamente algunas fuentes de error cuyo conocimiento ser til para comprender el proceso de adaptacin de los tests. a) Al construir o adaptar un test: se debe prestar atencin a la seleccin de los tems y a la formulacin de las consignas, pero principalmente se debe cuidar el muestreo del contenido para evitar que sea tendencioso o insuficiente. Otra fuente importante de error son los efectos de la adivinacin, es decir, los tests son ms confiables a medida que aumenta el nmero de respuestas alternativas (Cortada de Kohan, 1999). b) Al administrar un test: se debe evaluar a todos los sujetos en las mismas condiciones, tratando de controlar posibles interferencias ambientales como el ruido, la iluminacin o el confort del lugar. Las consignas deberan ser estandarizadas desde la construccin del test hasta en su administracin, especialmente en lo referido al control de los tiempos para la realizacin del mismo. Otro punto a considerar son las influencias fortuitas que pueden afectar la motivacin o la atencin del evaluado como por ejemplo preocupaciones personales, afecciones fsicas transitorias, etc. d) Al evaluar un test: se deben sostener los criterios de evaluacin, no es posible cambiar los criterios de correccin por ejemplo luego de haber calificado a una serie de evaluados, en funcin de un criterio subjetivo del evaluador.

15

4.1.2. Tcnicas para medir la confiabilidad Existen diversos tipos de procedimientos para evaluar la confiabilidad de un instrumento que solamente sern mencionados, en este caso: test-retest o examen-reexamen, formas alternas, paralelas o equivalentes, divisin por mitades, consistencia interna (Kuder-Richardson y coeficiente alfa) y entre evaluadores

4. 2. Validez Se refiere a lo que mide una prueba y no puede expresarse en general sino que debe consignarse el uso particular para el que se planea utilizar el instrumento. Todos los procedimientos utilizados para determinar la validez se interesan en las relaciones entre ejecucin en las pruebas y otros factores observados independientemente de las caractersticas de la conducta considerada. Histricamente, uno de los primeros usos de las pruebas fue la evaluacin de lo que los individuos haban aprendido en determinadas reas de contenido y por ello se comparaba el contenido de esas categoras de pruebas con el del rea que pretendan probar. Luego, el nfasis recay en la prediccin y actualmente existen dos tendencias una hacia el fortalecimiento de la orientacin terica y la otra hacia una estrecha vinculacin entre la teora y la verificacin psicolgicas mediante la comprobacin emprica y experimental de las hiptesis.

4.21. Validez de Contenido Los procedimientos de validacin por la descripcin del contenido comprenden el examen sistemtico del contenido de la prueba para determinar si cubre una muestra representativa del rea de conducta que debe medirse. El rea de conducta por examinar debe analizarse sistemticamente para garantizar que los reactivos cubran todos los aspectos importantes y en la proporcin correcta. Se debe tener en cuenta no sobregeneralizar ni incluir factores irrelevantes en los resultados. Bsicamente se deben contestar dos preguntas: a)cubre la prueba una muestra representativa de las habilidades y conocimientos especificados? b) el desempeo en la prueba est razonablemente libre de la influencia de variables irrelevantes? Validez de facie: la validez de contenido no debe confundirse con la validez aparente que no es validez en el sentido tcnico porque no se refiere a lo que la prueba verdaderamente mide sino a lo que parece medir. Aunque usar el trmino validez puede resultar confuso, la validez de facie es en s misma un rasgo deseable de los instrumentos, porque a lude a que la prueba parece vlida para

16

quien la administra, quien la responde y para otros observadores. Esta validez puede mejorarse replanteando los reactivos para que parezcan relevantes y plausibles en medio particular en que sern usados por ejemplo es posible elaborar una prueba de aritmtica para personal naval en la terminologa nutica sin alterar con ello las funciones medidas.

4.2.2.Validez en Relacin a un Criterio: Los procedimientos de validacin de criterio-prediccin indican la efectividad de la prueba para predecir el desempeo del individuo en actividades especficas. La medida de criterio contra la que se validan los resultados del instrumento puede obtenerse aproximadamente al mismo tiempo que los resultados de la prueba o despus de un intervalo establecido. Las relaciones temporales entre el criterio y la prueba permiten diferenciar la validacin concurrente y la predictiva. La validez predictiva permite anticiparse sobre un intervalo y la informacin que proporciona es muy pertinente para las pruebas usadas en seleccin y clasificacin de personal, diagnstico de reincidencia en el rea forense, ingreso al secundario o a la universidad de estudiantes. Otros ejemplos son el uso de las pruebas para descartar sujetos que pueden desarrollar trastornos emocionales en ambientes de tensin o extraos o para identificar personal militar para determinados programas de capacitacin ocupacional. Con la validacin concurrente, en cambio, la prueba se aplica a personas que ya cuentan con datos de criterio, por ejemplo comparando los resultados obtenidos en la prueba por aspirantes universitarios con los promedios acadmicos al momento del examen. La distincin lgica entre la validez concurrente y la predictiva se basa en los objetivos ms que en el tiempo. La validacin concurrente es adecuada para las pruebas que se emplean para diagnosticar el estado actual ms que para predecir los resultados futuros. Se debe tener en cuenta la contaminacin del criterio como fuente de error en la validacin de la prueba, es decir, una precaucin esencial es asegurar que los propios resultados no influyan en la condicin del criterio de cualquier individuo. Es por ello que los resultados deben mantenerse estrictamente confidenciales. Medidas de criterio: Una prueba puede validarse si se la compara con tantos criterios como usos especficos existan para ella, sin embargo, los criterios empleados para encontrar las distintas clases de validez que se informan en los manuales caen en determinadas categoras. Para las pruebas de inteligencia, por ejemplo, el ndice de aprovechamiento acadmico, razn por la cual se describen

17

como medidas de aptitud acadmica. Los ndices especficos utilizados como medidas de criterio son: las calificaciones escolares, los resultados de pruebas de aprovechamiento, los registros de promocin y de graduacin, los honores y reconocimientos especiales y las valoraciones de docentes e instructores sobre la inteligencia de los individuos. Para los jvenes el promedio del primer ao d estudio, para adultos los aos de escolaridad completa, como variante del criterio de aprovechamiento acadmico ya que se espera que los individuos ms inteligentes prolonguen su educacin por ms tiempo y que los otros abandonen antes la educacin. Para muchos propsitos la medida de criterio ms satisfactoria es la que se basa en registros de seguimiento del desempeo laboral real, criterio empleado en la validacin de tests de inteligencia general. Es comn que se citen las correlaciones entre una prueba nueva y pruebas validadas previamente como evidencia de validez. Existen otros procedimientos de validacin que no desarrollaremos como el mtodo de grupos contrastados o las valoraciones de expertos como psiquiatras, maestros, supervisores laborales, etc. Generalizacin de la validez: cuando en los estudios de validacin industrial se correlacionaron las pruebas estandarizadas de aptitud con el desempeo en los puestos supuestamente similares, se encontr una gran variabilidad de los coeficientes de validez, esto gener pesimismo respecto de la posibilidad de generalizar la validez de la prueba a situaciones distintas. Hasta mediados de los setenta la especificidad situacional de los requisitos psicolgicos era considerada una seria limitacin de la utilidad de las pruebas estandarizadas para la seleccin de personal. Luego se demostr que el tamao pequeo de la muestra, la poca confiabilidad del criterio y la restriccin del rango en las muestras seleccionadas producan cierto engao estadstico. Al aplicar sus tcnicas de reciente desarrollo a los datos de muchas muestras extradas de un gran nmero de especialidades ocupacionales, Schmidt, Hunter y sus colaboradores pudieron demostrar que la validez de las pruebas de aptitud verbal, numrica y de razonamiento pueden generalizarse entre ocupaciones mucho ms de lo que se haba reconocido. Las pruebas incluidas en esos estudios cubran principalmente la clase de contenido y habilidades muestreadas en las pruebas tradicionales de inteligencia. El metaanlisis como procedimiento que permite integrar los resultados de investigaciones realizadas en momentos o lugares diferentes y sopesarlos sobre la base de las caractersticas sustantivas y metodolgicas relevantes de cada estudio. Este procedimiento permite calcular los efectos del tamao, la magnitud o la medida.

18

4.2.3. Validez de Constructo: Esta expresin se introduce por primera vez en 1954 en las Recomendaciones tcnicas para las pruebas psicolgicas y las tcnicas de diagnstico (APA, 1954) La validez de constructo ha centrado la atencin en la funcin que cumple la teora psicolgica en la elaboracin de la prueba y en la necesidad de formular hiptesis que puedan ser comprobadas o refutadas en el proceso de validacin. La validez de constructo de un instrumento es el grado en el que puede afirmarse que mide un constructo o rasgo terico. Requiere de la acumulacin gradual de diversas fuentes de informacin. Cambios en el desarrollo: la diferenciacin por edad es un importante criterio utilizado en la validacin de una serie de pruebas tradicionales de inteligencia. Un ejemplo es el Stanford-Binet en donde se espera que durante la niez las habilidades aumenten con la edad, por lo tanto si la prueba es vlida sus resultados deberan mostrar dicho incrementos pues se basa en el supuesto de que la inteligencia aumenta con la edad al menos hasta la madurez. Una prueba validada con el criterio evolutivo mide caractersticas conductuales que se incrementan con la edad en las condiciones existente en el entorno en el que se estandariz el instrumento. Como diferentes culturas pueden estimular y fomentar el desarrollo de caractersticas conductuales dismiles, no puede suponerse que el criterio de diferenciacin por edad sea universal. Como cualquier otro criterio est circunscrito por el contexto cultural particular del que fue derivado. Correlaciones con otras pruebas: se citan las correlaciones entre una prueba nueva y otros instrumentos similares como evidencia de que la nueva mide aproximadamente la misma rea de conducta que otras que llevan el mismo nombre como pruebas de inteligencia. Anlisis factorial: desarrollado como medio para identificar rasgos psicolgicos, es relevante para los procedimientos de validacin de constructo. Es una refinada tcnica estadstica para analizar las interrelaciones de los datos conductuales y reducir el nmero de variables o categoras en cuyos trminos puede describirse el desempeo de cada individuo a un nmero relativamente pequeo de factores o rasgos comunes. Una vez que los factores se han identificado, sirven para describir la composicin factorial de las pruebas. Cada instrumento puede entonces caracterizarse en funcin de los factores principales que determinan sus calificaciones, junto con el peso o carga de cada uno y la correlacin de la prueba con cada factor, que suele expresarse como validez factorial de la prueba.

19

Consistencia interna: la caracterstica esencial de este mtodo es que el criterio no es otro que la calificacin total del propio instrumento. En cada reactivo se compara la ejecucin del grupo criterio superior con el desempeo del grupo inferior. Los reactivos que no logran mostrar una proporcin significativamente mayor de aciertos en el grupo superior que en el inferior se consideran invlidos y se revisan o eliminan. Tambin se utilizan procedimientos de correlacin, como la correlacin de las calificaciones de los subtests con el resultado total. Por ejemplo muchas pruebas de inteligencia constan de subpruebas que se aplican por separado (vocabulario, aritmtica, completamiento de figuras, etc.) y cuyos resultados se combinan para encontrar el resultado total. En la elaboracin de estas pruebas, a menudo se correlacionan las calificaciones de cada subtest con la calificacin total y se elimina cualquier subtest cuya correlacin con sta sea demasiado baja. El grado de homogeneidad de la prueba tiene relevancia para la validez de constructo porque contribuye a caracterizar el rea de conducta o rasgo que muestra. Validez convergente y discriminante: En un minucioso anlisis de la validacin de constructo, D. Campbell (1960) seal que para demostrar la validez de constructo no basta con demostrar que una prueba tiene una correlacin elevada con otras variables con las que en teora debe hacerlo, sino tambin que no tiene una correlacin significativa con variables de las que se supone debe diferir. Estas son la validez convergente y discriminante; ejemplo de la primera la correlacin de una prueba de razonamiento cuantitativo con las calificaciones obtenidas luego en un curso de matemticas; y de la segunda si la correlacin es baja e insignificante con los resultados de una prueba de comprensin de lectura. Intervenciones experimentales: experimentos sobre el efecto de variables seleccionadas en los resultados de la prueba constituyen otra fuente de datos para la validacin de constructo. Modelamiento de ecuaciones estructurales: investigar cmo es que un constructo o rasgo personal identificado conduce a un buen o mal desempeo contribuye sustancialmente a la comprensin de por qu una prueba tiene una elevada o baja validez en una situacin dada. Facilita dicho anlisis un procedimiento estadstico conocido como modelamiento de ecuaciones estructurales que est relacionado con el anlisis de paths. Este modelamiento utiliza ecuaciones de regresin para predecir las variables dependientes a partir de las independientes en los diseos de series de tiempos u otros modelos causales. Este procedimiento usa correlaciones parciales para encontrar los coeficientes de regresin, lo que le

20

permite incorporar todas las correlaciones entre las variables y considera los errores de medicin y de muestreo e incluye las previsiones para reconocer al menos la posibilidad de otras variables causales no medidas. Se disea un modelo de relaciones causales hipotticas que quieren probarse, tericamente racionales, y el modelo calcula relaciones causales entre constructor ms que entre variables aisladas. El uso de constructos proporciona estimaciones ms estables y confiables que cancelan los errores y las varianzas especficas de los indicadores separados. Contribuciones de la Psicologa Cognitiva: la dcada del setenta plante un acercamiento entre la Psicologa experimental y la Psicometra que as empieza a hacer aportaciones importantes a la comprensin de los constructos evaluados por las pruebas de inteligencia. Ya en los cincuenta los psiclogos cognitivos empezaron a aplicar los conceptos del procesamiento de informacin al estudio de la solucin de problemas en el ser humano. Entre las tareas investigadas con esos mtodos se incluyen rompecabezas, problemas de lgica, lgebra y fsica. Las variables identificadas por estas investigaciones abarcan procesos. Los modelos cognitivos especifican los procesos intelectuales empleados para realizar la tarea, la forma de organizacin de los procesos, el almacenamiento del conocimiento relevante y la forma en que se representa en la memoria y se recupera cuando se necesita. Tambin se est dando importancia a la metacognicin que se refiere al control que el individuo ejerce sobre su eleccin de procesos, representaciones y estrategias para realizar tareas. Ya en los setenta, psiclogos cognitivos empezaron a aplicar ese anlisis de tareas y tcnicas de simulacin por computadora a la exploracin de lo que miden las pruebas de inteligencia. La investigacin ayuda al avance en la elaboracin y uso de las pruebas. El anlisis de las tareas cognitivas incluidas en los reactivos de una prueba puede realizarse por el anlisis del protocolo que pide a los individuos que piensen en voz alta mientras realizan una tarea o resuelven un problema. Este procedimiento puede llevar a encontrar que el mismo reactivo puede evocar procesos cognitivos diferentes en examinados con experiencia y antecedentes distintos. El aporte principal es haber focalizado la atencin en los procesos de respuesta en vez de concentrarse en los productos finales del pensamiento. El anlisis de la ejecucin en la prueba en trminos de los procesos cognitivos especficos, sin duda, mejorar nuestra comprensin de lo que miden las pruebas. El analizar el desempeo individual a nivel de los procesos elementales permitir identificar los

21

puntos fuertes y dbiles de cada persona y por ende aumentar el uso diagnstico de las pruebas (Sternberg y Weil, 1980). En resumen, la relacin entre psicometra y P. Cognitiva es complementaria desde el punto de vista de la investigacin y prctica aplicada; y recproca desde el punto de vista de la teora y la investigacin bsica. Cada una puede aclarar y enriquecer a la otra y ambas aumentan la comprensin de la conducta inteligente.

4.2.4. Coeficiente de validez El coeficiente de validez es la correlacin entre la puntuacin de la prueba y la medida de criterio. Los datos empleados al calcular cualquier coeficiente de validez tambin pueden expresarse como tablas o grficos de espectancias que muestran la probabilidad de que un individuo que obtiene cierta puntuacin en la prueba obtenga un nivel especificado de desempeo en el de criterio. Condiciones que afectan a los coeficientes de validez: resulta esencial especificar la naturaleza del grupo en el que se calcul el coeficiente de validez. La misma prueba puede medir diferentes funciones cuando se aplica a individuos que difieren en caractersticas importantes (edad, gnero, nivel educativo, ocupacin, etc.). Las pruebas diseadas para emplearse con diversas poblaciones deben citar en los manuales tcnicos los datos apropiados sobre la posibilidad de generalizar. Ms an en una poblacin en la que haya grandes diferencias en las puntuaciones de la prueba, el coeficiente de validez puede diferir de manera considerable en diversas partes del rango de calificacin y debe supervisarse en los subgrupos apropiados (Lee & Foley, 1986). Existen otros puntos a tener en cuenta tales como: la heterogeneidad de la muestra, la preseleccin o intencionalidad de la muestra, la diferente forma de relacin entre la prueba y el criterio, etc.

4.2.5.Validez de la prueba y teora de la decisin Algunos de los conceptos bsicos de la teora de la decisin han demostrado su utilidad para replantear y aclarar algunos interrogantes sobre las pruebas. Una caracterstica de la teora de la decisin es que las pruebas se evalan en trminos de su eficacia en una situacin particular. La evaluacin no solo toma en consideracin la validez de la prueba para predecir un criterio particular, sino tambin otros parmetros como la tasa base y la razn de seleccin. Otro parmetro importante es la relativa utilidad de los resultados esperados. Por ejemplo en las decisiones educativas se deben tener en cuenta las metas institucionales, los valores sociales y otros factores relativamente intangibles. Las

22

decisiones individuales deben considerar las preferencias y el sistema de valores del individuo. La teora de la decisin no introduce al proceso de decisin el La teora de la decisin ha problema de los valores, solamente lo hace explcito. Los sistemas de valores siempre han estado presentes en las decisiones. permitido centrar la atencin en la complejidad de los factores que determinan la contribucin de determinado instrumento a una situacin particular. El coeficiente de validez por s mismo no puede indicar si se debe usar o no una prueba, ya que es slo uno de los factores por ser considerados al evaluar el impacto de la prueba sobre la eficacia del proceso total de la toma de decisiones. Variables moderadoras: La validez de una prueba para determinado criterio puede variar entre subgrupos que difieren en caractersticas personales. El modelo psicomtrico clsico supone que los errores de prediccin son caractersticos de la prueba ms que de la persona, que esos errores se distribuyen al azar entre los individuos. La flexibilidad de la aproximacin introducida por la teora de la decisin estimul la exploracin de los modelos predictivos que incluan la interaccin entre personas y pruebas y que implica que la misma prueba puede ser un mejor predictor para ciertas clases o subconjuntos de personas que para otras; por ejemplo, cierta prueba puede ser un mejor predictor de criterio de desempeo de hombres que de mujeres o bien un mejor predictor para personas de nivel socioeconmico bajo que del nivel alto. En esos ejemplos, gnero y nivel socioeconmico se conocen como variables moderadoras ya que moderan la validez de la prueba (Saunders, 1956).Los intereses y la motivacin pueden funcionar como variables moderadoras de modo que si una persona tiene poco inters en un trabajo, su desempeo ser malo cualquiera sea la puntuacin que haya obtenido en las pruebas de aptitudes. Un descubrimiento constante fue una diferencia de gnero en la prediccin de grados acadmicos. Tanto en educacin inicial como media y mucho ms en nivel universitario, existen correlaciones mayores para las mujeres que para los hombres entre las puntuaciones de las pruebas y el rendimiento acadmico.

4.2.6. Combinacin de informacin a partir de diferentes pruebas Para la prediccin de criterios prcticos, a menudo se requieren varias pruebas. Los criterios son, en su mayora, complejos y la medida de criterio depende de varios rasgos diferentes. Si se diseara una prueba para medir este criterio tendra que ser muy heterognea, pero es ms conveniente una prueba relativamente homognea porque produce puntuaciones menos ambiguas. Por ende, a menudo

23

es preferible usar una combinacin de pruebas relativamente homogneas, cada una de las cuales cubra un aspecto diferente del criterio, en lugar de aplicar una sola con reactivos muy mezclados. A las pruebas que se emplean en una serie especialmente seleccionadas para predecir un solo criterio se las conoce como bateras de pruebas. El problema principal del uso de tales bateras tiene que ver con la forma en que se combinan las puntuaciones de estos distintos instrumentos para llegar a una decisin con respecto a cada individuo.

4.3.Validez y utilidad prctica de los Tests para decisiones de clasificacin Las pruebas psicolgicas pueden usarse con propsitos de seleccin, colocacin o clasificacin. En la seleccin cada individuo es aceptado o rechazado, en cambio en la colocacin o clasificacin nadie es rechazado, todos los sujetos son asignados. El diagnstico clnico es un problema de clasificacin ya que el propsito principal consiste en tomar una decisin por ejemplo sobre la clase de terapia ms apropiada. Validez diferencial: En la evaluacin de una batera de clasificacin, la principal consideracin es su validez diferencial comparada con criterios separados. El objeto de la batera es predecir la diferencia en la ejecucin de cada persona en dos o ms empleos, programas de capacitacin u otras situaciones de criterio. Las pruebas que se eligen para integrar la batera producen coeficientes de validez muy diferentes para los criterios separados, por ejemplo en un problema de clasificacin de dos criterios la prueba ideal tendra una correlacin elevada con un criterio y una correlacin cero o negativa con el otro. Las pruebas de inteligencia general son relativamente pobres para los propsitos de clasificacin porque su prediccin del xito en la mayor parte de las reas es ms o menos igual de buena, por lo tanto sus correlaciones con los criterios que deben ser diferenciados son demasiado similares. Un individuo que califique alto en una prueba de inteligencia sera clasificado como exitoso en cualquier tarea, lo que vuelve imposible predecir en cul hara mejor papel

24

Segunda Parte CONSTRUCCIN Y ADAPTACIN DE LOS TESTS

1. Diseo y Elaboracin de los Tests La elaboracin de las pruebas es un tema complejo que implica la aplicacin de principios establecidos; la obtencin de una buena prueba no es una cuestin fortuita sino la respuesta a diversos interrogantes como los que se describen a continuacin: Qu es lo que la prueba medir segn su diseo? Cul es el objetivo de la prueba? Existe necesidad de esta prueba? Quin usar esta prueba? Qu contenido abarcar esta prueba? Cmo se aplicar la prueba? Cul es el formato ideal de la prueba? Debera elaborarse ms de una forma de la prueba? Qu capacitacin especial se requerir de los administradores de la prueba para aplicarla o interpretarla? Qu clases de respuestas se requerirn de quienes respondan la prueba? Cmo se interpretarn los resultados de la prueba?

1.1.Teoras de los Tests Existen diversos paradigmas o modelos que permiten explicar el significado de las puntuaciones obtenidas con los Tests. El anlisis o modelado de las matrices de datos obtenidas da como resultado:

la estimacin del nivel en que poseen los sujetos la(s) caracterstica(s) que mide el test (valores escalares de los sujetos)

la estimacin de los parmetros de los items (valores escalares de los items).

El problema central de la teora de los tests es la relacin que existe entre:


el nivel del sujeto en la variable inobservable que se desea estudiar y su puntuacin observada en el test.

25

Es decir que el objetivo de cualquier teora de tests es realizar inferencias sobre el nivel en que los sujetos poseen la caracterstica o rasgo inobservable que mide el test, a partir de las respuestas que stos han dado a los elementos que forman el mismo. As para medir o estimar las caractersticas latentes de los sujetos es necesario relacionar stas con la actuacin observable en una prueba y esta relacin debe de ser adecuadamente descrita por una funcin matemtica. Las distintas teoras de tests difieren justamente en la funcin que utilizan para relacionar la actuacin observable en el test con el nivel del sujeto en la variable inobservable. Y sirven para dar cuenta del error de medida inherente a toda medicin psicolgica o estimacin del error; y proporcionar una estimacin del rasgo o caracterstica evaluada (estimacin del rasgo) a)Teora Clsica de los Tests La Teora Clsica de los Tests, iniciada por Spearman, sostiene que la puntuacin observable de una persona en un test es una funcin de dos componentes: su puntaje verdadero (inobservable) y el error de medicin implcito en la prueba. El TCT (modelo lineal de la teora clsica) es un modelo de puntuacin verdadera como valor esperado, esperado como concepto matemtico, probabilstico. Es decir, el puntaje verdadero de un sujeto en un test sera el promedio aritmtico de las puntuaciones empricas obtenidas en infinitas aplicaciones (Muiz, 2001). La Teora Clsica de los Tests (TCT) es, en sntesis, el conjunto de principios tericos y mtodos cuantitativos derivados de ellos, que fundamentan la construccin, aplicacin, validacin e interpretacin de distintos tipos de tests y que permiten derivar escalas estandarizadas aplicables a una poblacin (Hambleton, 1994). Los principios en que se basa son relativamente simples y se aplican tanto a las pruebas de desempeo, como a las de aptitud. Durante sus diferentes fases de desarrollo, se han elaborado procedimientos de anlisis cuantitativo que han sido de gran utilidad, destacndose en lo general, tres grandes etapas que se identifican por su objeto de inters primordial, as como por los mtodos cuantitativos y tipos de anlisis tericos que utilizan. La primera etapa que Cattell (1986) denomina itemetra, se caracteriza principalmente por la construccin de pruebas conformadas por reactivos cuyas propiedades estadsticas eran el centro de atencin principal. Los tests se consideraban como el producto de la integracin de un conjunto de reactivos cuyas propiedades estadsticas tenan que ser determinadas antes de que se les incluyera en esa prueba particular. Esto propici que el concepto de confiabilidad adquiriera prominencia como la principal virtud de la escala y se meda a partir de la correlacin entre los reactivos individuales y el instrumento en su conjunto. Si la correlacin era alta, se deca que los reactivos

26

eran los adecuados. Sin embargo, con frecuencia resultaba que la correlacin no era tan buena, y el resultando era que se obtenan reactivos deficientes y la prueba en su conjunto era de escaso valor. El concepto mismo de confiabilidad implicaba al de error de la medida y tuvieron que desarrollarse procedimientos distintos para determinar la confiabilidad del test de una manera ms precisa. Tal fue el caso de los procedimientos de pruebas paralelas y de divisin por mitades. La itemetra hizo contribuciones valiosas a la psicologa debido al nfasis que puso en el anlisis del error. Entre sus contribuciones se encuentran varios conceptos sobre precisin de la medida, las tcnicas para el tratamiento del error y el uso generalizado del error estndar de la medida como la medida bsica del error. Adems, dio lugar a contribuciones tales como las frmulas de Spearman-Brown (Spearman, 1904), KuderRichardson (Kuder & Richardson, 1937), Alfa de Cronbach (Cronbach, 1951) y a varios principios bsicos de escalamiento, as como al uso generalizado de la curva normal, el uso de las correlaciones mltiples y la frmula de atenuacin, etc. La siguiente etapa es la que Cattell (1986) denomina psicometra estructural y se caracteriza por el uso de las nuevas herramientas estadsticas tales como el anlisis factorial con sus diversas variantes tcnicas, como un medio para encontrar la "estructura natural" de las habilidades en el contexto de los factores culturales, la dotacin gentica, la personalidad, los rasgos, los motivos dinmicos y las dimensiones que dan lugar a la accin y al comportamiento. Su objetivo primordial no era como tal, aplicar pruebas, sino determinar la relacin que hay entre los conceptos clnicos sobre personalidad, y los fundamentos de la investigacin experimental multivariada (cuantitativa por naturaleza), as como analizar las interacciones dinmicas entre los rasgos y los estados de la personalidad. Los tests se consideraban significativos en la medida que armonizaban con los constructos tericos formulados conceptualmente. La etapa funcional en el desarrollo de los tests es aquella que "trasciende a las aplicaciones inmediatas y simplistas que identificaban a las estadsticas con factores conductuales, y profundiza en las leyes y formulaciones conceptuales del comportamiento: que relaciona rasgos, procesos y estados psicolgicos con las mediciones y estrategias estructurales" (Cattell, 1986). Ese tipo de leyes, segn Cattell, se refieren a las relaciones sistemticas y consistentes obtenidas de los estudios empricos sobre el desarrollo, en el conocimiento acerca de los rasgos determinados en forma hereditaria, de los rasgos modificables por las experiencias y el aprendizaje y de la modulacin de los estados psicolgicos producidos por las relaciones psicofisiolgicas.

27

En resumen, el desarrollo de la teora clsica de los tests ha procedido de etapas orientadas en forma pragmtica para desarrollar tests y validar reactivos, (donde los constructos psicolgicos tericos se definan operacionalmente como "aqullo que mide la prueba x"); hacia etapas conceptualmente ms elaboradas en que los tests se derivan de teoras del comportamiento ms articuladas y donde cada reactivo tiene un significado conceptual definido en un contexto terico particular. Limitaciones de la Teora Clsica de los Tests: De acuerdo a la Teora Clsica de los Tests (TCT), la elaboracin de pruebas de desempeo mximo involucra la seleccin de reactivos de acuerdo a su contenido, nivel de dificultad y poder de discriminacin. Los reactivos ms deseables son los que poseen un nivel mayor de discriminacin. El nivel de dificultad por su parte, se ajusta de acuerdo a: 1. El propsito de la prueba, y; 2. El criterio preestablecido para el grupo al cual se aplicar la prueba. Los ndices estadsticos empleados por la TCT no se mantienen constantes cuando se aplican a poblaciones que difieren en habilidad respecto de la poblacin empleada para obtener las normas del test. Por lo tanto, el xito de las tcnicas clsicas de seleccin de reactivos depende de qu tan parecida es la poblacin con la cual se obtuvieron los ndices respecto de la poblacin a la que se pretenden aplicar. Si la diferencia es grande, los ndices obtenidos de los tems no sern apropiados para la poblacin objetivo. En otros trminos, la teora clsica de los tests no puede predecir cmo responder un individuo a los tems a menos que esos tems hayan sido previamente administrados a personas similares (Lord, 1980) Durante el trabajo prctico de elaboracin de tests, normalmente el grupo a partir del cual se obtienen los ndices y el grupo al cual el test va dirigido, difieren considerablemente. Un caso especial en el cual los ndices clsicos de los reactivos se obtienen a partir de grupos que difieren de la poblacin a la que van dirigidos, puede verse al estructurar bancos de reactivos. Al elaborar un banco de reactivos, las caractersticas de los tems que van a ser incluidos en el banco, deben ser determinadas. Los tems con frecuencia denominados "experimentales", se incluyen en un test que es administrado a un grupo de personas de tal manera que se obtienen como resultado, los ndices de esos reactivos. Por supuesto, no todos los reactivos experimentales sern incluidos en un test particular. Por lo tanto, se crean mltiples formas del test, cada uno de los cuales contiene diferentes reactivos experimentales y las diferentes formas se aplican a grupos distintos de examinados. Dado que generalmente no es posible asegurar que las diferentes formas del examen sean administradas a grupos equivalentes, los ndices de los reactivos experimentales que se aplicaron a grupos distintos no pueden ser equivalentes (Hambleton & Swaminathan, 1985). Por lo tanto, si los reactivos

28

fueron incluidos en el examen bajo el supuesto de que sus ndices eran comparables, entonces cualquier test construdo a partir de ese banco de reactivos no podr ser apropiado para ninguna de las poblaciones que pudieran ser seleccionadas en un momento dado. Por otra parte, an cuando un banco de reactivos se encuentre bien conformado, otro problema de la TCT es la precisin de la medicin. Y es que en la teora clsica de los Tests, la contribucin de un tem a la confiabilidad de la prueba no depende de las caractersticas del reactivo slamente, sino que tambin depende de la relacin que hay entre el reactivo en cuestin y los otros reactivos del test. Por lo tanto, no es posible aislar la contribucin de un tem a la confiabilidad de la prueba y por lo consiguiente, tampoco su participacin al error estndar de la medida (Hambleton, Swaminathan, & Rogers, 1991). Finalmente, no obstante que el desarrollo de la teora clsica de los tests lleg, con la etapa funcional de los tests, a un punto en que la conceptualizacin de los resultados de los tests, y consecuentemente su proceso de desarrollo, permitan mediante sofisticados procedimientos estadsticos, sacar a los reactivos de los lmites impuestos por la prueba en su conjunto, la limitacin terica an permaneca y se haca necesario un nuevo marco conceptual para salvarlo. Este nuevo esquema para la conceptualizacin de los reactivos como unidades independientes del test y del grupo utilizado para normarlo, se obtuvo con la Teora de Respuesta al tem.

b) Teora de la Generalizabilidad Cronbach y Glaser (1972) postularon la Teora de la Generalizabilidad (TG) que es una extensin del modelo clsico en el que diversas mediciones del mismo individuo pueden variar tanto por efecto de una variacin en lo que se mide como por el error de medicin (Nunnally y Bernstein, 1995). En esta teora las decisiones sobre la bondad de un instrumento se basan en estudiar las fuentes y tipos de error, utilizando el anlisis de varianza. Cuando se mide una variable se trata de generalizar los resultados a un dominio o universo confiable de observaciones. El puntaje del universo es semejante al puntaje verdadero en el modelo clsico. La diferencia es que en la TCT se considera que la varianza de error es de una sola clase y, en cambio, la TG reconoce que existen otros universos de generalizacin y por lo tanto muchos puntajes de universo posibles. Solo cuando el universo se ha definido podemos afirmar cules son las fuentes de variacin que producen error. Las diferentes fuentes de error en esta teora se denominan facetas, trmino que introdujo Cronbach para designar cada

29

una de las caractersticas de la situacin de medicin que pueden cambiar de un momento a otro y, por tanto, hacer variar los resultados obtenidos. Segn esta teora los puntajes observados solo poseen inters si son representativos de todos los puntajes posibles de un mismo universo. Poblacin es el conjunto de personas de las que se extrae una muestra; y Universo es el conjunto de todos los tems posibles de un constructo; y Universo de Condiciones de Medicin al conjunto de todas las facetas estudiadas. Las distintas fuentes de variaciones asociadas a las facetas y a sus interacciones se estima que contribuyen a la varianza de error y disminuyen la generalizabilidad de los puntajes observados en las personas evaluadas.

c)Teora de Respuesta al tem La literatura sobre tests registra en los ltimos 30 aos un desplazamiento progresivo del esquema proporcionado por la Teora Clsica de los Tests, hacia el contexto y los procedimientos delineados por la Teora de Respuestas al tem (TRI) [Del ingls: tem Response Theory - IRT]. Esta teora, fue desarrollada para resolver varios de los problemas que presentaba la TCT (Hambleton & Swaminathan, 1985) y que no haban sido resueltos de una manera satisfactoria. Algnos de esos problemas son: (1) El uso de ndices de los reactivos cuyos valores dependen de la poblacin particular de la cul fueron obtenidos, y (2) La estimacin de la habilidad del examinado depende del conjunto especfico de reactivos incluidos en la prueba. Es decir, las caractersticas del examinado y las caractersticas de la prueba no pueden separarse en un instrumento elaborado conforme a los principios de la Teora Clsica de los Tests; y por el contrario, cada uno slo puede ser interpretado en trminos del otro. Las caractersticas del examinado en las cuales la teora TRI est interesada, son la "habilidad" que mide el test. Para la TCT, la nocin de habilidad se expresa por medio del llamado puntaje verdadero que se define como "el valor esperado a partir de la destreza observada en la prueba en cuestin" (Hambleton, Swaminathan, y Rogers, 1991).La habilidad del examinado se define slo en trminos de una prueba especfica. Si el test es "difcil", el examinado parecer tener un nivel bajo de habilidad. Si el test es "fcil", el examinado parecer tener un mayor nivel de habilidad. Y el nivel de dificultad de la prueba se define como "la proporcin de examinados en el grupo de inters, que contest el reactivo correctamente" (Hambleton, Swaminathan y Rogers, 1991) Por lo tanto, el que un tem sea difcil o fcil depende de la habilidad de los examinados a quienes se aplic la prueba y a su

30

vez, la habilidad de los examinados depende del nivel de dificultad de la prueba. De la misma forma, el nivel de discriminacin de los reactivos y los coeficientes de validez y confiabilidad de la prueba se definen tambin en base a las caractersticas del grupo particular de examinados. As, las caractersticas del test y de los reactivos cambian a medida que cambia el contexto de la prueba. Por lo tanto, es muy difcil comparar examinados a quienes se aplican diferentes tests; o an, comparar tems cuyas caractersticas se obtuvieron utilizando diferentes grupos de examinados. Esto significa que los coeficientes de los reactivos son dependientes del grupo al mismo tiempo que son dependientes del test. Esta clase de dependencia es la que se trata de eliminar mediante la TRI. Otro problema de la TCT es que es centrada-en-eltest, ms que centrada-en-el-reactivo. No se toma en consideracin cmo responde el examinado a un reactivo dado, y por lo tanto, no se tienen bases para determinar qu tan bien podra desempearse un examinado particular ante un reactivo individual. Es decir, la TCT no permite hacer predicciones acerca de cmo se comportar un individuo o grupo particular ante un reactivo dado. Esta posibilidad de prediccin es importante en una gran variedad de situaciones como por ejemplo, cuando se intenta predecir el comportamiento de un profesional ante diferentes tipos de situaciones prcticas. De acuerdo a Hambleton, Swaminathan y Rogers (1991), las principales caractersticas de la TRI como una alternativa a la teora clsica de los tests son: 1. Las caractersticas de los reactivos no dependen del grupo del cul fueron obtenidos; 2. Los puntajes que describen la habilidad del examinado no dependen del test en su conjunto; 3. El modelo se expresa a nivel del reactivo ms que a nivel del test; 4. El modelo no requiere de pruebas paralelas para determinar el ndice de confiabilidad; y 5. Provee una medida de la precisin de cada ndice de habilidad. Los postulados bsicos de la TRI son: 1) El resultado de un evaluado en un tem puede ser explicado por un conjunto de factores llamados rasgos latentes o aptitudes 2) La relacin entre la respuesta de un sujeto a un tem y el rasgo latente que subyace puede describirse como una funcin monotnica creciente que se llama funcin caracterstica del tem o curva caracterstica del tem (CCI) Esta funcin especfica que a medida que la aptitud aumenta la probabilidad de una respuesta correcta al tem tambin aumenta.

31

3) Las estimaciones de la aptitud obtenidas con distintos tems seran iguales y las estimaciones de los parmetros de los tems obtenidos en distintas muestras de examinados sern iguales. Es decir que en la TRI los parmetros de aptitud y de los tem son invariantes. La ejecucin de un examinado en una prueba puede ser predichos por un conjunto de rasgos, rasgos latentes y habilidades; y (2) la relacin entre las respuestas de los examinados a los reactivos y el conjunto de rasgos que subyacen a la respuesta ante el reactivo, pueden describirse por una funcin monotnicamente incrementada llamada funcin caracterstica del reactivo o curva caracterstica del tem (CCI). Esta funcin especifica que a medida que el nivel del rasgo incrementa, tambin incrementa la probabilidad de una respuesta correcta ante ese reactivo." (p.7) Son supuestos de la TRI: 1. La unidimensionalidad del rasgo latente: que las respuestas del examinado estn determinadas por una nica variable denominada Rasgo. Ej.: Un tem de un test espacial medir solo habilidad espacial y no ninguna otra cosa (Ferreres Traver, 2005) 2. La independencia local: Las respuestas de un evaluado a cualquier par de tem son independientes y la probabilidad de responder correctamente a un tem es independiente de la probabilidad de responder correctamente cualquier otro tem (Ferreres Traver, 2005). Existen muchos modelos de la TRI, pero los bsicos son: Modelo Logstico de un parmetro o Modelo de Rasch que est medido en la misma escala que el parmetro zeta que representa el nivel de habilidad, el parmetro b representa la dificultad del tem. Cuanto mayor sea el valor de b, ms difcil ser el tem ya que mayor ser el nivel de habilidad necesario para tener una probabilidad de acertar de 0.5 Modelo Logstico de dos parmetros o Modelo de Birnbaum que indica en qu medida el tem diferencia entre examinados con un nivel alto y bajo de habilidad. Cuanto del tem. Modelo Logstico de tres parmetros incorpora junto con el a y el b al c que representa la probabilidad de acertar el tem que tienen las personas con un nivel de habilidad muy bajo; o parmetro del pseudo azar. Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir un banco de reactivos con parmetros estimados para cada tem, de acuerdo al mayor sea el valor de a, mayor poder discriminativo del tem, parmetro a que representa la discriminacin

32

modelo seleccionado. El procedimiento recomendado por Lord (1977) consiste en los siguientes cuatro pasos: 1. Decidir acerca de la forma deseada de la funcin de informacin de la prueba o curva de informacin deseada (target information curve). 2. Seleccionar los reactivos del banco cuya curva de informacin deseada cae bajo el rea de la curva de informacin de la prueba, de tal manera que saturen el rea bajo la curva de la funcin deseada de la prueba. 3. Conforme se adicionan reactivos a la prueba, se recalcula la curva de informacin de la prueba con los reactivos seleccionados hasta ese momento. 4. Continuar la seleccin de los reactivos hasta que la funcin de informacin de la prueba se aproxime a la funcin de informacin deseada con un grado satisfactorio." (p. 23) Sin embargo, la TRI no se encuentra libre de problemas y su aplicacin contiene ciertos puntos riesgosos debido a que el uso de criterios estadsticos para la seleccin de los reactivos no asegura una prueba con contenidos completamente vlidos. Deficiencias en los procedimientos de seleccin de los contenidos pueden generar una prueba con un bajo nivel de validez de contenido (Hambleton, Swaminathan y Rogers;1991). Otro problema de la TRI es que cuando se utilizan funciones de informacin de los reactivos durante el desarrollo de una prueba, es probable que los valores sean sobrevalorados y por lo tanto, la funcin de informacin podra sesgarse. Una prueba construida con tems de valores elevados puede ser que no corresponda a los de la prueba esperada. Como consecuencia, la funcin de informacin de la prueba ser sobrevalorada y por lo tanto, habr que aadir varios reactivos adicionales para compensar esta sobrevaloracin. Sin embargo, una de las ventajas de la construccin de los tests de acuerdo a los modelos de la TRI es que se pueden elaborar tests individualizados, es decir, a la medida de los sujetos que permiten inferir en cada uno de los evaluados un verdadero valor del rasgo de la manera ms precisa.

1.2. Definicin del Dominio del Test Siguiendo a Tornimbeni et al. (2004) la construccin de una escala de medicin de algn aspecto del comportamiento humano requiere previamente un exhaustivo anlisis conceptual del dominio o rasgo a medir. Para estos autores se debe obtener definiciones conceptuales ajustadas del rasgo en cuestin y decidir cul tipo de

33

indicadores operacionales son adecuados para describirlo. Todas las dimensiones importantes del rasgo estudiado deben incluirse. Si se trata de una prueba para medir rendimiento, la definicin del dominio puede realizarse delimitando el universo de situaciones a ser evaluadas. As por ejemplo, en el caso de un examen de Estadstica, el universo abarcara los objetivos y contenidos del programa de la asignatura. En la medicin del rendimiento se pueden utilizar pruebas referidas a criterios o referidas a normas. Los procedimientos de construccin de las pruebas referidas a criterios difieren de aquellos usados tradicionalmente en las pruebas de rendimiento. Para la elaboracin de pruebas por normas, se parte de la construccin de una tabla de especificaciones que es una tabla de doble entrada por medio de la cual se relacionan los objetivos cuyo logro se desea evaluar con los contenidos especficos correspondientes. A partir de esta tabla se determina la cantidad de tems que conformar la prueba y se lleva a cabo su redaccin. En la construccin de una prueba con referencia a criterios, en cambio, no se realiza una tabla de especificaciones, sino que se define y delimita el dominio de conductas correspondientes a cada objetivo. Siguiendo dicha definicin se elaboran los tems que evaluarn ese dominio de conductas y todos los desempeos individuales sern referidos a ese dominio. Tal como lo establece Pophan (1975) citado por Tornimbeni et al.(2004) por dominio debe entenderse el conjunto de conductas que debera exhibir el alumno en relacin con un objetivo dado, si ste ha sido alcanzado. Es decir, todas aquellas tareas que el alumno debera poder realizar si el objetivo ha sido logrado. Para Hambleton y Rogers (1991) citados por los mismos autores, el dominio puede ser de conductas, objetivos, destrezas y competencias y la amplitud del dominio vara en funcin de la finalidad del test. Si el dominio comprende ms de un objetivo pueden construirse subtests para cada objetivo, y se evala el rendimiento de los sujetos en cada uno de ellos. Para la especificacin del dominio de conductas o clase de tareas que el individuo debe realizar, seguiremos el esquema propuesto por Tornimbeni et al (2004) que proponen: i. Definicin del objetivo: Se establece cul o cules sern los objetivos que se evaluarn a travs de la prueba, por ejemplo, la habilidad de comprensin, que incluye aquellas conductas o respuestas que se refieren nicamente a una comprensin de los mensajes literales contenidos en la comunicacin. ii. Descripcin del objetivo: Se define en trminos de conductas observables el o los objetivos a ser evaluados. En el ejemplo anterior se especificara un objetivo de la habilidad de

34

comprensin tal como ser capaz de analizar el propsito del autor y su punto de vista examinando una comunicacin escrita. iii. Especificacin de las caractersticas de la situacin de evaluacin: se especifican todos aquellos aspectos a tener en cuenta en la situacin de evaluacin, por ejemplo, en un texto de divulgacin cientfica, seleccionar el prrafo e identificar la oracin donde se expresa la intencin del autor. iv. Caractersticas de la respuesta: Se especifica cul es la respuesta que se espera del sujeto, en este caso, que seleccione de manera correcta el prrafo y la oracin correspondiente.

1.3.

Seleccin y elaboracin de las Escalas

La medicin es la asignacin numrica de acuerdo con reglas y las escalas son las reglas de medicin. La elaboracin de escalas puede definirse como el proceso de establecimiento de reglas para la asignacin numrica en la medicin. O sea es el proceso por el cual se disea y calibra un dispositivo de medicin y la forma en que se asignan nmeros, valores de escala, a diferentes cantidades del rasgo o atributo que se est midiendo. Al prolfico L. Thurstone se le acredita la adaptacin de los mtodos de elaboracin de escalas psicofsicas al estudio de variables psicolgicas. Las escalas son instrumentos usados para medir algo, ese algo en psicometra es un rasgo o atributo psicolgico. Las escalas pueden clasificarse a lo largo de un continuo del nivel de medicin y denominarse por su naturaleza como nominales, ordinales, de intervalo o de razn. Quienes elaboran las pruebas disean un mtodo de medicin, es decir, hacen la escala de una prueba, en la forma que creen que se adapta mejor a la manera en que han conceptualizado la medicin del rasgo o rasgos que son su objetivo. No hay un nico mtodo para la elaboracin de escalas, el que una escala sea de naturaleza nominal, ordinal, de intervalo o de razn depender en parte de los objetivos de la escala y de la legitimidad matemtica de las manipulaciones y transformaciones de los datos resultantes. Existen escalas de estimacin que son agrupamientos de palabras, afirmaciones o smbolos en los que juicios relativos a la intensidad de un rasgo, actitud o emocin particular es indicada por quien responde la prueba. Un tipo de escala de estimacin sumatoria, la escala Likert se usa en forma extensa dentro de la psicologa, por lo general en escala de actitudes. Las escalas Likert son relativamente fciles de

35

elaborar, cada reactivo presenta cinco respuestas alternativas, por lo general, en un tipo de continuo entre acuerdo y desacuerdo o aprobacin y desaprobacin. Las escalas Likert son confiables, lo cual puede explicar su popularidad. Otro mtodo de elaboracin de escalas que produce datos ordinales es el mtodo de comparaciones apareadas. A quienes responden la prueba se les presentan pares de estmulos y se les pide que los comparen y seleccionen uno por medio de alguna regla. Otra forma de derivar informacin ordinal por medio de un sistema de elaboracin de escalas implica tareas de clasificacin. En estos enfoques se presentan tarjetas impresas, dibujos, fotografas, u otros estmulos y se les pide a los evaluados que los clasifiquen desde las ms hasta las menos justificables o que los jerarquicen. Todos los mtodos anteriores producen datos ordinales, el mtodo de intervalos aparentemente iguales descripto por Thurstone es un mtodo de elaboracin de escalas para obtener datos que se supone son de intervalo. El mtodo de elaboracin de escalas particular empleado en la elaboracin de un test depender de las variables que se van a medir, el grupo para el que se pretende la prueba (por ejemplo los nios pueden requerir un mtodo de elaboracin de escalas menos complicado que los adultos) y las preferencias del elaborador de la prueba.

1.4.

Redaccin de tems

Segn lo afirman Tornimbeni et al. (2004) existen pautas convencionales para la redaccin de tems de prueba. Estas incluyen recomendaciones tales como: redactar tems congruentes con el objetivo de medicin y evitar los tems demasiado largos (de ms de 20 vocablos), las oraciones complejas con ambigedades de sentido, las frases con dobles negaciones, el uso de expresiones extremas (nunca, siempre, todos) y utilizar el lenguaje ms apropiado al nivel de maduracin y educativo de la poblacin (Osterlind, 1990). Para Nunnally (1991) los dos errores ms comunes en la redaccin de tems son: a) ambigedad (preguntas difusas que admiten varias respuestas) y b) trivialidad (centrarse en aspectos poco importantes del rasgo o dominio en cuestin) Existen formatos de seleccin de respuesta y de construccin de respuesta, los primeros facilitan la calificacin automatizada y pueden aplicarse con facilidad a gran cantidad de evaluados. El formato de seleccin de respuesta en presentar una eleccin de respuestas y requerir la seleccin de una alternativa. Existen tres tipos: los tem de opcin mltiple, los tem de relacin y los tem de verdadero/falso. Un reactivo de opcin mltiple consta de tres elementos un enunciado o base del tem, una

36

alternativa u opcin correcta o clave y varias alternativas u opciones incorrectas llamadas distractores.

1.5.

Revisin del Test por Expertos

Tal como lo explican Tornimbeni et al. (2004), la mayora de los autores recomiendan que los items preliminares de un test sean revisados por expertos en construccin de pruebas, en el dominio o rasgo a medir y en el nivel de comprensin de la poblacin a la cual se apunta con la prueba. Las tres caractersticas que los expertos deben evaluar en cada tem son: a) claridad semntica y correccin gramatical b)adecuacin de su dificultad al nivel educativo y evolutivo de las personas c) congruencia con el rasgo o dominio medido Este ltimo tem es el principal parmetro y se refiere al grado de consistencia que debe existir entre un tem particular y las metas esenciales de la prueba dado que esto ser un factor posterior de confiabilidad y validez (Oesterlind, 1990). A los jueces se les pide que evalen la calidad y consistencia de los items y se descartan aquellos con puntuaciones medias ms bajas y con escaso grado de acuerdo, respectivamente. Se recomienda que los tem seleccionados sean aquellos en que, al menos, un 60% de los jueces coinciden (Herrera Rojas, 1993) Es til tambin incluir preguntas que demanden informacin cualitativa sobre los tems lo que puede facilitar un mejoramiento en el fracaso de algunos de ellos.

1.6.

Anlisis y Seleccin de tems

Siguiendo a Tornimbeni et al. (2004) podemos afirmar que existen varios procedimientos de anlisis de los tems de una prueba preliminar. Todos ellos se ocupan esencialmente de: a) la distribucin de los puntajes de cada tem y b) la relacin estadstica entre el tem y la prueba total. Tal como lo plantean los autores mencionados, el primer paso para obtener informacin psicomtrica sobre los items de pruebas homogneas consiste en administrar los elementos preliminares a una muestra amplia (superior a 300 sujetos) que sea representativa de la poblacin que se quiere evaluar en la prueba final. Para descartar los tems que no funcionan bien debe contarse con una cantidad de sujetos por lo menos cinco veces superior al nmero inicial de reactivos y aproximadamente el doble de tem de los que aparecern en la versin definitiva de la medida. La determinacin del numero muestral necesario para realizar anlisis de tem y los estudios de validez y confiabilidad de un test es un punto conflictivo debido a las dificultades existentes para seleccionar participantes en

37

determinados contextos de aplicacin de la psicologa o con determinadas poblaciones. El ideal, coincidiendo con los autores mencionados, ronda entre los 300 a 400 sujetos para estudios correlacionales pero este nmero no es condicin suficiente de buenos ndices psicomtricos (por ejemplo un alfa superior a .80). Existen otros factores intervinientes como el entrenamiento de los evaluadores o la heterogeneidad de la muestra que pueden incrementar los valores de confiabilidad y validez y compensar tamaos maestrales inferiores al estndar mencionado (Pajares, Hartley y Valiente, 2001). El procedimiento ms empleado en el anlisis inicial de reactivos es la correlacin de cada uno de ellos con el puntaje total de la prueba. Si el test consta de diversas subescalas, cada tem debe correlacionarse con el puntaje total de esa parte, no con el puntaje total de la prueba. El estadstico usual es el producto momento de Pearson ( r ) o correlacin punto biserial si se trata de tem dicotmicos (si/no, verdadero/falso). Los tem con correlaciones no significativas o bajas (inferiores a .30) se eliminan o se revisan y se conservan los menos ambiguos, ni fciles ni dificultosos y ms relacionados con el constructo (Nunnally y Bernstein, 1995). Cuando hay items con varias alternativas de respuesta es aconsejable obtener las correlaciones de cada una de las alternativas con el puntaje de la prueba total, sobre todo en aquellos de correlacin baja o negativa. Los mejores distractores sern aquellos que obtengan correlaciones negativas con los puntajes de la prueba, es decir, que sean seleccionados por quienes tienen puntajes bajos en la prueba (Herrera Rojas, 1993). En las pruebas de habilidades (tems dicotmicos) es importante conocer el ndice de dificultad de cada tem, o sea el porcentaje de personas que responden acertadamente al reactivo analizado. El ndice de dificultad de los reactivos tiene un rango de 0 a 1 y se simboliza como p. Un reactivo cuyo p es 0 est indicando que ningn sujeto contest correctamente y un reactivo con p igual a 1 es aquel que todos los sujetos respondieron correctamente. El valor ptimo de p para un reactivo depende de varios factores, tales como los objetivos de la prueba y la cantidad de alternativas de respuesta. Si el propsito del test es identificar slo un porcentaje reducido de los mejores postulantes para un empleo, por ejemplo, entonces los items de la prueba deberan ser lo suficientemente difciles y tener un valor medio-bajo de p. Para pruebas convencionales de habilidades se recomiendan valores p entre .20 y .80 (Aiken, 2003) La proporcin de acierto de un tem es un estimador adecuado de la dificultad de un tem. Sin embargo, esta informacin hay que complementarla con la distribucin de frecuencias en todas las opciones de respuesta (en elecciones mltiples) y las

38

estimaciones de proporcin para diferentes rangos de puntuacin en la prueba total. En escalas con formatos tipo Likert, los reactivos donde la mayora de los evaluados responde con las mximas o mnimas categoras (p.ej. 1 o 10) indican que tales items carecen de suficiente dificultad (atractivo) o son excesivamente difciles para los evaluados. Con la misma lgica deben eliminarse los reactivos donde la mayora de los sujetos de la muestra obtiene el mismo puntaje puesto que tales elementos de prueba no discriminan entre los evaluados (Bandura, 2001) Las pruebas referidas a criterios, como explica Martnez Arias (1995) se evalan y seleccionan los items de una forma particular, diferente a las pruebas referidas a normas. El anlisis se realiza comparando los resultados de un grupo antes de aplicar un programa de aprendizaje y despus del mismo, o comparando dos grupos similares, uno de ellos, que recibi capacitacin y el otro no. Al calcular el ndice de dificultad los resultados esperados son, items con alta dificultad para los grupos que no han pasado por el proceso de aprendizaje, y baja dificultad para los que han sido sometidos al proceso de instruccin. En cuanto al ndice de discriminacin, obtenido por la comparacin entre grupos, se espera mxima discriminacin entre los grupos y mnima entre los individuos de un mismo grupo. Una vez realizada la aplicacin de la prueba piloto y habiendo obtenido resultados estadsticos sobre el comportamiento de cada tem se podrn tomar decisiones sobre cules de ellos deben integrar la forma final del test y hacer estimaciones de su confiabilidad y validez mediante algunos de los procedimientos ya conocidos. La lgica de este proceso de anlisis es obtener pruebas lo ms homogneas posibles, es decir, donde todos los reactivos se relacionen con un ncleo comn de medicin que es el constructo o dominio, informacin que se obtiene aplicando a los reactivos de una escala el coeficiente alfa de Cronbach, por ejemplo. El conjunto de tems seleccionados despus de examinar la correlacin tem-total de cada uno, es analizado con este procedimiento de homogeneidad (alfa o KR-20) y debemos asegurarnos valores de.80 o superiores. Los tems con correlaciones bajas con el puntaje total se pueden remover para incrementar el valor del alfa. Si bien un coeficiente alfa elevado es una condicin necesaria de unidimensionalidad esta propiedad solo es garantizada por el anlisis factorial (Goldberg, 1999) El paso decisivo para asegurar la unidimensionalidad de cualquier escala homognea y el primer paso en un conjunto inicial de tem heterogneos (sin un explcito marco terico previo) es el anlisis factorial (Martnez Arias, 1995). El anlisis factorial es esencialmente un mtodo para agrupar las variables que se correlacionan fuertemente entre s y cuyas correlaciones con las variables de otros agrupamientos es menor

39

(Airen, 2003). Segn Klline (2000) el anlisis factorial es un mtodo estadstico en el cual las variaciones en los puntajes de un nmero de variables son explicadas por un nmero ms reducido de dimensiones o constructor (factores). El anlisis factorial es una tcnica analtica que permite reducir un nmero extenso de variables interrelacionadas a una cantidad pequea de dimensiones latentes. (Glutting et al. 2002) Una distincin inicial importante es la que debe realizarse entre anlisis factorial exploratorio y confirmatorio. En el primero se extraen factores sin una estructura terica previa conjeturada de modo explcito. En cambio el enfoque confirmatorio, los factores son definidos a priori en base a un modelo terico y en este caso, el anlisis intenta verificar qu tan bien se adaptan los datos observables a ese modelo. Antes de realizar un anlisis factorial debe determinarse si los items estn suficientemente interrelacionados. Existen algunas pruebas estadsticas que pueden emplearse con esa finalidad. Unas de las ms empleadas son el test de esfericidad de Bartlett y la medida de adecuacin del muestreo de Kaiser-Mayer-Olikin que se interpreta de manera semejante al coeficiente de confiabilidad, es decir, con un rango de 0 a 1 y considerando los valores superiores a .80 como muy adecuados. Si es as, se puede aplicar el anlisis factorial en sus diferentes variantes. Los principales mtodos exploratorios para extraer factores son: Anlisis de Componentes Principales, Ejes Principales y el de Mxima Probabilidad. Este ltimo muy usado por representar un enfoque estadstico inferencial en psicometra. El mtodo PC explica la mayor cantidad de varianza posible en los datos observados y es por consiguiente un mtodo ms descriptivo que inferencial. El mtodo de ejes principales es anlogo al anterior para los mismos fines. El anlisis factorial debe realizarse sobre muestras extensas no inferiores a 300 sujetos para obtener datos tiles. Adems se debe contar idealmente con 10 veces el nmero de sujetos por variable o al menos 5 veces ese nmero (Nunnally, 1991). La seleccin del nmero correcto de factores es una de las decisiones ms dificultosas del anlisis factorial. Luego de extraer los factores iniciales, se realiza un procedimiento de rotacin que permite eliminar los pesos negativos importantes y reducir el nmero de cargas factoriales de cada variable en los diversos factores (Anastasi, 1998). Las rotaciones colocan a las variables ms cerca de los factores diseados para explicarlas, concentran la varianza de las variables en menos factores y, en general, proporcionan un medio para facilitar la interpretacin de la solucin factorial obtenida. Los factores rotados explican la misma varianza que el conjunto de los factores (no rotados) pero la estructura de las cargas factoriales se modifica y son

40

ms simples de interpretar, debido al aumento de las cargas positivas extremas (bajas y altas). La tarea final del anlisis factorial es interpretar y nominar los factores. Esto se logra inspeccionando el patrn de cargas factoriales bajas y altas de cada variable sobre los distintos factores y mediante el conocimiento que se posea de las variables implicadas. Cuando los factores obtenidos estn correlacionados es posible someter sus correlaciones al mismo anlisis estadstico que utilizamos con las correlaciones entre tems. Podemos realizar un anlisis factorial de los factores obtenidos por rotacin oblicua y derivar factores de segundo orden o superior, es el caso del 16 PF donde los factores iniciales son 16 pero un nuevo anlisis reduce el modelo a 5 factores de segundo orden asimilables al modelo de cinco grandes factores del Inventario NEO-PIR. En el enfoque psicomtrico actual, el anlisis factorial se utiliza ms como estrategia confirmatoria de un modelo terico previo, en especial, dentro del marco metodolgico del Modelo de Ecuaciones Estructurales. De modo contrario se corre el riesgo de obtener estructuras puramente empricas dependientes de la muestra escogida y no replicables con facilidad. Estas estrategias analizadas son congruentes con la Teora Clsica de los Tests. El anlisis desde el enfoque de la Teora de Respuesta al tem emplea estrategias tales como: discriminar distintos niveles del rasgo medido, asegurar la homogeneidad mediante los ndices de discriminacin o minimizar el funcionamiento diferencial de los tems de prueba (Goldberg, 1999). En este momento se pueden complementar ambos criterios los de la TCT y los de la TRI como etapa de transicin ante los nuevos desarrollos de esta ltima.

2. 2.1.

ADAPTACIN DE LOS TESTS Mtodos de Adaptacin de los Tests

Actualmente se reconoce que la adaptacin de un Test es un proceso mucho ms complejo que la mera traduccin de ese test en un idioma diferente. Una adaptacin implica considerar no slo las palabras utilizadas al traducir la prueba sino tambin las variables culturales involucradas. La traduccin del ingls al espaol del siguiente tem del NEO PIR I wouldnt enjoy vacationing in Las Vegas por No disfrutara tomando vacaciones en Las Vegas es correcta. Sin embargo, este tem probablemente tenga un significado distinto ara muchas personas en Argentina que para los estadounidenses y, probablemente, el significado sea mucho ms diferente en culturas no occidentales. As una correcta traduccin no asegura un significado unvoco. Van

41

de Vijver y Leung (1997) establecieron tres niveles de adaptacin de las pruebas psicolgicas. El primero corresponde al de la aplicacin, este es, la simple y llana traduccin de un test de un idioma a otro Este mtodo asume la equivalencia de constructo. Desafortunadamente, es el mtodo ms comn y ms utilizado en todo el mundo. Como se indicara anteriormente la sola traduccin de una prueba no nos indica ningn nivel de equivalencia entre ambas versiones de la misma. La segunda alternativa es la adaptacin. En este caso a la traduccin se agrega la transformacin, adicin o substraccin de algunos tems de la escala original. Como se explic, algunos tems pueden cambiar su significado a travs de las culturas y, por lo tanto, necesitan modificaciones o ser eliminados. As mismo tems que no existen en la versin original del test pueden representar mejor al constructo en la poblacin en la cual se administrar la nueva versin. Baldo (2000) al realizar una baremizacin del WISC III en Crdoba encontr que el nivel de dificultad original de los tems pertenecientes a los subtests Comprensin, Vocabulario e Informacin no eran aplicables a la poblacin Argentina, por lo que propuso un nuevo ordenamiento de los tems. Este es un ejemplo de adaptacin sin adicin o substraccin de tems. Finalmente, la opcin ensamble puede emerger al momento de adaptar un instrumento de evaluacin psicolgica. En este caso el instrumento original ha sido modificado tan profundamente que prcticamente se ha transformado en un nuevo instrumento original con los nuevos elementos. Esto ocurre cuando muchos de los tems del test original son evidentemente inadecuados para representar el constructo a medir. Esto sucede en tests de denominacin confrontacional, utilizados en neuropsicologa, donde se utilizan lminas con dibujos de objetos que el evaluado debe nombrar. Estos objetos tienen distinta frecuencia de observacin en la vida diaria de un sujeto y por ello van a variar considerablemente de una cultura a otra. Es el caso de la adaptacin Argentina del Test de Denominacin de Boston (Allegri et. Al 1997). En la versin original la figura de una bellota est ubicada en el lugar nmero 32 mientras que en la versin Argentina tal lmina se encuentra sobre el final en el nmero 50. El ensamble tambin se da cuando el constructo no est representado de forma adecuada por la versin original en la cultura a la que se quiere adaptar la prueba. Los abordajes indigenistas de la medicin de la personalidad, por ejemplo, han promovido el diseo de tests distintos para abarcar aspectos de la personalidad no contemplados en las teoras occidentales. Tal es el caso del Inventario Chino de Evaluacin de la Personalidad, que contiene dimensiones indigenistas de la personalidad tales como armona.

42

2.2.

Tcnicas de Traduccin

El proceso de traduccin es complejo e implica mas que la traduccin lineal de las palabras escritas a un nuevo lenguaje. Existen dos mtodos comunes: la traduccin directa o forward translation y la traduccin inversa o backward translation. En el mtodo de traduccin directa un traductor, o preferentemente, un grupo de traductores, traducen el test desde el idioma original al nuevo idioma. Luego, otro grupo de traductores, juzga la equivalencia entre las dos versiones. De este modo pueden realizarse las correcciones pertinentes en las dificultades o errores identificados por los traductores. En el caso de la traduccin inversa, l mas utilizado de los mtodos, un grupo de traductores realiza una traduccin desde el idioma original al nuevo idioma; luego un segundo grupo de traductores toma el test traducido ( en el nuevo idioma) y vuelve a traducirlo al idioma original. Seguidamente se realizan las comparaciones entre la versin original y la versin retraducida al idioma original para determinar su equivalencia. Ambos mtodos poseen diversas ventajas y desventajas, se ejemplifica la metodologa utilizada para la traduccin de instrumentos con el caso de la prueba CPI- 434 que actualmente se encuentra en desarrollo.

2.3.

Mtodos para establecer la Equivalencia entre Tests

Una vez que se ha traducido convenientemente una prueba es necesario realizar un estudio para establecer si esta traduccin en la prueba es equivalente a la original. Para ello habr de implementarse un diseo experimental y un anlisis de datos obtenidos a travs de ese diseo. Hambleton ( 200) seala que existen bsicamente 3 mtodos. 1)Administracin de la prueba en el idioma original y de la prueba traducida a sujetos bilinges: En este caso se le administrara ambas versiones de la prueba ( la original y su traduccin al nuevo idioma) a sujetos que hablan ambos idiomas. Si por ejemplo, deseamos traducir el test de Inteligencia de Wechsler para Adultos, Versin III desde el ingles al Espaol, administraremos la versin en Ingles y la versin en Espaol a los evaluados que hablen ambos idiomas. Este mtodo segn Hambleton, posee ventajas y desventajas. Entre las primeras se pueden mencionar que pueden controlarse las diferencias de las caractersticas de los participantes en el test ( por ejemplo su habilidad) ya que ambas pruebas son administradas a la misma persona. Entre las desventajas, este autor que este diseo esta basado en la premisa de que los sujetos son igualmente competentes en ambos idiomas, lo cual es difcil de sostener. Es probable, entonces, que puedan observarse diferencias entre ambas versiones debido a una menor capacidad de algunas personas para entender los tems en alguno de los

43

dos idiomas. La segunda gran desventaja de este diseo es que no puede asegurarse que los bilinges posean el mismo nivel de competencia que la poblacin general. Por el hecho de conocer otro idioma es probable que se trate de personas con una mayor capacidad intelectual o mejor educacin. Hambleton, tambin seala una variacin de este mtodo que conserva las misma ventajas y desventajas pero que es ms fcil de implementar. La misma consiste en administrar al azar una ( no ambas) de las versiones del test ( en espaol o en ingles) a los participantes bilinges. 2)Administracin de la versin original y su traduccin inversa a monolinges en el idioma original: Siguiendo nuestro ejemplo anterior, planteado por las autoras ( Tornimbeni et. Al. 2004) se le administrara la versin original del WAIS III y la versin obtenida de la traduccin inversa a sujetos cuyo idioma natal es el ingles. La equivalencia de los tems se determina comparando el desempeo de cada sujeto en cada tem de ambas versiones. Nuevamente, la ventaja esta en el control de las diferencias en las caractersticas de los participantes. La primer gran desventaja esta en que este diseo no permite obtener datos con la versin en el idioma meta ( target) del test ( espaol en el ejemplo). De esta manera no es posible obtener puntajes de sujetos que hablen el idioma al que se intenta traducir el test. La segunda gran desventaja de este diseo reside en el hecho de la posible falta de independencia entre los puntajes obtenidos ya que es probable que exista un efecto de aprendizaje luego de la administracin de la primer versin de la prueba, especialmente si la primera es la original. La administracin al azar de una de las versiones en el primer lugar puede reducir la importancia del efecto de aprendizaje. 3)Administracin de la versin original a monolinges que hablan el idioma original y de la versin traducida a monolinges que hablan el idioma al que ha sido traducida la prueba: Siguiendo con el ejemplo enunciado por Tornimbeni et. Al (2004), se administrara la versin en ingles del WAIS III a evaluados cuyo idioma natal es el Espaol. Una posible dificultad reside en asumir que los sujetos de ambas muestras poseen una habilidad comparable. sin embargo, Hambleton sugiere que tal obstculo puede superarse si los anlisis son desarrollados con la Teora De Respuesta al tem, en la cual se asume que utilizando distintos conjuntos de tem pueden obtenerse las mismas estimaciones de aptitud . Igualmente, administrando esos tem a distintas muestras de examinados las estimaciones de parmetros obtenidas sern iguales. Una vez obtenidos los datos por medio de los diseos revisados existen varias posibilidades estadsticas para su anlisis. Bsicamente el anlisis estar destinado a identificar la existencia de Funcionamiento Diferencial de items ( FDI) es decir, tem que se comportan en forma diferente a travs de las diversas muestras transculturales.

44

Por ejemplo, en las investigaciones citada de Tanzer ( 1995) en donde el investigador le administro dos cuestionarios sobre autoconcepto acadmico de lectura y matemticas. En los resultados pudo observarse mostraba que a pesar de que la prueba en forma individual El autor la misma estructura factorial para ambos grupos culturales, cuando las

escalas de los tems de competencia/ facilidad se trabajaban

podan observarse grandes diferencias entre ambos grupos culturales.

especulo con que tal diferencia s deba a un factor cultural de modestia, la cual es una virtud deseable dentro de la cultura de Singapur, fuertemente influenciada por la cultura china. As, los singaporeanos eran ms renuentes a mostrar una actitud autoelogio o jactancia. Esta investigacin adems, de ser un ejemplo de FDI, muestra tambin la insuficiencia de comparar las estructuras factoriales de las pruebas cuando son aplicadas transculturalmente. Como puede observarse en estos resultados, es necesario siempre realizar un anlisis de (FDI) ya que a pesar de conservar una misma estructura factorial un grupo puede mostrar valores mucho ms bajos que otro en determinados tem. Existen diversos mtodos en los que se puede analizar el comportamiento de los tems. Algunos mtodos dentro de la TCT tales como los mtodos de suma de chicuadrado o el de Mantel y Haenzel que fuera adaptado para el FDI por Holland y Thayer ( 1988) y que es en la actualidad l mas utilizado a estos fines. El anlisis puede desarrollarse dentro de la TRI en donde el mismo se centrara en las probabilidades que tiene una persona con un determinado nivel de habilidad de contestar un tem en forma correcta. El modelo de Rasch, de un solo parmetro es l ms popular.

2.4 Fuentes de Sesgo Si deseamos usar las pruebas para predecir resultados en alguna situacin futura como por ejemplo en el desempeo de un aspirante a la universidad, necesitamos instrumentos con alta validez predictiva del criterio particular. Este requisito suele descuidarse en el desarrollo de las llamadas pruebas libres de influencia cultural. En un esfuerzo por incluir en esas pruebas solo las funciones comunes a diferentes culturas o subculturas, puede elegirse un contenido que tenga poca relevancia para el criterio que se pretenda predecir. Una mejor solucin es elegir un contenido relevante para el criterio e investigar luego las posibles diferencias poblacionales de la efectividad de la prueba para el propsito pretendido. Desde mediados de la dcada de los setenta se ha observado una rpida acumulacin de investigaciones sobre problemas de sesgo de la prueba. En este

45

contexto, el termino sesgo se emplea en su bien establecido sentido estadstico, para desganar un error constante o sistemtico en contraste con uno que se debe al azar. Las principales preguntas que se han planteado con respecto al sesgo de la prueba tiene que ver con el coeficiente de validez ( sesgo de la pendiente) y la relacin entre las medias del grupo en la prueba y en el criterio ( sesgo de interseccin). Si una prueba produce un coeficiente de validez significativamente diferente en dos grupos, la diferencia se describe como sesgo de la pendiente y esta clase de diferencia entre grupos se conoce como validez diferencial. Una prueba exhibe sesgo de interseccin si sistemticamente subpredice o sobrepredice una ejecucin del criterio para un grupo particular. El problema del sesgo de la interseccin se relaciona mas con lo que ha sido llamado equidad de la prueba. Aunque los trminos equidad y sesgo de la prueba a veces se usan indistintamente para cubrir todos los aspectos del uso del instrumento con minoras culturales. Modelos de decisin para el uso justo de las pruebas: Gradualmente empez a cambiar el inters de la investigacin en la evaluacin del sesgo de las pruebas al diseo de estrategias de seleccin para su uso justo con minoras culturales. Entre las metas por reconciliar estn las de proporcionar iguales oportunidades a todos los individuos , elevar al mximo la tasa del xito y la productividad, incrementar la mezcla demogrfica y la representatividad y extender el tratamiento preferencial a grupos desfavorecidos por inequidades anteriores. Van de Vijver y Tanzer ( 1997) identificaron diferentes fuentes de sesgo , que a continuacin se explicitan: a) Sesgo de constructo: Este tipo de sesgo se da cuando el constructo medido no es idntico a travs de los grupos culturales... ( p.p. 264, Van de Vijver y Tanzer, 1997). La importancia que cada cultura otorga a ciertas conductas se encuentra en esta categora. Conductas de tica y civismo que en algunas sociedades pueden ser normales en otras pueden constituir un verdadero rasgo de rigidez y asemejarse a una conducta obsesivo compulsivo. b) Sesgo metodolgico: Este sesgo reconoce tres formas. El sesgo de muestra: que se da cuando las muestras son incomparables entre si. La cantidad de aos de escolaridad que poseen los sujetos de una muestra es una variable determinante en el desempeo del mismo en un test determinado, especialmente si se trata de un test de habilidad. El nivel sociocultural, la motivacin, la composicin por genero y edad de los sujetos son otras variables que pueden hacer

46

incomparables a dos muestras que pueden mostrar resultados muy diferentes en un test determinado. El sesgo en el instrumento: que puede provenir de las caractersticas del instrumento. La familiaridad que los sujetos tienen con los estmulos presentados tiene una gran importancia. Algunos estmulos tales como objetos, dibujos, figuras u otros elementos utilizados en algunas culturas no existen en otras o son irrelevantes. El tem de ejemplo en el Sub. Test de Ordenamiento de lamina WISC III que muestra a una mujer frente a una maquina expendedora de latas de gaseosa tiene muy poco valor en culturas rabes, por ejemplo, o en zonas rurales de nuestro pas. El idioma es otra fuente de sesgo de instrumento. La traduccin de un idioma a otro frecuentemente subestimada, es un problema importante que requiere una metodologa especifica a seguir. Los problemas son mayores cuanto mas diferencias hay entre idiomas como entre el ingles y el chino o el rabe, idiomas cuya lectura se realiza de izquierda a derecha a diferencia del de derecha a izquierda. Tambin la disposicin del texto tiene importancia en el completamiento de frases o de interpretacin de textos, mayor es el problema cuando implican conectar letras y nmeros siguiendo un orden alfabtico o numrico y los caracteres de idiomas como el espaol, ruso, griego. rabe, hebreo o chino son tan diferentes. Tambin entre los idiomas occidentales existen diferencias como que en ingles no existe la que el alfabeto sueco contiene mas vocales, y en portugus existen distintos tipo de a. Los mtodos de respuesta constituyen otra fuente de sesgo del instrumento. Las laminas de respuestas del Test de Matrices Progresivas de Raven que implica completar una secuencia lgica con una figura opcional, incluyen la figura faltante al final de la segunda fila, con lo que asume una lectura de izquierda a derecha. Este hecho fue demostrado por Carpenter, Just y Shell ( 1990) en un muy preciso estudio que implica una serie de desventajas para los sujetos de las culturas rabes quienes involuntariamente van a intentar resolver la prueba de derecha a izquierda, forma en que se lee su idioma. El sesgo de administracin: incluye problemas tales como dificultades en la comunicacin, es decir, dificultades para que el entrevistado entienda las instrucciones del entrevistador ya sea por la dificultad de las palabras utilizadas, el modo de explicacin de las instrucciones o un inadecuado manejo del idioma de alguna de las partes. Tambin se incluyen las alteraciones en la manera de administrar las pruebas. Normalmente los manuales incluyen instrucciones de administracin que en muchos casos no son adecuadas para la poblacin a aplicar. Los administradores del Test entonces adaptan esas instrucciones segn su criterio personal. Otro punto importante es el uso de cronmetros que produce serias alteraciones en los resultados.

47

Sesgo de tem: Se produce cuando el mismo tiene diferentes significados en distintas culturas. Ciertos grupos culturales pueden obtener puntajes significativamente distintos en un tem determinado a pesar de obtener un puntaje total similar. La deseabilidad social o la relevancia cultural, entre otros factores, pueden producir el sesgo de tem. Tanzer ( 1995) demostr que aunque la estructura factorial de un Test de autoconcepto acadmico era similar cuando se lo aplico a estudiantes australianos y singaporeanos, existan diferencias sustanciales entre estas muestras cuando se compararon algunos tem especficamente. Este tipo de sesgos tambin acta en test neuropiscologicos.

48

Tercera Parte ADAPTACIN DE TESTS DE UNA CULTURA A OTRA Directrices para la traduccin Adaptacin de los Test Adaptadas de la International Test Comisin (ITC)

1 .Contexto C1. Los efectos de las diferencias culturales que no sean relevantes para los objetivos centrales del estudio deberan minimizarse en la medida de lo posible. C2. Debera de evaluarse la cuanta del solapamiento de los constructos en las poblaciones de inters.

2. Adaptacin de los tests D1. Los constructores/ editores de tests deberan de asegurarse que el proceso de adaptacin tiene en cuenta las diferencias lingsticas y culturales entre las poblaciones a las que se dirigen las versiones adaptadas de los tests. D. 2. Los constructores / editores de los tests deberan de proporcionar datos que garanticen que el lenguaje utilizado en las instrucciones, en los propios tem y en el manual del tests, son apropiados para todas la poblaciones culturales e idiomticas a las que va dirigido el tests. D. 3. Los constructores / editores de tests deberan de aportar evidencia de que las tcnicas de evaluacin elegidas, los formatos de los tems, las reglas de los tests y los procedimientos son familiares a todas las poblaciones a las que van dirigidos. D. 4. Los constructores / editores de tests deberan poblaciones a las que van dirigidos. D. 5. Los constructores / editores de tests deberan de aportar una justificacin racional sistemtica, tanto lingstica como psicolgica, para mejorar la precisin del proceso de adaptacin, as como reunir datos acerca de la equivalencia de todas las versiones en los distintos idiomas. D.6. Los constructores / editores de tests deberan de asegurarse que el diseo de recogida de datos permite el uso de tcnicas estadsticas apropiadas para establecer la equivalencia entre los tems correspondientes a las diferentes versiones idiomticas del test. D. 7. Los constructores / editores de tests deberan aplicar tcnicas estadsticas apropiadas para 1) establecer la equivalencia entre las diferentes versiones de un test, de facilitar evidencia de que el contenido de los tems y los materiales de los estmulos son familiares a todas las

49

y 2) identificar componentes problemticos o aspectos del test que puedan ser inadecuados para alguna de las poblaciones a las que va destinado el test. D. 8. Los constructores / editores de tests deberan de proporcional informacin sobre la evaluacin de la validez en todas las poblaciones objetivo a las que va dirigido el test adaptado. D. 9. Los constructores / editores de tests deberan de aportar datos estadsticos sobre la equivalencia de los tests para todas las poblaciones a las que van dirigidos. D. 10. No deben utilizarse preguntas no equivalentes en todas las versiones dirigidas a diferentes poblaciones cuando se prepara una escala comn, o cuando se comparan estas poblaciones. Sin embargo, pueden ser tiles para reforzar la validez de contenido de las puntuaciones de cada poblacin por separado.

3. Aplicacin A.1 Los constructores y los aplicadores de los tests deberan tratar de prever los tipos de problemas que cabe esperar, y tomar las medidas oportunas para evitarlos mediante la preparacin de materiales e instrucciones adecuados. A.2 Quienes aplican los tests deberan de ser sensibles a cierto numero de Editores relacionados con los materiales utilizados para los estmulos, los procedimientos de aplicacin, y las formas de respuesta, que pueden reducir la validez de las inferencias extradas de las puntuaciones. A.3 Aquellos aspectos del entorno que influyen en la paliacin del test deberan de mantenerse lo mas parecidos posibles para todas las poblaciones dirigido el test. A.4 Las instrucciones para la aplicacin del test en el idioma fuente y en el objetivo deben minimizar la influencia de variacin no deseada. A.5 El manual del test debera de especificar todos los aspectos del test y de su aplicacin que han de revisarse al utilizarlo en un nuevo contexto cultural. A.6 El aplicador no debe de interferir, debiendo minimizarse su influencia sobre los examinados. Deben de seguirse al pie de la letra las reglas explicitas descritas en el manual del test. 4. Interpretacin de las puntuaciones 1. 1 Cuando se adapta un test para utilizarlo en otra poblacin, debe de facilitarse la documentacin sobre los cambios , as como los datos acerca de la equivalencia entre las versiones. a las que va

50

1. 2 . Las diferencias entre las puntuaciones obtenidas por las muestras a las que se aplico el test no deben de tomarse sin mas directamente. El investigador tiene la responsabilidad de sustanciar las diferencias con otros datos empricos. 1. 3 . Las comparaciones entre poblaciones solo pueden hacerse al nivel de la invarianza que se haya establecido para la escala en la que se expresan las puntuaciones. 1. 4. El constructor del test debera de proporcionar informacin especifica acerca de las distintas formas en las que los contextos socioculturales y ecolgicos de las poblaciones pueden afectar al rendimiento en el test , y debera sugerir procedimientos para tener en cuenta estos efectos en la interpretacin de los resultados.

2. CONCLUSIONES La utilizacin de los tests psicolgicos construidos en otros contextos culturales es una practica frecuente no solo en nuestro medio sino en todo el mundo . El uso de un test en un contexto cultural diferente, donde se usa un lenguaje distinto y se esta familiarizado con estmulos muy diversos, produce dificultades traducibles como fuentes de sesgo. La existencia de sesgo puede tener consecuencias iatrognicas al aplicar los tests y al obtener resultados totalmente errneos. En un mbito clnico podemos asumir la existencia de un rasgo de personalidad patolgico, cuando este rasgo puede ser normal s esta dentro de un rango correctamente medido. Adems de ser muy necesario contar con instrumentos adecuados para la practica psicolgica y para la investigacin, la adaptacin de instrumentos responde a razones de ndole cientfico y practico. Es importante reconocer que la mayora de las teoras psicolgicas actuales se han desarrollado en contextos de cultura occidental y que la validacin emprica de las mismas se ha realizado con muestras de jvenes universitarios de raza blanca. Ahora enfrentamos el desafi de demostrar la Universalidad de esas teoras si es que es posible. Es por ello que para poder evaluar si un determinado rasgo psicolgico existe en culturas diferentes es necesario contar con instrumentos equivalentes a travs de diferentes culturas, es decir que midan lo mismo en ambas culturas en donde va a ser aplicado. Para ello proponemos comenzar por desarrollar mayor cantidad de instrumentos que cumplan con los requisitos necesarios para ser aplicados segn las teoras de los tests que ltimamente han cobrado vigor y siguiendo parmetros internacionales como los que se detallan a continuacin.

51

Calidad de la documentacin aportada * ( ) Inadecuada ** ( ) Adecuada pero con algunas carencias *** ( ) Adecuada **** ( ) Buena ***** ( ) Excelente (Descripcin muy clara y completa de las caractersticas tcnicas, fundamentada en abundantes datos y referencias). Fundamentacin terica:

( ) No se aporta informacin en la documentacin * ( ) Inadecuada ** ( ) Adecuada pero con algunas carencias *** ( ) Adecuada **** ( ) Buena ***** ( ) Excelente (Descripcin muy clara y documentada del constructo que se pretende medir y del procedimiento de medicin). Adaptacin del test (si el test ha sido traducido y adaptado para su aplicacin): Descripcin precisa del procedimiento de traduccin, de la adaptacin de los tems a la cultura espaola, de los estudios de equivalencia con la versin original, utilizacin de la normativa de la International Test Commission, etc. Calidad de las instrucciones: Claras y precisas. Muy adecuadas para las poblaciones a las que va dirigido el test. Facilidad para comprender la tarea :Los sujetos de las poblaciones a las que va dirigido el test pueden comprender fcilmente la tarea a realizar.

52

Facilidad para registrar las respuestas : El procedimiento para emitir o registrar las respuestas es muy simple por lo que se evitan los errores en la anotacin.

Calidad de los tems (aspectos formales): La redaccin y el diseo son muy apropiados.

Anlisis de los tems

Datos sobre el anlisis de los tems: Informacin detallada sobre diversos estudios acerca de las caractersticas psicomtricas de los tems: dificultad o variabilidad, discriminacin, validez, distractores, etc. Validez

Validez de contenido: 1. Calidad de la representacin del contenido o dominio: En la documentacin se presenta una precisa definicin del contenido. Los tems muestran adecuadamente todas las facetas del contenido. 2. Consultas a expertos: ( ) No se aporta informacin en la documentacin * ( ) No se ha consultado a expertos sobre la representacin del contenido ** ( ) Se ha consultado de manera informal a un pequeo nmero de expertos *** ( ) Se ha consultado a un pequeo nmero de expertos mediante un procedimiento sistematizado (N<10). **** ( ) Se ha consultado a un nmero moderado de expertos mediante un procedimiento sistematizado (10 N 30). ***** ( ) Se ha consultado a un amplio nmero de expertos mediante un un procedimiento sistematizado (N>30). 2. Validez de constructo: 2.1. Diseos empleados:

53

( ) No se aporta informacin en la documentacin ( ) Correlaciones con otros tests ( ) Diferencias entre grupos ( ) Matriz multirasgo-multimtodo ( ) Anlisis factorial exploratorio ( ) Anlisis factorial confirmatorio ( ) Diseos experimentales ( ) Otros 2.2. Tamao de las muestras en la validacin de constructo: ( ) No se aporta informacin en la documentacin * ( ) Un estudio con una muestra pequea (N<200) ** ( ) Un estudio con una muestra moderada (200 N<500) *** ( ) Un estudio con una muestra grande (N 500) **** ( ) Varios estudios con muestras de tamao moderado ***** ( ) Varios estudios con muestras grandes 2.3. Procedimiento de seleccin de las muestras: ( ) No se aporta informacin en la documentacin ( ) Incidental ( ) Aleatorio 2.4. Mediana de las correlaciones del test con otros tests similares: ( ) No se aporta informacin en la documentacin * ( ) Inadecuada (r<0.25) ** ( ) Adecuada pero con algunas carencias (0.25 r<0.40) *** ( ) Adecuada (0.40 r<0.50)

54

**** ( ) Buena (0.50 r<0.60) ***** ( ) Excelente (r 0.60) 2.5. Calidad de los tests empleados como criterio o marcador: 2.6. Datos sobre el sesgo de los tems: Informacin detallada sobre diversos estudios acerca del sesgo de los tems relacionado con el sexo, la lengua materna, etc. Empleo de la metodologa apropiada. 3. Validez predictiva 3.1. Describa los criterios empleados y las caractersticas de las poblaciones: 3.1. Diseo de seleccin del criterio: ( ) Concurrente ( ) Predictivo ( ) Retrospectvo 3.2. Tamao de las muestras en la validacin predictiva: ( ) No se aporta informacin en la documentacin * ( ) Un estudio con una muestra pequea (N<100) ** ( ) Un estudio con una muestra moderada (100N<200) *** ( ) Un estudio con una muestra grande y representativa (N=200) **** ( ) Varios estudios con muestras representativas de tamao moderado ***** ( ) Varios estudios con muestras grandes y representativas 3.3. Procedimiento de seleccin de las muestras*: 3.4. Mediana de las correlaciones del test con los criterios: ( ) No se aporta informacin en la documentacin * ( ) Inadecuada (r<0.20)

55

** ( ) Suficiente (0.20 r<0.35) *** ( ) Buena (0.35 r<0.45) **** ( ) Muy buena (0.45 r<0.55) ***** ( ) Excelente (r 0.55) 2.10.4. Comentarios sobre la validez en general: Fiabilidad

1. Datos aportados sobre la fiabilidad: ( ) Un nico coeficiente de fiabilidad ( ) Un nico error tpico de medida ( ) Coeficientes de fiabilidad para diferentes grupos de sujetos ( ) Error tpico de medida para diferentes grupos de sujetos 2. Equivalencia (Formas paralelas): 2.1. Tamao de las muestras en los estudios de equivalencia: ( ) No se aporta informacin en la documentacin * ( ) Un estudio con una muestra pequea (N<200) ** ( ) Un estudio con una muestra moderada (200 N<500) *** ( ) Un estudio con una muestra grande (N 500) **** ( ) Varios estudios con muestras de tamao moderado ***** ( ) Varios estudios con muestras grandes 2.2. Mediana de los coeficientes de equivalencia: ( ) No se aporta informacin en la documentacin * ( ) Inadecuada (r<0.50) ** ( ) Adecuada pero con algunas carencias (0.50 r<0.60) *** ( ) Adecuada (0.60 r<0.70)

56

**** ( ) Buena (0.70 r<0.80) ***** ( ) Excelente (r 0.80) 3. Consistencia interna 3.1. Tamao de las muestras en los estudios de consistencia: ( ) No se aporta informacin en la documentacin * ( ) Un estudio con una muestra pequea (N<200) ** ( ) Un estudio con una muestra moderada (200 N<500) *** ( ) Un estudio con una muestra grande (N 500) **** ( ) Varios estudios con muestras de tamao moderado ***** ( ) Varios estudios con muestras grandes 3.2. Mediana de los coeficientes de consistencia: ( ) No se aporta informacin en la documentacin * ( ) Inadecuada (r<0.60) ** ( ) Adecuada pero con algunas carencias (0.60 r<0.70) *** ( ) Adecuada (0.70 r<0.80) **** ( ) Buena (0.80 r<0.85) ***** ( ) Excelente (r 0.85) 4. Estabilidad (Test-Retest) 4.1. Tamao de las muestras en los estudios de estabilidad: ( ) No se aporta informacin en la documentacin * ( ) Un estudio con una muestra pequea (N<100) ** ( ) Un estudio con una muestra moderada (100 N<200) *** ( ) Un estudio con una muestra grande (N 200) **** ( ) Varios estudios con muestras de tamao moderado

57

***** ( ) Varios estudios con muestras grandes 4.2. Mediana de los coeficientes de estabilidad: ( ) No se aporta informacin en la documentacin * ( ) Inadecuada (r<0.55) ** ( ) Adecuada pero con algunas carencias (0.55r<0.65) *** ( ) Adecuada (0.65 r<0.75) **** ( ) Buena (0.75 r<0.80) ***** ( ) Excelente (r 0.80) Normas

1. Calidad de las normas: ( ) No se aporta informacin en la documentacin * ( ) Un baremo que no es aplicable a la poblacin objetivo ** ( ) Un baremo aplicable a la poblacin objetivo con cierta precaucin *** ( ) Un baremo adecuado para la poblacin objetivo **** ( ) Varios baremos dirigidos a diversos estratos poblacionales ***** ( ) Amplio rango de baremos en funcin de la edad, el sexo, el nivel cultural y otras caractersticas relevantes. 2. Tamao de las muestras: ( ) No se aporta informacin en la documentacin * ( ) Pequeo (N<150) ** ( ) Suficiente (150 N<300) *** ( ) Moderado (300 N<600) **** ( ) Grande (600 N<1000) ***** ( ) Muy grande (N 1000)

58

3. Procedimiento de seleccin de las muestras*: ( ) No se aporta informacin en la documentacin ( ) Incidental ( ) Aleatorio

3. REFERENCIAS BIBLIOGRFICAS AIKEN, L.R. (1996) Rating Scales and Checklists: Evaluating Behavior, Personality and Attitude. John Wiley & Sons.USA (1997)Questionnaires and inventories: Surveing opinions and assessing personality. John Wiley & Sons. USA (2003)Tests psicolgicos y evaluacin. Prentice Hall.Mxico. Undcima Edicin AMERICAN AMERICAN PSYCHOLOGICAL EDUCATIONAL ASSOCIATION RESEARCH (APA) (1999). Standards for psychological and educational tests. Washington, D.C. ASSOCIATION. AMERICAN PSYCHOLOGICAL ASSOCIATION. National Council on Measurement in Education (1996) Standards for Educational and Psychological Testing. APA Washington. USA. ANASTASI, A. & URBINA, S. (1998) Tests Psicolgicos. Prentice Hall.Mexico. Sptima Edicin. BANDURA, A. (2001) Gua para la construccin de escalas de Autoeficacia. Evaluar 2, 7-38 Campbell, D. (1960) Recommendations for APA test standards, regarding construct, trait and discriminant validity. American Psychologist, 15, 546-553. CATTELL, R. B. (1986). Scales and the Meaning of Standardized Scores. In R. B. Cattell, and R. C. Johnson, (Eds). Functional Psychological Testing: Principles and Instruments. New York: Brunner/Mazel, Publishers. CHAPLIN, W., JOHN, O. & GOLDBERG, L. (1988) Conceptions of state and traits:Dimensional attributes with ideals as prototypes. Journal of Personality and Social Psychology, 54, pp. 541-557. COHEN, R.J. & SWERDLIK, M.E. (2000) Pruebas y evaluacin psicolgicas. Introduccin a las pruebas y a la medicin. McGraw Hill. Mxico.

59

CORTADA DE KOHAN, N. (1999) Teoras Psicomtricas y Construccin de Tests. Lugar Editorial. Buenos Aires. (2004) Teora y Mtodos para la Construccin de Escalas de Actitudes. Lugar Editorial Buenos Aires. Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometryca, 16, 297-334. CRONBACH, L. Y GLASER, G. (1972) The dependability of behavioral measurements. Theory of generalizability for scores and profiles. New York; Willey. FERRERES TRAVER. D. (2005) Funcionamiento diferencial de los tems: Un adecuado empleo de cuestionarios en situaciones bilinges. Curso de Doctorado. Facultad de Psicologa. UBA FORNS I SANTACANA, M. (1993) Evaluacin psicolgica infantil. Barcanova. Barcelona, Espaa. Guilford, J. (1959) Personality McGraw Hill. NYork GHISELLI, E., CAMPBELL, J. Y ZEDEK, S. (1981) Measurement theory for the behavioral sciences. Freeman. S. Francisco HAMBLETON, R. K., & SWAMINATHAN, H. (1985). Item response theory: Principles and applications. Boston, MA: Kluwer-Nijhoff Publishing. HAMBLETON, R. K., SWAMINATHAN, H., & ROGERS, H. J. (1991). Fundamentals of Item Response Theory. (Vol-2). Newbury Park, CA: Sage. Herrera Rojas, A. (1993) La medicin en Psicologa. Universidad de Bogot. Indito. HOGAN, T. (2004) Pruebas Psicolgicas: Una introduccin prctica. Ed. Manual Moderno: Mjico. KUDER, G. F. & RICHARDSON, M. W. (1937). The theory of the estimation of reliability. Psychometryca, 2, 151-160 Lee, R. & Foley, P. (1986) Is the validity of a test constant throughout the score range? Journal of Applied Psychology, 71, 641-644. LPEZ FEAL, R. (1986) Construccin de instrumentos de medida en Ciencias conductuales y sociales. Col I. Alamex. Espaa. LORD, F. M. (1980). Application of Item Response Theory to practical testing problems. Hillsdale, N.J: Lawrence Erlbaum Associates. MARTORELL, M.C. (1992) Tcnicas de evaluacin psicolgica. Introduccin. Vol I.Anlogos, Observacin, Autoobservacin, Autoinformes, N = 1 e introduccin a la Evaluacin de Programas. Vol. II. Socializacin, Hiperactividad, Autoconcepto y Retraso Mental en Nios y Adolescentes Vol.III. Pomolibro. Valencia, Espaa

60

MESSSICK, S. (1995) Validity of psychological assessment. American Psychologist, 50, pp.741-749. NUNNALLY, J. Y BERNSTEIN, I. (1995) Teora Psicomtrica. Mxico. McGraw Hill. OESTERLIND, S. (1990) Establishing criteria for meritorius test tems. Educational Resarch Quality. 14, 3, 26-30. PAJARES, F.; HARTLEY, J. Y VALIANTE, G. (2001) Response Format in writing SelfEfficacy Scales. Greater discrimination increases prediction. Measurement and evaluation in counseling and development. 33, 4, 214-221. PELECHANO BARBER, V.(1988) Del Psicodiagnstico clsico al Anlisis Ecopsicolgico Vol. I Conceptos Bsicos. Edit. Alfaplus. Valencia, Espaa. SANTISTEBAN REQUENA, C. (1990) Psicometra. Teora y Prctica en la construccin de Tests. Ediciones Norma. Madrid. Espaa SILVA MORENO, F. (1995) Evaluacin Psicolgica en Nios y Adolescentes. Ed. Sntesis. Madrid, Espaa. (1999) Avances en evaluacin psicolgica. Promolibro. Valencia, Espaa. SPEARMAN, C. E. (1904). The proof and measurement of association between two things. American Journal of Psychology, 15, 201,-293. STENBERG, R. (1986) Incide Intelligence. American Scientist. Vol.74 (2), 137-143 STERNBERG, R. & WEIL, E. (1980) An aptitude x strategy interaction in linear syllogistic reasoning. Journal of Educational Psychology, 72, 226-239. STEVENS, S.(1951) Handbook of experimental psychology Wiley. N. York. TORNIMBENI, S., PREZ, E; OLAZ, F.Y FERNNDEZ, A. (2004) Introduccin a los Tests Psicolgicos. 3 Edicin revisada y aumentada.Ed. Brujas Crdoba, Argentina. VAN DE VIJVER, F. & HAMBLETON, R. (1996) Translating Tests: Some practical Guidelines European Psychologist Vol.1 N 2 pp.89-99. WECHSLER, D. (1958) The measurement of adult intelligence. Williams & Witkins. Baltimore.

61

4 .ANEXO Academic Therapy : www.atpub.com American Guidance Service: www.agsnet.com Consulting Psychologists Press: www.cpp.db.com CTB McGraw Hill: www.ctb.com Educators Publishing Service: www.epsbooks.com Harcourt Brace Educational Measurement: www.hbem.com Institute for Personality and Ability Testing: www.ipat.com James Stanfield Company: www.stanfield.com Lafayette Instruments: www.licmef.com Meritech Inc.: www.meritech.com Multi-Health Systems : www.mhs.com National Computer Assessments: www.ncs.com Psychological Assessment Resources: www.parinc.com Pro-Ed: www.proedinc.com Riverside Publishing: www.riverpub.com Scholastic Testing Service: www.ststesting.com Sigma Assessment Systems: www.mgl.ca/-sigma Slosson Educational Publications: www.slosson.com Sopris West: www.sopriswest.com Stoelting: www.stoelting.com The Psychological Corporation: www.psychocorp.com Techmicro Inc.: www.tech-micro.com Vort: www.vort.com

62

Vous aimerez peut-être aussi