Lohr2002 Article AssessingHealthStatusAndQualit - En.es

Calidad de Vida de Investigación 11: 193-205, 2002.
193
2002 Kluwer Academic Publishers. Impreso en los Países Bajos.
La valoración del estado de salud y los instrumentos de calidad de vida: Los atributos y criterios de revisión
Scientific Comité Asesor de la Medical Outcomes Confianza 1 ( E-mail: klohr@rti.org )
Aceptada en el Formulario 8 de enero de revisada de 2002
Resumen
El campo de la salud y la calidad de la medición de la vida (CdV) - como una disciplina formal con un marco teórico coherente, métodos aceptados, y diversas aplicaciones - ha ido
evolucionando durante la mayor parte de los 30 años. Para identificar el estado de salud y calidad de vida instrumentos y revisarlos con criterios rigurosos como un precursor de la creación
de una biblioteca de instrumentos de difusión más tarde, el Medical Outcomes Confianza en 1994 creó una Cientí fi funcionar independientemente c Comité Asesor (SAC). A mediados de la
década de 1990, el SAC de fi ne un conjunto de atributos y criterios para llevar a cabo las evaluaciones de instrumentos; 5 años más tarde, actualizado y revisado estos materiales para tener
en cuenta las teorías de expansión y tecnologías sobre las que se están desarrollando este tipo de instrumentos. Este diario O ff ers conceptualización del SAC actual de ocho atributos clave
del estado de salud y los instrumentos de calidad de vida (es decir, modelo conceptual y de medición; fiabilidad, validez, capacidad de respuesta; interpretabilidad; encuestado y la carga
administrativa; formas alternas; y adaptaciones culturales y de lenguaje) y los criterios por el cual los instrumentos se revisarán en cada uno de esos atributos. Éstas son las pautas para el
campo a considerar y el debate sugirieron; de técnicas de medición se hacen tanto más familiar y más sofisticado, esperamos que los expertos desean actualizar y refinar estos criterios en
consecuencia. y adaptaciones culturales y de lenguaje) y los criterios por los cuales se revisarán los instrumentos en cada uno de esos atributos. Éstas son las pautas para el campo a
considerar y el debate sugirieron; de técnicas de medición se hacen tanto más familiar y más sofisticado, esperamos que los expertos desean actualizar y refinar estos criterios en
consecuencia. y adaptaciones culturales y de lenguaje) y los criterios por los cuales se revisarán los instrumentos en cada uno de esos atributos. Éstas son las pautas para el campo a
considerar y el debate sugirieron; de técnicas de medición se hacen tanto más familiar y más sofisticado, esperamos que los expertos desean actualizar y refinar estos criterios en
consecuencia.
palabras clave: El estado de salud, la teoría de respuesta al ítem, Medición, Calidad de vida, fiabilidad, capacidad de respuesta, Validez
Introducción HESIVE marco teórico, métodos aceptados, y diversas aplicaciones

- ha ido evolucionando durante la mayor parte de los 30 años. Se
El campo de la evaluación de la salud ha caracterizado por la proliferación de los instrumentos que varían
ampliamente en sus métodos de desarrollo, el contenido, la
El campo de la salud y la calidad de la medición de la vida (CdV) - amplitud de uso, y la calidad. Ha crecido y madurado a través de
como una disciplina formal con un co- los correos ff Orts de los desarrolladores individuales de
instrumentos y equipos de investigadores, apoyado en los
momentos cruciales de las organizaciones filantrópicas privadas y
1 Neil Aaronson, PhD, del Instituto del Cáncer de Holanda, Ámsterdam; Jordi Alonso,
del sector público (gobierno) agencias en particular en América del
MD, Instituto Municipal de Investigación Médica (IMIS-IMAS), Barcelona, España;
Norte, el Reino Unido y varios países europeos. Una importante
Audrey Burnam, PhD, la RAND Corporation, Santa Mónica, CA; Kathleen N. Lohr,
PhD, RTI International, Research Triangle Park, Carolina del Norte, y el Programa
fuente adicional de soporte para el campo ha sido la industria
sobre la Salud, Universidad de Carolina del Norte en Chapel Hill; Donald L. Patrick, farmacéutica en ambos lados del Atlántico.
PhD, MSPH, Departamento de Servicios de Salud, Universidad de Washington,
Seattle; Edward Perrin, PhD, del Departamento de Servicios de Salud, Universidad de
Washington, Seattle, Ruth EK Stein, MD Albert Einstein College of Medicine / hospital
en Monte mineral de ficción para niños, Bronx, Nueva York.
Añadiendo a esta mezcla de investigación y aplicación han sido
muchos desarrollos constructivos: creación de diversos institutos y
centros que desarrollan
194
nuevos instrumentos, traducir y adaptar culturalmente los instrumentos SAC determinó que, para cumplir con sus responsabilidades, sería
existentes, y facilitar la investigación entre académicos, médicos y necesario establecer algunos principios y criterios, así como los
organizaciones de atención de la salud; surgimiento de una sociedad procedimientos, por lo que sería adquirir, revisión y hará
profesional dedicada explícitamente a la promoción de este campo (la evaluaciones sobre los instrumentos que vinieron a su atención o
Sociedad Internacional para la calidad de vida de investigación para someterse a la confianza.
[ISOQOL]); convocatoria de numerosos coloquios internacionales y
convenciones sobre los métodos y problemas en la evaluación de la
calidad relacionada con la salud de la vida; la producción de numerosas criterios de revisión de instrumentos
compilaciones de instrumentos de evaluación y cuestionarios para

medir el estado de salud, el funcionamiento y los conceptos Así pues, el SAC se dedicó a para definir un conjunto de atributos y
relacionados; y publicación de al menos una revista cuyo contenido criterios para llevar a cabo las evaluaciones de instrumentos y, después
básico se refiere a la medición de la calidad de vida (es decir, Quality of de la revisión externa por pares y revisiones, publicado y difundido el
Life Research). primer conjunto de sus "criterios de revisión del instrumento en 1996
(Evaluación de la calidad de vida y instrumentos de evaluación del
estado de salud: Desarrollo de criterios de revisión científica c Clin Ther
Hoy en día, el campo es ahora ampliamente internacional, y sus 1996; 18 (5):. 979-992). Ellos fueron re-publicados en el Monitor, una
líderes están a la vanguardia de la aplicación de las teorías publicación de la confianza, en marzo de 1997; un conjunto filial de
tradicionales y modernas y métodos de la salud, la psicología y criterios relativos únicamente a la evaluación de las traducciones y
campos relacionados con la creación y validación de tales adaptaciones culturales de instrumentos fue publicada en el Boletín, una
instrumentos. Esta heterogeneidad induce debate sumamente publicación hermana de confianza, en julio de 1997.
productivo y útil y los avances metodológicos, y para los expertos
en el campo, esta diversidad es aceptable y, de hecho, la
bienvenida. Dentro del enfoque y criterios SAC, el instrumento término se refiere
a la constelación de artículos contenidos en cuestionarios y programas
de entrevistas junto con sus instrucciones a los encuestados, los
El Medical Outcomes Trust y su la Ciencia Comité Asesor (SAC) procedimientos para la administración, puntuación, interpretación de los
resultados, y otros materiales que se encuentran en un manual del
usuario. Utilizamos atribuye el término para indicar las categorías de
Esta compleja mezcla de organizaciones sin ánimo de lucro fi t, propiedades o características de los instrumentos que merecen una
investigadores académicos, organismos del sector público, y fi rma consideración aparte, independiente de evaluación. Dentro de los
comerciales tiene, por supuesto, perseguido hay un conjunto único de atributos, se especifica lo denotamos como criterios, que se entienden
objetivos. En 1992, sin embargo, la Confianza de resultados médicos comúnmente como condiciones o hechos utilizados como un estándar
se incorporó con la misión de promover la ciencia y la aplicación de la por el cual algo puede ser juzgado o considerado. Consideramos que
evaluación de resultados, con un énfasis particular en la ampliación los criterios como la prescripción de las fi diseñadores de instrumentos
de la disponibilidad y utilización de cuestionarios de de información específicos deben estar preparados para proporcionar
auto-administrados o entrevistador diseñados para evaluar la salud y alrededor de aspectos particulares de cada atributo.
los resultados de cuidado de la salud desde un punto de vista de los
pacientes. Para lograr esta misión, la confianza se comprometió a
identificar este tipo de instrumentos, ponerlas en una librería de
instrumentos, y difundirlas (junto con las guías de los usuarios En general, hemos utilizado estos criterios para revisar los
apropiados y materiales relacionados) a todas las personas con un instrumentos desarrollados en las adaptaciones culturales y de
interés y necesidad de ellos. lenguaje basado en la versión en idioma Inglés del instrumento
dado Inglés y, pero pueden y se han utilizado para examinar los
instrumentos desarrollados en otros idiomas también. Las
En desarrollo de esta tarea, en 1994 la confianza creó una aplicamos a los instrumentos que miden los dominios del estado de
Scientific Comité Asesor (SAC) - una entidad que opera de forma salud y calidad de vida (CdV) en ambos grupos e individuos.
independiente encargado de revisar los instrumentos y la Aunque creemos que los criterios se aplican a la clase
evaluación de su idoneidad para la amplia distribución por el 'individualizado' de las medidas
fideicomiso. los
195
(Tales como la periodicidad de la evaluación de la calidad de vida Tenemos tres objetivos en mente en la difusión de estos criterios. En
individual [SEIQoL]) que no tienen elementos estandarizados a través primer lugar, esperamos mejorar la apreciación de la evaluación de los
de los encuestados, todavía no hemos tenido experiencia de la resultados de salud entre un público tan amplio como sea posible y para
aplicación de estos criterios con tales medidas. impulsar aún más la discusión y el debate acerca de la mejora continua
en este campo. En segundo lugar, queremos proporcionar una plantilla
en la que los demás se establecen para evaluar los materiales o sistemas
criterios de revisión de instrumentos revisado (por ejemplo, la medición del rendimiento o los sistemas de vigilancia en
el ámbito de la atención qualityof) podría llevar a cabo de manera similar
Allí estaban las cosas durante unos 2 años, ya que el SAC aplicó su a exponer sus criterios de evaluación clara y abierta. En tercer lugar,
conjunto original de los criterios de revisión de instrumentos a los nuestro objetivo es documentar el proceso y los criterios utilizados por el
instrumentos presentados desde los Estados Unidos, el Reino Unido, SAC en el contexto de la misión de la confianza.
Canadá y varios países europeos como parte de las actividades de
fideicomiso más grandes. Cada vez más, sin embargo, el SAC se
encontró con dos problemas. Una de ellas fue que los desarrolladores
encuentran a veces los documentos que describen el culto criterios di fi
aplicar a su situación particular; el otro era que los criterios son menos
aplicables a los instrumentos desarrollados de acuerdo con los Atributos y criterios
principios de la teoría moderna de la prueba a los instrumentos creados
de acuerdo con las normas psicométricas clásicas. Ocho atributos han servido como principales focos de SAC opinión
instrumento y son el núcleo de este trabajo. Son:
Así, en el transcurso del uso de los criterios iniciales establecidos 1 Modelo conceptual y medición
durante varios años, se determinó que se requiere revisión y 2. Fiabilidad
ampliación para hacer frente a los avances en la ciencia de la 3. Validez
psicometría y aplicar a una gama más amplia de instrumentos. Aparte 4. Capacidad de respuesta
del hecho de que más instrumentos se están desarrollando en 5. Interpretabilidad

principios distintos teoría clásica de los tests, nos dimos cuenta de que 6. demandado y la carga administrativa
la posibilidad de aplicar los mismos conceptos de evaluación para otros 7. Las formas alternativas
tipos de instrumentos, como los inspectores o los instrumentos 8. adaptaciones culturales e idioma (traducciones)
mediante los cuales los consumidores podrían calificar su satisfacción
con cuidado de la salud y los planes, también es deseable. Dentro de estos atributos, establecimos criterios de revisión fi
cas que se basan en las normas existentes y las prácticas en las
ciencias y los resultados de salud campos de comportamiento en
Para abordar estas preocupaciones, se realizó revisar los criterios evolución. Estos criterios, que son directrices generales, re fl
siguiendo el mismo proceso tal como se utiliza inicialmente. principios y prácticas de la teoría clásica de los tests y moderno ect.
Específicamente, se determinó que queremos mantener la estructura La Tabla 1 resume los atributos y criterios principales para cada
básica de los criterios establecidos, sino ampliar la definición y los atributo. En general, nuestros criterios de revisión se han diseñado
criterios especí fi cos para reflejar modernos principios y métodos de la principalmente para el estado de salud y calidad de vida per fi l;
teoría de prueba. También hemos renovado la presentación de los reconocemos que, por diversas medidas de utilidad o preferencia,
criterios, principalmente para dejar en claro la distinción entre la sin embargo, otros atributos y criterios pueden ser apropiados. (Al
descripción o definición de un atributo específico (por ejemplo, la final de este artículo, los lectores podrán encontrar una selección
fiabilidad o la carga de los encuestados) y las piezas especí fi cos de la bibliográfica de textos y artículos que proporcionan la base
información que creemos que los desarrolladores deben tratar de conceptual y empírica para estos atributos y criterios seminales;
proporcionar alrededor de ese atributo. Antes de la publicación de estos
criterios revisados, solicitamos la revisión por pares fuera de seis
revisores en los Estados Unidos, el Reino Unido y Dinamarca (véase
Agradecimientos) y revisó el documento en consecuencia.
Se revisan los instrumentos en el contexto de 11 solicitudes

documentadas:
196
Tabla 1. Atributos y criterios para la revisión de los instrumentos *
Atributo criterios de revisión
1. Modelo conceptual y medición de los fundamentos y la descripción del

concepto y las poblaciones que una medida está destinada a evaluar y la - Concepto que se desea medir
relación entre estos conceptos. - Bases conceptuales y empíricos para el contenido del artículo y combinaciones
- la participación de la población objetivo en la derivación de contenido
- La información sobre la dimensionalidad y el carácter distintivo de las escalas
- La evidencia de variabilidad a escala
- nivel prevista de medición
- Justificación para derivar puntuaciones de la escala
2. Fiabilidad Consistencia interna

El grado en que un instrumento está libre de error aleatorio. - Métodos para recolectar datos de fiabilidad
- estimaciones de la fiabilidad y los errores estándar para todos los elementos de prueba de
puntuación (clásica) o error estándar de la media a lo largo del rango de escala y fiabilidad marginal
de cada escala (moderna IRT)
Consistencia interna - Datos para el cálculo de la fiabilidad coe fi cientes o cálculos reales de coe fi cientes fiabilidad del Consejo de
La precisión de una escala, basada en la homogeneidad Europa
(correlaciones) de los ítems de la escala en un momento dado en el tiempo. - los datos anteriores para cada población de mayor interés, si es necesario
reproducibilidad
- Los métodos empleados para recoger los datos de reproducibilidad
reproducibilidad - justificación bien argumentado para apoyar el diseño del estudio y el intervalo entre la
La estabilidad de un instrumento a través del tiempo (test-retest) y el acuerdo entre los primera y la posterior administración a apoyar la hipótesis de que la población es estable
calificadores en un momento dado en el tiempo.
- La información sobre la fiabilidad test-retest y entre los calificadores fiabilidad basado en coe fi
cientes de correlación intraclase coe
- Información sobre la comparabilidad de las estimaciones de los parámetros del artículo y en la
precisión de medición sobre las administraciones repetidas
3. Validez - Razón fundamental el apoyo a la mezcla particular de la evidencia presentada para los usos
El grado en que el instrumento mide lo que pretende medir. previstos
- Descripción clara de los métodos empleados para recopilar datos de validez
- Composición de la muestra utilizado para examinar la validez (en detalle)
- los datos anteriores para cada población de mayor interés
Contenido relacionado con: evidencia de que el dominio de un instrumento es adecuado - Hipótesis probadas y los datos relativos a las pruebas
en relación con su uso previsto. - Clara justificación y apoyo a la elección de las medidas de criterios
Construir-relacionados: evidencia que apoya una interpretación propuesta de las
puntuaciones basadas en implicaciones teóricas asociados con las
construcciones que se mide.
Criterio relacionados con: evidencia que muestra la medida en que las puntuaciones del
instrumento están relacionadas con una medida de criterio.
4. Capacidad de respuesta - La evidencia sobre los cambios en las puntuaciones del instrumento
La capacidad de un instrumento para detectar cambios en el tiempo. - Los datos longitudinales que comparan un grupo que se espera que cambie con un grupo que
se espera que se mantenga estable
- Población (s) en el que la capacidad de respuesta ha sido probado, incluyendo los intervalos de
tiempo de evaluación, las intervenciones o medidas que intervienen en la evaluación del
cambio, y las poblaciones se supone que es estable
5. Interpretabilidad - Justificación de la selección de criterios externos de las poblaciones para fines de

El grado en que se puede asignar fácilmente entendido comparación y la interpretación de los datos
es decir, con las puntuaciones cuantitativas de un instrumento. - La información relativa a la forma en que los datos del instrumento deben ser reportados y
se muestran
- '' puntos de referencia significativos para facilitar la interpretación de las puntuaciones
6. Carga la carga de respuesta
El tiempo, e ff ORT, y otras demandas colocado en aquellos a los que se administra el - Indicaciones para: (a) la media y el rango del tiempo necesario para completar el
instrumento (carga de los encuestados) o en los que administran el instrumento (carga instrumento, (b) la lectura y el nivel de comprensión, y (c) cualquier requerimiento o
administrativa). petición especial hecha del encuestado
197
Tabla 1. ( Continuado)
Atributo criterios de revisión
- La evidencia de que el instrumento no pone ninguna tensión física o emocional excesiva

para el encuestado
- Cuándo o en qué circunstancias el instrumento no es adecuado para los encuestados
Carga administrativa
- Información sobre los recursos necesarios para la administración del instrumento
- tiempo promedio y el rango de tiempo que se requiere de un entrevistador entrenado para

administrar el instrumento en entrevistas cara a cara, por teléfono, o con formatos asistida por
ordenador
- Cantidad de entrenamiento y el nivel de educación o experiencia profesional y la experiencia
necesaria para ff sta administrativa
7. modos Alternativas de administración - La evidencia sobre la confiabilidad, validez, capacidad de respuesta, la interpretabilidad, y la carga
Estos incluyen el autoinforme, administrado por el entrevistador, entrenado calificación para cada modo de administración
observador, administrados-entrevistador asistida por ordenador,
medidas basadas en el rendimiento. - Información sobre la comparabilidad de los modos alternativos
8. adaptaciones o traducciones culturales y de idioma - Métodos para lograr la equivalencia conceptual

Implica dos pasos principales: - Métodos para lograr equivalencia lingüística
1. Evaluación de la equivalencia conceptual y lingüística - Cualquier fi significativo di ff erences entre las versiones originales y traducidos
2. Evaluación de las propiedades de medición
- ¿Cómo se concilian inconsistencias
* Para todas las entradas en esta columna, se espera que los desarrolladores para proporcionar de fi niciones, descripciones, explicaciones o información empírica.
- evaluar la salud de la población general en un punto en el configuración o población. La importancia relativa de los ocho
tiempo, atributos puede er di ff en función de los usos previstos y
- la evaluación de la salud de las poblaciones especí fi cas en un punto en el aplicaciones especi fi ca para el instrumento. Los instrumentos
tiempo, pueden, por ejemplo, documentar el estado de salud o actitudes de
- la vigilancia de la salud de la población en general a través del tiempo, los individuos en un punto en el tiempo, distinguir entre dos o más
grupos, evaluar el cambio con el tiempo entre los grupos o
- la vigilancia de la salud de las poblaciones especí fi cas con el tiempo, individuos, predecir el estado futuro, o algunas combinaciones de
estos. Por lo tanto, el peso colocado en uno u otro conjunto de
- evaluar el impacto de las intervenciones o políticas a nivel criterios puede er di ff según los propósitos reivindicado para el
comunitario de base amplia o, instrumento.
- la evaluación de la e fi cacia y e cacia y siguientes de las intervenciones
sanitarias, En la revisión de los instrumentos, el SAC destinada a ser exhaustiva
- la realización de evaluaciones económicas de las intervenciones de salud, sin instrumentos a los estándares poco realistas sostiene. Por ejemplo,
aceptamos algunos instrumentos a pesar de que su capacidad de
- utilizando en programas de mejora y garantía de calidad de respuesta a cambiar con el tiempo (atributo 4) no había sido evaluado en
calidad en los sistemas de atención de salud, el momento de la presentación. En un caso como este, queremos señalar
que el instrumento había sido aprobado para comparaciones de grupos,
- la detección de las condiciones de salud, pero que no se dispone de datos con respecto a la capacidad de
- diagnóstico de las condiciones de salud, respuesta del instrumento. En otros casos, los desarrolladores pueden
- supervisar el estado de salud de los pacientes individuales. proporcionar soporte para contenido y validez de constructo, pero no
criterio de validez porque los verdaderos estándares de oro a menudo no
están disponibles para la evaluación de este último. En aún otros casos,
Un instrumento que funciona bien para un fin o en un ajuste o de la fiabilidad puede juzgarse su fi ciente
la población no puede hacerlo cuando se aplica para otro propósito
o en otro
198
para comparar los grupos, pero no para la evaluación de los criterios de revisión
individuos. En resumen, se correspondía con los criterios para usos Los desarrolladores deben:
particulares reclamados por el instrumento y aceptadas instrumentos - Estado lo amplio concepto (o conceptos) el instrumento está
para aplicaciones especí fi cos cuando la evaluación del instrumento tratando de medir - por ejemplo, funcional
y su documentación apoyaron estas aplicaciones. estado, el bienestar, relacionada con la salud
calidad de vida, la calidad de vida, la satisfacción con la atención de salud,
En el resto de este trabajo, presentamos nuestra de fi nición de los u otros. Además, si el instrumento está diseñado para evaluar varios
atributos mencionados anteriormente y, a continuación damos a nuestros dominios dentro de un concepto amplio (por ejemplo, múltiples escalas que
actuales (es decir, ahora revisada) criterios de revisión. Los criterios son evalúan varias dimensiones de la calidad relacionada con la salud de la
o FF Ered en términos de nuestra visión de lo que los desarrolladores vida), a continuación, proporcionar una lista de todos los dominios o
instrumentos deben 'hacer' (por ejemplo, describir, proporcionar, o dimensiones.
discutir) en la documentación de las características de sus instrumentos,
por lo que el material parece en gran medida en forma de viñetas. - Describir la base conceptual y empírica para generar el contenido de
Destacamos aquí que nuestros fi niciones y criterios de están abiertos a instrumento (por ejemplo, artículos) y para la combinación de varios
la discusión y la evolución en el campo de la evaluación del estado de elementos en una puntuación única escala y / o puntuaciones de
salud, y esperamos que se alienta a los expertos de todo el mundo a múltiples escala.
participar en un diálogo sobre estos temas en los próximos años. - Indicarán los métodos y la participación de las poblaciones objetivo
de obtener el contenido fi nal del instrumento y para determinar la
adecuación del contenido del instrumento para que la población,
por ejemplo mediante el uso de grupos de enfoque o de las
pruebas preliminares de la población objetivo (s).
Modelo conceptual y medición

- Proporcionar información sobre la dimensionalidad y el carácter
De fi nición distintivo de múltiples escalas, debido a que ambos enfoques pruebas
Un modelo conceptual es una justificación para y descripción de los clásicas y modernas asumen dimensionalidad adecuada
conceptos y de las poblaciones de que una medida está destinada (generalmente unidimensionalidad) de las escalas.
a evaluar y la relación entre esos conceptos. Un modelo de

medición pone en funcionamiento el modelo conceptual y se refleja - Proporcionar evidencia de que la escala tiene una variabilidad
en la estructura de la escala y subescala de un instrumento y los adecuada en un rango que es adecuada para su uso previsto -
procedimientos seguidos para crear puntuaciones de la escala y por ejemplo, información sobre la tendencia central y dispersión,
subescala. La adecuación del modelo de medición puede ser asimetría, techo y suelo e fl eja ff, y el patrón de los datos que
evaluada mediante el examen de la evidencia de que: (1) una faltan.
escala mide un único dominio conceptual o construir; (2) múltiples
escalas miden dominios distintos; (3) la escala representa - Estado el nivel previsto de medición (por ejemplo, ordinal,
adecuadamente la variabilidad en el dominio; y (4) el nivel intervalo o escalas ratio) con evidencia de apoyo disponible.
pretendido de medición de la escala (por ejemplo, ordinal, intervalo,
o ratio) y sus procedimientos de puntuación son justificado. - Describir la justificación y procedimientos para derivar
puntuaciones de la escala de puntuaciones brutas y para
transformaciones (tales como ponderación y normalización); para
medidas de preferencia ponderados o medidas de utilidad,
enfoques clásicos de teoría de ensayo puede emplear, por ejemplo, proporcionar un fundamento y la base empírica para los pesos.
análisis de componentes principales, análisis de los factores, y técnicas

relacionadas para evaluar el modelo de medición empírica subyacente
un instrumento y para el examen de dimensionalidad. Métodos basados Confiabilidad
en la teoría de prueba modernos pueden utilizar enfoques incluyendo el

análisis factorial confirmatoria con fi, modelos de ecuaciones De fi nición
estructurales, y los métodos basados en la teoría de respuesta al ítem El principal de definición de fiabilidad prueba es el grado en que un
(IRT). instrumento está libre de error aleatorio. Los enfoques clásicos para
reconsiderar la prueba
199
responsabilidad incluyen (a) la fiabilidad de consistencia interna, solicitudes describen niveles fi específicas de estabilidad para los niveles de fi
típicamente usando coe fi ciente de Cronbach una, y (b) la cos de la escala. Al igual que con fiabilidad de consistencia interna, los
reproducibilidad (por ejemplo, test-retest o fiabilidad entre estándares mínimos para coeficientes de FFI reproducibilidad del Consejo de
observadores (entrevistador)). El primer enfoque requiere una Europa están también típicamente considerados como 0,70 para comparaciones
administración del instrumento; este último requiere al menos dos de grupos y 0,90-0,95 para mediciones individuales en el tiempo.
administraciones.
En las modernas aplicaciones de la teoría de la prueba, el grado reproducibilidad Test-retest es el grado en que un instrumento
de precisión de la medición se expresa comúnmente en términos de produce anota estables en el tiempo entre los encuestados que se
varianza del error, el error estándar de la media (ESM) (la raíz supone que no han cambiado en los dominios que se está evaluando. La
cuadrada de la varianza del error), o la información de la prueba influencia de la administración de prueba en la segunda administración
(recíproco de la varianza del error). varianza del error (o cualquier puede sobrestimar la fiabilidad. Por el contrario, las variaciones en la
otra medida de precisión) toma valores ff Erent di al di ff puntos Erent salud, el aprendizaje, la reacción, o regresión a la media pueden producir
a lo largo de la escala. datos de prueba-reprueba que subestimar la reproducibilidad. Sesgo y
estadísticas límites-de-acuerdo pueden indicar el intervalo dentro del
cual se puede esperar que el 95% de las puntuaciones retest para
La consistencia interna fiabilidad. En el enfoque clásico, coe fi ciente de mentir. A pesar de estas precauciones, la información sobre los datos de
Cronbach una proporciona una estimación de fiabilidad basado en reproducibilidad test-retest es importante para la evaluación del
todas las posibles correlaciones dividida medio de una escala instrumento. Para los instrumentos administrados por un entrevistador,
multi-ítem. Para los instrumentos que emplean opciones de respuesta reproducibilidad test-retest se refiere típicamente a un acuerdo entre dos
dicotómicas, una fórmula alternativa, la fórmula Kuder-Richardson 20 o más observadores.
(KR-20), está disponible. normas mínimas comúnmente aceptadas
para coe fi cientes fiabilidad del Consejo de Europa son 0,70 para
comparaciones de grupos y 0.90-
0,95 para comparaciones individuales. requisitos de fiabilidad son mayores criterios de revisión
cuando la aplicación de las puntuaciones de instrumentos para uso La consistencia interna fiabilidad y la información de la prueba. Los
individualizado porque con fi intervalos de confianza de las puntuaciones desarrolladores deben:
se calculan típicamente en base a la SEM. La SEM se calcula como la - Describir claramente los métodos empleados para recoger los
desviación estándar (SD) X 1-fiabilidad. coefi Fiabilidad Coe FFI inferiores a datos de fiabilidad. Esto debe incluir (a) métodos de acumulación
0,9 hasta 0,95 proporcionan demasiado ancho (por ejemplo, más de una a de la muestra y tamaño de la muestra; (B) características de la
dos tercios de la distribución de puntuación) intervalos para ser útil para el muestra (por ejemplo, sociodemográficos, características clínicas
seguimiento de la puntuación del individuo. si extrae de una población de pacientes, etc.); (C) las condiciones
de ensayo (por ejemplo, dónde y cómo se administró el
instrumento de interés); y (d) la estadística descriptiva para el
En el enfoque de IRT, la precisión de medición se evalúa instrumento en estudio (por ejemplo, medios, SDS, se refleja ff oor
generalmente en uno o más puntos en la escala. La precisión de la y el techo e).
escala debe caracterizarse por encima del rango de medición
probable que se encuentren en la investigación real. Un solo valor, - Para aplicaciones clásicas, las estimaciones informe de fiabilidad y
fiabilidad marginal, se puede estimar como un análogo a la clásica SES para todos los elementos de un instrumento,
fiabilidad coe fi ciente. Este valor es más útil para ensayos en los incluyendo tanto la partitura y las puntuaciones totales
que la precisión de medición es relativamente estable a través de la de la subescala, en su caso.
escala. - Para aplicaciones de IRT, proporcionar una gráfica que muestra
el SEM sobre el rango de la escala. Además, la fiabilidad
marginal de cada escala se puede informar donde se considera
Reproducibilidad. Un segundo enfoque para la fiabilidad se puede útil esta información.
obtener a juzgar la reproducibilidad o la estabilidad de un instrumento
en el tiempo (test-retest) y el acuerdo entre los calificadores en un - Donde los desarrolladores tienen razones para creer que las
punto en el tiempo. En las aplicaciones clásicas, la estabilidad de un estimaciones de la fiabilidad o SEM puede di ff er sustancialmente
instrumento a menudo se expresa como un valor único, pero IRT para las diferentes poblaciones en las que un instrumento se va a
utilizar, estos datos presentes
200
para cada población de mayor interés (por ejemplo, diferentes pretende medir. La evidencia de la validez de un instrumento ha sido
poblaciones de enfermedades crónicas, el lenguaje di ff Erent o comúnmente clasi fi cada de tres maneras discutidos justo debajo.
grupos culturales). (Observamos que validación de una medida basada en la preferencia
tendrá que emplear construcciones relacionadas con las preferencias
Reproducibilidad. Los desarrolladores deben: per se, no se construye simplemente descriptivos, y éstos er lata di ff de
- Describir claramente los métodos empleados para recoger los datos los criterios establecidos a continuación de medidas nonutility).
de reproducibilidad. Esta descripción debe incluir (a) métodos de

acumulación de la muestra y tamaño de la muestra; (B)
características de la muestra (por ejemplo, sociodemográficos, 1. Contenido relacionado con: Evidencia de que el dominio de contenido
características clínicas si extrae de una población de pacientes, de un instrumento es adecuado en relación con su uso previsto. Los
etc.); (C) las condiciones de ensayo (por ejemplo, dónde y cómo se métodos utilizados comúnmente para obtener evidencia sobre la validez
administró el instrumento de interés); y (d) la estadística descriptiva relacionada con los contenidos incluyen el uso de la postura y del Panel
para el instrumento en estudio (por ejemplo, correlación intraclase de Expertos juicios (médico) de la claridad, amplitud, y la redundancia de
Coe fi ciente, característica operador receptor, el test-retest elementos y escalas de un instrumento. A menudo, el contenido de los
significan, límites de acuerdo, etc.). instrumentos de autoinforme de nuevo desarrollo se suscitó mejor de la
población que está siendo evaluado o experimentar el estado de salud.
- Proporcionar información reproducibilidad prueba-reprueba como un

complemento, y no como sustituto de, la consistencia interna. 2. Construir-relacionados: La evidencia de que es compatible con una
interpretación propuesta de las puntuaciones basadas en implicaciones
- Dar una razón argumentada para apoyar el diseño del estudio y el teóricas asociados con las construcciones que se mide. Los métodos más
intervalo entre la primera y subsiguientes administraciones para comunes para obtener datos relacionados con la validez de constructo
apoyar la hipótesis de que la población es estable. Esto puede incluyen el examen de las relaciones lógicas que deben existir con otras
incluir la auto-informe sobre el cambio percibido en la salud medidas y / o patrones de calificaciones de los grupos conocidos de di ff
durante el intervalo de tiempo u otras medidas de salud fi co er sobre las variables relevantes. Idealmente, los desarrolladores deben
general y específica o el estado funcional. Información sobre generar y probar hipótesis acerca de las relaciones lógicas fi cas entre los
resultados de las pruebas y repita la prueba debe incluir las conceptos o constructos relevantes.
tendencia central y dispersión de las medidas adecuadas tanto la

prueba y vuelva a probar las administraciones.
3. Criterio relacionados con: La evidencia de que muestra el grado en
que las puntuaciones del instrumento están relacionadas con una
- En las aplicaciones clásicas para instrumentos que proporcionen datos medida de criterio. medidas de criterio son medidas de la construcción
a nivel de intervalo, incluir información sobre Test- retest fiabilidad diana que son ampliamente aceptados como válidos a escala, medidas
(reproducibilidad) y entre los calificadores fiabilidad basado en de esa construcción. En el ámbito de la evaluación del estado de salud
coeficientes de FFI correlación coe intraclase (ICC, la estadística de auto-reporte, validez de criterio rara vez se probó a causa de la
sesgo o test-retest significan, o límites de acuerdo); para valores ausencia de medidas de criterio ampliamente aceptado, aunque se dan
nominales u ordinales escala, j y ponderado j, respectivamente, se excepciones como las pruebas de versiones más cortas de medidas
recomiendan. contra versiones más largas. Para la prueba de los instrumentos de

detección, la validez de criterio es esencial para comparar la medida de
- En las aplicaciones de IRT, también proporcionar información sobre la cribado contra una medida del criterio del diagnóstico o la afección de
comparabilidad de las estimaciones de los parámetros del artículo y en la que se trate, mediante la sensibilidad, especificidad, y la característica
precisión de medición sobre las administraciones repetidas. de funcionamiento del receptor.
Validez
Criterios de revisión
De fi nición Los desarrolladores deben:
La validez de un instrumento se define como el grado en el que el - Explicar la razón de que es compatible con la combinación particular de las
instrumento mide lo que se pruebas presentadas para los usos previstos.
201
- Proporcionar una descripción clara de los métodos empleados para estimación de una medida de la magnitud del cambio en el estado de
recopilar datos de validez. Esto debe incluir (a) métodos de salud (a veces denota la 'distancia' o di ff rencia entre antes y después
acumulación de la muestra y tamaño de la muestra; (B) de las puntuaciones). No existe ningún acuerdo o consenso en la
características de la muestra (por ejemplo, sociodemográficos, medida estadística preferido. E ff ect estadísticas del tamaño traducen
características clínicas si extrae de una población de pacientes); el antes y después de los cambios en una unidad de medida común;
(C) las condiciones de prueba (es decir, dónde y cómo se esencialmente que implican la división de la puntuación de cambio por
administró el instrumento de interés); y (d) la estadística descriptiva uno u otro denominador varianza. (Dicho de otra manera, estas
para el instrumento en estudio (por ejemplo, medios, SDS, se estadísticas son la cantidad de cambio observado sobre la cantidad de
refleja ff oor y el techo e). varianza observada.) En estas estadísticas, el numerador es siempre
una puntuación de cambio, pero el ERS ff denominador di dependiendo
- Describir la composición de la muestra utilizada para examinar la de la estadística están utilizando (por ejemplo, la respuesta
validez de una medida en su detalle fi ciente para dejar en claro normalizada significa, estadística de la capacidad de respuesta, SE de
las poblaciones a las que el instrumento se aplica y los factores la media).
selectivos que razonablemente se podría esperar que influyen en
la validez, como el género, la edad, la etnia y la lengua.
Por otra parte, los métodos Erent di ff pueden usarse para evaluar e ff
tamaño ect. Enfoques comunes incluyen comparar puntuaciones de la
- Cuando existen razones para creer que er validez voluntad di ff escala antes y después de una intervención que se espera que un ff ect del
sustancialmente para las distintas poblaciones en las que un constructo y compara la evolución de puntuaciones de la escala con los
instrumento se va a utilizar, presentar los datos anteriores para cada cambios en otras medidas relacionadas, que se supone que se mueven en
población importante de interés (por ejemplo, di ff Erent poblaciones de la misma dirección que la medida de destino.
enfermedades crónicas, idioma o grupos culturales, grupos de edad di ff
Erent ). Debido a que las pruebas de validez y utilización de los Capacidad de respuesta, ya que algunos autores han sugerido,
instrumentos principales están en curso, animamos a los puede ser interpretado como un nivel 'significativo' del cambio y, en
desarrolladores a seguir para presentar dichos datos a medida que ellos consecuencia, definida como el cambio mínimo considerado como
se acumulan. importante por las personas con la condición de salud, sus
significaciones otros cativas, o sus proveedores. Sugerimos, sin
- Al presentar la validez de constructo, proporcionar las hipótesis embargo, que esta connotación de respuesta podría ser mejor
probadas y los datos relativos a las pruebas. considerada un elemento de cómo se interpretan los datos de un
- Cuando se presentan los datos relativos a la validez de criterio, instrumento. Interpretación de los ECTS ff e se discute en
proporcionar una justificación clara y el apoyo para la elección de las Interpretabilidad. Esto incluye mínimamente importantes erences di ff o
medidas de criterios. cambios. Hacemos esta distinción en parte porque, a pesar de la
capacidad de respuesta y la interpretación son conceptos
Sensibilidad relacionados, uno se centra en las características de rendimiento del
instrumento a la mano y la otra se centra en las opiniones de los
De fi nición encuestados sobre los dominios están estudiando.
A veces se refiere como la sensibilidad al cambio, la capacidad de respuesta
se considera como una parte importante del proceso de validación de
constructo longitudinal. La capacidad de respuesta se refiere a la capacidad
de un instrumento para detectar el cambio. El criterio de la capacidad de criterios de revisión
respuesta requiere preguntar si la medida puede detectar diferencias en los Los desarrolladores deben:
resultados, incluso si esas erences di ff son pequeñas. La capacidad de - Para cualquier reclamación de que un instrumento es sensible, presentar
respuesta puede ser conceptualizada también como la relación de una señal pruebas sobre los cambios en las puntuaciones se encuentran en pruebas
(el verdadero cambio con el tiempo que se ha producido) para el ruido (la de campo del instrumento. Además de esta información, las puntuaciones
variabilidad en las puntuaciones visto con el tiempo que no está asociado con de cambio también se pueden expresar como e ff ect tamaños medios de
el verdadero cambio en el estado). respuesta estandarizadas, SEM, u otras medidas relativas o ajustados de
distancia entre antes y después de las puntuaciones. Los métodos y las
fórmulas utilizadas para calcular las estadísticas de respuesta deben ser
La evaluación de la capacidad de respuesta implica la estimación estadística explicados.
de un e ff ect estadística de tamaño - es decir, una
202
- Preferiblemente, citar datos longitudinales que comparan un grupo la comparación y la interpretación de los datos. Como con validez
que se espera que cambie con un grupo que se espera que se (atributo 3), esto debe incluir (a) fundamento de la selección de
mantenga estable. criterios externos o población de comparación; (B) métodos de
- Claramente identificar la población (s) en el que la capacidad de acumulación de la muestra y tamaño de la muestra; (B)
respuesta ha sido probado, incluyendo los intervalos de tiempo de la características de la muestra; (C) las condiciones de ensayo; y (d)
evaluación, las intervenciones o medidas implicados en la la estadística descriptiva para el instrumento en estudio
evaluación de cambio, y las poblaciones supone que ser estable.
- Proporcionar información sobre las formas en que los datos del
instrumento debería ser (o haber sido) informó y se muestra con
interpretabilidad el fin de facilitar la interpretación.
De fi nición - Cite 'puntos de referencia' significativas (datos comparativos o

Interpretabilidad se define como el grado en el que se puede asignar normativos) para facilitar la interpretación de las puntuaciones.
fácilmente entendido lo que significa que las puntuaciones
cuantitativas de un instrumento. Interpretabilidad de una medida se
ve facilitada por la información que traduce una puntuación Carga
cuantitativa o cambio en las puntuaciones a una categoría u otra
medida cualitativa externa que tiene un significado más familiar. De fi nición
Interpretabilidad pide explicación de las razones de la medida la carga de respuesta se define como el tiempo, e ff ORT, y otras
externa, las puntuaciones de cambio, y las formas en que esos demandas colocado en aquellos a los que se administra el
resultados se han de interpretar en relación con la medida externa. instrumento. carga administrativa se define como las exigencias
sobre los que administran el instrumento.
Existen varios tipos de información pueden ayudar en la interpretación de las
puntuaciones: criterios de revisión: la carga de respuesta

- datos comparativos sobre las distribuciones de las puntuaciones Los desarrolladores deben:
derivadas de una variedad de grupos de población definida de, - Dar información sobre las propiedades siguientes: (1) la media y el
incluyendo, cuando sea posible, una muestra representativa de la rango de tiempo necesario para completar
población general; el instrumento sobre una base auto-administrados o, como
- los resultados de un gran número de estudios que han utilizado el instrumento entrevistador-administrada, para todos los grupos de
instrumento en cuestión y los hallazgos reportados en ella, con lo población para la que está destinado el instrumento;
que la familiaridad con el instrumento que va a ayudar a la
interpretación; (2) el nivel de lectura y comprensión necesaria
- la relación de las puntuaciones a las condiciones clínicamente para todos los grupos de población para la que está destinado el
reconocidos, necesidad de tratamientos específicos Fi, o intervenciones instrumento;
de conocida e ff cacia; (3) los requisitos o peticiones especiales que podrían
- la relación de las puntuaciones o cambios en las puntuaciones a acontecimientos de la ser colocado en los encuestados, tales como la necesidad de consultar
vida socialmente reconocidas (como el impacto de la pérdida de un puesto de trabajo); los registros de atención de salud o copiar información sobre
medicamentos que se usan; y (4) la aceptabilidad del instrumento, por
- la relación de las puntuaciones o cambios en las puntuaciones ejemplo
subjetivas clasificaciones de los cambios importantes mínimamente indicando el nivel de los datos que faltan y las tasas de
por las personas con la condición, sus significantes otros, o sus rechazo y las razones de ambos.
proveedores; y - Para los instrumentos que no son, en la cara de ella, inofensivo y
- así como las calificaciones de predecir eventos relevantes (conocida como la para aquellos que parecen tener tasas excesivas de los datos que
muerte o necesidad de atención institucional). faltan, proporcionar evidencia de que los lugares de instrumentos
sin tensión física o emocional indebida sobre el demandado (por
criterios de revisión ejemplo, que no incluye preguntas que un fi minoría significativa
Los desarrolladores deben: de pacientes Fi NDS demasiado molesto o confrontación).
- Claramente describir la justificación de la selección de criterios
externos o poblaciones con fines de
203
- Indicar cuándo o bajo qué circunstancias, su instrumento no es adaptaciones o traducciones culturales y de idioma
adecuado para los encuestados.
De fi nición
criterios de revisión: carga administrativa Muchos instrumentos están adaptados o traducidos para las
Los desarrolladores deben proporcionar información acerca de los aplicaciones a través de fronteras y poblaciones regionales y
recursos necesarios para la administración del instrumento, tales como la nacionales. En el contexto ITV y SAC, adaptaciones culturales y
necesidad de hardware de ordenador fi co especial o específica o lingüísticas se han referido a las situaciones en que los
software para administrar, la puntuación, o analizar el instrumento. instrumentos han sido totalmente adaptadas de instrumentos
originales o de origen de las culturas o idiomas di ff Erent del
Para los instrumentos administrado por un entrevistador, los desarrolladores original. la adaptación lenguaje bien podría ser di ff erentiated de la
deben: traducción. Como un ejemplo de ello: un instrumento desarrollado
- Documentar el tiempo promedio y el rango de tiempo que se en español o Inglés se puede adaptar para di ff Erent 'versiones'
requiere de un entrevistador entrenado para administrar el (por ejemplo, dialectos del país o regionspeci fi c) de estos idiomas
instrumento en entrevistas cara a cara, por teléfono, o con básicos, mientras que un instrumento desarrollado en sueco y
formatos asistida por ordenador / aplicaciones, según el caso; traducido al francés o alemán sería muy una cuestión di ff Erent. En
todo caso,
- Indicar la cantidad de entrenamiento y el nivel de educación o
experiencia profesional y la experiencia necesaria para ff sta
administrativa para administrar, la puntuación, o de otra manera
utilizar el instrumento;
- Indicar la disponibilidad de instrucciones de puntuación.
Los modos alternativos de administración La adaptación transcultural de un instrumento implica dos pasos
principales: (1) evaluación de la equivalencia conceptual y lingüística,
De fi nición y (2) Evaluación de propiedades de medición. equivalencia conceptual
modos alternativos de administración utilizados para el desarrollo y se refiere a la equivalencia en la relevancia y el significado de los
aplicación de instrumentos puede incluir autoinforme, administrado mismos conceptos que se está midiendo en los cultivos y / o lenguajes
por un entrevistador, calificación observador entrenado, autoinforme Erent di ff. equivalencia lingüística se refiere a la equivalencia de
asistida por ordenador, las medidas basadas en el desempeño redacción de las preguntas y significado en la formulación de
administrado por un entrevistador, y asistidos por ordenador. artículos, las opciones de respuesta, y todos los aspectos del
Además, los modos alternativos pueden incluir auto-administrarse o instrumento y sus aplicaciones. En todos estos casos, es útil si los
versiones entrevistador-del instrumento fuente original que se van a desarrolladores proporcionan información empírica sobre cómo
ser completado por los encuestados de proxy como los padres, funcionan los elementos en las culturas Erent di ff e idiomas.
cónyuges, proveedores, u otros encuestados sustitutos.
criterios de revisión
criterios de revisión Los desarrolladores deben:
Los desarrolladores deben: - Describe métodos para lograr la equivalencia lingüística. Los pasos
- Hacer pruebas información disponible en la fiabilidad, validez, comúnmente recomendadas son (a) al menos dos traducciones
capacidad de respuesta, la interpretabilidad, y la carga para hacia adelante de la lengua fuente que produce una traducción
cada modo de administración; hacia adelante agrupado; (B) al menos uno, preferiblemente más,
- Proporcionar información sobre la comparabilidad de los modos traducciones hacia atrás a la lengua de origen que resulta en otra
alternativos; siempre que sea posible, los estudios que equivale deben traducción agrupado; (C) una revisión de las versiones traducidas
llevarse a cabo de manera que las puntuaciones de los modos por paneles y peritos con revisiones; y (d) las pruebas de campo
alternativos pueden hacerse comparables entre sí o con las puntuaciones para proporcionar evidencia de la comparabilidad.
a partir de un instrumento original.
204
- Proporcionar información acerca de los métodos para lograr la Expresiones de gratitud
equivalencia conceptual entre o entre diferentes versiones de un

mismo instrumento. Para este paso, la evaluación de la validez Extendemos nuestro más profundo agradecimiento a Alvin Tarlov,
de contenido del instrumento en cada grupo cultural o lengua a MD, presidente fundador de la Medical Outcomes Trust, para el
la que el instrumento se va a aplicar se recomienda estímulo sin límites y el apoyo a la Scientific Comité Asesor (SAC) y
comúnmente. En una perspectiva transcultural, algunos sus Orts ff e para desarrollar y promulgar criterios rigurosos para la
elementos de un instrumento dado puede muy bien la función di revisión de los instrumentos del estado de salud. Agradecemos
ff erently en un idioma que en otro. Por lo tanto, IRT y el análisis también a Les Lipkind, el Director Ejecutivo de ITV durante el
factorial confirmatoria con fi (utilizando enfoques SEM, por tiempo de preparación de este artículo, para el fondo y un apoyo a
ejemplo) se pueden usar para evaluar la equivalencia la coordinación de la SAC. María Orlando, PhD, de la Rand
intercultural a través del examen de di ff diferencial artículo Corporation, Santa Mónica, California, ayudó con el desarrollo de
funcionamiento (DIF). materiales que abarca la teoría moderna de prueba.
- Identificar y explicar cualquier fi significativo di ff erences entre

las versiones originales y traducidos. Agradecemos especialmente a las siguientes personas que
- Explicar cómo se reconciliaron inconsistencias. proporcionaron comentarios y sugerencias en una versión anterior
de estos criterios: Jacob Bjorner, IAM, Copenhague, Dinamarca;
John Brasero, PhD, Universidad de Ella FFI campo, Ella FFI
campo, Reino Unido; Yen-Pin Chiang, PhD, Agencia para la
conclusiones
Investigación y Calidad, Rockville, Maryland; Pennifer Erickson,
PhD, College Station, Pensilvania; Rowan Harwood, MA, MSc,
El interés internacional y apoyo para el estado de salud y la
evaluación de la calidad de vida en la investigación biomédica y
servicios de salud, la atención clínica, e incluso la formulación de MD, MRCP (Reino Unido), Londres, Inglaterra; Ronald Hays, PhD,
políticas de salud se están expandiendo rápidamente. Estos Universidad de California en Los Angeles y la RAND Corporation,
acontecimientos se producen en un entorno con métodos tradicionales Santa Mónica, California; y Cathy D. Sherbourne, PhD, la RAND
y emergentes para la medición de resultados de la atención de salud, Corporation, Santa Mónica, California. Este reconocimiento de
y O ff er interesantes oportunidades para expandir este tipo de interés y la asistencia por parte de los colaboradores no implica
aplicaciones y para mejorar la confianza con la que los clínicos, los necesariamente la aprobación de los criterios nales SAC fi.
investigadores y los políticos pueden utilizar dichos instrumentos. No
obstante, el campo no debe proceder en demasiado de rueda libre de
una manera. Por lo tanto, O ff er estas de fi niciones de atributos y Este trabajo (Lohr) fue apoyado en parte por el Centro para la
criterios para juzgar los instrumentos en la firme esperanza de que el Educación y la Investigación en Terapéutica en la Universidad de
campo va a utilizar como un lugar de partida y siguientes o de debate Carolina del Norte (Acuerdo de Cooperación No. U18 HS10397) y
y discusión acerca de los desafíos que tenemos por delante. Estos la Universidad de Carolina del Norte Programa sobre la Salud.
desafíos incluyen el continuo refinamiento de medidas y el desarrollo
de medidas para cubrir lagunas claras relativas a poblaciones de
pacientes y grupos de enfermedades existentes; mejorar los
instrumentos para que sean más culturalmente apropiados y
Otras lecturas
comparables entre las diversas poblaciones; tratar con los erences di
ff y la comprensión de la complementariedad de instru-ment
1. LA Aday. Diseño y realización de encuestas de salud: Una guía completa. 2ª ed.,
desarrollado con marcos conceptuales di ff Erent; y la mejora de las San Francisco, Calif .: Jossey-Bass, 1996.
formas en que los resultados de tales instrumentos pueden ser
interpretados en términos ordinarios. 2. American Psychological Association. Normas para las pruebas educativas y
psicológicas. Washington, DC: APA,
1985.
3. Bland JM, Altman DG. Métodos estadísticos para la evaluación de acuerdo entre
dos métodos de medición clínica. The Lancet 1986; 1: 307-310.
205
4. Bjorner JB, Thunedborg K, Kristensen TS, Modvig J, Bech 16. McHorney CA, Tarlov AR. monitoreo en cada paciente en la práctica clínica: ¿Son
La encuesta de salud P. danesa SF-36: Traducción y estudios preliminares de las encuestas de salud disponibles adecuada? Qual vida Res 1995; 4: 293-307.
validez. J Clin Epidemiol 1998; 51; 991-
999. 17. Nunnally JC, Bernstern IH. Teoría psicométrica. . 3ª edición, Nueva York:
5. Bjorner JB, Kreiner S, Ware JE Jr., Damsgaard MT, Bech McGraw-Hill, 1994.
P. Di ff elemento diferencial que funciona en la traducción danesa de la SF-36. J 18. Payne SL. El arte de hacer preguntas. Princeton, NJ: Princeton University Press,
Clin Epidemiol 1998; 51: 1189-1202. 1951.
6. Bowling A. Medición de la Salud: Una revisión de la calidad de vida escalas de 19. Patrick DL, Chiang YP. (Eds) Resultados de salud simposio metodología. Care Med
medición. Segunda edición, Londres:. Open University Press, 1997. 2000; 38 (9) (Suppl II.): II3- II208.
7. carmines E. La fiabilidad y la validez de Evaluación. Newbury Park, Calif .: Sage 20. Reise SP, Widaman KF, Pugh RH. Con fi teoría de análisis y respuesta del factor
Publications. 1997. elemento confirmatoria: Dos enfoques para la exploración de la invariancia de
8. Cronbach LJ. Fundamentos de pruebas psicológicas. Cuarta edición, Nueva York:. medición. Psychol Bull 1993; 114: 552-566.
Harper and Row. 1984.
9. Cronbach LJ. Coe fi ciente alfa y la estructura interna de pruebas. Psychometrika 21. Staquet M, R Hays, Fayers P. Su valoración en los ensayos clínicos: Métodos y
1951; 16: 297-334. Práctica. Nueva York: Oxford University Press, 1998.
10. DeVellis R. Desarrollo a Escala: Teoría y Aplicaciones. Vol. 26. Aplicada Métodos
de Investigación Social de la serie. Newbury Park, Calif .: Sage Publications, 22. Streiner DL, Norman GR. Salud escalas de medición. Segunda edición, Oxford:.
1991. Oxford University Press, 1995.
11. Hambleton RK, Swaminathan H, Rogers HJ. Fundamentos de la teoría de 23. Wainer H, Dorans NJ, Flaugher R, et al. Computarizado de pruebas de adaptación:
respuesta al ítem. Newbury Park, Calif .: Sage Publications, 1991. Una cartilla. Mahwah, NJ: Lawrence Erlbaum Associates, 1990.
12. Lohr KN. Resultados de salud simposio metodología. Resumen y 24. Wilkin D, Hallam L, Doggett MA. Las medidas de la necesidad y Resultado de la
recomendaciones. Medicina. Care 2000; 38 (9) (Suppl II.): II194-II208. atención primaria. Nueva York: Oxford University Press, 1992.
13. Señor FM, Norvick MR. Teorías estadísticas de resultados de pruebas mentales.
Lectura, Mass .: Addison-Wesley, 1968. Autor para la correspondencia: Kathleen N. Lohr, Ph.D., Director Científico, de
14. McDonald RP. Teoría de la prueba: Un tratamiento Uni fi cado. Mahwah, NJ: salud, sociales e Investigación Económica, RTI International, PO Box 12194, 3040
Lawrence Erlbaum Associates, 1999. Cornwallis Road, Research Triangle Park, Carolina del Norte, EE.UU. 27709-2194
15. McDowell I, Newell C. Medición de la Salud. Una guía para escalas de evaluación y Teléfono: + 1-919-541 -6512; þ 1-919-541-7384 E-mail: klohr@rti.org
cuestionarios. Segunda edición, Nueva York:. Oxford University Press, 1996.

Lohr2002 Article AssessingHealthStatusAndQualit - En.es

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Lohr2002 Article AssessingHealthStatusAndQualit - En.es

Transféré par

Droits d'auteur :

Formats disponibles

Calidad de Vida de Investigación 11: 193-205, 2002.

Scientific Comité Asesor de la Medical Outcomes Confianza 1 ( E-mail: klohr@rti.org )

Aceptada en el Formulario 8 de enero de revisada de 2002

Introducción HESIVE marco teórico, métodos aceptados, y diversas aplicaciones

compilaciones de instrumentos de evaluación y cuestionarios para

del hecho de que más instrumentos se están desarrollando en 5. Interpretabilidad

Se revisan los instrumentos en el contexto de 11 solicitudes

Tabla 1. Atributos y criterios para la revisión de los instrumentos *

Atributo criterios de revisión

1. Modelo conceptual y medición de los fundamentos y la descripción del

2. Fiabilidad Consistencia interna

instrumento están relacionadas con una medida de criterio.

5. Interpretabilidad - Justificación de la selección de criterios externos de las poblaciones para fines de

Atributo criterios de revisión

- La evidencia de que el instrumento no pone ninguna tensión física o emocional excesiva

- tiempo promedio y el rango de tiempo que se requiere de un entrevistador entrenado para

medidas basadas en el rendimiento. - Información sobre la comparabilidad de los modos alternativos

8. adaptaciones o traducciones culturales y de idioma - Métodos para lograr la equivalencia conceptual

Modelo conceptual y medición

a evaluar y la relación entre esos conceptos. Un modelo de

análisis de componentes principales, análisis de los factores, y técnicas

​en la teoría de prueba modernos pueden utilizar enfoques incluyendo el

individualizado porque con fi intervalos de confianza de las puntuaciones desarrolladores deben:

de reproducibilidad. Esta descripción debe incluir (a) métodos de

- Proporcionar información reproducibilidad prueba-reprueba como un

tendencia central y dispersión de las medidas adecuadas tanto la

recomiendan. contra versiones más largas. Para la prueba de los instrumentos de

precisión de medición sobre las administraciones repetidas. de funcionamiento del receptor.

De fi nición - Cite 'puntos de referencia' significativas (datos comparativos o

Existen varios tipos de información pueden ayudar en la interpretación de las

puntuaciones: criterios de revisión: la carga de respuesta

criterios de revisión Los desarrolladores deben:

- Proporcionar información acerca de los métodos para lograr la Expresiones de gratitud

equivalencia conceptual entre o entre diferentes versiones de un

- Identificar y explicar cualquier fi significativo di ff erences entre

Vous aimerez peut-être aussi

en la teoría de prueba modernos pueden utilizar enfoques incluyendo el