Académique Documents
Professionnel Documents
Culture Documents
193
2002 Kluwer Academic Publishers. Impreso en los Países Bajos.
La valoración del estado de salud y los instrumentos de calidad de vida: Los atributos y criterios de revisión
Resumen
El campo de la salud y la calidad de la medición de la vida (CdV) - como una disciplina formal con un marco teórico coherente, métodos aceptados, y diversas aplicaciones - ha ido
evolucionando durante la mayor parte de los 30 años. Para identificar el estado de salud y calidad de vida instrumentos y revisarlos con criterios rigurosos como un precursor de la creación
de una biblioteca de instrumentos de difusión más tarde, el Medical Outcomes Confianza en 1994 creó una Cientí fi funcionar independientemente c Comité Asesor (SAC). A mediados de la
década de 1990, el SAC de fi ne un conjunto de atributos y criterios para llevar a cabo las evaluaciones de instrumentos; 5 años más tarde, actualizado y revisado estos materiales para tener
en cuenta las teorías de expansión y tecnologías sobre las que se están desarrollando este tipo de instrumentos. Este diario O ff ers conceptualización del SAC actual de ocho atributos clave
del estado de salud y los instrumentos de calidad de vida (es decir, modelo conceptual y de medición; fiabilidad, validez, capacidad de respuesta; interpretabilidad; encuestado y la carga
administrativa; formas alternas; y adaptaciones culturales y de lenguaje) y los criterios por el cual los instrumentos se revisarán en cada uno de esos atributos. Éstas son las pautas para el
campo a considerar y el debate sugirieron; de técnicas de medición se hacen tanto más familiar y más sofisticado, esperamos que los expertos desean actualizar y refinar estos criterios en
consecuencia. y adaptaciones culturales y de lenguaje) y los criterios por los cuales se revisarán los instrumentos en cada uno de esos atributos. Éstas son las pautas para el campo a
considerar y el debate sugirieron; de técnicas de medición se hacen tanto más familiar y más sofisticado, esperamos que los expertos desean actualizar y refinar estos criterios en
consecuencia. y adaptaciones culturales y de lenguaje) y los criterios por los cuales se revisarán los instrumentos en cada uno de esos atributos. Éstas son las pautas para el campo a
considerar y el debate sugirieron; de técnicas de medición se hacen tanto más familiar y más sofisticado, esperamos que los expertos desean actualizar y refinar estos criterios en
consecuencia.
palabras clave: El estado de salud, la teoría de respuesta al ítem, Medición, Calidad de vida, fiabilidad, capacidad de respuesta, Validez
nuevos instrumentos, traducir y adaptar culturalmente los instrumentos SAC determinó que, para cumplir con sus responsabilidades, sería
existentes, y facilitar la investigación entre académicos, médicos y necesario establecer algunos principios y criterios, así como los
organizaciones de atención de la salud; surgimiento de una sociedad procedimientos, por lo que sería adquirir, revisión y hará
profesional dedicada explícitamente a la promoción de este campo (la evaluaciones sobre los instrumentos que vinieron a su atención o
Sociedad Internacional para la calidad de vida de investigación para someterse a la confianza.
[ISOQOL]); convocatoria de numerosos coloquios internacionales y
convenciones sobre los métodos y problemas en la evaluación de la
calidad relacionada con la salud de la vida; la producción de numerosas criterios de revisión de instrumentos
(Tales como la periodicidad de la evaluación de la calidad de vida Tenemos tres objetivos en mente en la difusión de estos criterios. En
individual [SEIQoL]) que no tienen elementos estandarizados a través primer lugar, esperamos mejorar la apreciación de la evaluación de los
de los encuestados, todavía no hemos tenido experiencia de la resultados de salud entre un público tan amplio como sea posible y para
aplicación de estos criterios con tales medidas. impulsar aún más la discusión y el debate acerca de la mejora continua
en este campo. En segundo lugar, queremos proporcionar una plantilla
en la que los demás se establecen para evaluar los materiales o sistemas
criterios de revisión de instrumentos revisado (por ejemplo, la medición del rendimiento o los sistemas de vigilancia en
el ámbito de la atención qualityof) podría llevar a cabo de manera similar
Allí estaban las cosas durante unos 2 años, ya que el SAC aplicó su a exponer sus criterios de evaluación clara y abierta. En tercer lugar,
conjunto original de los criterios de revisión de instrumentos a los nuestro objetivo es documentar el proceso y los criterios utilizados por el
instrumentos presentados desde los Estados Unidos, el Reino Unido, SAC en el contexto de la misión de la confianza.
Canadá y varios países europeos como parte de las actividades de
fideicomiso más grandes. Cada vez más, sin embargo, el SAC se
encontró con dos problemas. Una de ellas fue que los desarrolladores
encuentran a veces los documentos que describen el culto criterios di fi
aplicar a su situación particular; el otro era que los criterios son menos
aplicables a los instrumentos desarrollados de acuerdo con los Atributos y criterios
principios de la teoría moderna de la prueba a los instrumentos creados
de acuerdo con las normas psicométricas clásicas. Ocho atributos han servido como principales focos de SAC opinión
instrumento y son el núcleo de este trabajo. Son:
Así, en el transcurso del uso de los criterios iniciales establecidos 1 Modelo conceptual y medición
durante varios años, se determinó que se requiere revisión y 2. Fiabilidad
ampliación para hacer frente a los avances en la ciencia de la 3. Validez
psicometría y aplicar a una gama más amplia de instrumentos. Aparte 4. Capacidad de respuesta
(correlaciones) de los ítems de la escala en un momento dado en el tiempo. - los datos anteriores para cada población de mayor interés, si es necesario
reproducibilidad
- Los métodos empleados para recoger los datos de reproducibilidad
reproducibilidad - justificación bien argumentado para apoyar el diseño del estudio y el intervalo entre la
La estabilidad de un instrumento a través del tiempo (test-retest) y el acuerdo entre los primera y la posterior administración a apoyar la hipótesis de que la población es estable
calificadores en un momento dado en el tiempo.
- La información sobre la fiabilidad test-retest y entre los calificadores fiabilidad basado en coe fi
cientes de correlación intraclase coe
- Información sobre la comparabilidad de las estimaciones de los parámetros del artículo y en la
precisión de medición sobre las administraciones repetidas
3. Validez - Razón fundamental el apoyo a la mezcla particular de la evidencia presentada para los usos
El grado en que el instrumento mide lo que pretende medir. previstos
- Descripción clara de los métodos empleados para recopilar datos de validez
- Composición de la muestra utilizado para examinar la validez (en detalle)
- los datos anteriores para cada población de mayor interés
Contenido relacionado con: evidencia de que el dominio de un instrumento es adecuado - Hipótesis probadas y los datos relativos a las pruebas
en relación con su uso previsto. - Clara justificación y apoyo a la elección de las medidas de criterios
Construir-relacionados: evidencia que apoya una interpretación propuesta de las
puntuaciones basadas en implicaciones teóricas asociados con las
construcciones que se mide.
Criterio relacionados con: evidencia que muestra la medida en que las puntuaciones del
4. Capacidad de respuesta - La evidencia sobre los cambios en las puntuaciones del instrumento
La capacidad de un instrumento para detectar cambios en el tiempo. - Los datos longitudinales que comparan un grupo que se espera que cambie con un grupo que
se espera que se mantenga estable
- Población (s) en el que la capacidad de respuesta ha sido probado, incluyendo los intervalos de
tiempo de evaluación, las intervenciones o medidas que intervienen en la evaluación del
cambio, y las poblaciones se supone que es estable
Tabla 1. ( Continuado)
Carga administrativa
- Información sobre los recursos necesarios para la administración del instrumento
7. modos Alternativas de administración - La evidencia sobre la confiabilidad, validez, capacidad de respuesta, la interpretabilidad, y la carga
Estos incluyen el autoinforme, administrado por el entrevistador, entrenado calificación para cada modo de administración
observador, administrados-entrevistador asistida por ordenador,
* Para todas las entradas en esta columna, se espera que los desarrolladores para proporcionar de fi niciones, descripciones, explicaciones o información empírica.
- evaluar la salud de la población general en un punto en el configuración o población. La importancia relativa de los ocho
tiempo, atributos puede er di ff en función de los usos previstos y
- la evaluación de la salud de las poblaciones especí fi cas en un punto en el aplicaciones especi fi ca para el instrumento. Los instrumentos
tiempo, pueden, por ejemplo, documentar el estado de salud o actitudes de
- la vigilancia de la salud de la población en general a través del tiempo, los individuos en un punto en el tiempo, distinguir entre dos o más
grupos, evaluar el cambio con el tiempo entre los grupos o
- la vigilancia de la salud de las poblaciones especí fi cas con el tiempo, individuos, predecir el estado futuro, o algunas combinaciones de
estos. Por lo tanto, el peso colocado en uno u otro conjunto de
- evaluar el impacto de las intervenciones o políticas a nivel criterios puede er di ff según los propósitos reivindicado para el
comunitario de base amplia o, instrumento.
- la evaluación de la e fi cacia y e cacia y siguientes de las intervenciones
sanitarias, En la revisión de los instrumentos, el SAC destinada a ser exhaustiva
- la realización de evaluaciones económicas de las intervenciones de salud, sin instrumentos a los estándares poco realistas sostiene. Por ejemplo,
aceptamos algunos instrumentos a pesar de que su capacidad de
- utilizando en programas de mejora y garantía de calidad de respuesta a cambiar con el tiempo (atributo 4) no había sido evaluado en
calidad en los sistemas de atención de salud, el momento de la presentación. En un caso como este, queremos señalar
que el instrumento había sido aprobado para comparaciones de grupos,
- la detección de las condiciones de salud, pero que no se dispone de datos con respecto a la capacidad de
- diagnóstico de las condiciones de salud, respuesta del instrumento. En otros casos, los desarrolladores pueden
- supervisar el estado de salud de los pacientes individuales. proporcionar soporte para contenido y validez de constructo, pero no
criterio de validez porque los verdaderos estándares de oro a menudo no
están disponibles para la evaluación de este último. En aún otros casos,
Un instrumento que funciona bien para un fin o en un ajuste o de la fiabilidad puede juzgarse su fi ciente
la población no puede hacerlo cuando se aplica para otro propósito
o en otro
198
para comparar los grupos, pero no para la evaluación de los criterios de revisión
individuos. En resumen, se correspondía con los criterios para usos Los desarrolladores deben:
particulares reclamados por el instrumento y aceptadas instrumentos - Estado lo amplio concepto (o conceptos) el instrumento está
para aplicaciones especí fi cos cuando la evaluación del instrumento tratando de medir - por ejemplo, funcional
y su documentación apoyaron estas aplicaciones. estado, el bienestar, relacionada con la salud
calidad de vida, la calidad de vida, la satisfacción con la atención de salud,
En el resto de este trabajo, presentamos nuestra de fi nición de los u otros. Además, si el instrumento está diseñado para evaluar varios
atributos mencionados anteriormente y, a continuación damos a nuestros dominios dentro de un concepto amplio (por ejemplo, múltiples escalas que
actuales (es decir, ahora revisada) criterios de revisión. Los criterios son evalúan varias dimensiones de la calidad relacionada con la salud de la
o FF Ered en términos de nuestra visión de lo que los desarrolladores vida), a continuación, proporcionar una lista de todos los dominios o
instrumentos deben 'hacer' (por ejemplo, describir, proporcionar, o dimensiones.
discutir) en la documentación de las características de sus instrumentos,
por lo que el material parece en gran medida en forma de viñetas. - Describir la base conceptual y empírica para generar el contenido de
Destacamos aquí que nuestros fi niciones y criterios de están abiertos a instrumento (por ejemplo, artículos) y para la combinación de varios
la discusión y la evolución en el campo de la evaluación del estado de elementos en una puntuación única escala y / o puntuaciones de
salud, y esperamos que se alienta a los expertos de todo el mundo a múltiples escala.
participar en un diálogo sobre estos temas en los próximos años. - Indicarán los métodos y la participación de las poblaciones objetivo
de obtener el contenido fi nal del instrumento y para determinar la
adecuación del contenido del instrumento para que la población,
por ejemplo mediante el uso de grupos de enfoque o de las
pruebas preliminares de la población objetivo (s).
Un modelo conceptual es una justificación para y descripción de los clásicas y modernas asumen dimensionalidad adecuada
conceptos y de las poblaciones de que una medida está destinada (generalmente unidimensionalidad) de las escalas.
enfoques clásicos de teoría de ensayo puede emplear, por ejemplo, proporcionar un fundamento y la base empírica para los pesos.
responsabilidad incluyen (a) la fiabilidad de consistencia interna, solicitudes describen niveles fi específicas de estabilidad para los niveles de fi
típicamente usando coe fi ciente de Cronbach una, y (b) la cos de la escala. Al igual que con fiabilidad de consistencia interna, los
reproducibilidad (por ejemplo, test-retest o fiabilidad entre estándares mínimos para coeficientes de FFI reproducibilidad del Consejo de
observadores (entrevistador)). El primer enfoque requiere una Europa están también típicamente considerados como 0,70 para comparaciones
administración del instrumento; este último requiere al menos dos de grupos y 0,90-0,95 para mediciones individuales en el tiempo.
administraciones.
En las modernas aplicaciones de la teoría de la prueba, el grado reproducibilidad Test-retest es el grado en que un instrumento
de precisión de la medición se expresa comúnmente en términos de produce anota estables en el tiempo entre los encuestados que se
varianza del error, el error estándar de la media (ESM) (la raíz supone que no han cambiado en los dominios que se está evaluando. La
cuadrada de la varianza del error), o la información de la prueba influencia de la administración de prueba en la segunda administración
(recíproco de la varianza del error). varianza del error (o cualquier puede sobrestimar la fiabilidad. Por el contrario, las variaciones en la
otra medida de precisión) toma valores ff Erent di al di ff puntos Erent salud, el aprendizaje, la reacción, o regresión a la media pueden producir
a lo largo de la escala. datos de prueba-reprueba que subestimar la reproducibilidad. Sesgo y
estadísticas límites-de-acuerdo pueden indicar el intervalo dentro del
cual se puede esperar que el 95% de las puntuaciones retest para
La consistencia interna fiabilidad. En el enfoque clásico, coe fi ciente de mentir. A pesar de estas precauciones, la información sobre los datos de
Cronbach una proporciona una estimación de fiabilidad basado en reproducibilidad test-retest es importante para la evaluación del
todas las posibles correlaciones dividida medio de una escala instrumento. Para los instrumentos administrados por un entrevistador,
multi-ítem. Para los instrumentos que emplean opciones de respuesta reproducibilidad test-retest se refiere típicamente a un acuerdo entre dos
dicotómicas, una fórmula alternativa, la fórmula Kuder-Richardson 20 o más observadores.
(KR-20), está disponible. normas mínimas comúnmente aceptadas
para coe fi cientes fiabilidad del Consejo de Europa son 0,70 para
comparaciones de grupos y 0.90-
0,95 para comparaciones individuales. requisitos de fiabilidad son mayores criterios de revisión
cuando la aplicación de las puntuaciones de instrumentos para uso La consistencia interna fiabilidad y la información de la prueba. Los
se calculan típicamente en base a la SEM. La SEM se calcula como la - Describir claramente los métodos empleados para recoger los
desviación estándar (SD) X 1-fiabilidad. coefi Fiabilidad Coe FFI inferiores a datos de fiabilidad. Esto debe incluir (a) métodos de acumulación
0,9 hasta 0,95 proporcionan demasiado ancho (por ejemplo, más de una a de la muestra y tamaño de la muestra; (B) características de la
dos tercios de la distribución de puntuación) intervalos para ser útil para el muestra (por ejemplo, sociodemográficos, características clínicas
seguimiento de la puntuación del individuo. si extrae de una población de pacientes, etc.); (C) las condiciones
de ensayo (por ejemplo, dónde y cómo se administró el
instrumento de interés); y (d) la estadística descriptiva para el
En el enfoque de IRT, la precisión de medición se evalúa instrumento en estudio (por ejemplo, medios, SDS, se refleja ff oor
generalmente en uno o más puntos en la escala. La precisión de la y el techo e).
escala debe caracterizarse por encima del rango de medición
probable que se encuentren en la investigación real. Un solo valor, - Para aplicaciones clásicas, las estimaciones informe de fiabilidad y
fiabilidad marginal, se puede estimar como un análogo a la clásica SES para todos los elementos de un instrumento,
fiabilidad coe fi ciente. Este valor es más útil para ensayos en los incluyendo tanto la partitura y las puntuaciones totales
que la precisión de medición es relativamente estable a través de la de la subescala, en su caso.
escala. - Para aplicaciones de IRT, proporcionar una gráfica que muestra
el SEM sobre el rango de la escala. Además, la fiabilidad
marginal de cada escala se puede informar donde se considera
Reproducibilidad. Un segundo enfoque para la fiabilidad se puede útil esta información.
obtener a juzgar la reproducibilidad o la estabilidad de un instrumento
en el tiempo (test-retest) y el acuerdo entre los calificadores en un - Donde los desarrolladores tienen razones para creer que las
punto en el tiempo. En las aplicaciones clásicas, la estabilidad de un estimaciones de la fiabilidad o SEM puede di ff er sustancialmente
instrumento a menudo se expresa como un valor único, pero IRT para las diferentes poblaciones en las que un instrumento se va a
utilizar, estos datos presentes
200
para cada población de mayor interés (por ejemplo, diferentes pretende medir. La evidencia de la validez de un instrumento ha sido
poblaciones de enfermedades crónicas, el lenguaje di ff Erent o comúnmente clasi fi cada de tres maneras discutidos justo debajo.
grupos culturales). (Observamos que validación de una medida basada en la preferencia
tendrá que emplear construcciones relacionadas con las preferencias
Reproducibilidad. Los desarrolladores deben: per se, no se construye simplemente descriptivos, y éstos er lata di ff de
- Describir claramente los métodos empleados para recoger los datos los criterios establecidos a continuación de medidas nonutility).
características clínicas si extrae de una población de pacientes, de un instrumento es adecuado en relación con su uso previsto. Los
etc.); (C) las condiciones de ensayo (por ejemplo, dónde y cómo se métodos utilizados comúnmente para obtener evidencia sobre la validez
administró el instrumento de interés); y (d) la estadística descriptiva relacionada con los contenidos incluyen el uso de la postura y del Panel
para el instrumento en estudio (por ejemplo, correlación intraclase de Expertos juicios (médico) de la claridad, amplitud, y la redundancia de
Coe fi ciente, característica operador receptor, el test-retest elementos y escalas de un instrumento. A menudo, el contenido de los
significan, límites de acuerdo, etc.). instrumentos de autoinforme de nuevo desarrollo se suscitó mejor de la
población que está siendo evaluado o experimentar el estado de salud.
- Dar una razón argumentada para apoyar el diseño del estudio y el teóricas asociados con las construcciones que se mide. Los métodos más
intervalo entre la primera y subsiguientes administraciones para comunes para obtener datos relacionados con la validez de constructo
apoyar la hipótesis de que la población es estable. Esto puede incluyen el examen de las relaciones lógicas que deben existir con otras
incluir la auto-informe sobre el cambio percibido en la salud medidas y / o patrones de calificaciones de los grupos conocidos de di ff
durante el intervalo de tiempo u otras medidas de salud fi co er sobre las variables relevantes. Idealmente, los desarrolladores deben
general y específica o el estado funcional. Información sobre generar y probar hipótesis acerca de las relaciones lógicas fi cas entre los
resultados de las pruebas y repita la prueba debe incluir las conceptos o constructos relevantes.
- En las aplicaciones clásicas para instrumentos que proporcionen datos medida de criterio. medidas de criterio son medidas de la construcción
a nivel de intervalo, incluir información sobre Test- retest fiabilidad diana que son ampliamente aceptados como válidos a escala, medidas
(reproducibilidad) y entre los calificadores fiabilidad basado en de esa construcción. En el ámbito de la evaluación del estado de salud
coeficientes de FFI correlación coe intraclase (ICC, la estadística de auto-reporte, validez de criterio rara vez se probó a causa de la
sesgo o test-retest significan, o límites de acuerdo); para valores ausencia de medidas de criterio ampliamente aceptado, aunque se dan
nominales u ordinales escala, j y ponderado j, respectivamente, se excepciones como las pruebas de versiones más cortas de medidas
- En las aplicaciones de IRT, también proporcionar información sobre la cribado contra una medida del criterio del diagnóstico o la afección de
comparabilidad de las estimaciones de los parámetros del artículo y en la que se trate, mediante la sensibilidad, especificidad, y la característica
Validez
Criterios de revisión
De fi nición Los desarrolladores deben:
La validez de un instrumento se define como el grado en el que el - Explicar la razón de que es compatible con la combinación particular de las
instrumento mide lo que se pruebas presentadas para los usos previstos.
201
- Proporcionar una descripción clara de los métodos empleados para estimación de una medida de la magnitud del cambio en el estado de
recopilar datos de validez. Esto debe incluir (a) métodos de salud (a veces denota la 'distancia' o di ff rencia entre antes y después
acumulación de la muestra y tamaño de la muestra; (B) de las puntuaciones). No existe ningún acuerdo o consenso en la
características de la muestra (por ejemplo, sociodemográficos, medida estadística preferido. E ff ect estadísticas del tamaño traducen
características clínicas si extrae de una población de pacientes); el antes y después de los cambios en una unidad de medida común;
(C) las condiciones de prueba (es decir, dónde y cómo se esencialmente que implican la división de la puntuación de cambio por
administró el instrumento de interés); y (d) la estadística descriptiva uno u otro denominador varianza. (Dicho de otra manera, estas
para el instrumento en estudio (por ejemplo, medios, SDS, se estadísticas son la cantidad de cambio observado sobre la cantidad de
refleja ff oor y el techo e). varianza observada.) En estas estadísticas, el numerador es siempre
una puntuación de cambio, pero el ERS ff denominador di dependiendo
- Describir la composición de la muestra utilizada para examinar la de la estadística están utilizando (por ejemplo, la respuesta
validez de una medida en su detalle fi ciente para dejar en claro normalizada significa, estadística de la capacidad de respuesta, SE de
las poblaciones a las que el instrumento se aplica y los factores la media).
selectivos que razonablemente se podría esperar que influyen en
la validez, como el género, la edad, la etnia y la lengua.
Por otra parte, los métodos Erent di ff pueden usarse para evaluar e ff
tamaño ect. Enfoques comunes incluyen comparar puntuaciones de la
- Cuando existen razones para creer que er validez voluntad di ff escala antes y después de una intervención que se espera que un ff ect del
sustancialmente para las distintas poblaciones en las que un constructo y compara la evolución de puntuaciones de la escala con los
instrumento se va a utilizar, presentar los datos anteriores para cada cambios en otras medidas relacionadas, que se supone que se mueven en
población importante de interés (por ejemplo, di ff Erent poblaciones de la misma dirección que la medida de destino.
enfermedades crónicas, idioma o grupos culturales, grupos de edad di ff
Erent ). Debido a que las pruebas de validez y utilización de los Capacidad de respuesta, ya que algunos autores han sugerido,
instrumentos principales están en curso, animamos a los puede ser interpretado como un nivel 'significativo' del cambio y, en
desarrolladores a seguir para presentar dichos datos a medida que ellos consecuencia, definida como el cambio mínimo considerado como
se acumulan. importante por las personas con la condición de salud, sus
significaciones otros cativas, o sus proveedores. Sugerimos, sin
- Al presentar la validez de constructo, proporcionar las hipótesis embargo, que esta connotación de respuesta podría ser mejor
probadas y los datos relativos a las pruebas. considerada un elemento de cómo se interpretan los datos de un
- Cuando se presentan los datos relativos a la validez de criterio, instrumento. Interpretación de los ECTS ff e se discute en
proporcionar una justificación clara y el apoyo para la elección de las Interpretabilidad. Esto incluye mínimamente importantes erences di ff o
medidas de criterios. cambios. Hacemos esta distinción en parte porque, a pesar de la
capacidad de respuesta y la interpretación son conceptos
Sensibilidad relacionados, uno se centra en las características de rendimiento del
instrumento a la mano y la otra se centra en las opiniones de los
De fi nición encuestados sobre los dominios están estudiando.
A veces se refiere como la sensibilidad al cambio, la capacidad de respuesta
se considera como una parte importante del proceso de validación de
constructo longitudinal. La capacidad de respuesta se refiere a la capacidad
de un instrumento para detectar el cambio. El criterio de la capacidad de criterios de revisión
respuesta requiere preguntar si la medida puede detectar diferencias en los Los desarrolladores deben:
resultados, incluso si esas erences di ff son pequeñas. La capacidad de - Para cualquier reclamación de que un instrumento es sensible, presentar
respuesta puede ser conceptualizada también como la relación de una señal pruebas sobre los cambios en las puntuaciones se encuentran en pruebas
(el verdadero cambio con el tiempo que se ha producido) para el ruido (la de campo del instrumento. Además de esta información, las puntuaciones
variabilidad en las puntuaciones visto con el tiempo que no está asociado con de cambio también se pueden expresar como e ff ect tamaños medios de
el verdadero cambio en el estado). respuesta estandarizadas, SEM, u otras medidas relativas o ajustados de
distancia entre antes y después de las puntuaciones. Los métodos y las
fórmulas utilizadas para calcular las estadísticas de respuesta deben ser
La evaluación de la capacidad de respuesta implica la estimación estadística explicados.
de un e ff ect estadística de tamaño - es decir, una
202
- Preferiblemente, citar datos longitudinales que comparan un grupo la comparación y la interpretación de los datos. Como con validez
que se espera que cambie con un grupo que se espera que se (atributo 3), esto debe incluir (a) fundamento de la selección de
mantenga estable. criterios externos o población de comparación; (B) métodos de
- Claramente identificar la población (s) en el que la capacidad de acumulación de la muestra y tamaño de la muestra; (B)
respuesta ha sido probado, incluyendo los intervalos de tiempo de la características de la muestra; (C) las condiciones de ensayo; y (d)
evaluación, las intervenciones o medidas implicados en la la estadística descriptiva para el instrumento en estudio
evaluación de cambio, y las poblaciones supone que ser estable.
- Proporcionar información sobre las formas en que los datos del
instrumento debería ser (o haber sido) informó y se muestra con
interpretabilidad el fin de facilitar la interpretación.
derivadas de una variedad de grupos de población definida de, - Dar información sobre las propiedades siguientes: (1) la media y el
incluyendo, cuando sea posible, una muestra representativa de la rango de tiempo necesario para completar
población general; el instrumento sobre una base auto-administrados o, como
- los resultados de un gran número de estudios que han utilizado el instrumento entrevistador-administrada, para todos los grupos de
instrumento en cuestión y los hallazgos reportados en ella, con lo población para la que está destinado el instrumento;
que la familiaridad con el instrumento que va a ayudar a la
interpretación; (2) el nivel de lectura y comprensión necesaria
- la relación de las puntuaciones a las condiciones clínicamente para todos los grupos de población para la que está destinado el
reconocidos, necesidad de tratamientos específicos Fi, o intervenciones instrumento;
de conocida e ff cacia; (3) los requisitos o peticiones especiales que podrían
- la relación de las puntuaciones o cambios en las puntuaciones a acontecimientos de la ser colocado en los encuestados, tales como la necesidad de consultar
vida socialmente reconocidas (como el impacto de la pérdida de un puesto de trabajo); los registros de atención de salud o copiar información sobre
medicamentos que se usan; y (4) la aceptabilidad del instrumento, por
- la relación de las puntuaciones o cambios en las puntuaciones ejemplo
subjetivas clasificaciones de los cambios importantes mínimamente indicando el nivel de los datos que faltan y las tasas de
por las personas con la condición, sus significantes otros, o sus rechazo y las razones de ambos.
proveedores; y - Para los instrumentos que no son, en la cara de ella, inofensivo y
- así como las calificaciones de predecir eventos relevantes (conocida como la para aquellos que parecen tener tasas excesivas de los datos que
muerte o necesidad de atención institucional). faltan, proporcionar evidencia de que los lugares de instrumentos
sin tensión física o emocional indebida sobre el demandado (por
criterios de revisión ejemplo, que no incluye preguntas que un fi minoría significativa
Los desarrolladores deben: de pacientes Fi NDS demasiado molesto o confrontación).
- Claramente describir la justificación de la selección de criterios
externos o poblaciones con fines de
203
- Indicar cuándo o bajo qué circunstancias, su instrumento no es adaptaciones o traducciones culturales y de idioma
adecuado para los encuestados.
De fi nición
criterios de revisión: carga administrativa Muchos instrumentos están adaptados o traducidos para las
Los desarrolladores deben proporcionar información acerca de los aplicaciones a través de fronteras y poblaciones regionales y
recursos necesarios para la administración del instrumento, tales como la nacionales. En el contexto ITV y SAC, adaptaciones culturales y
necesidad de hardware de ordenador fi co especial o específica o lingüísticas se han referido a las situaciones en que los
software para administrar, la puntuación, o analizar el instrumento. instrumentos han sido totalmente adaptadas de instrumentos
originales o de origen de las culturas o idiomas di ff Erent del
Para los instrumentos administrado por un entrevistador, los desarrolladores original. la adaptación lenguaje bien podría ser di ff erentiated de la
deben: traducción. Como un ejemplo de ello: un instrumento desarrollado
- Documentar el tiempo promedio y el rango de tiempo que se en español o Inglés se puede adaptar para di ff Erent 'versiones'
requiere de un entrevistador entrenado para administrar el (por ejemplo, dialectos del país o regionspeci fi c) de estos idiomas
instrumento en entrevistas cara a cara, por teléfono, o con básicos, mientras que un instrumento desarrollado en sueco y
formatos asistida por ordenador / aplicaciones, según el caso; traducido al francés o alemán sería muy una cuestión di ff Erent. En
todo caso,
- Indicar la cantidad de entrenamiento y el nivel de educación o
experiencia profesional y la experiencia necesaria para ff sta
administrativa para administrar, la puntuación, o de otra manera
utilizar el instrumento;
- Indicar la disponibilidad de instrucciones de puntuación.
Los modos alternativos de administración La adaptación transcultural de un instrumento implica dos pasos
principales: (1) evaluación de la equivalencia conceptual y lingüística,
De fi nición y (2) Evaluación de propiedades de medición. equivalencia conceptual
modos alternativos de administración utilizados para el desarrollo y se refiere a la equivalencia en la relevancia y el significado de los
aplicación de instrumentos puede incluir autoinforme, administrado mismos conceptos que se está midiendo en los cultivos y / o lenguajes
por un entrevistador, calificación observador entrenado, autoinforme Erent di ff. equivalencia lingüística se refiere a la equivalencia de
asistida por ordenador, las medidas basadas en el desempeño redacción de las preguntas y significado en la formulación de
administrado por un entrevistador, y asistidos por ordenador. artículos, las opciones de respuesta, y todos los aspectos del
Además, los modos alternativos pueden incluir auto-administrarse o instrumento y sus aplicaciones. En todos estos casos, es útil si los
versiones entrevistador-del instrumento fuente original que se van a desarrolladores proporcionan información empírica sobre cómo
ser completado por los encuestados de proxy como los padres, funcionan los elementos en las culturas Erent di ff e idiomas.
cónyuges, proveedores, u otros encuestados sustitutos.
criterios de revisión
Los desarrolladores deben: - Describe métodos para lograr la equivalencia lingüística. Los pasos
- Hacer pruebas información disponible en la fiabilidad, validez, comúnmente recomendadas son (a) al menos dos traducciones
capacidad de respuesta, la interpretabilidad, y la carga para hacia adelante de la lengua fuente que produce una traducción
cada modo de administración; hacia adelante agrupado; (B) al menos uno, preferiblemente más,
- Proporcionar información sobre la comparabilidad de los modos traducciones hacia atrás a la lengua de origen que resulta en otra
alternativos; siempre que sea posible, los estudios que equivale deben traducción agrupado; (C) una revisión de las versiones traducidas
llevarse a cabo de manera que las puntuaciones de los modos por paneles y peritos con revisiones; y (d) las pruebas de campo
alternativos pueden hacerse comparables entre sí o con las puntuaciones para proporcionar evidencia de la comparabilidad.
a partir de un instrumento original.
204
4. Bjorner JB, Thunedborg K, Kristensen TS, Modvig J, Bech 16. McHorney CA, Tarlov AR. monitoreo en cada paciente en la práctica clínica: ¿Son
La encuesta de salud P. danesa SF-36: Traducción y estudios preliminares de las encuestas de salud disponibles adecuada? Qual vida Res 1995; 4: 293-307.
validez. J Clin Epidemiol 1998; 51; 991-
999. 17. Nunnally JC, Bernstern IH. Teoría psicométrica. . 3ª edición, Nueva York:
5. Bjorner JB, Kreiner S, Ware JE Jr., Damsgaard MT, Bech McGraw-Hill, 1994.
P. Di ff elemento diferencial que funciona en la traducción danesa de la SF-36. J 18. Payne SL. El arte de hacer preguntas. Princeton, NJ: Princeton University Press,
Clin Epidemiol 1998; 51: 1189-1202. 1951.
6. Bowling A. Medición de la Salud: Una revisión de la calidad de vida escalas de 19. Patrick DL, Chiang YP. (Eds) Resultados de salud simposio metodología. Care Med
medición. Segunda edición, Londres:. Open University Press, 1997. 2000; 38 (9) (Suppl II.): II3- II208.
7. carmines E. La fiabilidad y la validez de Evaluación. Newbury Park, Calif .: Sage 20. Reise SP, Widaman KF, Pugh RH. Con fi teoría de análisis y respuesta del factor
Publications. 1997. elemento confirmatoria: Dos enfoques para la exploración de la invariancia de
8. Cronbach LJ. Fundamentos de pruebas psicológicas. Cuarta edición, Nueva York:. medición. Psychol Bull 1993; 114: 552-566.
Harper and Row. 1984.
9. Cronbach LJ. Coe fi ciente alfa y la estructura interna de pruebas. Psychometrika 21. Staquet M, R Hays, Fayers P. Su valoración en los ensayos clínicos: Métodos y
1951; 16: 297-334. Práctica. Nueva York: Oxford University Press, 1998.
10. DeVellis R. Desarrollo a Escala: Teoría y Aplicaciones. Vol. 26. Aplicada Métodos
de Investigación Social de la serie. Newbury Park, Calif .: Sage Publications, 22. Streiner DL, Norman GR. Salud escalas de medición. Segunda edición, Oxford:.
1991. Oxford University Press, 1995.
11. Hambleton RK, Swaminathan H, Rogers HJ. Fundamentos de la teoría de 23. Wainer H, Dorans NJ, Flaugher R, et al. Computarizado de pruebas de adaptación:
respuesta al ítem. Newbury Park, Calif .: Sage Publications, 1991. Una cartilla. Mahwah, NJ: Lawrence Erlbaum Associates, 1990.
12. Lohr KN. Resultados de salud simposio metodología. Resumen y 24. Wilkin D, Hallam L, Doggett MA. Las medidas de la necesidad y Resultado de la
recomendaciones. Medicina. Care 2000; 38 (9) (Suppl II.): II194-II208. atención primaria. Nueva York: Oxford University Press, 1992.
13. Señor FM, Norvick MR. Teorías estadísticas de resultados de pruebas mentales.
Lectura, Mass .: Addison-Wesley, 1968. Autor para la correspondencia: Kathleen N. Lohr, Ph.D., Director Científico, de
14. McDonald RP. Teoría de la prueba: Un tratamiento Uni fi cado. Mahwah, NJ: salud, sociales e Investigación Económica, RTI International, PO Box 12194, 3040
Lawrence Erlbaum Associates, 1999. Cornwallis Road, Research Triangle Park, Carolina del Norte, EE.UU. 27709-2194
15. McDowell I, Newell C. Medición de la Salud. Una guía para escalas de evaluación y Teléfono: + 1-919-541 -6512; þ 1-919-541-7384 E-mail: klohr@rti.org
cuestionarios. Segunda edición, Nueva York:. Oxford University Press, 1996.