Kankoé SALLAH ¹
Abstract
Dès leur apparition dans les années 80, les systèmes d’aide à la décision en médecine se
sont vus prêter un grand potentiel d’utilité et de réussite. 2 à 3 décennies plus tard, il
paraît judicieux de s’interroger sur leur réelle valeur à travers une méthodologie
d’évaluation rigoureuse. Nous avons effectué la revue de la littérature au sujet des
diverses méthodes qui ont été utilisées pour évaluer les différents systèmes, développés
dans des contextes variés. Nous avons dégagé une synthèse qui tient compte des multiples
aspects de cette évaluation à savoir l’impact clinique, les processus, la validité des
connaissances et règles, les exigences techniques, l’adhésion des utilisateurs/opérabilité et
le niveau d’interopérabilité. Cette synthèse témoigne de la complexité du problème de
l’évaluation à travers les nombreux champs à prendre en compte. Elle souligne aussi la
nécessité d’une imbrication entre le processus d’évaluation et le cycle de développement
du système. Une meilleure prise en compte et une meilleure mise en œuvre des démarches
d’évaluation de ces systèmes sont des critères majeurs dont dépend leur avenir.
Keywords
Decision Support Systems, Clinical; Health Care Quality, Access, and Evaluation
1 Introduction
Les systèmes d’aide à la décision (SAD) sont généralement conçues pour intégrer une base
de connaissances médicales, des données du patient et un moteur d'inférence pour générer
conseils spécifiques aux cas en présence [1]. Les systèmes d'aide à la décision ont fait leur
apparition dans les champs de la médecine il y a déjà plusieurs décennies. Ces systèmes
sont souvent chacun spécifique du domaine ou champ d’activité ayant motivé leur
développement. De nombreuses études visant à « évaluer » un système précis d’aide à la
décision sont présentes dans la littérature. La plupart du temps, les auteurs cherchent à
évaluer l’impact sur la qualité des soins à travers des indicateurs qui ne font pas toujours
l’unanimité. L’évaluation mérite cependant de faire l’objet d’une vision plus large et plus
standardisée. Elle pourrait être définie ici comme l’art de mesurer la qualité, le coût, les
effets et les impacts de ces systèmes dans l’environnement des soins de santé afin de
mettre en place une pratique basée sur les faits [2] en ce qui concerne d’utilisation des
systèmes d’aide à la décision en santé. Mais l’évaluation serait aussi, dans notre cas précis,
la mesure et l’exploration des propriétés d’un système d’aide à la décision dans ses aspects
de conception, d’implémentation et de mise en œuvre [2]. En faisant une revue de la
1
littérature sur la question, nous allons essayer de dégager une méthodologie de l’évaluation
des systèmes d’aide à la décision, qui prenne en compte toutes les dimensions du problème
(l’impact clinique, l’impact sur les pratiques professionnelles, les connaissances
représentées, les exigences techniques, l’adhésion des utilisateurs, l’interopérabilité) et
ceci, tout le long du cycle de développement du système. Cette méthodologie se veut
applicable à tout système d’aide à la décision, au delà des multiples particularités que l’on
rencontre d’un type technologique à l’autre ou encore d’une discipline de soins à une autre.
2 Le contexte
Il est souvent avancé que les systèmes d’aide à la décision représentent un énorme
potentiel en médecine. Ainsi les auteurs ont souvent cherché à en évaluer les bénéfices. La
plupart des études ont eu pour objectif de mesurer l’impact de ces systèmes sur un point
particulier du processus de soins. Les systèmes évalués par le passé étaient destinés à l’aide
au diagnostic, au disease management, à la gestion des médicaments et à l’intervention
préventive. D’autres études, ont focalisé outre les aspects de l’impact clinique de l’aide à la
décision, la convivialité des systèmes et leur prise en main par les utilisateurs, leur
intégration aux processus de travail, la qualité des conseils cliniques offerts. La rentabilité
de (SAD) et leur capacité à améliorer les résultats cliniques ont été relativement peu
évaluées.
On se trouve confronté, dans le contexte actuel à un certain nombre de questions qui
n’offrent pas d’alternative évidente [3].
• Peut on faire une analyse coût / bénéfice de ses systèmes surtout lorsqu’ils sont de
grande dimension ? Les indicateurs à considérer ne seraient pas trop complexes ?
• Le résultat d’une évaluation ne serait-il pas plus lié au format de représentation des
connaissances qu’aux connaissances incluses dans le système elles mêmes ?
• Les technologies de l’information et de la communication évoluant rapidement, les
résultats des études actuelles auront-elles sens pour les versions ultérieures du même
système d’aide à la décision ?
Les interactions entre le système et son utilisateur interviennent pour compliquer
d’avantage l’analyse. Il a été préconisé qu’il faut comparer l’utilisateur seul au couple
formé par l’utilisateur et son système d’aide à la décision. Il faut aussi réaliser que selon
les cas, le système peut avoir un rôle formateur ou démotivant pour les utilisateurs [4].
Lorsque l’utilisateur accroit ses compétences par l’aide du système, au bout d’un certain
temps, l’évaluation montrera une moindre performance relative du système. Au contraire,
lorsque faisant une confiance excessive au système, l’utilisateur en devient dépendant, il
peut perdre une part de son expertise personnelle, permettant ainsi au système d’acquérir
une performance relative plus élevée.
2
- l’impact sur les pratiques professionnelles
- les connaissances représentées
- les exigences techniques
- l’adhésion des utilisateurs
- l’interopérabilité
On s’aperçoit que la nécessité d’évaluer le système au cours même de son développement
préoccupe les auteurs [2, 4, 7, 8]. Le développement d’un logiciel suit souvent des cycles
itératifs (figure 1) [9] qui seront caractérisés chacun par une évaluation de stade. Les
résultats de cette évaluation servent à l’amélioration du développement sur le cycle
suivant. Ceci aboutit à une amélioration continue de la qualité du système. Dans l’idéal,
l’évaluation des SAD doit être un processus continuel stratégiquement planifié et non une
opération ponctuelle. Un tel dispositif intégré permet l’évaluation du système suite à une
mise à jour du système logiciel ou une modification des bases de connaissances.
Les axes précédemment cités recouvrent l’ensemble des aspects évalués dans la littérature
scientifique. Cette méthode se veut rigoureuse et standardisée même s’il est difficile de
proposer une méthodologie unique valable pour tout besoin d’évaluation de SAD. Les
objectifs d’évaluation peuvent différer en fonction du stade de développement ou des
finalités spécifiques des systèmes.
3
Il est souvent utile de décomposer les indicateurs généraux en composantes plus précises.
Les indicateurs peuvent se fonder sur des critères quantitatifs (taux, proportions) ou
qualitatifs (sous forme d’appréciation provenant des médecins ou de leurs patients). Ces 2
types d’indicateurs peuvent être regroupés pour mieux évaluer l’impact clinique. Par
exemple, considérons un SAD dont l’objectif est d’améliorer l’adéquation entre un
référentiel et les choix des praticiens. L’évaluation peut passer par un audit des
enregistrements patients pour dénombrer quantitativement la proportion de cas en
conformité avec le référentiel. On réalisera en plus une enquête chez les professionnels
pour évaluer leur connaissance préalable du référentiel, les points sur lesquels ils pensent
avoir amélioré leurs pratiques [11] et l’intérêt selon eux pour une meilleure prise en
charge. Avant l’introduction d’un nouveau SAD, une enquête pourrait être réalisée auprès
des experts ou d’un échantillon de cliniciens afin de recenser leurs avis au sujet de divers
tests possibles. La même enquête sera répétée suite à l’introduction du système d’aide à la
décision pour obtenir l’appréciation donnée par les praticiens sur l’impact perçu du SAD
positif ou négatif.
3.1.3 La portée de l’évaluation
Pourquoi évalue-t-on et à quoi serviront les résultats de celle évaluation ? Ces questions
déterminent les dimensions de l’évaluation. Faut-il prendre en compte tous les patients ou
seulement certains groupes avec des indicateurs spécifiques ? On peut distinguer les
différentes fonctionnalités du SAD susceptibles d’avoir un impact clinique.
Sur quelle période de temps devra s’étaler l’évaluation ?
La portée globale de l’évaluation dépend aussi des impératifs de temps et de ressources.
L’approche développée pour l’évaluation quotidienne à petite échelle par les praticiens
[12] demeure valable pour les SAD.
3.1.4 Schéma d’étude
Il convient, chaque fois que cela est possible de comparer un groupe témoin à un
groupe utilisant le SAD. Sinon, on peut aussi réaliser la comparaison de
performances « avant » et « après » l’installation du SAD. Les situations cliniques
d’utilisation des SAD rendent très difficiles d’évaluer ces systèmes par des essais
cliniques randomisés [13, 14]. Les nombreux facteurs de confusion possibles doivent
être recensés et pris en compte. Il peut s’agir par exemples d’un changement de
référentiel accompagnant le nouveau SAD, d’un changement de personnel ou d’une
nouvelle formation. S’il est impossible de contrôler ces biais, il demeure au moins
indispensable de considérer leur impact potentiel.
4
Autant que possible, il convient d’utiliser des techniques de mesure précédemment validés
dans la littérature scientifique [15]. Ceci rend d’avantage possible la comparaison des
résultats obtenus avec d’autres études du domaine.
3.1.6 Taille d’échantillon, analyse et interprétation de résultats
La taille de l’échantillon dépend de la différence que l’on espère mesurer entre l’utilisation
et la non-utilisation d’un SAD. Les limites de l’étude doivent être précisées pour prévenir
une généralisation erronée des ses conclusions.
5
L’évaluation des connaissances sera axée sur :
- la qualité des sources
- la précision de la traduction des connaissances des sources vers la base
- la qualité et la validité des recommandations fournies
3.3.1 Evaluer la qualité des sources de connaissances
Les guides de bonne pratique utilisés sont-elles basées sur des revues systématiques de la
littérature scientifiques [11] ? Les niveaux de preuve des recommandations sont-ils
clarifiés (niveaux 1 à 5) et bien pris en compte par les algorithmes du moteur d’inférence ?
Des recommandations existent pour l’évaluation des guides de bonnes pratiques [18].
La portée des connaissances incluses dans la base doit être compatible avec le domaine
d’utilisation envisagé pour le système. Ainsi par exemple une base de connaissance
concernant l’infection en milieu hospitalier ne sera pas superposable pour la même
question en pratique ambulatoire. Le contexte peut aussi être celui du type d’utilisateur et
de son niveau d’expérience.
La crédibilité des connaissances dépend de leur mise à jour continuelle. Ceci doit être
évalué. Une procédure a-t-elle été mise en place pour mettre à jour les connaissances et
règles de façon aisée ?
3.3.2 Evaluer la qualité de la traduction des connaissances des sources vers le SAD
6
Figure 2 : Evaluation d’un SAD en présence ou non d’un Gold Standard ; d’après [23]
7
3.5 Evaluer l’adhésion des utilisateurs
Un SAD très coûteux peut être voué à l’échec s’il n’obtient pas l’adhésion des utilisateurs
[30]. Il faut donc recueillir l’avis des utilisateurs tout au long du cycle de vie du SAD [31].
Les informations recueillies précocement permettent de mieux ajuster la suite du
développement et de l’implémentation.
Cette évaluation peut s’effectuer sous 2 angles : la satisfaction des utilisateurs et le degré
d’utilisation du système. Les facteurs déterminant d’adhésion des utilisateurs seraient la
facilité d’utilisation et le bénéfice attendu du système.
Des enquêtes via questionnaires sur un échantillon d’utilisateur sont possibles. Des
questionnaires déjà validé existent dans ce domaine [32]. On peut citer entre autres, le
questionnaire de l’utilisateur final [33], le QUIS (Questionnaire for user interaction
satisfaction) [34], le TAM User Acceptance questionnaire [31]. L’utilisation de ces
questionnaires validés favorise la comparabilité des diverses études. L’analyse de données
vidéo [35] apporte des informations en analysant les réactions des utilisateurs face au
système.
Les études avant après sont assez parlantes ici. Elles permettent de comparer les souhaits
exprimés par les utilisateurs avant implémentation à leur attitude vis-à-vis du SAD après
implémentation [36].
Il convient de noter que lorsque le SAD a été imposé par une autorité de management ou
de tutelle, un indicateur comme le nombre de personnes utilisant le système devient biaisé
[33]. La fréquence d’utilisation, le degré d’exploitation des différentes fonctionnalités et
les enquêtes de satisfaction ont alors plus d’intérêt.
8
4 Conclusion
Ce travail témoigne de la complexité du problème de l’évaluation à travers les nombreux
champs à prendre en compte : impact clinique, impact sur les pratiques professionnelles,
validité des connaissances représentées, exigences techniques, adhésion des utilisateurs et
interopérabilité. On s’aperçoit aussi de la nécessité d’une imbrication entre le processus
d’évaluation et le cycle de développement de l’application. L’évaluation ne doit pas se
réduire à une tâche ponctuelle. Il s’agit d’un processus permanent prenant naissance dès la
phase de conception des systèmes. Une meilleure prise en compte de la démarche
méthodologique de cette évaluation et sa mise en œuvre rigoureuse semblent être des
critères majeurs dont dépendent le succès et l’avenir des systèmes d’aide à la décision.
Références
[11] Shiffman RN, Liaw Y, Brandt CA, Corb GJ. Computer-based guideline
implementation systems: a systematic review of functionality and effectiveness. J Am Med
Inform Assoc. 1999; 6(2): 104-14.
[12] Berwick DM. Developing and testing changes in delivery of care. Ann Intern Med.
1998; 128(8): 651-6.
[13] Johnston ME, Langton KB, Haynes RB, Mathieu A. Effects of computer-based
clinical decision support systems on clinician performance and patient outcome. A critical
appraisal of research. Ann Intern Med. 1994; 120(2): 135-42.
9
[14] Kaushal R, Shojania KG, Bates DW. Effects of computerized physician order entry
and clinical decision support systems on medication safety: a systematic review. Arch
Intern Med. 2003; 163(12): 1409-16.
[15] Walton R, Dovey S, Harvey E, Freemantle N. Computer support for determining
drug dose: systematic review and meta-analysis. BMJ. 1999; 318(7189): 984-90.
[16] Finkler SA, Knickman JR, Hendrickson G, Lipkin M, Jr., Thompson WG. A
comparison of work-sampling and time-and-motion techniques for studies in health
services research. Health Serv Res. 1993; 28(5): 577-97.
[17] Urden LD, Roode JI. Work sampling. A decision-making tool for determining
resources and work redesign. J Nurs Adm. 1997; 27(9): 34-41.
[18] Alonso P, Bonfill X. [Clinical practice guidelines (I): elaboration, implementation
and evaluation]. Radiologia. 2007; 49(1): 19-22.
[19] Boxwala AA, Peleg M, Tu S, Ogunyemi O, Zeng QT, Wang D, et al. GLIF3: a
representation format for sharable computer-interpretable clinical practice guidelines. J
Biomed Inform. 2004; 37(3): 147-61.
[20] Berner ES. Diagnostic decision support systems: how to determine the gold
standard? J Am Med Inform Assoc. 2003; 10(6): 608-10.
[21] DEGOULET P. INFORMATIQUE MEDICALE. édition è, ed.^eds. Masson ed.
Paris 1998.
[22] Fox J, Thomson R. Clinical decision support systems: a discussion of quality,
safety and legal liability issues. Proc AMIA Symp. 2002: 265-9.
[23] McClean SI. Implementation of intelligent decision support systems in health care.
Journal of Management in Medicine. 2002; 16(2/3): 206-18.
[24] Hubert FH. Requirements Engineering as a Success Factor in Software Projects.
Franz L, ed.^eds. 2001:58-66.
[25] Wiegers KE. Software Requirements: Microsoft Press, 2003, p. 544.
[26] Robertson s. An Early Start to Testing: How to Test Requirements. EuroSTAR '96.
1996; December 2-6.
[27] McDaniel JG. Improving system quality through software evaluation. Comput Biol
Med. 2002; 32(3): 127-40.
[28] Babar MA, Zhu L, Jeffery R. A Framework for Classifying and Comparing
Software Architecture Evaluation Methods. In: Proceedings of the 2004 Australian
Software Engineering Conference (ed): IEEE Computer Society 2004.
[29] Turner CS. An investigation of the Therac-25 accidents. IEEE Computer 1993: 18-
41
[30] Ornstein C. Hospital Heeds Doctors Suspends Use of Software; Cedars- Sinai
physicians entered prescriptions and other orders in it, but called it unsafe. In: Los Angeles
Times. (ed) California 2003.
[31] Davis FD. User acceptance of information technology: system characteristics, user
perceptions andbehavioural impacts. International Journal of Man-Machine Studies 1993;
36: 475-87.
10
[32] Ammenwerth E, Mansmann U, Iller C, Eichstadter R. Factors affecting and
affected by user acceptance of computer-based nursing documentation: results of a two-
year study. J Am Med Inform Assoc 2003; 10(1): 69-84.
[33] Torkzadeh G. The measurement of end-user computing satisfaction. MIS Quarterly
1988; 12: 259-74.
[34] Norman KL. Improving user satisfaction: the questionnaire for user satisfaction.
Version 5.5. In: 1st Annual Mid-Atlantic Human Factors Conference Virginia Beach (ed)
1993:224-8.
[35] Gadd CS, Baskaran P, Lobach DF. Identification of design features to enhance
utilization and acceptance of systems for Internet-based decision support at the point of
care. Proc AMIA Symp 1998: 91-5.
[36] Anderson JG, Aydin CE. Evaluating the impact of health care information systems.
Int J Technol Assess Health Care 1997; 13(2): 380-93.
[37] Engineers IoEaE. IEEE Standard Computer Dictionary: A Compilation of IEEE
Standard Computer Glossaries. (ed) New York 1990.
[38] Liaw ST, Schattner P. Electronic decision support in general practice. What's the
hold up? Aust Fam Physician 2003; 32(11): 941-4.
[39] Feinstein AR. ICD, POR, and DRG. Unsolved scientific problems in the nosology
of clinical medicine. Arch Intern Med 1988; 148(10): 2269-74.
[40] O'Neil M, Payne C, Read J. Read Codes Version 3: a user led terminology.
Methods Inf Med 1995; 34(1-2): 187-92.
[41] Rothwell DJ, Cote RA, Cordeau JP, Boisvert MA. Developing a standard data
structure for medical language. The SNOMED proposal. Proc Annu Symp Comput Appl
Med Care 1993: 695-9.
Adresse de correspondance
Kankoé SALLAH
121 Avenue d’Arès Appt8 33200 Bordeaux
Email : kankoe@sallah.org
11