Académique Documents
Professionnel Documents
Culture Documents
To cite this version : Znaidi, Eya and Tamine, Lynda and Latiri, Chiraz
Répondre à des requêtes cliniques PICO. (2016) In: Conférence francophone en
Recherche d'Information et Applications (CORIA 2016) dans le cadre de la
semaine du document numérique et de la recherche d'information : SDNRI 2016,
9 March 2016 - 11 March 2016 (Toulouse, France).
RÉSUMÉ. Dans cet article, nous nous intéressons à l’évaluation de requêtes cliniques exprimées
avec les facettes PICO (Population/Problem (P), Intervention (I), Comparaison (C) et Outcome
(O)). Nous proposons l’application d’un opérateur d’agrégation prioritaire des scores qui per-
met : (1) d’agréger les scores de pertinence partiels issus de l’évaluation de représentations
sémantiques associées aux sous-requêtes facettes et (2) contextualiser le score d’importance
des facettes au document et requête en cours d’évaluation. Les expérimentations menées sur
la collection standard CLIREC, comprenant 423 requêtes cliniques et plus de 1.2 millions de
documents PubMed, mettent en évidence l’efficacité de notre approche comparativement aux
autres modèles de l’état de l’art.
ABSTRACT. In this paper, we address the issue of answering PICO (Patient/Problem, Interven-
tion, Comparison, Outcome) clinical queries. The contributions of this work include (1) a new
document ranking model based on a prioritized aggregation operator that computes the global
relevance score based on the relevance estimation of the semantic facet sub-queries and (2)
leverages the importance of the facets according to the document and query under evaluation.
The effectiveness of our clinical search approach is empirically evaluated using a clinical re-
trieval collection including 423 queries and more than 1.2 million of medical abstracts from
PubMed. The experimental results show that our approach for PICO query answering signifi-
cantly overpasses state-of-the-art document ranking models.
MOTS-CLÉS : RI Médicale, Requêtes Cliniques, Agrégation de scores, Représentation Sémantique
KEYWORDS: Medical IR, Clinical Queries, Semantic Query representation, Aggregation Scoring
De nombreux précédents travaux ont montré que les requêtes médicales sont par-
ticulièrement complexes (Natarajan et al., 2010 ; Suominen et al., 2013). L’un des
facteurs de complexité les plus abordés est incontestablement celui du fossé séman-
tique entre besoins en information (experts ou novices) et documents. Les solutions
ont porté essentiellement sur l’utilisation de ressources sémantiques comme MeSH
ou UMLS pour l’enrichissement des requêtes et/ou documents (Stokes et al., 2009 ;
Dinh et Tamine, 2012) ou alors dans le modèle d’appariement requête-document
(Trieschnigg, 2010 ; Mao et al., 2015). Parmi les requêtes médicales, les requêtes cli-
niques sont considérées, sous l’angle du système de recherche d’information, comme
particulièrement difficiles car elles sont de nature exploratoire et l’évaluation de la per-
tinence des réponses candidates requiert des facettes d’informations contextuels diffi-
ciles à identifier (Francke et al., 2008 ; Natarajan et al., 2010). Sous l’angle de l’expert
et du système de recherche d’information, une façon de préciser le besoin en informa-
tion induit par une requête clinique est de la structurer en facettes PICO. Les travaux
sur l’évaluation automatique des requêtes PICO sont peu abondants et se scindent
en deux volets. Dans la première catégorie de travaux (Boudin et al., 2010a ; Zhao
et al., 2010), le problème principal adressé par les auteurs est la détection des facettes
PICO, comme une étape en amont à la sélection de documents pertinents. La plupart
des approches sont basées sur des techniques d’apprentissage supervisé afin d’iden-
tifier les éléments PICO à partir du texte. Par exemple, dans (Boudin et al., 2010a),
le processus d’identification des éléments PICO à partir du document a été conduit
selon deux étapes : une première étape pour la segmentation du texte des documents
en plusieurs phrases, puis dans une seconde étape, chaque phrase est transformée en
un vecteur de propriétés utilisant les caractéristiques statistiques et linguistiques pour
désigner les facettes P , IC et O. Les expérimentations sur un ensemble de 260000
résumés de PubMed ont montré que la combinaison linéaire de plusieurs classifieurs
est l’approche la plus efficace pour la détection des éléments PICO.
Plus proche de notre contribution, la deuxième catégorie de travaux (Boudin
et al., 2010c ; Boudin et al., 2010b ; Demner-Fushman et Lin, 2007) concerne la dé-
finition de modèles de recherche d’information qui exploitent les facettes PICO pour
calculer les scores de pertinence des documents. Pour atteindre cet objectif, Boudin
et al. (Boudin et al., 2010c ; Boudin et al., 2010b) ont proposé une extension de la
version basique du modèle de langue (Song et Croft, 1999). Les auteurs ont modifié
le modèle de pondération basé sur les termes des documents en tenant compte de la
distribution des éléments PICO dans les différents passages de documents ainsi que la
distribution des termes dans les différentes parties PICO. L’évaluation expérimentale
conduite sur une collection de 1.5 millions de documents et 423 requêtes a montré que
le modèle proposé a permis une amélioration de 28% de la MAP3 sur l’ensemble des
modèles de référence. Demner-Fushman et Lin (Demner-Fushman et Lin, 2007) ont
également proposé un modèle unifié pour détecter et utiliser les éléments PICO dans
une fonction de calcul de pertinence des documents SEBM . Cette dernière est basée
sur une combinaison linéaire des scores de pertinence partiels des documents, consi-
dérant trois éléments de l’EBM, à savoir, la structure PICO (SP ICO ), la crédibilité de
la preuve médicale (SSoE ) et le type de la tâche (Stask ). Par exemple, le score SP ICO
est basé sur une combinaison linéaire des scores des facettes P , I, C et O en prenant
en compte l’appariement des mots entre le document et la facette de la question. Les
expérimentations sur 24 questions cliniques ont montré que cette approche dépasse,
en termes de performance, la recherche classique dans PubMed.
Soit une requête clinique Q avec les annotations PICO associées donnant lieu
aux sous-requêtes QP , QIC et QO , manuellement ou automatiquement identifiées.
Comme dans de précédents travaux (Boudin et al., 2010c), nous considérons les fa-
Comme le montre la Figure 1, notre approche est basée sur quatre (4) étapes prin-
cipales : (1) un appariement préliminaire document-requête basé sur les mots, qui re-
tourne une liste initiale de documents pertinents candidats, (2) représentation séman-
tique des requêtes, qui retourne les graphes sémantiques conceptuels associés à chaque
facette de la requête, (3) un appariement requête-document qui permet de sélectionner
les concepts les mieux pondérés de chaque facette du graphe, et (4) calcul de perti-
nence des documents basé sur un opérateur d’agrégation prioritaire (Da Costa Pereira
et al., 2009). Une description détaillée des étapes (2) et (3) est donnée dans (Znaidi
et al., 2015). Le principe général de l’algorithme sous-jacent est le suivant :
– Etape 2 : A partir des sous-requêtes facettes QP QIC et QO , un algorithme gé-
nère des graphes sémantiques de requêtes QcP , QcIC , QcO , en effectuant une extraction
de concepts M eSH (Znaidi et al., 2015) pour chacune des facettes en remontant de
proche en proche des concepts extraits à partir des mots de la requête jusqu’à atteindre
le plus proche concept commun de la hiérarchie de MeSH.
– Etape 3 : Pour chaque arbre sous-requête associé à une facette QcP , QcIC , QcO
et chaque document d résultat de l’étape préliminaire (1), identifier les Nc meilleurs
concepts associés en appliquant un algorithme de propagation de scores d’appariement
concept-document par accumulation des scores des concepts associés au document d
jusqu’aux concepts feuilles de MeSH.
Une illustration de la représentation sémantique issues des étapes (2) et (3), appli-
quée à la requête Q présentée en exemple "In people with recurrent aggression having
any antiepileptic drug in any dosage, what is length of time of placebo for observer
reported aggression ?" est donnée, respectivement, dans les Figure 2 et Figure 3.
Dans le présent article, notre principale contribution porte sur le calcul du score de
pertinence des documents en réponse à une requête clinique, correspondant à l’étape
(4).
Dans l’étape (4), représentée dans la Figure 1., nous disposons d’une représen-
tation sémantique de chacune des requêtes facettes QcP , QcIC , QcO à l’aide des Nc
concepts pertinents issus de l’étape (2) et (3) (résumées dans la section précédente).
Nous considérons que chaque facette P , I/C et O constitue un critère de pertinence
et proposons une fonction d’agrégation F qui calcule, pour chaque document d, un
score global de pertinence comme suit :
RSVP ICO (Q, d) = F (RSVP (QP , d), RSVIC (QIC , d), RSVO (QO , d)) [1]
Figure 3 – Illustration de l’appariement requête-document
où F représente la fonction d’agrégation et P , IC et O sont les critères de pertinence
PICO. Nous calculons pour chacun de ces critères un score d’importance qui reflète
son poids ou contribution dans l’estimation de la pertinence du document.
Nous soutenons l’idée que les scores d’importance obéissent globalement à la hié-
rarchie posée par l’hypothèse H2 (Section 3.1) et confirmée par les travaux de l’état
de l’art (Weifield et Finkelstein, 2005 ; Boudin et al., 2010c) mais ne sont cependant
pas fixes pour toutes les requêtes et documents. En effet, nous jugeons opportun de
contextualiser les scores d’importance de ces facettes aux requêtes et documents en
cours d’évaluation, à plus forte raison, si elles ne sont pas explicitement identifiées
dans les documents. En clair, plus le document est supposé pertinent pour la facette la
plus importante, moins il convient de considérer le score de son appariement avec la
facette la moins importante. Pour répondre à cette intuition, nous proposons l’utilisa-
tion d’un opérateur prioritaire d’agrégation de scores (Da Costa Pereira et al., 2009),
qui permet de calculer un score global en tenant compte des scores partiels obtenus
pour chaque critère ainsi que d’un ordonnancement dans l’importance de ces critères.
Le poids de chaque critère est calculé en fonction des poids ainsi que le degré de
satisfaction du critère le plus important. L’intuition sous-jacente est la suivante :
plus le degré de satisfaction du critère le plus important est élevé, moins le degré de
satisfaction du critère le moins important influencera le score global de pertinence.
RSV 4 P ICO (Q, d) = λP ∗ RSV (QP , d) + λIC ∗ RSV (QIC , d) + λO ∗ RSV (QO , d)
[2]
4. Relevance Status Value
où x ∈ {P, IC, O} et RSVx (Q, d) est calculé comme suit :
P
C∈QC SIM (C, d)
RSVx (Q, d) = P x
[3]
C∈∪xQC
x
SIM (C, d)
où :
– QCx : est l’ensemble Nc de concepts pondérés, associés à chaque facette de la
requête Qx , résultat de l’étape 3.
– SIM (C, d) : est le degré de similarité entre les vecteurs T F/IDF du document
d et concept C représenté par ses entrées préférées dans la terminologie MeSH.
Les poids d’importance des éléments PICO sont calculés selon le principe de l’opé-
rateur d’agrégation des scores (Da Costa Pereira et al., 2009), comme suit :
1) Hiérarchisation des poids d’importance des facettes en tenant compte de l’hy-
pothèse H2 :
Pour prendre en compte la pertinence du document en se basant sur les mots et sur
les concepts comme recommandé dans (Stokes et al., 2009), le score de pertinence du
document d par rapport à la requête Q est la combinaison des scores de pertinence
basés sur les concepts (ScoreP ICO (Q, d)) et le score de pertinence basé sur les mots
(Scorew (Q, d)). Le score global de pertinence est calculé comme suit :
4. Evaluation expérimentale
Les objectifs de l’évaluation expérimentale sont : (1) mesurer l’efficacité du mo-
dèle d’évaluation des requêtes PICO en analysant l’effet de chacun des éléments
contributifs (représentation conceptuelle, principe de combinaison des facettes, prin-
cipe de pondération des facettes) ; (2) analyser la robustesse du modèle en identifiant
les raisons possibles d’échec vs. succès des requêtes.
Nombre de documents 1.212.040 résumés PubMed
Longueur moyenne de document 246 termes
Nombre de requêtes 423
Nombre moyen de termes de la requête 4.3 termes
Longueur moyenne de la requêtes (PICO) 18.7 termes
Nombre moyen de doc pertinents 19
Tableau 1 – Statistiques de la collection de test CLIREC
4.1. Cadre d’évaluation
4.1.1. Collection de données
Nous utilisons la collection de données CLIREC(CLinical Information Retrieval
Evaluation Collection), construite dans le but d’évaluer la recherche d’information
clinique (Boudin et al., 2010c). Pour atteindre cet objectif, les auteurs ont construit
la collection de test d’une manière semi-automatique à partir d’un ensemble de re-
vues systématiques de la ressource Cochrane. Plus spécifiquement, les auteurs ont de-
mandé à un groupe d’experts de générer les requêtes qui correspondent aux questions
cliniques fournies par un sous-ensemble du répertoire Cochrane. Chaque question
est manuellement annotée avec les parties P (Patient/Problème), I (Intervention), C
(Comparaison) et O (Outcome, résultats). Pour constituer la vérité terrain, les auteurs
ont tout d’abord extrait, pour chaque question clinique, les citations des documents
associés à la section référence attachée à chaque revue ; cette section énonce en effet
l’ensemble des études pertinentes qui traitent la question clinique considérée. Ensuite,
une liste de documents pertinents (articles de journaux) associés à ces citations sont
extraits de PubMed pour chaque question clinique.
Quelques caractéristiques et statistiques de la collection sont représentés dans le Ta-
bleau 1. Nous avons utilisé MeSH, qui est la terminologie la plus utilisée pour indexer
les citations biomédicales (Stokes et al., 2009). Chaque nœud de la terminologie re-
présente un concept qui fait référence à une entrée préférée dans la terminologie.
5. Résultats
5.1. Efficacité du modèle de pertinence basé sur l’agrégation des scores
Dans un premier temps, nous avons identifié la valeur optimale du paramètre α
utilisé dans l’équation 6 et ce en le variant dans l’intervalle [0..1]. Comme le montre
la Figure 4, la valeur optimale du paramètre α est de 0.7 permettant d’atteindre un
score de précision M AP égale à 0.170. Ces résultats montrent que le score basé sur
les éléments PICO contribuent de façon significative au calcul du score global opti-
mal. Nous retenons cette valeur pour le reste des expérimentations. Pour rappel, nous
procédons à la variation du paramètre α dans le cadre de la validation croisée.
Le Tableau 2 présente les résultats de l’efficacité de recherche de notre modèle
d’agrégation prioritaire sémantique, notée P SM , comparativement avec ceux des six
modèles de référence cités ci-dessus, selon les mesures de précision (MAP et P@X)
et du nombre de documents pertinents sélectionnés (#RR). Les résultats montrent
d’importantes améliorations significatives pour toutes les mesures d’évaluation et mo-
dèles, sauf pour le modèle P LM où l’amélioration est faible et non significative. Plus
spécifiquement, pour la mesure de la M AP , les améliorations varient de +4.60% à
+52.36%. De plus, le nombre de documents pertinents retournés (#RR) est plus im-
Figure 4 – Variation du paramètre de combinaison des scores basés mots et basés
PICO (Formule 6)
portant en faveur du modèle P SM en comparaison avec l’ensemble des modèles de
référence. D’une manière générale, ces résultats mettent en avant quatre (4) observa-
tions majeures :
1) Exploiter la sémantique cachée derrière les facettes des requêtes à travers les
concepts, est efficace vu que le modèle P SM dépasse les modèles BM 25 et LM
mais aussi le modèle P SBM 25 qui se base sur l’opérateur d’agrégation prioritaire.
2) L’importante amélioration de performance du modèle P SM par rapport au mo-
dèle CQE montre l’intérêt d’intégrer la structure de la requête en facettes P , I/C et
O dans le calcul des scores de pertinence des documents.
3) Le modèle P SM donne de meilleurs résultats que le modèle AGM basé sur
la représentation sémantique de la requête ainsi que l’agrégation additive des scores
d’importance des facettes ; ces résultats montrent l’avantage d’assigner des scores par-
tiels de pertinence, en adéquation avec l’importance des facettes PICO avec le docu-
ment en cours d’évaluation.
4) Le modèle P SM est légèrement mais pas significativement plus pertinent que
le modèle P LM (+4.60%). Ce point sera particulièrement exploré lors de l’analyse
de robustesse du modèle P SM présentée dans ce qui suit.
X P (t|Q)
Cla(Q) = P (t|Q)log2 [7]
Pcoll (t)
t∈V
6. Conclusion et perspectives
Dans cet article, nous avons proposé l’application d’un opérateur d’agrégation
prioritaire pour l’évaluation de requêtes cliniques PICO. L’opérateur ne requiert pas
une annotation préalable des facettes PICO dans les documents et permet d’adapter
le score d’importance des facettes aux documents et requêtes en cours d’évaluation.
Les expérimentations conduites sur la collection CLIREC ont montré que l’opérateur
proposé est significativement plus performant que la majorité des modèles de réfé-
rence basés sur l’appariement mot-mot, la reformulation sémantique des requêtes et
des modèles d’agrégation classiques des ordonnancements issus de l’évaluation de
chaque sous-requête associée à une facette. Bien que robuste, l’analyse des perfor-
mances de recherche au niveau requête montre que l’opérateur P SM présente des
limites. En effet, le modèle d’ordonnancement des documents ne prend pas en compte
le lien entre le contexte des mots dans les documents et leur contexte dans la requête,
représenté par les facettes auxquelles les mots font référence. Nous planifions de vé-
rifier le bien fondé de ces limites en menant une analyse statistique sur l’ensemble de
la collection qui permettrait de déterminer les facteurs d’échec des requêtes. Suivra,
une réflexion quant à l’intégration de ces facteurs comme éléments contextuels dans
l’opérateur d’agrégation prioritaire des scores.
7. Bibliographie
Boudin F., Nie J.-Y., Bartlett J., Grad R., Pluye P., Dawes M., « Combining classifiers for robust
PICO element detection », BMC Medical Informatics and Decision Making, vol. 10, no 1,
p. 29, 2010a.
Boudin F., Nie J. Y., Dawes M., « Clinical information retrieval using document and PICO
structure », NAACL HLT, p. 822-830, 2010b.
Boudin F., Nie J.-Y., Dawes M., « Positional language models for clinical information retrie-
val », EMNLP, p. 108-115, 2010c.
Da Costa Pereira C., Dragoni M., Pasi G., « Multidimensional Relevance : A New Aggregation
Criterion », in M. Boughanem, C. Berrut, J. Mothe, C. Soule-Dupuy (eds), Advances in
Information Retrieval, vol. 5478 of Lecture Notes in Computer Science, Springer Berlin
Heidelberg, chapter 25, p. 264-275, 2009.
Demner-Fushman D., Lin J., « Answering Clinical Questions with Knowledge-Based and Sta-
tistical Techniques », Comput. Linguist., vol. 33, no 1, p. 63-103, 2007.
Dinh D., Tamine L., « Towards a context sensitive approach to searching information based on
domain specific knowledge sources », Web Semantics : Science, Services and Agents on the
World Wide Web, 2012.
Fox K., Duggan M., « Health online 2013 », 2013.
Francke A., Smit M., de Veer A., « Factors influencing the implementation of clinical guide-
lines for health care professionals : a systematic meta-review », BMC Medical Information
Decision Making, vol. 8, no 38, p. 1-11, 2008.
Mao J., Lu K., Mu X., Li G., « Mining Document, Concept, and Term Associations for Effective
Biomedical Retrieval : Introducing MeSH-enhanced Retrieval Models », Inf. Retr., vol. 18,
no 5, p. 413-444, 2015.
Natarajan K., Stein D., Jain S., Elhadad N., « An analysis of clinical queries in an electronic
health record search utility », International journal of medical information, vol. 79, no 7,
p. 515-522, 2010.
Pereira C., Dragoni D., Pasi G., « Multidimensionnal relevance : a new aggregation criterion »,
ECIR 2010, p. 264-275, 2010.
Robertson S. E., Sparck Jones K., « Document Retrieval Systems », Taylor Graham Publishing,
London, UK, UK, chapter Relevance Weighting of Search Terms, p. 143-160, 1988.
Sackett D. L., Rosenberg W. M. C., Gray J. A. M., Haynes R. B., Richardson W. S., « Evidence
based medicine : what it is and what it isn’t », BMJ, vol. 312, no 7023, p. 71-72, 1996.
Schardt C., Adams M., Owens T., Keitz S., Fontelo P., « Utilization of the PICO framework to
improve searching PubMed for clinical questions », BMC Medical Informatics and Decision
Making, vol. 7, no 1, p. 16+, 2007.
Song F., Croft W. B., « A General Language Model for Information Retrieval », CIKM ’99,
p. 316-321, 1999.
Steve C. R., Croft W., « Quantifying query ambiguity », Proceedings of the second international
conference on Human Language Technology Research, HLT ’02, p. 104-109, 2002.
Stokes N., Cavedon Y., Zobel J., « Exploring criteria for succesful query expansion in the geno-
mic domain », Information retrieval, vol. 12, p. 17-50, 2009.
Suominen H., Salanter S., Velupillai S., Chapman W., Savova G., Elhadad N., Pradhan S.,
South B., Mowery D., Jones G., Leveling J., Kelly L., Goeuriot L., Martinez D., Zuccon
G.Information Access Evaluation. Multilinguality, Multimodality, and Visualization, vol.
8138 of Lecture Notes in Computer Science, Springer Berlin Heidelberg, p. 212-231, 2013.
Trieschnigg D., Proof of concept : concept-based biomedical information retrieval, PhD thesis,
University of Twente, 2010.
Wang L., Bennett P. N., Collins-Thompson K., « Robust Ranking Models via Risk-sensitive
Optimization », SIGIR ’12, p. 761-770, 2012.
Weifield J., Finkelstein K., « How to answer your clinical questions more efficiently », Family
practice management, vol. 12, no 7, p. 37, 2005.
Yang L., Mei Q., K.Zheng, Hanauer D. A., « Query log analysis of an electronic health record
search engine », Proceedings of the annual symposium AMIA, AMIA ’11, p. 915-924, 2011.
Zhang Y., « Searching for specific health-related information in MedlinePlus : behavioral pat-
terns and user experience », Journal of the American Society for Information Science and
Technology (JASIST), 2013.
Zhao J., yen Kan M., Procter P. M., Zubaidah S., Yip W. K., Li G. M., « Improving Search
for Evidence-based Practice using Information Extraction », BMC Medical Informatics and
Decision Making, 2010.
Znaidi E., Tamine L., Latiri C., « Answering PICO Clinical Questions : a Semantic Graph-
Based Approach (short paper) », Conference on Artificial Intelligence in Medicine (AIME),
2015.