Vous êtes sur la page 1sur 2

Évaluation d’un Système pour le Résumé Automatique

de Documents Électroniques

David Nadeau et Nicole Tourigny

Département d’informatique, Pavillon Adrien-Pouliot, Université Laval


Ste-Foy (Québec), Canada, G1K 7P4
{danad0, tourigny}@ift.ulaval.ca

Résumé. Cet article présente une évaluation de la fonction de résumé du


système Extractor. Quatre attributs de qualité ont été considérés, soit la
cohérence et la balance des résumés produits ainsi que la polyvalence et la
performance du système. Notre démarche a pour but d’évaluer les deux
premiers attributs, représentant des problèmes bien connus en résumé
automatique, pour procéder à leur amélioration tout en minimisant la
dégradation des deux autres attributs, purement quantitatifs. Notre évaluation
diffère de ce qui a été fait en ce sens qu’elle se concentre sur le contexte propre
à l’activité résumante d’Extractor. Notre travail tire profit de l’abondante
documentation qui s’organise autour des approches pour le résumé automatique
et des méthodes d’évaluation des systèmes.

1 Introduction

Le moteur de recherche Google [8] répertorie 1,346 millions de pages web, une forte
proportion de celles-ci véhiculant de l’information en langage naturel. Devant cette
masse d’information, le résumé automatique a été proposé comme solution viable à
plusieurs reprises. En effet, on retrouve désormais plusieurs systèmes dédiés à cette
tâche. Par exemple, Copernic.com a mis au point l’assistant de lecture Copernic
Summarizer [5], basé sur le système Extractor de Peter D. Turney [26]; nStein [19] a
mis au point NewsEmailer pour le résumé d’articles de journaux; Inxight [11] propose
un environnement de développement nommé Summarizer SDK.
Dans cet article, nous présentons une évaluation du système Extractor dans son
contexte d’utilisation comme outil de résumé automatique. Le but recherché est de
déterminer les lacunes afin de procéder à des améliorations, ce qui est en cours de
réalisation. La section qui suit introduit les approches du résumé automatique et les
métriques utilisées dans notre évaluation. La section 3 présente l’évaluation du
système Extractor. Enfin, les sections 4 et 5 présentent respectivement une discussion
des résultats et la conclusion.

2 Fondements Théoriques
Afin d’être en mesure de caractériser le système Extractor, les sections 2.1, 2.2 et 2.3
présentent trois approches importantes en résumé automatique: l’approche en surface

E. Stroulia and S. Matwin (Eds.): AI 2001, LNAI 2056, pp. 277-286, 2001.
© Springer-Verlag Berlin Heidelberg 2001
278 D. Nadeau et N. Tourigny

(surface-level), l’approche en profondeur (entity-level) et l’approche basée sur le


discours (discourse-level). Les métriques que nous avons utilisées pour l’évaluation
du système sont présentées par la suite.

2.1 L’approche en Surface

L’approche classique utilisée pour le résumé automatique consiste à traiter le texte


source en surface [14]. Le traitement en surface est issu du calcul statistique et du
repérage d’indices explicites. Il ne demande que peu de connaissances linguistiques et
est donc peu dépendant du langage et peu coûteux (temps de calcul, espace mémoire).
Le début des travaux remonte à 1958, avec la méthode de Luhn qui consiste à extraire
les phrases contenant les unités textuelles revenant le plus fréquemment dans le texte
source [13]. Puis, Baxendale ajoute que la position ordinale des phrases est un bon
indice de la représentativité de celles-ci [4]. Edmundson met en évidence
l’importance des mots contenus dans les titres [7] et introduit la méthode des indices,
exploitant la présence de mots positifs (comparatifs, superlatifs, adverbes de
conclusion) et de mots négatifs (expressions anaphoriques, expressions péjoratives).
Cette méthode est reprise par plusieurs auteurs [10,18]. Plus tard, d’autres
contributions s’ajoutent, comme les travaux sur les mots commençant par une
majuscule [1,12] et les travaux sur les phrases indicatrices suivant des patrons
prédéfinis [21]. Bon nombre de systèmes découlent de ces travaux, la plupart
produisant des résumés par extraction de phrases (extract) par opposition aux
systèmes faisant la génération de langage naturel (abstract).

2.2 L’approche en Profondeur

L’approche en profondeur présuppose un formalisme de représentation des


connaissances qui permet de mettre en évidence la corrélation entre les mots ou la
progression thématique. Certains systèmes procèdent à une analyse syntaxique pour
étiqueter les mots du texte source (nom, adjectif, verbe) [6]. D’autres proposent une
décomposition chronologique et sémantique du texte en segments. [23]. L’étude des
liens entre les segments leur permet de caractériser la structure du texte. D’autres
encore exploitent une base de connaissances associant chaque sujet au vocabulaire le
plus fréquemment utilisé pour en traiter [10]. Une autre approche pour le traitement
en profondeur consiste à transformer le texte en un graphe où chaque phrase est un
sommet et où les liens conceptuels entre les phrases sont les arêtes [25]. Il existe alors
un lien conceptuel entre deux phrases distinctes si elles font référence à un même
concept ou à un concept sémantiquement voisin. Enfin, une approche consiste à
appliquer le raisonnement par cas pour associer le texte à un thème archivé dans la
base de cas et en réutiliser les connaissances pertinentes [22]. Un résumé peut alors
être produit en présentant les points saillants du thème dont il est question.

2.3 L’approche Basée sur le Discours

L’approche basée sur le discours regroupe des techniques reconnues pour augmenter
la cohérence et la cohésion d’un résumé produit par extraction de phrases [14]. Par

Vous aimerez peut-être aussi