Académique Documents
Professionnel Documents
Culture Documents
de Documents Électroniques
1 Introduction
Le moteur de recherche Google [8] répertorie 1,346 millions de pages web, une forte
proportion de celles-ci véhiculant de l’information en langage naturel. Devant cette
masse d’information, le résumé automatique a été proposé comme solution viable à
plusieurs reprises. En effet, on retrouve désormais plusieurs systèmes dédiés à cette
tâche. Par exemple, Copernic.com a mis au point l’assistant de lecture Copernic
Summarizer [5], basé sur le système Extractor de Peter D. Turney [26]; nStein [19] a
mis au point NewsEmailer pour le résumé d’articles de journaux; Inxight [11] propose
un environnement de développement nommé Summarizer SDK.
Dans cet article, nous présentons une évaluation du système Extractor dans son
contexte d’utilisation comme outil de résumé automatique. Le but recherché est de
déterminer les lacunes afin de procéder à des améliorations, ce qui est en cours de
réalisation. La section qui suit introduit les approches du résumé automatique et les
métriques utilisées dans notre évaluation. La section 3 présente l’évaluation du
système Extractor. Enfin, les sections 4 et 5 présentent respectivement une discussion
des résultats et la conclusion.
2 Fondements Théoriques
Afin d’être en mesure de caractériser le système Extractor, les sections 2.1, 2.2 et 2.3
présentent trois approches importantes en résumé automatique: l’approche en surface
E. Stroulia and S. Matwin (Eds.): AI 2001, LNAI 2056, pp. 277-286, 2001.
© Springer-Verlag Berlin Heidelberg 2001
278 D. Nadeau et N. Tourigny
L’approche basée sur le discours regroupe des techniques reconnues pour augmenter
la cohérence et la cohésion d’un résumé produit par extraction de phrases [14]. Par