Vous êtes sur la page 1sur 35

Gnration automatique des rsums

Introduction
Pour satisfaire leurs besoins en information ou acqurir des
connaissances, les humains doivent souvent lire des documents dont les
contenus sont complexes et longs assimiler. Lobjectif dun rsum est
de rduire la quantit deffort ncessaire lacquisition des
connaissances contenues dans un document. Un rsum peut tre dfini
comme une reprsentation condense, intelligible par un humain et non
critique du contenu dun autre document :

reprsentation condense : un rsum permet de se faire rapidement


une ide du contenu du document initial .
intelligible par un humain : un rsum permet de diminuer les efforts
ncessaires un humain pour acqurir les connaissances contenues dans
un document. Lhumain est lutilisateur direct dun rsum. De ce fait, un
rsum diffre dune indexation ou dune reprsentation servant
lextraction ou au raisonnement partir de connaissances .
non critique : un rsum ne contient pas de commentaires ou de points
de vue sur le document initial.

1) Principales applications
Lobjectif de toute mthode de GAR (gnration automatique de
rsum) est de prsenter lessentiel dun document afin de rduire
lnergie et le temps quil faudrait une personne pour prendre
connaissance de son contenu. La plupart des utilisations courantes
doutils de GAR ont pour objet daider rechercher des informations
dans des bases documentaires ou surveiller le contenu de sources
dinformation.

1.1 Recherche dinformations


Aujourdhui, entreprises, administrations et particuliers peuvent
aisment se constituer des bases documentaires prives contenant
plusieurs milliers, voire plusieurs millions, de documents.
Afin de tirer profit de ces bases, il faut que les recherches aboutissent
rapidement. La GAR peut jouer un rle central pour rduire la dure
des recherches car, mme si un rsum ne rpond pas directement aux
besoins du lecteur, son contenu peut lui permettre de se faire une ide
de lintrt du document et donc destimer si ce document vaut la
peine dtre lu.
La recherche dans les bases documentaires se fait gnralement au
moyen de deux types doutils :

1.1.1 Moteurs de recherche

Les outils de GAR tendent tre de plus en plus utiliss pour simplifier
et acclrer la recherche avec des moteurs de recherche. Sur un
moteur de recherche, un utilisateur doit souvent parcourir plusieurs
rsultats avant de trouver la rponse son besoin. Cest pourquoi,
il est de plus en plus courant que les moteurs de recherche utilisent des
outils de GAR afin daider les utilisateurs se faire rapidement une ide
de lintrt des rsultats par rapport leurs besoins.

1.1.2) Systmes de question-rponse


Les systmes de question-rponse sont des systmes de GAR qui
synthtisent une rponse unique partir de tous les documents
rpondant la requte de lutilisateur. Selon les systmes, les
requtes peuvent tre poses avec des mots-cls, en langage naturel
(START-MIT) ou encore avec des graphes conceptuels.
Les systmes de question-rponse adaptent leurs rponses en
fonction du type de requte.

Exemple
Si lon demande au systme START du Massachusetts Institute of
Technology de donner la dfinition dun terme, on obtient une
rponse semblable celle quelon trouve dans un dictionnaire. En
revanche, si on demande au systme de donner la capitale des tatsUnis, il rpond simplement par Washington .

1.1.3 Outils spcifiques


Des techniques de GAR servent aussi faciliter la recherche dans
des bases documentaires contenant des hypertextes, des images,
des vidos.
Sur le Web : les annuaires du Web comme Yahoo! ont pour but de
runir le plus grand nombre possible de sites en fonction de leur
thmatique.
les annuaires offrent gnralement une petite description du contenu du
site. Des mthodes de GAR ont t spcialement dveloppes pour
construire automatiquement des descriptions de sites afin de faciliter le
travail de ceux qui mettent jour les annuaires.

Dans des bases dimages : un grand nombre de particuliers


possdent aujourdhui des albums photos numriques. Ils perdent
souvent beaucoup de temps rechercher des images. Des mthodes
de GAR de collections de photographies peuvent les aider. Elles ont
pour but de construire un hypertexte dune galerie photo de la
collection dans laquelle lutilisateur peut naviguer.

Dans des bases de vidos : grce un rsum, un spectateur a la


possibilit de se faire une ide des principales informations contenues
dans une vido sans avoir la regarder dans sa totalit. Les
rsums de vidos peuvent servir gnrer automatiquement des
extraits de films personnaliss en fonction des gots de lutilisateur. Ils
peuvent galement servir rsumer des enregistrements de camras
de surveillance.

1.2 Veille
Les entreprises utilisent de plus en plus doutils destins surveiller
les informations provenant de diffrentes sources. Par exemple,
on peut trouver sur le Web, et particulirement sur la blogosphre, des
pages commentant des produits ou des pages tenant des propos
politiques. Pour dtecter ce qui se dit sur ces pages, on doit trier un
grand nombre dinformations puis synthtiser celles qui sont
essentielles.

1.3) Autres utilisations


Gnrer automatiquement une synthse de lessentiel dun document
afin de minimiser le temps dacquisition de cette information par une
personne peut servir dans dautres applications.

1.3.1) Gnralisation
En gographie, la GAR est dsigne par un autre nom, la gnralisation :
La gnralisation dsigne la slection et la reprsentation de dtails en
fonction de lchelle de la carte et des objectifs de lutilisateur

1.3.2) Adaptation dinterfaces


La GAR permet dadapter automatiquement les interfaces de sites
Web en fonction de contraintes daffichage. lorigine, les sites Web
taient conus pour tre visualiss sur des crans de diagonale
comprise entre 14 19 pouces et avec une rsolution typique de
800 *600 ou 1 024*768. Aujourdhui, de plus en plus de terminaux
mobiles de taille dcran trs petite (aux alentours de 4 pouces) ont
accs lInternet.

2) Processus:
Le processus de production automatique de rsum peut tre
dcompos en quatre tapes visant rsoudre diffrents problmes

tape 1 : segmentation
Initialement, le contenu de la ou des cibles est dcompos en petites
units dinformations appeles segments. Par exemple, il est courant que
les textes soient segments en phrases. Une vido peut tre segmente
en images ou bien en courtes sous-squences. La segmentation dune
image peut conduire extraire des segments de bas niveau (segments de
droite, polygones) ou de plus haut niveau (objets, personnes).

tape 2 : slection
Une fois la segmentation ralise, les segments les plus importants
sont slectionns en fonction des besoins spcifis par lutilisateur.
Dans le cas dun texte, ces besoins peuvent tre exprims au moyen de
critres statistiques ou linguistiques. Selon les besoins exprims, les
segments slectionns serviront de base la conception dun rsum
de synthse ou dun rsum slectif.

Etape 3 : transformation
La troisime tape du processus de GAR consiste condenser les
informations exprimes dans les segments slectionns par des
transformations. Une transformation peut modifier le contenu dun
segment (intrasegment) ou de plusieurs segments (intersegment).
Les trois principaux oprateurs de transformation sont la suppression,
la construction et la gnralisation.

A lissue de cette tape, les segments slectionns ont t transforms


en de nouveaux segments qui pourront ventuellement avoir t mis
dans un format diffrent de celui de dpart, ce qui pourrait conduire
construire un rsum textuel partir dune image par exemple.

Etape 4 : assemblage
Cette dernire tape vise gnrer le rsum final partir des
segments transforms. Le rsum est form par assemblage des
segments. Diverses rgles peuvent tre utilises pour amliorer la
qualit du rsum. Par exemple, on peut supprimer des segments dont
le contenu est redondant, ou on peut chercher aussi structurer les
segments pour quils prsentent un discours cohrent.

Remarque sur la diffrence entre abstrait et extrait


Dans la littrature existante, la distinction entre abstrait et extrait
nest pas clairement tablie. Gnralement, on considre quun

abstrait possde quelque chose de plus par rapport au document initial


comme par exemple un mot ou une tournure de phrase. Mais un
extrait na-t-il pas prcisment aussi cette caractristique ?

Aprs tout, un extrait possde une structure logique (rhtorique)


diffrente de celle du document initial. On obtient une dfinition plus
nette dun abstrait en considrant la dfinition suivante : un abstrait
est form dau moins un segment initial ayant subi une Transformation.
La transformation et ladaptation de segments ncessitent de
comprendre les informations vhicules dans les segments.

3) Techniques de gnration de rsum pour le texte


La plupart des mthodes actuelles de GAR produisent des extraits
car ceux-ci sont faciles construire et adapter. Le dveloppement
de mthodes de gnration dabstrait est brid par la complexit
des problmes de la comprhension automatique du discours ou de
gnration de langage naturel.

3.1) Gnration dextraits


Les mthodes de gnration dextrait construisent des rsums par
assemblage dlments slectionns.
Segmentation
En gnral, on segmente les textes en phrases ou en passages (un
passage est un groupe constitu dau minimum deux phrases).
Lintrt de cela est dassurer un niveau minimal de cohsion au rsum ;
les phrases sont au moins correctes grammaticalement.
Ainsi, un texte peut tre automatiquement dcoup en cherchant les
positions dans le texte des symboles . .

Remarque:
Le problme de la segmentation de phrase nest pas spcifique au
rsum automatique et il existe un grand nombre de travaux qui
proposent des solutions plus efficaces, notamment en utilisant un
analyseur syntaxique de texte, comme le TreeTagger.

3.1.2 Slection
Pour slectionner les phrases, on cherche les trier en fonction de
leur importance par rapport au texte et une requte spcifie par
un utilisateur. Si lon souhaite construire un rsum gnrique, cette
requte doit reflter le contenu global du texte. Au contraire, si lon
souhaite gnrer un rsum slectif, on utilise cette requte pour
insister sur les concepts et les caractristiques attendues dans le
rsum.

La slection a lieu en deux temps : on commence par reprsenter


chaque segment par un vecteur combinant des caractristiques
statistiques et linguistiques puis on recherche les segments
les plus importants.

3.1.2.1 Caractrisation des segments


Tous les segments sont dcrits au moyen de proprits statistiques et
linguistiques.

Les proprits statistiques :


sont calcules partir des lments de la phrase. Par exemple, on peut
prendre la taille de la phrase ou la valeur TF-IDF
du terme dans la phrase (TF)
(TF-IDF = la(lafrquence
)
frquence du terme dans tout le texte)

Remarque :

Si un terme est prsent dans beaucoup de phrases du document, il


est peu original.
Au contraire, sil est rare, alors sa prsence dans une phrase est
quelque chose doriginal.

Les proprits linguistiques des segments:


sont obtenues partir dheuristiques linguistiques.
Par exemple :
La position de la phrase : gnralement les phrases en tte de
paragraphe sont plus importantes que les autres ;
La prsence de mots du titre : gnralement, les phrases reprenant
les termes du titre sont plus importantes.
La prsence de certains indicateurs linguistiques : par exemple,
une phrase commenant par Cet article traite de ;

3.1.2.2 Slection:
o Il existe principalement deux approches pour dterminer les
phrases les plus importantes en fonction des besoins de lutilisateur.
-La premire approche: consiste effectuer un classement des
phrases par ordre dimportance en fonction dun critre donn.
- La seconde approche vise regrouper les phrases similaires entre
elles, puis slectionner un reprsentant dans chaque groupe
important. Cette seconde approche est surtout utilise pour la
gnration de multirsums.

3.1.2.3 Assemblage
Un extrait est un sous-ensemble des phrases les plus importantes
du document initial dont lordre est obtenu partir dune fonction de
classement. Il se peut que certaines phrases soient plus ou moins
redondantes. Pour viter cela, avant dajouter au rsum une
nouvelle phrase, on peut vrifier non seulement sa pertinence mais
aussi son originalit par rapport celles dj retenues.

Cest lobjet de la mthode de la pertinence marginale maximale


(MMR : maximal marginal relevance) propose par CARBONELL
(J.G.) et GOLDSTEIN (J.)
Cette mthode gnrique calcule la valeur MMR de toute phrase avant
de la slectionner.
La MMR dune phrase sobtient ainsi :

Limites du rsum par extraction


Les mthodes de GAR par extraction ont des limites importantes
quil convient de connatre afin de pouvoir estimer les risques associs
a leur utilisation.
Le principal risque est une perte de temps pour lusager due soit au
manque de clart des extraits, soit lutilisation dune information
errone contenue dans un extrait.

3.1.3 Utilisation pratique:


Copernic Summarizer :
est un logiciel de rsum automatique de documents textuels par
extraction qui se dcline en trois versions linguistiques : le franais, langlais
et lallemand.
Classifier4J

est une librairie Java open source destine la classification de textes.


Elle intgre un outil de rsum automatique de texte facile utiliser.
Open Text Summarizer

est la fois une bibliothque C et un logiciel servant gnrer des


rsums automatiques de textes. Sa version logicielle a la forme dun
outil de commande en ligne.