Vous êtes sur la page 1sur 13

Du texte au portail s

emantique : cas dutilisation li


e`
a
des donn
ees temporelles
Charles Teiss`edre, Delphine Battistelli, Jean-Luc Minel

To cite this version:


Charles Teiss`edre, Delphine Battistelli, Jean-Luc Minel. Du texte au portail semantique : cas
dutilisation lie a` des donnees temporelles. Sylvie DESPRES. IC 2010, Jun 2010, France. Ecole
des Mines dAl`es, pp.209-220. <halshs-00493727>

HAL Id: halshs-00493727


https://halshs.archives-ouvertes.fr/halshs-00493727
Submitted on 23 Jun 2010

HAL is a multi-disciplinary open access


archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.

Larchive ouverte pluridisciplinaire HAL, est


destinee au depot et `a la diffusion de documents
scientifiques de niveau recherche, publies ou non,
emanant des etablissements denseignement et de
recherche francais ou etrangers, des laboratoires
publics ou prives.

Du texte au portail smantique : cas


dutilisation li des donnes temporelles
Communication applique
Charles Teissdre1 2, Delphine Battistelli3, Jean-Luc Minel1
1

MoDyCo UMR 7114, Universit de Paris-Ouest Nanterre La Dfense - CNRS


{charles, teissedre}@gmail.com
{jean-luc, minel}@u-paris10.fr
2
Mondeca - 3, cit Nollez, 75018 Paris
3
Equipe STIH, Universit de Paris-Sorbonne,
{delphine, battistelli}@paris-sorbonne.fr

Rsum : Larticle dcrit une mthode et des ressources pour manipuler des
donnes temporelles, la fois pour un utilisateur final qui souhaite interroger un
portail avec des filtres temporels et, en amont, pour le peuplement dontologies.
Le systme assiste les personnes ayant charge la saisie dinformation dans une
ontologie en leur permettant dexprimer en langage naturel les proprits
temporelles lies laccessibilit dun lieu (dates et horaires douverture). Le
systme projette leur interprtation sur un calendrier ditable, afin de permettre
lutilisateur de contrler lanalyse et si ncessaire dy modifier des
informations. Cette projection du texte sur le calendrier est opre laide dun
module de raisonnement qui calcule en extension les donnes temporelles. Cet
ensemble doutils prpare la mise en uvre, dans un Portail Smantique, de
mcanismes permettant dinterroger un systme de Recherche dInformations
en utilisant des critres temporels.
Mots-cls : Web Smantique, Modlisation et visualisation de connaissances
temporelles, Raisonnement temporel, Annotation linguistique.

Introduction

Si de nombreux travaux envisagent le recours lannotation textuelle afin de


faciliter lalimentation des ontologies, lobjectif dans ce cadre est den faciliter
lindustrialisation pour un cas dutilisation li la temporalit, en ne faisant porter
lanalyse que sur des portions restreintes et bien identifies de la langue et en couplant
lensemble avec des outils de normalisation et de raisonnement permettant un
contrle de linformation saisie. Lobjectif est ainsi de proposer des solutions
dassistance au peuplement dontologies pour les informations concernant les dates et
horaires douverture et de fermeture. Ces tapes prcdent la mise en place dun
portail smantique qui permettra dinterroger les donnes en utilisant des filtres
temporels.

209

IC 2010

Si le Web Smantique tel quil est envisag par (Berners-Lee et al., 01) peut
raison sentendre comme un dispositif qui doit permettre aux machines dassister plus
efficacement les utilisateurs pour laccs aux ressources sur le Web, dans le
mouvement inverse, la puissance dinterrogation quil offre pour les utilisateurs
finaux saccompagnent galement dune difficult croissante pour ceux qui ont
charge de modliser, de maintenir et dalimenter les bases de connaissances au cur
de cette infrastructure. En ce sens, lassistance lalimentation manuelle des bases de
connaissances rpond en partie cette problmatique : en sappuyant sur des
traitements linguistiques, ainsi que sur des processus de raisonnement pour construire
des donnes structures partir du texte libre, il devient possible de faciliter la saisie
dinformations complexes, telles que certaines proprits temporelles.
Dans le cas dtude qui retient notre attention, lobjectif est double. Il sagit, dun
ct, de fournir des outils pour renseigner de faon simple, dans une base de
connaissances, des priodes daccs et, dun autre, doffrir des outils pour les
interroger travers un portail : quand un site touristique, un muse, un restaurant estil ouvert ? Quel jour et quelle heure ont lieu les sances dune pice de thtre ?
Dans ce cadre, la notion daccessibilit recouvre aussi bien laccs un muse, un
restaurant, la programmation dun festival ou de sances de cinma. Dsormais, nous
dsignerons par priode daccessibilit tout nonc renvoyant des proprits
temporelles caractrisant laccessibilit dun lieu. Aujourdhui, la plupart des
magazines ou des sites en ligne dlivrent ces informations sous une forme textuelle :
telles sont les priodes douverture ou de fermeture, tels sont les horaires, tel est le
programme de la salle. Cette prsentation de linformation suffit lorsquun utilisateur
sait o il souhaite se rendre (cest--dire lorsquil veut un complment dinformation
sur un sujet dtermin) ; en revanche, elle rend difficile la rponse une question plus
ouverte du type : je me dplace tel endroit, telle date, quels sont les muses
ouverts le matin, quels sont les films qui vont tre diffuss vers 19h, car il faut alors
consulter les horaires et programmes de chacun des sites, de chacune des salles ou de
chacun des films. Cest au demeurant une des difficults auxquelles sont confronts
les SGBD relationnels et laquelle le Web Smantique peut proposer une rponse
efficace.
Dans un premier mouvement, nous montrons lintrt de sappuyer sur le
traitement des expressions en langage naturel, pour faciliter la fois la saisie et le
stockage, au sein dune base de connaissances, des conditions daccessibilit un site.
Nous dcrivons ensuite la faon dont le systme traite ces expressions en langage
naturel, pour les interprter conformment un modle qui repose sur le formalisme
OWL. Dans la dernire section, nous dcrivons les mcanismes de raisonnement
partir desquels les priodes daccessibilit sont transformes en priodes effectives,
dfinies en extension et transposables sur un calendrier, avant de montrer comment
les diffrents outils dcrits prparent la mise en uvre dun portail, dans lequel un
utilisateur pourra effectuer des recherches avec des filtres temporels.

210

Du texte au portail smantique : cas dutilisation li des donnes temporelles

La temporalit linguistique et le temps calendaire

Permettre une saisie dinformations temporelles en langage naturel vise faciliter


le travail des oprateurs qui soccupent dalimenter manuellement une base de
connaissances. Un des enjeux de la communaut du Web Smantique est de parvenir
exploiter, de la faon la plus automatise possible, la connaissance porte par les
textes, pour la rendre interoprable et manipulable par des agents logiciels, comme le
montrent par exemple (Bontcheva et Cunningham, 03). De nombreux travaux de
recherche sintressent plus spcifiquement lextraction et lannotation
dinformations temporelles dans les textes, notamment les travaux entrepris autour de
TimeML (Pustejovsky et al., 03). Pour ce qui regarde les travaux sur les expressions
calendaires en particulier, le plus souvent, lobjectif poursuivi est de les ancrer sur un
calendrier et de les relier des vnements (Schilder et Habel, 01), (Setzer et
Gaizauskas, 00), (Filatova et al., 01), soit afin dordonner les vnements dcrits par
les textes, soit afin de mettre en uvre des systmes de Question/Rponse (TERQAS,
02). Ces travaux cherchent ainsi ramener les expressions calendaires prsentes dans
les textes un format calendaire norm.
Plutt que de transposer directement les rfrences temporelles prsentes dans les
textes sur un calendrier, il nous a sembl important, pour notre dmarche, de
distinguer, au sein des traitements, les reprsentations temporelles sous jacentes au
calendrier et celles portes par les expressions calendaires qui dfinissent des priodes
daccessibilit. La temporalit linguistique prsente en effet des spcificits qui la
distinguent du temps social au sens de (Benveniste, 74), dont lhistoire a cristallis
progressivement la reprsentation dans la norme du calendrier. La langue - ce en quoi
elle est conome par rapport aux reprsentations temporelles normes du calendrier permet de ne pas avoir dsigner toujours des priodes travers des intervalles de
temps prciss en extension. Les reprsentations calendaires qui se conforment par
exemple la norme iCalendar RFC24451 (un standard utilis notamment par Google
Calendar ou Microsoft Outlook), dfinissent essentiellement des vnements
caractriss par des intervalles de temps. La langue, pour sa part, permet de dsigner
des priodes itratives (les lundis), imprcises (aux alentours de la mi-mars), dfinies
les unes par rapport aux autres (deux jours aprs) ou dfinies par rapport lacte
nonciatif (aujourdhui, demain, ce week-end). Les travaux autour dOWL-Time
(Hobbs et Pan, 04) se sont intresss la modlisation des expressions calendaires
sans les rduire pour autant une reprsentation du temps rive la norme
calendaire : ils dcrivent ainsi la faon dont on peut construire des agrgats temporels,
dfinir des priodes itratives ou encore lier entre elles la dfinition de plusieurs
priodes. Conformment cette dmarche, mais en posant demble lcart entre la
reprsentation norme du calendrier et la reprsentation linguistique des expressions
calendaires, les travaux prsents ici sappuient sur une modlisation linguistique
prsente dans (Battistelli et al., 08) que lon a tendue pour pouvoir rendre compte

http://tools.ietf.org/pdf/rfc2445.pdf

211

IC 2010

de la dfinition de priodes douverture et de fermeture, dont voici plusieurs exemples


rcuprs sur diffrents sites Web :
Ex. 1 : Ouvert du mardi au samedi de 10h 19h et le dimanche de 13h 19h,
sauf les jours fris suivant : 1er jan, dimanche et lundi de Pques, 1er et 8 mai.
Ex. 2 : Ouvert de 10h 4h et le vendredi et samedi de 10h 5h.
Ex. 3 : Horaires : Du lundi au jeudi : 9h 21h30. Vendredi et samedi : de 9h
22h30. Dimanche : de 9h 18h30. Ferm le 1er janvier.
Ex. 4 : Ouvert tous les jours de 10h 19h jusqu dimanche 3 janvier. A partir du
lundi 4 janvier : ouvert le mercredi, samedi et dimanche : 10h-19h ; le vendredi :
14h-19h. Ferm le 1er janvier.
La dcomposition de ces informations ne va pas de soi, car elles sont de nature
diverses : elles peuvent tre composes (a) dintervalles (du 2 fvrier au 13 avril), (b)
dexpressions calendaires itratives (le lundi), ou (c) dexpressions calendaires
absolues (le 1er mai 2009). En outre, il peut y avoir (d) des spcifications pour
prciser, une granularit plus fine ou plus large, une priode daccessibilit (le
dimanche de 13h 19h ou ferm le lundi du 15 mars au 30 septembre) ou encore (e)
des exceptions (ouvert tous les jours sauf le mardi). La mise en uvre de notre
procdure permet des oprateurs de saisir ces informations en langage naturel,
moyennant parfois quelques corrections dont on prcise plus loin la nature. Ce
systme leur vite ainsi le recours des formulaires qui dcoupent linformation en
tiroirs multiples, comme le font gnralement les formulaires destins produire de
nouvelles instances dans une base de connaissances. Lapplication annote les
expressions dfinissant des priodes daccessibilit et projette leur interprtation sur
un calendrier ditable afin que lutilisateur puisse contrler la justesse de cette
interprtation et ventuellement y modifier, ajouter ou corriger les informations,
interagissant ainsi entre le texte et le calendrier. La synchronisation entre les deux
reprsentations, textuelles et iconiques, est maintenue par lapplicatif : une
modification sur le calendrier entrane la modification du texte et inversement.
Du reste, la capacit quoffre la langue de condenser, dans des formules brves,
des priodes dont la dfinition en extension peut tre coteuse en termes de stockage
(dfinitions itratives vs. dfinitions en extension), explique pourquoi la saisie libre
est une bonne alternative aux reprsentations standards et normes du temps
calendaire, pour dfinir les proprits temporelles relatives laccessibilit dun site.
En effet, le systme propos permet de stocker, selon les besoins, ou bien des
priodes dfinies en intension ou bien des intervalles de temps dfinis en extension.
Pour que les moteurs de recherche puisse traiter des requtes contenant des filtres
temporels, telles que muses ouverts ce week-end , les proprits temporelles
gagnent tre stockes sous une forme extensive plus simple indexer et interroger
: pour ce faire, il faut pouvoir calculer lextension dune expression comme ouvert
le lundi de 9h 19h afin dobtenir des informations du type ouvert lundi 13 mars,
de 9h 19h , ouvert lundi 20 mars, de 9h 19h , etc. Ce calcul de lextension des
priodes daccessibilit, qui consiste passer du modle linguistique au modle
212

Du texte au portail smantique : cas dutilisation li des donnes temporelles

calendaire, ne peut pas tre opr la vole, car la procdure affecterait les temps de
rponse. Dans larchitecture logicielle sur laquelle nous nous appuyons, dcrite dans
(Nol et Azmard, 08), la base de connaissances contenant les donnes sur
laccessibilit des sites est couple un moteur de recherche : la saturation des
connaissances (le calcul de lextension temporelle) seffectue au moment de lexport
de la base vers les moteurs de recherche. La base de connaissances, pour sa part, ne
stocke ainsi linformation sur les priodes daccessibilit que sous la forme du modle
linguistique, ce qui permet de ne traiter dans la base quun rseau de taille rduite.

Du texte libre aux donnes structures

3.1

Le modle des priodes daccessibilit

Nous proposons un premier modle linguistique des priodes daccessibilit qui


tient compte de leur spcificit linguistique face la reprsentation norme du
calendrier, tout en tant susceptible de fournir toutes les informations ncessaires pour
la mise en uvre des traitements de raisonnement et de requtage dcrits plus loin.

Fig. 1 Proposition dun modle linguistique des priodes daccessibilit un site

Dans la spcification de ce modle sous sa forme OWL (fig. 1), un Site est ouvert
ou ferm sur une ou plusieurs Priodes dAccessibilit. Les relations de base, de
spcification et dexception (des Object Properties en OWL) lient les Priodes
dAccessibilit aux Expressions Calendaires et Intervalles dExpressions Calendaires
qui les composent. Un Intervalle dExpressions Calendaires est li deux Expressions
Calendaires, dont lune est le dbut, lautre la fin. Une Expression Calendaire (lobjet
au cur du modle) est compose de plusieurs attributs (ou DataType Properties en
OWL), dont les principaux sont les suivants : (i) les grains qui sont susceptibles
dentrer dans la composition dune Expression Calendaire (minute, heure, jour de la
semaine, jour du mois, semaine du mois, semaine de lanne, mois, anne), (ii) les
213

IC 2010

parties du jour ({matin, aprs-midi, soir, nuit}), les parties du mois et de lanne
({dbut, mi, fin}), ainsi quun (iii) label daffichage. Pour une description plus
dtaille de la smantique des expressions calendaires et des ressources pour les
annoter, nous renvoyons aux travaux dcrits dans (Battistelli et al., 08) et (Teissdre
et al., 10).

3.2

Instanciation du modle

Les expressions dfinissant des priodes daccessibilit sont analyses laide


dun ensemble de grammaires locales implmentes1 laide du logiciel Unitex2. La
procdure dannotation conduit une premire interprtation de ces expressions,
prparant linstanciation du modle. Les transducteurs dcrivent la composition
linguistique des priodes daccessibilit et les annotent pour produire, en sortie, un
premier niveau dinterprtation. lissue du processus dannotation, linterprtation
des priodes daccessibilit est encore incomplte : la porte des exceptions ou des
spcifications doit encore tre dtermine et certaines tournures elliptiques demandent
tre dplies. Ainsi, pour que linterprtation dune expression telle que les 7 et 8
janvier soit complte, elle doit tre analyse comme les 7 janvier et 8 janvier .
Cette difficult, lie la coordination, se pose galement au niveau de linterprtation
du statut daccessibilit (ouvert ou ferm) : lalgorithme mis en uvre, qui succde
lannotation, interprte ainsi lexpression ferm en aot et le dimanche comme
ferm en aot et ferm le dimanche . Cette procdure de compltion a galement
charge de fixer la porte des spcifications et exceptions. Pour lexpression ouvert
tous les jours sauf le lundi, de 9h 19h , il faut ainsi que loutil interprte les
horaires (de 9h 19h) comme une spcification qui nest pas lie lexception (sauf
le lundi), mais la priode daccessibilit de rfrence (tous les jours), puisquil
sagit des horaires douverture standard. Pour ce faire, loutil compare la granularit
et la nature des expressions calendaires qui suivent un marqueur dexception : tant
quelles sont de mme granularit et de mme nature ( sauf lundi et mardi ), on
ajoute la dfinition de la priode daccessibilit de nouvelles exceptions. Si la
granularit diffre ( de 9h 19h ), loutil interprte ce changement comme la fin de
la porte de lexception. Cette seconde tape de structuration vient ainsi complter et
achever la structuration partielle produite par le processus dannotation. Il faut noter,
qu ce stade, lanalyse sen tient dlibrment la granularit temporelle de
lexpression saisie ; elle ne cherche pas descendre une granularit plus fine (jour,
mois, anne, heure, par exemple). la fin de ces deux processus, une interprtation
des priodes daccessibilit conforme au modle linguistique est dlivre3.

Les ressources linguistiques exploites dans ces grammaires sont le rsultat de la capitalisation de
plusieurs travaux raliss dans les projets ANR Eiffel et Conique.
2
Unitex: http://www-igm.univ-mlv.fr/unitex
3
Il convient de noter que cette interprtation peut savrer errone dans un contexte socio-culturel donn.
Par exemple ouvert tous les jours doit tre interprt comme ferm le samedi et le dimanche sil sagit
des horaires douverture dune mairie en France (cf. Weiser, 2010).

214

Du texte au portail smantique : cas dutilisation li des donnes temporelles

3.3

Evaluation des ressources pour lanalyse des expressions


saisies en langage naturel

Les expressions saisies par les personnes alimentant la base de connaissances sont
soumises un service Web qui intgre les ressources dcrites et permet dtablir, sur
une priode donne, laccessibilit du site concern. Le modle linguistique est ainsi
instanci aprs lannotation et la phase de compltion ; lextension des priodes
daccessibilit est alors calcule sur un intervalle de temps donn, selon une
granularit qui dpend des besoins, laide de mcanismes de raisonnement dcrits
dans la section suivante. Lensemble des traitements se rpartit ainsi en trois tches
distinctes : (1) lannotation, (2) la compltion des informations pour instancier le
modle et (3) la transposition des priodes daccessibilit dans un format calendaire
norm, selon une granularit paramtrable et dans un intervalle de temps donn.
Les ressources dveloppes pour lannotation et linstanciation du modle (tches
(1) et (2)) couvrent dj un nombre important dexpressions dfinissant des priodes
douverture et de fermeture. Une valuation a t mene sur un corpus fourni par un
utilisateur contenant 400 expressions qui dfinissent des priodes daccessibilit. Le
corpus provient de diffrents sites Web de muses, de restaurants, de cafs ou
dautres sites ddis au tourisme et au loisir. Saisies telles quelles dans le systme, sur
les 400 expressions, 71 ne sont pas compltement ou correctement interprtes par le
systme, qui prsente ainsi un taux de prcision de 82,25%. Dans ce contexte, la
mesure du taux de rappel (qui permet dapprcier la couverture dun systme et sa
capacit reprer les noncs quil vise) ne fait pas vraiment sens, puisque
lutilisateur ne soumet au systme que des priodes daccessibilit : le systme
nanalyse donc pas des textes complets dont il lui faudrait extraire les priodes
daccessibilit. Les difficults auxquelles se heurtent les ressources pour annoter et
instancier le modle, en leur tat actuel, relvent essentiellement de trois catgories :
- (a) le cas de lambigut de certaines expressions, comme visite les mardis,
jeudis et samedis aprs-midi , pour lesquelles les ressources ne livrent quune seule
interprtation : en loccurrence, linterprtation est la suivante ouvert les mardis et
jeudis toute la journe et laprs-midi le samedi , alors quune autre interprtation
tait possible (ouvert laprs-midi, les mardis, jeudis et samedis).
- (b) le cas o des connaissances externes aux textes sont ncessaires pour
linterprter correctement (ferm pendant les vacances scolaires et jours fris).
- (c) le cas dexpressions dont linterprtation sappuie sur des infrences simples
pour un utilisateur mais complexe formaliser et systmatiser. Ainsi des expressions
telles que lundi et mercredi, ouvert ds 8h ou les 24 et 31 dcembre : ouverture
jusqu' 20h. sont dfinies par rapport dautres priodes. Leur interprtation exige
ainsi dtablir un lien avec des horaires standards douverture.
Ces limites du systme ne sont pas pour autant des limites incontournables pour
lutilisateur, dans la mesure o loutil lui donne voir ce quil est parvenu
interprter : cette interprtation lui est restitue sous une forme textuelle normalise et
sous la forme visuelle dun calendrier ditable. Dans le cas o lexpression saisie
215

IC 2010

nest pas correctement interprte, lutilisateur peut ventuellement modifier cette


expression (remplacer, par exemple, les 24 et 31 dcembre : ouverture jusqu'
20h par ouvert les 24 et 31 dcembre, de 8h 22h ). Lexpressivit possible est
ainsi directement fonction de la couverture que sont en mesure de proposer les
processus danalyse linguistique : plus grande est cette couverture, plus la saisie peut
tre naturelle . Pour tenir compte de ces limites, une notice invite les oprateurs
se conformer quelques rgles dcritures simples : en particulier, viter de saisir des
informations qui font intervenir des connaissances que ne possde pas le systme,
comme les dates des vacances scolaires et des jours fris ou viter de dfinir des
priodes par rapport dautres qui prcdent ( ouvert ds 8h le lundi ). Ce quil
importera surtout dvaluer par la suite, cest le retour des utilisateurs et leur capacit
saisir, dans la base de connaissances, les informations quils souhaitent, de faon
simple, rapide et contrlable. En ce sens, une campagne dvaluation mesurant les
retours des oprateurs qui ont charge la saisie dans la base de connaissances a t
entame et livrera ses rsultats dici quelques mois : quel type dnonc est mal
analys ? ces problmes ont-ils pu tre contourns en transformant lexpression
saisie ? les recommandations dusage sont-elles faciles suivre ? y a-t-il des cas o
elles ne suffisent pas pour exprimer une priode daccessibilit ? la procdure de
contrle de linterprtation est-elle simple ?, etc.

Du raisonnement temporel linterrogation dans un


portail smantique

Les traitements dcrits visent enrichir un portail dit smantique , au sens o


les utilisateurs finaux peuvent interroger les donnes en croisant diffrentes facettes
(type dobjets cherchs dans une taxonomie) et diffrents filtres (temporel,
gographique). Lobjectif en loccurrence est doffrir lutilisateur final la possibilit
deffectuer des recherches avec des filtres temporels : muses ouverts Venise le
week-end du 1er mai , restaurants ouverts le dimanche aprs 22h Toulouse .
Dans le mme ordre dide, une application mobile pourrait par exemple fournir tous
les sites ouverts proximit du lieu o se trouve lutilisateur. Pour cela, des
mcanismes de raisonnement et dinterrogation sont mis en uvre, afin de passer du
modle linguistique au modle calendaire et de sappuyer sur le modle calendaire
pour construire des index.

4.1

Raisonnement temporel

Les mcanismes de raisonnement implments permettent de calculer lextension


temporelle des priodes daccessibilit. Le raisonneur transforme ainsi les instances
du modle linguistique en un ensemble dintervalles de temps auxquels un statut
daccessibilit est attribu. Par exemple, si lon souhaite connatre laccessibilit dun
site une granularit du niveau des horaires sur la priode du 19 avril 2010 au 19 mai
2010, pour une expression telle que Ouvert tous les jours, sauf le mardi, de 8h
17h. Nocturne le jeudi jusqu 20h. , le raisonneur produit en sortie une liste
216

Du texte au portail smantique : cas dutilisation li des donnes temporelles

dintervalles de temps : ouvert le lundi 19 avril 2010 de 8h 17h , ferm le 20


avril 2010 , , ouvert le lundi 3 mai 2010 de 8h 17h , etc. La discrtisation des
priodes daccessibilit - ce qui correspond au passage du modle linguistique au
modle calendaire - est paramtrable et peut soprer, selon les besoins, une
granularit plus ou moins fine. Laffichage sur un calendrier exige que le calcul de
lextension temporelle soit fait une granularit de lordre du jour ou des horaires1.
Au fil de lanalyse, lalgorithme attribue des statuts douverture aux priodes
rsolues en extension. Les statuts attribus sont soit dfinitifs ( ouvert , ferm ,
conflit ), soit provisoires ( prsum ouvert , prsum ferm , non
renseign ). Le statut conflit est attribu lorsque des informations contradictoires
apparaissent. Si le statut daccessibilit, sur une priode donne, est prsum
ferm un stade du traitement, il pourra, par la suite, tre modifi en ouvert si
un traitement ultrieur parvient cette conclusion ; en revanche, si le statut ferm
est attribu, les traitements ne pourront plus le modifier ultrieurement en ouvert :
dans ce cas, le statut conflit est attribu. lissue des traitements, si aucune
information na modifi les statuts provisoires prsum ouvert ou prsum
ferm , ces derniers sont transforms en ouvert et ferm . Les mcanismes de
raisonnement qui permettent de passer des instances du modle linguistique leur
transposition en un format calendaire norm se heurtent essentiellement deux
difficults :
- (a) comme pour linstanciation du modle linguistique partir des annotations,
linterprtation de certaines expressions sappuie sur des infrences quun utilisateur
opre sans difficult, mais quil est en revanche difficile de formaliser. Le raisonneur
peut ainsi considrer tort certaines informations comme tant contradictoires. Ainsi,
pour une expression telle que Ouvert du lundi au samedi, de 8h 19h. Ferm le
mardi. , le systme attribuera le statut conflit pour lensemble des mardis
considrs, car selon la premire partie de lexpression, les mardis semblent ouverts,
alors que la seconde partie de lexpression prcise quils sont ferms. Un utilisateur
comprend trs bien que la dernire information prvaut sur les prcdentes. De mme,
pour tre transpose sur un calendrier, lexpression ouvert le dimanche de 19h 2h
du matin demande ce que loutil infre que le site est ouvert le dimanche de 19h
minuit et le lundi de minuit 2h. Diffrentes infrences de ce type ont t
implmentes (le dernier exemple est trait), mais il est difficile de les couvrir toutes,
la langue permettant un grand nombre de variations dans lexpression des priodes
daccessibilit.
- (b) le raisonneur doit interprter des expressions contenant des donnes
symboliques qui nont pas dquivalent fixe dans la norme calendaire. Des
expressions comme fin novembre et dimanche soir renvoient ainsi au
problme de la transposition de donnes symboliques vers des donnes normalises.
Comme lont soulign (Fortin & al., 09), linterprtation de ces donnes symboliques
varient selon le type dobjet : louverture le soir, par exemple, pour un supermarch et
1
Notre dmarche permettrait, dans un autre contexte dutilisation, de connatre par exemple tous les sites
qui sont ouverts (ou partiellement ouverts) pendant le mois daot : dans ce cas, le calcul de lextension
temporelle naurait pas besoin de descendre une granularit plus fine que le mois.

217

IC 2010

un bar, ne sinterprte pas ncessairement de la mme manire. Le systme permet de


paramtrer les rgles de transformation dun modle lautre pour les donnes
symboliques. Ainsi, les expressions annotes comme Partie De Jour (matin, aprsmidi, soir, nuit), sont traduites en horaires effectifs, mais limprcision est alors
marque par un drapeau, qui signale quil sagit dhoraires indicatifs.
Une fois les informations temporelles calcules en extension pour une priode
donne, il devient possible de les prsenter sur un calendrier ou un agenda. La fig. 2
montre ainsi les jours douverture et de fermeture dun site pour la semaine du 26
avril au 2 mai si lon soumet la prcdente expression donne en exemple.

Fig. 2 Visualisation de laccessibilit dun site sur un calendrier pour lexpression


Ouvert tous les jours, sauf le mardi, de 8h 17h. Nocturne le jeudi jusqu 20h.

Le calendrier o sont projets les rsultats de lanalyse est ditable : un utilisateur


peut ainsi y modifier un horaire ou y ajouter un jour douverture ou de fermeture. Le
texte saisi est alors automatiquement mis jour. Un utilisateur peut ainsi, travers le
calendrier, prciser que le samedi 1er mai est un jour de fermeture. La phrase suivante
Ferm samedi 1 mai 2010. est ainsi gnre et ajoute au texte. Pour que le texte
et les informations dites sur le calendrier soient synchroniss, un module permet de
retrouver, dans les instances du modle linguistique, celle ventuellement impacte
par la modification. Sa modification entrane alors en retour la gnration dun
nouveau texte. Lutilisateur peut ainsi jongler entre deux manires de dfinir des
priodes daccessibilit, qui chacune renvoie un modle qui lui est propre : le texte
et le calendrier. Les informations ajoutes directement sur le calendrier sont toujours
218

Du texte au portail smantique : cas dutilisation li des donnes temporelles

des informations extensives : on ne peut pas prciser via le calendrier que le 1er mai
est ferm chaque anne ; pour cela, il faut modifier directement le texte ( Ferm le
1er mai ). Aprs la saisie, les donnes sont stockes sous la forme du modle
linguistique prsent plus haut. Lors de lexport vers les moteurs de recherche pour
indexation, le module de raisonnement calcule leur extension sur lanne venir.

4.2

Interrogation dans un portail smantique et filtres temporels

Au niveau du requtage des donnes, deux grandes classes de recherches lies


des critres temporels sont envisages : (1) une requte portant sur un objet cibl (par
exemple, le muse du Louvre) dont on souhaite voir les priodes o il est accessible
(il sagit donc dun complment dinformation sur laccessibilit dun objet qui
intresse lutilisateur) et (2) une requte ouverte avec filtres temporels portant sur un
objet cibl ou un type dobjet (par exemple les muses ou les restaurants).
Dans le premier cas, le plus simple, lorsque lutilisateur est centr sur un objet de
la base (un restaurant R, un muse M), le portail peut alors lui proposer de visualiser
les priodes daccessibilit sous forme textuelle (ce qui est fait classiquement) ou bien
sous la forme graphique dun calendrier ou dun agenda, permettant la visualisation
des horaires et jour douverture pour une semaine donne. Lide est surtout de
permettre aux prestataires de modifier en ligne, quand ncessaire, leurs priodes
douverture et de fermeture. Pour le second type de recherche, la requte porte sur un
objet ou un type dobjet et est croise avec un filtre temporel (ou la conjonction de
filtres temporels et spatiaux) : festival de jazz dans lIndre en mai , supermarchs
ouverts le dimanche matin Strasbourg . Les filtres temporels ont pour but de ne
renvoyer, dans la liste des rsultats du moteur de recherche, que les objets
accessibles lintrieur de la priode dinterrogation. Selon la nature des objets
viss par la requte de lutilisateur, il faut renvoyer tous les rsultats dont la priode
daccessibilit recoupe celle du filtre (pour un festival ou une exposition, par
exemple) ou ne renvoyer que les rsultats qui sont accessibles tout au long de la
priode vise (on souhaite en effet dabord voir les htels disponibles sur toute la
priode de notre dplacement).

4.3

Perspectives

Les diffrents traitements dcrits serviront de brique dans un portail smantique


pour pouvoir proposer lajout de filtres temporels dans les requtes. Dans
larchitecture retenue et prcite (Nol et Azmard, 08), qui couple la base de
connaissances avec un moteur de recherche, les informations temporelles calcules en
extension seront exportes en direction du moteur pour tre indexes. La
problmatique rsoudre devient alors surtout, pour les moteurs de recherche, de
reprer dans les requtes les filtres temporels et darrter un comportement cohrent
dans lordonnancement des rsultats proposs. Le comportement normal attendu
dans le portail veut quon ne renvoie lutilisateur que les sites accessibles sur la
priode de la requte. Mais ce comportement doit tre modul, lorsque les
219

IC 2010

informations temporelles sont issues de la transposition de donnes symboliques


(matin, fin novembre) vers des donnes calendaires. On peut ainsi envisager de
pondrer lordonnancement des rsultats. Le moteur de recherche renverrait en tte de
liste les rsultats assurs, et en fin de liste, les rsultats dont le statut daccessibilit
est moins certain, en suggrant ventuellement lutilisateur cette incertitude
(horaires indicatifs, informations vrifier auprs du prestataire, etc.).

Rfrences
BATTISTELLI D., COUTO J., MINEL J-L. & SCHWER S. (2008). Representing and Visualizing
calendar expressions in texts. In ACTES STEP08. Venise.
BENVENISTE E. (1974). Problmes de linguistique gnrale (Tome 2). In GALLIMARD. Paris.
BERNERS-LEE T., HENDLER J. & LASILLA O. (2001). The Semantic Web. In SCIENTIFIC
AMERICAN, May 2001.
BONTCHEVA K. & CUNNINGHAM H. (2003). The Semantic Web: A New Opportunity and
Challenge for Human Language Technology. In PROCEEDINGS OF THE SECOND
INTERNATIONAL SEMANTIC WEB CONFERENCE, Workshop on Human Language Technology
for The Semantic Web and Web Services. 20-23 October 2003. p. 89-96. Florida.
FILATOVA E., HOVY E. (2001). Assigning Time-Stamps to Event-Clauses. In ACTES DE
WORKSHOP ON TEMPORAL AND SPATIAL INFORMATION PROCESSING, ACL2001, p. 88-95.
FORTIN J., CARLONI O., LECLERE M. & WEISER S. (2009). Extraction et exploitation de donnes
temporelles pour un portail de-tourisme. In EGC09. Fouille de Donnes Temporelles
Analyse de Flux de Donnes. Strasbourg.
HOBBS J. R. & PAN F. (2004). An Ontology of Time for the Semantic Web. In ACM
TRANSACTIONS ON ASIAN LANGUAGE PROCESSING (TALIP). Special issue on Temporal
Information Processing, Vol. 3, No. 1, March 2004, p. 66-85.
NOL L. & AZMARD G. (2008). From semantic web data to inform-action: a means to an end.
In PROCEEDINGS OF THE SEMANTIC WEB USER INTERACTION WORKSHOP, at CHI08 Exploring HCI Challenges. Florence.
PUSTEJOVSKY J., CASTANO J., INGRIA R. , SAURI R., GAIZAUSKAS R., SETZER A. & KATZ G.
(2003). TimeML: Robust Specification of Event and Temporal Expressions in Text. In
ACTES DE IWCS-5, Fifth International Workshop on Computational Semantics.
SCHILDER F. & HABEL C. (2001). From Temporal Expressions to Temporal Information:
Semantic Tagging of News Messages. In ACTES DE ACL01, Workshop on temporal and
spatial information processing, p. 65 -72.
SETZER A., GAIZAUSKAS R. (2000). Annotating Events and Temporal Information in Newswire
Texts. In ACTES DE 2E LREC. p. 64-66.
TEISSEDRE, C., BATTISTELLI, D., MINEL, J-L. (2010). Resources for Calendar Expressions
Semantic Tagging and Temporal Navigation through Texts, In 7th international conference
on Language Resources and Evaluation (LREC), 19-21 May 2010, Valletta, Malta, accept.
WEISER, S. ( paraitre). Reprage et typage dunits temporelles pour la construction dune
plate-forme dannotation smantique automatique de pages Web. Thse de doctorat,
Universit Paris Ouest Nanterre La Dfense.

220