Vous êtes sur la page 1sur 77

Exploration Contextuelle Systme EXCOM

Brahim Djioua
LaLICC : Paris-Sorbonne/CNRS

HUFS Soul - 29Juin -15 Juillet 2006

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Cadre thorique

Contexte

Contexte
Les applications dans le traitement automatique du langage naturel, comme lextraction et la recherche dinformation ont besoin dun niveau danalyse smantique,c-a-d annoter automatiquement certains segments textuels par des catgorisations discursives (annonce thmatique,citation ...)

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Cadre thorique

Contexte

Contexte
Les applications dans le traitement automatique du langage naturel, comme lextraction et la recherche dinformation ont besoin dun niveau danalyse smantique,c-a-d annoter automatiquement certains segments textuels par des catgorisations discursives (annonce thmatique,citation ...) Notion de point de vue de fouille de textes :
Un utilisateur "extracteur" dinformation dans des textes est guid dans sa lecture par certains passages, des segments textuels (phrases, paragraphes, ...). Hypothse gnrale utilise ici = reproduire ce que fait naturellement un humain en soulignant certains passages (des segments textuels) en relation avec un point de vue de fouille.

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Cadre thorique

Contexte

Contexte
Les applications dans le traitement automatique du langage naturel, comme lextraction et la recherche dinformation ont besoin dun niveau danalyse smantique,c-a-d annoter automatiquement certains segments textuels par des catgorisations discursives (annonce thmatique,citation ...) Notion de point de vue de fouille de textes :
Un utilisateur "extracteur" dinformation dans des textes est guid dans sa lecture par certains passages, des segments textuels (phrases, paragraphes, ...). Hypothse gnrale utilise ici = reproduire ce que fait naturellement un humain en soulignant certains passages (des segments textuels) en relation avec un point de vue de fouille.

Hypothse : les relations smantiques laissent des traces discursives dans les documents textuels.

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Cadre thorique

Contexte

Contexte
Les applications dans le traitement automatique du langage naturel, comme lextraction et la recherche dinformation ont besoin dun niveau danalyse smantique,c-a-d annoter automatiquement certains segments textuels par des catgorisations discursives (annonce thmatique,citation ...) Notion de point de vue de fouille de textes :
Un utilisateur "extracteur" dinformation dans des textes est guid dans sa lecture par certains passages, des segments textuels (phrases, paragraphes, ...). Hypothse gnrale utilise ici = reproduire ce que fait naturellement un humain en soulignant certains passages (des segments textuels) en relation avec un point de vue de fouille.

Hypothse : les relations smantiques laissent des traces discursives dans les documents textuels. EXCOM propose limplmentation de ce processus cognitif dannotation smantique discursif des textes.
HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Cadre thorique

Annotation smantique ?

Quest ce quune "Annotation" ?


Denition Comment est dni le mot annotation Dnitions de dictionnaires :
1

The act or process of furnishing critical commentary or explanatory notes (American Heritage) A comment, usually added to a text The act of adding notes (Wordnet)

2 3

Denition Dans le cadre du Web Smantique, annoter revient : Une ontologie prdnie dun domaine particulier, Un outil dannotation manuelle sous format RDF ou OWL (Annotea, OntoMat, ...) de certains termes et des relations quils entretiennent entre eux en accord avec lontologie prdnie

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Cadre thorique

Annotation smantique ?

Proposition LaLICC

Denition Dans le systme EXCOM, annoter un texte revient rajouter des informations discursives des segments textuels dun document sans le modier.

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Cadre thorique

Annotation smantique ?

EXCOM est bas sur :


Linguistique textuelle discursive (denition, citation, ...) Polysmie verbale et nominale, en relation avec des points de vue de fouille La mthode dexploration contextuelle [Descls,93,97,06] pour lidentication des segments textuels comme porteurs dune smantique discursive Struturation de donnes en plusieurs types de segments (structure physique et metadonnes smantiques) Annotation de relations smantique vs reprsentation de termes Plateforme informatique base sur les technologies XML (XPath/XSLT) ; EXCOM est utilis pour :
Fouille de texte par catgories smantiques Rsum automatique de textes Recherche dinformations smantiques base sur un index gnr par Lucene (http://www.apache.org/lucene)
HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Introduction

Quelques dnitions

Quelques dnitions

Denition EXCOM pour EXploration COntextuelle Multilingue est un programme dannotation automatique de segments textuels par des informations smantiques. Denition EXCOM utilise trois niveaux de reprsentation de rgles dannotation : REGEX pour la reconnaissance de motifs rguliers ; STRUCTURE pour la reconnaissance de structures imbiques ; EC pour reconnatre des segments par Exploration Contextuelle.

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Introduction

Architecture

Architecture gnrale

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Introduction

Sources des documents

Sources de documents

Les documents traits par EXCOM sont de dirents types (HTML, XML, PDF, TXT, ...)

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Introduction

Sources des documents

Sources de documents

Les documents traits par EXCOM sont de dirents types (HTML, XML, PDF, TXT, ...) EXCOM utilise plusieurs sources de donnes :

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Introduction

Sources des documents

Sources de documents

Les documents traits par EXCOM sont de dirents types (HTML, XML, PDF, TXT, ...) EXCOM utilise plusieurs sources de donnes :
Base documentaire ferme ;

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Introduction

Sources des documents

Sources de documents

Les documents traits par EXCOM sont de dirents types (HTML, XML, PDF, TXT, ...) EXCOM utilise plusieurs sources de donnes :
Base documentaire ferme ; Documents en ligne (HTTP) en sappuyant sur Google ;

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Introduction

Sources des documents

Sources de documents

Les documents traits par EXCOM sont de dirents types (HTML, XML, PDF, TXT, ...) EXCOM utilise plusieurs sources de donnes :
Base documentaire ferme ; Documents en ligne (HTTP) en sappuyant sur Google ; Documents en ligne (RSS).

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Introduction

Prtraitements

Prtraitements

Prparation des documents aux autres traitements ;

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Introduction

Prtraitements

Prtraitements

Prparation des documents aux autres traitements ; Nettoyage des documents HTML : html2txt.pl

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Introduction

Prtraitements

Prtraitements

Prparation des documents aux autres traitements ; Nettoyage des documents HTML : html2txt.pl A terme, pouvoir paramtrer le script an de choisir les informations de dpart sur lesquelles lannotation puisse sappuyer ;

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Introduction

Prtraitements

Prtraitements

Prparation des documents aux autres traitements ; Nettoyage des documents HTML : html2txt.pl A terme, pouvoir paramtrer le script an de choisir les informations de dpart sur lesquelles lannotation puisse sappuyer ; Le rsultat de cette opration est un texte brut au format txt.

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Segmentation

Segmentation (Mourad, 2001) (Djioua-2 et al., 2006)

SegATex est un module de prtraitement dEXCOM

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Segmentation

Segmentation (Mourad, 2001) (Djioua-2 et al., 2006)

SegATex est un module de prtraitement dEXCOM Cest toujours le premier module de prtraitement

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Segmentation

Segmentation (Mourad, 2001) (Djioua-2 et al., 2006)

SegATex est un module de prtraitement dEXCOM Cest toujours le premier module de prtraitement SegATex est ncessaire la plate-forme EXCOM

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Segmentation

Segmentation (Mourad, 2001) (Djioua-2 et al., 2006)

SegATex est un module de prtraitement dEXCOM Cest toujours le premier module de prtraitement SegATex est ncessaire la plate-forme EXCOM Il prend en entre un chier texte ou un chier dj structur (segmentation en phrases)

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Segmentation

Segmentation (Mourad, 2001) (Djioua-2 et al., 2006)

SegATex est un module de prtraitement dEXCOM Cest toujours le premier module de prtraitement SegATex est ncessaire la plate-forme EXCOM Il prend en entre un chier texte ou un chier dj structur (segmentation en phrases) Il rend en sortie un chier structur selon la DTD DocBook (www.docbook.org)

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Segmentation

Segmentation (Mourad, 2001) (Djioua-2 et al., 2006)

SegATex est un module de prtraitement dEXCOM Cest toujours le premier module de prtraitement SegATex est ncessaire la plate-forme EXCOM Il prend en entre un chier texte ou un chier dj structur (segmentation en phrases) Il rend en sortie un chier structur selon la DTD DocBook (www.docbook.org) Une partie du document de sortie est un ensemble de mta-donnes sur le document.

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Segmentation

Moteur dannotation smantique

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

Ressources linguistiques

Ressources linguistiques

Les listes dindicateurs et dindices sont stockes dans des chiers texte avec un encodage UTF-8 Les rgles dannotation (EC ou autre) sont stockes dans un chier XML avec un encodage UTF-8 (reglesEXCOM.xml)

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

Gnration des formes

Gnration des formes


Utilisation dune base de donnes en ligne de formes du franais : Morlex

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

Gnration des formes

Programme de conjugaison
Les listes dindicateurs et dindices sont gnres automatiquement par un script en Python paramtrable par :
Liste de verbes linnitif (encodage : ANSI ou ISO-8859-1)

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

Gnration des formes

A lintrieur du systme

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Modles de rgles
EXCOM utilise trois modles de rgles dannotation 1 Rgles de motifs rguliers pour reconnatres des structures de base comme les indicateurs et autres segments.

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Modles de rgles
EXCOM utilise trois modles de rgles dannotation 1 Rgles de motifs rguliers pour reconnatres des structures de base comme les indicateurs et autres segments. 2 Rgles de reconnaissance de structures leves bases sur des structures lmentaires.

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Modles de rgles
EXCOM utilise trois modles de rgles dannotation 1 Rgles de motifs rguliers pour reconnatres des structures de base comme les indicateurs et autres segments. 2 Rgles de reconnaissance de structures leves bases sur des structures lmentaires. 3 Rgles dExploration Contextuelle pour la reconnaissance de relations discursives associes aux segments textuels.

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Modles de rgles
EXCOM utilise trois modles de rgles dannotation 1 Rgles de motifs rguliers pour reconnatres des structures de base comme les indicateurs et autres segments. 2 Rgles de reconnaissance de structures leves bases sur des structures lmentaires. 3 Rgles dExploration Contextuelle pour la reconnaissance de relations discursives associes aux segments textuels. 4 La dclaration dune rgle se fait travers llment XML <regle> qui comporte les attributs gnraux suivants :

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Modles de rgles
EXCOM utilise trois modles de rgles dannotation 1 Rgles de motifs rguliers pour reconnatres des structures de base comme les indicateurs et autres segments. 2 Rgles de reconnaissance de structures leves bases sur des structures lmentaires. 3 Rgles dExploration Contextuelle pour la reconnaissance de relations discursives associes aux segments textuels. 4 La dclaration dune rgle se fait travers llment XML <regle> qui comporte les attributs gnraux suivants :
nom_regle : nom de la rgle (identicateur unique de type ID)

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Modles de rgles
EXCOM utilise trois modles de rgles dannotation 1 Rgles de motifs rguliers pour reconnatres des structures de base comme les indicateurs et autres segments. 2 Rgles de reconnaissance de structures leves bases sur des structures lmentaires. 3 Rgles dExploration Contextuelle pour la reconnaissance de relations discursives associes aux segments textuels. 4 La dclaration dune rgle se fait travers llment XML <regle> qui comporte les attributs gnraux suivants :
nom_regle : nom de la rgle (identicateur unique de type ID) tache : une ou plusieurs tches (spares par une disjonction |)

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Modles de rgles
EXCOM utilise trois modles de rgles dannotation 1 Rgles de motifs rguliers pour reconnatres des structures de base comme les indicateurs et autres segments. 2 Rgles de reconnaissance de structures leves bases sur des structures lmentaires. 3 Rgles dExploration Contextuelle pour la reconnaissance de relations discursives associes aux segments textuels. 4 La dclaration dune rgle se fait travers llment XML <regle> qui comporte les attributs gnraux suivants :
nom_regle : nom de la rgle (identicateur unique de type ID) tache : une ou plusieurs tches (spares par une disjonction |) point_de_vue : un ou plusieurs points de vue (spars par une disjonction |)

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Modles de rgles
EXCOM utilise trois modles de rgles dannotation 1 Rgles de motifs rguliers pour reconnatres des structures de base comme les indicateurs et autres segments. 2 Rgles de reconnaissance de structures leves bases sur des structures lmentaires. 3 Rgles dExploration Contextuelle pour la reconnaissance de relations discursives associes aux segments textuels. 4 La dclaration dune rgle se fait travers llment XML <regle> qui comporte les attributs gnraux suivants :
nom_regle : nom de la rgle (identicateur unique de type ID) tache : une ou plusieurs tches (spares par une disjonction |) point_de_vue : un ou plusieurs points de vue (spars par une disjonction |) type : le type de rgles. Il prend deux valeurs
annotation_simple pour les motifs rguliers et les structures EC pour les rgles dexploration contextuelles.
HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Motifs rguliers
Le langage utilis est celui des expressions rationnelles la Perl 5 standard POSIX Essentiellement deux classes dexpressions rgulires - Expressions Rgulires de Base et Expressions Rgulires tendues. (Bertin et al., 2006)

Example

bibliosemantique == pointdevue == regles Trouv 1 rgle(s) pour cette tche ... Trouv 1 rgle(s) dannotation simple (REGEX + STRUCTURE) ...... Trouv 0 rgle(s) dExploration contextuelle ...... Trouv 0 rgle(s) ngatives pour les indicateurs ...... nbre Regex : 1 HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55 nbre EC : 0

EXCOM

modles de rgles

Rsultats de lexemple

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Rgle de STRUCTURE
Les rgles de type STRUCTURE sont utilises pour reprer des expressions complexes, comme des indicateurs discontinues pour une rgle dexploration contextuelle. Example Il est ... important fondamental signicatif de grande porte de ...

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Exploration Contextuelle

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Rgle dExploration Contextuelle

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Rgle dExploration Contextuelle

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Rgle dExploration Contextuelle

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Indicateurs
Un indicateur nest pas toujours un mot Un indicateur peut est une expression compose discontinue Un indicateur est porteur de la smantique de la relation recherche Il est souvent polysmique, do lutilisation des indices complmentaires Un indicateur peut apparatre dans plusieurs rgles Une rgle peut navoir quun indicateur comme condition de dclenchement Le rsultat de la reconnaissance dun indicateur est le balisage dune expression par llment XML <indicateur> avec les attributs :
regles : lensemble des rgles auxquelles participe cet indicateur regle[optionnel] : la rgle ou les rgles dclenches et qui ont aboutit une annotation cat[optionnel] : lannotation qui a servie comme indicateur est rcupre <indicateur regle="RTRencontre2" regles="RTRencontre2,RTRencontre11">Visite</indicateur>
HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Reconnaissance des indicateurs


Les indicateurs peuvent tre dnis par : une liste de formes de surface <indicateur espace_de_recherche = "phrase" type = "liste" valeur = "IndDescription"/> une annotation (un segment pralablement identi par une rgle REGEX) <indicateur espace_de_recherche="phrase" type="annotation" valeur="RenvBiblio"/> une partie dune annotation pralablement identie <indicateur espace_de_recherche="phrase" type="partie_annotation" valeur="..."/>

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Slection des rgles applicables

La reconnaissance des indicateurs va produire en plus de lannotation dune expression, la gnration dune liste de rgles et une liste de segments candidats lannotation Traitement squentiel des rgles A chaque rgle est(sont) associ(s) zro (indicateur seul), un, deux ou trois indices extension possible : associer chaque rgle un ordre de priorit

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Traitement des indices


Un indice est dclar par lintermdiaire de la balise <indice> avec les attributs :
contexte : lorientation du contexte de recherche par rapport lindicateur (gauche, droit ou indirent=gauche|droit) espace_de_recherche : expression XPath pour lespace de recherche de lindice par rapport lindicateur (contexte de lexpression XPath tant llment indicateur) type : le type des valeurs de lindice (liste, annotation ou partie de lannotation) valeur : valeur de lindice (nom de chier localis un dossier appropri, nom dune annotation)

<indice contexte="gauche" espace_de_recherche="." type="liste" valeur="PriseDePosition"/>

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Traitement des indices les uns aprs les autres et non pas ensemble (produit cartsien des listes dindices) Laction dun indice produit un ensemble de segments candidats pour le prochain indice Laction dun indice pr annote les segments candidats pour la prparation aux tests des autres indices Lordre entre les indices est dni par lattribut optionel de llment <regle> (valeur par dfaut = quelconque) <orde_entre_indice qui prend comme valeur : suite ou quelconque

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Annotation

La partie annotation est dclare dans une partie dans la partie <actions> Elle est dclare travers un lment XML <annotation> avec trois attributs :
type : le type dannotation qui a pour valeur, dans la version actuelle, ajout_attribut qui augmente une structure de segment textuel dun attribut annotation. annotation : la valeur de lattribut <annotation>. Cette valeur est prcde de lespace de nom excom, du nom de la tche et du nom du point de vue espace : lespace dannotation qui est souvent le segment textuel choisi pour lidentication de lindicateur et des indices.

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Excom - Tk

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Example de texte annot

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Un exemple complet 1

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Un exemple complet 2

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Un exemple complet 3

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Un exemple complet 4

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Un exemple complet 5

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Un exemple complet 6

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Un exemple complet 7

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

EXCOM

modles de rgles

Un autre texte annot

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Analyse discursive des textes

Quelques marques dAnnonce Thmatique


{Auteur de larticle} examiner dans ce document ... {Auteur de larticle} detailler dans ce document ... {Auteur de larticle} donner ici ... {Auteur de larticle} tenter [dans ce document] de montrer ... {Cette etude} traiter ... {Auteur de larticle} souhaiter {aborder, prsenter, ...} {dans le document, dans ce paragraphe ...} ... {Auteur de larticle} discuter {dans le document, dans ce paragraphe ...} ... Notre but {dans le document, dans ce paragraphe, dans cet article ...} ... {Auteur de larticle} cherchera ... {Dans le document, Dans ce paragraphe, Dans cet article ...}, {Auteur de larticle} chercher ... {Dans le document, Dans ce paragraphe, Dans cet article ...}, {Auteur de larticle} aller+essayer de ... Dans la presentation, {Auteur de larticle} montrer ... Notre but est dtablir {dans le document} ... HUFS Brahim Djioua (LaLICC :paragraphe} aborder ... Exploration / {Larticle, Ce Paris-Sorbonne/CNRS) Contextuelle Systme EXCOM Soul - 29Juin -15 Juillet 200655

Analyse discursive des textes

Texte autisme

Indicateur en rouge et indices en bleu. tenter ... de montrer essayer ... de dfendre commencer par ... une prsentation tourner vers ... le problme indiquer dans ... documentEnCours expliquer dans ... documentEnCours rester ... considrer Exercice Ecrire les rgles dExploration Contextuelle permettant de reprer les annonces thmatiques dans le texte autisme2.seg

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Analyse discursive des textes

Un exemple avec deux indices

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Analyse discursive des textes

Annotation des connections entre entits

Visite clair de M. Hollande au Forum social de Florence Interview par RTL, France Inter, lm par France 2, ... Il est arriv lheure du djeuner avec ... M. Hollande a commenc par rencontrer le maire ... A 15 h 15, il participe une table ronde sur lEurope ... Un autre rendez-vous l attend : avec Jos Bov ... ...M. Cassen, accompagn de celui qui va lui succder ... M. Hollande ne participera pas, ..., la rencontre des socialistes europens ... Le jeune homme attend larrive Florence du fondateur du courant Nouveau Monde, avec Jean-Luc Mlenchon ...

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Analyse discursive des textes

Annotation multilingue (avec HUFS - South Korea)

EXCOM procde un traitement multilingue en utilisant Unicode comme le format dencodage par dfaut EXCOM utilise le mme moteur dannotation pour plusieurs langues avec la mthode dExploration Contextuelle

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Analyse discursive des textes

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Analyse discursive des textes

Annotation smantique de textes arabes (Alrahabi and al, 2006)

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Analyse discursive des textes

Ressources linguistiques

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Analyse discursive des textes

Le processus dannotation va aussi gnrer deux documents interconnects :


Document des structures physiques identies par la segmenteur SegaTex o certains des segments sont relis des annotations dnies dans lautre document Document des mtadonnes smantiques reprsent par un ensemble dannotations, relies aux segments associs du premier document

On peut associer un segment plusieurs annotations

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Analyse discursive des textes

Double structure

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Analyse discursive des textes

Moteur indexer bas sur Lucene : MOCXE

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Analyse discursive des textes

Moteur de recherche multilingue

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Analyse discursive des textes

MOCXE, semantic search engine

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Analyse discursive des textes

MOCXE, multilingual query

HUFS Soul - 29Juin -15 Juillet 2006 Brahim Djioua (LaLICC : Paris-Sorbonne/CNRS) Exploration Contextuelle Systme EXCOM / 55

Vous aimerez peut-être aussi