Académique Documents
Professionnel Documents
Culture Documents
Amalia Todirascu
todiras@unistra.fr
Amalia Todirascu 1
Plan
Les chaînes de référence
systèmes à base de contraintes vs
systèmes d'apprentissage automatique
RefGen : un outil de détection
automatique de chaînes de références
propriétés utilisées pour la resolution de
la coréférence
Amalia Todirascu 2
Chaînes de réference
une séquence de plusieurs expressions
réferentielles et anaphores qui
denomment la même entité
expression réferentielle: nom propre,
groupe nominal avec article défini, groupe
nominal avec article demonstratif
anaphore: pronom personnel, pronom
possessif
Amalia Todirascu 3
Exemple
M.Barack Obama a tenu un discours
devant le Congrès sur la reforme de
l'assurance maladie. Le président des
Etats Unis a souligné l'importance qu'il
accorde à cette reforme.
M.Barack Obama = antécédent de Le
président ...
La reforme = antécédent de cette
reforme
Amalia Todirascu 4
Expressions référentielles
introduisent des entités du discours
exprimées par:
des entités nommées
Le président de la République française, l'ONU,
M.Pons
par des groupes nominaux définis ou
indéfinis complets
un chat noir, les experts de la Commission pour
l'environnement
Amalia Todirascu 5
Anaphores
l'entité dont il réfère à été déjà introduite
dans le discours (le président... il ...son)
exprimée par le biais d'un élément antérieur
plusieurs catégories (Kleiber, 1994)
anaphore pronominale
pronoms personnels (il, elle, lui, leur)
pronoms reflexifs (s)
possessifs (son)
Amalia Todirascu 6
Anaphores (II)
Anaphores nominales
fidèle : coréférence directe groupe nominal avec
article demonstratif (Le président ...ce président)
infidèle - différence lexicale
hyperonymes/hyponymes (le chien...cet animal)
synonymes (le changement...la modification)
associative (L'eglise du village...ce clocher)
plurielle (Jean et Marie ...Marie.... Jean ...ils)
Amalia Todirascu 7
Anaphores (III)
anaphore conceptuelle
antécédent = phrase
anaphore = resumé de l'antécédent
Les footballeurs français ont battu les brésiliens.
Cette victoire les a faits champions du monde
anaphore zéro : élement anaphorique
elliptique
Amalia Todirascu 8
Contexte et motivation
regrouper les expressions référentielles qui
indiquent le même référent = identifier les
chaînes de référence
souvent deux élements : chaînes anaphoriques
applications TAL
extraction d'informations
détection de thèmes
resumé automatique
systèmes de questions-réponses
Amalia Todirascu 9
Contexte et motivation
(II)
modèles linguistiques du discours
théorie de l'accessibilité (Ariel, 1990, 1996)
expressions réferentielles peu accessibles : entités
nouvelles introduites dans le discours
expressions accessibles : pronoms reflexifs, personnels
théorie du centrage (Grosz et Sidner)
notion du centre et des transitions
contraintes syntaxiques
pour les pronoms
Amalia Todirascu 10
Contexte et motivation
(III)
rôles des anaphores et de chaînes de
référence dans le discours
marqueurs de cohesion textuelle
(Charolles, 1997)
fonctionnement des chaînes (Schnedecker,
1997)
thème et chaînes de référence (Cornish,
2005)
Amalia Todirascu 11
Plan
Les chaînes de référence
systèmes à base de contraintes vs
systèmes d'apprentissage automatique
RefGen : un outil de détection
automatique de chaînes de références
propriétés utilisées pour la resolution de
la coréférence
Amalia Todirascu 12
Systèmes automatiques
(I)
systèmes à base de règles
français(Hernandez, 2004), (Dupont, 2003)
(Victorri 2005), (Popescu Belis, 1996), (Longo,
Todirascu, 2010)
anglais (Mitkov, 2003), (Bontcheva et al, 2004)
vérification de plusieurs contraintes lexicales,
syntaxiques, sémantiques pour trouver les
affinités entre les possibles antécédents (entités
nommées, groupes nominaux définis)
dépendentes de langue
Amalia Todirascu 13
Systèmes automatiques
(II)
systèmes de classification
systèmes supervisées (Ng et Cardie, 2002) (Yang
et al, 2004) (Weisenbacher & Nazarenko, 2008)
nécessitent des données d'apprentissage de grande taille
(500,000 – 1,000,000 tokens) annotées au niveau de
relations de coréférence et anaphorique
données disponibles pour EN, DE, NL, ES, IT
mais pas pour le français !!!
propriétés:
contraintes lexicales, syntaxiques, sémantiques
la position dans la phrase, la distance entre les candidats
type d'expressions réferentielles (déterminant, nom
commun/nom propre etc.)
Amalia Todirascu 14
Systèmes automatiques
(III)
systèmes non-supervisés (Lang et al, 2009)
(Ailloud, Klenner, 2009) (Bean et Riloff,
2004), BART (Versley et al, 2008)
exploitation des informations morpho-syntaxiques
la position ou la distance
le type d'antécédent
données : corpus étiquétés lemmatisés,
eventuellement annotés syntaxiquement mais pas
besoin d'avoir d'annotation des relations de
coréférence
Amalia Todirascu 15
Problèmes
systèmes à base de règles
nécessite beaucoup d'effort pour construire
les ressources
connaissances complexes : étiquetage,
lemmatisation, analyse syntaxique,
identification des entitées nommées
systèmes de classification
volume important de données
données insuffisantes
Amalia Todirascu 16
Plan
Les chaînes de référence
systèmes à base de contraintes vs
systèmes d'apprentissage automatique
RefGen : un outil de détection
automatique de chaînes de références
propriétés utilisées pour la resolution de
la coréférence
Amalia Todirascu 17
RefGen
Identification automatique de chaînes de
référence pour le français RefGen (Longo et
Todirascu, 2010)
dépendent du genre textuel
ordonner les candidats au premier maillon (théorie de
l'accessibilité (Ariel, 1990))
trouver des pairs antécédent-anaphore
utilisation des filtres (lexicales, syntaxiques, sémantiques)
thèse de L.Longo (RBS)
utilisée pour un système de détection automatique de
thèmes
Amalia Todirascu 18
Architecture RefGen
Annotations
Annotation des
Entités Nommées
(type Org /Pers)
Annotation du
il impersonnel
Amalia Todirascu 19
Outils d'annotation
TTL (Ion, 2007)
Étiquetage selon le jeu d'étiquettes
MULTEXT (Ide & Veronis 2004)
CNP (Longo, Todirascu, 2010)
Groupes nominaux complexes
EN
Entités nommées (Personne, Organisation,
Lieu)
Fonction syntaxique
Amalia Todirascu 20
TTL (Ion, 2007)
étiquetage et lemmatization
jeu d'étiquettes MULTEXT
disponible pour le français, le roumain, l'anglais
service Web (integré dans la plateforme
Weblicht (développé dans le cadre du projet
CLARIN))
format de sortie: Text Corpus Format (TCF) ou
XCES
limité dans la taille du fichier
Amalia Todirascu 21
Groupes nominaux
complexes
Amalia Todirascu 23
"Il" impersonnel
plusieurs patrons proposés pour
identifier les tournures impersonnelles
(stage de Y.Lutz)
verbes et adjectifs météorologiques (il
pleut, il fait beau)
adjectifs (il est nécessaire de...)
verbes (il faut+Vinf, il s'agit de...)
77% de il impersonnels reconnus
correctement
Amalia Todirascu 24
Lemmas,
chunks
Named
Entities
Impersonal
pronoun « il »
Complex
noun phrases
Amalia Todirascu 25
Calcul de la référence
texte sélection du recherche de
configuration
annoté 1er maillon maillons
possibles
Paramètres spécifiques Règles heuristiques pour
au genre textuel la fonction syntaxique liste des
maillons
chaînes contraintes
sélection
de syntaxiques,
d'antécédents sémantiques
référence
calcul de la référence
Morphosyntaxiques
Sémantiques
De proximité
Amalia Todirascu 30
Exemple
Amalia Todirascu 31
Exemple (II)
Amalia Todirascu 32
Evaluation
Annotations CalcRef
pairs reference
NER CNp chains
Amalia Todirascu 33
RefGen
évaluation sur d'autres genres
corpus de référence annoté manuellement
(E.Vallette d'Osia)
format SEMEVAL
système modulaire, extensible
ajout de contraintes sémantiques (ontologies)
peu de connaissances extérieures
utilisation pour une annotation automatique
de corpus – apprentissage automatique
Amalia Todirascu 34
Plan
Les chaînes de référence
systèmes à base de contraintes vs
systèmes d'apprentissage automatique
RefGen : un outil de détection
automatique de chaînes de références
propriétés utilisées pour la resolution de
la coréférence
Amalia Todirascu 35
Quel outil pour la classification?
supervisée vs. semi-supervisée
quelle taille de corpus?
classification spécialisée
en fonction de types d'antécédents
Amalia Todirascu 36
Coréférence comme une
tâche de classification
hypothèse: sur l'ensemble des paires
antécédent-anaphore, appliquer un
algorithme de classification
même chaîne de référence = même classe
chaque paire = caractérisée par plusieurs
propriétés lexicales, syntaxiques,
sémantiques
Amalia Todirascu 37
Corpus disponibles - LiLPa
corpus étiquétés et lemmatisés
catégorie lexicale
informations morpho-syntaxiques
lemme
possibilité d'obtenir d'autres annotations
corpus corrigés manuellement
Journalistiques (500 000 tokens)
Textes de loi (500 000 tokens)
informatique (500 000 tokens)
Amalia Todirascu 38
Corpus disponibles (LiLPa)
<segments>
<seg lang="fr">
<s id="ttlfr.1">
<w lemma="le" chunk="Np#1" ana="Da-fs" coref="1">La</w>
<w lemma="décision" chunk="Np#1" ana="Ncfs" coref="1">décision</w>
<w lemma="aller" chunk="Vp#1" ana="Vmip3s">va</w>
<w lemma="t" ana="U">-t</w>
<w lemma="il" ana="Pp3fs" coref="1">-elle</w>
<w lemma="forcer" ana="Vmn">forcer</w>
<w lemma="Google" chunk="Np#2" ana="Np" ner="NER#1, Org"
coref="2">Google</w>
<w lemma="à" chunk="Vp#2" ana="Spa">à</w>
<w lemma="infléchir" chunk="Vp#2" ana="Vmn">infléchir</w>
<w lemma="son" chunk="Np#3" ana="Ds3fp" coref="2">ses</w>
<w lemma="pratique" chunk="Np#3" ana="Ncfp">pratiques</w>
<c>?</c>
</s>
Amalia Todirascu 39
Annotations
Catégorie lexicale + propriétés morpho-
syntaxiques (attribut “ana”)
Lemme (la forme infinitif du verbe, la forme
masculin singulier)(attribut “lemma”)
Chunks (groupes non-recursifs) (attribut
“chunk”)
Det Nom Adj
Prep Det Nom
Amalia Todirascu 40
Autres annotations
Entités nommées, CNP
Fonctions syntaxiques
Relations sémantiques
Synonymie (French Wordnet)
Hyponymie/Hyperonymie (French WordNet)
Amalia Todirascu 41
Propriétés pour la
classification
Type d'antécédent
Informations morpho-syntaxiques
Position dans la phrase
Fonction syntaxique
autres?
Amalia Todirascu 42
Références
Ailloud, E, Klenner, M (2009) Vers des contraintes plus
linguistiques en résolution d de coréférences, TALN 2009
Cornish, (1998). Les “chaînes topicales” : leur rôle dans la
gestion et la structuration du discours, Cahiers de Grammaire,
23 : 19-40.
Dupont M. (2003) Une approche cognitive du calcul de la
référence, thèse de l’université de Caen, 308 p.
Lang, J. Qin, B., Liu, T., Li, s. (2009) Unsupervised
Coreference Resolution with HyperGraph Partitionning,
Computer and Information Science, Vol 2, no 4.
Longo, L, Todirascu, A (2010) RefGen – un module
d'identification de chaînes de référence, TALN 2010
Amalia Todirascu 43
Références (II)
Grosz B.J., Weinstein S., Joshi A.K. (1995), “Centering: a
framework for modeling the local coherence of discourse”.
Computational Linguistics 21(2), 203-225.
Ng V., Cardie C. (2002). Improving machine learning
approaches to coreference resolution. Actes de ACL
(Association For Computational Linguistics), Morristown,
104-111.
YANG X., SU J., ZHOU G. & TAN C. (2004). An NP-
cluster based approach to coreference resolution.
Proceedings of COLING'04
Amalia Todirascu 44