Vous êtes sur la page 1sur 44

Chaînes de références

Amalia Todirascu
todiras@unistra.fr

Amalia Todirascu 1
Plan
 Les chaînes de référence
 systèmes à base de contraintes vs
systèmes d'apprentissage automatique
 RefGen : un outil de détection
automatique de chaînes de références
 propriétés utilisées pour la resolution de
la coréférence

Amalia Todirascu 2
Chaînes de réference
 une séquence de plusieurs expressions
réferentielles et anaphores qui
denomment la même entité
 expression réferentielle: nom propre,
groupe nominal avec article défini, groupe
nominal avec article demonstratif
 anaphore: pronom personnel, pronom
possessif

Amalia Todirascu 3
Exemple
 M.Barack Obama a tenu un discours
devant le Congrès sur la reforme de
l'assurance maladie. Le président des
Etats Unis a souligné l'importance qu'il
accorde à cette reforme.
 M.Barack Obama = antécédent de Le
président ...
 La reforme = antécédent de cette
reforme
Amalia Todirascu 4
Expressions référentielles
 introduisent des entités du discours
 exprimées par:
 des entités nommées
 Le président de la République française, l'ONU,
M.Pons
 par des groupes nominaux définis ou
indéfinis complets
 un chat noir, les experts de la Commission pour
l'environnement

Amalia Todirascu 5
Anaphores
 l'entité dont il réfère à été déjà introduite
dans le discours (le président... il ...son)
 exprimée par le biais d'un élément antérieur
 plusieurs catégories (Kleiber, 1994)
 anaphore pronominale
 pronoms personnels (il, elle, lui, leur)
 pronoms reflexifs (s)
 possessifs (son)

Amalia Todirascu 6
Anaphores (II)
 Anaphores nominales
 fidèle : coréférence directe groupe nominal avec
article demonstratif (Le président ...ce président)
 infidèle - différence lexicale
 hyperonymes/hyponymes (le chien...cet animal)
 synonymes (le changement...la modification)
 associative (L'eglise du village...ce clocher)
 plurielle (Jean et Marie ...Marie.... Jean ...ils)

Amalia Todirascu 7
Anaphores (III)
 anaphore conceptuelle
 antécédent = phrase
 anaphore = resumé de l'antécédent
 Les footballeurs français ont battu les brésiliens.
Cette victoire les a faits champions du monde
 anaphore zéro : élement anaphorique
elliptique

Amalia Todirascu 8
Contexte et motivation
 regrouper les expressions référentielles qui
indiquent le même référent = identifier les
chaînes de référence
 souvent deux élements : chaînes anaphoriques
 applications TAL
 extraction d'informations
 détection de thèmes
 resumé automatique
 systèmes de questions-réponses

Amalia Todirascu 9
Contexte et motivation
(II)
 modèles linguistiques du discours
 théorie de l'accessibilité (Ariel, 1990, 1996)
 expressions réferentielles peu accessibles : entités
nouvelles introduites dans le discours
 expressions accessibles : pronoms reflexifs, personnels
 théorie du centrage (Grosz et Sidner)
 notion du centre et des transitions
 contraintes syntaxiques
 pour les pronoms

Amalia Todirascu 10
Contexte et motivation
(III)
 rôles des anaphores et de chaînes de
référence dans le discours
 marqueurs de cohesion textuelle
(Charolles, 1997)
 fonctionnement des chaînes (Schnedecker,
1997)
 thème et chaînes de référence (Cornish,
2005)

Amalia Todirascu 11
Plan
 Les chaînes de référence
 systèmes à base de contraintes vs
systèmes d'apprentissage automatique
 RefGen : un outil de détection
automatique de chaînes de références
 propriétés utilisées pour la resolution de
la coréférence

Amalia Todirascu 12
Systèmes automatiques
(I)
 systèmes à base de règles
 français(Hernandez, 2004), (Dupont, 2003)
(Victorri 2005), (Popescu Belis, 1996), (Longo,
Todirascu, 2010)
 anglais (Mitkov, 2003), (Bontcheva et al, 2004)
 vérification de plusieurs contraintes lexicales,
syntaxiques, sémantiques pour trouver les
affinités entre les possibles antécédents (entités
nommées, groupes nominaux définis)
 dépendentes de langue

Amalia Todirascu 13
Systèmes automatiques
(II)
 systèmes de classification
 systèmes supervisées (Ng et Cardie, 2002) (Yang
et al, 2004) (Weisenbacher & Nazarenko, 2008)
 nécessitent des données d'apprentissage de grande taille
(500,000 – 1,000,000 tokens) annotées au niveau de
relations de coréférence et anaphorique
 données disponibles pour EN, DE, NL, ES, IT
 mais pas pour le français !!!
 propriétés:
 contraintes lexicales, syntaxiques, sémantiques
 la position dans la phrase, la distance entre les candidats
 type d'expressions réferentielles (déterminant, nom
commun/nom propre etc.)

Amalia Todirascu 14
Systèmes automatiques
(III)
 systèmes non-supervisés (Lang et al, 2009)
(Ailloud, Klenner, 2009) (Bean et Riloff,
2004), BART (Versley et al, 2008)
 exploitation des informations morpho-syntaxiques
 la position ou la distance
 le type d'antécédent
 données : corpus étiquétés lemmatisés,
eventuellement annotés syntaxiquement mais pas
besoin d'avoir d'annotation des relations de
coréférence
Amalia Todirascu 15
Problèmes
 systèmes à base de règles
 nécessite beaucoup d'effort pour construire
les ressources
 connaissances complexes : étiquetage,
lemmatisation, analyse syntaxique,
identification des entitées nommées
 systèmes de classification
 volume important de données
 données insuffisantes
Amalia Todirascu 16
Plan
 Les chaînes de référence
 systèmes à base de contraintes vs
systèmes d'apprentissage automatique
 RefGen : un outil de détection
automatique de chaînes de références
 propriétés utilisées pour la resolution de
la coréférence

Amalia Todirascu 17
RefGen
 Identification automatique de chaînes de
référence pour le français RefGen (Longo et
Todirascu, 2010)
 dépendent du genre textuel
 ordonner les candidats au premier maillon (théorie de
l'accessibilité (Ariel, 1990))
 trouver des pairs antécédent-anaphore
 utilisation des filtres (lexicales, syntaxiques, sémantiques)
 thèse de L.Longo (RBS)
 utilisée pour un système de détection automatique de
thèmes

Amalia Todirascu 18
Architecture RefGen
Annotations

Texte étiqueté Annotation des Calcul de la


TTL (Ion, 2007) groupes nominaux référence
complexes (CNp)

Annotation des
Entités Nommées
(type Org /Pers)

Annotation du
il impersonnel

Amalia Todirascu 19
Outils d'annotation
 TTL (Ion, 2007)
 Étiquetage selon le jeu d'étiquettes
MULTEXT (Ide & Veronis 2004)
 CNP (Longo, Todirascu, 2010)
 Groupes nominaux complexes
 EN
 Entités nommées (Personne, Organisation,
Lieu)
 Fonction syntaxique
Amalia Todirascu 20
TTL (Ion, 2007)
 étiquetage et lemmatization
 jeu d'étiquettes MULTEXT
 disponible pour le français, le roumain, l'anglais
 service Web (integré dans la plateforme
Weblicht (développé dans le cadre du projet
CLARIN))
 format de sortie: Text Corpus Format (TCF) ou
XCES
 limité dans la taille du fichier

Amalia Todirascu 21
Groupes nominaux
complexes

 groupes nominaux complexes (plus informatifs)


 groupes nominaux simples avec plusieurs modifieurs: groupes
prépositionnels, relative
 utilise les annotations de TTL
 patrons disponibles pour le français
Amalia Todirascu 22
Entités nommées
 catégories : personnes, organisations,
lieux
 patrons qui utilisent des preuves
externes ou internes

Amalia Todirascu 23
"Il" impersonnel
 plusieurs patrons proposés pour
identifier les tournures impersonnelles
(stage de Y.Lutz)
 verbes et adjectifs météorologiques (il
pleut, il fait beau)
 adjectifs (il est nécessaire de...)
 verbes (il faut+Vinf, il s'agit de...)
 77% de il impersonnels reconnus
correctement

Amalia Todirascu 24
Lemmas,
chunks

Named
Entities

Impersonal
pronoun « il »

Complex
noun phrases

Amalia Todirascu 25
Calcul de la référence
texte sélection du recherche de
configuration
annoté 1er maillon maillons
possibles
Paramètres spécifiques Règles heuristiques pour
au genre textuel la fonction syntaxique liste des
maillons

chaînes contraintes
sélection
de syntaxiques,
d'antécédents sémantiques
référence
calcul de la référence

Comparaison des chaînes identification des


avec annotation manuelle relations anaphoriques

algorithme d’identification des chaînes de référence


Amalia Todirascu 26
Sélection des 1ers maillons
A partir de l’échelle d’Accessibilité d’(Ariel, 1990)
Attribution d’un poids à chaque ER (de 10 à 110) pour chaque critère (inf,
rig, att)
Expression Référentielle Informativité Rigidité Atténuation Accessibilité Globale
Groupe nominal 110 110 10 230
indéfini
Np complet avec 100 100 20 220
modifieur
Np complet 90 90 30 210
Description définie 80 80 40 200
longue
Description définie 70 70 50 190
courte
Nom de famille 60 60 60 180
Prénom 50 50 70 170
Démonstratif 40 40 80 160
Pronom 30 30 90 150
Réfléchi 20 20 100 140
Amalia Todirascu 27
Possessif 10 10 110 120
Sélection des autres maillons
 On détermine les liens de coréférence entre
les candidats d’accessibilité haute et ceux
d’accessibilité basse
 Identification des paires antécédent-anaphore
 dans la distance moyenne spécifique au genre
 liste de contraintes à satisfaire = des filtres pour limiter les
candidats
 Lexicaux

 Morphosyntaxiques

 Sémantiques

 De proximité

 Regroupement des anaphores ayant un référent


commun pour former
Amaliales chaînes de référence
Todirascu 28
Contraintes
 (Gegg-Harrison & Byron, 2004) – Optimisation
theory (Beaver, 2004)
 Paires antécédent-anaphore impossibles
 Pas d'imbrication possible [la soeur [de Marie]]
 Si les éléments sont les arguments du même verbe
(La voiture qu'il a achété...)
 maximum de contraintes
 Lexicales
 Syntaxiques
 sémantiques
Amalia Todirascu 29
Contraintes (II)
 Lexicale
 Reprise du même tête
 Syntaxiques
 Parallèlisme syntaxique
 Sémantique
 Synonymes
 hyponymes

Amalia Todirascu 30
Exemple

Amalia Todirascu 31
Exemple (II)

Amalia Todirascu 32
Evaluation
Annotations CalcRef
pairs reference
NER CNp chains

recall 0,85 0,87 0,69 0,58


precision 0,91 0,91 0,78 0,70
f-measure 0,88 0,89 0,73 0,63

•With newspapers genre parameters:

F-measure 0,70 0,54

Amalia Todirascu 33
RefGen
 évaluation sur d'autres genres
 corpus de référence annoté manuellement
(E.Vallette d'Osia)
 format SEMEVAL
 système modulaire, extensible
 ajout de contraintes sémantiques (ontologies)
 peu de connaissances extérieures
 utilisation pour une annotation automatique
de corpus – apprentissage automatique
Amalia Todirascu 34
Plan
 Les chaînes de référence
 systèmes à base de contraintes vs
systèmes d'apprentissage automatique
 RefGen : un outil de détection
automatique de chaînes de références
 propriétés utilisées pour la resolution de
la coréférence

Amalia Todirascu 35
Quel outil pour la classification?
 supervisée vs. semi-supervisée
 quelle taille de corpus?
 classification spécialisée
 en fonction de types d'antécédents

Amalia Todirascu 36
Coréférence comme une
tâche de classification
 hypothèse: sur l'ensemble des paires
antécédent-anaphore, appliquer un
algorithme de classification
 même chaîne de référence = même classe
 chaque paire = caractérisée par plusieurs
propriétés lexicales, syntaxiques,
sémantiques

Amalia Todirascu 37
Corpus disponibles - LiLPa
 corpus étiquétés et lemmatisés
 catégorie lexicale
 informations morpho-syntaxiques
 lemme
 possibilité d'obtenir d'autres annotations
 corpus corrigés manuellement
 Journalistiques (500 000 tokens)
 Textes de loi (500 000 tokens)
 informatique (500 000 tokens)
Amalia Todirascu 38
Corpus disponibles (LiLPa)
<segments>
<seg lang="fr">
<s id="ttlfr.1">
<w lemma="le" chunk="Np#1" ana="Da-fs" coref="1">La</w>
<w lemma="décision" chunk="Np#1" ana="Ncfs" coref="1">décision</w>
<w lemma="aller" chunk="Vp#1" ana="Vmip3s">va</w>
<w lemma="t" ana="U">-t</w>
<w lemma="il" ana="Pp3fs" coref="1">-elle</w>
<w lemma="forcer" ana="Vmn">forcer</w>
<w lemma="Google" chunk="Np#2" ana="Np" ner="NER#1, Org"
coref="2">Google</w>
<w lemma="à" chunk="Vp#2" ana="Spa">à</w>
<w lemma="infléchir" chunk="Vp#2" ana="Vmn">infléchir</w>
<w lemma="son" chunk="Np#3" ana="Ds3fp" coref="2">ses</w>
<w lemma="pratique" chunk="Np#3" ana="Ncfp">pratiques</w>
<c>?</c>
</s>
Amalia Todirascu 39
Annotations
 Catégorie lexicale + propriétés morpho-
syntaxiques (attribut “ana”)
 Lemme (la forme infinitif du verbe, la forme
masculin singulier)(attribut “lemma”)
 Chunks (groupes non-recursifs) (attribut
“chunk”)
 Det Nom Adj
 Prep Det Nom
Amalia Todirascu 40
Autres annotations
 Entités nommées, CNP
 Fonctions syntaxiques
 Relations sémantiques
 Synonymie (French Wordnet)
 Hyponymie/Hyperonymie (French WordNet)

Amalia Todirascu 41
Propriétés pour la
classification
 Type d'antécédent
 Informations morpho-syntaxiques
 Position dans la phrase
 Fonction syntaxique
 autres?

Amalia Todirascu 42
Références
 Ailloud, E, Klenner, M (2009) Vers des contraintes plus
linguistiques en résolution d de coréférences, TALN 2009
 Cornish, (1998). Les “chaînes topicales” : leur rôle dans la
gestion et la structuration du discours, Cahiers de Grammaire,
23 : 19-40.
 Dupont M. (2003) Une approche cognitive du calcul de la
référence, thèse de l’université de Caen, 308 p.
 Lang, J. Qin, B., Liu, T., Li, s. (2009) Unsupervised
Coreference Resolution with HyperGraph Partitionning,
Computer and Information Science, Vol 2, no 4.
 Longo, L, Todirascu, A (2010) RefGen – un module
d'identification de chaînes de référence, TALN 2010
Amalia Todirascu 43
Références (II)
 Grosz B.J., Weinstein S., Joshi A.K. (1995), “Centering: a
framework for modeling the local coherence of discourse”.
Computational Linguistics 21(2), 203-225.
 Ng V., Cardie C. (2002). Improving machine learning
approaches to coreference resolution. Actes de ACL
(Association For Computational Linguistics), Morristown,
104-111.
 YANG X., SU J., ZHOU G. & TAN C. (2004). An NP-
cluster based approach to coreference resolution.
Proceedings of COLING'04

Amalia Todirascu 44

Vous aimerez peut-être aussi