Vous êtes sur la page 1sur 30

Extraction dinformations

Reprise de slides de T. Poibeau (CNRS et U. Paris 13), de W. Cohen (CMU), de Julien Lemoine (Exalead)

Antoine Rozenknop

6 fvrier 2009 e

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

1 / 29

Sources

Sources des Slides Thierry Poibeau : (CNRS UMR 7030 et Universit Paris13) e Disponible sur http://www-lipn.univ-paris13.fr/ poibeau/laics/ W.Cohen (Carnegie Mellon U.) Disponible sur http://www.cs.cmu.edu/ wcohen/

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

2 / 29

Plan

Les confrences MUC e

Extraction dinformations avec des transducteurs ` tats nis ae

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

3 / 29

Plan

Les confrences MUC e

Extraction dinformations avec des transducteurs ` tats nis ae

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

4 / 29

Les confrences MUC e

Premi`re campagne dvaluation dans le TLN e e Message Understanding Conferences: 7 confrences de 1987 ` 1998 e a Organises par le DARPA et le NOSC (Naval Ocean System Center) e Objectif : mesurer et encourager la recherche dans le traitement automatique de messages (objectif militaire, initialement) valuation rguli`re des avances scientiques e e e e Mode dvaluation ouvert et coopratif (comparaison des rsultats et e e e des technologies) introduction des mesures de rappel/prcision e

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

5 / 29

Les confrences MUC e

Droulement dune valuation MUC e e Un domaine est dabord x par les valuateurs e e
messages de la marine amricaine e rcits dattentats terroristes en Amrique du Sud e e messages concernant les joint-ventures

tape de prparation (annotation des donnes, adaptation des e e e syst`mes) e une tape dvaluation par un syst`me de bo noire (comparaison e e e te automatique des rsultats fournis par les syst`mes avec ceux fournis e e par un expert) une tape dchange entre concepteurs de syst`mes e e e

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

6 / 29

Les confrences MUC e

Bref historique des campagnes MUC MUCK-1, 1987 : messages de US Navy MUCK-2, 1989 : formulaire de dix champs ` remplir, premi`res a e mesures dvaluation e MUC-3: 1991: 18 champs, rcits dattentats terroristes en Amrique e e du Sud, anement des mesures dvaluation e MUC-4: 1992: 24 champs, corpus similaire ` MUC-3 a

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

7 / 29

Les confrences MUC e

Bref historique des campagnes MUC MUC-5: 1993: 47 champs, en anglais et japonais, messages concernant des joint-ventures et de la microlectronique. e
Premi`re tentative damliorer la portabilit (multi-linguisme, e e e multi-domaines)

MUC-6: 1995: messages concernant les changements dans les postes de direction dentreprises ; 4 tches sont dnies : reconnaissance a e dentits nommes, co-rfrence, formulaire des entits, formulaire e e ee e des scnarios. e
dnit des modules gnriques et rutilisables par del` les domaines e e e e a

MUC-7: 1998 : derni`re confrence e e


application des techniques dapprentissage ` lextraction dinformations a

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

8 / 29

Les confrences MUC e

Evolution Recherche dinformations de plus en plus prcises e


de 10 champs ` remplir lors de MUC-2 (1987) ` 47 pour MUC-5 et a a pr`s de 100, structurs en formulaires, pour MUC-6 (1995) e e

Dnition de modules rutilisables gnriques e e e e


Entits nommes e e Analyse de la co-rfrence ee Formulaire dentit e Scnario e

Analyse locale gnralement eectue par un syst`me de e e e e transducteurs appliqus en cascade e Anement des mesures dvaluation e

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

9 / 29

Les confrences MUC e Les scores Rappel/Recall ( = surdit ) e Rappel = R = nb. r e ponses correctes nb. total de r e ponses attendues

Prcision ( = Jeanne dArc ) e Pr e cision = P = F-mesure F mesure = Autres questions en rapport :


correspondances partielles, champs plus ou moins importants, . . .
Antoine Rozenknop () Extraction dinformations 6 fvrier 2009 e 10 / 29

nb. r e ponses correctes nb. de r e ponses trouv e es par le syst`me e ( + 1) P R ( P) + R

Les confrences MUC e

Limitations des syst`mes MUC e Les rsultats semblent avoir atteint un plafond e
la plupart des syst`mes taient bass sur une analyse de surface ` base e e e a de transducteurs ` tats nis. ae

Ladaptation ` un nouveau domaine restait dicile a


La constitution des ressources est coteuse en temps (syst`mes ` base u e a de connaissance) Comment articuler les connaissances gnrales et celles dpendant du e e e domaine Vers des techniques dapprentissage

Extraction dInformation multi-documents ?


Comment traiter une vue dirente, des commentaires, de lannotation e dune information prcdente ? e e

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

11 / 29

Plan

Les confrences MUC e

Extraction dinformations avec des transducteurs ` tats nis ae

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

12 / 29

De la Comprhension de texte ` lEI e a

Principaux probl`mes de la comprhension de texte e e Qualit moyenne (Tacitus: F-mesure de 57 ` MUC3) e a Bonne prcision mais mauvais rappel e Temps de traitement (36 heures pour 100 dpches) e e Dicile ` adapter ` un nouveau domaine a a Syst`mes plus simples e Cibls sur de linformation pertinente e Bass sur des transducteurs ` tats nis e ae Exemple: Passage de Tacitus (Hobbs et al., 1991) vers Fastus (Appelt et al., 1993)

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

13 / 29

Exemple Document Bridgestone Sports Co. said Friday it had set up a joint venture in Taiwan with a local concern and a Japanese trading house to produce golf clubs to be supplied to Japan. The joint venture, Bridgestone Sports Taiwan Co., capitalized at 20 million new Taiwan dollars, will start production in January 1990 with production of 20,000 iron and metal wood clubs a month. Patron ` remplir a Relation: TIE-UP Joint Venture: Bridgestone Sports Taiwan Co. Entits: Bridgestone Sport Co., a local concern, a Japanese e trading house Activit: iron and metal wood clubs e Capital: NT $20000000, Date de cration: During january 1990 e
Antoine Rozenknop () Extraction dinformations 6 fvrier 2009 e 14 / 29

Fastus (Appelt et al., 1993)

Architecture Cascade de transducteurs ` tats nis ae Etapes:


Traitement lexical
reconnaissance des mots complexes

Traitements syntaxiques
reconnaissance des groupes nominaux simples reconnaissance des groupes nominaux complexes

Traitement smantique e
reconnaissance des v`nements du domaine e e

Remplissage du patron dextraction


fusion des informations

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

15 / 29

Fastus (Appelt et al., 1993)

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

16 / 29

1 - Traitement lexical

Reconnaissance des nombres Reconnaissance des noms propres (listes de prnoms, de lieux . . . ) e Reconnaissance des amorces comme M. (pour Monsieur) ou SA (pour Socit anonyme) ee Reconnaissance et normalisation des sigles comme I.B.M ou I.B.M. (avec ou sans point ` la n) a Etiquetage des mots inconnus et des mots commenant par une c majuscule Utilisation dUnitex

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

17 / 29

2 - Traitements syntaxiques : Multi-mots

Entits nommes e e Expressions multi-mots

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

18 / 29

Groupes nominaux simples Principe Bridgestone Sports Co./CompName said/VG Friday/NG it/NG had set up/VG a joint venture/NG in/PREP Taiwain/Location With/Prep a local concern/NG and/Conj a Japanese trading house/NG Identication de groupes (nominaux, verbaux, . . . ) Pas de rsolution des attachements e
Antoine Rozenknop () Extraction dinformations 6 fvrier 2009 e 19 / 29

Exemple de grammaire dextraction (UNITEX)

Figure: Dtection des noms de personnes e

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

20 / 29

Exemple de grammaire avec imbrication (UNITEX)

Figure: Extrait des noms de personnes entrants dans des noms dentreprises ou de lieu

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

21 / 29

application dune grammaire

Principes Les r`gles sappliquent en respectant certaines heuristiques : e Principe du plus long patron (longest match), Une r`gle ne peut plus sappliquer ` lintrieur dune squence e a e e prcdemment reconnue e e Si deux r`gles de mme longueur peuvent sappliquer, lordre e e dapplication des grammaires joue le rle darbitre o

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

22 / 29

Exemple de Transducteur

Figure: Exemple simple de dtection de dbut de phrase e e

Application Apr`s de nombreux essais, la S.N.C.F. gnralisa lusage du T.I.A. en e e e 1942. T.I.A. consiste ` introduire... a

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

23 / 29

Exemple de Transducteur

Figure: Exemple simple de dtection de dbut de phrase e e

Application {S}Apr`s de nombreux essais, la S.N.C.F. gnralisa lusage du T.I.A. en e e e 1942. {S}T.I.A. consiste ` introduire... a

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

24 / 29

Grammaire de dtection de phrases e

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

25 / 29

1-2 bis : Correction dynamique dtiquette e

Amliorations proposes dans Fastus e e Rvision dynamique des tiquettes en fonction dun contexte local (theory e e renement, Mooney 1993, Dejean Coling 2000, Brill, ...) Par dfaut, Washington est un nom de lieu e Dapr`s les contextes Consuela Washington et Mrs. Washington, e retypage en noms de personnes des occurrences isoles. e Bien adapt ` des documents courts (domaine de localit) ea e

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

26 / 29

Groupes nominaux complexes Principe gestion de lapposition, par exemple Arizona senator Barry Goldwater won the Republican nomination, Barry Goldwater est un groupe nominal en apposition de Arizona senator. construction de groupes indiquant une mesure conjonction entre groupes nominaux

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

27 / 29

3 - Traitement smantique e

Extraction dv`nements du domaine e e

Utilisation de patrons du type : [COMPANY][SET-UP][JOINT-VENTURE] with [COMPANY] [COMPANY][SET-UP][JOINT-VENTURE] (others)* with [COMPANY] ...

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

28 / 29

4 - Remplissage des patrons (Fusion des informations)

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

29 / 29

Les confrences MUC e

Performances des syst`mes MUC e R`gles/Automates faits mains : jusqu` 6 mois pour un seul domaine e a (MUC-6) Performances :
Reprage dEntits Nommes : jusqu` 0, 9 de P&R. e e e a Scnario : jusqu` 0, 65 de P&R (accord inter-annotateurs : entre 0, 6 e a et 0, 8 de P&R) Est-ce susant en pratique ?

Portabilit dicile (domaines, langages) e


Approches par apprentissage automatique

Antoine Rozenknop ()

Extraction dinformations

6 fvrier 2009 e

30 / 29