Vous êtes sur la page 1sur 45

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Base de Franais Mdival Nouveau Corpus dAmsterdam Syntactic Reference Corpus of Medieval French
Nicolas Mazziotta
Universit de Lige/Universitt Stuttgart, ILR

COST Workshop, Cracovie, 25-26 avril 2013

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Plan

Introduction Plan Spcicits de lancien franais Base de Franais Mdival Nouveau Corpus dAmsterdam Syntactic Reference Corpus of Medieval French

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Spcicits de lancien franais


Exemple
Des lors te toli li anemis la veue Ds lors toi prit le Diable (sujet) la vue (objet) Ds cet instant, le Diable ta dpouill de ta vue (Queste 190a, 1)

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Spcicits de lancien franais


Exemple
Des lors te toli li anemis la veue Ds lors toi prit le Diable (sujet) la vue (objet) Ds cet instant, le Diable ta dpouill de ta vue (Queste 190a, 1)

Principales caractristiques
Anctre du franais (en simpliant) Ordre des mots exprime informations nonciatives plutt que syntaxiques Moins synthtique que le latin (vue classique) Morphologie nominale pauvre et peu able

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Introduction Plan Spcicits de lancien franais Base de Franais Mdival Prsentation gnrale Format
Mtadonnes Textes

Prsentation de linterface web Nouveau Corpus dAmsterdam Prsentation gnrale Format


Mtadonnes Textes

Prsentation de linterface web Syntactic Reference Corpus of Medieval French Prsentation gnrale Modle syntaxique dpendanciel Connexions

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Prsentation gnrale
cole Normale Suprieure Lyon Laboratoire ICAR UMR5191 ENS LSH / CNRS
Base cre par Christiane Marchello-Nizia (dir. actuelle : Cline Guillot) Serge Heiden, Alexei Lavrentiev, Sophie Prvost

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Prsentation gnrale
cole Normale Suprieure Lyon Laboratoire ICAR UMR5191 ENS LSH / CNRS
Base cre par Christiane Marchello-Nizia (dir. actuelle : Cline Guillot) Serge Heiden, Alexei Lavrentiev, Sophie Prvost

tendue
3.3 mill. occurrences-mots de 842 1467 Domain dol, genres varis, prose/vers

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Prsentation gnrale
cole Normale Suprieure Lyon Laboratoire ICAR UMR5191 ENS LSH / CNRS
Base cre par Christiane Marchello-Nizia (dir. actuelle : Cline Guillot) Serge Heiden, Alexei Lavrentiev, Sophie Prvost

tendue
3.3 mill. occurrences-mots de 842 1467 Domain dol, genres varis, prose/vers

Annotations
Mtadonnes fournies CATTEX Discours cit (en cours)

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Format : Mtadonnes
<profileDesc> <creation> <name type="author">anonyme</name> <title>Queste del saint Graal</title> <date type="compo" when="1220-01-01" n="13">vers 1220</date> <date type="compo_periode">ancien</date> <date type="compo_sous_siecle" n="13_1">dbut</date> <region type="dialecte_auteur">non_defini</region> </creation> <langUsage> <language ident="fr" usage="100">. . .</language> </langUsage> <textDesc n="roman"> <channel mode="w">manuscript</channel> <constitution type="single"/> <derivation type="original"/> <domain type="litteraire"/> . . . <purpose type="narrative"/> </textDesc>

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Format : Textes
<p n="1"> <lb n="1"/> <s n="1" xml:id="s_fro_1"> <supplied resp="cmn" source="#ms_Z" reason="arrach"> <w type="PRE" xml:id="w_fro_000001">A</w> <w type="DETdef" xml:id="w_fro_000002">la</w> <w type="NOMcom" xml:id="w_fro_000003">veille</w> <w type="PRE" xml:id="w_fro_000004">de</w> <w type="DETdef" xml:id="w_fro_000005">la</w> <w type="NOMpro" xml:id="w_fro_000006">Pentecoste</w> <lb n="2"/> <w type="CONsub" xml:id="w_fro_000007">quant</w> <w type="DETdef" xml:id="w_fro_000008">li</w> <w type="NOMcom" xml:id="w_fro_000009">compaignon</w> <w type="PRE" xml:id="w_fro_000010">de</w> <w type="DETdef" xml:id="w_fro_000011">la</w> <w type="NOMcom" xml:id="w_fro_000012">table</w> <w type="ADJqua" xml:id="w_fro_000013">reonde</w>

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Prsentation de linterface web

Fonctionnalits
Concordances (mots, parties du discours) Recherche syntaxique (donnes SRCMF) GUI en ligne TXM (ANR Textomtrie)

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Accueil

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Menu contextuel (slection du corpus et des actions)

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Concordance

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Recherche syntaxique

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Plusieurs couches dannotation

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Introduction Plan Spcicits de lancien franais Base de Franais Mdival Prsentation gnrale Format
Mtadonnes Textes

Prsentation de linterface web Nouveau Corpus dAmsterdam Prsentation gnrale Format


Mtadonnes Textes

Prsentation de linterface web Syntactic Reference Corpus of Medieval French Prsentation gnrale Modle syntaxique dpendanciel Connexions

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Prsentation gnrale
Universitt Stuttgart
Crateur : Antonijn Dees et Piet Van Reenen Enrichi par Achim Stein (dir. actuel), Pierre Kuntsmann and Martin-Dietrich Glegen

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Prsentation gnrale
Universitt Stuttgart
Crateur : Antonijn Dees et Piet Van Reenen Enrichi par Achim Stein (dir. actuel), Pierre Kuntsmann and Martin-Dietrich Glegen

tendue
ca 3 millions de mots 11th-14th C. Domaine dol Principalement littraire Quelques manuscrits

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Prsentation gnrale
Universitt Stuttgart
Crateur : Antonijn Dees et Piet Van Reenen Enrichi par Achim Stein (dir. actuel), Pierre Kuntsmann and Martin-Dietrich Glegen

tendue
ca 3 millions de mots 11th-14th C. Domaine dol Principalement littraire Quelques manuscrits

Annotations
POS Dees POS TreeTagger

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Format : Mtadonnes
<subcorpus id="abe" deaf="JMeunAbC*" . . . manuscritDees="Paris, Bibl. Nat., fr. 920" regionDees="Rgion parisienne" coefficientRegionDees="84 (Rgion parisienne)" dateMoyenneDees="1325*" . . . vers="non" ponctuation="non" mots="18183" passage="intgral" commentairePhilologique="ms. Paris, BN fr. 920" qualite="ms3" sourceQualite="XG (d.)" commentaireForme="243 ff." auteur="Jean de Meun" dateComposition="1280ca" dateManuscrit="1395ca" . . .>

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Format : Textes
(simpli)

<s line="178"> <word pos="PREDET:a:obj:masc:sg" taggerpos="PREDET:a" lemma="a <word pos="NOM:obj:masc:sg" taggerpos="NOM" lemma="jor">jor</w <word pos="PRE" taggerpos="PRE" lemma="de" >de</word> <word pos="NOM:obj:femi:sg" taggerpos="NOM" lemma="pentecoste" <word pos="PROCON" taggerpos="PROCON" lemma="ni" >ne</word> </s> <s line="179"> <word pos="PREDET:a:obj:femi:pl" taggerpos="PREDET:a" lemma="a <word pos="NOM:obj:femi:pl" taggerpos="NOM" lemma="fait2|feste <word pos="ADV" taggerpos="ADV" lemma="plus" >plus</word> <word pos="ADJ:obj:femi:pl" taggerpos="ADJ" lemma="haut" >haut </s>

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Prsentation de linterface web

Fonctionnalits
Concordances (mots, parties du discours) GUI en ligne TWIC TigerSearch

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Accueil

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Requte

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Rfrence

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Concordance

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Introduction Plan Spcicits de lancien franais Base de Franais Mdival Prsentation gnrale Format
Mtadonnes Textes

Prsentation de linterface web Nouveau Corpus dAmsterdam Prsentation gnrale Format


Mtadonnes Textes

Prsentation de linterface web Syntactic Reference Corpus of Medieval French Prsentation gnrale Modle syntaxique dpendanciel Connexions

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Prsentation gnrale
Corpus de base
Enrichissement de la BFM et du NCA

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Prsentation gnrale
Corpus de base
Enrichissement de la BFM et du NCA

Enrichissements antrieurs

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Prsentation gnrale
Corpus de base
Enrichissement de la BFM et du NCA

Enrichissements antrieurs
Ressources similaires mais pas identiques
Descripteurs bibliographiques (titre, auteur, diteur, etc). Mtadonnes spciques aux textes mdivaux (date de composition, du manuscrit, lieu de rdaction, etc.) annotations morphosyntaxiques (POS) des occurrences-mots.

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Prsentation gnrale
Corpus de base
Enrichissement de la BFM et du NCA

Enrichissements antrieurs
Ressources similaires mais pas identiques
Descripteurs bibliographiques (titre, auteur, diteur, etc). Mtadonnes spciques aux textes mdivaux (date de composition, du manuscrit, lieu de rdaction, etc.) annotations morphosyntaxiques (POS) des occurrences-mots.

Ressources spciques
NCA : lemmatisation automatique (TreeTagger) BFM : discours direct en cours

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Prsentation gnrale
Corpus de base
Enrichissement de la BFM et du NCA

Enrichissements antrieurs
Ressources similaires mais pas identiques
Descripteurs bibliographiques (titre, auteur, diteur, etc). Mtadonnes spciques aux textes mdivaux (date de composition, du manuscrit, lieu de rdaction, etc.) annotations morphosyntaxiques (POS) des occurrences-mots.

Ressources spciques
NCA : lemmatisation automatique (TreeTagger) BFM : discours direct en cours

Annotation commune

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Prsentation gnrale
Corpus de base
Enrichissement de la BFM et du NCA

Enrichissements antrieurs
Ressources similaires mais pas identiques
Descripteurs bibliographiques (titre, auteur, diteur, etc). Mtadonnes spciques aux textes mdivaux (date de composition, du manuscrit, lieu de rdaction, etc.) annotations morphosyntaxiques (POS) des occurrences-mots.

Ressources spciques
NCA : lemmatisation automatique (TreeTagger) BFM : discours direct en cours

Annotation commune
annotation syntaxique sajoute aux informations prsentes

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Prsentation gnrale
Corpus de base
Enrichissement de la BFM et du NCA

Enrichissements antrieurs
Ressources similaires mais pas identiques
Descripteurs bibliographiques (titre, auteur, diteur, etc). Mtadonnes spciques aux textes mdivaux (date de composition, du manuscrit, lieu de rdaction, etc.) annotations morphosyntaxiques (POS) des occurrences-mots.

Ressources spciques
NCA : lemmatisation automatique (TreeTagger) BFM : discours direct en cours

Annotation commune
annotation syntaxique sajoute aux informations prsentes dmarche unie (= idiosyncrasie)

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Prsentation gnrale
Corpus de base
Enrichissement de la BFM et du NCA

Enrichissements antrieurs
Ressources similaires mais pas identiques
Descripteurs bibliographiques (titre, auteur, diteur, etc). Mtadonnes spciques aux textes mdivaux (date de composition, du manuscrit, lieu de rdaction, etc.) annotations morphosyntaxiques (POS) des occurrences-mots.

Ressources spciques
NCA : lemmatisation automatique (TreeTagger) BFM : discours direct en cours

Annotation commune
annotation syntaxique sajoute aux informations prsentes dmarche unie (= idiosyncrasie) Note : impossible projeter automatiquement annotations syntaxiques dun corpus lautre

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Modle syntaxique dpendanciel


toli
PL CM
CIR C

OB

SU J

lors
MOD

te

anemis
MOD

veue
MOD

des

li

la

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Modle syntaxique dpendanciel


toli
PL CM
CIR C

OB

SU J

lors
MOD

te

anemis
MOD

veue
MOD

des

li

la

Classes de dpendants pour lafr.


Relation tiquete du nom de la fonction reprsente

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Modle syntaxique dpendanciel


toli
PL CM
CIR C

OB

SU J

lors
MOD

te

anemis
MOD

veue
MOD

des

li

la

Classes de dpendants pour lafr.


Relation tiquete du nom de la fonction reprsente Principaux dpendants du verbe :
sujet (abrg Suj) objet (Obj) complment rgi autre que lobjet (Cmpl) attribut du sujet (AtSj) circonstant (Circ)

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Modle syntaxique dpendanciel


toli
PL CM
CIR C

OB

SU J

lors
MOD

te

anemis
MOD

veue
MOD

des

li

la

Classes de dpendants pour lafr.


Relation tiquete du nom de la fonction reprsente Principaux dpendants du verbe :
sujet (abrg Suj) objet (Obj) complment rgi autre que lobjet (Cmpl) attribut du sujet (AtSj) circonstant (Circ)

Autres niveaux : modieur (Mod).

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Textes centraux encods en XML (NCA et BFM). Avec les annotations et la terminologie SRCMF = ressource primaire produite

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Annotation sans tenir compte des annotations dj prsentes, mais en recourant aux ditions qui fondent les bases

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

SRCMF fusionn NCA et BFM pour exploitation

Introduction

Base de Franais Mdival

Nouveau Corpus dAmsterdam

Syntactic Reference Corpus of Medieval French

Merci !
www.srcmf.org