Vous êtes sur la page 1sur 9

Le NGML et les corpus textuels

De lusage des corpus textuels dans la rdaction du Novum Glossarium Mediae Latinitatis

Cracovie - Avril 2013

Bruno Bon (CNRS/IRHT - Comit Du Cange)

Le Novum Glossarium

Une entreprise internationale

LUnion Acadmique Internationale (1919)


Une fdration dacadmies (www.uai-iua.org) Des entreprises collectives (de 3 plus de 80) Des critres scientifiques modernes Un dictionnaire gnraliste (Europe, 800-1200) Les dpouillements prliminaires Les dictionnaires nationaux
Bruno Bon (CNRS/IRHT - Comit Du Cange) 2

Lentreprise n5 : Dictionnaire du Latin Mdival


Lorganisation du travail

Cracovie - Avril 2013

Le Novum Glossarium

La rdaction du Novum Glossarium

Un art consomm de lempirisme (1957)


Plus de 10 000 rfrences bibliographiques Un dpouillement traditionnel au fil de leau Un sous-effectif permanent Nouveau support, nouveau calendrier La numrisation rtrospective (glossaria.eu/ngml)

Rvolution (numrique) au Comit Du Cange


Encodage XML, champs de Barcelone Vers une publication lectronique


3

Cracovie - Avril 2013

Bruno Bon (CNRS/IRHT - Comit Du Cange)

La documentation numrique

Les grandes collections de textes

Monumenta Germaniae Historica (www.dmgh.de)

Affichage et recherche : HTML & Scan, par feuilletage ou requte (texte, apparat, notes) Tlchargement : PDF, par page A limage des instruments sur papier Au-del des collections imprimes

Patrologia Latina et Acta Sanctorum (payant !)

Le portail Brepolis (payant !)

Cracovie - Avril 2013

Bruno Bon (CNRS/IRHT - Comit Du Cange)

La documentation numrique

Les corpus spcialiss

Chartes dIle de France (elec.enc.sorbonne.fr)


Affichage et recherche : HTML, par feuilletage Tlchargement : XML-TEI, par dition Affichage et recherche : PhiloLogic, par requte Tlchargement : TXT, DOC, PDF, par dition A database for latin ecclesiastical chant vs Online resource of medieval liturgical texts Affichage et recherche : HTML, par requte Tlchargement : JPG, par feuillet
5

Chartes de Bourgogne (www.artehis-cbma.eu)


Cantus (cantusdatabase.org) vs Cursus


Cracovie - Avril 2013

Bruno Bon (CNRS/IRHT - Comit Du Cange)

A la recherche du sens

Les difficults de rdaction

Les mots rares (moins de 10 fiches)


Facilit de prise en dfaut : obsession Retour sur investissement proche de zro Dispersion smantique limite : matrise Ambigut de la variation morphologique Immensit de la documentation : impunit Syntaxe, fausses fentres et autres artifices
Bruno Bon (CNRS/IRHT - Comit Du Cange) 6

Les mots moyens (entre 10 et 50 fiches)


Les mots frquents (plus de 50 fiches)


Cracovie - Avril 2013

A la recherche du sens

Lapport des corpus textuels

Les mots rares (moins de 10 fiches)


La pche lhapax : grand corpus Feuilletage des index : PLA* Le rechargement : corpus annot Requtes fermes : THESAUR* + CEL* Le rseau smantique : statistique lexicale Exemple : PLANTA / PLANTUM
Bruno Bon (CNRS/IRHT - Comit Du Cange) 7

Les mots moyens (entre 10 et 50 fiches)


Les mots frquents (plus de 50 fiches)


Cracovie - Avril 2013

A la recherche du sens

Lutilisation des corpus textuels

Les corpus clefs en main


Le plus frquent : texte ET outil associ Requte contrainte : statistiques impossibles Avec ou sans outil : textes en tlchargement Ensembles spcialiss : statistiques difficiles Grands corpus : payants et mal concus Corpus gratuits : ingaux et disperss
Bruno Bon (CNRS/IRHT - Comit Du Cange) 8

Les corpus ouverts


Un dilemme rsoudre

Cracovie - Avril 2013

A la recherche du sens

La question graphique

Un gros problme en latin mdival


Variation graphique, variation morphologique Corpus non lemmatiss : statistiques inefficaces TreeTagger (www.cis.uni-muenchen.de) Les paramtres Omnia (glossaria.eu/treetagger)

Le premier lemmatiseur du latin mdival


Du lemme la forme Le corpus dapprentissage

Pour UN grand corpus (annot) de latin mdival lemmatis et ses corpus de comparaison
Bruno Bon (CNRS/IRHT - Comit Du Cange) 9

Cracovie - Avril 2013