Vous êtes sur la page 1sur 6

FRANTEXT

Frantext : qu'est-ce donc ?


Frantext est le nom d'une base de donnes de textes franais : textes littraires et philosophiques,
mais aussi scientifiques et techniques (environ 10%), dveloppe et maintenue au sein de l'ATILFCNRS (ex INaLF). Elle a t cre autour d'un noyau de mille textes, dans les annes 70, afin de
fournir des exemples pour le Trsor de la Langue Franaise. Une fois le dictionnaire termin, elle a
continu voluer : d'abord mise disposition dans les annes 80 sous forme d'un CD (" Discotext "),
elle a t mise en ligne sur le web en 1998 par l'informaticien auteur de son moteur de recherches,
Jacques Dendien.
Elle est rgulirement enrichie et comporte aujourd'hui prs de 4000 rfrences. Elle est la seule
proposer des recherches sur des textes qui vont de 1180 2009, avec un fonds contemporain
particulirement riche (820 textes sont postrieurs 1950). Elle se dcline en plusieurs bases :
Frantext gnral (totalit des textes, accs par abonnement)
Frantext catgoris (1200 textes tiquets grammaticalement, accs par abonnement)

Frantext agrgation (consultable par les agrgatifs aprs une demande d'abonnement
individualise)
Frantext Normale Sup (consultable par les agrgatifs aprs une demande d'abonnement
individualise)
Frantext Moyen Franais
Frantext Dmonstration (une slection de trente-cinq textes libres de droit, accs libre et gratuit).
Les utilisateurs dsireux de faire connaissance avec la base peuvent en tester les fonctionnalits
sur Frantext Dmonstration.

Frantext : pour quel type de recherches ?


Frantext est une base de donnes de taille moyenne, qui n'a pas l'ambition d'tre exhaustive. Son
ambition est de proposer un chantillon le plus pertinent possible de la langue franaise, et de
slectionner le corpus pour lui assurer une certaine reprsentativit : types de textes, sicles, genres
diffrents.
Ses utilisateurs sont des linguistes, des littraires, des chercheurs en sciences humaines et sociales.
Leur travail ncessite des ressources textuelles qui peuvent tre localises (un corpus d'auteur, une
priode chronologique, un genre) ou au contraire maximalement tendues.
C'est pourquoi la base ne se fonde pas sur une hirarchie acadmique des textes, mais sur
ladiversit et la reprsentativit des corpus offerts. On pourra trouver dans Frantext des textes
littraires classiques, mais aussi de la presse, des ouvrages scientifiques, des livres de cuisine, des
traits de cyngtique, des manuels, des romans policiers, etc , parmi lesquels l'utilisateur fait son
choix. L'objectif est d'offrir un rpertoire des diffrents tats de la langue et de la cration franaises.

Puis-je lire ou tlcharger des textes partir de Frantext ?


Oui, s'ils sont libres de droits. Sont considrs comme libres de droits des textes dont l'auteur
est dcd depuis plus de soixante-dix, sauf exceptions (auteurs morts durant la Premire Guerre
mondiale). Dans certains cas (si l'dition a t refondue, enrichie, modernise), le droit d'diteur

FRANTEXT
2

peut venir prendre le relais du droit d'auteur : ainsi, une dition des Penses de Pascal (1662) qui
aurait t refondue en 1994 par un diteur scientifique peut tre considre comme un texte sous
droits.
La liste des textes tlchargeables est disponible sur le portail du Centre National de Ressources
CNRTL (www.cnrtl.fr)
Non, s'ils sont sous droits d'auteur ou d'diteur. La base, en conformit avec la lgislation sur le
droit d'auteur, ne propose en lecture que des extraits des uvres (contextes de 350 signes
maximum pour les textes sous droit).
Pourquoi ne peut-on entrer dans Frantext sans abonnement ?
Parce que la base respecte le droit d'auteur, et que les diteurs ont souhait limiter son accs la
communaut scientifique. L'abonnement et le mot de passe ouvrent la base aux chercheurs,
enseignants, tudiants et institutions scientifiques. Il est noter que 250 bibliothques
universitaires dans le monde, dont la BnF, sont abonnes et offrent gratuitement la ressource
Frantext tous leurs utilisateurs, quel que soit leur statut.
Le programme de numrisation est encadr par une convention de partenariat entre le laboratoire
ATILF et le Syndicat National de l'dition.
Quelle diffrence entre Frantext et Google Livres, Gallica ou Gutenberg ?
Frantext propose des textes numriss en mode texte ce qui assure des possibilits de recherche
plus tendues (lemmes, expressions rgulires, tri de vocabulaire, calcul de frquences). L'essentiel
du corpus de Gallica et de Google Livres est propos en mode image ou en ocrisation
automatique.
Les ditions sont choisies sur critres scientifiques, et assorties de rfrences bibliographiques
prcises, qui permettent de localiser sans peine occurrences et citations, la page prs. Elles sont
traites sur la base d'un protocole, quipes de mtadonnes (informations sur l'auteur, l'dition),
et balises en XML, ce qui assure leur exportabilit (pour les textes libres de droits) et une haute
qualit de rendu par rapport l'original (restitution des fins de paragraphes, des attributs
typographiques).
Quels critres sont pris en compte dans une proposition d'enrichissement ?
Une proposition d'enrichissement peut-tre justifie par un projet scientifique
prcisncessitant la possibilit d'une fouille informatise. Voici quelques exemples de corpus qui
ont rejoint la base Frantext sur projet de recherche : les romans de Raymond Queneau, le cycle
duGrand incendie de Londres de Jacques Roubaud, 12 romans d'Alphonse Daudet, une srie de
journaux personnels du XXe sicle (Pozzi, Queneau, Groult, Havet, Huguenin), un ensemble de
100 textes autobiographiques postrieurs 1950.
Frantext, un outil sophistiqu
Frantext est quipe d'un moteur de recherches sophistiqu, qui permet d'extraire :
Des listes de vocabulaire tries, accompagnes de leur frquence

FRANTEXT
3

Extrait de la liste dcroissante des frquences de La Vie mode


d'emploi (Perec).

Des
formes ou
des lemmes, affichs
en
surbrillance
dans
leur
contexte
Exemple d'emploi en contexte de l'expression mode d'emploi dans La vie mode d'emploi.

Des expressions de choix :


maison ( blanche | bleue )
(maison|palais)d'un(blanc(immacul|sale)|bleu(d'azur|profond))
Des expressions optionnelles :

un
&q(0,2)
homme
Cette expression de squence pourra trouver des contextes tels que un soit spar de homme par
zro, un ou deux mots, donc des contextes tels que un homme, un grand homme, un trs petit
homme

un
&?(&?trs
grand)
homme
recherchera les contextes un homme ou un grand homme ou un trs grand homme.

homme
^trs
grand
va chercher tous les contextes du genre homme XXX grand qui tels que XXX ne soit pas gal trs.
Des grammaires :
Ce sont des recherches combines qui permettent de trouver des sries d'lments. On peut
ainsi chercher tous les nombres (chiffres arabes, romains, lettres), toutes les expressions possibles
d'une date (21 septembre, aot 1789), des listes de vocabulaire relatives un thme, une isotopie

FRANTEXT
4

Des entits catgorises (sur la base catgorise uniquement) :

un
&e(g=A)
jeune
homme
va chercher tous les toutes les expressions o un adjectif apparat entre un et jeune homme : un
beau jeune homme, un charmant jeune homme.

&cparler
(d'|de)
&e(g=S)
les uns parlrent d'amaurose, ils parlrent de trahison, son pre lui parlait de ses cousins(Perec).
Le moteur de recherches de Frantext est intgr la base. Il est donc possible de faire ses requtes
directement, sans devoir recourir l'exportation et au retraitement via d'autres outils de fouille
lexicale. Un formulaire multicritres permet de surcrot un assemblage facile des corpus, qui
peuvent tre tris par auteur, date, genre, etc On peut ainsi facilement rechercher la totalit des
dates dans les textes autobiographiques crits entre 1950 et 1980, ou le lexique de la guerre dans le
thtre
franais
du
XVIIe
sicle.
NB : les textes libres de droit, les corpus d'exemples des textes sous droits, les listes de vocabulaire
peuvent tre exports et traits avec d'autres outils si l'utilisateur le souhaite.
Comment entre-t-on un ouvrage dans Frantext ?
Les ouvrages dont le laboratoire est propritaire sont massicots, ou photocopis si le papier
(Pliade, Quarto) est trop fin. Les ouvrages emprunts, rares ou fragiles, eux, sont photocopis
d'office,
ou
scanns

plat.
Les
liasses
sont
entres
dans
une
numriseuse.
Deux logiciels de numrisation diffrents sont mis en marche, et placent en surbrillance les points
de discordance, ensuite corrigs la main. Cette mthode assure un taux d'erreur infrieur une
erreur pour 13 000 caractres Une fois au format numrique, le texte est quip d'un certain
nombre de balises XML-TEI. Celles-ci, invisibles des utilisateurs, permettent de prserver les
attributs typographiques du texte (gras, soulignement), d'isoler des informations, et assurent sa
lisibilit ainsi que sa compatibilit avec d'autres plateformes ou d'autres outils de traitement
ventuels.
Ce fichier est ensuite install (" mont ") dans la base, et est interrogeable par le moteur de
recherche de Frantext.
Combien de temps faut-il ?
L'quipe en charge de la numrisation peut traiter une centaine d'ouvrages par an. Un nouveau
montage (qui doit donner lieu, chaque fois, rengociation avec les diteurs sur les titres
entrants) est effectu tous les six mois. C'est pourquoi il faut compter de six mois un an pour voir
un ouvrage entrer dans la base, et parfois plus, si la liste des ouvrages en attente est importante.

Ressources didactiques
Didacticiels
Plusieurs didacticiels ont t labors par des enseignants et chercheurs pour faciliter la prise en
main et l'utilisation de Frantext. Vous trouverez ici des liens sur ces ressources.

FRANTEXT
5

Frantext : Principale base de donnes textuelles du franais contemporain et du


franais ancien et classique
Par Jacques Franois, Universit de Caen
Le contenu de ces didacticiels est dvelopp en dtail dans le Cahier 29 du CRISCO (Jacques
Franois, "L'attestation des combinaisons lexicales l'aide de la base de donnes textuelles
FRANTEXT") tlchargeable sur le site www.interlingua.fr, rubrique "A propos de l'auteur".
Didacticiel 1 : Prsentation de la base Frantext fichier
Didacticiel 2 : Exploitation de la base intgrale fichier
Didacticiel 3 : Exploitation de la base catgorise fichier
Didacticiel 4 : Exploitation des rsultats d'une analyse de corpus
Ensemble de didacticiels explorant les diverses fonctionnalits de Frantext
Par Charles Bernet et Gisle Kahn, ENS Lyon
Frantext 1, prsentation et principales techniques de recherche
Charles Bernet, Gisle Kahn (23/06/2010). Analyse et traitement de donnes.
Menu gnral, dfinition et visualisation du corpus de travail, formulaire et formulations de
recherche.
Frantext 2, recherches par listes de mots
Charles Bernet, Gisle Kahn (23/06/2010). Analyse et traitement de donnes.
Cration manuelle d'une liste de mots, d'une liste par flexion de mots donns, d'une liste partir
des mots d'un corpus de travail, utilisation de troncatures.
Frantext 3, base non catgorise, exemples de recherche
Charles Bernet, Gisle Kahn (23/06/2010). Analyse et traitement de donnes
Dfinition du corpus de travail, recherche d'un ou plusieurs mots, composants discontinus,
lments facultatifs, distance variable entre composants.
Frantext 4, base catgorise, entits grammaticales
Charles Bernet, Gisle Kahn (25/06/2010). Analyse et traitement de donnes.
Notion d'entit, catgories grammaticales utilises, recherches sur des entits quelconques ou en
partie dtermines.
Frantext 5, base catgorise, recherches grammaticales

FRANTEXT
6

Charles Bernet, Gisle Kahn (25/06/2010). Analyse et traitement de donnes.


Recherches de squences pour diverses catgories grammaticales.
Frantext 6, tude du voisinage d'un mot
Charles Bernet, Gisle Kahn (27/06/2010). Analyse et traitement de donnes.
Recherches des cooccurrences d'un mot pivot chez des auteurs diffrents, des priodes
diffrentes.
Frantext 7, calculs de frquence
Charles Bernet, Gisle Kahn (27/06/2010). Analyse et traitement de donnes.
Frquences absolues et frquences relatives, volution chronologique de l'usage d'un mot,
frquences d'un mme mot chez des auteurs diffrents.