Vous êtes sur la page 1sur 27

La numérisation de la presse

à la BnF
Choix documentaires – état d’avancement – aspects
techniques

Journées Patrimoine écrit – 14 septembre 2007


Philippe Mezzasalma – Frédérique Joannic-Seta
Rappel

 La numérisation de la presse nationale:


un programme-phare de la
Bibliothèque nationale de France
 Lancement : 2005
 Plan pluriannuel : 2005-2010
 31 titres concernés (de leur origine à 1944, dernière
année de numérisation). A l’origine 21 titres de PQN + 6 sup. + 3
ajouts de PQN + 1 ajout de presse régionale

 A terme 3,5 M de pages


Plan

 Éléments de contexte : les collections de


presse de la BnF
 De la sélection à la mise en ligne : choix et
procédures
 État d’avancement
 Démonstration des accès
 Évolution du programme de numérisation de
la presse
Les collections de presse à la BnF
 Entrées courantes : quotidiens ou périodiques de grand format
(principalement hebdomadaires), d’information générale (nationaux ou locaux)
ou relevant des disciplines droit, économie, politique - 848titres, (676 entrant
par le Dépôt légal) dont 222 quotidiens, soit 87 679 fascicules
Fonds clos :
 périodiques cotés Jo, Gr fol-Jo, JoA, Job précédemment à Versailles : journaux
locaux, presse professionnelle, presse partisane et syndicale, bulletins
d ’associations, presse de loisirs .... 110 000 cotes au total, pour un nombre presque
équivalent de titres.
 quotidiens ou périodiques de grand format du Département des périodiques
 Le fonds de microfilms : 115 000 bobines de presse, près de 7500 titres sauvegardés ;
accroissement annuel d ’environ 6000 bobines :
 courant : tous les titres de PQN, 40 titres de PQR jusqu’à 2003, 20 depuis.
 rétrospectif : reproduction de périodiques Jo ; sélection des titres sur la base de
corpus ou à partir des demandes de lecteurs
Les collections de presse de la BnF :
communication au public
 Communications en Rez-de-jardin : plus de 50 000
bobines de microfilms, plus de 14 000 unités de
conservation du fonds clos Jo

 Communications de microfilms en salles D et J :


sélection de 43 titres

 Salle A : 273 titres en libre-accès, interrogation de


cédéroms ou bases de données, 165 entrées par jour
Typologie de la presse

• la presse nationale :
• presse politique et d'information générale
• presse populaire
• presse d'échos, presse satirique
• la presse régionale et locale
• la presse d ’outre-mer
• la presse spécialisée
• la presse de lecture
• la presse gratuite
• la presse de type publication officielle
• la presse alternative
La Presse : pourquoi numériser ?
 Une richesse documentaire incontestable
contenu exceptionnel

 Un ensemble en danger…

 auquel la numérisation offre de nouvelles


perspectives

=> Une opération à la fois de sauvegarde et de


diffusion
De la sélection à la mise en ligne

 Définition du plan de numérisation


 Enquête sur les usages attendus de la
presse numérisée
 Aspects juridiques
 Sélection de l’exemplaire et recollement
 Choix techniques de numérisation et
conséquences sur Gallica
 Le mode texte
La définition du corpus
 Un programme axé autour de la presse
quotidienne nationale

 Un panorama représentatif du pluralisme


d ’opinion, des grands titres historiques aux
quotidiens populaires

 Une ouverture vers les régions : Ouest-Eclair


 Un corpus accompagné par des outils critiques :
Annuaire de la presse...
Les titres retenus : plus de 3 millions de pages sur 5
ans L'Aurore
 La Croix La Justice
 Le Temps Le Gaulois
 Le Figaro Le Constitutionnel
 L’Humanité L’Univers
 La Presse L'intransigeant
 Le Petit Parisien Le Siècle
 Le Figaro Littéraire Le Rappel
 L’Action Française Gil Blas
 Le Journal des débats Gil Blas illustré
 Supplément du Petit Parisien La Lanterne
 Le Matin Supplément de la Lanterne
 Le Petit Journal L’Écho de Paris
 Le Petit Journal illustré Ouest Éclair

En prévision : Les Échos, Le Canard


enchaîné
Les aspects juridiques
 Rappel : droit d ’auteur = 70 ans
 à compter de la mort de l ’auteur

 à compter de la publication quand œuvre collective

 =>la presse obéit à ces règles

 Conséquences :
 Accord des titres vivants (convention)

 Pas de mise en ligne postérieure à 1935

 Masquage éventuel des images


Préparation des documents
 Une décision : repartir des originaux

 Récolement fascicule par fascicule


 lacunes à compléter auprès d ’établissements extérieurs
 signalement des défauts physiques

 Préparation des supports :


 démontage/déreliage
 petites réparations
 dépoussiérage et repassage
Catalogage et métadonnées
 Choix de l’unité – fascicule

 Catalogage :
 Création dans le catalogue d’une cote numérique
correspondant au titre
 Pour chaque cote numérique, utilisation du fichier
de récolement pour lier les fascicules numériques

 Métadonnées : constitution par extraction des


données à partir du catalogue
Numérisation
 4 chaînes opérationnelles pour ce
programme, dont 2 confiées à un prestataire

 Opérations de prise de vue et


d’insertion/création des métadonnées

 Une numérisation de haute qualité (300 dpi –


niveau de gris),
 TIFF non compressé pour la sauvegarde
 compressé en JPEG pour la diffusion
Ocr et numérisation de la presse

 Usages attendus : une recherche plein texte


plutôt qu’une transcription

 =>le choix d’un OCR brut et d’une


segmentation (format Alto)

 un niveau qualitatif minimum de 95% de


reconnaissance de caractère
Titres numérisés – état au 14/09/07

 Le Temps : en ligne 1861-1935


 Le Figaro : en ligne 1826-1942 (lacunes 1842-1853)
 Le Figaro littéraire : en ligne 1876-1929 (lacunes 1896-
1904 et 1915-1918)
 La Croix : en ligne 1883-1944
 L ’Humanité : en ligne 1904-1944 (lacunes 1940-1943)
 La Presse : en ligne 1836-1854
 Le Journal des débats : en ligne 1800-1884

NB : les lacunes signalées ici résultent des opérations de contrôle qualité,


à l ’exception de l ’Humanité
Les titres en cours de numérisation
 En cours de numérisation :
 La Presse
 Le Journal des débats
 Le Petit Parisien
 Ouest-Eclair (édition de Caen)
 A suivre en 2007-2008 :
 Le Gaulois
 L’Aurore
 Le Monde diplomatique
Deux accès vers la presse
numérisée
 Le catalogue Bn-Opale plus

 Gallica
Accès par le catalogue

Accès par cote


numérique

Les autres recherches


proposées par le
catalogue sont également
valides : recherche par
titre, par cote de
l ’original papier...
Accès par le catalogue

Exemplaire
numérique

Visualiser
Navigation dans Le Temps
Navigation dans Le Temps

10 juillet 1861
Navigation dans Le Temps
Zoom et accès au mode texte

Circulation par année

Circulation par
jour
Accès dans Gallica
Améliorations attendues

Dans le cadre de Gallica 2 (à partir de l’été 2008)


 Page de présentation des titres de presse
 Mise en place d’un espace de travail
personnel (panier, taggage des pages…)
 Mise en relation des titres de presse avec des
documents qui leur sont consacrés (Tables du
Temps ; fichier du journal Le Matin )
Numérisation de la presse à la BnF :
extensions à venir

 Extension à l ’étude vers des corpus thématiques


 presse des immigrations
 presse des anciens territoires et colonies
 journaux de tranchées (BnF, BDIC, BNUS, BM Lyon, Stuttgart)
 presse clandestine de la Résistance
 presse hebdomadaire (politique, littéraire, de théâtre, de
mode)

 Axe francophone : « Réseau des bibliothèques


nationales numériques francophones »
La valorisation du corpus de presse

 Lien avec la recherche (équipe Montpellier III -


Paris I – Paris IV)
 Publications prévues pour 2007 : Guide des

Vous aimerez peut-être aussi