Vous êtes sur la page 1sur 64

RAPPORT SUR LA NUMRISATION DU PATRIMOINE CRIT

Remis par
Marc Tessier au Ministre de la culture et de la communication le 12 janvier 2010

1
SOMMAIRE
INTRODUCTION .............................................................................................................................................................3

I. ETAT DES LIEUX : DES AVANCES HTROGNES DANS UN ENVIRONNEMENT INCERTAIN........4


I.1. O EN SONT LES BIBLIOTHQUES NUMRIQUES ?.................................................................................................................4
I.1.1. Une ide relativement ancienne qui a connu un rel essor partir de 2004..................................4
I.1.2. Une ide qui sest concrtise par des avances htrognes...........................................................5
I.1.3. Une ide porte par lvolution des usages .......................................................................................8
I.2. UN ENVIRONNEMENT INCERTAIN.....................................................................................................................................10
I.2.1. Google se trouve dans un contexte juridique complexe................................................................10
I.2.2. Une coordination insuffisante des autres acteurs...........................................................................12
I.2.3. Une introuvable dfinition du livre numrique...............................................................................13
II. LES ACCORDS ACTUELS AVEC GOOGLE : UNE RPONSE INADAPTE ...............................................15
II.1. UNE RPONSE INADAPTE AU REGARD DES MISSIONS DES BIBLIOTHQUES .............................................................................15
II.1.1. La mission de conservation..............................................................................................................15
II.1.2. La mission daccessibilit.................................................................................................................16
II.2. AU REGARD DE LARTICULATION ENTRE LOGIQUE PRIVE ET LOGIQUE PUBLIQUE ..................................................................17
II.2.1. Une prise en compte insuffisante des atouts des bibliothques...................................................17
II.2.2. Une ngociation dlicate du fait du positionnement bien particulier de Google .......................18
III. LES SOLUTIONS POSSIBLES...............................................................................................................................21
III. 1. UN OUTIL PRIVILGI QUI RESTE AMLIORER : GALLICA.............................................................................................23
III. 1. 1. Aspects institutionnels..................................................................................................................23
III. 1. 2. Amliorer la prsence de Gallica et de ses contenus sur linternet ........................................27
III. 1. 3. Amliorer le service rendu par Gallica......................................................................................29
III. 2. CONDITIONS DUN PARTENARIAT QUILIBR AVEC DES ACTEURS PRIVS ............................................................................30
III. 2. 1. Objectifs et conditions pralables................................................................................................30
III. 2. 2. Un livre pour un livre : une proposition de partenariat fonde sur lchange de fichiers
numriss......................................................................................................................................................31
III. 3. RECHERCHER UNE IMPULSION NOUVELLE AU NIVEAU EUROPEN .......................................................................................33
III. 3. 1. Mutualiser les actions des bibliothques ....................................................................................34
III. 3. 2. Faire voluer Europeana .............................................................................................................35
III. 3. 3. Une charte commune des partenariats publics/privs...............................................................35
SYNTHSE DES CONCLUSIONS / RSUM EXCUTIF......................................................................................38

ANNEXE 1 : LETTRE DE MISSION............................................................................................................................43

ANNEXE 2 : LISTE DES PERSONNES AUDITIONNES........................................................................................46

ANNEXE 3 : LES ENJEUX QUALITATIFS DE LA NUMRISATION DE MASSE. ..........................................48

ANNEXE 4 : LISTE DES BIBLIOTHQUES EUROPENNES PARTENAIRES DU PROGRAMME


GOOGLE RECHERCHE DE LIVRES.........................................................................................................................64

2
Introduction

La mission sur la numrisation des fonds patrimoniaux des bibliothques sest runie, sous la
prsidence de Marc Tessier, du 19 octobre 2009 au 7 janvier 2010 (cf. Annexe 1 : Lettre de mission).
Elle a procd une trentaine dauditions, y compris de reprsentants de grandes bibliothques
trangres.

Elle a analys le cadre technique, conomique et juridique dans lequel sinscrivent les accords et projets
daccords passs entre la socit Google et les bibliothques. Cette analyse a t conduite dans une
perspective de renforcement de la prsence et de laccessibilit des uvres du patrimoine crit sur
linternet.

La mission a estim que cet objectif prioritaire conduisait sinterroger sur un certain nombre de
points, commencer par lexamen des plates-formes de diffusion de livres numriques existantes, et
plus particulirement celle de Gallica, dveloppe par la Bibliothque nationale de France (BnF). Cette
analyse de lexistant a ensuite permis dexaminer les possibilits dtendre cette plate-forme et den
modifier les modes de gestion et les fonctionnalits, afin que le principal acteur public franais en la
matire puisse tre en mesure dengager des discussions avec des partenaires privs sur une base
quilibre. Laxe europen, enfin, a retenu toute lattention de la mission, car une alternative crdible
de grands projets internationaux ne peut pas par dfinition se construire sur une base exclusivement
nationale.

Le prsent rapport sarticule donc en trois temps :

- un tat des lieux des principales bibliothques numriques y compris, sagissant de Google
Livres, de la situation juridique complexe dans laquelle se trouve sa maison mre ;

- une analyse des accords passs entre les bibliothques et Google, qui ne semblent pas apporter de
rponse suffisamment adapte aux missions des bibliothques ;

- des pistes daction, se dclinant en trois axes : le changement dchelle de la numrisation des
ouvrages et du mode de fonctionnement de Gallica ; une proposition de partenariat avec Google Livres
qui passerait notamment par un change de fichiers numriss, sans exclusivit sur les fichiers
changs ; enfin, la relance dune impulsion europenne, tant en direction des autres bibliothques
europennes que du portail Europeana.

Une conclusion en forme de rsum excutif reprend ces diffrentes solutions.

*
* *

3
I. Etat des lieux : des avances htrognes dans un environnement incertain

I.1. O en sont les bibliothques numriques ?

I.1.1. Une ide relativement ancienne qui a connu un rel essor partir de 2004

Lide de numriser des livres pour constituer des bibliothques numriques est relativement
ancienne1 : ds 1971, Michael Hart, tudiant de lUniversit de lIllinois (aux tats-Unis), dveloppe la
premire initiative de bibliothque numrique, le projet Gutenberg . Il sappuie sur une quipe de
volontaires pour relire et vrifier locrisation2 des ouvrages numriss, qui relvent tous du domaine
public3. Le site annonce aujourdhui plus de 100.000 livres disponibles via un rseau de partenaires, et
30.000 ouvrages disponibles gratuitement et directement depuis le site. Essentiellement anglophone au
dpart, le projet a commenc sintresser des ouvrages dans dautres langues depuis 1997.

Ce projet a inspir ensuite la cration ou les projets de cration de grandes bibliothques numriques
commencer par lide, mise par Jacques Attali lors des toutes premires rflexions sur la cration en
France dune Trs Grande Bibliothque, de sauter une tape pour directement laborer une
Bibliothque numrique francophone . Ce projet ne verra pas tout de suite le jour, mais la
Bibliothque nationale de France (BnF) lancera cependant la premire version de Gallica ds 1997,
avec au dpart une approche slective et une numrisation en mode image uniquement. Dans un
premier temps, Gallica a ainsi propos 3.000 livres en mode image, avant dvoluer progressivement (cf.
infra).

Les projets de grandes bibliothques numriques ont connu une nouvelle actualit avec les initiatives
des grands moteurs de recherche. Les moteurs de recherche ont en effet un intrt spcifique ce
que la plus grande masse de contenus possible soit moissonne par leurs robots, puisque ces contenus
largissent leur base de recherche et lefficacit et la pertinence de leurs rsultats.

Google a t le premier lancer, non sans controverse, une nouvelle plate-forme en octobre 2004,
alors appele Google Print, avant de devenir Google Book Search en novembre 2005. Lambition affi-
che tait de numriser 15 millions douvrages en dix ans, en sappuyant principalement4 sur les ou-
vrages conservs dans les fonds des cinq premires bibliothques partenaires la New York Public Li-
brary, et les bibliothques des universits de Harvard, Stanford, du Michigan, ainsi que la Bodleian li-
brary Oxford.

En raction Google Book Search, qui nautorise pas les autres moteurs de recherche indexer les l-
ments prsents sur sa plate-forme, dautres acteurs du secteur se sont lancs dans des projets initiale-
ment assez comparables. Microsoft a lanc, en dcembre 2006, son propre programme de numrisa-
tion de livres : son moteur de recherche Live Search tait dsormais associ une famille de services,
dont une plate-forme de livres numriss, Live Book Search , qui devait tre alimente grce des
1
Voir notamment larticle de Jean-Michel Salan, Bibliothques numriques et Google Book Search , in Regards sur
lactualit n 316, La Documentation franaise, dcembre 2005.
2
L ocrisation , de lacronyme anglais OCR (reconnaissance optique de caractres), dsigne lopration consistant,
aprs avoir scann un livre, utiliser des logiciels informatiques permettant de reconnatre les caractres imprims sur le
document (lettres, signes ou espaces) et de rpertorier chaque mot. Cest un procd essentiel pour permettre ensuite
des recherches sur tous les mots contenus dans le texte (recherche dite plein texte ).
3
Au sens de la loi amricaine il sagit donc douvrages publis antrieurement 1923.
4
Mais pas uniquement : ds lorigine, des accords avec des diteurs ont galement t signs.
4
partenariats avec la British Library, la New York Public Library et, l aussi, des bibliothques universi-
taires amricaines (universits de Cornell, de Toronto et de Californie). Mais le projet a finalement t
abandonn en mai 2008, la faveur dune rorganisation profonde des activits de Microsoft, qui a
choisi de sparer le dveloppement de son moteur de recherche (devenu Bing au lieu de Live Search)
de la famille de services Live Search.

Yahoo! a lui aussi, cherch dvelopper ses activits de numrisation en sappuyant sur lInternet Ar-
chive un organisme but non lucratif, qui existe depuis avril 1996 et dont le but est darchiver le web.
Ils crent ensemble lOpen Content Alliance (OCA), qui rassemble des partenaires nombreux (biblio-
thques des universits de Californie et de Toronto, Archives nationales britanniques, Research Library
Group, ainsi que diverses socits informatiques). Le site exprimental dOCA5 permet daccder plus
dun million de livres du domaine public, l encore essentiellement anglo-saxons.

Linitiative de Google a galement fait ragir les tats au travers dorganisations internationales.

l'initiative de la France et de cinq autres tats europens dont l'Allemagne, lUnion europenne a ain-
si lanc, en mars 2006, la cration de la Bibliothque numrique europenne (BNUE), qui sinscrit dans
le cadre de la Stratgie de Lisbonne (volet i2010 ). Le portail Europeana est ouvert en 2008. Lobjec-
tif est la fois doffrir un accs gratuit au patrimoine numrique europen travers 10 millions de do-
cuments mis en ligne dici 2011, et ventuellement de proposer un accs payant aux contenus sous
droits des diteurs partenaires.

LUnesco a de son ct annonc en dcembre 2006 le lancement de la World Digital Library, qui en
ralit sapparente davantage une vaste banque de donnes culturelles et multilingues trs slective
qu une bibliothque de livres numriques.

I.1.2. Une ide qui sest concrtise par des avances htrognes

Ltat actuel de la situation des diffrents projets de bibliothques numriques aujourdhui rvle des
avances htrognes, selon les plates-formes et les acteurs. Le panorama suivant nest pas exhaustif,
mais est principalement centr sur les sites contenant des ressources francophones importantes6.

Google Book Search, aujourdhui appel Google Books en franais, Google Livres,
dnomination qui sera retenue dans la suite de ce rapport est une plate-forme hbergeant une base de
donnes et dote dun moteur interne. Cet outil stocke et indexe le contenu des livres scanns, traits et
stocks au format numrique par la socit Google.

En termes dutilisation, linternaute peut soit se rendre sur le site de la plate-forme et y effectuer
directement ses recherches, sil cherche uniquement du contenu en provenance de livres, soit utiliser le
moteur Google, o il pourra accder des rsultats composs la fois de pages web et dextraits de
certains livres pertinents. Le contenu de Google Livres est donc important non seulement du point de
vue de la plate-forme mais galement de celui du seul moteur, puisquil lui permet daccrotre la base
partir de laquelle il effectue ses recherches et, partant, la richesse et la pertinence de ses rsultats.

Lorsquun rsultat en provenance de la base Google Livres apparat, lusager, en cliquant sur le lien,
ouvre une interface qui lui permet de visualiser des niveaux dinformations diffrents selon le statut de
luvre. Pour les livres du domaine public, louvrage peut tre vu en entier et tlcharg au format
image PDF et texte Epub ; pour les uvres sous droit, lexprience sera diffrente selon que des

5
La partie du site permettant laccs aux ouvrages est accessible uniquement en version bta depuis lEurope.
6
Lannexe 3 fait une comparaison approfondie entre les fonctionnalits offertes par Gallica et par Google Livres.
5
accords auront t conclus entre la socit Google et les diteurs ou pas : soit lusager peut lire quelques
pages de louvrage et suivre un lien renvoyant vers le site de lditeur (diteurs partenaires), soit il naura
accs quaux seules rfrences de luvre ventuellement assorties de courts extraits ( snippets ), pour
les diteurs nayant pas sign daccord. Dans tous les cas, laffichage des donnes saccompagne de liens
renvoyant vers des sites de librairies et de bibliothques, sur le ct gauche de lcran.

Le site est aliment principalement par deux sources. Dune part, les bibliothques ayant sign des
accords de numrisation qui proposent gnralement la numrisation des livres hors droit. Mais
Google a aussi t en mesure de numriser, via les fonds de grandes bibliothques amricaines, des
ouvrages sous droits, sans obtention pralable du consentement de leurs ayants droit, ce qui a suscit
un contentieux important tant aux tats-Unis quen Europe, notamment en France (cf. infra, I.2.1).
Lautre source est celle des diteurs partenaires. Enfin, Google se procure galement des mtadonnes
informations didentification de louvrage et reconstitue une image banalise de couverture, lorsquil
ne dtient pas le contenu numris, afin de pouvoir donner accs un minimum dinformations (titre,
auteur, diteur, ISBN, nombre de pages) sur le livre. Une recherche sur un ouvrage rcent dun
diteur non partenaire donnera donc accs une page dinformations assortie, le cas chant, davis
dinternautes et de liens vers des sites de librairies et bibliothques.

Dbut 2010, Google Livres annonce que la plate-forme permet deffectuer des recherches sur
lintgralit de plus de 10 millions de livres7. Parmi ces livres, 2 millions ont t numriss en
partenariat avec les diteurs et 1,5 millions relve du domaine public. Les autres ouvrages, sous droits,
ont t numriss sans accord des ayants droit.

La bibliothque numrique Gallica est dveloppe par la BnF depuis le milieu des annes 1990,
dans le cadre du grand projet voulu par Franois Mitterrand. Elle a t inaugure en 1997 avec une
offre de quelques dizaines de milliers de documents, principalement en mode image. Conue l'origine
comme une bibliothque numrique slective vocation encyclopdique proposant des corpus de
documents (les revues des socits savantes, les voyages en Italie, ...), elle a profondment chang
compter de 2005, en contrepoint des projets de numrisation de Google. La BnF a alors dvelopp
son tour une politique de numrisation de masse (march Jouve dit des 30.000 , march Safig dit
des 100.000 en 2007) et valid un passage au mode texte (march d'ocrisation des contenus dj
prsents dans Gallica, dit des 60.000 ).

Une autre volution importante a t l'ouverture de discussions avec le Syndicat national de l'dition
(SNE) fin 2007, en vue de permettre un accs des contenus numriques sous droits via Gallica. Les
diteurs franais sont dsormais prsents sur Gallica travers le signalement dans ce portail de prs de
20.000 livres contemporains numriss. Les documents sont consultables, sous conditions, sur le site de
distributeurs numriques.

partir de 2005, Gallica s'est galement enrichi de contenus de presse (presse quotidienne du XIXe
sicle de grand format) avec un important march de numrisation spcifique (3,5 millions de pages,
une vingtaine de titres concerns) qui a obtenu un soutien financier du Snat.

Fin 2009, Gallica donne accs plus de 950.000 documents dont environ 370.000 en mode texte.
Parmi ces documents : 145.000 livres (monographies), 650.000 fascicules de priodiques, 115.000
images.

7
http://googleblog.blogspot.com/2009/10/tale-of-10000000-books.html

6
930.000 documents sont issus des collections de la BnF, les autres provenant soit des diteurs associs
au projet, soit de bibliothques partenaires. La BnF a en effet entrepris de donner accs des
documents numriques d'autres bibliothques, soit en les hbergeant, soit en les moissonnant par le
protocole OAI-PMH. Cette offre demeure cependant encore modeste avec moins de 4.000 documents
de bibliothques partenaires accessibles depuis Gallica (0,4 % du total de Gallica). Les documents libres
de droits sont galement signals sur Europeana dont Gallica est l'un des agrgateurs pour la France.

Les principaux chantiers techniques aujourd'hui en cours sont la modernisation de l'interface de


consultation (un nouveau visualiseur est ainsi propos en dcembre 2009), la modernisation du moteur
de recherche (courant 2010) ou encore le renforcement des capacits de stockage et diffusion afin
d'amliorer la qualit de la rponse apporte aux internautes. Un travail sur la structuration des donnes
numriques et des mtadonnes associes est galement effectu par la BnF, notamment dans un cadre
international. Par ailleurs de nouveaux marchs de numrisation (documents spcialiss d'une part,
livres rares et prcieux d'autre part) ont t lancs en 2009.

Par comparaison, on peut indiquer quaux tats-Unis, la bibliothque du Congrs a dvelopp, ds


le dbut des annes 1990, une politique numrique ambitieuse s'appuyant sur d'importants
financements publics (provenant du Congrs) et privs - plus de 45 millions de dollars ont ainsi t
obtenus auprs d'acteurs privs, notamment sous forme de dons. Le rsultat est le programme
American Memory (http://memory.loc.gov/ammem/index.html) soit une bibliothque numrique de
plus de 5 millions de documents en accs libre, principalement des manuscrits, des documents
iconographiques et de la presse, selon les objectifs de la politique documentaire dfinie par la grande
bibliothque nationale nord-amricaine. Ces documents, rpartis dans une centaine de collections
thmatiques, proviennent de la Bibliothque du Congrs mais aussi d'autres institutions culturelles
amricaines. Pour sa part, le Japon a rcemment refus un partenariat avec Google en matire de
numrisation de livres et dcid fin 2009 d'entreprendre son propre programme national de
numrisation sur financements publics avec comme acteur majeur la Bibliothque de la Dite qui
joue dans ce pays le rle de Bibliothque nationale. Les financements envisags seraient de 90 millions
d'euros pour l'anne 2010 et de l'ordre d'1 milliard d'euros pour l'ensemble du programme.

La bibliothque numrique Europeana est en fait un portail de consultation et non pas un site
hbergeant les contenus eux-mmes. Son dveloppement a t confi une fondation de droit
nerlandais, EDL (European digital library), dont le financement est actuellement assur en partie par la
Commission europenne dans le cadre d'appels projet, et en partie par un certain nombre d'tats
membres.

Le portail Europeana a t inaugur en novembre 2008 (version bta, www.europeana.eu). Il propose


la consultation environ 6 millions de documents, dont en ralit assez peu de livres (moins de 200.000).
Les contenus proposs par la France, principalement travers le portail Collections du ministre de la
culture, la bibliothque numrique Gallica (cf. supra) et le site de l'INA, reprsentent actuellement
environ la moiti du total des documents accessibles via Europeana. La mise en service de la version
oprationnelle est prvue au deuxime semestre 2010 avec un objectif de 10 millions de documents en
ligne. Plus d'un millier d'institutions culturelles europennes participent Europeana mais avec des
degrs d'implication et des offres de contenus extrmement ingaux. La Commission europenne
rflchit actuellement l'volution d'Europeana et a lanc pour cela, la fin du mois d'aot 2009, une
consultation publique Europeana - next steps . Les principales questions portent notamment sur les
contenus que le portail doit offrir aux internautes, les modes envisageables de financement et de
gouvernance, les solutions possibles et acceptables pour mieux associer le secteur priv ce projet et
accrotre son rayonnement.

7
De leur ct, outre loffre propose dans Gallica, les principaux diteurs franais8 ont entrepris la
constitution d'une offre numrique susceptible de rpondre aux attentes des internautes et respectueuse
du droit d'auteur. La mise en place de cette offre suppose une volution des diffrents mtiers de
l'dition, de lourds investissements financiers (avec un soutien des pouvoirs publics notamment
travers les nouvelles aides numriques du Centre national du livre, cres en 2008) et l'identification des
droits effectivement dtenus par chacun pour l'exploitation numrique des uvres.

Le dveloppement de cette offre numrique (que l'on peut valuer fin 2009 environ 40.000 titres de
l'dition franaise disponibles) sest traduite en 2009 par le lancement de plusieurs plates-formes de
distribution (Numilog, dHachette, Eden-Livre regroupant Flammarion, Gallimard et La Martinire, site
E-Plateforme d'Editis, L'Harmathque de L'Harmattan, etc.). Ces diffrentes plates-formes de
distribution ( B to B ) sajoutent une offre plus ancienne, constitue plutt par des agrgateurs
numriques indpendants des diteurs (essentiellement Cyberlibris et Numilog, avant son rachat par
Hachette) et tourne directement vers les internautes ( B to C ) 9. moyen terme les diteurs franais
prparent la transition vers une filire de production nativement numrique. Loffre numrique
ditoriale devrait tre surtout constitue, au moins dans un premier temps, de titres rcents10.

I.1.3. Une ide porte par lvolution des usages

Lmergence de ces diffrentes bibliothques et plates-formes de livres numriques naurait pu avoir


lieu sans le dveloppement dusages nouveaux, spcifiques la recherche sur la toile. Lessor rapide de
linternet a en effet entran des changements profonds dans les modes daccs au savoir et
linformation. Deux types dusages expliquent en partie lintrt suscit par le dveloppement de
bibliothques numriques et peuvent profondment influencer les rflexions en matire dlaboration
de telles bibliothques.

Le premier de ces usages est le recours dsormais prioritaire aux moteurs de recherche.

Les moteurs de recherche sont aujourdhui des outils universellement reconnus comme
particulirement efficaces pour permettre aux internautes daccder la masse de connaissances
disponibles sur la toile. Outre Google, certains moteurs de recherche ont t largement utiliss dans le
pass ou le sont encore des degrs divers aujourdhui (Altavista, Yahoo!), dautres mergent (Bing) ;
mais loutil que reprsente le moteur de recherche est incontournable pour les internautes, y compris
dans leurs usages de consommation culturelle. Ce succs a t remport principalement par la
conjugaison dun modle conomique trs robuste, gratuit pour lutilisateur, par la simplicit
dutilisation de ce type doutil et par la puissance de lalgorithme, fonde sur une conception spcifique
de la pertinence et une infrastructure technologique extraordinairement puissante et performante.

Deux lments dfinissent lefficacit dun moteur de recherche : sa pertinence et sa puissance. Or les
principaux moteurs du web en particulier Google ont dabord fait le choix de la puissance. On
rappellera brivement les grands principes de fonctionnement dun moteur de recherche du type
de Google, qui sont utiles pour comprendre la stratgie quils peuvent avoir en matire de

8
Les diteurs de STM (sciences-techniques-mdecine) ont dj engag depuis plusieurs annes laccs numris leurs
collections, particulirement dans les domaines du droit, de la mdecine ou des sciences. La nouveaut est lextension au
domaine de la littrature gnrale, dont il sagit principalement ici.
9
Hachette a annonc le lancement du site Myboox , magazine B to C assorti de fonctions commerciales et
communautaires.
10
Un projet tel que celui des ditions Gallimard (numrisation de plus de 25.000 titres du fonds) fait pour linstant plutt
figure d'exception.
8
numrisation :
- tout dabord, un robot explore de faon automatique et rgulire la toile ; le robot suit tous les liens
hypertextes quil rencontre, pour rcuprer et indexer toutes les ressources utiles. La premire tape
consiste donc visiter extensivement la toile11, afin dy reprer des documents et des pages web ;
- ltape suivante consiste indexer les documents collects, qui pourront ensuite tre recherchs par
les internautes grce des mots cls y figurant. Il faut donc extraire les mots significatifs de chaque
document, qui sont ensuite classs selon un dispositif dindexation propre au moteur de recherche.
Paralllement, les mots extraits sont affects dune pondration, qui correspond gnralement la
frquence dapparition de ce mot dans le document (mais dautres critres peuvent tre utiliss) ;
- ltape de recherche est celle qui, aprs requte des internautes, restitue les rsultats par ordre de
pertinence. Celle-ci est apprcie en fonction dalgorithmes propres chaque moteur. Google se fonde,
notamment, sur le modle du page rank : la pertinence dun document y est dfinie notamment au
regard de sa notorit sur la toile, laquelle fait lobjet dun calcul complexe tendant fixer pour chaque
page web un indice de popularit fiable . Ce score est, par essence, volutif, dans la mesure o il
rsulte dune analyse globale et permanente des pratiques de liens et de consultations sur le web.

Cest donc notamment laune de leur popularit que les rsultats sont prsents. Des recherches sont
cependant en cours pour dvelopper dautres types de moteurs, davantage fonds sur la pertinence
grce des analyses smantiques. Lide est notamment dassocier au terme recherch dautres mots
dont le contenu smantique ou logique est proche, afin de rpondre la question pose alors que les
moteurs actuels se bornent rechercher la concordance entre les mots-cls de la requte et leur index.
Enfin, lvolution vers un web smantique devrait permettre la cration automatique de liens entre
les documents numriss (par exemple, la version numrique dun livre, la mention de ce livre dans un
article, une biographie de lauteur sur Wikipedia, etc.), voire de hirarchiser ces documents entre eux.
Mais la mise en place de ce web smantique implique encore un important travail initial sur la
qualification des diffrentes donnes du Web et semble tarder voir le jour.

Cependant, laccs potentiellement universel aux ressources en ligne propos par les moteurs actuels
parat suffisamment sduisant pour les internautes, qui plbiscitent ce mode de recherche. plus forte
raison lorsquil sagit douvrages : le fait de trouver immdiatement des contenus en ligne, permettant de
saffranchir des contraintes de temps et de dplacement lis la mise disposition des livres papier ,
semble prsenter pour les chercheurs comme pour le grand public un intrt largement suprieur
dventuelles faiblesses de qualit tenant aux modes de recherche des moteurs.

Le dveloppement de ces usages est donc suffisamment incitatif pour que lon sattache
numriser le plus rapidement possible des contenus afin de les mettre disposition en ligne. Pour les
moteurs de recherche, cette motivation est encore renforce par la volont de disposer dun plus
grand nombre de documents disponibles pour amliorer la richesse et la pertinence de leurs rponses
et, partant, accrotre lassiette documentaire de leurs ressources publicitaires.

Le dveloppement des rseaux sociaux

Dans lunivers des rseaux sociaux, lutilisateur constitue son propre univers et le contextualise. La
logique est trs diffrente de celle du moteur de recherche : dans certains domaines, et notamment en
matire dinformation, ce nest plus linternaute qui va chercher lui-mme linformation il attend au
contraire que linformation lui arrive par lintermdiaire de son rseau. Il bnficie ainsi dune
information filtre et contextualise en fonction de ses propres centres dintrts ou des personnes
ressources de son rseau. Linternaute peut aussi, son tour, proposer aux membres de son rseau

11
Pour diverses raisons, notamment techniques, une partie du web nest cependant pas accessible ces robots : on parle
alors de Web profond ou Web invisible .
9
sa bibliothque idale, et devenir lui-mme source dinformation (une application en ce sens est par
exemple propose par Facebook).
Cet usage relativement nouveau a un intrt spcifique pour les livres numriss : il sagit dun autre
mode daccs possible, diffrent de celui des moteurs. Linformation sur le livre et son contenu passe
par dautres modes de recherche que les algorithmes ou le web smantique. Le dveloppement rapide
de ce nouvel usage doit ds lors tre pris en compte par les bibliothques numriques, en proposant des
services ad hoc.

I.2. Un environnement incertain

I.2.1. Google se trouve dans un contexte juridique complexe

La numrisation, dans les fonds des bibliothques partenaires, duvres sous droits sans
consentement pralable de leurs ayants droit a suscit ds 2005 un contentieux aux tats-Unis. Le
projet de rglement transactionnel auquel sont parvenues les parties le 28 octobre 2008 doit encore
tre valid par le juge alors qu'il a soulev une motion internationale justifiant l'introduction
d'amendements.

Les uvres sous droits numrises partir des collections des bibliothques universitaires amricaines
sont entirement indexes par le moteur ; la recherche plein texte conduit l'affichage de courts
extraits prsents sous la forme de bandelettes de papier dchires (les snippets ). Ds 2005, les
associations amricaines d'ayants droit (American Publishers Association et Author's Guild) ont intent
contre la socit Google une action de classe dans laquelle elles se sont portes parties au nom des
classes entires qu'elles reprsentaient (c'est--dire tous les diteurs et tous les auteurs).

Il s'agissait d'un procs en contrefaon de droits d'auteurs : la socit Google se voyait reprocher de
violer le Copyright par la reproduction et la reprsentation de ces livres sans autorisation pralable.
Elle opposait ces accusations l'argument de l'exception dite de fair use (utilisation loyale), exception
trs gnrale applique dans le droit amricain. Elle soulignait galement qu'elle tait dispose retirer
les ouvrages la demande de leurs ayant droits qui en feraient la demande ( opt out , pratique trs
conteste parce que contraire aux principes de la proprit intellectuelle ; la lenteur avec laquelle Google
semble donner suite aux demandes de retrait a galement t mise en avant).

Le juge n'a pas eu se prononcer sur le fond : en octobre 2008, aprs trois ans d'une procdure trs
coteuse, les parties ont rendu public un projet d'accord transactionnel de classe (Class action settlement
agreement) visant, s'il tait valid par la cour, teindre le contentieux. Par une spcificit du droit
amricain, cet accord aurait le pouvoir de lier tous les membres des classes reprsentes, sauf ceux
qui s'en seraient explicitement retirs. Une vaste campagne de publicit a alors t entreprise dans le
monde entier pour signifier aux auteurs et aux diteurs qu'un document de plus de 300 pages, rdig en
anglais juridique, tait sur le point de modifier leurs droits sur leurs propres livres.

Ce premier projet comportait deux grands volets. D'une part, il avait pour effet d'teindre, par un
systme de ddommagement, toutes les poursuites passes et venir contre la socit Google pour les
faits initialement reprochs. D'autre part, il mettait en place des modalits pour l'exploitation
commerciale par Google de tous les livres numriss. Si les livres n'taient pas disponibles dans les
grands canaux de vente amricains, Google les exploitait par dfaut, sauf objection expresse, formule
titre par titre par les diteurs. Cette exploitation devait se limiter au territoire amricain, sur la foi de
l'adresse IP des consommateurs. Dans le cas des livres revendiqus par leurs ayants droit, si ces
derniers autorisaient l'exploitation par Google, ils se voyaient reverser 33% du chiffre d'affaires gnr

10
(publicit, accs payant individuel par titre, accs payant institutionnel la base toute entire). 33% du
chiffre d'affaires gnr par les livres non revendiqus tait revers un Registre des droits sur les
livres (Books Rights Registry) qui aurait pour mission d'inciter les ayants droit du monde entier
s'enregistrer.

Des critiques nombreuses et trs vives ont t portes ce premier projet. Il mconnaissait les principes
de la proprit intellectuelle en obligeant les ayants droit l'opt out s'ils ne voulaient pas voir leurs livres
exploits par Google. Il mettait cette mme socit dans une situation de monopole, sur le territoire
amricain, pour l'exploitation des ouvrages non revendiqus : l'accord transactionnel lui attribuait en
effet, et elle seule, une licence d'exploitation exorbitante au droit commun. La socit Google prsente
cet aspect du projet d'accord comme la seule faon qui s'offrait elle de rsoudre la question des
uvres orphelines , uvres dont les ayants droit nont pas t identifis et qui, en labsence daccord
possible de leur part, ne peuvent pas, en principe, tre exploites (cf. infra I.2.2).

Le juge charg de l'ventuelle validation du projet d'accord transactionnel a reu un nombre


considrable d'objections et de remarques. Les gouvernements franais et allemand, puis le
gouvernement amricain, lui ont adress des courriers exprimant les plus grandes rserves sur les
termes et les effets de la transaction. Les parties ont donc dcid d'amender le projet et un nouveau
document a t rendu public le 13 novembre 2009. La modification la plus significative est que l'accord
ne porterait plus, dornavant, que sur les livres initialement publis aux tats-Unis, au Royaume-Uni, au
Canada et en Australie, ainsi que sur les livres inscrits - par les diteurs du monde entier - au Bureau du
copyright des Etats-Unis (soit, pour un certain nombre dditeurs franais, une part importante de leur
catalogue). Quelques amnagements visent par ailleurs modrer le caractre monopolistique du
systme. L'conomie gnrale du projet n'est cependant pas remise en cause.

Le juge doit donner son avis sur ce projet amend le 18 fvrier 2010. Si le texte de cet accord
transactionnel est valid, Google sera mme de mettre en place une immense plate-forme de
commercialisation de livres, trs majoritairement anglophones et elle disposera de l'exclusivit entire
d'exploitation d'une grande part de ces livres, c'est--dire tous ceux qui n'auront pas t
revendiqus auprs du Registre des droits sur les livres . Cependant, les remarques faites au juge
par le gouvernement amricain semblent loin d'avoir t prises en compte dans le projet amend et
une intervention des autorits amricaines de la concurrence n'est pas exclure.

Un contentieux similaire a une traduction judiciaire en France

Une procdure a t engage le 6 juin 2006 par le groupe La Martinire contre les socits Google Inc.
et Google France sur des chefs globalement similaires ceux qui avaient t avancs par les ayants droit
amricains (cf. supra), c'est--dire la contrefaon de droits d'auteur par reproduction sans autorisation et
mise disposition de courts extraits des livres sous la forme de snippets . Les plaignants ont t
rejoints en octobre 2006 par une intervention volontaire du Syndicat national de ldition (SNE) et en
novembre 2006 par une intervention volontaire de la Socit des Gens de Lettres (SGDL).

En dfense, Google estimait que, pour les actes de numrisation, il convenait d'appliquer le droit
amricain dans la mesure o les oprations ont eu lieu sur le territoire des tats-Unis ; que, par
consquent, cette numrisation n'tait pas une contrefaon dans la mesure o elle relevait de l'exception
dite du fair use ; et que, pour les actes de reprsentation, cette pratique entrait dans le cadre de
l'exception de courte citation reconnue par le droit franais12.

L'audience a eu lieu le 24 septembre 2009 et le tribunal de grande instance de Paris a rendu son

12
Article L 122-3 du Code de la proprit intellectuelle.
11
jugement le 18 dcembre. Ce dernier considre que le droit applicable est le droit franais, autant pour
les oprations de numrisation que pour la reprsentation de courts extraits. Ceci pos, il conclut que la
socit Google Inc. s'est effectivement rendue coupable de contrefaon de droits d'auteur par la
reproduction sans autorisation pralable puis par la reprsentation d'uvres protges. Il considre en
effet que l'exception de courte citation n'est pas applicable la dmarche de Google dans la mesure o
les extraits sont affichs de manire alatoire et excluent donc tout but d'information.

La socit Google Inc. a, par consquent, t condamne en premire instance verser un


ddommagement de 300.000 au groupe La Martinire et d'1 symbolique la SGDL et au SNE. Le
tribunal lui interdit par ailleurs de poursuivre ces agissements sous astreinte de 10.000 par jour de
retard.

Il convient de souligner que le jugement ne porte que sur une liste prcise et bien identifie de livres
qui avait t tablie par un constat d'huissier pour initier la procdure. Cependant, Google court
maintenant le risque de faire face une multitude de procs similaires intents par des diteurs
franais considrant que le jugement est transposable leur propre situation. Il a dclar son
intention d'interjeter appel de ce jugement.

I.2.2. Une coordination insuffisante des autres acteurs

Au niveau europen, certaines questions restent prciser. La premire dentre elles est celle des
uvres orphelines : un droit sur une uvre est orphelin si au moins un des titulaires de ce droit n'a
pu tre identifi malgr des recherches avres et srieuses. La question des uvres orphelines a pris
une acuit particulire avec les grands projets de numrisation des institutions culturelles : une
institution ne peut en effet, sauf exceptions particulires13, numriser et mettre la disposition des
internautes des uvres protges sans avoir obtenu auparavant l'assentiment des titulaires des droits
d'exploitation numrique de ces uvres. Or la recherche de ces ayants droit peut tre extrmement
coteuse et parfois infructueuse. Tout projet de numrisation de masse est confront cet obstacle
juridique. On a vu que Google a contourn cet obstacle en numrisant systmatiquement des livres
protgs sur le territoire amricain sans les mettre initialement disposition des internautes, ce qui
permettait l'entreprise de s'abriter derrire le principe du fair use , d'o le contentieux avec les ayants
droit. Si le projet de rglement l'amiable tait valid par le juge amricain, Google serait en situation
d'exploiter le produit de sa numrisation sans avoir rechercher les titulaires des droits sur les livres (cf.
I.2.1.).

Cette perspective laisse craindre un monopole sur l'exploitation numrique des livres non revendiqus,
d'o le vif dsir qui anime la Commission europenne de donner aux institutions culturelles
europennes la scurit juridique ncessaire pour mener bien leurs propres projets de numrisation de
masse. En France, la suite des recommandations de la commission spcialise du Conseil suprieur de
la proprit littraire et artistique14, le ministre de la culture et de la communication s'engage en 2010
dans la mise en place d'un systme permettant la gestion collective de ces uvres orphelines, au moins
pour le domaine de l'imprim et de limage fixe. D'autres pays europens s'orientent vers des solutions
conformes leur sensibilit culturelle nationale ( licences tendues en Scandinavie, par exemple). La
tche de la Commission sera de veiller ce que la multiplicit de ces systmes ne nuise pas la
circulation et la libre diffusion des uvres concernes, sans cder la tentation d'une nouvelle
exception communautaire peu compatible avec la diversit de traditions nationales souvent sensibles.

13
En France, par exemple, on peut citer l'exception bibliothques (CPI, L 122-5 et L 211-3) ou encore le droit
particulier s'appliquant aux institutions en charge du dpt lgal (Code du patrimoine, L 132-4).
14
CSPLA, Commission sur les uvres orphelines, 18 mars 2008.
12
La seconde question concerne le financement d'Europeana. Le portail europen tire jusqu'
prsent l'essentiel de ses ressources d'appels projets communautaires, par nature non prennes, ce qui
constitue un point de fragilit majeur. Cette situation pourrait voluer compter de 2013 avec lentre
de lUnion europenne dans un nouveau cycle budgtaire. Afin de consolider le fonctionnement
dEuropeana et de lui permettre d'entrer dans une dmarche stratgique pluriannuelle, il est en effet
ncessaire d'asseoir le financement du portail sur des ressources rgulires. Les contributions peuvent
avoir trois sources : Commission, tats membres, partenaires privs. Un quilibre satisfaisant entre ces
trois axes reste trouver, de mme que l'organisation d'un pilotage nouveau pour le projet. Ces
conditions sont ncessaires pour le futur dveloppement de l'interface. L'quilibre dpendra surtout de
la volont plus ou moins grande des diffrents acteurs en prsence de soutenir le projet.

Des initiatives prives non coordonnes : loffre des diteurs en France

Dans la mesure o le livre numrique demeure un march mergent, sans un chiffre d'affaire ni une
rgulation par les pouvoirs publics comparables ce qui existe depuis assez longtemps dans lunivers
physique (livre papier), les actions des principaux acteurs conomiques, en particulier les diteurs de
littrature gnrale, sont restes jusqu' il y a peu du domaine de l'exprimentation.

Des solutions interprofessionnelles garantissant linteroprabilit des offres et leur plus grand
dploiement n'ont pu pour l'instant merger. Les principales initiatives demeurent du ressort des
diffrents groupes conomiques avec notamment, depuis 2009, la mise en place de diffrentes plates-
formes de distribution ou de diffusion de livres numriques (cf. supra). Il reste dsormais assurer le
lien entre ces plates-formes B to B et les portails de vente de libraires ( B to C ). Une conciliation
interprofessionnelle doit intervenir pour garantir chaque dtaillant, ds lors quil sest mis en mesure,
avec laccord des diffuseurs, de vendre des livres numriques, un accs simple, homogne et exhaustif
loffre de tous les diteurs franais. Le projet de hub rcemment expos par Dilicom, structure
interprofessionnelle oprant dj comme centrale dinformation et de prise de commande pour le livre
physique, sinscrit dans ce mouvement. Son succs semble toutefois conditionn par lunanimit dont
feront preuve les diteurs franais voir leur offre reprsente sur le plus de plates-formes de
commercialisation possible, sans exclusive ni restriction.

La rflexion interprofessionnelle existe cependant, anime par les syndicats professionnels (SNE avec
sa commission numrique, SLF avec le projet de portail de la librairie indpendante) et accompagne
par les pouvoirs publics (rflexion organise travers diffrents rapports et missions 15, soutien financier
du Centre national du Livre diverses initiatives).

Toutefois, du point de vue de l'internaute, le panorama de l'offre peut paratre encore peu lisible et
plutt clat.

I.2.3. Une introuvable dfinition du livre numrique

15
Cf. Rapport sur le livre numrique tabli par Bruno Patino en juin 2008 ; rapport dHerv Gaymard, Situation du livre
Evaluation de la loi relative au prix du livre et questions prospectives (mars 2009) ; rapport de la mission Cration et
internet , confie Patrick Zelnik, Jacques Toubon et Guillaume Cerruti, remis le 6 janvier 2010 au ministre de la
culture et de la communication ce dernier rapport a recommand notamment la mise en place dune plateforme
commune de distribution numrique selon un modle B to B. Consultable en format PDF ladresse :
http://www.culture.gouv.fr/mcc/Actualites/A-la-une/Remise-du-rapport-de-la-mission-creation-et-internet

13
Enfin, de faon plus gnrale, le livre numrique reste un objet difficile dfinir de faon fi-
ge, ce qui explique en partie la numrisation plus lente dans ce domaine que dans dautres secteurs
culturels comme la musique ou le cinma. Un livre numrique peut recouvrir des ralits trs diverses,
allant du simple fac-simil digitalis de limprim au produit numrique prsentant des fonctionnalits
trs raffines (recherche, intertextualit, interactivit, enrichissements ditoriaux). Alors que la rgle-
mentation fiscale dfinit le livre comme un ensemble imprim, illustr ou non, publi sous un titre,
ayant pour objet la reproduction dune uvre de lesprit dun ou plusieurs auteurs en vue de lenseigne-
ment, de la diffusion de la pense et de la culture , le contenu numris dun livre peut tre propos
sous des formes et des supports trs divers. Le fichier peut tre intgralement tlchargeable ou acces-
sible via un abonnement un univers thmatique ; il peut tre fig ou annotable et transformable -
autant de possibilits diverses qui rendent difficile une dfinition unique16 et multiplient les choix pos-
sibles de prsentation aux internautes. Cette labilit du livre numrique met au dfi lide traditionnelle
du livre imprim ; elle en renouvelle potentiellement les usages.

Cette absence de dfinition prcise peut aussi contribuer renforcer le sentiment de flou qui parat
marquer les accords passs entre Google et les bibliothques partenaires, et tenant notamment aux
conditions dans lesquelles ces bibliothques pourront ou non utiliser leurs copies des fichiers numriss
partir de leurs fonds. La deuxime partie de ce rapport sattache en analyser la porte.

*
* *

16
La dfinition du livre numrique semble un peu plus simple dans le cas o il sagit de la simple transposition dun livre
imprim : cest la piste que semblent avoir choisi les auteurs du rapport Zelnik lorsquils prconisent une extension au
livre numrique du systme du prix unique existant dans lunivers physique, ncessitant une telle dfinition (proposition
10 : Etendre le prix unique du livre aux livres numriques dits homothtiques ).
14
II. Les accords actuels avec Google : une rponse inadapte

II.1. Une rponse inadapte au regard des missions des bibliothques

En matire de patrimoine numris, les missions des bibliothques publiques sont


principalement de deux ordres :

- Assurer la prennit, long terme, du patrimoine crit numris - autrement dit la conservation et la
mise jour des fichiers numriss, dans un conteste d'obsolescence plus ou moins rapide des
technologies.
- Favoriser l'accs le plus large possible au patrimoine numris. Cela implique, d'une part, une mise
disposition et une visibilit de ce patrimoine numris sur Internet, au terme dun processus de
masse ncessitant des moyens importants ; d'autre part, un niveau de qualit suffisant des supports
et des outils numriques, permettant de rpondre la diversit des usages des internautes.

Les projets d'accords passs entre Google et des bibliothques 17 posent, au regard de ces missions,
un certain nombre de questions.

II.1.1. La mission de conservation

Lobjectif de conservation du patrimoine numrique est fortement li la mission de mise disposition


de ce patrimoine par la bibliothque. Il suppose, dune part, que la prennit des donnes numrises
soit assure, et dautre part, que ces donnes puissent tre stockes et transfres sur diffrents supports
numriques, amens le cas chant voluer. De la qualit de conservation des donnes et de leurs
supports dpendra la qualit de la mise disposition et la possibilit de multiplier les formes de cette
mise disposition.

Les accords existants montrent une relle insuffisance des accords sur ce point, puisque le sujet de la
conservation et de la mise jour ventuelle des fichiers mis la disposition des bibliothques par
Google ny est pas abord quil sagisse de laccord concernant la bibliothque municipale de Lyon ou
du projet daccord ( memorandum of understanding ) qui avait t labor pour la BnF.

Ces accords ou projets daccords, sils prvoient la remise la bibliothque dune copie du fichier
numris par Google, ne comportent, en particulier, aucune obligation pour Google de faire bnficier
les fichiers remis la bibliothque dventuelles innovations quil apporterait ses propres fichiers.

Il revient donc, en ltat actuel des choses, aux bibliothques de prvoir et de grer les questions de
conservation et de prennisation des contenus numriss ce qui est un poste de cot non ngligeable.

En outre, ces accords ne sont pas toujours suffisamment prcis sur les fichiers qui seront effectivement
transmis par Google. Sagissant de laccord avec la bibliothque municipale de Lyon notamment, le
cahier des clauses techniques particulires indique seulement la transmission du fichier image et du
fichier du texte brut (texte non structur), sans aucun engagement sur la nature de locrisation et les
traitements effectus ; il nest donc pas vident que la bibliothque puisse ensuite faire les liens
ncessaires entre image et texte. Cette imprcision des accords est lie aux restrictions exiges par
Google quant aux usages possibles des fichiers par la bibliothque elle-mme, qui ne peut proposer en
17
On notera cet gard quaucune bibliothque nationale, lexception peut-tre de la Bibliothque de Catalogne qui jouit
cependant dun statut particulier, na ce jour conclu daccords de numrisation avec Google.
15
tlchargement que les images des livres, et non les fichiers textes (cf. infra). La bibliothque ne sait
donc pas avec suffisamment de prcision ce quelle va exactement recevoir de son cocontractant, ce qui
pose question la fois en termes de conservation et en termes dusages des fichiers par la
bibliothque18.

II.1.2. La mission daccessibilit

En raison de leur mission consistant favoriser laccs au patrimoine numris, les bibliothques
doivent pouvoir conserver une libert relle de travail sur les fichiers et sur leur utilisation, impliquant la
possibilit de contracter diffrents partenariats.

Or les accords actuels proposs par Google posent un certain nombre de limitations et de clauses
dexclusivit qui paraissent cet gard excessives, quelles soient explicites ou implicites.

Il n'est pas anormal qu'un partenaire priv ayant pris sa charge la numrisation de collections
bnficie de certaines contreparties - notamment d'une exclusivit d'exploitation commerciale des
fichiers. Encore faut-il sassurer que ces contreparties naffecteront pas la mise en valeur et
lexploitation de ces fichiers par les bibliothques elles-mmes.

La premire difficult des accords en loccurrence, projet de protocole daccord avec la BnF et
march conclu par la bibliothque municipale de Lyon provient des formulations imprcises qui
sont utilises (ou envisages). Tout dabord, la porte de lexclusivit commerciale, si elle est dfinie
pour la bibliothque, ne lest pas pour Google, qui ne prcise pas ncessairement la manire dont il
compte utiliser les fichiers au mieux figure une stipulation indiquant que les prestations excutes
pourront tre rmunres par les recettes publicitaires tires de la mise en ligne des fonds numriss19.
Ainsi, la bibliothque ne doit pas faire payer laccs aux uvres du domaine public.

Les tlchargements systmatiques ( systematic downloading ) sont galement prohibs, or il sagit l


encore dune notion assez imprcise : on peut penser quelle dsigne les pratiques doprateurs tiers qui
tlchargeraient en masse les fichiers proposs sur le site de la bibliothque, des fins de revente
notamment. Mais la porte exacte de la notion est peu claire et des usages lgitimes pourraient se
trouver handicaps par cette restriction si elle nest pas prcise.

Lautre difficult tient des limitations explicites, qui peuvent brider les initiatives de la bibliothque
pour renforcer laccessibilit son patrimoine numris. Ainsi, la bibliothque ne peut partager ou
fournir le contenu numris une tierce partie sans avoir obtenu pralablement lautorisation de
Google : si lide gnrale de la clause parat assez logique (les fichiers numriss gratuitement par
Google ne peuvent tre cds un concurrent), cette stipulation peut cependant handicaper des projets
en cours avec dautres partenaires, y compris publics. On relvera que, lors des discussions avec la BnF,
Google avait envoy une lettre indiquant expressment son accord pour que les fichiers numriss par
ses soins soient reverss dans Gallica et rpertoris sur le portail Europeana.

Les accords passs par Google prvoient toujours que les autres moteurs de recherche ne
pourront pas accder aux fichiers numriss par lui pour les indexer et les rfrencer20.
Autrement dit, cette exclusivit se traduit, concrtement, par l'absence d'indexation et de rfrencement
du texte des livres par d'autres moteurs de recherche. Seules les mtadonnes, gnralement produites

18
Cf., sur ces questions, lannexe 3 prcite (pp. 47 et suivantes).
19
Cf. article 6-2 du contrat entre la bibliothque municipale de Lyon et Google.
20
Dans tous les contrats connus, une clause stipule en effet que la bibliothque prendra les mesures techniques
appropries pour empcher laccs automatis aux fichiers livrs par Google.
16
par les bibliothques partenaires, sont accessibles aux moteurs, ce qui rduit considrablement la
visibilit sur Internet des fichiers exploits par les bibliothques et fait peser un lourd handicap sur les
bibliothques numriques que celles-ci pourraient vouloir dvelopper de faon autonome. On peut
comprendre les motivations de Google, qui prend sa charge financirement et techniquement les
oprations de numrisation, et souhaite, en contrepartie, bnficier dune exclusivit sur ce contenu
numris, lui permettant dtendre sa base de recherche dindexation et de rmunration. Mais cela
revient aussi permettre un acteur en position dominante sur le march de la recherche
dinformation et de laccs aux contenus numriques de renforcer cette position dominante.

Il faut par ailleurs sinterroger sur lindexation et le rfrencement, par Google, des fichiers des
bibliothques qui nont ou nauront pas t numriss par lui. Cette question nest pas aborde dans les
accords. Google se rserve la pleine proprit des fichiers numriques rsultant de la coopration
propose, sans quil soit fait rfrence en contrepartie aux autres fichiers numriss par les
bibliothques, les uns et les autres vivant, en quelque sorte, leur vie propre . Or le partenariat avec la
bibliothque municipale de Lyon et surtout le projet de protocole daccord avec la BnF ne portent que
sur une partie minoritaire du fonds patrimonial - le choix des ouvrages numriser, qui revient aux
partenaires publics, est ncessairement limit aux ouvrages relevant du domaine public et pouvant
supporter le processus de numrisation. Se pose ds lors la question de leur intgration ventuelle dans
le mode de consultation et de requtes mis en uvre par Google Livres. Il est dommage que les accords
nenvisagent pas, dans le mme temps, les aspects de rfrencement et dindexation dans Google
Livres, la bibliothque devant alors effectuer des dmarches supplmentaires pour assurer le
rfrencement de ses fichiers propres dans Google Livres et dans le moteur Google.

La dure des clauses dexclusivit est galement excessive : des dures de plus de vingt ans, qui
semblent aujourdhui la rfrence dans les contrats passs avec la socit Google21, sont extrmement
longues, notamment l're d'Internet, et peuvent aller l'encontre de la mission d'accs impartie aux
bibliothques.

Le niveau de qualit minimum de numrisation na pas non plus t dfini avec prcision. Or
pour les bibliothques, il doit ncessairement tre lev et clairement connu. La question des
possibilits et des outils de recherche sur les fichiers numriss qui seront exploits par les
bibliothques est en effet fondamentale au regard des usages et de leurs volutions22. La pratique qui
sest dgage est semble-t-il de proposer le fichier numris la bibliothque, qui peut laccepter ou le
refuser en cas de refus, le processus docrisation (reconnaissance de caractre) est repris, et un
nouveau fichier est alors nouveau propos. Mais aucun seuil minimum de qualit na t fix, ni
aucune pnalit prvue au cas o un tel seuil ne serait pas atteint.

Enfin, la confidentialit des accords revendique par la socit Google, outre quil sagissait dun
principe difficilement acceptable sagissant de bibliothques publiques23, na pas contribu lever les
doutes sur le bilan cots/avantages de tels accords pour les bibliothques.

II.2. Au regard de larticulation entre logique prive et logique publique

II.2.1. Une prise en compte insuffisante des atouts des bibliothques

Les bibliothques franaises - en particulier la BnF - disposent datouts importants, quil ne faut pas
21
Le march pass avec la bibliothque municipale de Lyon prvoit une exclusivit commerciale de 25 ans.
22
Cf. Annexe 3 prcite, notamment pp. 48-52.
23
Les pices du march pass avec la bibliothque municipale de Lyon nont t rendues publiques quaprs une dmarche
volontaire du rdacteur en chef de la revue Livres-Hebdo auprs de la Commission daccs aux documents administratifs.
17
sous-estimer dans le cadre dune ngociation avec un partenaire priv.

Le premier de ces atouts est celui du fonds, trs complet grce lapport du dpt lgal dans le cas de
la BnF. La BnF dispose galement de mtadonnes bibliographiques dj constitues travers un
catalogue multimdia riche de plus de 10 millions de notices de documents. Ce catalogue est le produit
de prs de deux sicles d'effort de catalogage par des professionnels expriments et de plus de vingt
annes de conversion rtrospective dont le cot pourrait tre valu avec prcision et qui dpasse
certainement une dizaine de millions d'euros. Les donnes les plus rcentes sont rdiges dans un
format bibliographique trs dtaill dont la valeur est unanimement reconnue.

Par ailleurs, le catalogue de la BnF s'appuie galement sur des mtadonnes d'autorit (5 millions de
notices) dcrivant avec une assez grande prcision les auteurs et les sujets des documents prsents dans
la bibliothque et reprsentatifs de l'ensemble de la production nationale puisque issus pour une grande
partie du dpt lgal (70.000 livres et 40.000 titres de priodiques, plusieurs dizaines de milliers de
documents spcialiss en 2008). Cet ensemble est en soi d'une haute valeur puisqu'il permet notamment
de distinguer les auteurs les uns des autres et de contribuer le cas chant une meilleure gestion des
droits l'heure o la question des uvres orphelines se pose avec une certaine acuit. On comprend
lintrt de Google pour ces mtadonnes dautorit dans le projet de protocole daccord envisag avec
la BnF lt 2009.

La BnF dispose galement d'un savoir-faire en matire de numrisation de masse. Avec la mise en
place des premiers marchs de masse en 2007, l'tablissement public a russi passer d'un rythme de
5.000 documents auparavant numriss chaque anne un rythme d'environ 100.000 documents dont
environ 40.000 livres en 2009. Cette exprience a permis de prciser les tapes-cls du processus de
numrisation et les exigences avoir l'gard des prestataires, d'identifier les points de blocage et freins
potentiels, de dfinir progressivement les niveaux de qualit les plus souhaitables, de spcialiser un
certain nombre d'agents dans les diffrents domaines lis au processus numrique, depuis la chane de
numrisation proprement dite jusque, dans une moindre mesure, aux phases de diffusion et de
conservation des documents numriques ainsi produits. Cette premire exprience a donn des rsultats
tangibles avec une bibliothque numrique de plus de 950.000 documents disponibles en ligne en
dcembre 2009.

Enfin, on peut considrer que ltablissement bnficie dune marque reconnue, au niveau
mondial, et quil peut exercer un effet dentranement rel sur les autres bibliothques europennes,
notamment via Europeana.

Or les accords semblent peu prendre en compte ces aspects lexception du projet concernant la
BnF, o une clause spcifique prvoyait que la socit Google reverse la bibliothque les fichiers
duvres francophones du domaine public numrises partir des fonds des autres bibliothques
signataires. Cet aspect dchanges de fonds est particulirement intressant et peut conduire envisager
dautres types de partenariats (cf. III). La bibliothque municipale de Lyon a, quant elle, mis laccent
sur la mise en place par Google dune interface sur le site de la bibliothque ( hosted solution ), afin que
les fichiers numriss y soient accessibles, en attendant de construire terme sa propre bibliothque
numrique partir des fichiers rcuprs auprs de son partenaire mais lautonomie de cette
bibliothque ne sera acquise qu lissue de la priode dexclusivit de 25 ans prvue par laccord.

II.2.2. Une ngociation dlicate du fait du positionnement bien particulier de Google

Toute ngociation avec Google est de surcrot particulirement dlicate en raison de la position
dominante quoccupe le moteur de recherche. Certes, en droit de la concurrence, seul labus de
18
position dominante est sanctionn. Il nen reste pas moins que les objectifs stratgiques de Google
doivent tre pris en compte dans lapprciation des engagements pris.

Google a intrt prserver la position de son moteur, dans un univers en constante volution. cet
gard, la numrisation de masse de livres prsente un trs grand intrt puisquelle permet au moteur de
recherche daccrotre sa base dindexation, tout en sassurant de lexclusivit des contenus numriss,
sur une priode longue. Il sagit dune forme de recherche dintgration verticale entre loutil de
recherche et les contenus indexs, non plus uniquement partir des ressources disponibles librement
sur le web, mais galement de contenus propres et exclusifs, confrant un avantage diffrentiel.

Le positionnement de Google lincite donc rechercher une exclusivit dutilisation sur les fichiers
numriss partir des fonds des bibliothques - seules les bibliothques elles-mmes peuvent aussi en
assurer une exploitation, mais limite. Or les ressources qui sont numrises proviennent de collections
publiques, et relvent du domaine public. Dans ces conditions, alors mme que la numrisation est
assure par le partenaire priv, il est difficile daccepter des clauses dexclusivit longues. En dautres
termes, dautres acteurs privs devraient pouvoir accder aux mmes ressources. Bien entendu, les
livres papier nentrent pas dans les clauses dexclusivit, dautres acteurs pouvant les re-numriser
sils le souhaitent (et dans la mesure o ltat de conservation des ouvrages permettrait nouveau de les
numriser). Mais les fichiers numriss devraient eux-mmes pouvoir faire lobjet dautres utilisations,
afin que des initiatives alternatives ou complmentaires puissent surgir. Il parat donc essentiel de
sassurer que le contrat ne bride pas les initiatives des autres acteurs privs.

cet gard, est souvent utilise la notion de facilit essentielle : cette notion, issue du droit de la
concurrence, est souvent employe dans le domaine des rseaux (chemin de fer, tlcommunications,
transport dlectricit). Les caractristiques dune facilit essentielle sont les suivantes : elle nest pas
interchangeable ou substituable ; le cot de mise en place dune infrastructure quivalente serait
prohibitif, en termes dargent et/ou de temps. Laccs cette facilit est donc indispensable pour les
oprateurs du secteur, et celui qui la dtient se trouve, de fait, en situation de monopole ou de position
dominante. Applique aux livres numriss, cette notion justifie lobligation de mise disposition des
fichiers pour les autres acteurs.

Par ailleurs il sagit dune entreprise dont les mthodes sont contestes. Il y a tout dabord,
comme on la vu, la pratique de la numrisation de contenus sous droits sans autorisation pralable des
ayant droits, en arguant de la notion de fair use . Le projet de rglement transactionnel de classe, sil
tait valid par le juge amricain, permettrait lentreprise de faire valider les acquis de cette pratique
pourtant illgale.

Par ailleurs, Google peut aussi tre peru comme une menace sur les questions de stockage et
dutilisation des donnes personnelles des internautes. Linquitude provient de la capacit de
loprateur agrger des donnes parses pour tablir un profil dtaill de millions de personnes
(parcours professionnel et personnel, habitudes de consultation d'internet, participation des
forums...). Google a baiss de 18 mois 9 mois la dure de conservation des donnes personnelles de
ses utilisateurs. Cette dure demeure cependant suprieure au dlai de 6 mois pour la conservation de
donnes personnelles par les moteurs de recherche, recommand en avril 2008 par le G29, un comit
runissant les diffrentes autorits charges de la protection des donnes personnelles (dont la CNIL)
dans les pays europens24. En outre, la CNIL reproche Google de ne pas se conformer la lgislation
franaise applicable.

24
Avis du G29 adopt le 4 avril 2008 (PDF)
19
Ce positionnement particulier rend donc difficile, demble, les ngociations. Des solutions peuvent
toutefois tre proposes - avec ou sans Google - pour numriser les fonds patrimoniaux des
bibliothques franaises et amliorer leur visibilit et leur disponibilit sur la toile. Cest lobjet de la
troisime partie de ce rapport.

*
* *

20
III. Les solutions possibles
La rflexion sinscrit dsormais dans un contexte renouvel, marqu par des marges de
manuvre relles pour mener une politique autonome. Lannonce par le Prsident de la
Rpublique, dans les priorits du Grand emprunt , dune enveloppe spcifique pour la numrisation
du patrimoine culturel et notamment des livres, introduit un changement considrable dans la
dimension, le rythme et la philosophie des projets de numrisation. Elle permet denvisager une
politique de numrisation du patrimoine crit la fois ambitieuse et autonome. Elle oblige en
contrepartie trouver une organisation la mesure de cette volont, sinscrivant dans le cadre de
coordination mis en place au niveau du ministre de la Culture et de la Communication, et sappuyant
sur des partenariats public-priv avec les diteurs ou, le cas chant, avec certains acteurs des rseaux
internet.

Ce choix vritablement stratgique change en tout cas la donne pour les bibliothques franaises,
lesquelles se trouveront dans une situation plus quilibre pour ngocier avec des partenaires privs.
Elles pourront en effet mener une rflexion en propre sur leur politique de numrisation, plutt que de
dpendre de propositions extrieures qui ne seraient pas ncessairement adaptes leurs objectifs.
Lautonomie retrouve devrait galement leur permettre de mieux matriser leur calendrier de
numrisation, ou en tout cas de ne pas dpendre uniquement de celui de grands oprateurs comme la
socit Google.

Lexprience de numrisation lance par la BnF avec Gallica est cet gard un atout, grce au savoir
faire acquis en la matire et lexistence de fonds dores et dj numriss dun volume non ngligeable.
Si les dbuts ont t assez laborieux, le site permet en effet daccder aujourdhui plus de 950.000
documents, dont 145.000 livres (cf. supra, I.1.2.). Son alimentation a trouv un rythme conforme aux
objectifs stratgiques initiaux, avec le passage dun volume de numrisation de 5.000 documents par an
avant 2007 100.000 documents par an en 2009. La mise en uvre des moyens financiers importants
dgags par la dcision du chef de ltat doit cependant saccompagner dun changement dchelle et de
rythme.

Les objectifs de cette politique de numrisation doivent tre dfinis clairement ds


maintenant. Deux objectifs gnraux nous paraissent devoir tre souligns demble.

Le premier objectif est dviter le risque dune segmentation du patrimoine, en se donnant lambition
dune numrisation exhaustive, ou en tout cas la plus large possible, des ouvrages libres de
droits et sous droits. Le dbat entre numrisation slective ou numrisation de masse a en effet t
tranch par les usages observs, qui tmoignent de la confiance des internautes dans la neutralit des
moteurs de recherche et de la capacit des acteurs culturels proposer progressivement leurs contenus
sur le web. Une large partie des requtes repose sur linterrogation de bases larges par un moteur simple
utiliser. La grande majorit des internautes, notamment le grand public, nattend pas vritablement
une ditorialisation des archives ; elle veut trouver ce qui lintresse. Si lusage simple du moteur de
recherche peut ensuite tre combin avec dautres modes daccs, plus structurs, il nen reste pas
moins que lusage dominant aujourdhui est celui de linterrogation via une requte simple, fonde sur
un ou quelques mots-cls. Une numrisation exhaustive est donc bien un des objectifs rechercher, en
sus des structurations documentaires pour des publics plus spcialiss par les institutions publiques.

Cet objectif est en phase avec la vocation historique de la BnF, attributaire du dpt lgal, et dtenant
ce titre un fonds de rfrence. Ltablissement a dores et dj commenc prendre en compte cet
objectif et entam le processus de numrisation, tout en talant ses tapes. Aprs identification des

21
grands domaines prioritaires et des sries thmatiques, la slection des documents numriser
seffectue aujourdhui principalement sur des critres matriels (uvre hors droits, publication en
France, tat de louvrage, format), en lien avec lobjectif dune numrisation de masse.

Cependant, compte tenu de lampleur du patrimoine en cause (les collections de la BnF reprsentent
environ 35 millions de documents dont 11 12 millions de livres ; parmi ces derniers, 5 millions sont
entrs dans le domaine public), il sagit bien dun objectif de long terme, dautant que les objets
numriser sont htrognes, et que seul un certain pourcentage de livres sont en tat de supporter un
processus de numrisation de masse en ltat actuel des techniques. Il conviendrait de sinterroger
explicitement sur lincidence qua ltat matriel des collections sur la numrisation ralise in fine afin
que les ouvrages en moins bon tat, souvent les plus demands, ne soient pas absents de la bibliothque
numrique.

Le second objectif porte sur la place du patrimoine franais crit sur linternet.. Il est aujourdhui
principalement visible via Google Livres, grce aux fonds francophones numriss des bibliothques
trangres, qui ne sont pas complets. Les fonds de Gallica ne sont en revanche que difficilement
accessibles lorsque linternaute averti ne se rend pas dabord sur le site de Gallica. Il conviendra donc
de veiller ne pas numriser pour numriser, mais dassurer laccs ces fonds numriss, ce
qui implique de rflchir trs en amont la faon dont les documents pourront tre trouvs, cest--
dire visibles, sur linternet. Une rflexion approfondie sur lensemble des moyens permettant cette
visibilit numrique (rfrencement, indexation, citations dans des blogs ou des sites communautaires,
etc.) devra donc tre engage.

Cest dans un cadre profondment modifi que sera dfinie la stratgie de numrisation, trois
niveaux :

En premier lieu, lexistence dune plate-forme telle que Gallica permet de sappuyer sur un outil
existant, mais dont les performances sont dsormais insuffisantes et dont la dimension cooprative
reste mettre en place, essentiellement vis--vis des diteurs et des bibliothques partenaires.

En second lieu, la mise en uvre de partenariats avec des acteurs privs (diteurs, moteurs de
recherche, plates-formes de diffusion) est lune des conditions dune bonne mise disposition des
fonds numriss sur linternet ; il convient donc de dfinir les contours de partenariats efficaces et
quilibrs qui pourraient tre conduits avec des acteurs privs, quil sagisse de Google ou dautres
entreprises.

En troisime lieu enfin, une nouvelle impulsion europenne est ncessaire, en coordination avec
les autres bibliothques europennes engages et en sappuyant sur le portail culturel commun
Europeana.

22
III. 1. Un outil privilgi qui reste amliorer : Gallica

III. 1. 1. Aspects institutionnels

Un bilan mitig

Un premier bilan montre les limites de lorganisation actuelle de la BnF et de Gallica. Plusieurs aspects
mritent plus particulirement dtre signals, qui concernent respectivement les moyens, la
coopration avec les autres bibliothques, la coopration avec les autres acteurs, au premier rang
desquels les diteurs, et enfin le pilotage de Gallica.

a) Sur le plan des moyens, lengagement du processus de numrisation de masse la BnF a permis
didentifier des difficults tenant lenvironnement humain et technique. Ce processus exige en effet de
mobiliser des moyens importants :
- en amont, pour identifier et slectionner les documents, les conditionner, les adresser au prestataire -
oprations qui ne peuvent pas tre confies un partenaire extrieur - et pour produire les
mtadonnes, notamment dans le cas o les mtadonnes existantes ne sont pas satisfaisantes ;
- en aval, pour assurer le contrle qualit des documents numriss. Une fois les fichiers reus,
ltape supplmentaire du contrle de la qualit de la numrisation incombe en principe la
bibliothque, or les flux peuvent tre considrables. Actuellement, ce contrle est en grande partie
automatis pour mobiliser moins de moyens humains, mais cette solution nest pas entirement
satisfaisante.

Le surcrot de travail ncessairement li au processus de numrisation est un lment essentiel


prendre en compte. Pour linstant, la BnF a fonctionn effectifs pratiquement constants, pour mener
de front la numrisation et les activits courantes de la bibliothque. Le passage un rythme suprieur
de numrisation reposera donc la question des moyens humains allous cette politique dans le cadre
du plafond demploi de ltablissement. La numrisation a de surcrot longtemps t envisage comme
un projet supplmentaire par rapport aux missions auxquelles linstitution doit rpondre. Ce nest que
trs rcemment que les diffrents dpartements de la bibliothque ont commenc se lapproprier,
avec un tournant marqu depuis 2007, anne pendant laquelle la BnF a engag un march de
numrisation de masse pour ses collections de livres imprims. Cette appropriation par les diffrents
dpartements en charge des collections explique dailleurs le choix dune relative dilution de l'quipe au
sein de ces dpartements, plutt que dun service centralis en charge de Gallica. Une rvision de
lorganisation accompagne du dploiement plus ambitieux de moyens humains affects la filire
numrique sont impratifs pour rpondre au nouvel objectif de numrisation de masse un rythme
soutenu.

b) Sur le plan de la coopration avec les autres bibliothques publiques, malgr le souhait
affirme de Gallica dabriter plusieurs collections en sus de celles de la BnF, force est de reconnatre
labsence dassociation effective des autres bibliothques, sinon trs marginalement ce qui, en
pratique, se traduit par le faible nombre de ressources en provenance de ces bibliothques partenaires
(moins de 7.000 documents, sur les 900.000 que compte le site aujourdhui). Si elles commencent tre
invites participer au projet Gallica, les modes de dcision et laccs aux crdits de numrisation
existants demeurent centraliss auprs de la BnF et sont donc peu incitatifs pour les bibliothques
partenaires.

La BnF propose la signature de conventions avec les bibliothques intresses, mais exerce un droit de
regard approfondi et peu transparent sur le choix des bibliothques retenues, celui des ouvrages

23
numriser, selon une forme de coopration verticale descendante . Le rapport de lInspection
gnrale des Finances sur la BnF25, publi en janvier 2009, propose, sur ce point, de partager davantage
la stratgie de numrisation avec dautres institutions, notamment le rseau des Ples associs de
partage documentaire , qui na que trs marginalement accs aux crdits de la troisime tranche du
march de numrisation de masse.

c) Si la BnF doit intervenir naturellement comme acteur principal du processus de numrisation, il est
certainement ncessaire de rflchir au mode dassociation des autres partenaires, quils soient
publics ou privs, dans la dfinition des objectifs, des options techniques et, plus gnralement, dans
lharmonisation des choix ditoriaux.

titre dillustration, il ne serait pas illogique que pour faciliter la mise en uvre dune chane de
numrisation de masse, non seulement des uvres hors droits, mais aussi des uvres sous
droits, la BnF soit investie de la mission de numriser galement cette dernire catgorie. En
effet, la loi du 1er aot 2006 a introduit dans le code du patrimoine (articles L. 132-4, L. 132-5 et
L. 132-6) le droit pour lorganisme dpositaire du dpt lgal de numriser, des fins de conservation
et de consultation sur place, les fonds quil dtient, sans autorisation pralable des dposants. Forte de
cette mission, la BnF pourrait numriser en masse les ouvrages quelle conserve, y compris ceux qui
sont sous droits, dont elle dtient la fois les ouvrages et les mtadonnes correspondantes.

Bien entendu, la mise disposition de ces fonds numriss ne pourrait se concevoir que dans un cadre
contractuel avec les diteurs et les reprsentants des ayant-droits, ds lors que les dispositions
lgales nautorisent la consultation des uvres du dpt lgal que de manire trs restrictive.

Lensemble ainsi cr constituerait une base numrise significative et savrerait particulirement


intressant exploiter, notamment pour ce qui concerne les uvres puises. Les ouvrages que les
diteurs ne souhaiteraient pas ncessairement publier nouveau sous format papier pourraient ainsi
trouver une exploitation nouvelle, rmunre et non exclusive, sous format numrique26. Pour le public,
la base consultable sen trouverait considrablement largie. Il y aurait donc une logique la fois
juridique, industrielle et de commerciale ce que la BnF numrise ses fonds libres de droit comme sous
droits.

Dans cette perspective, Gallica deviendrait un site daccs tout le patrimoine crit, via une plate-forme
cooprative respectueuse des droits des diffrents partenaires, les conditions daccs tant adaptes au
statut de chaque uvre.

La mission estime que la position de Gallica et son rle vis--vis des autres partenaires doivent tre
redfinis, tant sur le plan technique que sur son mode opratoire. Une association large et effective
des partenaires au pilotage de Gallica est une condition indispensable de lacclration de la
politique de numrisation et de diffusion numrique.

Vers une plate-forme cooprative de valorisation des fonds patrimoniaux et des uvres
numrises

A titre liminaire, il parat essentiel dindiquer que Gallica aurait pour vocation dtre une plate-
forme de rfrence, mais non exclusive, permettant laccs du public aux fonds numriss de
lensemble de ses partenaires. Les bibliothques et les diteurs qui le souhaiteraient pourraient ainsi
25
Inspection gnrale des Finances, Rapport sur la Bibliothque nationale de France, n 2008-M-065-02, janvier 2009
voir notamment p. 14 du rapport.
26
Un tel accs pourrait tre montisable, par exemple soit via le renvoi au site de lditeur, soit au sein des bibliothques,
sous la forme d'abonnement.
24
sadresser Gallica, tout en conservant bien sr la possibilit de diffuser par ailleurs leurs contenus
numriss sur tous les sites de leur choix dans la ligne de ce qui existe aujourdhui. En revanche,
laccs au financement public pour la numrisation des livres devrait tre subordonn
ladhsion Gallica, cest--dire lune ou lautre au moins de ses fonctionnalits : indexation du
contenu, feuilletage dextraits voire, le cas chant, commercialisation du fichier, directe (sur Gallica) ou
indirecte (par renvoi de Gallica vers un site tiers de vente, choisi par lditeur titulaire des droits).

Gallica se propose donc comme une plate-forme de diffusion de rfrence, dont lintrt permettrait
une visibilit accrue sur linternet grce limportance des contenus proposs et la mutualisation des
moyens.

a) Cest dans ce cadre que serait conu le partenariat avec les diteurs et les reprsentants des ayants
droit afin damliorer la prsence du corpus francophone sur linternet.

La BnF pourrait, comme on la vu, procder la numrisation de masse des ouvrages collects
au titre du dpt lgal. Si elle dispose de la lgitimit juridique pour le faire au titre de la conservation,
voire de laccs sur place ces fonds, le dialogue avec les diteurs nen demeure pas moins
indispensable plusieurs niveaux. Il convient de souligner que les diteurs restent libres de poursuivre
leurs propres oprations de numrisation, qui concernent aujourdhui essentiellement les ouvrages
rcents. Ils pourraient en outre mener des oprations de numrisation plus pointues ou ncessitant des
normes plus exigeantes pour leurs fonds, compte tenu notamment de lexploitation quils comptent en
faire et qui demeure, bien entendu, de leur ressort27.

Le dialogue ncessaire tablir porterait galement sur les modes daccs au contenu, tant
entendu que les livres sous droits ne pourraient pas faire lobjet daccs gratuit via Gallica sauf dans le
cas ventuel dun accord pralable de lditeur.

Outre lopportunit juridique offerte par la loi du 1 er aot 2006 en matire de numrisation et de mise
disposition des fonds numriss, on devra galement recourir une dmarche contractuelle o la
numrisation des livres sous droits sera prcde d'une discussion pralable avec les diteurs sur la
rpartition des tches et des charges assumer par chaque partie en fonction des usages et des modes
d'exploitation finalement retenus.

Enfin, par son positionnement la frontire du champ patrimonial et du secteur sous droits, Gallica
serait naturellement appele jouer un rle de plate-forme de diffusion et de valorisation des
uvres orphelines, partir du moment o le code de la proprit intellectuelle permettra les
utilisations numriques de ces documents. Une recommandation du Conseil suprieur de la
proprit littraire et artistique d'avril 2008 prne en effet la mise en place d'une gestion collective
obligatoire des uvres orphelines de l'crit et de l'image fixe afin de les rendre plus aisment
disponibles aux rutilisations notamment sur le web. Le 30 septembre 2009, le ministre de la culture a
charg ses services de proposer une suite lgislative cette recommandation.

Afin que Gallica puisse devenir le lieu dune diffusion efficace de ces livres sous droits mais sans ayants
droit identifis, dans le respect des droits associs ces uvres, il apparat extrmement souhaitable que
les diteurs soient associs au pilotage mme de Gallica.

b) Sagissant des bibliothques, le processus de numrisation lui-mme (choix des ouvrages, volume
de la numrisation) pourra continuer relever des bibliothques partenaires.

27
Et feraient lobjet soit dun financement propre, soit des fonds spcifiques du Centre national du Livre pour les projets
de numrisation pointus .
25
La BnF devra cependant proposer toutefois ceux qui le souhaiteront des solutions communes, en leur
ouvrant notamment ses propres marchs de numrisation dans la ligne, par exemple, de
lexprimentation en cours avec les bibliothques dAlenon, de Compigne, de Lyon, de Cujas et de
lInstitut national dhistoire de lart (trois bibliothques municipales et deux bibliothques
universitaires), qui a permis de faire bnficier ces bibliothques dun march de la BnF tout en
dcentralisant certains aspects du processus de numrisation. Ainsi, les fonctions de numrisation en
tant que telles et surtout de stockage des fichiers numriques pourraient tre partages, rien
nempchant les bibliothques partenaires de les assurer elles-mmes si elles le souhaitent.

Quelle gouvernance ?

Lorganisation retenir doit sinscrire dans le cadre qui sera dfini au sein du ministre de la Culture et
de la Communication pour piloter lensemble du processus de numrisation du patrimoine culturel et,
plus largement, devra tenir compter du rle du commissariat en charge du suivi du Grand Emprunt qui
sera charge de piloter lensemble des actions.

Les propositions de la mission conduisent retenir plusieurs niveaux daction :


- la numrisation des livres (choix des ouvrages, pilotage de la chane de numrisation,
passation des contrats de prestation ncessaires, production de fichiers) ;
- le stockage et la maintenance de ces mmes fichiers ;
- la mise disposition au profit des internautes (conception de la plate-forme, choix des
techniques dindexation) ;
- les exploitations commerciales proprement dites, gratuites ou payantes, directes ou
indirectes ;
- les partenariats avec les oprateurs susceptibles de dvelopper laccs aux uvres nationales.

a) Il appartiendra la structure de coordination mise en place au niveau du ministre de la


Culture et de la Communication de dfinir les volumes et les financements associs aux deux
premiers niveaux ci-dessus : processus de numrisation et stockage.

b) La mission prconise, en revanche, que les choix des formats et normes techniques, ainsi
que les procdures et partenariats concevoir, le soient au sein de la structure de rfrence
rorganise, Gallica, sous rserve de leurs approbations par la structure de coordination du ministre
et le cas chant, par le commissariat charg du Grand Emprunt.

Ainsi, lensemble des questions lies une ncessaire logique dharmonisation serait trait au
niveau de Gallica28 :
- lharmonisation des mtadonnes associes aux documents, celles-ci tant un vhicule dinformations
essentielles pour la qualit de la recherche, le rfrencement et laccs linformation ;
- linteroprabilit des fichiers et plus gnralement des formats de donnes changes (mtadonnes et
contenus), notamment travers la dfinition de standards communs de numrisation, de diffusion et de
stockage numrique ;
- la gestion de linterface de consultation, du moteur et du rfrencement ;
- le cadre des marchs ayant trait au dveloppement et au fonctionnement de la plate-forme.

Lune des premires missions de Gallica, dans ce cadre renouvel, sera de dfinir ses nouveaux
besoins pour accommoder le changement dchelle de la numrisation. Ce changement dchelle
28
On relvera cet gard que plusieurs chartes ont t dfinies (charte documentaire, charte de numrisation, charte OCR).
Ces travaux de rflexion en commun devront tre poursuivis.

26
ncessitera en effet une volution profonde du fonctionnement de la plate-forme. Les cots inhrents
ce changement doivent tre pris en compte sparment des cots de la numrisation proprement
dite (nouvelles infrastructures, notamment de stockage, dveloppement de nouvelles fonctionnalits,
etc.). Elle pourra ensuite prparer un adresser un dossier de demande de financement auprs de la
structure de coordination mise en place par le ministre.

Sur le plan stratgique, il semble ncessaire la mission que Gallica conserve un rle moteur en matire
de pilotage des accords ventuels avec des partenaires privs - la logique de tels accords relevant
davantage de lintrt collectif que de celui de chacun des membres associs Gallica. En outre, il
parat ncessaire de parler dune seule voix, par lintermdiaire dun interlocuteur ayant une certaine
masse critique. Gallica pourrait ainsi tre clairement identifie et bnficier demble dune position de
ngociation et dun savoir-faire mutualis en matire de partenariat. Cette fonction motrice nest
cependant envisageable que si le pilotage de Gallica est lui-mme redfini pour y associer de faon
beaucoup plus troite ses partenaires au premier rang desquels les bibliothques et les diteurs.

La question se pose ds lors de savoir si Gallica doit demeurer intgre au sein de la BnF ou, autre
option, sil est utile de concevoir une entit nouvelle sous la forme, par exemple, dun groupement
dintrt public vocation culturelle.

Quelle que soit la solution retenue, le rle de la BnF demeurerait important puisquelle en serait un
partenaire privilgi.

c) La mission prconise en tout cas que lautonomie de Gallica soit renforce afin de devenir une
structure ddie, travaillant pour le compte de partenaires dorigine diffrente et charge, en toute
concertation, de dfinir les grands choix techniques, dassurer la diffusion des contenus et de grer les
financements. Cette structure travaillerait sous limpulsion dune instance qui runirait les
diffrents partenaires de la plate-forme. Cette instance collgiale serait dcisionnelle.

Linstance de pilotage de Gallica serait notamment charge de dfinir les grandes volutions de la plate-
forme, les normes et standards techniques de la mise disposition des fonds patrimoniaux, Il lui
reviendrait dlaborer une politique de visibilit du patrimoine numris, de rflchir linterface de
consultation, au moteur - et plus gnralement lamlioration des fonctionnalits de Gallica afin de
mieux rpondre aux usages et de sentendre sur lexprience propose lutilisateur. Il sagirait aussi,
le cas chant, de concevoir une politique de valorisation commerciale, avec laccord des organismes ou
partenaires propritaires des fichiers.

La coordination gnrale entre les diffrents partenaires engags dans le processus de numrisation
serait assure par la structure mise en place au sein du ministre de la Culture et de la Communication.

III. 1. 2. Amliorer la prsence de Gallica et de ses contenus sur linternet

Les efforts de numrisation doivent saccompagner dune volont de conqute de visibilit sur le web.
Rien ne sert dtre disponible si lon nest pas visible29.

cet gard, lune des premires dmarches qui pourrait tre conduite serait de changer le nom de
Gallica, en saisissant pour cela loccasion du changement de dimension de la politique de numrisation.

Si Gallica est facilement accessible depuis les moteurs de recherche partir d'une requte avec le nom
29
Nous renvoyons l encore lannexe 3, qui fait une comparaison approfondie entre les fonctionnalits offertes par
Gallica et par Google Livres.

27
Gallica (le lien vers le site arrive alors en premire rponse, quel que soit le moteur de recherche
utilis), ce n'est pas le cas lorsque l'on interroge le moteur partir d'un titre ou d'un nom d'auteur.
Ainsi, une recherche sur le Rouge et le Noir , prsent dans les collections numriques hors droits de
Gallica, ne laisse apparatre aucun rsultat en provenance de Gallica. La premire occurrence de
l'ouvrage numris vient de Google Livres, qui propose l'accs l'exemplaire numris de la
bibliothque de l'universit de Californie (dition de 1866). Une recherche associant les termes le
Rouge et le Noir et Gallica ne renvoie pas non plus directement des rsultats de recherche
directement issus du site, mais permet cependant un accs indirect via des liens partir de blogs
d'internautes, ce qui montre que le site a t utilement repr.

La politique de visibilit du site et de dissmination de ses contenus hors droits sur l'internet a
commenc, mais elle doit tre poursuivie et accentue afin que ces contenus soient mieux reprs par
les moteurs de recherche.

Rfrencement et indexation

Les quipes la BnF viennent dengager une rflexion approfondie pour accrotre la notorit de
Gallica, en privilgiant notamment trois formes dactions : la multiplication des accs, depuis la base,
des contenus varis (stratgie dite de liens fins ), lamlioration du signalement et du rfrencement,
et un meilleur accs pris en compte par les moteurs de recherche des mtadonnes et de lindexation de
lensemble des contenus (indexation plein texte ).

Cette politique portant la fois sur un meilleur rfrencement du site et sur lindexation des contenus
afin quils soient facilement accessibles via des requtes sur les moteurs de recherche doit tre
poursuivie et approfondie.

Les moteurs de recherche ne peuvent pas accder des pages contenu dynamique, qui ne se crent
que sur requte dun internaute, partir dune interface de recherche propre Gallica. Lattention
porte au nommage des pages, la personnalisation des URL, lamlioration du rfrencement naturel, le
chanage des pages entre elles, la cration de pages datterrissage , lutilisation des mtadonnes, voire
lachat de mots cl peuvent tre cits parmi les techniques disposition de Gallica pour que ses
ressources apparaissent mieux dans lunivers numrique.

Ces actions doivent la fois permettre une indexation des contenus par ces moteurs de recherche et
la consultation complte de louvrage par un lien pointant sur le site Gallica.

De nouvelles fonctionnalits, davantage orientes vers les aspects participatifs et


communautaires

Les aspects participatifs ( wiki ) ne doivent pas tre sous-estims. Ils peuvent permettre denrichir
utilement le site, et notamment les mtadonnes, de dvelopper des communauts au sein de Gallica et
den accrotre la notorit.

Les internautes peuvent en effet contribuer enrichir une ressource (par exemple une photo ou un
ouvrage) par des liens, des ressources associes (par exemple des thses sur louvrage ou lauteur) ou
des commentaires. Les comptences des bibliothcaires trouvent l aussi matire expansion dans le
territoire du numrique avec des possibilits de cration de labels (par exemple, comme dans une
bibliothque physique, les usuels ) faisant ressortir lintrt dun ouvrage. Le dveloppement et
lharmonisation des mtadonnes peuvent galement faire lobjet dun prolongement par le
dveloppement dune dmarche smantique, laquelle peut son tour tre complte par les internautes.

28
Gallica peut par ailleurs offrir aux communauts - dintrts communs ou de recherche - des
fonctionnalits dtiquetage, de partage, denrichissement. Si les tentatives dorganisation des
communauts de la Toile par des institutions sont souvent voues lchec, la proposition rgulire de
nouvelles fonctionnalits simples dutilisation mais innovantes peut permettre Gallica de remplir dans
le monde numrique sa mission daccueil des passionns et des chercheurs.

III. 1. 3. Amliorer le service rendu par Gallica

Un moteur amlior

Gallica rflchit actuellement l'amlioration de son moteur de recherche. Le moteur utilis aujourd'hui
(Lucene) est ddi la recherche plein texte : il opre sur un index pr-constitu, unique, et n'interagit
avec aucune autre base de donnes. Si le choix du moteur pouvait se comprendre au regard des
volumes traits, il devra tre profondment repens dans la perspective dun accs de masse30.

D'une part, le moteur doit voluer dans la mesure o Gallica veut adapter ses outils documentaires en y
adossant des outils d'analyse smantique plus pousse. D'autre part, une rflexion sur l'ergonomie de la
recherche doit continuer tre mene, afin de mieux paramtrer le moteur en fonction des attentes en
termes d'usages. Autrement dit, lergonomie doit tre revue tout autant pour linternaute qui
viserait une recherche rapide, en 1 clic , que pour le chercheur souhaitant affiner le
primtre de sa recherche grce des outils de tri, de filtrage, de positionnement dans un
champ prcis de recherche. Ce dernier lment est un lment important de distinction lgard de
Google Livres. Mais il faudra galement prendre en compte imprativement la facilit daccs au
contenu.

Le changement dchelle de la numrisation rend cette problmatique dautant plus urgente : les choix
technologiques actuels, notamment en matire de moteur, ne paraissent pas pouvoir accommoder
pareille volution. Cet aspect est stratgique, la performance du moteur tant une condition
indispensable pour exister ct de plates-formes telles que Google Livres.

Cela peut passer soit par une extension du dploiement du moteur actuel, soit par l'adoption d'un autre
moteur de recherche plus performant.

Ce projet est dores et dj identifi comme prioritaire par les quipes techniques de Gallica.

Des mtadonnes normalises

Les mtadonnes sont essentielles pour laccs aux informations sur les contenus numriss. Il est donc
d'autant plus important d'viter les erreurs et de corriger les omissions ventuelles31. Aujourd'hui, les
bibliothques numriques comme Gallica et Google Livres utilisent la mme norme internationale de
base (le Dublin Core ), ce qui garantit l'interoprabilit des mtadonnes provenance de ressources
documentaires diverses.

Mais l'usage d'une norme homogne ne garantit pas la qualit. Le caractre contraignant de cette norme
peut en effet inciter les bibliothques numriques simplifier les mtadonnes dont elles disposent, ou
rassembler dans une seule et mme catgorie ( champ ) des mtadonnes plus finement structures.
La norme ne peut pas, par ailleurs, pallier les dfauts qui se trouveraient dans des mtadonnes sources.

30
Cf. Annexe 3, pp. 55 et suivantes.
31
Cf. Annexe 3, pp. 53-55.
29
Celles-ci sont structures par champs ( auteur , titre , diteur , source , etc.). Si, par erreur ou
par souci de simplification, certains lments figurent dans le mauvais champ (par exemple si le nom de
l'auteur figure dans le champ titre ), l'inadquation du contenu et du contenant rendra moins
pertinents les rsultats de la recherche. Ces erreurs nuisent la cration de liens entre les livres (livres
du mme auteur par exemple) et la qualit des actions qui peuvent tre menes sur des rsultats de
recherche (classement ou filtre par auteur, notamment).

Les sources d'informations des bibliothques numriques tant multiples et htrognes, la


normalisation des mtadonnes reste donc problmatique dans les chantiers de numrisation de masse.
Cette normalisation passe par l'usage de listes d'autorits unifies, le redressement des notices
bibliographiques et l'exercice d'un contrle qualit approfondi sur les mtadonnes associes aux fonds
numriss.

Sont en jeu la pertinence des rsultats de recherche pour l'internaute, la possibilit de classer les
informations recherches - qui sont en lien avec le gain de pertinence smantique des moteurs de
recherche - mais aussi le dveloppement du web smantique . Ces enjeux relvent pleinement du
primtre d'activit des institutions de conservation et de valorisation des fonds patrimoniaux, qui
doivent s'y impliquer significativement.

III. 2. Conditions dun partenariat quilibr avec des acteurs privs

Les dveloppements prcdents ne doivent pas laisser penser que les grandes institutions publiques
pourront mener leur politique de numrisation sans recherche dventuels partenariats avec des acteurs
privs oprant sur les rseaux internet. De tels partenariats peuvent avoir un effet trs positif, non
seulement sur le plan technologique, dans un domaine en volution constante et rapide, mais galement
en termes de masse critique de contenus notamment, si un tel partenariat tait mis en place avec un
acteur ayant dj pris des initiatives importantes en matire de numrisation de contenus.

De tels partenariats devront cependant respecter un certain nombre de conditions essentielles et


garantir la fois lquilibre et la rciprocit entre les parties. La BnF doit cet gard jouer un rle
exemplaire, li notamment au fait quelle est attributaire du dpt lgal.

III. 2. 1. Objectifs et conditions pralables

Objectifs

Lobjectif principal est dassurer une large visibilit de notre patrimoine sur linternet et son
appropriation, la fois en recourant aux mthodes spcifiques dindexation et de rfrencement
propres lunivers numrique, mais galement en tirant parti des complmentarits de contenus, afin
datteindre un effet de masse critique dans lunivers francophone en ligne.

Le premier aspect suppose de ne pas carter des partenariats avec des acteurs du type moteurs de
recherche, comme Google mais aussi comme Bing, le moteur dvelopp par Microsoft, ou encore
Yahoo! Les nouvelles gnrations de moteurs sorientent vers la prsentation de contenus de plus en
plus structurs. Une plate-forme de contenus ordonns comme lest Gallica peut, ce titre, devenir un
partenaire trs attractif pour ces moteurs.

Le second aspect intressera davantage les acteurs ayant dj numris des contenus au premier rang
desquels figurent les diteurs mais aussi Google Livres. Le partenariat avec les diteurs devrait faire
30
lobjet dune coopration renforce, comme indiqu prcdemment. Cest donc essentiellement sur le
dernier aspect que le rapport se concentre la coopration avec des plates-formes de contenus de type
Google Livres - mais il est bien entendu quil nest pas exclusif des prcdents.

Lautre objectif est la mise disposition la plus large possible des uvres du domaine public qui
auront t numrises. Parce que ces uvres relvent du domaine public, leur contenu peut, en quelque
sorte, tre considr comme une infrastructure essentielle au sens du droit de la concurrence. ce
titre, lutilisation des fichiers numriques de ces uvres ne doit pas tre bride par des clauses
dexclusivit sagissant du moissonnage des diffrents robots des moteurs existants ou des usages des
bibliothques dpositaires de ces contenus libres de droit.

Conditions pralables

Deux conditions doivent avoir t pralablement remplies par le cocontractant ventuel de Gallica.

La premire est le ncessaire respect du droit dauteur. Il en va du respect de la loi franaise et de la


loyaut lgard des diffrents partenaires de la plate-forme Gallica
La seconde exigence est relative aux conditions dans lesquelles le cocontractant grera les informations
et donnes personnelles des internautes. Il parat essentiel que soient dfinies pralablement les
conditions notamment les conditions de dure dans lesquelles ces donnes seront conserves, voire
utilises. Le type de consultation et, en loccurrence, de lectures dun internaute est en effet une
donne sensible, qui exige que soient prises certaines prcautions ex ante en matire de non-divulgation
et de conservation limite de la donne.

III. 2. 2. Un livre pour un livre : une proposition de partenariat fonde sur


lchange de fichiers numriss

Les principes

Les accords jusquici passs ou proposs aux bibliothques en matire de numrisation de masse,
essentiellement par lacteur majeur quest Google dans ce domaine, ont consist faire prendre en
charge la numrisation (scan et ocrisation des ouvrages) par lacteur priv, ce dernier mettant
ensuite disposition de la bibliothque une copie du fichier numris, avec toutefois certaines
restrictions dutilisation pendant une dure excessivement large.

Pour viter de telles clauses dexclusivit sur des uvres du domaine public, et permettre la
bibliothque dtre propritaire part entire de ses fichiers numriques, il parat ncessaire que ce soit
elle qui procde ces oprations ou qui les finance. Cest donc sur un autre terrain quun partenariat
avec un acteur disposant dj de contenus numriss doit se fonder.

Un accord avec Google par exemple - ou, plus prcisment, avec sa plate-forme de contenus Google
Livres - pourrait viser, non pas faire prendre en charge leffort de numrisation mais le partager,
en changeant des fichiers de qualit quivalente et de formats compatibles (textes et images).

Ces changes pourraient tre prvus dans des proportions dfinir, afin dviter les redondances mais
aussi de tirer profit des complmentarits (par exemple, diverses ditions dun mme ouvrage).

Ceci permettrait Gallica datteindre plus vite la masse critique ncessaire en langue franaise Google
Livres disposant de contenus francophones numriss via les fonds des bibliothques amricaines avec
lesquelles il a contract, et galement de fonds francophones en provenance de bibliothques

31
europennes (Gand, Lausanne et bientt Lyon). De son ct, Google Livres pourrait enrichir sa propre
base de contenus des collections de rfrence francophones prsentes dans Gallica. Cet change
pourrait tre complt par lamlioration rciproque des mtadonnes et des notices respectives. Enfin,
laccord pourrait envisager que la provenance du fichier apparaisse sur le site consult, par exemple par
laffichage dun logo ou dune mention.

Chaque partenaire resterait libre de disposer des fichiers obtenus par lchange, dans des
conditions transparentes et dfinies lavance.

Equilibre conomique du projet

Cest certainement le point o les vues les plus divergentes peuvent se faire jour : les objectifs de
chacune des parties peuvent ne pas concider, la construction de projections financires sres et
transparentes peut se heurter un ventuel souhait du partenaire de ne pas divulguer le dtail de ses
propres sources de revenus, enfin les valorisations envisageables sur le moyen terme ne sont pas
forcment aisment identifiables.

Si cela savrait ncessaire, il serait possible de procder par tapes :

1re tape : un accord sur les standards des fichiers changer et une valuation de la qualit et de la
compatibilit des fichiers sur une plus grande chelle ;

2me tape : un change d'une base de fichiers portant sur un nombre donn de documents (de lordre
de 100.000 ouvrages par exemple) et une valuation des consultations effectives des internautes ;

3me tape : un change sur une base plus large de fichiers et ventuellement de corpus
complmentaires, le cas chant assorti dun accord sur les conditions dexploitation commerciale des
fichiers changs.

Proposition alternative

Il ne faut pas sous-estimer, toutefois, la complexit que peut entraner l'change pur et simple de
fichiers sur le plan technique dfinition des types de fichiers livrer, avec conversion ventuelle si les
fichiers initiaux ne correspondent pas, lourdeur et cots de cette conversion (passage en format PDF
par exemple). Dans lhypothse o ce type dchange de fichiers ne pourrait se faire aisment, en raison
par exemple, dincompatibilits entre les fichiers changer et la plate-forme daccueil ou les usages que
souhaite en faire la bibliothque, un autre type de partenariat pourrait tre envisag, qui aurait lavantage
de respecter lobjectif de visibilit des fonds numriss.

Les moteurs de recherche voient les pages de livres comme des pages web , il est donc ncessaire
quelles soient structures de manire pouvoir tre indexes facilement par ces moteurs. Le processus
de numrisation que Google met en uvre intgre cette structuration spcifique. Il pourrait ainsi tre
intressant denvisager la cration dune filire de numrisation partage une sorte de joint-
venture qui permettrait et Google et la bibliothque de raliser leurs oprations de numrisation
au mme moment, chacun selon leur procd, mais en partageant les quipes et en ne mobilisant
quune seule fois les ouvrages numriser. On pourrait notamment envisager que cette filire
commune permette de scanner une seule fois les documents, latelier de scan tant pleinement partag.
Autrement dit, la numrisation image pourrait tre pleinement mutualise. En revanche les procds
docrisation pourraient rester distincts, afin que chaque partenaire puisse retenir le niveau de qualit et
les fonctionnalits ncessaires pour lintgration harmonieuse sur sa plate-forme.

32
Certes, les ouvrages seraient ocriss deux fois, mais les cots seraient rpartis, et la bibliothque serait
certaine que les fichiers numriss par Google seraient traits par lui de faon tre correctement
indexs. Or une indexation correcte aide considrablement retrouver un ouvrage sur la Toile,
autrement dit le rendre accessible et visible. Cette visibilit accrue, de faon quasiment gratuite, est
mettre en balance avec les cots relativement levs dune politique dynamique de mise en ligne efficace
sur le web. Enfin, chacun des acteurs conserverait, encore une fois, la matrise complte de ses propres
fichiers. Il conviendrait dvaluer lapport initial de chaque acteur (Google ou la bibliothque) et de
dterminer en fonction du nombre de documents fournis par chacun dventuelles compensations.

Un partenariat conforme aux objectifs des parties

Une socit telle que Google, est-elle susceptible dtre intresse par un partenariat de cette nature,
dans le prolongement du programme engag avec de nombreuses institutions patrimoniales, aux tats-
Unis comme en Europe ? Rciproquement, la mise en ligne du fonds littraire franais passe-elle
ncessairement par un rfrencement comme lment de Google Livres ? Subsidiairement, un accord
de cette nature peut-il contribuer accentuer le dsquilibre au profit de Google vis--vis de ses
concurrents ?

On peut observer que ce type daccord rpondrait aux objectifs officiels de Google : mettre la
disposition des internautes un accs simplifi et homogne la majorit des uvres numrises, et cela
sans cot direct pour cette socit, contrairement aux accords actuels avec les bibliothques qui sont
onreux pour Google. Il autoriserait galement une exploitation commerciale, une fois dtermines les
rgles de partage de revenus selon le statut des uvres. Il amliorerait en outre limportance de loffre.
Enfin, il pourrait donner accs des mtadonnes et des notices incomparables et compenserait cet
gard les faiblesses de Google Livres sur ce point.

Ce type de partenariat est galement intressant pour la visibilit des livres non anglophones sur la
Toile. Loffre numrique accrue et la multiplication des accs possibles ces contenus (directement, par
accs Gallica ou via un moteur de recherche), rpond lobjectif central de diffusion du patrimoine
crit numris. Et pour chaque partenaire associ Gallica, nest-ce pas une valorisation
complmentaire de ses actions de numrisation et une plus grande visibilit du site propre gr par ce
partenaire, sil en a conu un ?

Demeure cette vidence quun accord nest que la rencontre de deux volonts et que lon ne peut
prjuger des avances venir.

III. 3. Rechercher une impulsion nouvelle au niveau europen

En Europe, un certain nombre de bibliothques de statuts divers ont sign des accords avec Google
(cf. Annexe 4), dautres sont intresses nouer un partenariat, le plus souvent pour bnficier des
financements ncessaires une numrisation de masse, mais aussi par souci dtre prsente de manire
efficace sur linternet - et cela pour des ouvrages dans des langues de large audience, comme pour des
langues moins diffuses mais rfrences par Google.

La mise en uvre des projets franais de numrisation du patrimoine crit risque par ailleurs de crer
un dsquilibre en Europe, mme si les instruments existent (notamment Europeana) et si les
concertations sont souvent troites.

La mission a reu plusieurs dirigeants dautres bibliothques europennes. Elle sest efforce de mieux
analyser les enjeux et de percevoir les doutes, comme les engagements rels, de nos partenaires. Il lui
33
parat indispensable de dvelopper les bases dune coopration active susceptible de faire contrepoids
aux initiatives des grands acteurs privs du secteur.

Le dfi est triple :


- comment financer une numrisation de masse en Europe ?
- comment procder, selon quels principes, quelle technologie et quelles normes ?
- Europeana est-il une alternative crdible, de qualit potentielle quivalente, Google Livres ?

Autant de questions auxquelles doit rpondre une politique europenne, qui pourrait s'appuyer sur trois
axes : la mutualisation des actions des bibliothques, la relance d'Europeana et la dfinition d'une charte
commune pour les partenariats publics/privs.

III. 3. 1. Mutualiser les actions des bibliothques

Les bases sur lesquelles fonder une action europenne

En matire d'acquis individuels des bibliothques, tout d'abord, nombre d'entre elles ont dj engag
des actions de numrisation et dvelopp, ce titre, un savoir-faire.

En matire de volont d'agir ensemble, ensuite, on peut souligner que la prise de conscience de l'enjeu
de la numrisation des fonds patrimoniaux est relle, que de nombreuses bibliothques participent
d'ores et dj divers projets et programmes communautaires (comme le PCRD, parmi les
programmes relativement anciens, ou le projet plus rcent ARROW, soutenu par le programme
europen e-Content +, pour les uvres orphelines par exemple), enfin qu'un intrt partag pour les
partenariats public-priv se fait jour, illustr par le projet de charte des bibliothques publiques sur les
conditions de partenariats public-priv (en cours dlaboration par la Conference of European National
Librarians CENL).

La cration dun rseau de bibliothques volontaires

linstar des initiatives prises dans le domaine des mdias, pourrait tre cr un rseau de
bibliothques volontaires adoptant un processus commun de numrisation. Celui-ci pourrait
se traduire plusieurs niveaux :
- la mise en place, pour celles qui le souhaiteraient, de centres communs de numrisation - l'objectif
tant d'harmoniser les mthodes et les fichiers afin de les rendre interoprables, et de partager les cots
des chanes de numrisation en mettant en commun leur expertise et leurs moyens, les bibliothques
pourraient ainsi bnficier dune alternative aux propositions de Google, sans avoir accepter de
clauses dexclusivit ;
- la mise en place, le cas chant, de centres communs de stockage numrique, permettant l
encore une mutualisation des cots ;
- l'change de fichiers numriques entre les bibliothques de ce rseau. Dans ce cadre, Gallica
pourrait proposer ses partenaires qui le souhaiteraient dhberger et de diffuser leurs fichiers
numriques tendant ainsi aux bibliothques europennes une partie de ce quil propose ses
partenaires franais. La provenance des contenus serait systmatiquement identifie, soit par la mise en
vidence de logos, soit encore par la mise en place dune interface adapte la consultation de ces
fonds trangers et rendant transparente la diffusion via Gallica. Autrement dit, Gallica hbergerait en ce
cas les contenus mais ceux-ci seraient consultables dans leur environnement spcifique, choisi par la
bibliothque dorigine. Et ce, sans exclusivit. Une forte incitation la coopration dautres
bibliothques nationales europennes en la matire pourrait rsulter des larges fonds trangers
conservs la BnF. ce titre, la numrisation des collections ne doit peut-tre plus se limiter aux seuls
34
ouvrages initialement publis en France.

Dautres plates-formes existantes ou crer pourraient galement jouer ce rle en Europe. Ces plates-
formes changeraient entre elles leurs fichiers respectifs et tabliraient les liens susceptibles de faciliter
la consultation et le moissonnage de leurs fichiers.

III. 3. 2. Faire voluer Europeana

Lacclration de la numrisation et lextension corrlative des contenus de Gallica ne pourront que


renforcer Europeana, dont lalimentation dpend des Etats et des institutions qui en sont lorigine.
Outre cet aspect quantitatif , des rflexions qualitatives pourraient tre menes.

Europeana devrait devenir un lieu d'changes. Trois axes de coopration pourraient ainsi tre
dvelopps, travers ce lieu d'changes :

- coopration sur les mtadonnes, les formats et les modes dindexation, afin dactualiser en
permanence les options communes aux partenaires du rseau mentionn ci-dessus. Ce travail
d'harmonisation serait directement utile l'alimentation du portail ;
- aide aux bibliothques pour qu'elles puissent passer entre elles des accords dchanges de fichiers ;
- coordination de la rflexion sur les questions des uvres orphelines et des uvres puises.
Lintgration du programme Arrow va dailleurs dans ce sens.

S'agissant des fonctionnalits actuelles d'Europeana, le passage des modes de recherche plein texte, au
moins sur les contenus crits, amliorerait sensiblement la qualit de la navigation sur le portail :
l'utilisateur verrait les rsultats de recherche devenir plus pertinents. Il convient en outre de trouver les
moyens de lindexation du plein texte par les moteurs de recherche, indexation garantissant une
visibilit accrue du portail et de ses contenus sur la toile.

Enfin, devrait tre poursuivie une rflexion sur les modes de financements dEuropeana et la possibilit
pour certains projets de numrisation, notamment ceux impliquant des tats aux ressources limites, de
recevoir des financements du budget de lUnion europenne plus importants que ce que prvoit
actuellement le modle communautaire.

III. 3. 3. Une charte commune des partenariats publics/privs

Les bibliothques membres de la Conference of European National Librarians (CENL) rflchissent


actuellement un projet de charte europenne en matire de partenariats de numrisation avec des
socits prives. La mission se flicite de cette initiative, qui doit tre soutenue et poursuivie.

Elle suggre, ce titre, quun certain nombre de points soient abords dans la charte : conditions
pralables, limitation des clauses dexclusivit et de dure, clauses permettant la visibilit et la mise
jour des fichiers.

Conditions pralables

Les pralables la mise en place du partenariat devraient tre de deux ordres. Dune part, la
reconnaissance de la ncessit dun accord sur les droits dauteur et sur les modes de commercialisation
35
des livres sous droits. Autrement dit, le ou les partenaires privs devront respecter les lgislations
europennes en matire de droit d'auteur.

Dautre part, le respect dun certain nombre de rgles relatives lutilisation des donnes personnelles
des utilisateurs, afin de protger ces derniers dutilisations abusives.

Clauses dexclusivit et de dure

Si le partenaire priv prend sa charge la numrisation des livres, les clauses d'exclusivits doivent tre
les plus limites possibles et ne devraient pas interdire l'accs aux fichiers par des entreprises
concurrentes, ds lors qu'elles seraient disposes payer un droit daccs ou une redevance 32. Par
ailleurs, les mesures techniques interdisant lindexation du texte par les moteurs de recherche doivent
tre catgoriquement refuses.

L'accord devra par ailleurs prvoir la possibilit d'accder librement aux fichiers depuis le portail
Europeana, voire depuis les sites des autres institutions europennes partenaires.

Afin de ne pas brider les usages potentiels, il conviendra par ailleurs d'tre vigilant quant la qualit des
fichiers remis par le partenaire, en s'efforant de dfinir cette qualit ex ante mais aussi les modalits de
vrification ex post.

Enfin, les clauses d'exclusivit devraient pouvoir tre rediscutes priodiquement, et les accords
devraient permettre une ventuelle sortie anticipe dans un certain nombre de cas.

Clauses permettant la visibilit et la mise jour des fichiers

La visibilit des contenus est une condition indispensable de leur existence sur l'internet et de leur
accessibilit. Aussi de telles clauses sont-elles particulirement importantes. L'objectif est d'aboutir un
traitement quitable, par le partenaire, de ses propres fichiers et de ceux numriss par les
bibliothques elles-mmes, dans les mcanismes de recherche et d'affichage.

Sagissant de la qualit des fichiers livrs la bibliothque, il conviendra de prvoir que des fichiers
image et des fichiers texte soient remis, dans une qualit comparable celle utilise par le partenaire
priv. Les rfrences permettant de faire le lien entre ces deux types de fichiers doivent galement tre
fournies afin den permettre une bonne exploitation par la bibliothque.

L'accord doit galement permettre la mise jour rciproque des fichiers numriss, au moins pendant la
dure de laccord. Si le partenaire fait voluer ses techniques d'ocrisation, il devra en faire bnficier les
fichiers qu'il a dj numriss par la bibliothque. Rciproquement, si la bibliothque modifie les bases
techniques de ses fichiers, elle devra en donner le bnfice au partenaire.

*
* *

Lacclration du processus de numrisation des livres est un impratif. Il exige de trouver de nouveaux
modes dorganisation, en faisant de Gallica une vritable plate-forme de coopration avec les
bibliothques et les diteurs partenaires. cette premire strate, qui constitue une forme aboutie de
partenariat public-priv, pourraient sajouter de nouvelles formes daccords quilibrs avec dautres
acteurs privs comme les moteurs de recherche ou les plates-formes douvrages numriss comme
Google Livres. Enfin, une rflexion approfondie se dveloppe au niveau europen, quil convient
32
On peut relever cet gard que le Settlement amricain entre Google et les diteurs prvoit des dispositions de ce type.
36
dappuyer et de prolonger.

37
Synthse des conclusions / Rsum excutif

La perspective de numrisation de masse des ouvrages imprims - quel que soit leur statut, hors droits
ou sous droits - constitue une chance pour le rayonnement de la culture franaise. Elle conduira
cependant une rvision en profondeur des politiques publiques dans le domaine de lcrit, notamment
vis--vis du grand public qui aura accs aux ouvrages, selon des modalits totalement nouvelles, pour
ses recherches personnelles, comme pour ses activits quotidiennes. Tel est le principal enjeu, politique
et culturel, du processus qui sengage.

La numrisation de masse a ses contraintes et ses limites :

- contraintes, lies dune part au mode dorganisation industriel quelle suppose, dautre part
aux exigences de qualit dfinir, aussi bien au niveau des normes retenues qu celui de la
fiabilit des fichiers numriques, de leur indexation et de leur conservation ;

- limites, ds lors quelle ne doit pas occulter les autres modes de numrisation, dindexation
et de recherche requis par les publics spcialiss (chercheurs, universitaires,
professionnels) ou les publics empchs (dficients visuels).

Le vaste programme engag au niveau mondial par la socit Google a donn une impulsion dcisive.
Toute politique publique, aussi ambitieuse soit-elle, ne peut cependant ignorer lavance prise par cet
oprateur priv, tant au niveau mondial quen Europe. Certains procds utiliss par cette entreprise,
notamment dans ses rapports avec les bibliothques publiques et les diteurs, prtent nanmoins
critique. cet gard, les limites imposes la diffusion des fichiers reus par les bibliothques, la dure
des clauses dexclusivit commerciale, limprcision des choix techniques retenus et la confidentialit
des contrats passs avec les bibliothques sont des conditions difficilement acceptables en ltat,
notamment pour une bibliothque nationale. Il importe donc pour la France de conserver la matrise du
processus de numrisation et surtout de diffusion des contenus numriques.

La dcision du Prsident de la Rpublique sur le financement des politiques de numrisation cre les
bases dune politique nationale, autonome et respectueuse des droits de toutes les parties concernes.
Encore faut-il que chaque institution, quelle soit publique ou prive, fasse leffort ncessaire pour
contribuer lmergence dun ple francophone susceptible de se comparer aux plates-formes de
recherche et de commercialisation mises en place par les groupes mondiaux, tels que Google,
Microsoft, Amazon Cest bien toute lorganisation de la filire de numrisation qui doit tre conue
laune de cette ambition. Ce changement dchelle aura en effet des implications importantes, non
seulement quantitatives mais galement qualitatives : il imposera de repenser la puissance des
infrastructures, du fait des volumes traiter, mais galement lvolution des mtiers et lacquisition de
comptences nouvelles.

*
* *

La mission propose trois pistes daction, qui ne sont pas exclusives les unes des autres :
- partir de loutil existant, Gallica, mis en place par la BnF, en rformant profondment son pilotage et
ses fonctionnalits ;
- proposer la socit Google une autre forme de partenariat, fond sur lchange quilibr de fichiers
numriss, sans clause dexclusivit ;
38
- relancer limpulsion europenne, la fois au niveau des autres bibliothques europennes engages et
du portail culturel commun Europeana.
*
* *

La mission tient souligner que la priorit doit tre donne la valorisation du patrimoine crit sur les
rseaux numriques et sa visibilit pour les internautes du monde entier. Les autres tapes du
processus (chane de numrisation, stockage et maintenance des fichiers numriques), galement
importantes et, en tout cas, les plus onreuses, peuvent rester gres par les institutions existantes, et
notamment par la BnF. Il serait mme souhaitable cet gard que lon puisse tirer profit de la
concentration physique, dans les locaux de la BnF, douvrages runis au titre du dpt lgal, pour
engager un processus de numrisation de masse, non seulement pour le patrimoine hors droits, mais
aussi pour les livres puiss ou orphelins ; sous rserve, bien entendu, de la signature pralable dune
convention cadre entre les diteurs, les ayant-droits et les pouvoirs publics sur les conditions de cette
numrisation et, bien sr, lexploitation ultrieure.

Lessentiel pour la mission est la mise en place dune entit cooprative runissant les
bibliothques publiques patrimoniales et les diteurs, dans une logique de partenariat public-priv.
Elle devra aussi faire place aux ayants droit et aux autres acteurs de la chane du livre.

Cette entit aurait la responsabilit de concevoir, mettre en place et exploiter une plate-forme commune
o lensemble des ouvrages pourraient tre accessibles aux recherches des internautes et, si souhait,
pourraient tre feuillets. Cette entit cooprative aurait la responsabilit dorganiser laccs aux
ouvrages et de concevoir les interfaces avec dautres plates-formes, telles que les sites communautaires,
les moteurs de recherche, les sites de commercialisation Enfin, par son positionnement la frontire
du champ patrimonial et du secteur sous droits, elle serait appele jouer un rle de plate-forme de
diffusion et de valorisation des uvres orphelines lorsque le code de la proprit intellectuelle
permettra les utilisations numriques de ces documents.

cet effet, la mission est davis de mettre en chantier une rforme profonde, prolongeant le travail de
qualit qui a permis la BnF, via Gallica (33), de prendre position sur le rseau internet, mais en
changeant radicalement les perspectives actuelles. Lambition doit tre de constituer une base
douvrages numriss de langue franaise de qualit comparable celle de Google Book pour la langue
anglaise. Cest cette condition que la France pourra viter un face--face trop dsquilibr avec les
entreprises de dimension mondiale et jouer dun effet dexemplarit en Europe.

La mission navait pas vocation dfinir dans le dtail le statut juridique dune telle entit cooprative et
son positionnement vis--vis de la BnF. Elle souligne toutefois que plusieurs conditions doivent tre
runies : collgialit du processus de dcision et transparence des modalits de commercialisation qui
doivent tre autorises par chaque partenaire concern.

Le monde de linternet est organis sur une base multipolaire. Cest pourquoi chaque partenaire doit
pouvoir conserver son propre site, voire organiser directement la commercialisation des ouvrages dont
il est titulaire, en fonction de leur statut. Cependant, pour avoir accs aux concours financiers publics
la numrisation, chaque partenaire devra se soumettre plusieurs obligations :

- dposer ses fichiers sur la plate-forme cooprative,

- adopter des formats et des normes techniques compatibles avec ceux dfinis par cette mme
plate-forme.
33
La mission prconise un changement de dnomination.
39
- dlguer la plate-forme les droits permettant lindexation et le feuilletage des fichiers par le
grand public, voire, le cas chant, autoriser lexploitation commerciale de certains de ces
fichiers sur la plate-forme, sans prjudice dexploitations commerciales par les diteurs eux-
mmes, via les portails de vente de leurs choix ;

*
* *

Les perspectives offertes par les partenariats public/priv sen trouveront considrablement
amliores. Daccords par nature souvent dsquilibrs, puisque financs par la seule partie prive, on
passera dornavant des formules dchanges rciproques , enrichissant les bases documentaires des
deux parties, vitant les doublons dans le processus de numrisation et favorisant la visibilit du corpus
francophone. titre dillustration, les ouvrages franais seraient ainsi largement rfrencs dans Google
Livres, tandis que la plate-forme nationale serait enrichie par linclusion douvrages dj numriss par
Google, notamment ceux disponibles dans les fonds des bibliothques trangres partenaires.

La mission sest efforce de dfinir le cadre ventuel de tels accords rciproques et les conditions
pralables aux mandats ventuels qui seraient donns aux ngociateurs, notamment en ce qui concerne
les droits dauteurs, la protection de la vie prive et la limitation, de la porte comme de la dure, des
clauses dexclusivit ventuelles.

Dans le cas dune ventuelle ngociation avec la socit Google, la mission nest pas en mesure
daffirmer la disponibilit de cette dernire de discuter dans les termes ainsi dvelopps, en dpit de
lintrt vident pour cette entreprise dlargir sa base dans le corpus francophone. Une offre de
ngociation faite au nom de la France aurait toutefois un double mrite :

- mettre en vidence aux yeux de nos partenaires europens notre volont de rechercher des
partenariats quilibrs, avec cette entreprise dont la prsence en Europe est forte,

- en cas de refus, mettre lautre partie dans la position davoir mieux prciser sa stratgie et
ses objectifs concernant le patrimoine crit europen.

*
* *

Les ressources financires engages conforteront la position avance de la France en Europe


en matire de numrisation du patrimoine crit. Il est essentiel de tirer profit de cette situation pour
crer un effet dentranement, soit au niveau de lUnion et des tats membres, soit celui des
Institutions publiques ou prives, en prconisant, pour ces dernires, une mise en commun des moyens
techniques et de la plate-forme dveloppe par la France. La socit Google est en mesure aujourdhui
de proposer un cadre prouv des conditions conomiques sans quivalent. Les initiatives prises en
France doivent permettre de combler cet cart et de crer une alternative au profit de lensemble des
partenaires europens.

La mission propose de retenir trois axes :

- faire bnficier les partenaires europens des conomies dchelle ralises loccasion des
investissements franais, en proposant aux bibliothques europennes intresses de
mutualiser, ventuellement via la plate-forme cooprative et la BnF, lensemble du
processus de numrisation,
40
- poursuivre et sans doute approfondir Europeana ( terme),

- laborer une charte encadrant les partenariats public-priv dans le prolongement des
discussions dj engages entre plusieurs grandes bibliothques nationales.

*
* *

La visibilit du corpus crit francophone sur les rseaux est un objectif majeur qui ncessite de mettre
en commun des comptences et des expriences extrmement varies.

Laval, cest--dire les conditions dun accs ouvert, et lamont, savoir la qualit de la numrisation et
la pertinence des modes dindexation, doivent tre mis sur le mme plan. Daucuns pensent que
Google privilgie laval au dtriment de la qualit, tandis que, au contraire, les bibliothques publiques
viseraient avant tout valoriser leur savoir-faire en amont, au dtriment des modes de consultation de
masse. Comme souvent, ces analyses sont caricaturales. Elles nen tmoignent pas moins de lardente
obligation qui est la ntre de concevoir un mode dorganisation et de partenariat qui prserve cet
quilibre. Cest ce que la mission sest efforce dimaginer.

41
Liste des annexes

Annexe 1 : Lettre de mission

Annexe 2 : Liste des personnes auditionnes

Annexe 3 : Gallica et Google Livres : comparaison des fonctionnalits - Annexe ralise par
Alban Cerisier

Annexe 4 : Liste des bibliothques europennes du programme Google Recherche de Livres

42
Annexe 1 : Lettre de mission

43
44
45
Annexe 2 : Liste des personnes auditionnes

Jean-Franois Aguesse, Directeur du dveloppement & Associ, Synodiance

Francis Amand, chef de service la Direction gnrale de la concurrence, de la consommation et


de la rpression des fraudes

Patrick Bazin, directeur de la Bibliothque municipale de Lyon

Arnaud Beaufort, directeur gnral adjoint de la Bibliothque nationale de France, directeur des
services et des rseaux

Bernard Benhamou, dlgu aux usages de l'Internet, ministre de l'enseignement suprieur et de la


recherche

Philippe Colombet, directeur du programme Recherche de Livres, Google France

Robert Darnton, directeur de la Bibliothque de l'universit de Harvard

Olivier Daube, Responsable du ple veille des usages et innovation, Radio France

David Drummond, senior vice-prsident, directeur juridique de Google

Serge Eyrolles, Prsident du Syndicat national de l'Edition

Jeannette Frey, directrice de la Bibliothque cantonale et universitaire de Lausanne

Antoine Gallimard, PDG des Editions Gallimard

Emmanuel Gureghian, socit Bertin Technologies

Theo Hoffenberg, PDG de Softissimo

Herv Hugueny, journaliste Livres Hebdo

Jean-Nol Jeanneney, ancien prsident de la Bibliothque nationale de France

Dominique Lahary, directeur de la bibliothque dpartementale de prt du Val-d'Oise, porte parole


de l'Interassociation Archives, Bibliothques, Documentation

Bernard Lang, directeur de recherche l'Institut national de recherche en informatique et


automatique

Pierre Louette, prsident-directeur gnral de l'AFP

Michel Marian, chef de la mission pour l'information scientifique et technique et les rseaux
documentaires, ministre de l'enseignement suprieur et de la recherche

Nicolas Masson, socit Bertin Technologies


46
Alexandre Moatti, ingnieur en chef des Mines, ancien secrtaire gnral du comit de pilotage de
la Bibliothque numrique europenne

Marc Moss, directeur des affaires publiques et juridiques, Microsoft France

Elisabeth Niggemann, directrice gnrale de la Deutsche Bibliothek, prsidente de la Confrence


europenne des directeurs des bibliothques nationales, prsidente de la Fondation European Digital
Library (Europeana)

Arnaud Nourry, PDG de Hachette Livre

Richard Ovenden conservateur la Bibliothque Bodleienne, Universit d'Oxford

Bruno Patino, directeur de France Culture

Alain Pierrot, socit I2S

Michael Popham, Universit d'Oxford

Bruno Racine, Prsident de la Bibliothque nationale de France

Stphane Ramezi, Directeur du Multimedia, Radio France

Pascal Rogard, directeur gnral de la Socit des auteurs et compositeurs dramatiques (SACD)

Claude Rubinowicz, directeur gnral de l'Agence du Patrimoine immatriel de l'Etat (APIE)

Franois Stasse, conseiller d'Etat, ancien directeur gnral de la Bibliothque nationale de France

Sarah Thomas, directrice de la bibliothque Bodleienne et des bibliothques de l'Universit


d'Oxford

Jacques Toubon, ancien ministre, co-responsable de la Mission Cration et Internet

Erreur! Signet non dfini.

47
Annexe 3 : Les enjeux qualitatifs de la numrisation de masse.
Rflexions autour de Gallica et de Google Livres
Annexe ralise par Alban Cerisier

Gallica et Google Livres constituent lune et lautre des bibliothques numriques. Elles conservent
et mettent disposition des publics, sur un site web ddi, des collections de livres numriss, dont
elles ont elles-mmes command et dirig les oprations de digitalisation.
Elles proposent une recherche sur le texte complet des ouvrages et/ou sur les rfrences qui les
dcrivent (mtadonnes) et permettent daccder aux textes eux-mmes, soit intgralement soit par
extrait, soit en ligne soit par voie de tlchargement, soit directement sur la plate-forme soit en
renvoyant linternaute sur dautres plates-formes de lecture en ligne.
Google Livres affiche par ailleurs une ambition de portail bibliographique, en intgrant dans son
corpus des rfrences douvrages dont elle na pas encore numris ni index le contenu (notamment
des ouvrages rcents).

Les deux applications proposent des fonctionnalits distinctes et volutives, tant au plan de
lexpression et du traitement des requtes effectues par linternaute qu celui de la restitution et de la
mise disposition des ouvrages. Ces options techniques et fonctionnelles servent ce jour des
conceptions singulires de valorisation des fonds documentaires numriss et dterminent des usages
diffrencis ; et plus gnralement, attestent de stratgies de positionnement distinctes de la part des
institutions concernes.
On peut en dire de mme des modalits de numrisation, tant le scanning en masse douvrages
implique, en ltat de lart, des choix qualitatifs problmatiques. Il sagit donc ici denvisager les
contours fonctionnels et techniques de ces bibliothques numriques, tant au plan des lments
documentaires produits qu celui de leur accs et de leur valorisation.

I. Enjeux qualitatifs de la numrisation de masse


a. Une numrisation de masse pour une partie du fonds.
b. Le couple image/texte.
c. La structuration du livre.
d. La qualit de limage scanne.
e. La reconnaissance de caractres.
f. Une correction a posteriori ?
g. Une qualit doublement problmatique (conservation et usages).
h. Un lmentaire principe de prcaution.

II. Enjeux qualitatifs de la valorisation


a. Corpus.
b. Les mtadonnes.
c. Les moteurs de recherche
d. Les restitutions
e. Le feuilletage
f. Le rfrencement

48
I. Les enjeux qualitatifs de la numrisation de masse

Une numrisation de masse pour une partie du fonds


On doit distinguer les chantiers de numrisation de masse des initiatives plus ponctuelles portant
sur des corpus rduits, reposant sur des normes qualitatives leves et modulables (traitement des
images et des textes). Une institution comme la Bibliothque nationale de France, limage des autres
bibliothques europennes, a men, mne et continuera de mener des oprations cibles, notamment
pour des contenus atypiques (cartes et plans, manuscrits anciens trangers). Ces efforts doivent tre
poursuivis, notamment en raison de limpossible traitement en masse dun nombre important de
documents prsentant des attributs physiques particuliers (dimensions, tats de conservation).
Les chantiers de numrisation de masse tels que ceux engags par Google Livres et la BNF ces
dernires annes, consistent, eux, adresser une chane de production industrielle un nombre trs
important douvrages des fins de numrisation srialise. Il sagit de scanner chaque page de chaque
exemplaire, sans destruction ni dtrioration de louvrage, celui-ci devant tre restitu aprs traitement
linstitution qui le conserve pour rintgration dans les collections. Aucun ouvrage nest massicot : les
pages sont tournes la main par un oprateur (plusieurs milliers de pages par jour pour un individu).

Ces chantiers de numrisation de masse ne peuvent tre srieusement envisags que dans la mesure
o la Bibliothque concerne dispose dun catalogue informatis de son fonds, sans quoi la traabilit
des ouvrages entre la Bibliothque et la chane de production, et sur la chane elle-mme, ne peut tre
correctement assure.
Une slection est effectue par les quipes des bibliothques afin de distinguer parmi les candidats
la numrisation ceux qui ne peuvent tre retenus au regard de leur tat de conservation, de leur
caractre prcieux et de leur conformit aux critres de normalisation de traitement industriel (Google
exclut ainsi de ses chanes tout ouvrage dont un feuillet excderait, dpli, les dimensions du bloc
imprim). Au regard de lexprience des chantiers de numrisation de masse mens jusqu ce jour la
BnF, il semble que la part douvrages rejets soit trs leve.

DES TRAITEMENTS DIFFRENCIS POUR UNE MISE A DISPOSITION HOMOGENE. La numrisation de


masse, mme manuelle, ne concerne donc quune partie des collections patrimoniales ; elle est une des
composantes de lallotissement ncessaire lorganisation de la conversion numrique des
fonds patrimoniaux. Il faut donc veiller ce que ces types de traitement diffrenci en amont
nimpliquent pas en aval, au sein de la bibliothque numrique, des rgimes de mise disposition
htrognes aux publics. Cest un des cueils identifis dans les partenariats public/priv, et
notamment dans les accords de partenariat connus entre Google Livres et les bibliothques partenaires.

Le couple image/texte
Lacte de numrisation prsente deux volets : il sagit dune part de raliser un scan image de chaque
page, couverture y compris ; puis, dautre part, de dduire de limage ralise, aprs retraitement et
optimisation de celle-ci par le recours des applications ad hoc, un fichier texte par la voie dune
reconnaissance automatise des caractres dimprimerie (Optical Character Recognition, OCR). On
dit alors que louvrage a t ocris . Cette tape peut ncessiter le recours une image intermdiaire,
distincte de celle livre au demandeur, spcialement adapte la ralisation de lOCR.
La couche texte dduite de limage peut tre elle-mme optimise, avec des outils de correction
spcifiques. Ces deux activits font encore lobjet de travaux de recherche et dveloppement34. Mais ils
sont couramment utiliss depuis des annes, notamment dans le cadre des chanes graphiques
traditionnelles (rimpressions douvrages des fonds ditoriaux).
lissue de cette opration, on dispose, pour chaque page du livre, dun ou plusieurs fichiers
34
Cest une des raisons de lacquisition par Google de la socit reCaptcha (annonce en septembre 2009), spcialise dans
la conversion dimages en texte, notamment pour la scurisation de sites et la protection antispam.
49
images (selon que lon a choisi de scanner louvrage en noir et blanc, en niveaux de gris ou en couleurs,
voire en dfinitions plus ou moins grandes) et dun fichier texte, gnralement structur au format
XML, sappuyant sur un modle de description des donnes normalis. Lenjeu de la numrisation
de masse est de rendre solidaires ces deux tats du livre.
Certains textes prsents sur Gallica ne prsentent pas ce couple image / texte, mais simplement
une image : il sagit de fichiers appartenant une gnration antrieure de numrisation (avant 2007).
Une importante conversion de ceux-ci a dj t effectue par la BnF (march dit des 60 000 ).

La structuration du livre
Afin de pouvoir permettre un lien entre limage de la page et le fichier texte qui en est dduit, les
coordonnes graphiques de chaque mot sont mmorises dans le fichier texte au moment de sa
gnration, sous forme de balises escamotables. Des balises permettent galement de restituer la
structuration logique de la page (reprage des zones de haut et de pied de page et des marges par
exemple), didentifier les espaces o se situe une illustration... Lensemble de ces oprations est rendu
possible par le zonage pralable du fichier image et lutilisation dun format de description normalis de
type XML. Gallica recommande ladoption de la norme Alto, qui semble galement avoir t retenue
pour partie par Google.
Pour restituer le livre dans son intgrit logique, il faut galement associer chaque couple de fichier
(image/texte) la page qui lui correspond dans louvrage. Ainsi, le 7e fichier correspondant un livre ne
correspond pas ncessairement la page portant le numro de folio 7 dans louvrage (il peut en effet y
avoir des pages blanches, des pages non foliotes, des doubles foliotations en chiffres romains et
arabes). Il sagit donc de constituer un troisime fichier, lui aussi structur en XML, qui restitue la
suite logique du livre et fait le lien entre celle-ci et lensemble des fichiers et rpertoire qui composent le
livre sous sa forme numris. Cest la colonne vertbrale de louvrage, essentielle pour pouvoir
informer linternaute, par exemple, que telle citation a t trouve telle page du livre. On peut
galement utiliser ce fichier descriptif pour identifier, ou typer, des pages significatives du livre : page du
mme auteur, page de faux-titre, page de titre, page de table des matires Cette dmarche est
dcisive, dans la mesure o elle permettra dexclure certaines pages soit de la restitution du livre, soit du
champ dindexation du moteur de recherche.
Ce typage ne semble pas avoir t fait de faon approfondie ni par Google ni par Gallica ; on peut
le regretter ; son automatisme est, de fait, problmatique. De mme on peut stonner de ce que les
potentialits de la norme Alto naient pas t mieux exploites ; ainsi, par exemple, on aurait pu retirer
du primtre du moteur de recherche lindexation des titres courants, qui se rptent chaque page des
livres qui en comportent. Il semble que cela nest pas t toujours le cas dans ces chantiers de masse.
Certaines parties du livre peuvent faire lobjet dun traitement particulier, limage des tables des
matires. Le reprage de celles-ci dans le livre peut rsulter dun traitement automatique, de mme que
lon peut envisager quun programme puisse en restituer la structure logique. Il reste que les rsultats
obtenus ce jour par de tels traitements sont trs imparfaits. Lexcrable qualit des tables de matires
proposes par Google Livres le dmontre ; elles sont lacunaires et errones et, partant, le plus souvent
inutilisables. Gallica a prfr ce jour un traitement manuel de ces tables des matires qui, sans tre
parfait, est bien plus acceptable. Les tables des matires, ocrises, sont systmatiquement reprises et
corriges par un oprateur. Cette opration est particulirement sensible, la structuration des tables des
matires pouvant tre trs complexe et problmatique dun point de vue logique et ditorial. On
comprendra que cette tape est essentielle dans la mesure o lon voudrait imaginer une exploitation
douvrages par partie, sappuyant sur la structuration mme du livre imprim, dans le cadre par exemple
dune consultation ou de tlchargement par chapitres

La qualit de limage scanne


Toutes les tapes de la chane doivent faire lobjet de contrles de qualit, dans le cadre de
protocoles dtaills dfinissant les types dalertes et dactions mener en cas danomalies constates
dans la chane. Il sagit ainsi, par exemple, de sassurer que des pages nont pas t omises et de dfinir
50
une procdure de reprise si cest le cas.
La qualit de limage produite reste galement un lment sensible. La qualit se joue plusieurs
niveaux : dfinition de limage, adaptation de limage lOCR, non dtrioration de limage par
lintervention manuelle La mdiocrit de la numrisation opre par Google Livres a t maintes fois
releve35. Elle montre quil convient de renforcer les contrles automatiss sur la chane ; et donc de
renforcer les exigences des institutions publiques lgard de leur prestataire. Cest aujourdhui un
lment, parmi dautres, de leur mission de conservation du patrimoine culturel, physique et numrique.
ce titre, le niveau de dfinition des fichiers produits peut tre un lment important dans la
campagne. Gnralement produit en 300 Dpi, la BNF a rcemment exig de ses fournisseurs une
numrisation en 400 Dpi, plus coteuse et plus volumineuse, mais de nature donner des rsultats plus
satisfaisants dans la perspective de dploiement dun service dimpression la demande. Les enjeux de
conservation prenne et dexploitation sont donc intimement lis.

La reconnaissance de caractres
Lautre grand enjeu qualitatif est li lOCR. Celui-ci peut-tre plus ou moins satisfaisant selon le
mode dimpression de la page, les variations typographiques internes, les alphabets et graphies
syllabaires, les langues Des engagements qualitatifs doivent tre pris par les prestataires de
numrisation, aprs examen des corpus candidats la numrisation ; le taux dOCR (pourcentage
derreurs dans louvrage, calcul partir dchantillonnages effectus par le prestataire, exclusion faite
des cas dillisibilit), trs variable dun livre lautre dans ce type de chantier, doit tre transmis la
bibliothque. Mme si le taux de reconnaissance annonc peut tre trs lev (99,9 % par exemple, soit
deux fautes grossires possibles par page de 2.000 signes en moyenne), il faut rappeler que ce niveau de
qualit serait peu acceptable pour un livre imprim, dment tabli et corrig.
Le lien entre limage et le texte dduit sert compenser les failles de lOCR. Si le moteur de
recherche indexe la couche texte, cest bien limage du livre qui est montre en premier lieu
linternaute en rponse sa recherche. Limage, elle, nest pas fautive. Grce aux coordonnes du mot
conserves dans le fichier texte, lapplication de feuilletage peut surligner facilement lespace de la page
o se trouve la citation ou le mot recherchs. Mais lindex, lui, est toujours fautif. Aussi faut-il
considrer quen ltat de lart, toute recherche sur une bibliothque numrique est, stricto sensu,
approximative. Elle ne permet pas davoir lassurance que le mot recherch ne se trouve quaux endroits
signals par le moteur de recherche. Une rponse fiable 100 % imposerait une tape, coteuse et
laborieuse, de correction manuelle des fichiers textes obtenus par lOCR. Ce type de traitement est ce
jour marginal.

Les livres numriques proposs aux internautes


Les fichiers proposs en visualisation ou en tlchargement par Google Livres et Gallica sont issus
de ce travail de prparation. Ils ne peuvent tre que de simples images intgres dans le feuilleteur,
avec une couche texte invisible pour linternaute ; ou bien la couche texte elle-mme, non corrige ; ou
bien un PDF image, gnr partir des diffrents fichiers du scan (non interrogeable, non indexable :
Google Livres) ; ou bien un PDF texte/image, gnr partir des scans et du fichier texte de lOCR
(interrogeable, indexable : Gallica) ; ou bien encore un fichier texte, comme le fichier Epub. Ce
fichier Epub, qui sest impos ces dernires annes comme un standard pour les livres numriques (et
mme sil demeure trs imparfait au regard du degr de perfectionnement ditorial du livre dorigine,
voire totalement inadapt celui-ci), se prsente comme un rpertoire compress comprenant
notamment lensemble du texte de louvrage sous formes de diffrents fichiers. Il est lisible sur les PC
( laide du logiciel gratuit Adobe Digital Edition), mais aussi sur la plupart des terminaux mobiles de
lecture et les iphones. Il faut prciser que la qualit de ce fichier (et donc sa lisibilit) est troitement li
la qualit du traitement de lOCR. Sil na pas fait lobjet dune rvision, il contiendra les mmes fautes
35
Il nest qu tlcharger un Epub sur Google Livres pour sen convaincre. Dans le sous-rpertoire Images du
rpertoire OEBPS se trouve un florilge de clichs o figurent notamment la main gante de loprateur. Ces images se
retrouvent dans le livre lectronique, au titre des lments graphiques non analysables par lOCR.
51
de transcription, qui peuvent tre extrmement pnalisantes pour le lecteur (cest bien le cas des
quelques Epub consults dans le cadre de cette enqute depuis le site Google Livres)..
Le service automatis de lecture voix haute, disponible sur Gallica, sappuie galement sur
cette couche texte issue de lOCR. En consquence, la qualit du rsultat audible est trs lie au
traitement initial ; en cas dOCR faible, le texte devient incomprhensible la lecture. De tels
problmes ne se rencontrent pas si, comme pour les ouvrages rcents, on sappuie sur un fichier texte
non pas dduit dun scan, mais fourni par le compositeur de louvrage imprim, rput vierge derreurs.
Gallica et Google Livres ne restituent jamais le fichier image source aux internautes, tant en
visualisation quen tlchargement. Elles gnrent, en aval de la chane de numrisation, un fichier
beaucoup plus lger, en 75 Dpi. La rapidit de la restitution limpose ; mais cest une faon galement
de limiter la dissmination des fichiers adapts limpression la demande ou, plus gnralement,
la commercialisation.
Dans les contrats connus unissant Google Livres aux bibliothques, le moteur de recherche
amricain communique une copie des fichiers source de la numrisation ses partenaires 36, mais ne les
autorise pas dlivrer aux internautes un fichier unissant limage au texte (PDF image/texte, par
exemple). La bibliothque ne peut donc offrir en tlchargement que le PDF image 37, non indexable et
non interrogeable (tel que Google Livres le fait sur son propre site actuellement), lunit et pour un
usage individuel . Cest une limite importante38, que peut justifier la volont manifeste du moteur
amricain de ne pas rendre accessible des tiers concurrents les fichiers numriss par ses
soins. Cette prcaution semble relever de la mme proccupation que celle qui pousse Google mettre
en uvre des mesures techniques de protection contre les tlchargements massifs sur son propre site
et exiger des bibliothques partenaires, dans le cadre de leur propre site, des garanties du mme
ordre39, voire peut-tre plus importantes encore selon linterprtation des clauses des contrats et
somme toute, trs engageantes en termes de responsabilit pour les institutions. Il y a, cet gard, un
risque de dsquilibre entre lusage que pourraient faire celles-ci de leurs fichiers et celui que sest
rserv Google Livres.

Une correction a posteriori ?


La plupart des failles qualitatives exposes ci-dessus (absence de typage des pages, qualit mdiocre
de lOCR, erreur sur les images, tables des matires dgrades) pourraient faire lobjet dune correction
a posteriori, en ayant recours lintelligence collective dun rseau (wiki), en refaisant passer les scans
dorigine dans une chane de traitement OCR fiabilise ou encore en travaillant sur des solutions de
corrections automatises sappuyant sur la comparaison des uvres numrises plusieurs reprises.
Lappel la correction collaborative de lOCR reprsente cependant un certain nombre de risques
relatifs lintgrit des textes, dautant quelle peut impliquer une dissociation progressive du fichier
texte par rapport son rfrent image. Ce risque, rarement formul, nest pas ngliger.
Lvaluation de ces possibilits damliorations a posteriori reste faire, mme si des initiatives ont
dj t prises en ce domaine sur le Web.

Une qualit doublement problmatique (conservation et usages)


36
Sans signifier toutefois de quel fichier il sagit prcisment, point sur lequel les bibliothques devraient tre bien plus
vigilantes ; le CCTP de laccord de Lyon indique que Google transmet la Bibliothque municipale le texte au format
brut et sans enrichissement typographique - aprs que lacte dengagement prvoie, sans plus de prcision, la fourniture
dune copie des fichiers et des mtadonnes numriques crs par le prestataire (art. 6-1). Quest-ce dire ? Sagit-il
vraiment du fichier structur et coordonn, permettant le lien entre limage et le texte issus de lOCR ? Google dispose-
t-il en aval dun fichier plus abouti que celui fourni son partenaire ?
37
Article 24 du CCTP de laccord Google/BM de Lyon.
38
Elle peut toutefois tre relativise par la mise disposition en tlchargement des fichiers Epub.
39
Clause figurant dans les contrats de lUniversit de Michigan et de lUniversit de Californie : University shall implement
technological measures [] to restrict automated access to any portion of the University Digital Copy or the portions of the university website
on which any portion of the University Digital Copy is available.
52
CONSERVATION. Les processus actuels de numrisation de masse, malgr leurs progrs rcents et
les nouveaux usages quils ont ouverts, se caractrisent par un niveau de qualit assez mdiocre. Lide
dune conservation prenne numrique, au-del des questions lies la seule infrastructure technique de
stockage et lvolutivit des formats informatiques, est remise en cause par lirrgularit des rsultats
obtenus en termes dimage, et plus encore de conformit textuelle. Si la notion de copie de
conservation est entendue dans le seul sens dun fac-simil analogique des ouvrages, on peut en effet
sen satisfaire, dans la mesure o le travail de scanning est ralis avec soin. Si cette mme notion
sentend en terme de restitution dun corpus textuel structur, on est encore trs loin du compte et la
marge de progression de la chane semble considrable. En termes de traitement textuel, mme simple
(sans raffinement smantique), les bibliothques numriques, reposant essentiellement sur la
numrisation de masse, consacrent des pratiques approximatives.

USAGES. Ces lments techniques impactent les usages. Pour des utilisations de type
documentaire (chercheurs, tudiants, voire recherche ponctuelle de citations), les bibliothques
numriques sont devenues des outils incontournables, tant par lindexation des textes que par leur
restitution intgrale en mode image. Tout ce qui contribuera renforcer la fiabilit de lindexation et
perfectionner le moteur de recherche par un meilleur traitement amont des ouvrages (matrise des
lments structurels du livre, optimisation de lOCR) sera profitable, et rpondra la mission, non de
conservation, mais de communication et de valorisation des bibliothques patrimoniales. Celles-ci
doivent donc simpliquer plus avant dans la dfinition des Engagements de Qualit de Service
lis aux grands chantiers de numrisation venir, et non se laisser imposer des conditions peu
transparentes par un prestataire-partenaire.
Pour un usage relevant dune lecture usuelle (du type : je cherche accder une dition en libre
accs du Rouge et le noir pour le lire sur mon iphone ), la technologie actuelle de numrisation en masse
ne rpond pas au besoin, tant les formats texte produits en sortie (Epub) sont fautifs. Il parat difficile
pour une Bibliothque nationale, et peu compatible avec sa mission de valorisation des fonds culturels
nationaux, de distribuer massivement des textes classiques de la littrature franaise entachs
dinnombrables fautes. Pour ce type dapproche, il conviendrait de proposer un traitement slectif des
ouvrages patrimoniaux qui pourrait faire lobjet dun traitement plus pointu, approchant les 100 % de
taux de reconnaissance de caractre (voir les quelques ebooks exemplaires proposs ce jour Gallica) ;
ou envisager des partenariats avec des diteurs actuels de ces textes, sils existent, pour en proposer des
versions librement tlchargeables de qualit, par ailleurs dj trouvables ce jour sur internet sur
dautres sites.

Un lmentaire principe de prcaution

EVOLUTIVIT DES FICHIERS. Il est cependant probable que les chanes dOCR et les possibilits de
corrections a posteriori des textes, par traitement de masse, vont continuer de se perfectionner dans les
annes venir. Il est tonnant que les contrats passs entre Google Livres et ses Bibliothques
partenaires ne prvoient jamais, dans la dure dexclusivit commerciale confre Google Livres,
lobligation pour celui-ci de faire bnficier la Bibliothque partenaire de ses ventuelles avances
technologiques, par la livraison priodique des fichiers issus dventuels retraitements. Faute de quoi, un
foss se creusera entre loffre de Google Livres et celle propose par la Bibliothque partenaire sur son
propre site. Il y a, cet gard, un risque majeur de marginalisation des tablissements.

53
II. Les enjeux qualitatifs de la valorisation

Corpus
Les deux plates-formes rfrencent des livres sous droit et des livres du domaine public.
Les modalits dinterrogation et de restitution de ceux-ci dpendent essentiellement de leur statut
juridique.
Sur Google Livres comme sur Gallica, les ouvrages considrs comme relevant du domaine public
sont intgralement interrogeables et peuvent tre lus dans leur intgralit. Ils proviennent dans leur
grande majorit de la numrisation dexemplaires conservs en bibliothques (bibliothques associes
au projet Gallica ; bibliothques partenaires pour Google).

Le statut et le traitement des ouvrages sous droit relve de deux scnarios distincts, selon que
linstitution a, ou non, pass des accords avec les ayants droit concerns.
En cas daccord (partenariat Syndicat national de ldition/BNF pour Gallica, avec le soutien du
Centre national du Livre ; Programme Editeurs de Google ou encore diffusion de livre sous licences
Creative Commons ), la bibliothque dispose des lments pour indexer louvrage dans son intgralit et
restituer tout ou partie de celui-ci linternaute, soit dans son propre feuilleteur (Google) soit dans le
feuilleteur indiqu par layant droit (Gallica). Cest layant droit qui fixe, dans lun et lautre cas, le
nombre de pages librement feuilletables.
En labsence daccord, Google Livres sautorise toutefois numriser et indexer les ouvrages sous
droits partir dun exemplaire scann dans le cadre de son Programme Bibliothques . Elle le rend
interrogeable sur sa plate-forme, mais ne donne voir que trois courts extraits correspondant la
recherche effectue, sous la forme de Snippets, dans la mesure o une juridiction nationale ne sest pas
oppose au principe mme dune telle restitution issue dune numrisation non pralablement autorise
par le titulaire de droits (Affaire Google/La Martinire/SNE/SGDL).

Notons enfin que Gallica recense galement un grand nombre destampes et dimages. Si ce choix
est parfaitement cohrent lgard des collections patrimoniales de la Bibliothque nationale de France,
on peut sinterroger sur lopportunit dune approche multi-support lgard des attentes des publics,
notamment au titre du bruit quelle peut engendrer dans le cadre dune recherche simple. Il est
noter que Google, ce jour, na pas retenu ce type dapproche.

Mtadonnes
Les mtadonnes sont les lments de description de louvrage. Google Livres et Gallica sappuient
sur la mme norme internationale, le Dublin Core, schma garantissant linteroprabilit des
mtadonnes descriptives de ressources documentaires diverses. Ce modle conceptuel, simple et
efficace, est constitu de quinze lments, optionnels ou non, rptables, permettant une description
formelle, intellectuelle et juridique du document40.
Google Livres utilise une norme complmentaire de description, permettant didentifier le niveau
de visualisation possible de louvrage (viewability), leur portabilit sur des sites tiers (embeddability), les
commentaires qui lui sont lis (review).

Mais lusage dune norme homogne ne peut garantir elle seule la qualit des mtadonnes.
Le caractre contraignant de la norme peut, dune part, obliger les bibliothques numriques
simplifier les mtadonnes dont elles peuvent disposer par ailleurs en amont, ou rassembler des
mtadonnes plus finement structures dans une seule et mme catgorie. Cest leffet entonnoir. Ainsi
trouvera-t-on dcrits, dans llment format , des lments de description relevant tantt de la
description de louvrage physique (in-8, 16 p.), tantt du fichier numrique (application/PDF), ce qui,
40
Ainsi lauteur est-il dsign par llment Creator ; lditeur, par llment Publisher ; les contributeurs, par
llment rpt Contributor ; lorigine du document, par llment Source
54
de fait, ne renvoie pas au mme ordre de ralit.
La norme ne peut pas, dautre part, pallier les dfauts des mtadonnes sources. On voit ainsi
rpter dans llment Title sur Gallica le nom de lauteur, repris par ailleurs dans llment
Auteur , ainsi que des diffrents contributeurs de louvrage. Lensemble des contributeurs dun titre
ne sont pas reprs comme des contributeurs (lment Contributor ) mais, eux-aussi, de faon
indiffrencie, dans llment Titre . Cette inadquation du contenant et du contenu contribue
rendre moins pertinents les rsultats de recherche et rendre inoprante la recherche par
Contributeur et les tris lis cette catgorie. De la mme faon, il apparat que Google Livres traite
dans llment titre des informations relatives la collection ou la srie dans laquelle sinsre louvrage
( 13e volume des Classiques Vaubourdolle ) : ce choix est peu structurant, mme si lon comprend
lintrt dune telle souplesse en termes defficacit et de rapidit de dploiement.
Les sources dinformations des deux bibliothques numriques tant multiples et htrognes, la
normalisation des mtadonnes reste problmatique dans les chantiers de numrisation de masse41.
Souhaitable, cette normalisation passe par lusage de liste dautorits unifies, ce qui nest pas le cas ce
jour. Ce dfaut est source derreurs et nuit la cration de liens entre les livres (livres du mme auteur,
par exemple) et la qualit des actions oprables sur les listes douvrages (classement ou filtre par
auteur, notamment). Cette htrognit apparat clairement dans loffre sous droit de Gallica, les
sources dinformation provenant, sans contrle, des diteurs et diffuseurs eux-mmes.

AU CUR DU SYSTME : LA QUALIT DES METADONNES. La mise en uvre de bibliothques


numriques doit donc imprativement saccompagner dun redressement des notices bibliographiques
issues de la conversion rtrospective des catalogues papier, afin de faire pleinement bnficier
linternaute de leur valorisation documentaire. la mutation des supports correspond ncessairement la
mutation des lments qui les dcrivent, dans un triple dessein : linteroprabilit des catalogues entre
bibliothques numriques, le gain de pertinence smantique des moteurs de recherche, la mise en uvre
du web smantique (OWL, RDF/XML du W3C). Ce triple enjeu relve pleinement du primtre
dactivit des institutions de conservation et de valorisation des fonds patrimoniaux. Elles doivent sy
impliquer significativement : cest leur valeur ajoute daujourdhui et de demain.

La faiblesse des mtadonnes de Google Livres sexplique notamment par le type dimprcisions
dtailles ci-dessus (htrognit de traitement des catgories rdacteur ou auteur ; mentions
dorigines absentes). Mais les aberrations frquemment cites par les observateurs, notamment au
regard des datations et des catgorisations des ouvrages, sont dun autre ordre. Elles ne se retrouvent
que par exception dans Gallica, dont le rfrentiel est beaucoup plus fiable, parce que li dans sa plus
grande part au catalogue de la BnF. Gallica sait par exemple beaucoup mieux grer les publications en
srie que ne le fait Google Livres.
Il est difficile de dterminer avec certitude si ces erreurs de Google Livres proviennent des
mtadonnes rcoltes auprs de la bibliothque pralablement la numrisation, ou bien dune activit
complmentaire dindexation appartenant au processus mme de numrisation42. La frquence de ces
erreurs est aussi rvlatrice de la fragilit de la chane dindexation de Google Livres que de la faiblesse
du contrle qualit effectu par les bibliothques partenaires.
De telles faiblesses sur les mtadonnes, au-del des incertitudes documentaires quelles provoquent
dans le cadre des usages traditionnels des chercheurs, sont constitutives dun risque juridique. Sagissant
derreurs de datation, elles sont en effet lorigine de la mise en accs libre douvrages rputs du
domaine public, qui savrent encore tre sous droit. La responsabilit de Google Livres et des
bibliothques partenaires pourrait, de ce fait, tre engage ; Gallica prend galement de tels risques43.
41
Voir, par exemple, le traitement de lauteur Thodore de Banville dans Google Livres.
42
Quand, par exemple, la fiche associe tel Dictionnaire de la noblesse de 1775 dans Google Livres dcrit un ouvrage sur Le
Gnie des eaux chez les Dogons ; ou que tel exemplaire de la Revue musicale dHenry Prunires et dAndr Curoy, o il est
abondamment question de Maurice Ravel et de Paul Dukas, se voit dat de 1827
43
Lorsque, par exemple, elle considre tort comme relevant du domaine public le Pour Thaelmann (ditions universelles,
55
CONTRLE QUALIT. On ne saurait trop mettre en avant limportance du contrle qualit sur les
mtadonnes associes aux fonds numriss. Il relve tant de lEngagement de Qualit de Service
(EQS) fourni par loprateur de la numrisation que par de la rvision des fonds numriss assur par
les quipes des institutions. Il apparat clairement aujourdhui que les chantiers de numrisation de
masse sous-estiment limportance dcisive de ce travail.

Dexprience, on sait que laccs immdiat aux pages des ouvrages permet de corriger et de
complter de visu les mtadonnes. Lusager pourrait ainsi se satisfaire dune qualit moyenne de
description des livres auxquels les bibliothques numriques lui donnent accs. Mais certaines erreurs
ne sont pas compensables par linternaute, dans la mesure o elles impactent directement les
modalits de traitement des requtes formules via le moteur de recherches : on ne peut corriger que ce
quil est donn de voir.

Il convient de noter que les mtadonnes apparaissant dans les notices associes la prsentation
des ouvrages sont et seront galement utiliss dans les proprits mmes des fichiers numriss, comme
lments descripteurs internes au fichier (proprits dun PDF, par exemple). La dissmination des
fichiers implique donc, dans le mme courant, la dissmination des erreurs dindexation.

Les moteurs de recherche


ce jour, Gallica utilise le moteur de recherches open source Lucene (Java, Fondation Apache), ddi
la recherche plein texte. Sur Gallica, Lucene opre ses recherches sur un index unique prconstitu ; il
ninteragit avec aucune base de donnes.
Le choix de Lucene savre plutt opratoire au regard des volumes actuellement traits et des
performances vises. Mais il doit tre repens dans la mesure o Gallica veut faire voluer ses outils
documentaires, notamment en y adossant des outils danalyse smantique plus pouss. Cela peut passer
soit par une extension du dploiement de Lucene, soit par ladoption dun autre moteur de recherche.
Cet enjeu est aujourdhui identifi comme prioritaire par les quipes techniques de Gallica. Ce chantier
pose galement la question de la performance et de sa mesure ; sur des recherches complexes ou
portant sur des expressions longues, il apparat que Gallica peine remonter des rsultats pertinents
dans des dlais comparables ceux de Google Livres, bien que le corpus trait par le portail national
soit trs sensiblement infrieur. Au-del de la robustesse de linfrastructure et de la puissance du moteur
de Google Livres, cette diffrenciation peut tre aussi perue comme lexpression de choix
documentaires distincts : la mise en uvre de lintelligence documentaire (tris, facettes) nest pas
ncessairement compatible avec la brivet des temps de rponse. Cest la dialectique classique entre
pertinence et performance. Elle deviendra particulirement sensible avec laugmentation sensible du
corpus numris vis par Gallica.

En ltat, lapproche de Gallica nest pas exempte dambigits majeures, qui nuisent la
comprhension immdiate par lusager des lments de rponse fournis par la bibliothque44. Il en
ressort un sentiment defficacit mdiocre de Gallica, alors quil ne sagit que de choix de paramtrage
et de dveloppement amendables. Ces effets ont pu nuire la rputation de Gallica, qui sest efforce et
sefforce encore de les corriger.

Google Livres et Gallica proposent deux niveaux de recherche, simple ou avance, cette dernire
1935), regroupant notamment des discours dAndr Gide et dAndr Malraux.
44
Ainsi, dans le cas dune recherche sur un ensemble de mots (une citation, par exemple : Au sein de linfini, nous
lanons notre tre , issu du Pome sur le dsastre de Lisbonne de Voltaire), Gallica va remonter les ouvrages pertinents,
comme Google Livres peut le faire, mais en ne privilgiant pas la restitution immdiate de la seule phrase. Gallica
indique les ouvrages o la citation se trouve ; cest en choisissant lun des ouvrages, puis en cliquant sur la page
propose, que lon aboutit enfin la citation. Soit au bout de trois clics, contre un seul sur Google Livres. La perception
de pertinence par linternaute est par ailleurs brouille par le fait que chaque mot prsent dans la citation est surlign
lorsquil est trouv par le moteur dans les mtadonnes et dans louvrage.
56
permettant classiquement de croiser des recherches sur le texte des livres eux-mmes avec celles sur les
mtadonnes, et donc daffiner en amont les recherches effectues. La qualit des mtadonnes devient
ds lors un atout de premier ordre. Cest ce niveau que lon peut regretter, comme not plus haut,
quune analyse plus fine des structures de la page ou du livre nait pas t mene lors du processus de
numrisation ou ne soit pas exploite plus finement par le moteur ; on ne peut ainsi exclure certaines
parties des livres qui, pourtant, sont crateurs de bruits lindexation. Une numrisation de masse peut
permettre ce type dapproches, sans nuire la productivit de la chane.
Lalgorithme de recherche de lune et lautre des bibliothques numriques, les lois de pondration
qui prsident aux modalits de prsentation des ouvrages dans les listes prcdant leur feuilletage,
demeurent peu explicites pour les usagers. Il nest par exemple jamais indiqu clairement combien de
fois le mot ou lexpression recherchs ont t trouvs dans les livres proposs. On sait que lun des
principes de base du moteur Google est de mettre en uvre des coefficients de popularit (frquence
des accs et des liens) et de confiance qui, dans le domaine de la recherche sur les livres, peut se
traduire par une valuation du niveau de citation dun livre par les autres livres conservs dans la
bibliothque numrique. On comprend ds lors que le niveau du corpus rassembl joue en faveur de la
performance du moteur. A ce titre, comme dautres, il est difficile dtablir des comparaisons
significatives entre le moteur de Gallica et celui de Google Livres.
Pour des types dusage experts qui ne peuvent se satisfaire des niveaux de pondration implicites,
labsence doutils de traitement documentaire secondaire de la requte est particulirement
dommageable. Cest, lvidence, lune des grandes faiblesses de Google Livres, partiellement pallie
par les performances de ses temps de rponse et sa simplicit dusage, qui facilite le reprage spontan
de linternaute qui sait ce quil cherche. Pour autant, Google Livres laisse parfois lusager sceptique par
ses choix de paramtrages. Une recherche rapide sur Montesquieu montre par exemple que Google
fait porter principalement sa pondration sur la prsence du mot dans la mtadonne titre de
louvrage et quil ne sait pas identifier Montesquieu prioritairement comme un auteur. De ce fait, les
uvres de Montesquieu se trouvent isoles parmi un grand nombre de textes divers sur Montesquieu,
sans perception de ce qui sous-tend leur ordre de prsentation. Nulle restriction par facettes ne permet
de slectionner les notices voulues sur le seul critre de Montesquieu comme auteur, sous une seule
graphie qui fasse autorit ; ce que Gallica, linverse, comme bien dautres outils bibliographiques du
march (Electre, par exemple ; ou Cairn), sait faire.
Lopacit du paramtrage du moteur de recherche pose une difficult majeure, pour des raisons qui,
on le sait, ne ressortissent pas qu des ordres documentaire et catalographique et renvoient des
problmatiques socitales.
On notera enfin que Google Livres intgre des aides la recherche similaires au moteur de
recherches Web Google, mme si celles-ci ne paraissent pas ncessairement trs pertinentes (puisque,
prcisment, sappuyant sur un corpus Web non structur et non ddi lunivers du livre). Les
corrections orthographiques automatiques, lauto-compltion des expressions saisies par linternaute,
semblent implmentes. La distinction entre les deux bibliothques est donc flagrante sur ce point ; et
pour une requte du type alain rabbe rillet , Google Livres propose de faire une recherche sur Alain
Robbe-Grillet ; ce que Gallica ne sait pas faire et qui est fort regrettable.

QUEL MOTEUR POUR QUELLE MONTE EN CHARGE ? Une rflexion sur le traitement des recherches
doit continuer dtre mene, en ltat, autour de Gallica, dans le but de concilier le paramtrage du
moteur avec les attentes perceptibles en termes dusages.
La monte en charge trs significative du corpus de Gallica est un enjeu majeur dans les choix qui
prsideront lamlioration des performances du moteur de recherche retenu dans lavenir. Sa capacit
atteindre un point dquilibre nouveau entre performance et pertinence sera lun des critres qui
retiendra lattention des usagers. Cet aspect doit tre pris en compte dans le dimensionnement du
corpus cible de Gallica, notamment lgard de son ventuelle vocation agrger de multiples fonds. Il
y a l un enjeu de haute importance.

57
Les restitutions
Le premier niveau de restitutions propos par les bibliothques numriques est constitu dune liste
douvrages susceptibles de satisfaire la requte, simple ou complexe, formule par linternaute. Comme
dit ci-dessus, la pertinence et la rapidit de la rponse est un des lments cls de cette tape. Dans le
cadre dune recherche rapide, les modalits de calcul de la pertinence sont aussi opaques dune
bibliothque lautre ; on ne connat pas les cls de pondration mises en uvre par les moteurs de
recherche. Il en rsulte un sentiment dincertitude chez linternaute, notamment lorsque la liste des
ouvrages proposs est importante.
Les fonctionnalits mises la disposition de lusager pour affiner son choix partir de la premire
liste gnre peuvent pallier partiellement ce manque de transparence.
Ces fonctionnalits sont de deux ordres : les classements et les filtres. Google Livres est trs en
retrait sur cette offre de service documentaire linternaute. Aucun tri nest possible sur les listes
gnres ; et les filtres proposs ne permettent que deffectuer une sous-slection sur le seul critre de
laccessibilit du fichier numris. Gallica propose linverse une gamme tendue de tris et de filtres (ou
facettes), techniquement oprationnels (malgr quelques bugs persistants comme, parfois, le
doublonnage des uvres) et sappuyant sur des mtadonnes plus homognes et fiables.
Google propose cependant quelques outils qui permettent de se faire une ide du contenu du livre
autrement que par lusage des outils classiques. Un nuage de mots cls est ainsi li chaque livre (y
compris ceux sous droit, non restitus), issus de lanalyse du contenu textuel des livres. Des mots cls
sont ainsi mis en avant (noms de personnes et de personnages, noms de villes, notions), qui
permettent une apprhension thmatique des ouvrages. Mais cette mthode est parfois dun profit
douteux, lanalyse automatique trouvant ses limites dans la mauvaise matrise du bruit ; quand, par
exemple, les lments dune page regroupant les autres auteurs publis par le mme diteur sont retenus
comme des mots cls de louvrage, limage dun recueil des Pomes lgiaques de Laurent Tailhade.
Encore une fois, les choix de la numrisation en amont sont insparables des modalits en aval de
restitution, et donc des usages.

LAIDE LA RECHERCHE, ELEMENT DE DIFFRENTIATION. Labsence doutils documentaires adapts


la gestion des listes sur Google Livres surprend. Elle renforce limpression de vrac et trahit une
absence de matrise documentaire des fonds numriques proposs par le moteur de recherches, non
compenss lheure actuelle par la pertinence et la puissance de son algorithme. En termes dusages,
elle peut indiquer un positionnement de Google Livres vers des publics moins familiers de ces outils
documentaires, ou du moins plus tourns vers une recherche ponctuelle dinformations (recherche
commode de citations) plutt quinscrits dans une dmarche plus experte de recherche.
Gallica doit continuer renforcer cette dimension ; elle va devenir un enjeu technologique majeur
avec laugmentation du nombre de rfrences disponibles. Elle est un lment cl de diffrenciation
entre les deux bibliothques numriques.

Google Livres propose un accs limit aux uvres rputes sous droits et pour la promotion
desquelles elle na pas sign daccord de partenariat avec les diteurs, sous la forme de snippets (dans la
limite de trois par expression recherche), prenant lallure de morceaux de pages dchires. Il est noter
que ce type de restitution, plus ou moins apprcie des utilisateurs, sappuyant sur lanalyse des
coordonnes graphiques des mots trouvs dans la couche texte du fichier, privilgie une optique de
scurit plutt quune logique dusage. En effet, les snippets semblent tre des extraits prdcoups ; cela
signifie quun mot ou une phrase se situeront toujours dans le mme snippet, celui-ci ntant pas
recalcul, ou compos, la vole. Il suffit donc quun mot se trouve sur une ligne se situant sur la
bordure coupe pour quil napparaisse pas. Dans ces deux exemples, pour lexpression Mais un
regard puis pour lexpression La Condition humaine trouvs dans lexemplaire des Romans de Malraux
(exemplaire de la Bibliothque de la Pliade ) prsent ce jour dans Google Livres :

58
Avec ce systme, Google Livres sassure quun livre ne peut tre rcupr intgralement par
laccumulation de requtes permettant, dune ligne lautre, de reconstituer lintgralit dune page.
Mais en termes dusage, le rsultat nest gure satisfaisant.

Le choix dune restitution sous forme de snippets sexplique probablement par la mdiocre qualit du
fichier texte qui tait dabord associ aux images ; limage, elle, pour peu quelle soit bien positionne,
reste toujours prsentable. Pour autant, on naccde aux snippets quaprs tre pass par une liste de
rsultats de livres qui peut, elle, au-dessous de chaque lment de notice, restituer une phrase du texte
brut. Cest ce niveau de restitution qui avait alert les diteurs sur ltat rel des textes numriss par
Google et le risque datteinte lintgrit des uvres.
Gallica se refuse pour sa part daller au-del de la restitution dun extrait au format texte pour les
ouvrages sous droit dposs par les diteurs. Elle pourrait cependant le faire puisque ces ouvrages sont,
au mme titre que les livres du domaine public, indexs par Lucene, partir dun fichier texte
lgrement structur mis disposition de Gallica par les diteurs partenaires. Pour le feuilletage des
extraits, elle renvoie au feuilleteur indiqu par lditeur, hors du site Gallica, feuilleteur qui peut tre
distinct dun diteur lautre, et qui pourrait trs bien tre normalis dans le futur, suivant lvolution
des partenariats.

Le feuilletage des livres


Le feuilletage des livres permet daccder tout ou partie des pages dun ouvrage. Lapplication
permettant ce feuilletage varie dun site lautre. Google Livres favorise la succession des pages dans un
dfilement vertical, tout en proposant utilement dautres types de mise en forme (damier, vignettes).
Pour les livres sous droits du partenariat diteurs, certaines pages ne sont jamais restitues. Google
Livres utilise la technologie javascript pour afficher les images des pages, ce qui vite le tlchargement
dun plug-in pour y accder. Google Livres veille par ailleurs ne jamais rendre accessible, dans cette
modalit daffichage, la couche texte des ouvrages, par un traitement en back office de la concordance
entre le texte et limage. Si on peut, par programmation, rcuprer via le feuilleteur lensemble des
images dun livre, il nest pas possible den aspirer la couche texte, si celui-ci nest pas rendu disponible
dans lautre mode daffichage par Google Livres ( texte brut , par groupe de pages), propos pour une
part des livres du domaine public, par ailleurs disponible en tlchargement au format ePub ou PDF (et
donc potentiellement accessibles par un moteur de recherches tiers, dans les limites des protections
mises en uvre par Google Livres pour viter les requtes automatises45). Les temps daffichage du

45
Ces livres sont [] la proprit de tous et de toutes et nous sommes tout simplement les gardiens de ce patrimoine. Il
sagit toutefois dun projet coteux. Par consquent et en vue de poursuivre la diffusion de ces ressources inpuisables, nous
avons pris les dispositions ncessaires afin de prvenir les ventuels abus auxquels pourraient se livrer des sites marchands
tiers, notamment en instaurant des contraintes techniques relatives aux requtes automatises. Nous vous demandons []
de [...] ne pas procder des requtes automatises. Nenvoyez aucune requte automatise quelle quelle soit au systme Google. Si
vous effectuez des recherches concernant les logiciels de traduction, la reconnaissance optique de caractres ou tout autre
domaine ncessitant de disposer dimportantes quantits de texte, nhsitez pas nous contacter. Nous encourageons pour
la ralisation de ce type de travaux lutilisation des ouvrages et documents appartenant au domaine public et serions heureux
59
feuilleteur sont excellents.
Le feuilletage sur Gallica, fond sur un feuilletage squentiel page page, est, sur le principe, assez
similaire : accs aux images avec occurrences surlignes en amont de la restitution ; accs au texte brut,
par page, avec, insistons-y, affichage du taux de reconnaissance de caractres ; accs au texte lu, par
synthse vocale. Un nouveau feuilletage a t mis en place plus rcemment, utilisant la technologie
Adobe Flex, proche des logiques de feuilleteur flash. Il rpond la promesse dune plus grande fluidit
de consultation (par pr-chargement), une amlioration des fonctionnalits de zoom Lusage quen
feront les internautes montrera sil sagit vritablement dun progrs.
On sait que Google Livres veille prserver une matrise de laccessibilit la couche texte des
ouvrages de sa bibliothque numrique au travers des obligations contractuelles figurant dans ses
contrats avec ses partenaires. Il reste nanmoins que dans son feuilleteur, il permet un niveau daccs au
texte des ouvrages du domaine, au mme titre que Gallica. Il semble donc se confirmer que la vigilance
de Google Livres porte essentiellement sur lappropriation massive, et non ponctuelle, de ses contenus
textuels qui chapperait sa matrise ; et qu ce titre, la bibliothque numrique pose les jalons
techniques ncessaires pour sen prserver dans les conventions passes avec ses partenaires.

Le tlchargement des livres


Au-del du feuilletage en ligne, les bibliothques numriques offrent la possibilit de tlcharger les
livres du domaine dans leur intgralit, au format PDF (dans une dfinition basse de 75 Dpi) ou Epub.
Pour le PDF, Google Livres ne propose quun fichier image, non interrogeable par linternaute,
prcd dun avertissement sur les conditions dexploitation dudit fichier, et filigran la marque du
moteur de recherche. Son tlchargement est trs ais. Gallica fournit galement un PDF, mais double
couche (image/texte), qui permet une interrogation du texte. On retrouve donc ce stade la prudence
de Google Livres pour protger ses contenus textuels. Pour autant, un OCR pourrait tre pass sur ces
mmes fichiers, afin de restituer une couche texte.
Google Livres propose pourtant le tlchargement dun fichier Epub pour un grand nombre
douvrages du domaine public. Ces fichiers sont constitus partir des mmes sources de numrisation.
Ils reproduisent donc intgralement les erreurs de lOCR qui, pour toute une srie douvrages, et
notamment pour les plus anciens, rend lexprience de lecture des plus exotiques, bien que Google
Livres sen dfende46.
Leffondrement qualitatif que constitue de fait ce traitement interroge sur le devenir de ces
bibliothques numriques du dbut du XXIe sicle et sur la nature du retraitement que nous ou nos
successeurs devrons faire subir aux fichiers ou aux livres eux-mmes. Elle relativise en tout tat de
cause le statut de prennit que lon veut bien accorder ces sources.

de vous tre utile. (Extrait de lavertissement figurant dans un PDF tlcharg de Google Livres).
46
Despite our best efforts you may see spelling mistakes, garbage characters, extraneous images, or missing pages in this book. Based on our
estimates, these errors should not prevent you from enjoying the content of the book. The technical challenges of automatically constructing a
perfect book are daunting, but we continue to make enhancements to our OCR and book structure extraction technologies. We hope you'll
enjoy these books as much as we do. (Extrait de lavertissement figurant dans les Epub de Google Livres).
60
Pour lexemple, une double page dun fichier Epub dun livre franais du dbut du XIX e sicle issu
de Google Livres47.

Complments interactifs
Lun des lments de diffrenciation de loffre de Google Livres, outre le dimensionnement de son
corpus multilingue, rside dans les liens quelle opre entre les livres (du type : ce livre est cit dans tels
autres livres) et avec des bases de donnes ou sources externes : Worldcat de lOCLC, le Sudoc pour
lunivers des bibliothques (afin de permettre lidentification des exemplaires attests dans dautres
bibliothques), ventuellement Gallica ou encore les ressources du Web (sites dassociation damis
dauteur) ; libraires danciens et de nouveauts ; sites dditeurs. Pour autant, ces liens demeurent
encore dun usage assez douteux, tant la cohrence et la fiabilit des renvois dune notice lautre
restent imparfaites. Mais cela tmoigne pour le moins dune volont douverture indniable de cette
bibliothque numrique.
Les deux bibliothques proposent galement des outils dannotation sur les volumes, par le biais
despaces personnels ou de dpts de commentaires. Sur ce point encore, les fonctionnalits de Gallica
sont plutt avances, comparativement au dispositif de Google Livres.
Gallica et Google Livres proposent par ailleurs des possibilits dintgration de liens aux sites Web.
Mais Google Livres va plus loin, proposant dj des API permettant une interaction plus avance de ses
contenus avec dautres sites de ressources (libraires, bibliothques, blog), par exemple via un systme
de vignette exportable, type embed. La fonction slectionner , paraissant dans les pages de
prsentation de livre, permet par exemple dintgrer dans un site tiers un lien vers un extrait dune page
dun livre. Google Livres peut ensuite faire un usage pouss de lutilisation de ses services dans ses
pratiques dindexation et de pondration des contenus les plus populaires.
Les services de corrections collaboratives des mtadonnes et des corpus textuels sont ce jour des
plus limits ; aucune fonctionnalit de type wiki nest prsente. Un service minimaliste de
signalement des erreurs est propos sur Google Livres. Gallica a engag une exprimentation en ce sens
avec Wikipdia et Wikisource sur une partie de ses corpus (1400 documents).

Parmi les liens interactifs, il faut intgrer les liens publicitaires proposs par Google Livres. Ils
apparaissent tant sur les listes de rsultats que sur les fiches de prsentation et le feuilleteur des
ouvrages. Ces liens sont contextuels, dans les limites de la dfinition de la contextualit selon le moteur
amricain. La requte sur la phrase dj cite du pome de Voltaire sur la Providence, Au sein de
linfini, nous lanons notre tre , ramne des liens publicitaires vers les sites du libraire Amazon ou
47
Les Potes franois depuis le XIIe sicle jusqu Malherbe de Pierre-Ren Auguis, tome 4, Imprimerie de Crapelet, 1824,
collection de lUniversit de Michigan
61
des automobiles Infiniti (galement prsent sur le moteur Bing de Microsoft), ou encore vers un site
proposant des solutions daugmentation esthtique du volume mammaire (jug pertinent par rapport au
mot-cl : sein ), et vers un site confessionnel de prires en ligne. On doit comprendre que tout
accord de partenariat avec Google Livres est le support de telles campagnes ; et que les revenus
escompts, si des accords de partage de revenus taient trouvs avec la Socit Google, se feraient au
titre de tels liens, peu en phase avec ce quil convient dappeler la promotion du patrimoine culturel
national. Il faut imaginer la raction des lecteurs actuels de la BnF si on glissait, dans un volume
communiqu en salle de lecture, un flyer pour de la chirurgie esthtique.

Le rfrencement
La section Livres constitue un onglet spcifique sur la page du moteur de recherches Web Google.
Des rsultats issus de Google Livres peuvent cependant remonter via une recherche simple sur le
moteur web, mais sans exhaustivit ; Google semble donc indexer les donnes de Google Livres, y
compris le texte complet des ouvrages, dans le cadre de son activit dindexation gnrale du Web.
Une fois une requte formule sur le moteur Web, on peut relancer la mme requte sur le
primtre Livres , comme on peut le faire sur le primtre Images (lien Afficher les options ,
puis Livres ). Cest ce stade quapparaissent les liens publicitaires de Google Livres. Un accs direct
Google Livres propose enfin un autre type daccs, mais aux rsultats identiques avec laccs
prcdent (mais des liens publicitaires diffrencis).
Sil y a un rapport troit entre Google et Google Livres, il reste que Google ne peut tre considr
comme une modalit daccs suffisante aux contenus de la bibliothque numrique. Il est noter
galement que les contenus de Google Livres ne semblent pas correctement indexs par les autres
moteurs Web (Yahoo!, Bing). On rappellera ce titre que les possibilits daccder au texte des
ouvrages sur Google Livres ne sont que modrment limites ; mais que Google annonce, dans ses
avertissements, avoir mis en uvre des solutions de protection de ses contenus, afin de limiter leur
indexation massive par des tiers.

Les contenus de Gallica (listes de documents et livres) ne sont gure indexs par les moteurs de
recherche du Web (Google, Yahoo!, Bing). Et cest une des problmatiques majeures qui se pose
aujourdhui la Bibliothque numrique de la BnF. Des stratgies multiples sont envisages ce jour :
multiplier les accs la base par la mise en place de liens fins ditorialiss, intgrer dans les pages web
des documents des mtadonnes structures permettant une meilleure reconnaissance des lments par
les moteurs de recherche (utilisation de meta Dublin Core) dans le cadre du dveloppement du web
smantique, diffuser ses mtadonnes (via un serveur OAI-PMH ouvert, ce qui permet, par exemple,
WorldCat dintgrer les descriptions des notices BnF). Cette dernire approche, limite par lusage du
protocole utilis (OAI-PMH), devrait tre complte par le dploiement massif et automatis de pages
HTML lies reprenant ces informations (projet dit du pivot documentaire par la BNF), et les
rendant facilement indexables par les moteurs de recherche. Ltude pralable en a t confie Cap
Gemini. Enfin, une optimisation de lindexation des pages du site va tre ralise, travers lusage
classique des instructions aux robots dindexation (robot.txt et sitemap.xml). Cette refonte devrait
permettre une meilleure indexation des pages de contenus textuels, mme si le nombre de celles-ci (une
page web par page de livre) constitue un frein notable, relevant de la conception mme du systme de
consultation. Une phase de test est aujourdhui en cours, dans le cadre du projet europen TELplus.
Elle doit saccompagner dun effort de concertation renouvel avec les grands moteurs de recherche du
Web. Gallica travaille par ailleurs des outils de bookmarking qui devraient favoriser la diffusion de ses
contenus dans les rseaux sociaux du Web.
Lensemble de ce dispositif est lun des grands enjeux de performance de Gallica pour 2010. Il doit
pouvoir pallier la grande insuffisance des rsultats obtenus en la matire jusqu ce jour.

62
La numrisation de masse est une voie possible, mais non exclusive, de la numrisation ; ses
contraintes et ses limites, tout comme ses indniables apports, doivent tre aujourdhui intgrs toute
rflexion pousse sur ce qui constitue les missions historiques des bibliothques patrimoniales, tant en
termes de conservation que de valorisation. Cest une des conditions ncessaires pour ne pas perdre le
fil du dbat.

63
Annexe 4 : Liste des bibliothques europennes partenaires du programme
Google Recherche de livres
au 21 dcembre 2009
(Source : http://www.google.fr/googlebooks/partners.html [consult le 21/12/2009]

Allemagne

Bibliothque d'Etat de Bavire (2007)

Belgique

Bibliothque universitaire de Gand (2007)

Espagne

Bibliothque nationale de Catalogne (2007)

Bibliothque de l'universit Complutense de Madrid (2006)

France

Bibliothque municipale de Lyon (2008)

Royaume-Uni

Bibliothque Bodleienne (Universit d'Oxford) (2004)

Suisse

Bibliothque cantonale et universitaire de Lausanne (2007)

64

Vous aimerez peut-être aussi