Vous êtes sur la page 1sur 218

CONSERVATOIRE NATIONAL DES ARTS ET METIERS INSTITUT NATIONAL DES TECHNIQUES DE LA DOCUMENTATION

MEMOIRE pour obtenir le Titre professionnel Chef de projet en ingnierie documentaire INTD Niveau I

prsent et soutenu par

Ludovic DESAUBRY
le 16 novembre 2009

La dmatrialisation des dossiers documentaires : les enjeux et les techniques


Etude de faisabilit ralise pour le centre de documentation des Arts Dcoratifs

Jury compos de : Nadia RAS Vronique SEVESTRE

Promotion XXXIX

Remerciements

Je tiens remercier Vronique Sevestre et Michle Jasnin pour leur accueil chaleureux au centre de documentation des muses des Arts Dcoratifs.

J'adresse galement mes remerciements Sverine Denys et Ana Parodi qui m'ont accord un peu de leur temps pour rpondre mes questions et partager leur exprience.

Enfin je remercie vivement toute l'quipe pdagogique de l'INTD, et particulirement Nadia Ras pour ses judicieux conseils et ses encouragements au cours de la prparation et de la rdaction de ce mmoire.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 2 / 218

Table des matires

Introduction ................................................................................................................ 8 La dmatrialisation ................................................................................................ 12 1.1 1.2 1.3 1.4 Dfinitions et principes ............................................................................ 13 Les tapes cls de la dmatrialisation ................................................... 15 Les contraintes lies la spcificit des documents numriques ......... 19 La mise en place dun projet : mthodologie, gestion de projet, freins

humains ................................................................................................................. 20 La Gestion Electronique de Documents................................................................. 25 2.1 2.2 2.3 Dfinitions et principes ............................................................................ 26 La mise en place et les enjeux dune GED ............................................. 29 Les tapes de la chane de traitement du document.............................. 31 Lacquisition numrique ................................................................. 31 Le formatage..................................................................................... 37 Le traitement .................................................................................... 41 Lindexation...................................................................................... 45 Le stockage........................................................................................ 49 La recherche ..................................................................................... 52 La consultation ................................................................................. 53 La diffusion ....................................................................................... 55 Loffre logicielle de GED ......................................................................... 56

2.3.1 2.3.2 2.3.3 2.3.4 2.3.5 2.3.6 2.3.7 2.3.8 2.4

Les dossiers documentaires au centre de documentation des muses des Arts Dcoratifs .................................................................................................................. 59 3.1 3.1.1 3.1.2 3.1.3 Prsentation des Arts Dcoratifs............................................................. 60 Linstitution ...................................................................................... 60 Le muse de la Publicit .................................................................. 60 Le centre de documentation des muses des Arts Dcoratifs....... 61
Page 3 / 218

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

3.1.4 3.2

La documentation de la publicit ................................................... 62 Lanalyse de lexistant ............................................................................. 64 Les dossiers thmatiques de la publicit ........................................ 64 La chane documentaire .................................................................. 65 Recensement de lexistant et typologie des dossiers thmatiques de

3.2.1 3.2.2 3.2.3

la publicit......................................................................................................... 66 3.2.4 Recensement de lexistant et typologie des dossiers dans les autres

documentations................................................................................................. 69 3.2.5 Linitiative dun dpouillement lectronique de certains

priodiques laide du logiciel Mobytext ...................................................... 70 3.3 3.4 Analyse de contenus de botes darchives .............................................. 72 Linadquation des logiciels Mobydoc pour la gestion de dossiers

thmatiques dmatrialiss ................................................................................. 77 3.5 3.5.1 Lanalyse des besoins et les bnfices attendus ..................................... 80 Amlioration du produit documentaire et du service aux

utilisateurs......................................................................................................... 81 3.5.2 3.5.3 3.5.4 3.5.4.1 Rduction de la consommation de papier ...................................... 81 Gain de place .................................................................................... 82 Gain de temps ................................................................................... 83 Alimentation des dossiers : lecture et dpouillement du

priodique, numrisation physique des pages, dcoupage numrique de larticle, indexation des articles, mtadonnes, classement et rangement des documents............................................................................................... 83 3.5.4.2 Impact sur le temps pass renseigner les consultants internes 89 3.5.4.3 Impact sur le temps pass renseigner le public extrieur......... 89 3.5.5 La prennit du fonds numris, et la question du stockage

physique des donnes ....................................................................................... 91 3.5.6 3.5.7 La gestion des processus, ou workflow ..................................... 93 Labolition des contraintes spatiales, et de nouvelles formes de

collaborations et dchanges entre les conservateurs et les documentalistes 95 3.5.8 Lopportunit dun dsherbage et dune redcouverte du fonds

documentaire .................................................................................................... 96
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 4 / 218

3.5.9

Garantir la scurit de la partie du fonds documentaire ayant une

trs grande valeur de raret ............................................................................ 96 3.6 Comptes rendus des entretiens avec les documentalistes des autres

documentations..................................................................................................... 98 3.6.1 Compte rendu de lentretien avec la documentaliste responsable

de la documentation de la mode et du textile................................................. 98 3.6.2 Compte rendu de lentretien avec la documentaliste responsable de la documentation du 20me sicle (le design, les crateurs, le bijou, la cramique) ...................................................................................................... 102 3.6.3 Compte rendu de lentretien avec la documentaliste responsable

de la documentation Art nouveau Art dco................................................. 104 3.6.4 Compte rendu de lentretien avec la documentaliste responsable de la documentation du 17me et du 18me ..................................................... 105 3.7 Prconisations techniques complmentaires........................................ 107 En matire de scanner ................................................................... 107

3.7.1

3.7.1.1 Le choix du meilleur segment de scanners.................................. 108 3.7.1.2 La technologie des capteurs : gnralisation des CCD en matire de GED ........................................................................................................ 109 3.7.1.3 Les caractristiques fondamentales............................................. 109 3.7.1.4 Logiciel dacquisition fourni et pilotes standardiss.................. 112 3.7.2 En matire de logiciel de GED ...................................................... 112

3.7.2.1 Larchitecture de la solution ........................................................ 113 3.7.2.2 Ladministration de la solution.................................................... 113 3.7.2.3 Le gestionnaire de base et les capacits de stockage .................. 114 3.7.2.4 La dclinaison de linterface utilisateur...................................... 114 3.7.2.5 Une configuration multi-utilisateurs ........................................... 115 3.7.2.6 La question de la scurit et le cryptage ..................................... 117 3.7.2.7 Un outil de cration de plan de classement................................. 117 3.7.2.8 Le bulletinage ................................................................................ 117 3.7.2.9 Le standard XML (eXtensible Markup Language) pour

lchange de donnes, et la souplesse offerte par la Dclaration de Type de Document (DTD) ................................................................................... 117

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 5 / 218

3.7.2.10 La problmatique de la migration des langages dindexation documentaire et des mtadonnes ............................................................ 118 3.7.2.11 Lutilisation des codes barres.................................................. 120 3.7.2.12 La formation aux nouveaux outils ............................................. 120 3.7.2.13 Lvolutivit comme critre de choix de la solution................. 120 3.8 Les contraintes et les stratgies de la dmatrialisation ..................... 122 La numrisation rtrospective du stock des dossiers thmatiques

3.8.1

de la publicit.................................................................................................. 122 3.8.1.1 Contraintes et spcificits techniques lies la dmatrialisation ...................................................................................................................... 123 3.8.1.2 Organisation et planification de la dmatrialisation

rtrospective du stock ................................................................................ 127 3.8.1.3 Cas dune dmatrialisation rtrospective en interne ............... 127 3.8.1.4 Cas dune dmatrialisation par un prestataire en externe ...... 128 3.8.2 3.8.3 3.8.4 3.9 3.10 Le contexte dun muse, et le prestige du support ...................... 130 Sabonner aux versions lectroniques de certains priodiques . 131 La perspective dune ouverture plus large au public externe.... 132

Une dmarche qualit, des indicateurs de qualit............................... 134 Les aspects juridiques du projet ........................................................... 137 Le droit de reproduction .............................................................. 137 Les dernires modifications apportes au droit de

3.10.1 3.10.2

reprographie ................................................................................................ 139 3.10.3 3.10.4 Les panoramas de presse de la documentation publicit .... 142 Les aspects juridiques des panoramas de presse lectroniques 144

Conclusion............................................................................................................... 149 Bibliographie .......................................................................................................... 153 Annexes ................................................................................................................... 160 Annexe 1 : Numrisation et numriseurs......................................................... 161 Annexe 2 : Les supports de stockage ................................................................ 167 Annexe 3 : Prsentation de loffre logicielle EverSuite................................... 168 Annexe 4 : Extrait de la liste des publications dont le CFC gre les droits pour les reproductions et reprsentations numriques............................................ 178
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009 Page 6 / 218

Annexe 5 : Organigramme des Arts Dcoratifs .............................................. 179 Annexe 6 : Le guide de bonne conduite de lAproged .................................... 180 Annexe 7 : Extrait du plan de classement des dossiers thmatiques de la publicit............................................................................................................... 182 Annexe 8 : La structure des botes darchives................................................. 184 Annexe 9 : Comparaison entre un systme de GED et un SAE..................... 188 Annexe 10 : Tests de numrisation et tests OCR ............................................ 189 Rpertoire des sigles utiliss.................................................................................. 217

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 7 / 218

Introduction

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 8 / 218

Les continuels progrs technologiques acclrent sans cesse le dveloppement et la prdominance de ce que lon nomme communment la socit dinformation, au cur de laquelle se trouvent tous les centres de documentation. Dans le cadre dune utilisation exclusivement en interne, ou au contraire dune mise disposition pour un public extrieur, de nombreux centres de documentation constituent des dossiers documentaires afin de pouvoir rpondre des besoins dinformations. Apparus la fin du 19me sicle, leur laboration occupe aujourdhui encore une place centrale dans le travail des documentalistes, quil sagisse de dossiers outils rgulirement tenus jour pour rpondre aux besoins permanents des usagers ou de dossiers produits labors sur mesure pour rpondre la demande prcise dun usager particulier. Non seulement le dveloppement rapide du numrique et lavnement des nouvelles technologies de linformation et de la communication nont pas remis en cause la fonction et la finalit de ce produit documentaire - qui reste plus que jamais dactualit et dont les formes sont dsormais encore plus varies -, mais ils ont permis surtout de lui apporter une forte valeur ajoute. Alors que la plupart des centres de documentation sont dj informatiss, tous ceux qui sont dots de logiciels documentaires nont pas encore numris leur fonds de dossiers documentaires. Nanmoins, un grand mouvement de numrisation est en marche, et les projets de dmatrialisation fleurissent actuellement. Parmi les raisons qui expliquent ce progressif mais rgulier passage des dossiers papier au dossiers lectroniques, on citera en tout premier lieu lvolution rapide et importante de la Gestion Electronique de Documents (GED) et de toutes les technologies associes, permettant de travailler efficacement sur des documents en texte intgral, de mettre en place un archivage lectronique des documents, et dinstaurer de nouvelles habitudes de travail collaboratif grce notamment au concept du workflow. Comme autre facteur favorable la dmatrialisation, on citera ensuite la cration de normes et de techniques de structuration des documents qui permettent de se dgager du support et du logiciel par exemple le eXtensible Markup Language (XML) et les mtadonnes. Enfin, plus gnralement, limpact dInternet et des intranets amne logiquement les documentalistes proposer leurs produits et services sous une forme lectronique. Ainsi, parmi les nombreux avantages et bnfices dune exploitation des dossiers documentaires au format lectronique, on mentionnera notamment : une amlioration du produit documentaire dossiers mieux classs, mieux dcrits, mieux indexs, etc - et du

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 9 / 218

service aux utilisateurs, la mise disposition plus directe et plus rapide de la documentation, la disponibilit et une accessibilit hors des contraintes temps/espace, et le partage de linformation en temps rel. Pour certains projets, le passage aux dossiers numriques reprsentera aussi lopportunit dune rflexion sur le positionnement et la stratgie du centre de documentation en termes de produits, de services et de cibles. Ce mmoire offre une tude et une rflexion qui se focalisent essentiellement sur les techniques et les enjeux du processus de dmatrialisation, plutt que sur l'objet de cette dmatrialisation en lui-mme. Notamment, les possibilits nouvelles quapporte la dmatrialisation pour la conception, l'laboration ou la prsentation des dossiers documentaires, en termes de contenus, nont pas t incluses dans le primtre du sujet de ce mmoire. La dmatrialisation ne sinscrit pas seulement dans une dmarche purement technique, comme on pourrait le penser au premier abord, mais elle comporte aussi une forte dimension humaine et organisationnelle. Elle nest pas seulement synonyme de changement de support de linformation, elle offre aussi la possibilit dune mise en place de nouvelles procdures et de nouveaux outils de travail. Et le passage des dossiers papier au dossiers numriques ncessite et induit presque toujours une refonte mthodologique du travail documentaire, une rorganisation du systme de travail et du mode de fonctionnement, une forte implication et un changement de mentalit. En effet, dans le cadre de tels projets, les documentalistes sont ainsi confronts toute une srie de questions, dautant que les volutions sont rapides en matire de dmatrialisation et quil nest pas ais lorsquon ne possde ni formation ni exprience pralable dans le domaine de connatre les procdures, les techniques et les normes les plus adquates au projet que lon souhaite raliser. Ce mmoire se base sur le cas du centre de documentation des muses des Arts Dcoratifs, o jai men une tude de faisabilit et dopportunit pour un projet de dmatrialisation des dossiers thmatiques de la documentation publicit. La dmatrialisation est un processus qui ncessite et implique l'utilisation d'outils, et l'tude propose ici porte donc trs largement sur la GED. Ainsi, la premire partie de ce mmoire, consacre la dmatrialisation en tant que processus et projet, revt un caractre plutt thorique, alors que la deuxime partie, prsentant en quelque sorte la GED comme l'instrument de cette dmatrialisation, offre un aspect plus technique et pratique. Ces deux parties se basent toutefois sur une structure relativement similaire, savoir : un rappel des principes et des dfinitions, une prsentation des diffrentes tapes, et la proposition de prconisations, d'lments d'aide et d'informations pour la mise en place et la
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 10 / 218

mthodologie. Elles dcrivent ainsi les principaux outils, techniques, mthodes et normes actuellement disponibles et utiliss par les organismes se lanant dans des projets de numrisation de leur fonds documentaire. Nanmoins, certains aspects de la GED - sujet vaste et touchant beaucoup de domaines de l'infodoc - n'ont pas t dvelopps dans ce mmoire, notamment : la question des traitements linguistiques et smantiques, les caractristiques des moteurs de recherche proposs par les diffrents diteurs, la problmatique de la mise en place et de l'exploitation des portails, et la migration des mtadonnes vers les applications de GED. La troisime partie est, quant elle, consacre au projet du centre de documentation des muses des Arts Dcoratifs. Et dans le cadre de ce mmoire, destin des non-spcialistes de la dmatrialisation, le choix a donc t fait de raliser une tude relativement cible, la plus concrte et pragmatique possible, en imaginant que la documentation de la publicit pourrait servir de projet pilote une future extension de la dmatrialisation aux autres documentations du centre. Cette troisime partie expose donc les analyses dtailles lanalyse des besoins, lanalyse de lexistant et des contraintes, les craintes et les attentes, etc - et propose toute une srie de prconisations techniques, organisationnelles. Les dossiers thmatiques de la documentation publicit tant aliments essentiellement par des panoramas de presse, ce mmoire traite galement des aspects juridiques du projet lis au droit dauteur et au droit de reproduction, et souligne les diffrences significatives qui existent entre le contrat dexploitation pour une version papier et celui pour une version lectronique. Enfin, la problmatique des rsistances humaines et culturelles la numrisation a aussi t aborde dans cette troisime partie, puisque, notamment, lanalyse de lexistant et des contraintes pour les autres documentations du centre a trs largement port sur les apprhensions des documentalistes et des conservateurs, plus que sur la typologie et ltat des ressources de ces documentations. Les comptes rendus des entretiens qui ont t mens avec tous les documentalistes responsables de ces diffrentes documentations ont ainsi fait lobjet dun chapitre entier de ce mmoire.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 11 / 218

Premire partie La dmatrialisation

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 12 / 218

1.1 Dfinitions et principes


La dmatrialisation est aujourdhui une ralit qui touche de nombreux organismes, dont les centres de documentation qui se lancent dans des oprations de numrisation de leurs fonds documentaires. Et lon constate une grande varit de ces projets de dmatrialisation qui rsultent dobjectifs diffrents et de choix techniques varis. Mais que signifie exactement la notion de dmatrialisation ? Dmatrialiser signifie transfrer sur support numrique des types dinformations qui existaient jusque-l sous forme analogique, c'est--dire sur des supports dits traditionnels, le plus souvent le papier, mais aussi le film ou le microfilm. Fruit de lvolution naturelle des technologies de linformation, elle peut tre la fois active dans le sens o elle reprsente laction de dmatrialiser un document lorigine sous forme papier pour le rendre numrique, et statique en noprant aucune action mais simplement par la transposition de processus jusque-l destins traiter des documents papier en processus ne relevant plus que de documents lectroniques, immatriels. Linformation numrique prsente deux caractristiques fondamentales : - elle nest pas lisible ou visible lil nu ; - elle est exclusivement code laide de 0 ou de 1 et est indpendante du support ; Ses principaux avantages sont : - la possibilit de partager aisment linformation ; - le peu de place physique quelle exige en comparaison des supports traditionnels ; - lutilisation de puissants et efficaces outils de recherche, daccs et de gestion ; Son inconvnient principal est quelle rend tributaire dun quipement souvent complexe. Ainsi, depuis quelques annes, le choix de certains centres de documentation de numriser une partie de leurs documents sexplique par la convergence de plusieurs facteurs : - des possibilits offertes par des technologies performantes ; - laugmentation continuelle des volumes papier depuis des dizaines dannes avec les problmes de gestion et de stockage affrents ; - des besoins dchange et daccs partag linformation ; Les arguments de faisabilit et dopportunit des projets de dmatrialisation au sein des centres de documentation dcoulent donc tous des potentialits offertes par la numrisation. Mais ils peuvent naturellement diffrer selon les centres de documentation, de par : - les contextes et les organisations de ces derniers ;
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 13 / 218

- la nature des documents concerns par cette numrisation ; Nanmoins, les arguments les plus frquents et les bnfices attendus au niveau des documents, des documentalistes et des utilisateurs - qui reviennent le plus souvent sont : - un gain de place ; - une plus grande facilit de consultation ; - une meilleure prsentation ; - une communication des documents ; - un gain de temps dans la recherche, qui sera plus facile et plus rapide (recherche multicritres, recherche en texte intgral, plan de classement lectronique, etc) ; - un gain de temps grce une plus grande autonomie des utilisateurs ; - la conservation (notamment la prservation de documents fragiles) ; Lorsquil est tabli que la dmatrialisation parat opportune et rentable, se pose alors la question de la stratgie adopter : une numrisation rtrospective du stock des dossiers et dans ce cas faut-il confier lopration un prestataire spcialis ? -, ou une numrisation priode fixe - tous les mois, tous les trimestres -, ou plutt numrisation au fil de leau notamment dans le cours normal de traitement de linformation. Voici un certain nombre de concepts que recouvre la dmatrialisation : - transformer des objets physiques en en objets numriques ; - automatiser, par des logiciels, des traitements raliss par lhomme ; - amliorer la qualit et la rapidit des changes entre personnes par lutilisation de moyens techniques de communication tels que les espaces de travail partags ; Pour chacun de ces concepts il convient : - didentifier les outils ncessaires ; - de dfinir les modes de mise en place adquats ; - dtablir une vritable gestion de projet ; - de cerner toutes les contraintes ; - dessayer le plus objectivement possible de jauger de lutilit ; Enfin, quel que soit le choix technologique retenu au final, on peut citer un certain nombre de principes communs tous les projets de dmatrialisation : - la capture (technique de scannage) ; - le stockage ; - linterprtation du document dmatrialis (production de caractres indexables) ; - la gestion des mtadonnes et identifiants ; - lexploitation et la valorisation du document numris ;
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 14 / 218

1.2 Les tapes cls de la dmatrialisation


Tout dabord il est important de rappeler que la dmatrialisation est une des facettes de la Gestion Electronique de Documents (GED) lautre tant la gestion des processus ou workflow et que tout projet de ce type induit donc la mise en place dun vritable outil de GED - celle-ci sera dfinie et expose dans la deuxime partie de cette tude. La russite du projet est aussi conditionne par une prise en compte pertinente de facteurs trs divers, de lexistant documentaire au rseau informatique. La transformation des objets physiques en une version numrique implique un certain nombre dtapes, qui sont ncessaires et imposes : - prparation des documents ; - processus physique de numrisation ; - indexation des documents ; - stockage ; - contrle ; Voici un certain nombre de repres autour desquels on pourra dvelopper et btir un projet de dmatrialisation.

La connaissance de lexistant
La connaissance de lexistant passe par ltablissement dune liste, la plus exhaustive possible, des divers types de documents numriser. Pour chaque type de document il est galement ncessaire de donner une valuation de la qualit et de ltat de conservation. A partir de ce constat il est alors possible de fixer des critres de choix pour le numriseur de documents. Ces critres ont t regroups dans un tableau que lon peut consulter en annexe 1, la page 161 de ce document. Pour chaque type de document : - on dfinira les lments permettant de slectionner lappareil le plus adapt ; - on prcisera les informations ncessaires leur manipulation (description, recherche) ; On doit aussi lister les mtadonnes ou les index qui seront saisis lors de la numrisation. En fonction de ltat du document, de la nature des mtadonnes, il faudra par exemple essayer de dterminer si une technologie de lecture automatique est recommande et si elle est rellement utilisable avec profit.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 15 / 218

Lvaluation de lopportunit du projet


Lvaluation de lopportunit du projet passe notamment par la prise en compte de trois facteurs primordiaux que sont le retour sur investissement, les risques et la rglementation. Dans le cas dun centre de documentation, et plus particulirement celui de la numrisation de dossiers documentaires, il semble que ce soit plutt le retour sur investissement qui sera le facteur prpondrant et dterminant dans la prise de dcision finale. Voici un petit schma dcrivant le processus de dcision :
oui
Contraintes rglementaires

oui non
Originaux lectroniques

oui non
Pertes de documents

oui non
Productivit faible

oui
Retour sur investissement positif

Faire

non

non

Tout va bien ?

Toujours dans le cas dun centre de documentation, qui concerne notre tude, lanalyse de ce schma fait apparatre que les deux points qui feront toujours pencher du ct du oui sont : - la perte (garement, vol) de documents ; - le retour sur investissement, sous forme dune amlioration de la qualit du service et du produit documentaire, ainsi que dun gain de temps ; Sur le plan de la qualit autrement dit des normes, et qui rejoint aussi la notion de risques aborde plus haut -, il faudra ensuite sinterroger pour essayer de dterminer si le contexte du projet de dmatrialisation fait quil sinscrit totalement ou non dans le cadre de la norme NF Z42-013 1 pour le stockage permanent de documents lectroniques sur support optique non rinscriptible. Le respect des recommandations de cette norme, publie par lAFNOR 2 , relatives la gestion, au stockage et la restitution des documents lectroniques garantit la scurit, lintgrit, la conformit rglementaire et la prennit des documents stocks dans le systme. A priori, et en toute logique, tout investissement et tout effort dploys pour dmatrialiser et capitaliser un fonds documentaire devraient aussi saccompagner dune solution darchivage lectronique scuris et fiable. Ceci afin dviter toute perte accidentelle de donnes, et prserver lintgrit des documents. On reviendra plus en dtails sur ce point dans la deuxime partie de cette tude consacre aux solutions de GED, pour montrer que ces
1

Spcifications relatives la conception et lexploitation de systmes informatiques en vue dassurer la conservation et lintgrit des documents stocks dans ces systmes. 2 Association Franaise de Normalisation. La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 16 / 218

dernires autorisent et permettent presque toutes de sauvegarder des donnes sur des supports optiques non rinscriptibles de type WORM 3 , mais dans le cadre dun stockage classique et non dun vritable archivage lectronique au sens de larchivage des archivistes. On fera donc la distinction entre un systme de gestion lectronique de documents et un systme darchivage lectronique (SAE). Et les responsables dun projet de numrisation doivent ainsi se demander si ce dernier implique ou non la conception et la mise en place dun vritable systme darchivage lectronique (SAE), qui pourra accueillir les documents numriss immdiatement aprs leur transformation. Dans le cadre dune tude de faisabilit de dmatrialisation, un autre point trs important sur lequel il est ncessaire de se prononcer est le suivant : faut-il procder la numrisation en interne, ou plutt en externe ?

La ralisation du projet
Aprs avoir ralis les tudes et valuations ncessaires une bonne connaissance de lexistant, et aprs avoir analys tous les facteurs cls qui ont conduit sassurer de la faisabilit du projet de dmatrialisation, il faut sattacher bien tudier et surveiller les points importants qui conditionnent le bon droulement de la ralisation du projet. Parmi ces points dterminants, on peut citer les exemples suivants : - le rseau va-t-il supporter les transferts et la circulation des documents lectroniques ? - les postes de travail sont-ils quips de mmoires vives suffisantes, et dcrans adapts la taille des documents numriques ? - la base de donnes et les supports de stockage sont-ils suffisants pour accepter la volumtrie des objets numriques ?

La conduite du changement
Lutilisation dun matriel de numrisation et dun ventuel systme darchivage lectronique peut amener changer certaines habitudes de travail, et ncessiter la dfinition de certaines procdures ou rgles pour la numrisation. Par exemple il est indispensable de rpondre aux questions suivantes : - qui numrise ? - y a-t-il un contrle qualit au niveau de la phase de numrisation ? - les documents papiers sont ils dtruits aprs leur numrisation ? (certains ?, tous ?, selon quels critres ?, etc)

Write Once Read Many.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 17 / 218

Le suivi des archives


Sur le plan du suivi des archives, en cas dadoption dun SAE, il est ncessaire de mettre en place deux types de procdures: - Des contrles priodiques de la qualit des archives conserves ; - Des migrations des archives sur de nouveaux supports de stockage ou de nouveaux formats informatiques. Cet aspect est abord plus loin dans ltude avec notamment une prsentation des atouts du format PDF/A 4 ;

La dmatrialisation des traitements


Lintrt et lavantage dune dmatrialisation des documents papier au sein des centres de documentation peuvent ne pas se limiter un simple gain de place ou un gain de performance pour la recherche de ce document. Elle peut aussi permettre dans certains cas de raliser informatiquement des oprations jusque-l ralises manuellement. Il convient donc galement pour le choix du systme et de la solution de recenser les traitements qui peuvent tre dmatrialiss et dvaluer le bnfice qui peut en dcouler.

Portable Document Format / Archive.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 18 / 218

1.3 Les contraintes lies la spcificit des documents numriques


La problmatique de la gestion des documents numriques est en partie lie leur spcificit. Un document est le rsultat de la combinaison dune information - connaissance matrialise selon un code - et dun support matriel, moyen de sa communication. Dans le systme papier, ces deux lments ne forment quun et sont indissociables. En revanche, dans lenvironnement numrique, linformation est code sous la forme de chanes de caractres en mode binaire, elles-mmes inscrites sur des supports informatiques.

La viabilit
Lexploitation de fichiers informatiques, quels quils soient, est dpendante doutils technologiques qui ne sont pas forcment compatibles entre eux et qui voluent trs rapidement. Invitablement, cela engendre des problmes dchange et daccs aux documents le cycle dvolution des applications qui les exploitent est parfois trs court -, et lon trouve aujourdhui plusieurs dizaines de formats de fichiers en circulation. De plus, on la vu, un point stratgique pour les documents numriss est galement la conservation sur le long terme. Or celle-ci passe non seulement par la garantie dune intgrit physique des documents, mais surtout par la possibilit de pouvoir y accder tout moment dans le futur malgr cette invitable volution des outils qui les exploitent. Ainsi, lors de chacune de ces volutions technologiques majeures, les documentalistes devront donc faire migrer une opration informatique souvent complexe - leurs bases de documents lectroniques, en stockant ces derniers sur de nouveaux formats.

La fiabilit
Une autre particularit des documents numriques concerne la fiabilit. En effet, contrairement aux documents papier, les documents numriques sont trs facilement modifiables, sans que ces modifications soient forcment intentionnelles - erreur de manipulation, dfaillance matrielle. Or lintgrit des corpus documentaires est sous la responsabilit des documentalistes et informaticiens, et elle passe par la mise en oeuvre de procdures contraignantes par exemple la sauvegarde systmatique des donnes (back up).

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 19 / 218

1.4 La mise en place dun projet : mthodologie, gestion de projet, freins humains
De manire gnrale, les documentalistes sont les premiers acteurs des projets de dmatrialisation au sein des centres de documentation. En amont dun tel projet, ils doivent tre capables danalyser les besoins et les contraintes initiales c'est--dire les problmes techniques et organisationnels -, et ce avec la plus grande attention puisque de la qualit de ce travail prliminaire dpendra la pertinence du cahier des charges qui suivra. Mme si ces projets font intervenir dautres acteurs, comme les informaticiens qui interviendront sur certaines clauses techniques du cahier des charges, les documentalistes restent seuls responsables de la gestion des documents dont ils ont la charge, et ils occupent donc un rle essentiel eu sein des quipes projets. Il leur est par consquent de plus en plus indispensable de se doter de comptences techniques solides, ainsi que dune connaissance minimum des rgles en termes de gestion de projet. En effet, tout projet de dmatrialisation de dossiers documentaires doit se baser naturellement et logiquement sur une dmarche classique de gestion de projet, qui comprend 3 phases principales : une phase de dfinition du projet, une phase de dveloppement, et une dernire dite dexploitation et dvolution. Dtaillons les diffrentes tapes de chacune de ces phases :

Phase de dfinition :
- tude de faisabilit et dopportunit du projet (dfinition des objectifs, expression des attentes, finalit et primtre du projet) - dsignation dun chef de projet qui a la charge de constituer le groupe projet ; - analyse de lexistant et analyse des besoins (typologie des documents numriser, typologie des utilisateurs, cartographie des besoins, modlisation des flux documentaires, etc) ; - analyse des contraintes techniques et organisationnelles prendre en compte pour mener bien le projet ; - la dernire tape de cette phase consiste cerner les spcifications et les spcificits du projet de GED (sans pour autant arrter des choix techniques trs prcis) et faire une premire analyse de loffre et des solutions existantes sur le march ; Lors de cette phase dtude, destine bien dfinir le projet, il faut souligner encore une fois la ncessit dune collaboration et coopration troites entre les documentalistes et le service informatique, qui conditionneront au final la russite dun tel projet toujours technique. Les

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 20 / 218

contraintes techniques au sein de lenvironnement informatique dun centre de documentation tant parfois difficiles cerner pour les documentalistes, lexpertise et le soutien des informaticiens savrent donc indispensables. Par consquent, il est aussi important, ds le dmarrage du projet, de dfinir prcisment le matre douvrage et le matre duvre, soit distinguer clairement le reprsentant des documentalistes et des utilisateurs de celui qui apporte une dimension technique au projet, permet sa conception et surtout garantit son intgration dans le systme dinformation du centre de documentation.

Phase de dveloppement :
- rdaction du cahier des charges fonctionnel ; - choix techniques sur le traitement des documents (type de numrisation, rsolution, indexation, stockage) ; - lancement ventuel dun appel doffre, et choix des prestataires ; - ralisation du projet ;

Phase dexploitation :
- mise en place du systme ; - formation des utilisateurs ; - exploitation du systme ; - modifications et volutions du systme ; - validation du systme ; - maintenance du systme ; En plus de la gestion des diffrentes tapes cites plus haut, le principal dfi que doit relever tout bon chef de projet est donc la bonne coordination entre les diffrents acteurs du projet. Ces derniers, intervenant ponctuellement sur des phases prcises, ou au contraire de manire permanente, pourront tre par exemple : - les documentalistes pour : la dfinition des besoins et de la typologie documentaire, les cls de recherche et dindexation, llaboration des nouvelles procdures de gestion de linformation ; - le service informatique pour lacquisition et la maintenance de matriels et logiciels, intgrer dans le systme dinformation ; - un groupe dutilisateurs pour le test de la maquette ou du prototype ;

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 21 / 218

- ventuellement un assistant matrise douvrage expert en GED qui accompagnera le chef de projet et le responsable informatique dans des phases critiques du projet sur les aspects techniques, organisationnels et normatifs ; - le service archives, sil en existe un, pour organiser larchivage et la restitution des documents originaux ; - le service juridique, sil en existe un, pour les aspects lis au droit dauteur et au droit de reproduction ; - le service formation, sil en existe un, pour la formation au changement et lutilisation des nouveaux outils ; La russite dun projet de dmatrialisation est non seulement conditionne par une bonne prise en compte de tous ces aspects cits plus haut - dordre organisationnel et technique -, mais galement par dautres dordre humain, qui sont tout aussi importants et qui doivent faire lobjet dune grande attention. En effet, la numrisation implique la mise en place de nouveaux outils comme la GED qui peuvent venir bouleverser les habitudes de travail et le rapport du documentaliste au document. Un projet de ce type peut donc tre ressenti et considr de plusieurs faons selon les documentalistes. Certains voient dans la dmatrialisation une possibilit de rsoudre les problmes lis au papier tandis que dautres y voient au contraire une source potentielle de dgradation de leur condition de travail. Parmi ces freins et ces craintes qui peuvent tre induits par le passage du support papier au support numrique, on peut en citer quelques-uns. Tout dabord, les documentalistes ont encore majoritairement une culture papier. Ils restent donc trs attachs ce support et prfrent souvent la consultation par feuilletage manuel plutt que la lecture sur ordinateur. Cette attitude devrait sestomper au fil du temps, et lapparition de nouvelles gnrations dcrans informatiques plus grande taille, meilleure contraste, meilleure rsolution autorise dores et dj une consultation suffisamment confortable pour lil. Nanmoins, sur ce point, il faut bien avouer que la notion de zro papier , dont on a tant parl, semble aujourdhui inatteignable et presque utopique. Ainsi, alors que lavnement de linformatique dans le monde professionnel a depuis ses dbuts t associ une forte rduction de lutilisation du papier, et alors que beaucoup dorganismes cherchent et se disent proches du zro papier , force est de constater quil en est souvent autrement dans la ralit. Des tudes ont mme dmontr que cest parfois le constat inverse qui intervient : chaque personne implique dans llaboration ou le traitement dun document informatique imprime trs souvent ce document pour les tapes cl de contrle, lecture ou relecture. Ainsi
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 22 / 218

un document lectronique est encore parfois imprim un grand nombre de fois, sans quil ny en ait une vritable ncessit ou obligation. Cela met en exergue la faiblesse majeure de la dmatrialisation du papier car le document numris est souvent moins bien apprhend dans son ensemble mais aussi dans ses dtails. De la mme faon, le passage un systme numrique et une gestion lectronique des documents notamment lindexation lectronique - est en quelque sorte synonyme dun travail documentaire exclusivement sur ordinateur. Nanmoins, si cela peut encore induire quelques apprhensions chez certains, la majorit des documentalistes des centres de documentation ne sont pas gns par ce changement puisquils sont dj familiers de multiples tches informatiques bulletinage, consultation de bases de donnes, etc. En revanche, une crainte rcurrente et touchant absolument tous les documentalistes est celle de la dpendance loutil informatique, avec le risque de voir son activit ralentie ou arrte en cas de problmes techniques. En termes dimpact sur la charge de travail des documentalistes des centres de documentation, dans le cadre du passage de dossiers papier des dossiers numriques, il est vident que la phase de description et dindexation lectronique qui est une des tapes cruciales de la GED alourdit forcment le travail des documentalistes. Et lon peut dire, plus globalement, que la numrisation des dossiers documentaires engendre une rorganisation du travail de ces derniers, mais sans conduire forcment un allgement voire mme parfois un certain alourdissement. Et alors mme que lobjectif de tels projets est, pour les documentalistes, de pouvoir consacrer plus de temps dautres tches, lexprience montre que la dmatrialisation ne diminue finalement pas le nombre de manipulations ncessaires lalimentation des dossiers documentaires. Au contraire, elle peut mme demander plus de temps quavec lancien systme papier. Do lexpression de quelques apprhensions et interrogations de la part de certains documentalistes lors de la mise en place de certains projets. Pour lutter contre les freins humains qui viennent dtre cits, il existe des moyens daction classiques mais fondamentaux : - prendre en compte les besoins et les attentes le plus prcisment possible ; - rdiger un cahier des charges trs dtaill ; - unir et fdrer les documentalistes autour du projet, le plus troitement possible ; - prvoir des formations sur les nouveaux outils le plus prcocement possible ; - rassurer en planifiant une implantation trs progressive du nouveau systme, avec ltablissement dun calendrier prcis ;

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 23 / 218

Par exemple, il est prconis que des actions de communication soient menes par le chef de projet, pour attribuer des responsabilits de gestion aux diffrents intervenants sur chaque tche ou tape du projet, harmoniser les relations humaines au sein de lquipe du projet, motiver chaque acteur et participant, formaliser les informations pour une bonne excution des tches et informer de leur tat davancement, etc. Il est aussi recommand dorganiser une implantation progressive des nouveaux outils et mthodes, dans le contexte dun processus de dmatrialisation qui se ferait ainsi en douceur. Une fois loutil de GED choisi, une priode devra permettre une intgration pas pas du nouveau systme, ce qui passera notamment par des tests de toutes les fonctions attendues dans lenvironnement de travail procdures de traitement des documents, construction des outils documentaires, dfinition des profils utilisateurs, gestion des droits daccs, implantation technologique, etc. Enfin, on soulignera encore une fois la ncessit dimpliquer un maximum dacteurs de lorganisme dans le projet : les documentalistes et les utilisateurs, en premier lieu videmment, mais de faon tout aussi significative la direction et le service informatique du centre. Tout le monde doit jouer le jeu pour que le systme soit une pleine russite, afin quil puisse faire profiter le centre de documentation de tous ses atouts et de tout son potentiel, actuel et futur.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 24 / 218

Deuxime partie La Gestion Electronique de Documents

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 25 / 218

2.1 Dfinitions et principes


Toutes les organisations qui se lancent dans des projets de numrisation de documents, ou dmatrialisation , sont directement touches par les enjeux dune gestion lectronique de documents. La GED (Gestion lectronique de documents) ou GEIDE (Gestion lectronique dinformations et de documents existants) reprsente un ensemble doutils et de techniques qui permettent, partir dapplications informatiques, de dmatrialiser, organiser, grer, stocker et distribuer des informations documentaires sous forme lectronique. On peut distinguer deux poques marquantes de lhistoire de la GED : - Une premire priode allant de lapparition de la GED au milieu des annes 80 jusquaux environs de 1995 o les premires solutions dveloppes correspondaient des besoins darchivage lectronique. La justification dune GED tait alors dordre lgal et administratif. Les solutions techniques de GED taient alors trs lourdes, trs coteuses, et proposaient une alternative la micrographie. - Une deuxime priode, survenant vers 1995, au moment de lexpansion des rseaux et du multimdia. La justification dune GED est alors devenue conomique et stratgique, avec une recherche de gisements de productivit, de facteurs dinnovation et de qualit, travers la mise en place de processus de travail collaboratif, de capitalisation et dchanges informationnels. Au cours des dernires annes, lessor de la GED a t favoris par laugmentation des capacits de stockage, le dveloppement des techniques de numrisation et de reconnaissance optique de caractres, ainsi que celui des rseaux de tlcommunications haut dbit. Sur ce dernier point, il est vident que la gnralisation et la continuelle optimisation des rseaux Internet et intranet a permis des volutions technologiques majeures en termes de solutions logicielles. Ainsi, alors quau dbut les diteurs se sont contents de mettre en place des passerelles entre leurs solutions et la consultation travers ces rseaux, aujourdhui un nombre croissant de logiciels repose 100% sur une technologie web. Et de nouveaux standards se sont ainsi imposs, comme le XML (eXtensible Markup Language) ou encore le J2EE (Java 2 Enterprise Edition), qui favorisent le traitement de linformation en ligne ou le dveloppement dapplications interconnectes. La GED est aujourdhui vocation universelle, trouvant de multiples applications dans toutes les organisations o les documents abondent. Et, alors qu ses dbuts ses principes se rsumaient numriser un document et le caractriser par des champs descriptifs afin de
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 26 / 218

faciliter son accs et sa recherche, la GED sest depuis considrablement dveloppe en intgrant notamment des notions fondamentales comme la gestion de contenu (content management) ou la gestion de processus (workflow). La GED a pour vocation de rendre linformation accessible : - plus facilement avec les indexations et les moteurs de recherche ; - plus rapidement grce linformatique qui abolit la distance entre lutilisateur et le lieu o se trouve physiquement linformation ; - plus srement car les accs sont contrls et les documents ne risquent pas dtre dclasss par un utilisateur ngligent ; - simultanment par plusieurs utilisateurs ; Les 5 grandes catgories de GED existantes sont : - La GED administrative permet de numriser puis de classer les documents administratifs (factures, fiches techniques, formulaires, devis ). - La GED bureautique regroupe loffre de progiciels de travail collaboratif permettant dchanger des documents, de les lire dans leur format dorigine (Word, Excel, Powerpoint, Outlook ). - La GED COLD (Computer Output on Laser Disc) qui permet darchiver sous une forme lectronique les tats produits par linformatique dun organisme (relevs de compte, factures, etc). - La GED technique ou GED mtier qui concerne la manipulation de documents dont le format et le contenu sont propres un mtier (plans, schmas etc..). - La GED documentaire consiste indexer un grand nombre de fichiers numriques aux formats les plus divers (texte, image, ..) selon des critres dfinis par et pour lorganisme. Ce mode de gestion suppose de mettre en place de puissants moteurs de recherche afin que chaque fonction de lorganisme puisse exploiter efficacement les multiples ressources mises sa disposition. Cette catgorie de GED a pour objectif la diffusion distance des documents, et recouvre des applications varies : la fourniture lectronique de documents, la consultation de fonds documentaires numriss, les dossiers documentaires (accessibles distance et de manire partage), les banques dimages, etc. Dans le cadre de cette tude, ce sera cette dernire application qui nous concernera directement. Les fonctions de la GED peuvent se dcomposer en trois classes - ou trois ples complmentaires et successives : lacquisition de documents, la production de documents, la consultation de documents.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 27 / 218

Ces fonctions comportent des tapes on parlera donc dtapes fonctionnelles qui senchanent selon le processus en boucle suivant on parlera de chane GED : - acquisition du document au format numrique ; - formatage ; - traitement (compression, retouche et correction graphique, reconnaissance optique de caractres) ; - indexation ; - stockage ; - recherche ; - consultation ; - diffusion ; Il est important de prciser que lorsque les GED incluent des fonctionnalits dites darchivage , cest bien souvent au sens restreint du terme, c'est--dire au sens de stockage et de gestion des fichiers dans le systme. Ce nest donc pas larchivage des archivistes car il sagit le plus souvent de copies dpourvues de valeur probante et qui nont donc pas tre grs comme des archives proprement dites. Cest prcisment le cas du centre de documentation des Arts Dcoratifs, et ce point sera abord dans la troisime partie de ce mmoire. Une distinction doit donc tre faite entre un systme de GED et un systme darchivage lectronique (SAE), qui peuvent prsenter des fonctionnalits diffrentes puisquils poursuivent des buts diffrents. Le choix dun systme par un organisme repose sur le statut et la fonction des fichiers concerns : il est important de savoir si ces derniers sont figs en vue de tracer des responsabilits ou de dfendre des intrts, ou au contraire sils reprsentent des objets sans valeur probante et dont le contenu est mis disposition des quipes et des utilisateurs de lorganisme qui peuvent ventuellement le modifier. Un tableau tir du modle europen MoReq 5 pour larchivage lectronique, comparant les caractristiques respectives du document management (quivalent de la GED) et celles du e-records management (quivalent de larchivage lectronique), est consultable en annexe 9 la page 188 de ce document.

Model Requirements for the management of electronic documents and records.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 28 / 218

2.2 La mise en place et les enjeux dune GED


La mise en place dune GED ncessite tout dabord de choisir judicieusement les technologies adquates intgrables et volutives court et moyen terme. Ensuite, dans le cadre dun projet de dmatrialisation, ds quun projet de GED dpasse les frontires de la simple station personnelle, il comporte des composantes humaines et organisationnelles sur lesquelles la plus grande attention doit tre porte. Notamment, lintroduction de la GED dans le systme dinformation dun centre de documentation ncessite dassocier troitement les utilisateurs finaux au projet, pour amliorer les chances de russite et de rapidit dintgration des solutions, et donc du retour sur investissement. Face aux rsistances humaines et culturelles quelle suscite parfois, et malgr les modifications des modes de travail quelle engendre, la GED dont les deux facettes sont la dmatrialisation et le travail collaboratif - oppose pourtant un solide et fondamental atout qui est celui dapporter de la souplesse l o le papier est au contraire extrmement fig : circulation quasi instantane de linformation, recherche rapide et fiable sur des centaines de milliers de documents laide de mots-cls, scurisation de laccs et assurance de la bonne conservation des documents. Et mme si la mise en place dune GED signifie gnralement un investissement et un effort consquents, il est souvent constat que les utilisateurs de ces nouveaux outils et services auraient maintenant du mal sen passer. Linformation est prsente plus efficacement, mieux cible, et circule plus vite. Les configurations de la GED peuvent tre multiples, orientes en fonction de multiples paramtres : - configuration physique des options dacquisition : pour le cas dun centre de documentation, par exemple, il sagira plutt dune configuration centralise ; - nature des documents : des articles papier de priodiques par exemple ; - lgislation : en termes de droit de reproduction, par exemple, celle-ci est sensiblement diffrente pour le paysage papier et pour le paysage lectronique ; - confidentialit et scurit ; - usage attendu : modes de recherche, modes darchivage, etc ; La mise en place dune GED doit tre mene comme un projet - avec une mthodologie et un mode de pilotage appropris. Un projet de GED ne se rsume pas une simple acquisition et installation dun outil, il est donc indispensable de faire prcder la mise en place de loutil de GED par une tude de faisabilit et dopportunit sur le plan technique, organisationnel et conomique. Lanalyse stratgique doit galement tre bien concilie avec lanalyse
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 29 / 218

technique. La rflexion doit notamment partir dune observation des pratiques des utilisateurs et des documentalistes, et sappuyer sur les mthodes de gestion de projet dont le schma peut tre reprsent avec la figure ci-dessous.
Analyse de lexistant et des contraintes

Analyse des besoins

Opportunit/ faisabilit

Dfinition du projet

Choix stratgiques

Dfinition des outils

De manire gnrale, les risques dchec dun projet GED sont : - un manque dimplication des utilisateurs et de la direction ; - le choix dun outil sans tudes pralables, et en omettant les aspects organisationnels et humains ; - une mauvaise dfinition des objectifs en dbut de projet, se traduisant par des changements de direction au cours des phases de mise en oeuvre ; - une mauvaise analyse des contraintes internes conduisant au choix de solutions qui ne sintgrent pas dans le systme dinformation existant ; - le choix de documents non reprsentatifs entranant des remises en cause des matriels dacquisition ; - une mauvaise dfinition des critres dindexation et de recherche rendant le systme mal adapt aux utilisateurs et par consquent un manque dadhsion au systme ; - un mauvais choix technique par manque dvolutivit et de prennit des systmes choisis ;

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 30 / 218

2.3 Les tapes de la chane de traitement du document


Avant de dcrire plus en dtails le processus de dmatrialisation et les diffrentes tapes de la chane de traitement du document ou chane GED , qui va de lacquisition numrique la diffusion et dans lesquelles les documentalistes sont susceptibles dintervenir en appliquant des processus, essayons de prciser la notion de numrisation . Pour cela rappelons la dfinition qui en est donne par le Dictionnaire encyclopdique de linformation et de la documentation : procd lectronique de production de signaux lectriques numriques soit partir dun document ou dun objet physique, soit partir dun signal lectrique analogique. Le fichier numrique permet des traitements informatiques et, notamment, la rplication illimite et sans perte de qualit indispensable larchivage et la diffusion des documents . Dans le cadre de cette tude qui traite de la dmatrialisation de dossiers documentaires, lobjet de la numrisation est essentiellement reprsent par des documents textuels ou des images. La mise en place dun systme de GED saccompagne dune ncessit de se poser toute une srie de questions qui permettront de sorienter vers des choix technologiques. Certaines dentre elles ont t regroupes dans un tableau consultable en annexe 1, la page 161 de ce document. Les rponses ces questions passent, dans tout projet, par une analyse approfondie de toutes les tapes de la chane de GED, qui va de lacquisition numrique jusqu la diffusion du document numris.

2.3.1 Lacquisition numrique


Le premier maillon de la chane est lacquisition numrique. Pour que linformation soit grable par ordinateur, elle doit tre disponible sous forme numrique (suite de bits 0 ou 1). Il existe trois possibilits dacquisition numrique - dont une seule concerne notre tude : - lacquisition directe de linformation en mode numrique (saisie directe du texte sur traitement de texte, acquisition dimages partir dun appareil photo, etc) ; - la collecte et lassemblage de documents dj numriques (importations de documents et oprations de conversions de formats) ; - la conversion en numrique de documents analogiques ; Cest ce dernier cas de figure qui nous intresse pour cette tude, avec pour support analogique le papier et pour technologie le scanner. Le scanner est un priphrique qui est capable de capturer un document en diffrenciant les zones de ce dernier selon lintensit
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 31 / 218

lumineuse quelles rflchissent, et ce grce des cellules photolectriques. La numrisation dun document est donc rendue possible grce ces capteurs ultra sensibles la lumire rediffuse par les documents. La composition dun scanner est la suivante : - une source lumineuse ; - un miroir qui rflchit la lumire renvoye par le document ; - des capteurs qui captent le rayonnement lumineux et le transforment en impulsions lectriques qui sont envoyes vers un convertisseur analogique/numrique ; - un logiciel pilote ; Enumrons maintenant les principales caractristiques dun scanner.

Les capteurs
Premier lment trs important de la numrisation : la technologie employe pour les capteurs du scanner. Il existe lheure actuelle deux types de capteurs : les capteurs dits technologie CCD 6 , et les autres dits CMOS 7 . - Les capteurs CCD ou capteurs transfert de charges : Avec ce systme optolectronique, le document est clair par une lampe. Limage virtuelle est alors achemine par un ensemble de miroirs et dobjectifs. Ce dispositif systme optique rduit au final limage virtuelle la dimension du capteur CCD. Ces capteurs permettent une performance extrme (imagerie mdicale, astronomie, camras vido), une numrisation plus rapide - haute frquence de fonctionnement - et une grande nettet. Ils sont recommands pour le scannage de photos, de livres ou dillustrations. - Les capteurs CMOS ou capteurs dimages par contacts : La technologie CMOS repose sur des semi-conducteurs oxyde de mtal complmentaire. Avec ce systme optolectronique, le document est clair par un systme de LED 8 qui se trouve au contact mme du document. Do un trajet optique inexistant et une acquisition immdiate.
Ces capteurs sont moins encombrants, moins chers, moins consommateurs en lectricit. Ils

sont utiliss sur les produits dentre de gamme. Ils offrent une qualit dimage moins bonne que pour les CCD, et surtout ils sont plus lents. Ils sont suffisants pour scanner par exemple des schmas ou des cartes.

6 7

Charge-Coupled Device. Complementary Metal Oxide Semiconductor. 8 Light-Emitting Diode, ou diode lectroluminescente. La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 32 / 218

Actuellement, tous les scanners ddis la GED documentaire utilisent des capteurs CCD dernire gnration.

Le format de document
Pour numriser des dossiers documentaires, les formats qui doivent tre pris en charge sont le plus souvent le A4 et le A3, sachant que la grande majorit des documents contenus dans les dossiers outils au sein des centres de documentation sont gnralement au format A4. Or ce dernier est pris en charge par tous les scanners appartenant la catgorie dite des scanners de bureau . Cette catgorie sera dailleurs celle retenue pour la grande majorit des projets de GED documentaire, qui ne ncessitent gnralement pas des traitements de type industriels ou trs pointus. En revanche, le format A3 nest pas pris en charge par tous les scanners de bureau, et il faudra donc tre vigilant sur ce point.

La rsolution
Les capteurs divisent limage en une grille numrique de points lmentaires nomms pixels. La rsolution de numrisation est donc une mesure thorique exprime en points par pouce 9 (dpi 10 ), qui dfinit la finesse du quadrillage et fait directement rfrence aux performances des capteurs. Pour exemple, la numrisation de photos dart exige une rsolution trs leve, autour de 8000 dpi, afin de conserver le grain. En revanche, pour appliquer un traitement OCR 11 un texte dans le cadre de la GED, la rsolution doit tre denviron 300 dpi, ou un peu plus si les caractres sont vraiment petits. Une rsolution leve, si elle garantit une restitution conforme loriginal, gnre en contrepartie des fichiers qui peuvent tre trs lourds, ce qui pose des problmes de stockage et de diffusion. Les documentalistes doivent donc trouver un compromis entre la qualit de limage et lespace quelle occupe. Ce compromis est dterminer en fonction de la nature des documents et de leur usage. Un tableau rcapitulant les dfinitions de numrisation adquates en fonction des modes numrisation et des types de documents est consultable en annexe 1, la page 162 de ce document.

Le mode couleur
Les scanners actuels utiliss en GED sont capables de numriser dans les trois modes suivants : noir et blanc, niveau de gris, couleur.

Le pouce ( inch en anglais) est une unit de mesure de longueur. 1 pouce = 2,54 cm. Dot per inch, ou point par pouce. 11 Optical character recognition, ou reconnaissance optique de caractres.
10

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 33 / 218

- Le mode noir et blanc est le plus conomique sur le plan de lespace de stockage. Il peut tre utilis pour numriser des documents exclusivement textuels mais nest pas adapt pour le traitement des images. - Le mode niveau de gris est moins conomique, mais permet un bon rendu des pages numriss. Son rendu esthtique lui permet mme de numriser assez fidlement des images grce ses 256 niveaux de gris. - Le mode couleur repose sur le mme principe que le niveau de gris, mais en superposant cette fois trois numrisations en trois couleurs diffrentes : rouge, vert, bleu. Il est trs gourmand en mmoire de stockage, mais cest de loin le mode qui donne les meilleurs rsultats en termes de rendu des dtails, de lisibilit et desthtisme. Pour la numrisation de dossiers documentaires composs de documents textuels et dimages par exemple un article de revue ce sont les modes niveau de gris ou couleur qui sont prconiss.

La linarit/ la prcision
Cest la capacit du scanner restituer des lignes parallles sans dformation, ni perte de distinction. Cette caractristique est intrinsque au scanner, gre automatiquement, et nest pas paramtrable par lutilisateur. Aucune indication de mesure nest fournie par les constructeurs, et seuls des tests effectus en laboratoire permettent de faire des comparaisons entre les scanners un peu la manire des dossiers de la Fnac pour le matriel grand public.

La restitution chromatique
Elle dtermine le rendu des couleurs. Mme situation que pour la linarit. Seuls des tests en laboratoire permettent des comparaisons objectives entre les matriels disponibles sur le march.

Les niveaux de gris


Ils dterminent la capacit du scanner restituer les contrastes. Idem que pour les deux critres cits ci-dessus. Les trois critres de qualit qui viennent dtre cits plus haut sont fortement lis la qualit des capteurs du scanner, mais aussi llectronique dont dispose ce dernier. En ralit, tous les scanners sur le march et qui se destinent la GED sont dots des mmes gnrations de capteurs, fournis par les mmes constructeurs. Seule la taille de ces capteurs varie vritablement, en fonction des usages attendus (exemple de la photo dart cit plus haut).

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 34 / 218

La prcision, la restitution chromatique et le contraste sont trois facteurs qui sont pris en charge par le scanner, sur un plan logiciel, et ceci chaque numrisation. Ils ne ncessitent aucune comptence particulire de la part de loprateur, except si celui-ci souhaite un rsultat trs particulier comme un rendu artistique. Ce qui nest pas le cas pour des projets de numrisation de dossiers documentaires.

La vitesse dacquisition
Elle sexprime en pages par minute (ppm). Elle est directement lie au format du document trait ainsi qu la rsolution choisie pour la numrisation. Ce critre de vitesse est trs important dans le domaine de la dmatrialisation, et constitue souvent le critre de choix par excellence dans lachat dun scanner. Cette vitesse est dpendante de la mcanique du scanner (vitesse de dfilement de la lampe et des capteurs) mais aussi de la mmoire du scanner (qui stocke les fichiers bruts avant compression). On doit souligner ici que cette vitesse dacquisition est la principale caractristique gnralement mise en avant par les constructeurs dans leurs fiches commerciales. Et il est tabli que, couramment, la vitesse commerciale se mesure dans les conditions suivantes : numrisation en A4 standard 200 dpi en paysage (idem pour les scanners supportant le A3), dans un mode binaire (c'est--dire en noir et blanc), et sans aucune autre fonctionnalit.

La volumtrie quotidienne du scanner


Dans le cadre des projets de dmatrialisation de dossiers documentaires, il nest en gnral pas exig une volumtrie extrmement leve surtout sil sagit uniquement dune dmatrialisation au fil de leau et non dune dmatrialisation rtrospective massive. Une valeur comprise entre 500 et 1500 pages/jours est ainsi souvent suffisante. Nanmoins, il faut tout de mme faire preuve de vigilance et bien dcrypter l encore lors de la lecture des fiches commerciales. En effet, ce critre de volumtrie quotidienne renseigne en fait aussi directement sur la durabilit du scanner, et donne indirectement le nombre total de numrisations rapport la dure de vie du scanner pour une utilisation normale du scanner et dans le respect du programme de maintenance prconise par le constructeur. La durabilit est donc un lment trs important de la fiche commerciale dun scanner, puisquelle renseigne sur la robustesse des lments mcaniques et lectroniques composant le scanner.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 35 / 218

La connectique
Les deux standards utiliss actuellement sont le Firewire et lUSB 12 . Le Firewire est linterface de prdilection pour les projets de dmatrialisation, car son dbit est particulirement adapt pour les priphriques de capture. LUSB est quant lui prsent sur tous les ordinateurs rcents, et constitue linterface standard. Il est prconis que lordinateur pilotant le scanner soit dot dun port Firewire. Si tel nest pas le cas, lachat et lajout dune carte Firewire se fait trs facilement et pour un cot extrmement modique.

Le protocole utilis pour le pilotage du scanner


Enfin, dernire caractristique importante dun scanner, et qui peut intervenir comme critre de choix lors dun achat : le protocole de contrle. Il permet dtablir le lien entre le scanner et le systme dexploitation de lordinateur, pour assurer la transmission des donnes au logiciel de traitement. Actuellement on dnombre lutilisation de 3 protocoles : - TWAIN, Technology Without An Interesting Name est un protocole standard, ouvert, mis au point en 1992 par un organisme regroupant plusieurs fabricants majeurs. - ISIS, qui est lui un protocole propritaire (de la socit du mme nom) non ouvert, et non gratuit. - SANE, Scanner Access Now Easy est un protocole open source, pour Linux ou Unix, mais aussi pour Mac et Windows. Il permet le fonctionnement de scanners en rseau. Tous les scanners vendus pour des oprations de dmatrialisation sont fournis avec les pilotes TWAIN et ISIS, qui sont adapts et prconiss pour des projets de GED documentaires classiques.

Ladaptation fonctionnelle du numriseur au type de document


Un tableau rsumant ladaptation fonctionnelle du numriseur au type de document traiter est consultable en annexe 1, la page 163 de ce document. Parmi la liste des scanners dcrits dans le tableau, on voit que le type qui correspond le mieux aux besoins dune numrisation de dossiers documentaires outils - par exemple des dossiers thmatiques aliments par des articles de presse - est un scanner permettant non seulement la numrisation plat grce une vitre dexposition, mais aussi une numrisation avec dfilement grce un chargeur.

12

Universal Serial Bus.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 36 / 218

2.3.2 Le formatage
Aprs la numrisation physique des documents, et avant les oprations dinterprtation, se situe la phase denregistrement sous un format de fichier ou formatage. Ces formats de fichiers se divisent en trois grandes familles : les formats de fichiers textes, les formats de fichiers images et les formats de description de page. Dans cette partie consacre au formatage, on sintressera seulement aux formats de fichiers images, et lon abordera le cas particulier du format PDF qui est en fait une sorte de format mixte des trois formats de fichiers : texte, image et description de page. Ce format de fichier - ou mode - image consiste en fait en une photographie numrique du document : le codage informatique retranscrit limage du document, avec le style de caractres, la mise en page et les illustrations. A ce stade, et avant un quelconque traitement de reconnaissance de caractres, il ny a aucune possibilit dintervention ou dinterrogation directement sur le texte numris. Le choix dun format de fichiers peut tre plus ou moins critique selon la prennit que lon souhaite donner au fonds numris. Par exemple, si lon prend le cas particulier dun fonds darchive patrimoniale, le choix du format de fichier est primordial car il engage lavenir du fonds long terme. Et de manire plus gnrale, pour tous les projets, en cas de mauvais choix au dpart la ncessit de numriser rtrospectivement le fonds peut tre une opration trs coteuse. Il faut donc faire le bon choix au moment de la numrisation, pour ne pas devoir renumriser quelques annes plus tard. Voici les principaux critres qui doivent dicter le choix du format de fichier : - la garantie de lintgrit des donnes ; - la qualit de compression, qui conditionne la future exploitation de limage (OCR, impression en grand format, etc) ; - la rapidit de numrisation ; - le poids du fichier, qui conditionne le volume de stockage et la vitesse daffichage du document ; - la compatibilit avec les logiciels applicatifs ; - lanticipation sur la possibilit de raliser, dans un futur plus ou moins proche, des traitements ou des conversions qui nexistent pas encore, ou dont on a pas lutilit aujourdhui ; Il apparat donc comme vident que les besoins et les exigences pour la numrisation de simples dossiers documentaires au sein dun centre de documentation - et qui ne sinscrirait
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 37 / 218

pas dans le contexte dune conservation patrimoniale -, ne seront pas les mmes que ceux, par exemple, de la Bibliothque Nationale de France (BNF) dans le cadre du projet Gallica 13 . Lattention et limportance accordes la qualit de numrisation et la prennit sont naturellement bien suprieures pour un projet de numrisation douvrages anciens que pour la simple mise en ligne de dossiers documentaires outils. Si on fait le choix de privilgier la qualit de reproduction et la prennit - ce qua fait la BNF par exemple - il est alors gnralement recommand de choisir le format le plus qualitatif, c'est--dire le plus lourd le TIFF 14 tant prfr la plupart du temps. Mme si cela doit se faire au prix dune numrisation plus lente. A partir de l, il est alors possible ensuite, en fonction des besoins, de convertir les fichiers issus de la numrisation dans le format le plus adapt lutilisation envisage. Par exemple, dans le cas dune mise en ligne sur intranet ou Internet, il est ncessaire de convertir partir du format de stockage vers le format adquat (par exemple le PNG 15 ou le GIF 16 ). A linverse, un centre de documentation aura plutt tendance et intrt numriser directement dans un format adapte - on verra que le PDF est le plus souvent adopt - lutilisation - c'est--dire la mise en ligne, et ce sans avoir procd au pralable une numrisation au format TIFF. Ceci permettant dcourter le temps de numrisation, et surtout dallger considrablement les volumes de stockage - puisque les documents sont stocks dans un seul format, et qui est de plus moins gourmand en octets. Il existe en fait deux modes de reprsentation numrique dimage, ou catgories de formats de fichiers images : le vectoriel et le bitmap. Chacun convient des utilisations propres, et il est primordial davoir une claire comprhension de leurs caractristiques. Sans entrer dans des dtails dordre trop technique, prsentons donc brivement les avantages et les inconvnients de ces deux modes. Le bitmap sapplique en particulier toutes les images numrises par un scanner. Il convient non seulement aux images photographiques, mais sapplique galement la reprsentation de pages de texte. Dans ce cas, bien videmment, il sagit dun document consultable sans recherche en texte intgral - mais non modifiable autrement dit non comprhensible par la machine, et non dun rel document en mode texte ou mode caractre. Pour passer un mode texte, il faut utiliser la technologie dite de reconnaissance

13 14

http://gallica.bnf.fr Tagged Image File Format. 15 Portable Network Graphics. 16 Graphic Interchange Format. La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 38 / 218

optique de caractres (OCR), qui est un traitement du document et qui sera dcrit plus loin dans ltude. Le vectoriel propose lui un champ de reprsentation infiniment plus limit, mais beaucoup plus flexible. Il convient notamment aux dessins au trait, aux graphiques et prsentation, ainsi quau domaine graphique technique. Mais il nest pas adapt la reprsentation dimages avec un rendu photographique. Les avantages du bitmap : - il permet une copie exactement conforme loriginal, et peut reprsenter absolument toutes les images possibles. Il a donc un caractre plutt universel ; - il convient notamment aux photographies ; Les inconvnients du bitmap : - il est peu adapt aux textes et tracs trs fins ; - les fichiers obtenus sont trs volumineux ; - il limite normment la flexibilit du traitement des images, il survient notamment une certaine dgradation de la qualit lors des changements dchelle ; Les avantages du vectoriel : - les tracs de courbes sont trs prcis ; - le fichier est lger ; - les changements dchelle et les modifications sont faciles ; Les inconvnients du vectoriel : - il saisit avec plus de difficult les images et les photographies marques par des dgrads importants ; - laffichage ncessite un peu plus de puissance de calcul ; Il existe deux principaux formats de fichier pour le bitmap : le TIFF et le JPEG 17 . Il existe trois principaux formats de fichier pour le vectoriel : le PostScript, le PDF, le SVG 18 . Le mode vectoriel consiste dcrire une image ou une police de caractres selon un ensemble de formes gomtriques. Et les traits dfinissant ces formes sont dcrits par les coordonnes de leurs points terminaux. Des tableaux rcapitulant les caractristiques et les recommandations pour chacun des formats de fichier sont consultables en annexe 1, aux pages 164 et 165 de ce document.
17 18

Joint Photographic Experts Group. Scalable Vector Graphics.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 39 / 218

On constate donc que le format TIFF est trs souvent utilis au titre dune conservation patrimoniale, et quil assure larchivage du fichier de rfrence. Il donne une copie conforme loriginal et garde toutes les informations, en vue dun traitement ultrieur ou dune future conversion de fichier. Pour la dmatrialisation de dossiers documentaires outils, ce genre de format nest pas indispensable et peu appropri. En revanche, il apparat clairement que le format PDF est nativement destin lexploitation du document numrique, et que cest sous ce format que les documents sont gnralement consults en ligne sur les postes informatiques. Le PDF est donc trs majoritairement prconis pour les projets de dmatrialisation de dossiers documentaires. Dcrivons maintenant plus en dtails les avantages et les atouts de ce format devenu rcemment une norme sous sa version du PDF/A.

Le Portable Document Format (PDF)


- Le format PDF runit en un seul fichier tous les fichiers composants de la mise en page dun document lectronique (texte, images, polices, objets graphiques, informations de mise en forme). Ainsi, les fichiers numriss sont fidles aux documents originaux, quelles que soient lapplication et la plate-forme utilises pour le crer. Et ils safficheront de la mme manire sur tout PC, et ce quel que soit le systme dexploitation utilis. Cette portabilit en fait le format idal pour larchivage numrique. - Le PDF est dit multiformat puisquil peut aujourdhui intgrer une couche de texte, des images, mais galement des vidos, du son et des formulaires. - Il peut tre enrichi de pices jointes et de commentaires. - Il organise le document en pages physiques au format papier A4, ce qui permet notamment dimprimer directement le document. - Il est constitu non seulement du corps du document mais aussi doptions de visualisation et de navigation, comme les signets par exemple, qui permettent de disposer de larborescence du document et ainsi daccder ce dernier de manire hirarchique et non linaire. - Il autorise une recherche en texte intgral, fonctionnalit inexistante pour le TIFF ou le JPEG. - Il permet une forme de navigation via des liens hypertextes et des boutons de navigation. - Il est possible de pr programmer un niveau de zoom pour faciliter la lecture lcran. - Il prsente galement lavantage de pouvoir scuriser les documents et de prserver ainsi leur intgrit. Avec notamment des interdictions de saisie dcran, de modification,

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 40 / 218

dimpression, mais galement une authentification des transactions documentaires grce la signature lectronique. - Tout document lectronique est convertible en PDF. En 2005 est n le PDF/A ou PDF Archive, bas sur le format PDF v1.4. Et cest la norme ISO 19 19005 qui a dfinit les spcifications de ce format - sous ensemble du PDF centr sur larchivage - de mme que celle de loutil de visualisation qui lui est associ. Conu lorigine par la socit Acrobat, ce format est donc dsormais ouvert ainsi les fichiers des composantes sont en formats ouverts (XML, JPEG, etc) et normalis ISO. Cette norme optimise lindpendance matrielle et logicielle, et permet de sassurer que tous les documents lectroniques au format PDF/A pourront toujours tre reconstitus. Cette normalisation garantit aussi la scurit et la fiabilit de la diffusion et des changes de documents lectroniques. En 2008, lISO a normalis le PDF v1.7 comme rfrence ISO 32000. Le PDF/A tant particulirement adapt la GED documentaire, tous les packages actuels (scanner + logiciel) proposent et grent ce format.

2.3.3 Le traitement
Dans la chane GED, aprs le formatage vient la phase dite de traitement des donnes. Cette phase comporte deux oprations principales qui sont la compression et la reconnaissance de caractres.

La compression
La compression permet, en rduisant la taille des documents, den optimiser le stockage et la diffusion. Dans cette tude nous ne traiterons pas cette opration en dtails. Mode bitmap Voici les principales mthodes de compression qui peuvent tre implmentes dans le format TIFF : - Le Run Length Compression (RLC) : Cest une mthode lmentaire qui consiste remplacer une srie de points rpts de mme ton par la valeur du ton et son occurrence, et qui utilise donc le principe du codage de la rptition. - La compression CCIT groupe IV pour les images en noir et blanc. - La compression LZW qui fournit des ratios de compression moyens de 3.

19

International Organization for Standardization.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 41 / 218

Les algorithmes qui viennent dtre cits sont dits rversibles , c'est--dire quils nengendrent aucune perte de donnes. Le format JPEG nest pas quun format de fichier images, cest en fait un puissant algorithme de compression ddi la compression dimages noir et blanc ou couleurs de type photographique. Cest une mthode de compression dite irrversible , c'est--dire entranant une perte de donnes, qui permet dobtenir un taux de compression de 30 :1 sans provoquer de dgradation visible. Mode vectoriel A lorigine, le format PDF est fond sur le format PostScript, mais il reprsente une nette volution par rapport ce dernier notamment parce quil utilise des algorithmes de compression de donnes permettant dobtenir des fichiers infiniment moins lourds.

Retouche et correction graphique


Le fichier numrique obtenu aprs dmatrialisation dun document peut parfois rvler des imperfections susceptibles de nuire son traitement ou sa consultation. Voici quelques exemples dimperfections qui peuvent tre rpares ou compenses par un traitement numrique. - Un mauvais contraste : Le mauvais contraste dun document textuel peut considrablement diminuer lefficacit et la fiabilit du traitement OCR. - La prsence de tches : Certains documents peuvent prsenter des tches - tout en ayant par ailleurs un contraste satisfaisant dues par exemple au vieillissement du papier. Dans ce cas, ce peut tre la fois le traitement OCR et le confort des lecteurs qui sen trouvent affects. - Des lignes de textes dsalignes : certains documents peuvent prsenter des lignes de textes dsalignes, dues par exemple un manque de soin apport lors dune photocopie. Si cette inclinaison, souvent relativement lgre, est assez bien tolre par lOCR (dont lalgorithme est plus sensible au contraste qu lalignement), elle est en revanche beaucoup moins bien accepte par les lecteurs. - La prsence dun fond de page color. Des traitements numriques adquats existent et peuvent tre appliqus, de faon manuelle ou automatique, pendant ou aprs la numrisation physique. Tout ceci dpend des options disponibles dans le module dacquisition du logiciel de GED utilis. Ces traitements sont dautant plus importants et ne doivent pas tre ngligs lorsquil est prvu de dtruire le fonds papier aprs la dmatrialisation.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 42 / 218

En gnral, la suppression du fond de page color, lamlioration du contraste et le dsalignement - redressement des textes et des images inclins - peuvent tre pris en charge automatiquement par les applications de GED, en donnant de bons rsultats dans la majorit des cas. En revanche, la suppression des tches, ou encore une correction colorimtrique assez fine, sont des traitements qui peuvent ncessiter une intervention et un ajustement manuels, au cas par cas, de la part du documentaliste. Ces corrections exigent en effet le plus souvent une certaine subtilit laquelle ne peut prtendre la machine et son procd automatique. Il est assez difficile de se prononcer sur lallongement potentiel du temps de numrisation dun document suite lapplication des traitements cits plus haut. Mais il est certain que le niveau de qualit qui sera exig, ainsi que la proportion de documents exigeant des traitements pour amlioration parfois difficilement quantifiable lorsque le fonds est trs htrogne - auront au final un impact sur la dure totale de la dmatrialisation.

La reconnaissance de caractres (OCR et ICR)


Rappel des dfinitions de lOCR et de lICR : LOCR (Optical Character Recognition, ou reconnaissance optique de caractres) permet de reconnatre une suite de caractres sur un document, par reconnaissance de forme autrement dit par comparaison de la forme lue avec une base de donnes. L'ICR (Intelligent Character Recognition, ou reconnaissance intelligente de caractres), est un systme d'OCR avanc intgrant des technologies d'intelligence artificielle. Un logiciel d'ICR peut complter sa base de connaissance au fur et mesure de la reconnaissance et donc tendre sa capacit de reconnaissance. Ces techniques sont utilises notamment pour la reconnaissance de caractres manuscrits. Grce ces technologies, il est donc possible de convertir limage dun document textuel (texte scann par exemple) en un texte ASCII 20 . Les avantages de ce processus sont nombreux et importants. Tout dabord, il permet dintervenir directement sur le texte, autrement dit dexploiter le contenu des documents textuels qui viennent dtre numriss ou photographis par exemple. Linformation peut tre ainsi retraite dans un outil bureautique de type traitement de texte par exemple -, intgre dans une base de donnes dans un systme de GED par exemple -, faire lobjet dune dition lectronique, etc.
20

American Standard Code for Information Interchange.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 43 / 218

De plus, les traitements OCR et ICR prsentent un autre atout majeur, ils donnent la possibilit dindexer automatiquement ils ne ncessitent aucune intervention humaine linformation contenue dans le texte indexation en texte intgral par exemple. Autre avantage, ces processus permettent de rduire considrablement le poids des fichiers numriques, qui deviennent ainsi plus facilement stockable et diffusable. Par exemple, une page de texte au format A4 et scanne 300 dpi pse en gnral quelques centaines de Ko (kilooctets), mais le fichier ASCII qui est produit aprs le traitement OCR ne pse plus lui quune dizaine de Ko. Enfin, globalement, la reconnaissance optique de caractres optimise la visualisation lcran et la qualit dimpression, en termes de rapidit mais aussi de qualit. Les premiers algorithmes de reconnaissance de caractres ont t dvelopps ds les annes 50, mais ils se sont considrablement dvelopps et perfectionns depuis. Cette technologie est aujourdhui disponible un prix abordable et est intgre dans toutes les solutions de GED du march. Actuellement, les applications OCR et ICR combinent deux formes dalgorithmes de reconnaissance, qui sont les plus courants : la comparaison de matrice, lextraction et la reconnaissance de formes. Le premier compare chaque caractre du document numris des bases de caractres connus, tandis que le second identifie chaque caractre par ses formes et la faon dont elles sont disposes. Pour obtenir des rsultats satisfaisants avec cette technologie, autrement dit pour bnficier dun taux de reconnaissance de caractres lev, il est ncessaire que la rsolution de limage du document textuel soit, au minimum, de 200 dpi la rsolution la plus souvent employe tant 300 dpi. Et pour des textes trs petits, une rsolution de 300 dpi est exige. Lorsque des conditions satisfaisantes de traitement ont t runies rsolution adquate, bonne qualit dimpression, de contraste, typographie standard, etc -, le degr de fiabilit de la reconnaissance est gnralement trs lev, avec un taux de reconnaissance pouvant aller jusqu 99%. En revanche, ce taux chute rapidement lorsque les documents comportent des critures manuscrites, ou des typographies trs particulires des caractres gothiques par exemple. Et dune manire gnrale, la reconnaissance de caractres reste trs dpendant de la qualit des documents traiter, et particulirement des lments suivants : - un mauvais contraste ; - un mauvais alignement des lignes de texte ;
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 44 / 218

- des caractres tordus ou qui se touchent (cas des critures manuscrites) ; - lexistence dun fond de page color, ou de tches ; Comme il a t expliqu plus haut, des corrections et des retouches parfois prises en charge automatiquement par le module dacquisition et le scanner peuvent rectifier ces dfauts, afin dlever la fiabilit de la reconnaissance. Certains logiciels, en plus de la reconnaissance optique de caractres, sont galement capables de garder la mise en forme originale du document : distinction entre les zones de texte et les zones image par exemple, conservation des couleurs exactes du document et de la typographie, etc. Tout document textuel papier comporte en effet : - une structure logique (un titre, des parties, etc) ; - une structure physique (mise en page, typographie, etc) ; - une prsentation (fond de page color, illustration avec des images, etc) ; Ces lments figurent naturellement dans le mode image, mais pour les conserver aprs le traitement de reconnaissance optique de caractres, le logiciel doit tre capable de les identifier et de les ajouter au texte qui vient dtre reconnu et extrait du fichier image. Le rsultat final sera enregistr dans un format particulier dit de description de page . Le plus connu de ces formats, et actuellement prconis dans la majorit des projets de dmatrialisation de dossiers documentaires, est le PDF. Enfin, concernant les innovations les plus attendues en matire de reconnaissance de caractres dans les annes venir, il apparat quun des grands enjeux technologiques sera la reconnaissance optique de lcriture manuscrite, notamment avec de gros progrs potentiels en termes dintelligence artificielle (capacit dapprentissage, de raisonnement, dautoamlioration et dauto-correction).

2.3.4 Lindexation
Lindexation se dfinit comme un processus destin reprsenter, au moyen des termes ou indices dun langage documentaire ou au moyen des lments dun langage libre, les notions caractristiques du contenu dun document - ressource, collection - ou dune question, en vue den faciliter la recherche, aprs les avoir identifis par lanalyse. Mais lindexation est aussi le cur de la GED puisque cest lopration qui consiste dcrire et caractriser le document afin de permettre une exploitation sans ncessairement recourir la consultation du document lui-mme.
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 45 / 218

Elle doit tre une reprsentation fidle et la plus exhaustive possible du document et de son contenu, afin de permettre une recherche facile et pertinente. Cest une opration complexe, qui implique souvent des investissements matriels et humains importants. La difficult de cette opration rside donc dans la ncessit de produire une reprsentation formalise et rduite dun document et de son contenu, tout en retenant lensemble des lments essentiels de ce dernier. La qualit et la pertinence de lindexation deviennent ainsi absolument essentielles et cruciales lorsquil sagit dexploiter un systme de GED comportant plusieurs dizaines ou centaines de milliers de documents. Dans un systme de GED, lindexation du contenu dun document peut tre manuelle ou automatique.

Lindexation manuelle
La mthode dite dindexation manuelle consiste crer une fiche descriptive dans lapplication GED qui gre les dossiers documentaires, ce qui passe par le remplissage dune notice associe au document. Cest donc une opration totalement prise en charge par les documentalistes, et qui fait appel aux langages dindexation ou langages combinatoires. Ces derniers sont rpartis en deux catgories : - les langages libres, matrialiss sous forme de mots-cls et de descripteurs libres ; - les langages contrls matrialiss sous forme de listes dautorit et de thsaurus ; Avec ce type dindexation, forcment empreinte dune certaines subjectivit, le rle de la machine se limite indiquer la validit des descripteurs entrs dans la GED en les comparant aux listes dautorit ou aux thsaurus. Lindexation manuelle sur des documents textuels aux contenus intellectuels complexes est toujours plus pertinente et plus fine que lindexation automatique, et permet ainsi une recherche plus fiable. Elle est donc plus intressante pour les documentalistes. En revanche, elle est beaucoup plus coteuse en temps puisquelle mobilise beaucoup plus ces documentalistes.

Lindexation automatique
Lindexation automatique sest impose avec larrive de la technologie de reconnaissance de caractres (OCR et ICR). Elle permet dindexer tous les mots du document. La recherche nest plus alors limite aux descripteurs mais porte sur lintgralit du texte : on parle de recherche en texte intgral (ou full text en anglais).

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 46 / 218

Le principal avantage de lindexation automatique, qui est totalement prise en charge par lordinateur, est quelle est bien plus rapide raliser, et par consquent bien moins coteuse. Son principal inconvnient est quelle est moins pertinente et fiable en termes de corrlation entre la requte effectue et les documents obtenus aprs identification lorsquelle porte sur des documents complexes, et quelle apporte gnralement du bruit. En effet, lintelligence de la machine est encore trop limite lorsquelle se confronte des problmes de sens et des notions quivoques. En revanche, lindexation automatique convient et se montre relativement efficace lorsquelle porte sur des documents structurs et ne comportant pas de termes ambigus. Ainsi, il existe deux types principaux de traitements automatiss, qui, lorsquils sont utiliss, apportent des gains de productivit absolument normes : la reconnaissance automatique de documents (RAD), et la lecture automatique de documents (LAD). La LAD est en fait une variante de lOCR qui se limite au traitement des formulaires dont le cadre gomtrique bien dfini permet de restituer une information structure au lieu dun texte brut comme cest le cas pour locrisation standard. La LAD permet ainsi de raliser une saisie automatique qui peut servir pour lindexation des documents. Par exemple, dans des questionnaires papier, ils sont capables de reprer o sont les croix, de lire des chiffres ou des lettres manuscrites dans des cases, d'effectuer un contrle et/ou de remplir une base de donnes. La RAD est une technique plus rcente que la LAD, et permet quant elle lidentification automatique des documents structure fixe ou variable. Elle consiste distinguer un type de document d'un autre partir d'une image du document, en la comparant une base de connaissance des formes de documents (par exemple une base de formulaires types). Un logiciel de GED dot de cette technologie pourra ainsi classer les documents lectroniques selon leur type et appliquer le traitement LAD prvu pour ce type de document. Cest donc bien le couplage dun module de RAD et dun module de LAD qui assure une indexation automatique diffrentielle des documents selon leur type. Ces traitements connaissent actuellement un succs et un dveloppement toujours croissants, mais ne peuvent sappliquer qu des documents fortement structurs et plutt figs - de type formulaires, feuilles de paie, factures, questionnaires, corpus administratifs, etc. Par exemple, si le logiciel de reconnaissance automatique dtecte : - un courrier manuscrit, il applique une reconnaissance de texte et de caractres ;

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 47 / 218

- une enqute, il lit les cases cocher et le texte pr-cas ; - un RIB, il lit le numro de compte ; - une facture, il ralise notamment des contrles sur le numro de facture et les montants ; Les traitements sur ces documents structurs peuvent se rpartir en trois phases successives : - il faut tout dabord dterminer avec prcision la structure du document, afin dobtenir des mtadonnes les plus structures possibles ; - il sagit ensuite, avec ces mtadonnes, de produire des contenus au format ASCII qui seront indexables par un moteur de recherche ; - enfin, on relie ces mtadonnes descriptives au fichier captur ;

Des indexations complmentaires


Mme si un des objectifs principaux de la dmatrialisation est un gain de temps pour les documentalistes, il est impossible de supprimer la tache dindexation manuelle des documents via le logiciel de GED. En effet, la recherche en texte intgral ne peut suffire car elle se rvle dans certains cas peu prcise et pas assez pertinente, en gnrant notamment du bruit. De plus, lindexation automatique nest pas exploitable pour beaucoup de documents notamment ceux non ou pas assez structurs. La documentaliste doit donc assumer ce rle dajout dinformation et de classement du document, effectus lors de la production de ce dernier et de son intgration dans la base de donnes. Mais dune manire gnrale, on peut nanmoins dire que, linverse de lindexation manuelle qui intresse et concerne directement les utilisateurs spcialistes comme les documentalistes, plus le public est htrogne et occasionnel et plus lindexation automatique avec la recherche intgrale se rvle tre adapte. Dans les centres de documentation, la diversification des pratiques documentaires actuelles et laccroissement continuel des corpus documentaires font que les modes dindexation manuelle et automatique se compltent, cest pourquoi ils sont souvent utiliss de manire combine. Sur le plan du rapport qualit/cots, aux dires des concepteurs de systmes dindexation automatique, lindexation manuelle, malgr sa subjectivit, reste la meilleure en termes de pertinence. Meilleure, mais aussi plus chre. Et ingrable pour les systmes traitant de trs gros volumes dinformation 21 .

TOSCA CONSULTANTS, LENART, Michle (tude ralise par). La gestion documentaire : volutions fonctionnelles et description de dix logiciels. Paris, ADBS Editions, 2004. La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

21

Page 48 / 218

2.3.5 Le stockage
En termes de stockage informatique, la plupart du temps, une solution de GED doit utiliser et intgrer plusieurs types de support, afin de pouvoir rpondre plusieurs problmatiques. Un systme de GED doit tre capable de concilier une vitesse rapide daccs et de consultation aux documents avec une bonne condition de conservation et une restitution fidle de ces derniers. De plus, la sauvegarde et larchivage des documents au sein du systme doivent se concevoir comme deux travaux complmentaires et non antinomiques. Les diffrents critres de choix pour les supports de stockage sont donc : - la capacit de stockage ; - le temps daccs aux donnes ; - les standards pour la diffusion ; - la prennit du contenu ; - la rinscriptibilit ou non-rinscriptibilit ; - la scurit daccs ; - le cot ; Pour satisfaire tous ces critres, et rpondre tous les impratifs, les solutions de GED combinent presque toujours les supports magntiques pour la consultation et la sauvegarde des informations - et les supports optiques essentiellement pour larchivage lectronique. Un tableau comparatif des diffrents supports de stockage est consultable en annexe 2, la page 167 de ce document.

Les supports magntiques


Actuellement, les supports magntiques capables de stocker des corpus numriques trs lourds sont les disques magntiques et les bandes magntiques. Le principe de lcriture sur un support magntique consiste orienter une couche doxyde mtallique prsente sur une surface de mylar et lorienter par un courant lectrique dans un sens codage du 0 ou dans lautre codage du 1. Ces supports magntiques ont des vocations et des rles bien distincts au sein dune GED. - Les disques sont destins assurer la consultation on-line dune base de donnes documentaire, tant donn leur vitesse de transmission trs rapide et la grande taille de leur espace mmoire. - Les bandes ont un tout autre usage que celui des disques durs, puisque, compares ces derniers, elles sont relativement lentes et avec des capacits de stockage limites. Elles sont

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 49 / 218

donc utilises essentiellement pour la sauvegarde systmatique des donnes moyen terme, pour des oprations dites de back up . Les disques magntiques sont rigides mcaniquement et conditionns dans des emballages tanches du fait de leur sensibilit aux poussires comprenant le support denregistrement et les dispositifs denregistrement et de lecture. Ces disques sont des dispositifs fixes, intgrs dans les appareils qui les utilisent. Communment dnomms disques durs , ils sont aujourdhui connus de tous puisquintgrs dans tous les ordinateurs, et constituent le moyen le plus simple et le plus efficace de sauvegarder de linformation. Ils offrent souplesse et rapidit, et les capacits de stockage sont de plus en plus consquentes grce lvolution des technologies. Mais avec un disque dur, la suppression dun fichier peut prendre une forme dfinitive, ce qui est contraire une logique darchivage. Reproche qui concerne galement les bandes magntiques mme si une opration de suppression demeure beaucoup plus simple sur un disque dur. Dans le cadre des processus de consultation on-line ou de sauvegarde des informations et non d archivage -, et dans une perspective de durabilit, on pourra faire appel la mise en uvre de la technologie RAID 22 - signifiant en franais Ensemble redondant de disques indpendant - pour assurer la prennit du stockage et garantir laccs aux informations mme en cas de panne dun disque dur. Le RAID permet en fait de constituer une unit de stockage partir de plusieurs disques durs, et cette unit, ainsi cre, possde une grande tolrance aux pannes. De plus, la rpartition des donnes sur plusieurs disques durs permet daugmenter la scurit et de fiabiliser les services associs. Le mode Raid 5 est notamment considrer avec un intrt tout particulier. Les bandes magntiques sont conditionnes dans des cartouches amovibles, du fait de la souplesse de leur support. Un appareil denregistrement et de lecture comporte un dispositif de chargement de la bande pour faire dfiler le support devant les ttes denregistrement et/ou de lecture. Le choix dun format de bande se fait en fonction de la capacit, mais galement du taux de transfert des informations. Les divers formats courants de bandes magntiques ont t regroups dans un tableau consultable en annexe 2, la page 167 de ce document. La dure de vie des bandes est en gnral limite 100000 heures, ce qui impose une chance ladministrateur informatique. Il est indispensable de procder un contrle rgulier de la lisibilit et de la recopie des informations contenues sur les cartouches de bande magntique.

22

Redundant array of independant/inexpensive disks.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 50 / 218

Les supports optiques


Cest une famille de supports base sur la technologie des diodes lasers et apparue la fin des annes 80. Le principe de lcriture numrique sur un disque optique consiste modifier microscopiquement un tat de surface par un faisceau laser ou un champ magntique en crant un tat binaire par des brlures ou en formant des bulles. Le principe de la lecture consiste identifier les changements dtat de surface par la mesure de la variation dintensit de la lumire rflchie. Ces supports sont adapts pour le stockage off-line des donnes numriques. Ils se divisent en deux catgories : les disques WORM inscriptibles une seule fois, et les disques WMRA 23 qui sont rinscriptibles. Les disques WORM sont particulirement adapts pour larchivage des documents numriques sur le long terme, car ils sont inscriptibles une seule fois et garantissent lintgrit des donnes. Leur principe est le suivant : la chaleur qui se dgage du laser utilis pour graver les fichiers sur les disques optiques dforme en effet irrmdiablement leur surface de polyurthane et interdit par consquent toute rinscription. Parmi ces supports, on trouve le CD-ROM, le CD-R (ou CD-WORM), le DVD, le DON 24 WORM. Ce dernier est particulirement recommand pour les systmes de GED - notamment grce sa capacit de stockage suprieure-, et constitue la technologie phare de larchivage. Les fabricants de DON WORM garantissent leurs disques 30 ans, et le format le plus courant est actuellement le disque optique de 35cm offrant jusqu 25 Go par mdia. Mais le DON est aujourdhui srieusement concurrenc par le DVD qui est moins onreux. Si le premier est encore et toujours le support darchivage le plus usit, le second est en passe de lui succder. On peut galement, dores et dj, voquer la solution que reprsente le disque Blu-Ray utilisant un laser bleu plus haute frquence -, dont larrive se fait trs progressivement. Cest une technologie qui simposera trs probablement dans quelques annes puisquil offre dj une capacit de 25 Go pour le disque simple couche, et 50 Go pour le disque double couche.

Les librairies (ou Juke Box)


Afin daugmenter les capacits directement accessibles en ligne mais surtout afin de simplifier les manipulations, il existe pour les bandes magntiques et aussi pour les disques optiques des librairies (ou Juke Box) pouvant contenir une multitude de cartouches de bandes magntiques ou de disque optiques, accessibles via des systmes robotiss. Ces librairies autorisent actuellement des capacits de stockage extrmement importantes, de
23 24

Write Many Read Always. Disque Optique Numrique.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 51 / 218

lordre de plusieurs centaines de traoctets. Les temps de changement de support varient de 5 15 secondes.

2.3.6 La recherche
La recherche dpend directement des possibilits dindexation des documents offertes par le systme de GED. Et, naturellement, la pertinence des rsultats de la recherche dans le systme de GED est aussi directement dpendante de la qualit, de la justesse et de la prcision fournies par la documentaliste lors de la phase dindexation des documents numriss. On a vu que les documents peuvent tre identifis par des mots-cls qui caractrisent un document de manire plus ou moins contrle et des descripteurs libres. La recherche pourra tre aide grce laccs des listes dautorits et des thsaurus regroupant lensemble des mots-cls conseills pour lindexation. Ces derniers sont particulirement intressants puisquils permettent dhomogniser le vocabulaire utilis pour lindexation. La recherche pourra aussi se faire laide dun plan de classement. Ce dernier permet de ranger un document selon des thmes et des sous-thmes - il est parfois possible dintgrer plusieurs plans de classement. Certains outils de GED offrent la possibilit de raliser la recherche par feuilletage du plan de classement. Il peut exister plusieurs modes de recherche dans un systme de GED. La recherche en texte intgral se fait sur lensemble des mots contenus dans les documents, en excluant les mots vides de sens tels que les prpositions, les articles, etc. La recherche en langage naturel repose sur une analyse linguistique de la requte de lutilisateur et conduit llaboration dune requte interne au systme partir de laquelle la recherche est ralise. La recherche par logique floue permet de formaliser lusage de termes vagues ou imprcis, dans le but de les rendre comprhensibles par le systme. Elle permet entre autres de saffranchir des erreurs dindexation. La recherche multi-critres, autrement dit une interrogation sur tous les champs de la notice du document avec la possibilit de combiner les critres laide doprateurs boolens et/ou doprateurs de comparaison.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 52 / 218

Les oprateurs boolens sont des fonctions permettant de lier diffrents mots ou groupe de mots caractrisant ou non un document : ET, OU et SAUF en rgle gnrale. Les oprateurs de comparaison sont des oprateurs arithmtiques : <, >, =. Ils sont utiles par exemple dans le cas o lon souhaite restreindre la recherche par dates, si celles-ci caractrisent un document. Des outils de GED offrent aussi des possibilits supplmentaires pour la recherche, comme les fonctions de proximit et la troncature. Les fonctions de proximit permettent de rechercher deux mots adjacents ou se trouvant une certaine distance lun de lautre par exemple 2 mots espacs de n caractres ou situs dans la mme phrase, ou encore dans le mme paragraphe. La troncature permet de caractriser un ensemble de mots possdant des lettres communes. Elle est souvent formalise par une toile. Ainsi, la troncature droite va par exemple caractriser un ensemble de mots commenant par les mmes lettres. Enfin, trois autres options de recherche prsentent galement un rel intrt lorsquelles sont disponibles dans les logiciels de GED : la prsence dun historique de recherche, la possibilit de croiser des requtes et la veille. Lhistorique de recherche permet de voir la dmarche de recherche adopte, et de revenir le cas chant une tape prcdente. Le croisement de requtes permet de raliser des requtes plus complexes et donc forcment plus restrictives. La veille passe tout dabord par lenregistrement dune requte. Cette dernire sera ensuite lance automatiquement et de manire planifie. Les rsultats pourront alors tre soit visualiss par la personne intresse de manire active - autrement dit celle-ci ira consulter les rsultats lorsquelle en ressentira le besoin, fonction pull - soit envoys de manire automatique par mail chaque lancement de la requte fonction push .

2.3.7 La consultation
La consultation et la modification dun document dans une application de GED se fait partir dun cran informatique, et laide dun programme dit de visualisation (ou visualiseur ), qui comporte en gnral un certain nombre doptions dont celle bien connue du zoom - pour agrandir ou rduire laffichage du document. Au sein des centres de documentation, la GED doit sintgrer dans lenvironnement matriel bureautique existant, tout en induisant une intensification de lutilisation de laffichage cran. Par consquent, le moniteur devient un lment trs important dans la configuration, et les centres de documentation devront y porter une attention particulire dans le cas dune ventuelle
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 53 / 218

acquisition dun nouveau matriel informatique. Les critres de choix pour un moniteur informatique dans le cadre dune utilisation de la GED sont la rsolution, la taille, la frquence de rafrachissement et le nombre de couleurs. La rsolution indique le nombre de points (ou pixels) affichs par pouce. Actuellement, les moniteurs informatiques sur le march sont presque tous de type LCD (crans plats) et proposent des rsolutions autour de 96 dpi. Les crans un peu plus anciens offrent une rsolution souvent infrieure, de lordre de 72 dpi. Les moniteurs actuels sont trs performants dans laffichage de documents textuels enregistrs dans un format de fichier image de type vectoriel (cf. la partie 2.3.2 sur le formatage). En effet, ces formats offrent de la prcision dans les tracs de courbe, et surtout ils autorisent des changements dchelle (autrement dit des zooms) sans entraner de phnomnes de crnelage (ou aliasing ). Cest une des raisons pour lesquelles le format PDF est aujourdhui le plus prconis pour la consultation de documents textuels. En revanche, pour la visualisation de documents textuels dans un format de type bitmap, la rsolution des moniteurs actuels vient dgrader la qualit de laffichage et provoque de laliasing. En effet, ds que la rsolution de numrisation du document est bien suprieure la rsolution daffichage de lcran par exemple un texte scann 300 dpi, alors que lcran noffre que 96 dpi -, le crnelage apparat si on souhaite par exemple visualiser le document en taille 100%. La seule solution consiste alors zoomer dans lexemple cit il faudrait zoomer deux fois puisque 3*96 est proche de 300 - pour diminuer cette dgradation, mais alors la lisibilit est rduite la fentre daffichage du visualiseur. La taille de lcran sexprime en gnral laide dune valeur en pouces, cette dernire correspondant en fait la longueur de la diagonale de lcran. La taille moyenne des moniteurs sur le march ne cesse daugmenter, et les standards actuels se situent entre 19 et 21 pouces. Une diagonale de 21 pouces prsentant lavantage de pouvoir afficher une double page A4 en taille 100%. Avec une telle taille et la rsolution de 96 dpi, cela signifie que lcran affiche 1600 pixels en largeur et 1200 pixels en hauteur. Pour grer autant de points les ordinateurs doivent tre quips de cartes graphiques spcialises notamment dotes de processeurs de calculs capables de prendre en charge le mode vectoriel -, et ce type de carte est dsormais intgr comme un standard dans presque toutes les configurations dordinateurs actuellement sur le march. La frquence de rafrachissement des crans LCD actuels est suprieure la frquence de balayage on parle de balayage cause du faisceau lectrons - de la plupart des anciens crans tubes cathodiques - ou crans CRT. Les moniteurs LCD sont capables aujourdhui

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 54 / 218

de rafrachir une frquence de 75 Hz (autrement dit 75 fois par seconde) alors que les crans tubes rafrachissaient 60 Hz. Or une frquence plus leve donne une meilleure stabilit limage et prserve mieux de la fatigue oculaire. La plupart des cartes graphiques et des crans actuels permettent dafficher 16 millions de couleurs, ce qui suffit largement dans le cadre dune gestion de dossiers documentaires. Dune manire gnrale, sur le plan de la consultation des documents numriques, on constate donc les volutions technologiques et la baisse importante du cot du matriel informatique qui ont eu lieu ces dernires annes, et qui se prolongent, permettent aujourdhui dexploiter pleinement la puissance et le potentiel des logiciels de GED. Nanmoins, la majorit des utilisateurs de GED ont souvent limpression que leurs yeux fatiguent plus vite lors dune lecture lcran que lors dune consultation de documents papier. Trs souvent ils slectionnent donc lcran les documents quils souhaitent consulter, puis les impriment pour les lire. Lamlioration du confort de consultation, et ce changement progressif de comportement, passe donc par un investissement dans des moniteurs adapts et performants de la part des centres de documentations.

2.3.8 La diffusion
Cest la dernire tape de la chane GED, qui consiste mettre en ligne les documents numriques sur le rseau Internet ou sur un intranet via des serveurs web. Ces documents intgrs dans lapplication de GED sont ainsi accessibles quasi immdiatement, depuis nimporte quel poste connect au rseau de diffusion, et ce simultanment par plusieurs utilisateurs. Nanmoins, ces accs peuvent tre bien entendu limits et contrls, puisque tous les logiciels de GED actuels intgrent des options de gestion des droits de diffusion et dutilisation par personne ou par groupe dutilisateurs.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 55 / 218

2.4 Loffre logicielle de GED


Le march des technologies et des prestataires de la dmatrialisation sest fortement enrichi et dvelopp ces dernires annes, il est en constante volution et propose sans cesse de nouvelles technologies. Cela donne aux centres de documentation une grande marge de dcision sur le primtre de leur projet. Et il existe aujourdhui sur le march mondial une offre trs large et trs fournie de logiciels de GED, rpondant la plupart des besoins et compatibles avec la majeure partie des plates-formes informatiques et des systmes dexploitation actuels.

Les diffrentes catgories de logiciels de GED


Cette offre peut se diviser en trois catgories. - Les logiciels GED dentre de gamme : Il ne reprsentent actuellement quune trs infime partie du march, mais touche un trs large public du fait de leur prix attractifs. Il correspondent en gnral des solutions mono-postes destines des entreprises artisanales ou individuelles. La majeure partie de ces applications ne fonctionnent quavec des scanners de bureau et ne permettent de saisir quun nombre limit de documents par jour. - Les logiciels GED composants : Cette catgorie recouvre des modules logiciels intgrables des applications au travers doutils de dveloppement (Visual C++) ou dAPI 25 . Ces modules numrisation, reconnaissance optique de caractres, indexation automatique, lecture de codes barres, etc sont destins aux programmeurs ou aux socits de services informatiques dsirant ajouter des fonctions de GED leurs logiciels. - Les logiciels GED gnriques : Ce sont des solutions sintgrant en complment des applications informatiques bureautiques, documentaires, transactionnelles, etc des organisations. Ils sont disponibles pour de nombreux systmes dexploitation et sintgrent gnralement dans une architecture client/serveur, en connexion ou non avec linformatique centrale. Ils jouent le rle de fdrateur au sein du systme de gestion dinformations de lorganisation. Cette dernire catgorie constitue la majeure partie de loffre actuelle, et cest elle qui concerne directement notre tude.

25

Application programming interface, une interface de programmation applicative .

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 56 / 218

Enfin, des logiciels ou des modules de gestion de processus, regroups sous le terme de workflow , sont souvent associs aux programmes de GED. Ces outils permettent dautomatiser la circulation de documents ou dinformations selon des procdures prcises. En gnral, ils vont plus loin que la simple distribution et sont capables dattribuer des tches de suivi de documents, puis de suivre et de surveiller les traitements raliss.

Le conseil en dmatrialisation
Sur le plan du conseil , l'tude du march actuel rvle que, mme si le prix des licences logicielles tend baisser, les prestations de service en conseil ne sont en gnral pas formates pour les organismes non munis de gros budgets. Ainsi le simple recours un consultant spcialis en dmatrialisation, ne serait-ce que pour une ou deux journes, ne parat pas tre la porte de tous les budgets des centres de documentations.

Les tendances fortes du march


Deux tendances fortes semblent merger sur ce march de la dmatrialisation : le SAAS 26 et la dmatrialisation en bote . Ce sont deux technologies d'avenir qui vont tre probablement de plus en plus prminentes dans le futur. Le SAAS est une offre de dmatrialisation en ligne et qui cible plutt les petits et moyens budgets. Les services SAAS sont souvent facturs lutilisation ou en mode locatif, incluant les frais de maintenance, sans aucun investissement de dpart pour lacquisition et le dploiement de logiciels. La dmatrialisation mise en bote consiste en le principe suivant : des scanners et des copieurs multifonction peuvent tre associs des logiciels de dmatrialisation prts lemploi et conus par des partenaires spcialiss. Cest une tendance qui consiste faire converger les matriels de copie et dimpression et les logiciels de GED. Elle a surtout lavantage doffrir une simplicit dutilisation et dintgration, puisque, directement sur le copieur, on dispose dun module daccs la GED via une interface intuitive et souvent simplifie lextrme.

Les innovations technologiques en matire de compression de fichiers


Sur un plan purement technologique, on peut citer des exemples trs intressants de la part d'diteurs qui amliorent et font de gros efforts pour les algorithmes de traitement de la couleur dans les fichiers PDF. Leur objectif premier tant doptimiser la restitution, le stockage et le traitement des fichiers. Ainsi la socit Iris, dans la nouvelle version de son serveur dOCR et de compression de
26

Software As A Service.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 57 / 218

documents, propose de compresser une image couleur, en JPEG, en lencapsulant dans un fichier PDF. Ainsi les lments textuels sont distingus des photos , et la technologie de compression peut ensuite tre adapte chacun de ces lments sans nuire la qualit du texte sur lequel une technologie de reconnaissance peut tre applique. Autres innovations intressantes, celles de lamricain Nuance et du franais Pixelion, qui sappuient eux sur la technologie de compression de page PDF MRC (Mixed Raster Content). Ce qui permet de segmenter chaque page en plusieurs parties : texte, image, couleur, texte OCR. Pixelion revendique ainsi une prouesse notable, celle de russir compresser un fichier PDF en couleur dans une taille quivalente celle dun fichier en noir et blanc.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 58 / 218

Troisime partie Les dossiers documentaires au centre de documentation des muses des Arts Dcoratifs

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 59 / 218

3.1 Prsentation des Arts Dcoratifs


3.1.1 Linstitution
Organisme priv, association loi 1901 reconnue dutilit publique, Les Arts Dcoratifs 27 furent crs en 1882 dans le sillage des Expositions universelles par des collectionneurs soucieux de valoriser les beaux-arts appliqus et de tisser des liens entre industrie et culture, cration et production. Longtemps connus sous la dnomination Union Centrale des Arts Dcoratifs (Ucad), Les Arts Dcoratifs ont modernis leur image en dcembre 2004 en restant fidles leur vocation dorigine : exercer des missions de conservation des collections et de diffusion culturelle, et de soutien la cration. Les diffrentes composantes des Arts Dcoratifs sont rparties sur trois sites Paris : - au 107 rue de Rivoli, les ailes de Rohan et de Marsan du palais du Louvre abritent le muse des Arts Dcoratifs, le muse de la Mode et du Textile, le muse de la Publicit, la bibliothque des Arts Dcoratifs ; - au 63 rue de Monceau, lhtel Camondo accueille le muse Nissim de Camondo ; - au 266 boulevard Raspail est installe depuis 1988 lcole Camondo (appellation ne dune implantation antrieure dans les communs de lhtel Camondo), spcialise dans le design et larchitecture intrieure ; Les Arts Dcoratifs, dont les collections appartiennent ltat, sont lis ce dernier par une convention renouvele priodiquement. Son financement est mixte, prs de la moiti de son budget provient de ses ressources propres et finance la politique culturelle et patrimoniale de ltablissement. Les Arts Dcoratifs continuent se dvelopper essentiellement grce au soutien de donateurs et dentreprises partenaires.

3.1.2 Le muse de la Publicit


En 1978, lUcad ouvra le muse de lAffiche - rue de Paradis - dans lintention dexplorer toutes les voies des arts dcoratifs, y compris les plus quotidiennes, les plus banalises et les plus largement partages. En 1990, le muse de lAffiche est devenu le muse de la Publicit et sest install rue de Rivoli. Le muse de la Publicit a ainsi pour mission de collecter et de mettre en valeur un fonds ddi la publicit et laffichage. Outre lexceptionnel fonds

Site internet : www.lesartsdecoratifs.fr ; Un organigramme du muse des Arts Dcoratifs est consultable en annexe 5 la page 179. La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

27

Page 60 / 218

daffiches (50.000 affiches anciennes du XVIIIe sicle la Seconde Guerre mondiale et 50.000 affiches contemporaines de 1950 aujourdhui), les collections du muse se sont enrichies de films publicitaires (plus de 20. 000 films, franais ou trangers, des annes 30 aujourdhui), dannonces presse (plus de 30.000), de spots radio, dobjets promotionnels. A travers ces collections, le muse transmet un hritage culturel important, et oeuvre le faire connatre et apprcier du public. Outre le travail de collecte et de conservation, le muse organise ainsi la diffusion de ce fonds travers des expositions, des colloques ou des ateliers, destins notamment au jeune public. Le muse participe galement la promotion de la culture par le biais de nombreuses publications et de collaborations divers ouvrages. La gestion administrative tant commune tous les dpartements des Arts Dcoratifs, le personnel ddi exclusivement au muse de la publicit se compose de deux conservatrices et dune documentaliste charge dtudes documentaires. La documentation du muse de la Publicit dpend conjointement de la conservation du muse et du centre de documentation des Arts Dcoratifs.

3.1.3 Le centre de documentation des muses des Arts Dcoratifs


Les Arts Dcoratifs proposent aux chercheurs, universitaires, crateurs, historiens et critiques dart, un centre de documentation en liaison avec les quatre muses, accessible sur rendezvous. Cr au fil des dcennies en fonction des accroissements de certains fonds ou de la cration de dpartements spcialiss, il documente les uvres des collections. Les fonds documentaires sont rpartis au sein des documentations suivantes : - documentation des arts dcoratifs du 17me et 18me sicle - documentation sur lArt nouveau Art Dco - documentation du 20me sicle (le design, les crateurs, le bijou, la cramique) - documentation du verre - documentation du jouet - documentation de la mode et du textile - documentation de la publicit Ces documentations sont rparties par bureaux, mais elles partagent une salle de consultation et daccueil du public, o se trouvent notamment 6 postes informatiques sous Windows XP. Les utilisateurs que ce soient des consultants internes comme les conservateurs, ou externes avec le public accueilli accdent via ces postes aux bases de donnes des collections et du fonds documentaire. Ces bases sont hberges sur des logiciels de la socit Mobydoc : Micromuse pour la gestion des collections, et Mobytext pour la gestion du fonds documentaire.
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 61 / 218

Depuis quelques annes, le centre de documentation propose galement des ressources en ligne sur Internet dans les domaines suivants : le verre, le design, le bijou, la cramique contemporaine, le jouet, la mode et le textile, la publicit.

3.1.4 La documentation de la publicit


Cr en 1980, ce fonds documentaire est spcialis dans lhistoire, la cration, la technique de laffiche et de la publicit, franaises et trangres, anciennes et contemporaines. Il a principalement vocation documenter les collections du muse, lintention des conservatrices du muse mais aussi du public. Il est galement destin apporter des informations complmentaires relatives la publicit dune manire plus gnrale. Ce qui passe par la collecte de toutes les informations pouvant tre utiles aux utilisateurs, quelles se rapportent ou non aux collections. Les missions de la documentaliste responsable de ce fonds documentaire sont la gestion des abonnements, lacquisition et le traitement des documents, la veille documentaire, et laccueil du public. Un travail important est notamment effectu sur les dossiers documentaires, qui reprsentent une plus-value trs importante de cette documentation de la publicit. La documentaliste procde donc un dpouillement rgulier de la presse spcialise, ainsi que de la presse gnraliste mais dans une moindre mesure, afin dalimenter ces dossiers en fonction des tendances et de lactualit. Et de nouveaux dossiers peuvent tre crs en fonction des demandes du public, ou de lapparition de nouveaux thmes sur le march de la publicit. La documentaliste est aussi en charge de la gestion de la base de donnes des collections - notamment linsertion, la correction et lharmonisation des entres dans cette base, et la prparation de la numrisation. Le fonds documentaire de la publicit comprend notamment : - environ 4500 ouvrages, traitant de la publicit et de ce qui sy rapporte dune manire plus gnrale ; - environ 70 revues franaises et trangres, anciennes et contemporaines ; - environ 6800 dossiers monographiques dartistes ; - plusieurs centaines de dossiers documentaires thmatiques (rpartis dans prs de 200 botes darchives) ; Actuellement, on compte une dizaine dabonnements courants, uniquement des revues spcialises dans la publicit et la communication (dont Stratgies et CB news). Les numros rcents sont disponibles en salle de consultation.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 62 / 218

Une partie de la documentation notamment le stock des anciens numros des abonnements courants, archivs dans la majorit des cas sous forme de reliures est conserve dans une salle darchives commune toutes les documentations dnomme salle des compactus. Tous les documents du fonds documentaire sont consultables uniquement sur place. En 2008, 40 personnes ont t reues par la documentaliste, sur rendez-vous et aprs avoir dfini au pralable avec elle le sujet de leur recherche. Ce public accueilli est compos au trois quarts dtudiants issus de lenseignement suprieur - dans des domaines allant gnralement de la communication aux arts appliqus -, et leurs demandes sont la plupart du temps cibles et prcises. Le reste du public se compose de chercheurs, duniversitaires, et de professionnels de la publicit.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 63 / 218

3.2 Lanalyse de lexistant


3.2.1 Les dossiers thmatiques de la publicit
Par dfinition, au sens le plus large, un dossier rassemble des documents et des informations sur un sujet dtermin. Cette dfinition englobe donc nombre de produits et nombre de mtiers. Ce mmoire se base sur une tude de faisabilit ralise dans le cadre dun projet de dmatrialisation, et traite essentiellement de la numrisation des dossiers documentaires illustrant les collections de la publicit. Dans le vocabulaire de la documentation, la dfinition dun dossier documentaire prcise que cest un produit documentaire constitu dun ensemble de documents de sources diverses, choisis et runis sur une question donne, et organis de faon faciliter laccs linformation rassemble. Les lments qui le composent peuvent tre de nature et de support trs varis : articles de revues, brochures, etc. Il peut tre constitu ponctuellement la demande ou systmatiquement sur des thmes prcis. Un dossier documentaire peut tre sur support papier ou lectronique. Au sein du centre de documentation des muses des Arts Dcoratifs, la documentation de la publicit gre des dossiers documentaires, au format papier, qui sont en fait de deux types : - les dossiers thmatiques (classs par thme) ; - les dossiers dartistes (classs par ordre alphabtique) ; Ltude de faisabilit a t centre plus spcialement sur les dossiers thmatiques. Nanmoins, elle propose aussi un dbut de rflexion et danalyse sur lopportunit dune dmatrialisation dautres dossiers documentaires au sein des autres documentations du centre. Les dossiers thmatiques de la publicit sont actuellement aliments par des panoramas de presse, raliss partir des priodiques suivants auxquels est abonn le centre de documentation - : CB news (qui fait actuellement lobjet dun abonnement spcial proposant la version lectronique en plus de la version papier), Stratgies, Marketing magazine (galement disponible en version papier et en version lectronique), Etapes graphiques, La revue des marques, Le temps des mdias, Market management, Histoire dentreprises. Les panoramas peuvent aussi intgrer parfois, mais de manire beaucoup plus ponctuelle, des articles issus de journaux auxquels le centre de documentation nest pas abonn un quotidien national par exemple -, ou bien dautres documents divers brochure publicitaire, enqute, rapport, sondage, etc.
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 64 / 218

Ces dossiers thmatiques - permettant de trouver des informations et des documents sur des thmes affrents la publicit - sont ainsi constitus trs majoritairement darticles photocopis. Ces derniers sont conditionns et tris selon un plan de classement thmatique 28 , dans des botes darchives 29 au format A4 - regroupant des thmes - qui contiennent elles-mmes des chemises - regroupant des sous thmes. Ces dossiers sont principalement utiliss par la documentaliste responsable de la publicit, ainsi que par les conservateurs et assistants de ce dpartement. Ils sont aussi signals sur le site des Arts Dcoratifs, et sont consultables sur demande par des visiteurs. La constitution de ce fonds relve des fonctions et des comptences de la seule documentaliste de la publicit, qui prend ainsi en charge toutes les tapes de la chane de traitement documentaire.

3.2.2 La chane documentaire


La chane de traitement documentaire sorganise actuellement en les phases suivantes : - rception des priodiques (au format papier par voie postale) ; - bulletinage (mise jour des abonnements en vue de garder une traabilit) ; - dpouillement (travail intellectuel de slection des articles les plus intressants et les plus pertinents ; - photocopie des articles slectionns ( partir des priodiques originaux) ; - indexation manuelle consistant crire la main les rfrences des articles sur les photocopies (titre du priodique, numro, date de parution, parfois quelques mots en commentaire) ; - indexation lectronique dans le logiciel Mobytext pour les revues reues en version lectronique (actuellement CB news et Marketing magazine) ; - classement dfinitif dans les botes darchives suivant un plan de classement thmatique (tournant autour des domaines de la publicit, du marketing et de la communication) ; Dans cette chane, les oprations de photocopie occupent une part importante, puisque tous les articles slectionns lors du dpouillement sont systmatiquement photocopis. Dans certains cas seulement, lorsque larticle est issu dun priodique auquel nest pas abonn le muse par exemple un journal quotidien comme Le Monde -, les articles sont dcoups aux ciseaux directement partir de loriginal. Ils sont ensuite trs souvent colls sur des feuilles A4, qui sont alors elles-mmes photocopies puis classes ou classes directement. Ceci afin dobtenir une meilleure prsentation de larticle. Cette tche manuelle est donc
28 29

Un extrait de ce plan de classement thmatique est consultable en annexe 7. Des photos illustrant la structure de ces botes darchives sont consultables en annexe 8.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 65 / 218

relativement lourde, dautant que, dans certains cas, larticle concerne plusieurs dossiers ou thmes, ce qui multiplie alors dautant le nombre dexemplaires produire lors de lacte de photocopie. Lopration dindexation numrique concerne uniquement les priodiques reus par voie lectronique actuellement il sagit de CB news et Marketing magazine -, et se fait laide dun thsaurus. Cette opration est actuellement effectue, manque de mieux, via le logiciel Mobytext qui se trouve tre inadapt la gestion de dossiers documentaires dmatrialiss. Il est livr ci-dessous des informations et des lments cls permettant de faire une premire valuation de la situation, et dengager une rflexion sur la faisabilit et lopportunit de la dmatrialisation.

3.2.3 Recensement de lexistant et typologie des dossiers thmatiques de la publicit


La premire tape dune tude de faisabilit dun projet de dmatrialisation consiste : - faire un recensement de lexistant, notamment la volumtrie et les caractristiques pouvant influencer sur la mthode ou le rsultat ; - tablir une typologie du fonds selon les caractristiques les plus contraignantes ; - prendre en compte toute une srie de facteurs qui concernent plus particulirement le texte des documents ; Tous ces points ont t regroups dans un tableau consultable en annexe 1, la page 165 de ce document. En fonction de tous les lments et de toutes les informations quil a t possible de recueillir au centre de documentation, voici ce que lon peut dire sur chacun des points voqus dans ce tableau.

Le type de document
Ce sont exclusivement des articles de presse ou de revue. - La forme : Il sagit de photocopies et, beaucoup plus rarement, doriginaux - darticles de presse ou de revues, qui comportent du texte et des images, en couleur ou noir et blanc. Ces documents contiennent parfois de courtes annotations manuscrites, la plupart du temps les rfrences de larticle, qui ont t crites la main soit directement sur loriginal, soit sur la photocopie.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 66 / 218

- Le contenu : Il sagit de textes relativement riches qui nont donc pas une structure forte ( linverse par exemple de documents de type formulaires). - Lusage futur : Ces documents ont vocation tre lus sur des postes informatiques, en accs libre ou contrl. Ils nont pas de valeur probante, ne constituent pas des preuves, ne font pas lobjet dune dure de conservation lgale, ne seront pas achets. Une fois ces documents dmatrialiss et intgrs dans la GED, seuls pourront tre modifis leur indexation et leur classement lectroniques. Autrement dit, aucune dition lectronique du contenu de ces documents nest envisage aprs leur stockage dans la base. De mme, aucune action du type rimpression-modification sur papier-numrisation nest programme.

Le format du document
- La taille : Les documents sont trs majoritairement au format A4. Quelques-uns sont au format A3. Ces formats sont pris en charge par la quasi-totalit des scanners semi-professionnels actuellement sur le march, y compris les moins performants. - La couleur : Une partie non ngligeable des documents sont en couleur, ce qui ne pose aucun problme sur le plan de lefficacit de lOCR. - Le papier : Concernant les dossiers thmatiques le grammage du papier est en gnral standard (papier pour photocopieuse). La majorit des documents sont en bon tat. Seuls quelques documents sont jaunis avec un papier dgrad, mais, except pour une petite poigne de documents trs dgrads, leur tat ne parat pas incompatible avec une numrisation. De plus, aucun document nest vritablement rare au point que lon doive prendre en considration un risque potentiel de dgradation lors de la scannerisation. Concernant les revues et journaux originaux papier qui seront numriss ds leur rception, la qualit de leur papier est galement compatible avec une numrisation. Prcisons quune option trs intressante et efficace, appele filtre anti-moir , est disponible sur beaucoup de scanners et permet dattnuer la prsence et lapparition de trames dimpression caractristiques des journaux et revues commercialiss. - La pagination : Dans ces dossiers documentaires, on trouve majoritairement des feuilles photocopies seulement au recto. Une petite proportion des documents autour de 20 % - sont toutefois
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 67 / 218

imprimes recto-verso. Certains articles stalent sur plusieurs pages, on trouve donc un grand nombre de feuilles agrafes. Ce problme sera abord plus loin dans ltude.

Le volume du fonds documentaire traiter


Concernant le stock des dossiers thmatiques de la publicit, le volume des pages numriser est assez important. Actuellement, le nombre de botes darchives slve environ 200. Toutes les botes sont au format A4. Un comptage manuel a permis dvaluer quune bote comporte environ 400 feuilles lorsquelle est remplie au 2/3 ce qui correspond peu prs au taux de remplissage moyen des botes. On peut donc en dduire que le volume de ce fonds tourne autour de 80000 feuilles. La trs grande majorit, autour de 80%, ne sont imprimes que sur le recto. Ainsi le nombre total de pages A4 dmatrialiser pour ce projet tourne autour de 100000.

Lhomognit du fonds
La nature des documents est plutt homogne, puisque la quasi-totalit des documents sont des photocopies darticles plus rarement des originaux. Il parat donc pertinent et judicieux de les traiter dun seul bloc et au cours dun seul et mme projet. En termes de format, le fonds des dossiers thmatiques est plutt homogne puisque la quasitotalit des documents sont des photocopies au format A4. En revanche, sur le plan de la qualit de reprographie, le fonds nest pas vraiment homogne et lon trouve des qualits dimpression assez varies selon les documents.

Ltat et la fragilit du document initial


Les documents prsents dans les dossiers thmatiques de la documentation publicit ne sont pas spcialement fragiles ou prcieux. Il ny a donc pas, sur ce point, une obligation faire un choix technologique trs prcis ou se doter dun modle de scanner en particulier. En revanche, on trouve dans dautres documentations du muse - comme celle du 17me et 18me sicle par exemple - des revues prcieuses et fragiles la valeur historique et patrimoniale importantes. La dmatrialisation de ces documents exigera une grande prcaution, et il est prconis dans ces cas-l de faire appel un prestataire spcialis en numrisation, possdant des scanners particuliers capables de numriser sans abmer les reliures ni le papier.

La juridiction lie au document


Sur le plan juridique, parmi les dossiers documentaires du centre de documentation, il nexiste aucun document qui soit de nature non reproductible , aucun document caractre probant , aucun document nayant le statut de preuve . Il n'y a donc aucune
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 68 / 218

obligation pour le centre de documentation de conserver un quelconque document original, et il est donc possible en thorie de dtruire les documents aprs leur numrisation sans que cela ne mette potentiellement les documentations dans une situation de risque ou de mise en dfaut. Il ny a galement aucune obligation particulire pour ce projet mais en revanche des recommandations que cette tude est cense apporter - en termes de prennit du support, de format de fichier, de signature lectronique, de datage, ou didentifiant unique. Les aspects juridiques du projet qui concernent le droit dauteur et le droit de reproduction seront traits plus loin dans la partie 3.9 de ltude.

3.2.4 Recensement de lexistant et typologie des dossiers dans les autres documentations
Documentation de la mode et du textile
Le fonds documentaire de la documentation de la mode et du textile comprend environ 1300 dossiers, pour la plupart consacrs aux couturiers et aux crateurs. Les documents archivs dans les dossiers de cette documentation sont de toute nature : articles photocopis de revues ou de journaux, dossiers de presse, catalogues de collections, documents originaux, photos, etc. Beaucoup de ces documents ont une valeur patrimoniale, puisque ce sont des originaux que seul le muse possde. Les dossiers peuvent aussi contenir des objets, on peut citer comme exemple cette reproduction d'appareil photo en plastique faisant office de carton d'invitation pour un dfile de haute couture. Ainsi se trouve dans ces botes des documents non dmatrialisables . L'tat des documents est trs variable. Certains sont sous forme de photocopies de trs bonne facture, dautres sont au contraire dans un trs mauvais tat et non numrisables (papiers originaux compltement noircis ou jaunis, photocopies de trs mauvaise qualit).

Documentation du 20me sicle


Le fonds est dj trs important, malgr qu'il n'ait t constitu que depuis les annes 90. Il comprend aujourdhui plus de 1500 dossiers, soit plusieurs centaines de milliers de pages de documents. Les documents sont de nature trs varie : articles photocopis de revues ou de journaux, dossiers de presse, catalogues d'artistes, documents originaux extraits de dossiers personnels d'artistes, etc Tout comme la documentation de la mode du textile, l'tat des documents est assez variable photocopies de bonne qualit, papiers originaux noircis ou jaunis, etc.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 69 / 218

Documentation Art nouveau Art dco


Le fonds des dossiers documentaires de la documentation Art nouveau Art Dco est assez important, il porte sur les oeuvres du 19me sicle et aussi beaucoup sur l'exposition universelle des Arts dcoratifs Paris en 1925. Les documents sont majoritairement des articles - originaux ou photocopies -, plutt dans un bon tat de conservation, et dune qualit dimpression assez satisfaisante. Aucun document dans ces dossiers nest caractre patrimonial ou d'une trs grande valeur de raret.

Documentation du 17me et du 18me


Le fonds documentaire de cette documentation nest pas trs volumineux et assez jeune, puisqu'il a commenc tre constitu seulement en 2002. Les documents sont majoritairement des articles - originaux ou photocopies. Le fonds ne comporte pas de documents caractre patrimonial ou d'une trs grande valeur de raret. L'tat de conservation des documents est globalement satisfaisant, et tous sont compatibles avec une numrisation physique.

3.2.5 Linitiative dun dpouillement priodiques laide du logiciel Mobytext

lectronique

de

certains

Soulignons une initiative importante et intressante qui a t mene depuis quelque temps par la documentaliste de la publicit : celle dun dpouillement lectronique des revues CB News et Marketing magazine. Des numros de ces revues ont ainsi pu tre tlchargs dans leur intgralit en version lectronique au format PDF. La documentaliste a instaur, via le logiciel documentaire Mobytext, un systme qui permet de faire rfrence et dindexer, de faon trs sommaire, un article dun numro. Un lien permet ainsi douvrir le fichier PDF du numro concern, mais pas daccder directement la page du numro contenant larticle rfrenc. En effet, Mobytext est un logiciel spcialis dans la gestion des collections patrimoniales, dont la conception autorise seulement le catalogage darticles de priodiques, et non pas leur gestion autrement dit lacquisition, la modification, la publication, etc. Ce point sera expos plus prcisment dans la partie 3.3 de cette tude. Aujourdhui, on trouve donc plus de 3000 rfrences darticles sur la publicit dans la base de Mobytext. Nanmoins, cette solution technique est forcment provisoire, car elle ne bnficie pas de la puissance dun vritable logiciel de GED. Mais elle est surtout symbolique dune volont de la part de la documentaliste de disposer dun fonds compltement numris.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 70 / 218

A propos de ce dpouillement lectronique de priodiques, qui est de plus en plus pratiqu par les documentalistes des centres de documentation, il semble que certains diteurs de revue aient ragis et soient maintenant opposs au tlchargement de leurs numros en version intgrale. Cest justement le cas pour CB news et Marketing magazine depuis quelques mois. Lexplication repose dans la problmatique actuelle de lexploitation des panoramas de presse lectronique, et dans ses aspects juridiques particuliers. Ce point important sera largement trait dans la partie 3.9.4 de ce mmoire.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 71 / 218

3.3 Analyse de contenus de botes darchives


Pour cette tude, il a t dcid de procder une analyse assez fine, sous forme de statistiques, du contenu de botes darchives renfermant des dossiers thmatiques de la publicit. Ceci afin de : - sonder prcisment la varit des ressources prsentes dans ces dossiers ; - valuer la prdominance de certains priodiques ; - valuer ltat des documents contenus dans ces botes ; Nous avons ralis le dpouillement dune premire bote - c'est--dire dun thme - dont le titre principal inscrit dessus est Femme et publicit . A lintrieur de cette bote, les ressources sont classes en sous thmes, ces derniers tant inscrits en titres secondaires sur la bote. Les sous thmes pour cette bote taient : protection de la femme, typologie de la femme, la pin-up. Cette bote contient 271 documents - trs majoritairement des articles -, sachant quun document peut bien videmment comporter parfois plusieurs pages. A partir de lanalyse de ces documents, on a souhait isoler et identifier les priodiques revues, journaux, etc - les plus reprsents, afin dessayer de dterminer sil pourrait savrer intressant de procder une numrisation rtrospective partir des originaux de ces priodiques qui sont conservs par le muse -, plutt que de numriser partir des photocopies dj prsentes et classes dans les dossiers thmatiques. Voici les rsultats du dpouillement de cette bote sous forme de statistiques (o ne figurent, volontairement, que les titres de priodiques les plus reprsents) : Cb news Stratgies Le figaro Libration Le monde Le journal du textile Mdias Le point Vogue Com.in Le nouvel observateur Lexpress Tl star Femme actuelle Tlrama 28 documents (10,3 %) 26 documents (9,5 %) 14 documents (5,1 %) 13 documents (4,8 %) 10 documents (3,7 %) 6 documents (1,84 %) 5 documents (1,82 %) 4 documents (1,47 %) 4 documents (1,47 %) 4 documents (1,47 %) 3 documents (1,1 %) 3 documents (1,1 %) 3 documents (1,1 %) 2 documents (0,73 %) 2 documents (0,73 %)

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 72 / 218

Marianne Fashion daily news

2 documents (0,73 %) 2 documents (0,73 %)

Il ressort de ces chiffres que deux priodiques se dtachent et sont vraiment trs prsents dans cette bote thmatique. Il sagit de CB news et de Stratgies ( hauteur de 10 % chacune). Les originaux de ces deux revues tant archivs et disponibles au centre de documentation ce qui nest pas le cas des trois priodiques qui suivent dans le classement, c'est--dire Le figaro, Libration et Le monde - une numrisation partir de ces originaux serait donc possible. Le dsavantage de cette solution tant que ces priodiques originaux sont actuellement conserves sous forme de reliures. Une numrisation massive avec utilisation dun chargeur automatique impliquerait donc au pralable de dtruire ces reliures, puis de les reconstituer une fois lopration termine. En plus de ces articles, on a trouv aussi : - 1 rapport dexperts de plusieurs dizaines de pages, reli avec des agrafes ; - 1 carton dinvitation pour un vernissage, assez petit et pli ; - 1 enqute pour la tlvision, sous forme dune pochette contenant des pages agrafes ; - 5 textes de lois, comprenant chacun plusieurs pages agrafes ; Concernant ltat et la forme de conservation de ces documents, on a recens parmi ces derniers ceux qui pouvaient prsenter des caractristiques susceptibles de nuire, gner ou retarder leur dmatrialisation. De la mme manire que pour la diversit des revues expose plus haut, les rsultats sont prsents ci-dessous sous forme de statistiques : Documents au format A3 : Documents composs de moins de 5 pages agrafes Documents composs de plus de 5 pages agrafes Documents relis Documents comprenant des rfrences manuscrites Documents comprenant des lignes de textes inclines Documents corns Documents froisss Documents plis Documents dorigine inconnue Documents comprenant des lignes illisibles Documents insrs dans des pochettes plastiques 25 (9,22 %) 36 (13,28 %) 23 (8,48 %) 2 (0,73 %) 96 (35,4 %) 1 (0,37 %) 1 (0,37 %) 2 (0,73 %) 1 (0,37 %) 10 (3,7 %) 2 (0.73 %) 11 (4,05 %)

Parmi ces rsultats, les deux chiffres importants et qui sont probablement les plus dterminants dans loptique dune numrisation sont : - le nombre de documents comprenant des rfrences manuscrites ; - le nombre de documents comprenant des pages agrafes ;

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 73 / 218

On voit que plus dun document sur cinq est agraf, ce qui ncessiterait par consquent lintervention dun oprateur avant de pouvoir placer les feuilles dans le chargeur automatique. Cest un paramtre trs important et fortement pnalisant dans le cas o lon souhaiterait une dmatrialisation rapide et massive. Si on additionne tous les autres pourcentages de documents qui ne pourront pas tre placs directement dans le chargeur sans un minimum de prparation au pralable (c'est--dire les documents plis, corns, froisss, insrs dans des pochettes plastiques), on avoisine un total de 17 %, ce qui reprsente l encore prs de 1 document sur 5. Sur le plan de la performance du traitement OCR, et des potentialits dindexation ou de classement automatiques quil serait susceptible dinduire, on voit que, l aussi, les choses ne se prsentent pas favorablement. En effet, plus d1 document sur 3 comporte ainsi des rfrences manuscrites fondamentales et non reconnaissables de faon fiable avec lOCR - cela est clairement expliqu dans la partie 3.4.4 de ce mmoire. Dans la trs grande majorit des cas, ces inscriptions manuscrites sur les photocopies sont : le titre, le numro et la date de parution du priodique. Des informations quil faudra donc forcment re-saisir manuellement lors de la numrisation. Une tche assez coteuse en temps et en attention si on la compare au reste des oprations comme le chargement des feuilles dans le chargeur, le temps de balayage de la surface du document par le laser, le traitement OCR pour le texte intgral, lenregistrement du fichier au format de sortie souhait, etc. En fait, ce taux de 1 sur 3, il faut ajouter en plus le pourcentage de documents dorigine inconnue (3,7 %). Ces devront en effet obligatoirement faire lobjet eux aussi dune saisie manuelle lors de la numrisation. Le fonds des dossiers thmatiques de la publicit tant trs riche et trs vari, nous avons considr quil tait indispensable de dpouiller et danalyser le contenu dune autre bote darchivage. Le thme slectionn fut celui des Boissons non alcoolises , qui se dcline selon 5 sous thmes dans le plan de classement : Sodas, Jus de fruits, Sirops, Apritifs sans alcool, Boissons nergtiques. La bote comprend 374 documents, chacun pouvant comporter plusieurs pages. Voici les priodiques les plus reprsents dans ce dossier thmatique : Stratgies CB news Le figaro Marketing magazine Mdias 106 documents (28,3 %) 87 documents (23,2 %) 31 documents (8,2 %) 9 documents (2,4 %) 9 documents (2,4 %)

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 74 / 218

Cash marketing Tl 7 jours Le point Le monde Le nouvel observateur

8 documents (2,1 %) 7 documents (1,8 %) 5 documents (1,3%) 4 documents (1 %) 4 documents (1 %)

De la mme faon que pour le thme Femme et publicit , il ressort l encore de ces statistiques que ce sont les deux mmes priodiques qui se dtachent : Stratgies et CB news. Mais on constate cette fois quils sont encore plus majoritaires dans ce thme des boissons non alcoolises, en reprsentant prs de 1 document sur 4. Lopportunit et lintrt de numriser les articles de ces deux revues partir des originaux apparaissent ici de faon encore plus vidente. Comme cela a t expliqu plus haut, les originaux de ces revues sont dj relies et il apparat donc ncessaire de dbattre et rflchir sur la stratgie qui serait la plus intressante en termes de cot et de temps. Vaudrait-il mieux numriser les revues page par page sur un scanner plat , et sans procder la destruction des reliures, ou bien serait-il plus rentable de dtruire les reliures afin de pouvoir placer les pages dans le chargeur automatique ? Une interrogation persiste aussi concernant le fait de savoir si oui ou non il est possible de dtruire la reliure sans abmer les revues ? Et est-il possible de procder ensuite une nouvelle reliure ? Sachant quil est souhait et prvu de continuer conserver les originaux de ces revues aprs la dmatrialisation. Dans le cas dune dmatrialisation qui ferait appel un prestataire de numrisation externe, une autre alternative est aussi tudier : celle de lutilisation par ce prestataire dun scanner professionnel capable de tourner les pages automatiquement. Toujours dans lhypothse dune numrisation partir des originaux, il faut souligner le fait que lOCR pourrait peut-tre avoir la capacit (cela reste tout de mme tester et vrifier, peut tre avec le paramtrage de positions et de zones) de reconnatre le titre, le numro et la date de parution du priodique en cours de numrisation. Do une indexation et un classement qui pourraient tre alors partiellement automatiss, ce qui ferait gagner du temps. Voici les statistiques sur ltat de conservation des documents dans ce dossier : Documents au format A3 : Documents composs de moins de 5 pages agrafes Documents composs de plus de 5 pages agrafes Documents comprenant des rfrences manuscrites Documents comprenant des lignes de textes inclines Documents corns Documents froisss Documents plis 29 (7,7 %) 33 (8,8 %) 4 (1 %) 149 (39,8 %) 2 (0,5 %) 2 (0,5 %) 2 (0,73 %) 41 (11 %)

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 75 / 218

Documents dorigine inconnue 5 (1,3 %) Documents insrs dans des pochettes plastiques 19 (5 %) Documents trop petits pour tre placs dans le chargeur 26 (6,9 %) On constate que prs d1 document sur 10 est agraf et ncessitera une intervention manuelle pour prparer le document avant la numrisation (do un retard et un surcot dans le traitement). Et puis, l aussi, beaucoup de rfrences manuscrites sont prsentes sur les photocopies, avec prs de 40 % des documents qui sont annots avec des lments indispensables lindexation. Les documents plis (1 document sur 10), ainsi que les petits morceaux darticles dcoups directement partir des revues originales (et ne pouvant pas tre entrans par le chargeur), devront aussi faire lobjet dun travail de prparation qui cotera du temps. Les documents au format A3 ne poseront priori pas de problme, sauf qutant stocks dans des botes au format A4 ils ont forcment t plis. Certaines des pliures sont donc susceptibles de gner lentranement par un chargeur. De manire gnrale il est donc recommand de mener des tests avec des chantillons sur ces points prcis, afin dvaluer les difficults potentielles pour un traitement de masse.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 76 / 218

3.4 Linadquation des logiciels Mobydoc pour la gestion de dossiers thmatiques dmatrialiss
La dmatrialisation reprsente une intressante opportunit pour le centre de documentation de mettre en place un systme de Gestion Electronique de Documents, qui viendrait en complment de loutil dj existant de gestion informatique documentaire spcifique aux collections. En effet, les seuls logiciels documentaires disponibles actuellement sur les postes du centre de documentation sont tous distribus par la socit Mobydoc 30 , et peuvent tre considrs comme des outils relevant de la simple gestion informatique documentaire. Et une rapide analyse des spcifications fonctionnelles et techniques des deux logiciels Micromuse et Mobytext implants au muse rvlent quils ne permettent pas de raliser une dmatrialisation et une gestion lectronique de dossiers thmatiques. Ils sont mme incapables de procder la premire, et la plus lmentaire des phases de la dmatrialisation : la phase de capture numrique. En effet : Micromuse permet seulement la gestion des collections des muses dArt, dArchologie, dEthnographie ou de muses spcialiss dans tous ses aspects : - linventaire ; - la description physique des objets ; - la documentation scientifique et littraire : photographie, bibliographie ; - lanalyse iconographique et historique ; et : La vocation de Mobytext est exclusivement de cataloguer dans le respect de l'ISBD 31 : -des documents de tout type de support (livre, rapport, priodique...) ; -des articles de priodiques ; -des notices de dpouillement ; Avant de rentrer plus en dtails dans les spcifications de ces deux logiciels, et dexposer leurs insuffisances en vue de la dmatrialisation des dossiers thmatiques de la documentation publicit, il nest pas inutile de faire un petit rappel sur la socit Mobydoc. Lditeur Mobydoc est spcialis depuis l'origine dans l'informatique applique la gestion des collections patrimoniales : muses, Collections d'entreprises ou prives, Archives,
30 31

www.mobydoc.fr/index.htm International Standard Bibliographic Description.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 77 / 218

Centres de Documentation, Photothques, Cinmathques, Architecture. On peut mme dire que cest une socit spcialise exclusivement dans la gestion de collections, qui propose des produits aux professionnels du patrimoine. Elle offre : - des solutions logicielles pour les collections patrimoniales ; - un systme intgr multi-mtier (MUM) permettant la gestion centralise de collections diverses (un systme actuellement unique sur le march) ; - l'OPAC Web pour la mise en ligne des collections : un outil intgr la mise en uvre assez simple, qui ne ncessite pas de comptence informatique pralable ; Dans les spcifications de Mobytext, il est indiqu que le catalogage darticles de priodiques est possible. Nanmoins, aprs une analyse plus dtaille, il sest avr que ce logiciel nest pas, de par son origine, sa nature et sa conception, un outil qui permettrait de numriser et de grer massivement et lectroniquement les dossiers documentaires du centre de documentation. En effet : - il ne dispose daucun module de capture numrique ni de pilotage de scanner ; - il ne permet pas le traitement de trs grands volumes denregistrements de donnes ; - ses fonctionnalits concernant lindexation, le classement et la recherche lectroniques des documents sont trop limites pour le traitement de nombreux et volumineux dossiers documentaires ou thmatiques ; - les contraintes pour son paramtrage (cration ou modification de champs par exemple) sont lourdes et imposent une maintenance que seul lditeur ou un service informatique peut raliser, diminuant ainsi lautonomie du centre de documentation faire voluer le systme ; - il est muni dune ergonomie et dun visualiseur peu adapts la consultation darticles de priodiques numriss ; - il manque globalement de souplesse et de flexibilit ; - il ne dispose daucun module de workflow autorisant un vritable travail collaboratif ; Enfin, voici une srie de limites que rvle lanalyse de Mobytext et Micromuse, et qui les rendent inaptes la gestion et la consultation de dossiers documentaires numriques.

Les limites de l'aide la saisie


- Elle est facilite seulement par des fichiers d'autorit, exploits sous la forme de listes hirarchiss ou de thsaurus ; - Aucune aide nest disponible sous la forme d'index ouvert automatiquement aliments et

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 78 / 218

portant sur toutes les valeurs dj saisies. Il faut alimenter manuellement l'index, ou importer d'autres thsaurus ;

Les limites de la recherche


Le gros inconvnient de la recherche dans ces applications est quelle ne porte que sur des termes exacts, avec une gestion pnalisante de tables et de listes de rfrence. Et la possibilit d'importer des listes d'autorit ou des thsaurus provenant d'autres utilisateurs des logiciels Mobydoc n'apporterait rien dans le cadre du projet de dmatrialisation d'un fonds documentaire spcialis dans la publicit. La seule possibilit de la recherche tendue passe donc par des listes organises (termes associs et hirarchie). Il nexiste aucune possibilit de faire une recherche libre multicritre. En rsum, les limites de ces logiciels sont : - pas de recherche libre, obligation de passer par des listes ; - pas de recherche en texte intgral ; - pas de recherche avec troncatures ;

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 79 / 218

3.5 Lanalyse des besoins et les bnfices attendus


Les logiques et les circonstances qui amnent envisager une dmatrialisation des dossiers documentaires au centre de documentation des muses des Arts Dcoratifs peuvent se dcrire en quatre points principaux : un besoin de place, une volution de lusage, un meilleur accs aux archives, un moyen de prservation et de conservation. Il y a un vident besoin de place, puisque les rayonnages des documentations qui reoivent les dossiers documentaires arrivent saturation. Une volution de lusage du fonds documentaire est souhaite, la fois par les documentalistes mais aussi par les consultants. Les documentalistes souhaitent fortement pouvoir disposer dune indexation et dun classement des documents plus fins, ne plus avoir manipuler physiquement les documents papier via les botes de rangement, et pouvoir ventuellement dpouiller lectroniquement les revues accessibles en version lectronique. Globalement, la dmatrialisation est entrevue ici comme un processus permettant un meilleur accs aux archives. Concernant les consultants internes du centre de documentation les conservateurs et leurs assistants - et ceux externes le public invit visiter le centre -, il est ainsi souhait quils puissent consulter le fonds lectroniquement, via des postes de consultation, de faon plus autonome et en disposant doutils de recherche modernes et performants. Ces volutions ayant principalement pour objectif dapporter des informations plus riches et plus dtailles aux utilisateurs. Les dossiers documentaires ont actuellement pour fonction principale dillustrer les collections du muse et si lon prend lexemple des dossiers thmatiques de la publicit autour desquels a t focalise cette tude, on voit que ce fonds a plutt un caractre actuel et contemporain -, mais ils pourraient dans le futur et avec le temps revtir un caractre plus patrimonial. La dmatrialisation est donc aussi envisage pour ce projet comme un excellent moyen de prservation et de conservation. Aprs avoir nonc dans les grandes lignes les logiques et les circonstances qui motivent la dmatrialisation, essayons maintenant didentifier plus prcisment tous les besoins du centre de documentation, et de cerner tous les bnfices que lon peut attendre dun tel projet.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 80 / 218

3.5.1 Amlioration du produit documentaire et du service aux utilisateurs


La dmatrialisation, partout o elle se met en place, quels que soient la nature et la typologie des documents, quelle que soit lorganisation concerne, apporte une plus value et un progrs extrmement intressants. Le numrique offre en effet une trs grande souplesse de traitement compar lre du papier, et les combinaisons possibles dans les traitements sont quasiment illimites. Dans le cas dun centre de documentation au sein dun muse, il nest peut-tre pas opportun de parler de gain de productivit, ni appropri dessayer de quantifier ou chiffrer le bnfice - mme si, comme on le verra plus loin, il est toujours possible de dfinir des indicateurs assez prcis et significatifs. En revanche, sur un plan qualitatif, il est certain que la dmatrialisation reprsenterait un pas en avant dcisif au niveau : - des conditions et du confort de travail des documentalistes ; - de la qualit du produit documentaire ; - du service propos aux utilisateurs ; Et on peut notamment citer les amliorations suivantes qui accompagnent la dmatrialisation : - des articles mieux classs et plus visibles ; - des articles mieux dcrits et mieux indexs ; - une recherche beaucoup plus souple et performante ; - aucune dtrioration ou dgradation du support puisque le produit nest plus manipul mais seulement consult numriquement ; - aucun risque de vol ou de perte de documents (un document mal rang est un document perdu) ;

3.5.2 Rduction de la consommation de papier


La documentation de la publicit ne tient aucune statistique sur le nombre de photocopies darticles qui sont faites par mois dans le cadre de lalimentation des dossiers thmatiques. Aucun chiffre na donc t disponible sur ce point pour cette tude. Le nombre de photocopies de documents qui sont faites par les consultants internes partir des dossiers thmatiques et dans le cadre de leurs travaux est difficilement quantifiable, lui aussi, puisquil peut tre trs variable dun mois lautre.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 81 / 218

Dans le cadre de cette tude, un petit sondage a t effectu auprs des diffrentes documentations du centre, sous forme de rencontres individuelles avec chacun des documentalistes responsables de ces documentations (cf. la partie 3.5). Ceci dans loptique de faire une premire valuation et reconnaissance de la situation, et de jauger de lopportunit dune extension ventuelle de la dmatrialisation dautres documentations du centre. Et sur ce plan de la consommation du papier, une premire constatation est apparue au fil de ces entretiens, et qui tait commune tous les dpartements : les conservateurs premiers destinataires du travail des documentalistes - sont fortement attachs au papier. La manipulation physique des documents fait partie de leurs habitudes de travail. Et ils sont trs accoutums la recherche parmi les botes et les chemises, puisquils connaissent trs bien le fonds et son organisation. De plus, beaucoup prfrent lire les documents sur support papier plutt que devant un cran. Ainsi, mme sil est tout fait envisageable que les conservateurs adhrent, terme, une recherche lectronique dans une base de donnes, parce que convaincus quils y gagnent en termes de vitesse daccs et en termes de pertinence de rsultats, il est en revanche certain que nombre dentre eux souhaiteront possder une impression de tous les rsultats obtenus. Il est donc trs probable que, si la dmatrialisation avait lieu, se mettrait naturellement en place un systme du style : recherche sur ordinateur / lecture sur papier . Il ny aurait donc aucune relle conomie de papier ou dencre envisager comme bnfice de la dmatrialisation.

3.5.3 Gain de place


Concernant le stock des dossiers thmatiques papier et lventualit dune dmatrialisation rtrospective, dans un premier temps il nest pas prvu de dtruire ces documents papier aprs leur numrisation. Une des solutions envisageables serait de descendre au fur et mesure aux archives du muse les dossiers qui auraient t dmatrialiss, afin de gagner de la place sur les tagres du centre de documentation. Dans lhypothse o tous les dossiers thmatiques de la documentation de la publicit seraient intgrs dans la GED autrement dit une dmatrialisation rtrospective totale -, le gain de place slverait environ 6 m2 au sol. Nanmoins, certains documents se trouvant dans un tat de conservation ou ayant une forme - non compatible avec une dmatrialisation, il est envisag de les laisser dans les dossiers papier sur les tagres, mais en procdant tout de mme lintgration de leurs rfrences dans la GED - indexation et classement lectroniques. Le gain de place pourrait donc tre minor par rapport lvaluation faite plus haut, et il est aujourdhui, en amont du processus, difficile quantifier exactement.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 82 / 218

Concernant la dmatrialisation du flux entrant autrement dit lalimentation des dossiers thmatiques au fil de leau aprs la mise en place du systme de GED -, il est prvu naturellement de ne plus alimenter les dossiers papier. Seuls continueront tre stocks au format papier, de manire assez exceptionnelle, les documents non numrisables cause de leur tat ou de leur forme.

3.5.4 Gain de temps


Du ct du documentaliste, il faut essayer de quantifier le gain de temps ventuellement induit par lutilisation dun systme de GED. On peut le dcomposer sur trois niveaux : - lors de lalimentation des dossiers ; - lors du renseignement des consultants internes ; - lors du renseignement du public extrieur ;

3.5.4.1 Alimentation des dossiers : lecture et dpouillement du priodique, numrisation physique des pages, dcoupage numrique de larticle, indexation des articles, mtadonnes, classement et rangement des documents
Concernant lalimentation des dossiers papier avec le systme actuel, on dnombre quatre tapes : - parcourir la revue et slectionner les articles ; - faire autant de photocopies que ncessaire (en plusieurs exemplaires si larticle recoupe plusieurs thmes et quil doit tre en consquence class simultanment dans plusieurs botes thmatiques) ; - inscrire manuellement les rfrences de larticle sur la photocopie (la plupart du temps le titre du priodique, le numro et la date de parution) ; - accder aux botes darchives, puis aux chemises quelles contiennent, afin dy classer les photocopies lendroit le plus pertinent (en suivant un ordre alphabtique, ou chronologique, sil existe un classement de ce type dans les chemises, ce qui nest pas toujours le cas) ; Si on observe ces tapes du systme papier actuel, et si on sattache comparer ce dernier avec le systme lectronique qui pourrait tre rig, on en dduit que : - cest au niveau de la quatrime tape (classement et rangement physique du document) que le systme numrique pourrait permettre un gain de temps assez substantiel ; - la troisime tape (indexation) pourrait tre plus lourde et plus longue que dans le systme papier ;

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 83 / 218

La lecture et le dpouillement du priodique


Le parcours et le dpouillement dun priodique sont des tapes intellectuelles invitables et qui suivent la mme logique que ce soit pour un systme papier ou pour un systme numrique.

La numrisation physique des pages


Concernant la deuxime tape, celle de la numrisation physique du document, il nest pas ais dessayer de faire une comparaison du temps pass, en termes de manipulation, entre une photocopie papier et une scannerisation de document. Pour ce qui est de la photocopie papier, le processus technique est gnralement trs simplifi et quasi-automatique (il se fait dans une qualit par dfaut et sans aucun paramtrage prcis, except celui du choix du format et de la couleur), et relativement rapide (quelques secondes au total). Concernant lacte de numrisation dun document par un scanner, le processus est un peu plus compliqu et lent. En effet, en fonction du document dmatrialiser, on peut dcider dappliquer certains traitements spcifiques (suppression des tches, optimisation du contraste, rsolution dpi leve pour le document en sortie, traitement OCR, etc). Nanmoins, sur ce plan de la numrisation physique, un lment important - et dj relev plus haut - est tout de mme prendre en considration : dans un futur plus ou moins proche, les documents natifs papier vont lentement disparatre au profit des documents lectroniques - natifs numriques. Lconomie de ldition numrique est actuellement en pleine volution et en pleine mutation, et la gnralisation des priodiques de presse en version lectronique parat moyen terme presque certaine - surtout dans les domaines de la communication et du marketing. Cette disparition de ldition papier sera donc synonyme de disparition du processus dacquisition numrique avec le scanner - scannerisation. Le temps gagn par les documentalistes grce la suppression de cette tape lourde en termes de temps et de manipulation pourra ventuellement tre consacre loptimisation de lindexation - tape dcisive et trs importante pour valoriser et faciliter laccs au document. Cela constitue un argument qui peut ds prsent convaincre dadopter un systme de GED au sein dun centre de documentation. On a vu que la documentation de la publicit procde dj un dpouillement lectronique de deux revues disponibles la vente en version lectronique.

Le dcoupage numrique de larticle


Dans le systme actuellement en place, avec le format papier, lorsquun article est intressant et slectionn pour intgrer les dossiers thmatiques, mais quil noccupe pas lintgralit
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 84 / 218

dune page, on na pas dautre choix que de photocopier la page entire, puisque les photocopieurs en service au centre de documentation ne sont pas dots doption de prnumrisation ni doutil de dcoupage numrique. Comme tous les photocopieurs standards, ils grent seulement les formats classiques (A4, A3, etc) et le taux dagrandissement / rduction. Aprs lopration de reprographie, il est donc ncessaire de dsigner larticle choisi sur la photocopie autrement dit le distinguer des autres -, ce qui est la plupart du temps effectu en inscrivant manuellement au crayon papier une petite croix, et plus rarement en surlignant le titre de larticle laide dun feutre de couleur. Parfois, une page de revue peut contenir plusieurs articles intressants et destins tre stocks dans des dossiers thmatiques diffrents. Dans ces cas-l, il faut donc faire autant de photocopies que de thmes concerns, et identifier les articles slectionns sur chacune des photocopies. Ainsi cest la technique actuellement mise en place pour dpouiller tous les priodiques auxquels est abonne la documentation publicit. Malgr tout, le fonds comporte aussi une proportion non ngligeable darticles ayant t dcoups aux ciseaux directement partir dautres revues ou journaux originales par exemple, un article peut tre dcoup dans un journal quotidien comme Le Monde, de manire ponctuelle. Parfois, ces articles dcoups aux ciseaux ont ensuite t photocopis au format A4, mais dautres fois ils ont t directement classs et rangs tels quel dans les botes ce qui, on la vu, pourrait empcher leur placement dans le chargeur dun scanner lors de la dmatrialisation. Sur cet aspect de lalimentation des dossiers, les possibilits dune gestion lectronique de documents seront donc trs intressantes. En effet, un logiciel de GED permet disoler larticle ds le processus de numrisation, laide doutils classiques de prnumrisation, de dcoupage et de recadrage. En dfinitive, contrairement au systme papier, ce nest donc pas la page entire qui sera stocke, mais seulement larticle slectionn. Lutilisateur naura plus chercher le signe distinctif dun article sur une photocopie, mais ouvrira directement un fichier informatique contenant exclusivement larticle choisi. Cette option de dcoupage numrique est dautant plus recommande pour la dmatrialisation quelle permettra de faire une conomie importante de mmoire de stockage informatique si on compare au cas o la page entire numrise serait stocke sur les serveurs. Sur le plan du gain potentiel pour la documentaliste, cette solution de dcoupage numrique est moins coteuse en temps quun dcoupage physique du papier aux ciseaux, puisque

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 85 / 218

quelques clics suffisent. En revanche, cela ncessitera un petit temps dapprentissage informatique de la part du documentaliste lors de la mise en place de la solution GED. Et dune manire gnrale, pour tous les utilisateurs, le fait disoler systmatiquement larticle apportera un gain significatif sur le plan du confort et de lergonomie.

Lindexation des articles, les mtadonnes


La numrisation physique du document ne permet pas sa gestion et son traitement, c'est-dire : son analyse, son classement, son indexation. Des oprations annexes sont donc ncessaires, qui ont pour objectif de produire des identifiants et des mtadonnes. Pour ce projet de dmatrialisation, il est prvu dexploiter les deux grandes familles de techniques existantes pour dcrire et classer les documents : lindexation structure, et lindexation en texte intgral. Avec le systme dindexation structure de type base de donnes, la documentaliste renseignera les index et les mots cls de chaque article de priodique dans loutil de GED. Avec le systme de GED en texte intgral, il sera possible dauto-indexer les articles par tous les mots du texte quils contiennent. La reconnaissance optique de caractres (OCR) fournissant le moyen dextraire linformation textuelle de larticle scann. Il est donc important de souligner encore une fois que tout le texte rsultant de lOCR est une mtadonne. Dans certains cas o la reconnaissance aura parfaitement fonctionn,

lintgralit du texte du document, c'est--dire tous ses mots, seront indexs. Au final, on trouvera ainsi dans la GED des mtadonnes qui seront : - insres manuellement et simultanment au processus de numrisation, grce un travail intellectuel danalyse et de description du document (thesaurus, mots cls, descripteurs libres, listes dautorit, etc) ; - issues du document numrique lui-mme par OCR (indexation en plein texte) ; - insres automatiquement (avec ou sans paramtrages pralables) au moment du processus de capture ou de reconnaissance de caractres (nom du fichier image, chemin de stockage, taille et type du fichier, date de cration, etc) ; Il est ncessaire aussi de sinterroger ici sur lopportunit dun recours la technique de reconnaissance intelligente de caractres (ICR). Tout dabord, on rappelle que la technologie OCR permet lordinateur de lire un texte, c'est--dire de transformer limage dun texte en un texte ASCII qui est ensuite indexable et rutilisable.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 86 / 218

Mais il existe en fait un autre type de reconnaissance de caractres : lICR. Cette technique apporte des avantages supplmentaires dans la reconnaissance des formes non-textuelles dune page : colonnes, illustrations ou tableaux. Certains systmes peuvent automatiquement sparer le texte des graphiques et les stocker sparment. Pour le projet de dmatrialisation des dossiers thmatiques de la publicit, le recours lICR ne semble pas vritablement indispensable. En effet, les articles de priodiques sont essentiellement constitus de textes, et de plus il nest pas envisag pour le traitement documentaire de ces articles de sparer les illustrations des textes. Autre remarque concernant lopportunit ou non dun usage de lICR : dans les dfinitions qui en sont parfois donnes, il est dit que lICR peut tre utilis pour la reconnaissance de caractres manuscrits. Mais il est ncessaire de bien prciser dans quelles conditions exactes lICR peut aider ce genre de reconnaissance. Les systmes actuels savent reconnatre lcriture manuelle moyennant certaines contraintes : - caractres spars ; - souvent majuscules et chiffres ; - parfois caractres ou signes dans des cases ; Or, dans le cadre du projet, ces contraintes ne sont pas respectes puisque des annotations manuscrites sont souvent prsentes sur les photocopies des articles des dossiers thmatiques. Ces annotations ont t rdiges par la documentaliste pour indiquer le titre, le numro et la date de parution de la revue dont est extrait larticle, ainsi que parfois des informations importantes et complmentaires de celui-ci. Donc, sur ce point galement, le recours lICR dans le cadre de notre projet ne parat pas adapt. En prcisant que lOCR ne sera pas plus efficace reconnatre ces caractres crits la main qui ne sont ni en majuscules, ni spars.

Le classement et le rangement des documents


Abordons maintenant la dernire phase de lalimentation des dossiers : le classement, le tri, et le rangement physique des photocopies dans les botes. Lorganisation actuelle des dossiers thmatiques de la publicit est base sur une logique de plan de classement thmatique. Le concept propos par la majorit des diteurs de logiciels de dmatrialisation est une organisation similaire au classement papier (armoire, dossier, sous dossier, document) mais sous forme lectronique. Et cest vritablement dans cette dernire tape de lalimentation des dossiers que la dmatrialisation peut apporter un gain trs significatif, en termes de puissance et de souplesse.
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 87 / 218

Premier avantage du numrique : contrairement au classement et au rangement dune photocopie dans une bote darchive, le classement et le stockage dun fichier dans la GED ne prend que quelques secondes, puisque laccs aux rpertoires et aux dossiers numriques se fait instantanment via un simple clic. A cela il faut ajouter quun classement alphabtique ou chronologique lintrieur dun dossier informatique peut tre ralis automatiquement, laide dun simple et unique paramtrage et sans une intervention systmatique du documentaliste. Ce premier avantage est dautant plus significatif quun article se rattache parfois intellectuellement plusieurs thmes ou sous thmes, c'est--dire plusieurs dossiers ainsi, le systme papier actuel oblige parfois faire plusieurs photocopies dun mme article et les ranger dans toutes les botes darchives concernes. Dans ces cas-l, le gain avec le numrique sera par consquent multipli par le nombre de dossiers dans lesquels on doit classer larticle. Un autre avantage du systme GED est la possibilit de pouvoir modifier ou de faire voluer trs facilement et rapidement un plan de classement lectronique. Alors que la mise jour et les corrections dun plan de classement sont trs pnalisantes au format papier, puisquelles demandent la consultation et la manipulation physique des botes, chemises, photocopies papiers. Ce qui peut savrer trs dlicat et trs long lorsque les botes sont assez charges. Les avantages qui viennent dtre exposs amnent la conclusion que, affranchi de la contrainte de la photocopie et du manque de place, le plan de classement pourrait tre sans cesse optimis, et encore plus approfondi. Et la documentaliste tant seule en charge de ce fonds et de ce plan, il est par consquent vident quune dmatrialisation laiderait considrablement pour ce travail.

Conclusion
Le passage dun systme de dossiers papier un systme GED induit des oprations supplmentaires lors de lindexation, qui viennent alourdir le travail du documentaliste lors de lalimentation des dossiers documentaires. Actuellement, les articles sont organiss avec un simple plan de classement thmatique, mais lapport de linformatique autorise une souplesse et une puissance suprieures dans lindexation des documents, comme par exemple lusage de mots cls. La numrisation saccompagne donc dun travail intellectuel supplmentaire, mais qui, en contre-partie, permettra ultrieurement un gros gain de temps et de performance lors de la recherche de documents. Concernant lventualit dun traitement rtrospectif du stock des dossiers thmatiques autrement dit la dmatrialisation du fonds accumul - la problmatique de lindexation est
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 88 / 218

similaire celle dune numrisation et intgration des documents dans la GED au fil de leau. La numrisation rtrospective des dossiers documentaires aurait vocation a les rendre plus visibles, les valoriser et faciliter leur exploitation, mais la condition deffectuer un complet travail de rindexation (thsaurus, mots cls, etc) afin d'exploiter au maximum le potentiel de la GED. Cette tche intellectuelle serait sans aucun doute extrmement lourde en termes d'investissement et de temps, dautant quelle ne pourrait tre ralise que par un documentaliste spcialiste de ce fonds, sans possibilit d'externaliser ni de faire appel des stagiaires.

3.5.4.2 Impact sur le temps pass renseigner les consultants internes


Il nest pas possible de quantifier prcisment la frquentation de la documentation de la publicit du centre de documentation par les consultants internes essentiellement les conservateurs -, puisque aucune statistique sur ce point nest ralise. Ces consultants internes sont trs habitus et familiers des dossiers, et ils ne demandent donc que trs exceptionnellement de laide la documentaliste. Cependant, mme sils sont dj trs autonomes dans leurs recherches, on peut imaginer que laccs une recherche lectronique performante, approfondie et avance (sous forme de mots cl, de thsaurus, de recherche en texte intgral, etc) pourrait les rendre encore plus autonomes.

3.5.4.3 Impact sur le temps pass renseigner le public extrieur


Concernant la frquentation du centre de documentation par le public externe, principalement compos dtudiants et de chercheurs, en 2008 on a relev 478 visites. Il est intressant dessayer de savoir si la dmatrialisation pourrait permettre de recevoir plus de visiteurs extrieurs, et sans que cela naffecte la charge de travail des documentalistes. Actuellement, linverse des conservateurs, le public qui consulte le centre de documentation a plus ou moins besoin dune aide la recherche de la part de la documentaliste. Cette aide ne prend pas seulement la forme dindications sur lorganisation du plan de classement, mais passe par un vritable conseil et une analyse des besoins des visiteurs. Ce travail intellectuel ne pourrait bien sr pas tre pris en charge par des solutions informatiques, puisquil est inhrent une vritable connaissance de la publicit et de la communication. En revanche, dans certains cas, notamment lorsque le visiteur a une bonne ide de ce quil recherche et quil na pas un rel besoin de conseil, il est certain quune consultation lectronique - assiste du moteur de recherche intgr la GED - pourrait viter quil ne sollicite laide ou lintervention de la documentaliste. Par exemple, avec le systme papier actuel, lorsquun visiteur ne trouve pas un document dans une bote darchives, il est conscient que le temps manque pour chercher massivement
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 89 / 218

dans dautres botes, et il est donc amen demander la documentaliste sil a une chance de trouver le document souhait dans une autre bote (et si oui laquelle ?). Alors que la possibilit dune recherche globale dans tout le fonds numris, notamment avec la fonctionnalit de recherche en texte intgral, pourrait satisfaire le visiteur dans nombre de situations et sans aucune intervention de la documentaliste. Sans ngliger laspect humain de la relation de conseil et de service, il apparat donc que la dmatrialisation offrirait de nouvelles perspectives pour accueillir un plus grand nombre de visiteurs, tout en largissant le profil de ce public. Nanmoins, des obstacles pourraient venir se dresser et compliquer une telle dmarche douverture de la part du centre de documentation. Tout dabord, les postes de consultation informatique qui sont disposition du public se trouvent dans une salle spcifique appele salle de consultation. A lintrieur de cette salle se trouve galement des ouvrages et des revues, qui doivent donc faire lobjet dune surveillance rgulire lorsque des visiteurs consultent les ordinateurs. Compte tenu des effectifs rduits du personnel du centre de documentation, et justement parce que la mise en place de la GED a vocation librer du temps aux documentalistes, il parat difficile de demander ces derniers dorganiser une surveillance rgulire et alterne de cette salle de consultation, dans lhypothse o sa frquentation connatrait une nette hausse. Ensuite se pose un autre problme : celui des impressions ventuellement demandes par les visiteurs. Pour des raisons juridiques, lies au droit de reproduction et au droit dauteur, il est exclu dautoriser le visiteur faire des copies lectroniques des documents, ni mme de lui transmettre par mail le moindre document numris. Les aspects juridiques de ce projet de dmatrialisation, et notamment la question du droit dimpression partir dun panorama de presse lectronique panoramas qui composent majoritairement les dossiers thmatiques des dossiers de la publicit seront traits en dtail dans la partie 3.9 de cette tude. Dans lhypothse o les clauses juridiques du projet donneraient la possibilit aux visiteurs dobtenir des impressions des documents stocks dans la GED on verra plus loin que cela reste trs improbable deux stratgies sont possibles : - Le visiteur serait autoris dclencher les impressions de faon autonome partir du poste de consultation. Dans ce cas, faudrait-il mettre en place un outil logiciel pour comptabiliser le nombre dimpressions effectues par le visiteur, ou plutt continuer fonctionner sur un mode de confiance comme cest le cas actuellement ? - Le visiteur ne serait pas autoris dclencher les impressions de faon autonome, systme qui parat le plus sr et le plus probable. Dans ce cas, la documentaliste devra prendre sur

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 90 / 218

son temps pour raliser les impressions, et la dmatrialisation ne lui apportera sur ce point prcis aucun bnfice. En conclusion, sur le plan strictement de laccueil du public externe, il est trs difficile de se prononcer sur lopportunit et la pertinence de dmatrialiser en termes de rduction de charge de travail pour les documentalistes. En fait, la rponse est aussi conditionne par la volont et la politique que le centre souhaite mettre en place, tant entendu que le fonds documentaire accumul est prestigieux, rare, et peut tre un peu sous exploit au regard de sa valeur.

3.5.5 La prennit du fonds numris, et la question du stockage physique des donnes


Tout dabord, avant de traiter de la stratgie et des choix ventuels oprer en termes de stockage informatique, il faut bien entendu souligner le fait que les donnes qui auront t numrises par le muse ne devront pas pouvoir par la suite tre modifies ou dtruites accidentellement par une opration logicielle. La solution de GED adopte devra donc tre capable de mettre en place des identifications daccs et la cration des profils utilisateurs. Ensuite, dans toute tude pralable un projet de dmatrialisation, il faut sattacher bien analyser la question de la prennit des supports de stockage . Cet aspect du projet est sensible et relve de comptences techniques. Il devra par consquent tre trait et gr par la direction des systmes informatiques. Il est galement ncessaire de souligner que cette question de la prennit des supports nest pas directement lie celle du choix de la solution de GED, puisque les applications actuellement proposes sur le march de la dmatrialisation sont compatibles avec les principaux supports de stockage existant. Le choix dun support est important dans la mesure o il conditionne la vitesse laquelle on peut accder aux documents, ainsi que leur condition de conservation. Pour concilier ces deux impratifs, il est en gnral indispensable de combiner les supports optiques et magntiques.

Stockage sur support magntique


Compte tenu de lespace mmoire trs important que pourrait reprsenter le corpus numrique des dossiers thmatiques, les supports magntiques envisags pour ce projet sont les disques durs et les bandes. Les disques durs assureront la consultation on-line de la base de donnes documentaire du systme GED assurant une vitesse leve de transmission et un grand espace mmoire. Ils
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 91 / 218

seront monts sur des systmes RAID, eux-mmes implants sur des serveurs Web. Ces derniers pourront alors offrir de trs grands espaces mmoires, de lordre de plusieurs traoctets. Actuellement, cest ce type de systme qui est adopt par le service informatique des Arts Dcoratifs pour lexploitation du fonds numris des catalogues et des collections consultables, pour le moment, uniquement partir de Micromuse ou de Mobytext. Le muse est en effet dot dun systme RAID 5 qui contribue assurer, en partie du moins, la prennit de ce fonds numris. Mais soulignons que cette garantie de scurit et de fiabilit apporte par le systme RAID ne concerne que les serveurs dits de production , c'est-dire ceux destins lexploitation rgulire du fonds (requtes, interrogations, modifications, consultations, etc). Ce sont ces machines qui sont sollicites lors de toute utilisation de la base de donnes partir dun poste de consultation. Or, la problmatique des serveurs de production du muse doit tre spare de celle de larchivage sur le long terme - et ventuellement de la mise en place dun vritable SAE (systme darchivage lectronique) rpondant la norme NF Z42013 sur larchivage numrique. Les bandes magntiques sont, quant elles, prconises ici essentiellement pour programmer des sauvegardes systmatiques et priodiques des donnes moyen terme, autrement dit des back up . Mais ces oprations rgulires de sauvegarde appartiennent, l encore, une problmatique diffrente de celle de larchivage numrique sur le long terme et dj aborde plus haut. Actuellement, le dispositif informatique du muse nest pas dot de cette technologie de bandes magntiques. Nanmoins, des oprations de sauvegarde sont rgulirement menes sur des serveurs - donc sur la base de disques durs - de rplication - les Arts Dcoratifs disposent prcisment de deux serveurs indpendants du serveur de production et ddis la sauvegarde. Mais, conscient que les serveurs disques durs nont pas vocation la sauvegarde des donnes moyen terme, il est prvu que les Arts Dcoratifs se dotent trs prochainement de bandes magntiques de type LTO. Il faut souligner que les bandes magntiques ont en outre le grand avantage dtre amovibles, elles peuvent donc tre stockes par prcaution dans un lieu physique extrieur au muse, ou tre dplaces en urgence en cas dincendie par exemple. En conclusion, il est trs important de rappeler encore une fois que ni les disques durs ni les bandes ne sont en principe employs pour archiver des corpus numriques sur le long terme, compte tenu de leur fragilit. Ces deux supports sont par nature rinscriptibles et noffrent pas de garanties suffisantes pour la conservation des donnes. Cette dernire est en gnral plutt assure par des supports optiques.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 92 / 218

Conservation sur support optique


Pour ce projet, il est prconis dinvestir dans lachat de DON WORM pour archiver. Cest galement ce que dit la norme NF Z42013 sur l'archivage numrique propos des processus et des matriels qui doivent tre utiliss. Cette norme prcise, dans son paragraphe 3.7, que le support de stockage adopt doit tre un support optique pour lequel l'criture des bits codant les donnes se fait par transformation irrversible d'un ou plusieurs constituants de ce support . Elle dsigne donc clairement les supports optiques de type WORM. Dans le cadre de la ralisation de cette tude, des entretiens avec le directeur informatique ont eu lieu. Et il m'a paru trs important d'y aborder avec lui cette question de l'archivage du fonds numris sur le long terme . A ce propos, il ne voit pas rellement l'utilit, disons plutt l'obligation, de procder un stockage sur support optique de type WORM. En effet, il considre que le stockage des donnes sur les serveurs - avec tout de mme une double rplication - des Arts Dcoratifs, et bientt sur des bandes magntiques extractibles, serait suffisant. Cette position est naturellement dfendable, nanmoins il me semble que, si les serveurs ou les bandes prsentent des garanties peu prs suffisantes pour stocker et consulter des documents numriques moyen terme, les disques optiques gardent eux toute leur pertinence pour l'archivage des corpus figs trs long terme. Dans cette perspective, cette tude prconise donc un archivage priodique des dossiers documentaires dmatrialiss sur des supports de type DON WORM. Il restera dterminer la dure entre deux oprations d'archivage sur support optique, en fonction de la vitesse d'alimentation des dossiers mais surtout des moyens - en termes de temps et d'argent - informatiques disponibles. Enfin, sur le plan de la prennit des supports numriques, on peut citer comme exemple la stratgie qui a t adopte par lINA 32 . Ce dernier a prvu de recopier ses stocks de donnes sur de nouveaux supports tous les 10-15 ans, afin danticiper et de prvenir tout dbut de dgradation physique des supports, et qui pourraient amener la perte de documents archivs.

3.5.6 La gestion des processus, ou workflow


La gestion des processus, ou workflow , est un aspect stratgique de la GED. Mais quen est-il rellement des besoins du centre de documentation sur ce point ?

32

Institut National de lAudiovisuel, www.ina.fr

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 93 / 218

Pour rpondre cette question, il convient : - danalyser le flux des tches ou des actions successives raliser pour dmatrialiser les documents, et didentifier les diffrentes personnes intervenants dans ces actions ; - de dfinir, si elles existent, les grandes tapes de la vie dun document numris (validation, modification, publication,etc) ; Concernant les dossiers thmatiques de la documentation publicit, et pour le traitement au fil de leau, on a vu que toutes les tapes de la dmatrialisation dun document seront prises en charge par le seul documentaliste responsable du fonds : acquisition numrique, indexation lectronique, classement lectronique, stockage numrique et publication. Par exemple, les traitements ventuellement ncessaires et pralables son intgration dans la GED, comme lamlioration colorimtrique, le recadrage, etc, seraient tous effectus en une seule fois et de manire dfinitive par la documentaliste. Sans que cela ne ncessite lintervention ultrieure dune autre personne. A priori, ni les conservateurs, ni les assistants conservateurs, ne seront amens numriser, archiver, modifier ou publier eux-mmes un document. Leur utilisation de la GED se limitera donc aux recherches et aux consultations. Une fois le document intgr et stock dans la base de la GED, il nest prvu ou planifi aucune modification sur ce dernier en tout cas si lon se calque sur le systme papier actuel o les photocopies sont seulement consultes, et jamais modifies ni reclasses. Ainsi, concernant la numrisation et la gestion des dossiers documentaires, et au regard des besoins et des mthodes de travail actuels, il apparat que lintrt de la GED pour le centre de documentation ne rsiderait donc pas fondamentalement dans la ncessit de mettre en place un outil de gestion lectronique des processus qui orchestrerait la vie dun document numris , c'est--dire un enchanement de tches initi par un lment dclencheur. Dans lorganisation actuelle du travail la documentation publicit, il nexiste pas de vritables tapes de dcision , de temporisation ou de conditions qui ncessitent et entranent la circulation organise et orchestre - de faon transverse aux structures et fonctions du centre de documentation - des documents stocks dans les dossiers documentaires. Par exemple, aucune des fonctions suivantes : - spcifications des procdures ; - filtres informationnels ; - gestion de la dure des chances ; - retour dinformations ou alertes ; nest vritablement requise pour le projet.
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 94 / 218

Ceci tant pos, de telles fonctions sont pourtant disponibles dans la majorit des logiciels de GED actuellement sur le march, y compris les moins puissantes. Cette tude, mme si elle reste centre autour des dossiers documentaires de la documentation publicit, a aussi pour objectif dessayer danticiper un futur largissement de la dmatrialisation tout le centre de documentation. Dans cette perspective, les possibilits dun module de workflow dans loutil de GED pourraient faire natre dans le futur de nouvelles formes de collaboration entre les documentations, et permettre quelques volutions dans les mthodes de travail. Par exemple, on peut imaginer une possible forme de mutualisation des abonnements toutes les documentations du centre. La rception dun numro de priodique au format PDF par une documentation pourrait faire lobjet dune copie / renvoi automatique, ou bien dun simple partage en ligne, aux autres documentations concernes par ce priodique. Autre piste pour lexploitation dun module de workflow : celui dun partage automatique des documents qui ont trait des tudes ou des recherches communes plusieurs documentations. Les filtres informationnels, et les alertes, pourraient ainsi permettre lenvoi automatique dune copie ou dun signal tous les documentalistes concerns, chaque fois quun document inject dans la GED est susceptible de les intresser. Cette programmation de lautomatisation pourrait se faire laide de listes de mots cls tablis par chacun des documentalistes. Enfin, on peut aussi soumettre lide que, ds la mise en activit dun systme de GED, la fonction de retour dinformations dun module de workflow pourrait permettre de tenir des statistiques sur les taux de consultation des documents. Ceci permettrait notamment de connatre quels sont les documents les plus consults par les conservateurs ou par le public et quels sont les dpartements et les documentations les plus utilisateurs de la GED.

3.5.7 Labolition des contraintes spatiales, et de nouvelles formes de collaborations et dchanges entre les conservateurs et les documentalistes
Un des trois concepts fondateurs de la dmatrialisation est : amliorer la qualit et la rapidit des changes entre personnes par lutilisation de moyens de communication, tels que le courriel ou les espaces de travail partags. Pour ce projet, lexploitation dune GED pourrait en effet faciliter les changes dinformations et apporter de nouvelles possibilits de collaborations entre les documentalistes et les conservateurs. Les documents tant dmatrialiss et en ligne, on peut par exemple imaginer que les conservateurs puissent les consulter depuis leur poste informatique, et sans se dplacer physiquement dans les documentations concernes - sous rserve que les Arts Dcoratifs aient financirement les
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 95 / 218

moyens de dployer un outil de GED sur tous les postes des conservateurs. Les conservateurs pourraient ainsi formuler leurs demandes dinformations par mail ou par tlphone, et les rponses des documentalistes pourraient prendre la forme de rfrences lectroniques dans la base de la GED - par exemple des hyperliens si la GED possde une interface web. Bnficiant dune nouvelle forme de ractivit induite par loutil informatique, les changes et les collaborations entre la documentation et la conservation seraient potentiellement plus riches et plus dvelopps. Dune manire gnrale, dans toutes les organisations o ont t mens des projets de dmatrialisation, de nouvelles mthodes de travail ont pu clore court ou moyen terme.

3.5.8 Lopportunit dun dsherbage et dune redcouverte du fonds documentaire


La dmatrialisation est aussi envisager comme une priode pouvant tre propice et adquate non seulement au dsherbage mais aussi la redcouverte du fonds. En effet, le processus engag entranera forcment : - Louverture systmatique de toutes les botes darchives, alors que certaines ne le sont finalement que trs exceptionnellement. Cette exploitation relativement ingale des dossiers du fonds ne donne pas en fait loccasion ni la possibilit la documentaliste dvaluer le fonds dans sa globalit, ni de dsherber. - La ncessit de reparcourir et redcouvrir rapidement chaque article archiv dans les botes, condition indispensable pour procder lindexation lectronique. En effet, on rappelle que le systme papier actuel ne propose quune organisation documentaire sur la base dun plan de classement thmatique, sans aucune indexation de type de mots-cls ou thsaurus, excepts pour les articles issus du dpouillement lectronique des revues disponibles en version lectronique et indexs dans Mobytext. Il est important de souligner, dans le cadre dune organisation prcise et dune planification de la dmatrialisation, que ce dsherbage ventuel devrait forcment tre ralis par la documentaliste responsable de ce fonds spcifique la publicit, ce dernier pouvant difficilement tre apprhend par un non-spcialiste.

3.5.9 Garantir la scurit de la partie du fonds documentaire ayant une trs grande valeur de raret
Lors des entretiens, certains documentalistes ont clairement mis lavis quil serait intressant et judicieux de numriser la partie du fonds pas seulement des dossiers documentaires mais aussi certaines revues - qui possde une valeur patrimoniale et
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 96 / 218

historique particulire et trs importante. Par exemple, pour la documentation de la publicit, la numrisation de la revue Vendre est fortement souhaite. Les documentalistes voient donc aussi dans la numrisation une opportunit de prenniser la partie du fonds ayant une trs grande valeur de raret, en parant ainsi tout accident ou toute dgradation naturelle susceptible de le faire disparatre.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 97 / 218

3.6 Comptes rendus des entretiens documentalistes des autres documentations

avec

les

Des entretiens ont eu lieu avec les documentalistes responsables des diffrentes documentations du centre, au sujet de la faisabilit et de lopportunit dune dmatrialisation dune partie du fonds de ces documentations. Ces entretiens, en plus dapporter des lments concrets sur la nature, le volume, la forme et ltat de conservation des fonds archivs dans le centre, furent trs enrichissants puisquils ont notamment permis lexpression de certaines interrogations, rsistances ou rticences vis--vis dune numrisation et dune mise en place dun outil de GED. En effet, les discussions avec certaines documentalistes ont dvoil les diffrentes approches, apprhensions et attentes face larrive du document lectronique au sein dun organisme culturellement et historiquement attach au papier, et, plus gnralement, laspect des documents. Leurs tmoignages ont galement permis dobtenir certains chos sur les mmes apprhensions vis-vis de loutil informatique de la part de certains conservateurs ou assistants. Il est essentiel de recueillir de tels chos puisque ces personnels du muse seraient, en cas de mise en place dune GED comme outil de consultation pour les dossiers du centre, les premiers utilisateurs et donc les premiers concerns. Voici donc une synthse des lments les plus significatifs qui sont ressortis de ces entretiens.

3.6.1 Compte rendu de lentretien avec la documentaliste responsable de la documentation de la mode et du textile
Le fonds documentaire de la documentation de la mode et du textile comprend environ 1300 dossiers, pour la plupart consacrs aux couturiers et aux crateurs.

Principes d'usage, objectifs et volutions souhaites


L'ide et le souhait principaux de la documentaliste, en vue de la numrisation, est de rassembler tous les documents relatifs un artiste ou une collection dans un seul dossier, et ce afin que tout soit disponible d'un seul coup, avec une seule et unique recherche. A noter que les dossiers de cette documentation ne comprennent pas de sommaires d'articles renvoyant des revues ou d'autres dossiers, contrairement la publicit o l'on trouve des feuilles manuscrites qui sont des sommaires ou des listes de rfrences d'articles renvoyant des revues disponibles dans le centre de documentation. Le plan de classement des dossiers t labor au fur et mesure par des personnes
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 98 / 218

diffrentes, puisque sont intervenus sur ce fonds de nombreux stagiaires qui ont t amens prendre des initiatives. Et mme si ce plan semble plutt pertinent et efficace aux dires de la documentaliste, il nen reste pas moins quil manque forcment dun peu de cohsion. Le vocabulaire employ par les stagiaires tait parfois personnel, et il reste donc parfois un peu opaque aux documentalistes, qui ne savent pas toujours eux-mmes ce que contiennent les dossiers. Remarque et rflexion qui ont t ritres par dautres documentations au cours des entretiens. Certains dossiers ont quant eux t carrment dsorganiss, et le plan de classement d'origine boulevers, suite des travaux effectus par des stagiaires. La refonte et lamlioration du plan de classement sont donc des objectifs de la documentaliste. Ces derniers pourraient tre raliss uniquement avec laide de la GED, vu la charge de travail norme que demanderait un reclassement papier, et vu lemploi du temps extrmement serr de la documentaliste.

Consultants, visiteurs, conditions d'accs


La documentaliste est moins restrictive que ces autres collgues concernant le public autoris consulter ce fonds. Ainsi, il arrive mme que certaines personnes non professionnelles consultent le fonds. Nanmoins, le critre de slection consiste tout de mme globalement ne laisser consulter que les personnes bloques dans leurs recherches, dans l'impasse, et ne pouvant satisfaire leurs recherches que dans le centre de documentation des muses des Arts dcoratifs. Le fonds sur la mode et le textile tant unique en Europe, si ce nest dans le monde, le centre de documentation est souvent la dernire alternative pour trouver ce qu'ils cherchent. La documentation de la mode et textile reoit ainsi plusieurs centaines de personnes par an. Concernant le public en interne, il se compose essentiellement des 3 conservateurs pour la mode, et des 3 assistants de conservation. En moyenne, ils consultent le centre de documentation une fois par semaine.

Problmatique, enjeu et gain ventuel d'une dmatrialisation


Aprs avoir dcouvert et valu, notamment au travers de voyages l'tranger, d'autres fonds portant sur la mode et le textile, la documentaliste a pris conscience du caractre unique et exceptionnel de sa documentation aux Arts Dcoratifs. Elle voit donc l une vidente opportunit d'exploiter commercialement ce fonds. Reste savoir sous quelle forme et quelles conditions ? Selon elle, de nombreuses personnes dans le monde souhaiteraient consulter leurs dossiers documentaires, et ventuellement en dupliquer une partie. Ils seraient prs pour cela dbourser de fortes sommes dargent, qui pourraient venir amortir le processus de dmatrialisation. Cela tant pos, il convient daborder la question pineuse et pourtant essentielle du droit

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 99 / 218

dauteur et de la proprit intellectuelle. Question qui se rpte pour toutes les autres documentations du centre qui seraient intresss et volontaires pour mettre une partie de leurs dossiers documentaires en ligne sur internet. Sur ces questions de lopportunit dune exploitation commerciale de leur fonds, qui passe l aussi forcment par une numrisation et une mise en ligne des documents, les documentations de la publicit et de la mode sont lunisson. Lexplication tant que ce sont les deux documentations les plus largement sollicits et contacts par le public extrieur. Nanmoins, malgr tout cet intrt et cette motivation, vu la quantit de documents concerns et le potentiel d'exploitation, ce travail d'valuation et de ngociation juridiques ncessiterait l'emploi temps plein d'une personne qualifie et comptente dans ce domaine. De mme, une tude pralable et titre purement exprimentale, portant par exemple sur un chantillon de documents reprsentatifs - un catalogue de collections, une photo, etc -, devrait tre mene afin de sonder et dinterroger les ventuels dtenteurs des droits. La documentaliste responsable du fonds de la mode et du textile, en place depuis 5 ans, manque de temps et na jamais pu vritablement commencer ce travail de prospection et de sondage, ni faire lbauche dun cahier des charges. Elle est submerge par les tches quotidiennes, ce qui l'amne sans cesse repousser cette tude qu'elle souhaiterait ensuite transmettre sa direction. Lors de la prparation des expositions, les assistants consultent beaucoup le centre de documentation, et ralisent de vritables dossiers de prparation constitus

principalement de photocopies d'originaux - revues, catalogues, livres, look book. Ces photocopies sont souvent en couleurs, et les assistants ont l'habitude de travailler avec des dossiers papiers parfois trs volumineux. La prparation d'une exposition peut mener la constitution de dossiers de plus de 1000 pages. Ces dossiers sont ensuite de vritables mines d'or pour les consultants extrieurs qui voient ainsi toute la gense de l'exposition et tout le travail important de documentation effectu par les assistants. Daprs la documentaliste, la numrisation de ces dossiers et leur exploitation commerciale pourraient galement faire lobjet dun projet trs sduisant. Enfin, contrairement la documentation de la publicit, les dossiers thmatiques sont moins consults que les dossiers ddis aux crateurs ou aux couturiers dits dossiers dartistes . Cest un exemple qui vient rappeler que les priorits et les stratgies, en termes de planning de dmatrialisation, pourraient donc sensiblement varier selon les documentations. Toujours en termes de priorit, une initiative serait galement considrer, qui plus est commune celle-ci toutes les documentations : la numrisation et la mise en ligne dune
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 100 / 218

partie des dossiers d'uvres. Ces dossiers sont la proprit du muse et pourraient donc tre librement exploits, du moins une partie des documents compris dans ces dossiers - certains tant tout de mme dordre strictement confidentiel. Cette mise en ligne pourrait videmment intresser beaucoup dacheteurs en France ou l'tranger. Ainsi, dans le cas de ventes d'objets similaires ou proches de ces uvres, un acheteur pourrait saisir l'opportunit de consulter en ligne un dossier d'oeuvre afin de mieux estimer son futur achat. Une suggestion a galement t faite elle aussi relaye par dautres documentalistes -, propos des revues trs anciennes, et qui sont donc libres de droit - comme les revues du 19me. Autre proposition, la salle des compactus du centre de documentation contient aussi des ressources d'informations secondaires, entirement labores par des personnels des Arts Dcoratifs. Ces documents pourraient ainsi faire lobjet dune dmatrialisation libre de droits. Par exemple, une armoire contient des fiches bibliographiques, classes par ordre alphabtique, portant sur des marques ou des crateurs, et renvoyant des revues de mode. Ces fiches manuscrites pourraient faire l'objet d'une retranscription sur ordinateur et tre mises en ligne, afin de renseigner un public dsireux de retrouver la trace de certains articles mais ne sachant pas comment s'y prendre. On trouve aussi un trs intressant dictionnaire de la mode , lui aussi entirement labor par les personnels du muse, et qui pourrait faire l'objet d'une mise en ligne.

Conclusion
Excepte la documentation de la publicit et sur laquelle porte plus spcifiquement cette tude -, il est ressorti des entretiens que la documentaliste la plus optimiste et la plus motive pour ce projet de dmatrialisation tait celle de la documentation de la mode et du textile. Cependant, malgr un trs vif enthousiasme, elle reste toutefois interrogative et dans lexpectative quant aux moyens et lengagement quengagerait le muse dans lhypothse du lancement du projet. Sachant quelle est toute seule pour grer toute la documentation, et quil nexiste mme pas actuellement de rfrencement complet des livres de la documentation mode et textile dans Mobytext. Elle pense donc que le principal obstacle la dmatrialisation est le manque de moyens humains. Selon elle, lindexation et le classement lectroniques ne peuvent clairement pas tre pris en charge par une seule personne, vu le volume du fonds. Le premier avantage quelle voit dans la dmatrialisation est celui dune voie possible la rentabilit de sa documentation. Comme deuxime avantage, elle y voit aussi un gain de place qui pourrait tre crucial dans le futur.
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 101 / 218

Enfin, sur le plan de l'usage, elle semble en complet accord avec les autres documentalistes sur le fait que les consultants n'auraient pas une relle prfrence consulter les documents en version lectronique plutt quen version papier ce serait mme plutt linverse daprs elle.

3.6.2 Compte rendu de lentretien avec la documentaliste responsable de la documentation du 20me sicle (le design, les crateurs, le bijou, la cramique)
Le fonds de cette documentation est dj trs important, malgr qu'il n'ait t constitu que depuis les annes 90. Il comprend aujourdhui plus de 1500 dossiers, soit plusieurs centaines de milliers de pages de documents.

Principes d'usage
Ils sont assez similaires ceux de la documentation de la mode et du textile. Le souhait de cette documentation est aussi de pouvoir retrouver tous les documents numriss relatifs un artiste ou un objet, dun seul coup, aprs une seule et mme recherche. Les dossiers de cette documentation ne comprennent pas de sommaires d'articles renvoyant des revues ou d'autres dossiers. Mais, par exemple, lorsque les articles concernant un artiste sont trop longs - plus d'une dizaine de pages -, ils ne sont pas photocopis et stocks, mais seulement rfrencs dans Mobytext - via une indexation assez fine. La dmatrialisation permettrait ainsi de contourner ce genre de contrainte lie au volume, et lon voit bien, avec cet exemple, la fois les limites de larchivage papier mais aussi celles dun outil documentaire comme Mobytext - destin un simple catalogage et non la GED.

Conditions d'accs et publics


La documentaliste est trs restrictive concernant le public autoris consulter ce fonds. Seulement une soixantaine de personnes externes au muse environ consultent le fonds chaque anne. Cette documentation est, elle aussi, gre par une seule documentaliste, qui ne peut donc pas largir son public. Dune manire gnrale, les demandes de consultation sont renvoyes vers la bibliothque qui dispose d'un fonds d'ouvrages important et dune photocopieuse. Les consultants internes sont essentiellement les personnels du service des publics, les conservateurs du dpartement, les personnels du service de presse ainsi que la directrice scientifique.

Problmatique, enjeu et gain ventuel d'une dmatrialisation


Cet entretien fut rellement trs intressant et trs instructif. En effet, son approche et son

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 102 / 218

avis, la fois concernant lopportunit et lintrt d'une numrisation au centre de documentation mais aussi la faisabilit de celle-ci, sont trs clairs et bien tranchs. Plus particulirement, sur la question des moyens humains le manque deffectifs -, et propos des solutions envisages, elle a sembl trs lucide et sest montre dune grande franchise. Tout dabord, comme critre le plus fondamental, elle met en avant et souligne le travail trs lourd et vraiment imposant qui devrait accompagner une dmatrialisation rtrospective du stock des dossiers. Et ce mme si cette dernire se faisait petits pas et de manire partielle. Les moyens humains faisant selon elle cruellement dfaut, et tant seule en charge de cette documentation, elle considre comme impossible et irraliste le fait de devoir consacrer une ou deux journes par semaine la dmatrialisation rtrospective. Et propos des solutions alternatives, sur le plan du recrutement, qui pourraient tre envisages par le centre de documentation pour dmatrialiser massivement, elle sest montre plutt rserve et sceptique. Ainsi, le recrutement de personnels en travail temporaire et extrieurs au muse ne semble pas avoir sa faveur ni son approbation. Dans le cadre dune dmatrialisation rtrospective et massive, les deux solutions pour recruter des personnels extrieurs au muse sont les suivantes : - une premire solution rsiderait dans lengagement dun ou plusieurs stagiaires pour des priodes de plusieurs mois. Ces stagiaires ne seraient pas indemniss pour ces travaux pourtant rptitifs et fastidieux. La documentaliste a clairement exprim le fait que, dune manire gnrale, cette option consistant faire appel de faon rpte des stagiaires non indemniss ne lui convenait pas sur un plan dontologique ; - la deuxime solution consisterait faire appel des personnels employs dans le cadre de CDD, ce qui lui parat plus quimprobable vu le trs faible budget allou au centre de documentation ; Lavis de la documentaliste sur la stratgie employer pour ce projet est le suivant : si on optait pour une numrisation partielle des dossiers documentaires, elle considre que la meilleure solution serait de numriser partir des revues originales et non des photocopies dj stockes. Ce qui permettrait, selon elle, une numrisation de meilleure qualit avec notamment une indexation en texte intgral plus fiable. Concernant sa documentation, les revues prdominantes et fondamentales dans ses dossiers seraient Intramuros et Crafts , quil faudrait donc numriser en priorit. Sur le plan du gain potentiel pour les utilisateurs, la documentaliste n'est pas persuade que la dmatrialisation apporterait un grand bnfice et un meilleur confort aux consultants internes. Elle considre que les usages et les habitudes sont dj en place depuis trs
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 103 / 218

longtemps, et que les consultants internes connaissent assez bien le fonds et la disposition des dossiers. Et labolition des contraintes spatiales ne serait pas quelque chose susceptible de franchement les sduire. Elle estime aussi que l'accs une version numrique des documents ne serait pas forcment synonyme dune meilleure visibilit ou dune meilleure circulation de l'information notamment entre les conservateurs et les documentalistes. Elle semble en revanche convaincue de lintrt de dmatrialiser pour librer de la place sur les tagres.

Conclusion
Globalement, la documentaliste de cette documentation ne considre pas la dmatrialisation comme tant une tape actuellement indispensable pour le centre de documentation. Et surtout, cette opration lui parat irralisable au regard des moyens humains et budgtaires aujourdhui sa disposition.

3.6.3 Compte rendu de lentretien avec la documentaliste responsable de la documentation Art nouveau Art dco
Le fonds des dossiers documentaires de la documentation Art nouveau Art Dco porte sur les oeuvres du 19me sicle et aussi beaucoup sur l'exposition universelle des Arts dcoratifs Paris en 1925. Les seuls consultants internes sont le conservateur du dpartement et son assistant, ainsi que des confrenciers mais de faon plus sporadique. Quelques visiteurs externes sont accueillis, mais cela reste assez exceptionnel. Ils sont pour la plupart redirigs vers la bibliothque. En effet, la documentaliste sattache renseigner les chercheurs sur les uvres des collections, alors que la bibliothque peut rpondre toutes les recherches gnralistes sur les Arts dcoratifs. La documentaliste ne semble pas trs enthousiaste au sujet dune ventuelle numrisation. Elle est trs attache au papier et ne semble pas vritablement prte pour un passage la documentation lectronique. Elle imprime par exemple systmatiquement pour lire ou consulter, et estime que les crans - plus particulirement ceux qui quipent le muse - ne sont pas vraiment adapts la consultation mais plutt la saisie en base et pour le rfrencement. Ainsi, alors que le muse est abonn aux versions lectroniques et papier de La Gazette de lhtel Drouot, elle consulte toujours systmatiquement la version papier. Elle reste ainsi convaincue que lordinateur nest pas appropri pour la visualisation des photos, et que rien ne peut remplacer les tirages sur papier.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 104 / 218

Elle explique galement que, mme si elle disposait de tous les priodiques en version lectronique, elle prfrerait continuer fonctionner avec le systme papier, en imprimant les PDF et en rangeant ces impressions dans les botes darchives. Elle ne souhaite donc pas initier un dpouillement lectronique comme cela est dj un peu pratiqu par la documentaliste de la publicit. En revanche, elle serait intresse par labolition de certaines contraintes spatiales grce la dmatrialisation. Elle aimerait notamment ne plus avoir se dplacer la bibliothque, dans lhypothse o cette dernire numriserait les priodiques qui l'intressent. Sans toutefois que cela ne vienne remettre en question le systme papier actuel dune manire gnrale. Mme si la dmatrialisation ne lui semble pas tre un projet vraiment prioritaire et stratgique pour sa documentation, elle conoit nanmoins Internet et le monde numrique comme un outil essentiel pour son travail. Par exemple, elle considre les bases de donnes spcialises comme une de ses sources dinformations fondamentales, et les utilise trs souvent. Trs peu de visiteurs externes au muse sont invits consulter le fonds de cette documentation, seulement une vingtaine par an. La documentaliste n'a pas vraiment davis, dopinion ou dintuition propos de l'impact sur le fonds que pourrait avoir la numrisation en termes de visibilit ou de popularit. Elle na pas non plus vraiment rflchi aux possibilits que pourrait offrir la dmatrialisation pour recevoir du public sans quelle ne doive interrompre ses tches ou tre mobilise. En conclusion, malgr un intrt trs modr envers la dmatrialisation, elle serait trs intresse par la numrisation des priodiques anciens de la bibliothque, quelle consulte frquemment. Elle estime ainsi que cest plutt le rle de la bibliothque des Arts Dcoratifs, et non celui du centre de documentation, de prendre en charge cette dmatrialisation. Les priodiques stocks dans la documentation qu'elle utilise le plus sont La gazette de lhtel Drouot, Le journal des Arts, et les catalogues des ventes.

3.6.4 Compte rendu de lentretien avec la documentaliste responsable de la documentation du 17me et du 18me
Le fonds documentaire de cette documentation nest pas trs volumineux et assez jeune, puisqu'il a commenc tre constitu seulement en 2002. Les seuls consultants en interne sont les conservateurs, mais ils utilisent en fait trs peu cette partie du centre de documentation. Quelques visiteurs externes au muse sont accueillis la
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 105 / 218

documentation, mais cela reste assez exceptionnel. La plupart des demandes sont rediriges vers la bibliothque, qui rpond aux demandes nayant pas directement de liens avec les uvres des collections du muse. Les revues les plus consultes sont La Gazette de Drouot (qui fait galement lobjet dun abonnement en version numrique) et L'estampille - L'objet d'art. La documentaliste consulte galement beaucoup les bases de donnes spcialises, qui contiennent selon elle beaucoup d'informations. Globalement, lapprhension et la position de cette documentation vis--vis dun projet de dmatrialisation sont assez proches de celles de la documentation Art nouveau Art dco. La documentaliste n'est pas trs enthousiaste lide dune numrisation massive. Elle ne semble pas y voir une ncessit absolue ni un intrt substantiel pour le centre de documentation. Cest une documentation qui reste donc, elle aussi, fortement attache au systme papier actuel.

Bilan propos de ces entretiens


Il apparat que le centre de documentation, disposant de moyens humains et financiers assez limits, pare au plus press et au plus urgent, grant le quotidien sans pouvoir rellement anticiper ni entamer un rel travail de rflexion sur des pistes futures dvolution ou de mutation en matire de numrique. De plus, les mtiers et les professions propres aux muses des Arts Dcoratifs sont, de manire gnrale, culturellement et historiquement lis et attachs au papier. Un facteur qui est assez peu favorable une dmatrialisation rapide et bien vcue par tous. Concernant les documentalistes, le gain de place potentiel dans leur documentation semble tre un critre en faveur de la dmatrialisation. En revanche, concernant les conservateurs, labolition des contraintes spatiales ne semble pas tre un critre dterminant pour engager une dmatrialisation. En effet, une grande majorit dentre eux ne voit aucun inconvnient se dplacer au centre de documentation et rechercher les documents parmi les tagres.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 106 / 218

3.7 Prconisations techniques complmentaires


Sur le plan technique et technologique, il est ncessaire deffectuer une vraie dmarche qualit pour ce projet. Ce qui suppose dtre capable de faire une distinction nette entre le besoin satisfaire et la solution choisie pour satisfaire ce besoin. Il faut donc identifier le juste besoin sans aller au de ni au-del. Dans cette optique, cette tude livre ici quelques prconisations techniques complmentaires qui aideront dans le choix des futures solutions.

3.7.1 En matire de scanner


La capture numrique est la premire phase du projet de dmatrialisation, et elle requiert lutilisation dun numriseur. Actuellement, le centre de documentation est dot de photocopieurs. Ces machines offrent des possibilits de numrisation des documents, et peuvent tre en thorie connectes presque tous les logiciels de GED sur le march. Ainsi, certains organismes procdant une dmatrialisation rgulire mais trs modre - c'est--dire sans traitement dun gros volume de documents - utilisent les fonctionnalits de leurs photocopieurs, sans investir dans des scanners ddis et spcialiss. Mais cette solution parat peu recommandable dans le cadre de notre, pour les raisons suivantes : - Tout dabord, les capacits de numrisation, de traitements, et de paramtrages des photocopieurs du centre de documentation sont moins volues que celles des scanners vendus actuellement et conus pour des projets de dmatrialisation. Il serait donc regrettable de disposer dun puissant outil de GED sans pouvoir exploiter toute la puissance des scanners actuels. - Ensuite, il a t voqu plus haut la possibilit pour le centre de documentation de procder des oprations rtrospectives de numrisation du stock des dossiers documentaires - en quelque sorte des priodes intenses et massives de dmatrialisation -, qui pourraient tre notamment mises en place avec le recours des stagiaires. Dans cette hypothse, il serait ncessaire de pouvoir disposer plein temps dun scanner spcifique ces oprations, et sans devoir mobiliser un ou plusieurs photocopieurs utiliss quotidiennement par les diffrents personnels des muses.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 107 / 218

Ltude de faisabilit a vocation fixer une premire slection de scanners assez large qui pourraient potentiellement rpondre aux besoins en termes dacquisition numrique. Mais il existe actuellement sur le march des scanners une multitude de produits, et loffre nest donc pas facile apprhender. Il faut aussi souligner galement un point important : dans nombre de projets de dmatrialisation, le choix final du scanner est trs fortement conditionn par une proposition faite par lditeur de la solution dOCR ou de GED retenue.

3.7.1.1 Le choix du meilleur segment de scanners


Parmi la multitude de marques existant sur le march, prsentant chacune de trs nombreux modles, il a t dcid dans le cadre de cette tude de faisabilit dexclure les imprimantes mutifonctions, qui sont plus cibles pour le grand public. Malgr tout, on se rend compte que la frontire est parfois floue (surtout pour la gamme des scanners de bureau) entre les produits destins aux professionnels et ceux pour le grand public (qui la plupart du temps font les mmes tches, mais plus lentement). Loffre des scanners peut se dcouper actuellement en neuf segments, et il faut dans un premier temps bien cibler le segment le plus adapt au projet du centre de documentation. Voici les neuf segments : - les scanners de bureau (jusqu 29 pages par minute) ; - les scanners dpartementaux (de 30 79 pages par minute) ; - les scanners de production ( partir de 80 pages par minute) ; - les scanners rseau ; - les scanners de chques ; - les scanners de livres ; - les scanners de photos ; - les scanners micrographiques ; Concernant la numrisation au fil de leau des priodiques originaux, on a vu que la vitesse dalimentation des dossiers thmatiques tait modre. Et dans lhypothse dune dmatrialisation rtrospective du stock des dossiers thmatiques, en interne, elle se fera plutt de manire ponctuelle, par lots de botes darchives, et sans ncessiter une haute vitesse de numrisation.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 108 / 218

Ainsi, le produit recherch pour ce projet appartiendra au segment des scanners dits de bureau 33 .

3.7.1.2 La technologie des capteurs : gnralisation des CCD en matire de GED


Les deux technologies de capteurs existant actuellement, savoir le CCD et le CMOS, ont t prsents dans la partie 2.3.1 consacre lacquisition numrique. Actuellement, tous les scanners ddis la GED documentaire notamment ceux appartenant au segment des scanners de bureau- utilisent des capteurs CCD dernire gnration. Cest donc cette technologie qui est prconise pour notre projet. Nanmoins, il nest pas inutile de donner ici quelques petites prcisions sur ce qui diffrencie ces deux systmes optolectroniques, notamment sur la question de lentretien et de la maintenance : Avantage du CCD : en cas de panne les lments dfectueux peuvent tre changs indpendamment les uns des autres. Inconvnient du CCD : la ncessit dun petit temps de prchauffage pour tre oprationnel. Avantage du CMOS : le systme est moins consommateur dnergie que la technologie CCD, et ne ncessite aucun temps de prchauffage pour tre oprationnel. Inconvnient du CMOS : en cas de panne, lensemble formant un tout doit tre chang dans son intgralit.

3.7.1.3 Les caractristiques fondamentales


Afin de mieux cerner loffre matrielle et de faciliter la slection, on sest ensuite attach dfinir et analyser le plus prcisment possible toutes les caractristiques fondamentales qui sont prconises pour le scanner.

- Le format dalimentation
Le scanner devra pouvoir numriser aux formats A4 et A3.

- Glace dexposition et chargeur ?


Le scanner devra disposer absolument dune glace dexposition au format A3, pour la numrisation plat des priodiques originaux relis.

Cf. Scanners de bureau. Archimag, 2008, La dmatrialisation : guide pratique, p. 40. ISSN 07690975 La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

33

Page 109 / 218

Mais, si la documentation de la publicit envisage aussi de dmatrialiser, en interne et sur une priode relativement courte, tout le stock des dossiers thmatiques au format papier, alors le scanner devra aussi autoriser la numrisation par dfilement et disposer pour cela dun chargeur. Or actuellement trs peu de scanners cumulent les deux technologies cites plus haut. En effet, les scanners disposant dune vitre dexposition appartiennent la catgorie dite des scanners plat alors que les scanners disposant dun chargeur appartiennent eux une autre catgorie dite des scanners dfilement . Ces deux catgories tant bien distinctes sur le march actuel, trs peu de scanners intgrent et disposent des deux technologies en mme temps. Le prix de ces produits est par consquent toujours trs lev. Le choix du scanner sur ce point sera donc en fait compltement dict et conditionn par la stratgie quaura fix le centre de documentation en matire de dmatrialisation : - Si on dcide ne pas procder une dmatrialisation rtrospective du stock des dossiers thmatiques, mais plutt de continuer exploiter le fonds papier dj existant, alors un scanner plat suffira. Linconvnient dune exploitation simultane dun fonds papier et dun fonds lectronique semble tout de mme trs pnalisant, et cette solution apparat donc tant seulement provisoire. Ce point sera dailleurs abord plus largement dans la partie 3.7 consacre aux contraintes et aux stratgies de la dmatrialisation. - A linverse, si la documentation publicit dcide de mener en parallle, et ce ds le dbut du projet, une dmatrialisation au fil de leau du flux entrant et une dmatrialisation rtrospective du stock des dossiers, alors il sera trs certainement indispensable dacqurir un produit muni aussi dun chargeur et permettant la numrisation par dfilement. Plus prcisment, si la dmatrialisation rtrospective est prvue pour tre massive et intense, alors le chargeur sera obligatoire. En revanche, si cette dmatrialisation rtrospective plutt envisage de manire trs ponctuelle et trs lgre par exemple, numriser un dossier thmatique qui serait particulirement demand et consult par les utilisateurs -, alors lopportunit et lutilit dun chargeur et dun dfilement automatique devront tre discuts et valus avant de se prononcer pour un choix final. Dans le doute, et sans stratgie arrte, le centre de documentation devra se doter dun produit cumulant la technologie du scanner plat et celle du scanner dfilement.

- La rsolution de numrisation
On a vu quil sagit proprement parler de la prcision du scanner, et quelle sexprime en points par pouce (dpi).

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 110 / 218

Pour la numrisation des dossiers documentaires, le scanner devra pouvoir numriser avec des rsolutions comprises entre 300 et 400 dpi.

- Le mode de numrisation
Cela correspond lensemble des fonctionnalits que propose le scanner, et qui sont accessibles depuis le logiciel de numrisation pour le paramtrage du scanner. Le scanner devra pouvoir numriser en mode noir et blanc, en mode niveau de gris et en mode couleur. Parmi les multiples fonctionnalits qui peuvent tre thoriquement associes ces modes, voici celles qui sont fortement recommandes pour le choix du numriseur : - pouvoir numriser le recto et le verso ; - dtection automatique du format de page ; - correction des dsalignements ; - diminution du moir ; - dtection des pages blanches ; - prnumrisation ; - correction des gammas ; - suppression de la couleur de fonds ; Cette dernire fonctionnalit est particulirement importante dans le cadre du traitement OCR. En effet, une des principales causes dchec de ce dernier est la prsence dun fond de page, ou background , sur le document scann. Il faudra donc rechercher dans les fiches descriptives des produits si ce genre de systme intelligent et automatis est intgr ou non.

- La vitesse de numrisation
Ce point a dj t abord plus haut. La vitesse laquelle le scanner travaille sexprime en pages/minute. Une vitesse entre 15 et 30 pages par minute suffirait largement pour ce projet, dans lhypothse o les ventuelles oprations de dmatrialisation rtrospectives seraient assez peu frquentes (puisque sans caractre dobligation ni durgence), pas trs massives ni trs intenses qui plus est sans possibilit de mettre une place une indexation totalement automatise, except celle plein texte offerte par lOCR.

- La volumtrie
Cela correspond au volume de documents traits par jour. Le scanner devra pouvoir numriser plusieurs centaines de pages par jour - une valeur denviron 1000 pages/jour serait convenable.
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 111 / 218

- La connectique
Cela concerne les connexions entre lordinateur et le scanner. Actuellement il existe deux types de connexions, le USB 2.0 et le Firewire. Il est prconis que lordinateur pilotant le scanner soit dot dun port Firewire.

- Les caractristiques physiques


Elles sont lies au fonctionnement du scanner, comme le niveau sonore en fonctionnement, la consommation lectrique, et lencombrement. Aujourdhui les diffrences sur ce point entre les modles sur le march sont relativement minimes, et seront peu dcisives pour le choix final. A ce stade de ltude, aucune prconisation particulire nest faite sur ces caractristiques physiques, et elles seront ventuellement considres si, au final, un choix devait soprer entre deux ou trois scanners trs proches au niveau de toutes leurs autres caractristiques.

3.7.1.4 Logiciel dacquisition fourni et pilotes standardiss


Chaque scanner est livr avec son propre logiciel dacquisition, qui permet dutiliser lensemble des fonctionnalits disponibles pour produire des images. Concernant les pilotes (ou drivers) des scanners, il en existe actuellement de deux types : ISIS et TWAIN. Ces derniers sont galement toujours fournis avec le scanner et sont pilotables par tous les logiciels construits autour de ces normes. Dune manire gnrale, tous les scanners aujourdhui proposs sur le march sont facilement intgrables dans nimporte quel systme dinformation existant, et notamment avec les logiciels de GED.

3.7.2 En matire de logiciel de GED 34


Aprs numrisation et reconnaissance des documents et des caractres, il est forcment ncessaire de pouvoir grer et manipuler les fichiers rsultants de ces processus. Cest donc bien grce un outil de GED que les informations dmatrialises deviendront du contenu et seront utilisables par les utilisateurs. Les caractristiques techniques qui figurent dans les fiches commerciales des logiciels doivent tre tudies et dcryptes par le responsable informatique des Arts Dcoratifs, qui est galement le responsable du systme dinformation. Larchitecture informatique actuelle du muse se base notamment sur un OS Windows et, depuis peu, sur une base Oracle. A priori, il nexiste donc aucun problme particulier ni dobstacle majeur pour y intgrer un
A titre d'exemple, ce mmoire propose une prsentation de l'offre logicielle EverSuite - de l'diteur Ever Team -, consultable en annexe 3 la page 168. La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009
34

Page 112 / 218

logiciel de GED. Nanmoins, lors de la rdaction du cahier des charges, certains points importants devront tre analyss par la direction informatique, comme par exemple les capacits de stockage des serveurs, ou la bande passante disponible sur le rseau Ethernet. A ce stade de ltude, et en amont de la rdaction de ce cahier des charges, voici les prconisations techniques qui sont faites pour le choix 35 du logiciel de GED.

3.7.2.1 Larchitecture de la solution


En termes de spcifications logicielles, larchitecture de la solution sera de type client / serveur le poste client pouvant tre soit lourd, soit lger. Dans le cas dun client lger, lensemble des traitements applicatifs seffectue au niveau du serveur. Le principal intrt de cette architecture est la rapidit du dploiement et des mises jour qui seffectuent uniquement au niveau du serveur.

3.7.2.2 Ladministration de la solution


Cet aspect du logiciel, et les besoins dans ce domaine, doivent faire lobjet dune concertation entre le responsable du projet - du ct des documentalistes du centre de documentation - et le responsable informatique des Arts Dcoratifs. Pour assurer la scurit et lintgrit des documents, le logiciel de GED devra donc comporter une vritable interface dadministration, qui permettra notamment de configurer prcisment des droits daccs personnaliss aux utilisateurs et/ou aux groupes dutilisateurs. Cette option de gestion des rles et identits des utilisateurs est donc prconis pour la solution, puisquelle permettra non seulement de contrler et fiabiliser lutilisation du fonds documentaire dmatrialis, mais aussi de coordonner et surveiller prcisment la production de documents numriss. Par exemple, on sait dj ce stade de ltude quil est prvu que le logiciel de GED soit install sur les postes informatiques de la salle de consultation, afin que les conservateurs et le public visiteur puissent consulter le fonds dmatrialis. Ces postes devront donc tre configurs de telle sorte que les documents soient accessibles uniquement en lecture, afin que ces derniers ne puissent pas tre modifis ou dtruits. Toujours sur le plan de ladministration, une option de type tableau de bord dans le logiciel est fortement prconis, puisque cela constituera une assurance pour le suivi du projet et les bilans, en offrant un retour intressant pour les documentalistes et
35

Archimag a ralis fin 2008 un tableau rcapitulant les caractristiques des principaux logiciels et modules de GED. Cf. Logiciels et modules de GED. Archimag, 2008, La dmatrialisation : guide pratique, p. 72-77. ISSN 0769-0975

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 113 / 218

ladministrateur du systme. Un tableau de bord permettra notamment de dlivrer des statistiques - sur le type de recherches effectues, la frquence de recherches infructueuses, sur la frquence par utilisateur, etc - et de mettre en place des indicateurs qualitatifs et quantitatifs. Et sur le plan de la gestion du rythme de travail, par exemple, si la stratgie adopte consiste dcoupler le dpouillement et la numrisation physique de lindexation lectronique, en procdant des phases respectives intenses, alors cet outil pourra aider quilibrer et contrler ltat davancement de ces tches interrompre par exemple momentanment le dpouillement pour se consacrer exclusivement lindexation. Enfin, la question du besoin ou non dune option de gestion des quotas despace disque est surtout du ressort du directeur informatique, et non des documentalistes.

3.7.2.3 Le gestionnaire de base et les capacits de stockage


Sur le plan du stockage de linformation, il sera ncessaire que le logiciel retenu puisse sadosser un gestionnaire de base de donnes Oracle, configuration qui a t rcemment implante sur les serveurs du muse. Concernant la capacit de stockage du serveur SQL, elle devra tre dtermine par le service informatique lors de la rdaction des spcifications fonctionnelles et techniques du projet.

3.7.2.4 La dclinaison de linterface utilisateur


Pour la solution de GED, il est fortement prconis de pouvoir disposer de deux types dinterfaces utilisateurs, en prvision dune future politique qui consisterait rendre le fonds visible sur un parc informatique de plus en plus large et important, et pour des utilisateurs de plus en plus nombreux et varis. La solution retenue devra donc proposer la possibilit : - dimplanter une interface utilisateur par tlchargement sur un poste de travail ; - dutiliser directement Internet Explorer ; Elle devra donc tre une application base sur lutilisation dun serveur Internet en mode ASP.Net 36 , permettant la rcupration de documents via lutilisation dun explorateur web. La diffrenciation entre ces deux interfaces permettra une meilleure adquation avec les diffrentes catgories dutilisateurs amens consulter les documents numriques.

36

ASP.Net est un ensemble de technologies de programmation web cr par Microsoft, qui succde la technologie Active Server Pages (ASP).

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 114 / 218

La premire catgorie dutilisateurs sera compose des documentalistes, qui lanceront linterface client depuis leur poste personnel afin de travailler sur le fonds numris, et qui seront amen notamment numriser ou modifier des documents. La deuxime catgorie dutilisateurs sera compose des conservateurs qui ne seront pas amens numriser ou modifier un document. Leur utilisation se limitera une simple consultation des documents, et lutilisation avec Internet Explorer sera donc satisfaisante. Cette solution aura lavantage de permettre une connexion directe au serveur Web de la GED sans demander aucune installation au pralable sur le poste client. Cette possibilit pourrait permettre une gnralisation de lutilisation de la GED par tous les conservateurs et leurs assistants, depuis leur poste de travail et sans induire de cots matriels. Enfin, la troisime catgorie dutilisateurs sera reprsente par le public externe invit consulter sur place, qui consultera galement la base GED via le serveur Web et le navigateur Internet Explorer. Tous les postes de la salle de consultation pourraient tre ainsi oprationnels sans aucune maintenance informatique au pralable. La richesse de linterface utilisateur sera un facteur defficacit mais aussi dadoption du logiciel de la part des conservateurs et des documentalistes des muses. Il est bon de rappeler encore une fois que la recherche, via cette interface, devra videmment avoir plusieurs dimensions (sur mtadonnes, sur plan de classement, boolenne, sur texte intgral, etc).

3.7.2.5 Une configuration multi-utilisateurs


Le logiciel devra tre un systme de gestion de documents multi-utilisateurs puisque, au minimum, il faudra implanter le logiciel sur le poste de la documentaliste responsable de la publicit et sur un ou plusieurs autres postes de consultation. Dans cette perspective dutilisation de la solution partir de plusieurs postes, au vu de la configuration du centre de documentation et des usages prvisibles qui seront fait des dossiers thmatiques sur la publicit, la souplesse dune gestion de type licences flottantes ou dnommes pourrait tre intressante. Cest donc une option tudier, sachant que ce type de licence permet par exemple dinstaller un logiciel sous plusieurs postes de travail mais dautoriser une seule utilisation simultane du logiciel. Ce qui permet de mutualiser les licences et dabaisser les cots lachat. Le mcanisme de licence flottante sappuie sur : - un serveur de licences qui fournit en temps rels les jetons dutilisations aux diffrents utilisateurs ; - un fichier de licences qui regroupe lensemble des licences dutilisations disponibles ;
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 115 / 218

Concrtement, dans lhypothse o seuls les dossiers thmatiques de la publicit seraient dmatrialiss dans un premier temps, on peut imaginer la stratgie suivante : - Premire option : Cette solution de licences flottantes permettrait dinstaller le logiciel sur tous les postes informatiques de la salle de consultation pour lachat dune seule licence, et sans ddier un poste spcifique la consultation des fonds des sur la publicit. Cette solution conviendrait puisque la documentation de la publicit reoit la plupart du temps un seul visiteur la fois, et une seule fois par semaine. La frquence de consultation du fonds par les conservateurs du dpartement de la publicit tant trs faible moins dune fois par jour -, il ny aurait ainsi quasiment aucun risque davoir deux demandes de consultation simultanes de la part de deux personnes un conservateur et un visiteur externe. - Deuxime option : Il est aussi envisageable de dployer, avec le seul achat dune licence flottante supplmentaire, la solution de GED sur tous les postes des documentalistes et des conservateurs des autres dpartements et documentations du centre. Cette solution pourrait convenir puisquil est assez peu probable que plusieurs personnes de ces autres dpartements et documentations aient simultanment un besoin de consulter les dossiers thmatiques de la publicit. En fait, cette solution prsenterait surtout lavantage de permettre ces autres personnels du centre de documentation de tester et dvaluer le systme de GED. Le fonds numris des dossiers documentaires de la publicit serait alors une sorte de pilote de la dmatrialisation au centre de documentation.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 116 / 218

3.7.2.6 La question de la scurit et le cryptage


En termes de scurit, toutes les donnes transmises au travers du rseau entre les diffrents composants de la solution logicielle devront tre scurises grce un chiffrage 128 bits, qui est le niveau de cryptage le plus rpandu actuellement. Pour la stabilit et la scurit du systme, il est galement souhaitable dinstaurer une sparation entre les applications client, serveur et stockage de donnes. Laccs la base de donnes et aux documents stocks se fera uniquement par le biais du serveur de lapplication de GED choisie, sans quaucune autre application client ne puisse avoir accs aux index et aux documents. De manire tout fait classique et actuellement gnralise, le poste client se connectera au serveur de lapplication via lIntranet par lutilisation du protocole scuris http(s).

3.7.2.7 Un outil de cration de plan de classement


Le logiciel devra comporter un outil de cration de plan de classement, et ventuellement proposer une option permettant dutiliser un plan de classement prexistant.

3.7.2.8 Le bulletinage
Le bulletinage est une fonctionnalit avance qui est prconise et souhaite pour la solution de GED. Elle consiste enregistrer les numros de priodiques reus au fur et mesure de leur entre, pour connatre ltat de la collection grce une grille de pointage.

3.7.2.9 Le standard XML (eXtensible Markup Language) pour lchange de donnes, et la souplesse offerte par la Dclaration de Type de Document (DTD)
Le format standard des systmes dinformations, depuis dj quelques annes, est le XML, qui constitue un modle pour la communication entre les applications. XML, orient vers lchange de donnes, est notamment une mthode universelle et standardise de reprsentation textuelle des donnes structures. Cest aussi un langage balise normalis par le World Wide Web Consortium (W3C). Avec XML, les possibilits de structuration logique du texte permettent de grer tout la fois le document comme un tout, pourvu de ses mtadonnes de description, ainsi que les parties qui le composent. Ces dernires sont en quelque sorte des units documentaires propres : elles disposent de leurs mtadonnes spcifiques et hritent des proprits du niveau suprieur, mais elles peuvent tre utilises indpendamment de lui. Avec XML, chaque lment significatif dun document sera dcrit

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 117 / 218

comme tel et balis de manire pouvoir tre gr dcrit, modifi, recherch, affich indpendamment du reste du texte. La notion de document XML permet ainsi de dcrire un fonds documentaire : dossiers, collections, ouvrages, etc. Un document XML est une structure de donnes adressable, identifiable une base de donnes : il est donc possible de lui appliquer une requte. XML utilise des modles- ou types - de documents appels DTD (dclaration de type de document) qui fixent les contraintes de validit propres au document. Lutilisation de ces DTD est donc intressante puisquelle permet de dfinir et de grer librement plusieurs types de documents. Ces derniers prsenteront chacun un choix de champs dindex et une structure dindexation particulires et configurables, qui leurs seront propres, et sans quil nexiste de limite la configuration. En quelque sorte, le modle DTD XML structure le format de la base dans laquelle sont archivs des documents, et joue dune certaine faon le rle dun filtre ou dune interface. En matire de GED, ce langage XML est donc aujourdhui considr comme la norme pour lchange de donnes, quelle que soit la plateforme dorigine. De par sa capacit classer linformation et les mtadonnes dindexation sous une forme facilement visible, il est devenu actuellement un outil vritablement indispensable. Utiliser XML pour reprsenter un fonds dobjets numriques, textes ou images, cest apporter lutilisateur une forte valeur ajoute documentaire. Il est donc prconis que la solution de GED choisie supporte le format XML, et quelle soit parfaitement adapte aux nouvelles spcifications en matire de gestion de documents et de plateforme web XML. Le serveur de la solution de GED devra donc tre un service Web XML bas sur les dernires technologies de type client/serveur. Ce serveur grera lensemble des requtes formules, et les expdiera au serveur de base de donnes pour traitement.

3.7.2.10 La problmatique de la migration des langages dindexation documentaire et des mtadonnes


La documentation de la publicit de manire identique toutes autres documentations du centre - utilise actuellement via Mobytext un langage dindexation sous forme dun thsaurus spcifique au domaine de la publicit. Ce dernier permet notamment dindexer dans Mobytext les articles slectionns lors du dpouillement lectronique des revues CB news et Marketing magazine. La documentaliste souhaiterait naturellement pouvoir exploiter ce mme thsaurus pour la future indexation lectronique, dans le systme de GED, de tous les articles qui seront dmatrialiss de manire rtrospective, mais aussi au fil de leau. Ce thsaurus de la publicit tant de plus, dans sa structure, trs proche du plan de classement actuellement en place pour les dossiers thmatiques papier. Mais sera-t-il possible

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 118 / 218

techniquement dimporter un tel thsaurus dans la future application GED ? Pour rpondre cette question, il faudra au pralable contacter lditeur Mobydoc ainsi que les diteurs de logiciels de GED. Aprs avoir recueilli toutes les informations ncessaires, et si cette opration dimportation se rvle tre possible, alors cette dernire pourrait tre ralise en externe par un prestataire informatique de type SSII 37 , ou bien en interne par la DSI 38 des muses des Arts dcoratifs si celle-ci dispose des comptences informatiques et du temps ncessaire. A plus ou moins long terme, un des principaux objectifs viss par les documentalistes grce la dmatrialisation est de pouvoir centraliser, partir de la seule application de GED et de sa seule interface, toute recherche dinformations portant sur tous les corpus du centre de documentation bases des collections, dossiers documentaires et dossiers duvres numriss, catalogue des ouvrages et des revues, etc. Dans cette optique, il serait donc aussi trs bnfique de pouvoir organiser dans le futur la migration informatique des mtadonnes partir des logiciels documentaires Mobytext et Micromuse vers le futur logiciel de GED. L aussi, une expertise informatique devra tre mene pour valuer la faisabilit et lopportunit dune telle opration. Par exemple, des ressources du centre de documentation sont dcrites avec le format Unimarc 39 dans le logiciel Mobytext. On peut donc dores et dj voquer une piste avec la BiblioML qui est lorigine une initiative du ministre de la culture et de la communication. BiblioML est une DTD qui reprsente la notice bibliographique Unimarc. Plus prcisment, il sagit dune spcification pour reprsenter les donnes bibliographiques et dautorits. Et des outils sont aujourdhui disponibles pour convertir les notices Unimarc en BiblioML. Crer un document XML avec cette DTD revient crer un catalogue dont les documents seront dcrits par une notice Unimarc. A noter que sur le site internet de Mobydoc, il est prcis que le logiciel Mobytext dispose, titre doption, dun module dchange en format Unimarc. Dune manire gnrale, les diteurs de solutions de GED sont naturellement trs concerns par cette problmatique des formats de mtadonnes pour la description des documents, et restent donc trs attentifs. Actuellement, les enjeux portent, comme dhabitude, sur la normalisation, et il est assez difficile de prdire quels seront les formats qui simposeront terme. Les pistes de rflexion sont donc nombreuses et souvent menes par les bibliothques nationales -, et, dans un tel contexte, les diteurs adoptent naturellement une politique plutt attentiste. Nanmoins, tous les logiciels qui grent des flux XML peuvent

37 38

Socit de services en ingnierie informatique. Direction des systmes informatiques. 39 Universal MAchine-Readable Cataloging. Cest le format officiel dchange de donnes en France. La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 119 / 218

dj importer et exporter des mtadonnes, mais hlas avec assez peu de contrles et uniquement pour des formats de saisie classiques propritaires donc non changeables, ou normaliss comme les formats MARC.

3.7.2.11 Lutilisation des codes barres


Dune manire gnrale, lutilisation dun systme de dtection de codes barres tend se rpandre dans les projets de dmatrialisation. Cette technologie permet lindexation automatique de documents, mais elle engage tout de mme faire un tri au pralable des documents, prparer et imprimer physiquement les codes, et enfin paramtrer le logiciel avant de dbuter la phase de numrisation. Ainsi, il pourrait tre judicieux de choisir une solution logicielle qui soit dote de cette nouvelle technologie. Par exemple, pour lindexation automatique de certains champs, comme le titre, le numro et la date de parution dun numro de revue. Tous les articles slectionns et numriss partir de la revue pourraient tre ainsi indexs partiellement de manire automatise on a vu que, sur ce point, lOCR sera inefficient pour la reconnaissance des rfrences crites la main sur les photocopies des articles.

3.7.2.12 La formation aux nouveaux outils


Pour optimiser au maximum lexploitabilit des documents dmatrialiss, il sera indispensable de matriser toute la puissance dindexation et de classement du systme choisi, mais aussi le paramtrage du scanner. Ceci notamment afin de fiabiliser autant que possible lOCR. Or, mme si lergonomie des interfaces est en perptuel progrs, le niveau de paramtrage des logiciels de GED est aujourdhui tel quil peut tre dlicat pour certaines personnes de se familiariser et de matriser loutil sans recourir une formation et une dmonstration, en interne ou en externe. Lors du choix de la solution, ce point devra tre considr et faire lobjet dune attention particulire. Ceci afin de dcider et dinclure ds le dbut, sil y a lieu, le budget formation dans le cot total de la solution.

3.7.2.13 Lvolutivit comme critre de choix de la solution


En termes dvolutivit, le logiciel devra pouvoir sadapter une ventuelle gnralisation de la dmatrialisation au sein du centre de documentation. Notamment concernant les trois aspects suivants : - une augmentation des volumes de documents papier ou lectronique traiter ; - une augmentation significative du nombre de postes utilisateurs connects simultanment la GED ;
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 120 / 218

- une diversit des documents manipuls en termes de format de stockage, de champs et dindexation ; Ces points trs importants devront tre abords et traits lors des contacts avec les diteurs de solutions qui auront t pr-slectionns.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 121 / 218

3.8 Les contraintes et les stratgies de la dmatrialisation


3.8.1 La numrisation rtrospective du stock des dossiers thmatiques de la publicit
Aprs la mise en place de la GED, la documentation de la publicit nalimentera plus du tout les dossiers thmatiques au format papier stocks dans les botes. Ainsi, dans le nouveau systme qui a t prvu, ds la rception des priodiques en version papier ou en version lectronique -, ces derniers seront dpouills et les articles intressants systmatiquement intgrs aprs numrisation si ncessaire - dans la GED. La vitesse dalimentation de ce fonds est relativement modre, et il nest pas prvu quelle augmente aprs la mise en place de la GED. Le nombre dabonnements des priodiques, ainsi que le nombre moyen darticles slectionns chaque semaine resteront sensiblement les mmes quavec le systme des photocopies. Cette dmatrialisation au fil de leau pourra donc tre prise en charge par la seule documentaliste de la publicit, mme si, globalement, lindexation lectronique et les traitements lors de la numrisation pourraient venir allonger au final le temps quelle consacre chaque mois pour ces panoramas de presse et lalimentation des dossiers. En revanche, il est ds prsent ncessaire que la documentation de la publicit rflchisse et fasse un choix concernant le traitement futur et lavenir du fonds des dossiers au format papier. Quelle stratgie et quel usage souhaite-t-on mettre en place ? Les Arts Dcoratifs auront-t-ils ventuellement les moyens humains et financiers, ou encore la comptence technique, permettant dappliquer cette stratgie ? Deux possibilits soffrent ds prsent lui : - Soit il dcide de dmarrer, en parallle de la dmatrialisation au fil de leau pour le traitement du flux entrant, une dmatrialisation rtrospective massive du fonds papier. - Soit il prfre, mais dune manire qui serait seulement provisoire, laisser les deux systmes papier et numrique exister et tre exploits simultanment par les utilisateurs et la documentaliste. A propos de ce choix, lavis de la documentaliste de la publicit est dj forg et clair : elle estime que rechercher la fois dans les dossiers papier et dans les dossiers lectroniques pnaliserait trop les utilisateurs et viendrait effacer une partie des avantages apportes par la GED. Dautant que, en plus du logiciel de GED, les utilisateurs et la documentaliste continueront consulter les bases des collections laide des autres logiciels documentaires
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 122 / 218

Micromuse et Mobytext. En effet, puisque la migration des bases des collections dans le logiciel de GED ne pourra pas se faire facilement ni rapidement cela ncessiterait au pralable du conseil de la part des diteurs et trs probablement un dveloppement informatique spcifique pour assurer la migration des donnes notamment la rcupration des mtadonnes qui sont au format Unimarc dans Mobytext et Micromuse. Dans ce contexte, le souhait profond de la documentaliste-responsable de la publicit est donc de pouvoir bnficier le plus rapidement possible c'est--dire le plus tt possible aprs la mise en activit de la GED dun fonds numrique comportant absolument tous les dossiers thmatiques dmatrialiss. La recherche dans tous ces dossiers pourrait alors se faire dun seul coup travers le puissant et souple moteur de recherche de la GED. Mais la faisabilit dune dmatrialisation rtrospective et massive est conditionne par les trois points importants suivants : - Les contraintes techniques identifies pour dmatrialiser les dossiers papier constitus de photocopies darticles (et non de documents originaux en parfait tat). - Les moyens humains actuellement disponibles au centre de documentation. - Lvaluation pralable du budget global qui pourrait tre libr pour ce projet. Enfin, un dernier point capital tudier dans lhypothse dune dmatrialisation rtrospective du stock des dossiers : serait-il plus intressant de sorienter vers une dmatrialisation en interne, ou au contraire vers une prestation en externe auprs dune socit spcialise dans ce genre de traitement ?

3.8.1.1 Contraintes et spcificits techniques lies la dmatrialisation


Avant daborder les difficults et les obstacles, on rappelle tout de mme que les scanners actuels permettent dautomatiser une partie du processus dacquisition numrique, et dallger le paramtrage et lintervention de loprateur, grce notamment aux fonctionnalits suivantes : - dtection automatique dun document en couleur et dun document en noir et blanc ; - dtection automatique du format ; - dtection du recto/verso (certains scanners sont dots dune double matrice permettant de numriser dun coup le recto et le verso dune feuille) ;

Les agrafes / Papiers froisss et corns


Le premier obstacle de taille une numrisation massive, partiellement automatise et trs rapide notamment avec un scanner dfilement disposant dun chargeur est la prsence dagrafes dans le fonds. En effet, lanalyse du contenu de botes darchives a rvl quentre
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 123 / 218

10 % et 20 % des documents se composent de plusieurs feuilles agrafes. Une intervention manuelle pour prparer ces documents est donc obligatoire, ce qui viendra retarder le processus dacquisition numrique. De plus, certains documents papier sont lgrement froisss ou corns. L aussi, une prparation manuelle de ces documents simpose, afin quils puissent tre placs dans le chargeur sans risque dendommager le numriseur.

Isoler larticle de la page avec un dcoupage et un recadrage numrique


Cet aspect de lacquisition numrique a dj t abord dans la partie 3.4 consacre aux bnfices attendus. Pour optimiser le confort du lecteur, et pour conomiser de la mmoire de stockage informatique, il serait souhaitable disoler larticle de la page dans le cas o plusieurs articles sont prsents sur une mme page. Les produits actuels disposent doutil de prnumrisation et de dcoupage numrique (outils de slection de cadre, de recadrage). Le numriseur ne connat pas lavance larticle que lon souhaite isoler de la page, et cest donc loprateur qui doit intervenir manuellement pour slectionner larticle dans la page prnumrise. Ceci retarde donc fortement le processus dacquisition et empche une complte automatisation.

La fusion des pages numrises en un seul fichier PDF / Les codes barres
Dans le cas o un article stale sur plusieurs photocopies, il est ncessaire la fin du processus dacquisition de fusionner toutes les pages numrises en un fichier PDF unique. Ceci ncessite forcment une intervention ou un paramtrage manuel, au cas par cas. En effet, le numriseur nest pas capable deffectuer cette tche seul puisquil ne connat ni le dbut ni la fin de larticle. Loprateur en charge de la numrisation doit donc intervenir, ce qui ralentit forcment la dmatrialisation. Afin dessayer dacclrer le processus, des innovations ont rcemment t introduites, dont lune consiste imprimer un code barres sur une page A4. Cette page est place au-dessus des photocopies composant larticle. Le code barres est ainsi numris et reconnu en premier, et il indique au scanner le nombre de pages composant larticle et quil faut numriser. Mais ce code barres peut aussi donner dautres indications et informations prcises la machine, comme par exemple le titre du priodique dont est issu larticle, ou encore des paramtres pour le traitement numrique. Cette solution, qui peut tre intressante et allger les interventions de loprateur, ncessite en contrepartie et au pralable une minutieuse prparation de ces codes barres, ainsi quune programmation de ces derniers dans lordinateur. Un choix technique devra donc tre fait sur ce point, et de manire gnrale il faudra valuer le plus prcisment possible le gain
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 124 / 218

potentiel de temps apport par telle ou telle technologie. Sachant que, dans lhypothse o le centre de documentation se lancerait dans le traitement rtroactif et massif de ce fonds comportant plusieurs dizaines de milliers de documents, les diffrences larrive pourraient tre normes selon les techniques adoptes.

Lindexation par extraction automatique de donnes


Le logiciel de GED qui sera choisi pour ce projet devra permettre une indexation en texte intgral et une indexation manuelle. Mais il existe un troisime type dindexation lectronique : lextraction automatique de donnes. Les dossiers thmatiques de la publicit sont-ils propices et adapts ce genre dindexation ? Existe-t-il ici des contraintes techniques insurmontables ce genre de

traitement automatis ? Tout dabord, pour rpondre cette question, il faut distinguer la dmatrialisation au fil de leau de la dmatrialisation rtrospective des dossiers. Ensuite, il faut souligner que les principales donnes qui seraient susceptibles dtre extraites automatiquement des documents lors de lacquisition numrique sont en fait les rfrences des priodiques : titre, numro, date de publication. - Extraction de donnes partir du stock des dossiers thmatiques au format papier Concernant le fonds papier des dossiers thmatiques de la publicit, si on tudie tous les types et toutes les formes de documents quil renferme, il semble quil soit impossible de mettre en place des traitements systmatiques de LAD ou de RAD Lecture Automatique de Documents et Reconnaissance Automatique de Documents. En effet, les documents prsents dans les dossiers sont presque tous des articles de priodiques qui prsentent, de par leur nature et leur publication, des caractristiques incompatibles avec les traitements automatiss de type LAD ou RAD. Un premier facteur, dterminant, rend quasi impossible une utilisation massive de LAD ou RAD : la qualit dimpression trs ingale, et parfois trs mauvaise, des photocopies prsentes dans les dossiers thmatiques. Lchec la reconnaissance optique de caractres ne permettrait donc pas de systmatiser le traitement LAD ou RAD, et parat dj tre rdhibitoire la mise en place de traitements automatiss. Un autre facteur vient renforcer lide que la reconnaissance optique de caractres ne serait pas fiable concernant les rfrences des articles : sur plus de 35 % des photocopies, ces rfrences ne sont pas typographies (en haut ou en bas de page) mais crites la main (et de plus des positions alatoires). Or, on sait que les algorithmes OCR et ICR sont
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 125 / 218

compltement inefficaces sur lcriture manuscrite except si les caractres sont crits en majuscules, bien droits et bien espacs. Ce qui nest pas du tout le cas des crits sur les photocopies stockes dans les dossiers. Dernire difficult majeure : les articles dans les dossiers sont issus dune multitude de priodiques, dont les mises en forme et les publications sont non seulement trs diffrentes les unes des autres, mais qui, surtout, ont parfois sensiblement varies dans le temps. Do une impossibilit dattribuer, pour chaque priodique reprsent dans les dossiers, un masque de reconnaissance et un gabarit qui seraient fixes et dfinitifs. Par exemple, la position des rfrences sur les pages dune revue et leurs formes (police, taille de caractres, etc) ont pu changer en fonction des nouvelles formules de publication, et seront probablement encore amens voluer. Ainsi globalement, vu le nombre assez lev de priodiques qui sont reprsents dans ces dossiers thmatiques, la tentative de mise en place de LAD et RAD impliquerait un travail de paramtrage pralable extrmement lourd et prcis, et pour des rsultats de reconnaissance optique de caractres (OCR et ICR) qui, de toute faon, ne seraient pas absolument fiables. Et tout ceci obligerait donc mener un vritable travail manuel et intellectuel de vrification, de correction ventuelle, aprs les traitements automatiss. Ce qui loigne toute ide de gain de temps substantiel grce aux traitements LAD et RAD, qui pourraient mme engendrer lgarement de certains documents numriques (mal classs), ou la fourniture dinformations non pertinentes. - Extraction de donnes lors de la dmatrialisation au fil de leau Concernant le traitement du flux entrant, au fil de leau, la situation est lgrement diffrente. Tout dabord, la numrisation au fil de leau se fait partir des priodiques originaux, qui prsentent donc une qualit dimpression irrprochable. Certaines revues sont mme dj reues en version lectronique. Ensuite, le problme des rfrences crites la main disparat. On pourrait donc, uniquement dans le cadre de la dmatrialisation au fil de leau et en se limitant seulement quelques revues trs prsentes dans les dossiers thmatiques CB news et Stratgies seraient par exemple trs appropries -, essayer de mettre en place une extraction automatique des rfrences des revues par exemple le titre, le numro et la date de publication qui deviendraient ensuite des mtadonnes de larticle numris. Nanmoins, des tests pralables - dans le cadre dune dmonstration commerciale personnalise par exemple - devront probablement tre effectus avec des diteurs de solutions de GED, afin dvaluer trs exactement la faisabilit dune telle extraction de
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 126 / 218

donnes. Sans rsultats de ces tests, il est donc aujourdhui impossible de se prononcer avec certitude sur les possibilits en termes de LAD et RAD pour la dmatrialisation au fil de leau.

3.8.1.2 Organisation et planification de la dmatrialisation rtrospective du stock


Que la dmatrialisation soit ralise en interne ou au contraire par un prestataire spcialis, ce sera le rle de la documentaliste de la publicit seule responsable et gestionnaire du fonds - dorganiser et planifier la numrisation des documents. Il sagira par exemple de
procder soit en suivant lordre du plan de classement, soit en slectionnant par frquence de consultation des dossiers thmatiques -autrement dit la popularit des documents.

3.8.1.3 Cas dune dmatrialisation rtrospective en interne


Dans lhypothse dune dmatrialisation en interne et sur le plan des moyens humains, la seule documentaliste responsable de la publicit ne pourra trs certainement pas prendre en charge tout le processus. Ainsi, il pourra tre ncessaire et utile de recourir dautres personnels stagiaires, emplois en interim, mobilisation ponctuelle des autres documentations, toutes ces options devront tre values par la responsable du centre de documentation au moins pour les phases de prparation et de numrisation physique des documents. La prparation des documents consistant notamment : - Retirer les agrafes ; - Dcorner les pages ; - Dplier les pages ; - Eventuellement paramtrer et imprimer des codes barres, et constituer des lots de documents similaires (qualit dimpression, couleur ou noir et blanc, recto seul ou recto/verso, etc) ; En revanche, on ne pourra pas inclure le dsherbage dans cette phase de prparation, puisque seule la documentaliste est apte raliser cette tche. Ensuite, la numrisation physique des documents nincluant pas le classement ni lindexation manuelle - pourrait aussi tre effectue sans difficult par dautres personnels, qui la documentaliste aura au pralable fait une dmonstration et une courte formation en interne. Ces personnels pourraient par exemple assurer les tches suivantes : - placer le document dans le chargeur ou sur la vitre dexposition ;
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 127 / 218

- dclencher la numrisation en appliquant le profil dutilisation (autrement dit les paramtres et les traitements automatiss) adquat en fonction du document traiter ; - nommer et stocker le fichier de sortie ; La phase de numrisation physique des documents et celle dindexation manuelle pouvant tre dcouples et dsynchronises, on peut donc imaginer que la documentaliste puisse traiter intellectuellement le document et lindexer aprs sa numrisation physique. Et lutilisation dun tableau de bord option disponible dans la quasi-totalit des solutions de GED - pourrait lassister dans la mise en place dun planning et dune organisation quelle aura fixs et qui lui sembleront les plus judicieux.

3.8.1.4 Cas dune dmatrialisation par un prestataire en externe


Actuellement, loffre de services en numrisation est trs large et se dcline pour tous les types de documents et de besoins. Il est donc ncessaire de dcrypter le march actuel des prestataires spcialiss en dmatrialisation, et dessayer den tirer une premire analyse. Un panorama des principaux prestataires actuels a t ralis fin 2008 par la revue Archimag 40 . Il montre que la maturit des technologies dOCR homognise les offres des prestataires, et que la qualit de la numrisation - particulirement dans le cas de notre projet qui concerne des documents textuels et non des photos - en termes de rsolution nest plus discriminante. Ainsi, une numrisation autour 300 dpi - environ la valeur maximale requise pour le projet au centre de documentation - est aujourdhui une norme standard propose par tous les prestataires. Sur le plan technologique donc, les machines sont peu prs au mme niveau de capacits et les prestataires se sont normaliss. Un constat identique se dresse concernant llaboration des tarifs, puisque le nivellement des performances techniques et la multitude de prestataires dbouchent logiquement vers une galisation des tarifs pratiqus. Globalement donc, si les ressources humaines et techniques dont disposent les prestataires ne sont pas rellement de nature faire actuellement une vritable diffrence lors du choix final, en revanche les tudes ont montr que, pour certains projets, la prparation des documents pouvait reprsenter jusqu 70 % du cot total de la numrisation. Or, on sait que le fonds des dossiers thmatiques de la publicit ncessiterait une lourde prparation. Cest donc bien ce cot de prparation des documents qui reprsente le plus grand obstacle, en termes financiers, une numrisation par un prestataire spcialis.

Cf. Trouver un prestataire spcialis. Archimag, 2008, La dmatrialisation : guide pratique, p. 7890. ISSN 0769-0975 La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

40

Page 128 / 218

A titre indicatif, et au regard des tarifs moyens actuellement pratiqus, on value le cot de dmatrialisation dune page A4 entre 0,70 et 0,90 euros, pour une prestation qui comprend : - prise en charge ; - dconditionnement et prparation (sortir des pochettes, enlever les agrafes, ...) ; - numrisation 300 dpi et en couleur ; - saisie pour chaque document (titre publication, titre article, rfrence page, rfrence unique) ; - reconditionnement en pochette papier neuve et numrote ; - remise en bote ; - post numrisation : redressement, OCR, suppression des pages blanches ; - production d'un PDF par document ; - retour des document et livraison des documents sur support au choix (Disque dur, CD, DVD) ; Dune manire gnrale, pour obtenir trs prcisment le devis dune prestation, voici quelques indications respecter concernant les informations et les lments quil est indispensable de communiquer au prestataire : - faire une rapide prsentation de lorganisation des muses des Arts Dcoratifs et du centre de documentation (activits, directions, dpartements et documentations directement concerns par le projet, etc) ; - faire une synthse de lobjectif du projet (quoi, pour qui, quand, retour sur investissement attendu) ; - indiquer ce que le projet ninclut pas (par exemple exclure le reconditionnement des dossiers papier si on souhaite les dtruire aprs la numrisation) ; - indiquer les acteurs du projet, notamment les quipes projets ; - donner les contraintes qui ont t identifies et pouvant influencer sur le projet (par exemple la prsence dagrafes, ou une qualit dimpression trs ingale) ; - proposer un planning, mais assez large ; Ensuite, pour la rdaction dun vritable cahier des charges, on livrera galement aux reprsentants du prestataire, avec suffisamment de dtails et de prcisions, certaines spcifications fonctionnelles et techniques du projet. Notamment : - une description prcise de lexistant : volumtrie, typologie, caractristique des documents reprendre ; - des chantillons significatifs ;

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 129 / 218

- une description dtaille du rsultat attendu (formats de restitution, pourcentage de reconnaissance, taux de rejet ou de perte tolr) et de lusage projet ; - dfinir les modalits du contrle de qualit attendu, c'est--dire prciser sil est exig par le centre de documentation une relecture systmatique du document numrique par un oprateur, ou plutt un contrle par sondage (en prcisant que certaines techniques informatiques proposent aujourdhui des contrles automatiss qui fournissent des rsultats statistiques de ces contrles) ; - dcrire toutes les contraintes pouvant influer sur le projet et la prestation de numrisation. Par exemple, pour notre projet de dmatrialisation des dossiers thmatiques de la publicit, aucune clause particulire nest envisager sur le plan de la fragilit, ni sur le plan de la confidentialit ; Tous les lments qui viennent dtre cits peuvent avoir au final un impact significatif sur lvaluation globale du budget ncessaire la prestation de numrisation.

3.8.2 Le contexte dun muse, et le prestige du support


Tout dabord, il est important de bien prendre en compte le contexte et lenvironnement dans lequel on met en place la dmatrialisation. Il sagit ici dun centre de documentation dont la fonction principale est dtre au service des conservateurs et dillustrer les collections des muses des Arts Dcoratifs. Cest un lieu o lattachement au papier et au support est forcment trs prsent. La raret et loriginalit de certaines ressources du centre font quelles se prtent bien une dmatrialisation dans le cadre dun projet de conservation et dans le but dassurer leur prennit, et non une dmatrialisation visant leur exploitation au format lectronique - cette remarque ne concerne toutefois pas les dossiers thmatiques de la publicit, constitus de panoramas de presse assez rcents et ne comportant pas de documents dune trs grande raret. Autrement dit, contrairement des projets standards de dmatrialisation en entreprise qui concerneraient des factures ou des formulaires, certains documents peuvent tre ici de prestigieux et fragiles catalogues, de trs vieilles et trs rares photos, etc. Et naturellement, les conservateurs ainsi quune certaine partie du public accueilli prouvent le besoin et le dsir de manipuler, de toucher, ces vieux et prestigieux documents. Dans ces conditions, la perspective de dmatrialiser parat moins vidente ou indispensable, et peut mme tre perue chez certains comme quelque de chose de ngatif plutt que de positif, de rducteur plutt quune source de progrs. Autre spcificit qui concerne une petite partie du fonds, certains documents prsents dans les dossiers documentaires sont en fait de vritables petits objets - par exemple des
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 130 / 218

cartons dpliables dans les trois dimensions. Il est donc impossible de les dmatrialiser. La seule solution envisageable dans ces cas serait de conserver les objets dans les salles darchives et de stocker dans la GED des photographies de ces objets prises sous plusieurs angles.

3.8.3 Sabonner aux versions lectroniques de certains priodiques


Certains priodiques alimentant les dossiers documentaires du centre de documentation proposent dj un abonnement pour une version lectronique. On peut citer les exemples de CB news et de La Gazette de lHtel Drouot. Dans le futur, le nombre de ces priodiques disponibles en version lectronique va trs probablement augmenter, et la dmatrialisation pourrait reprsenter une relle opportunit de passer des abonnements au format papier vers des abonnements au format lectronique. En effet, les diffrentes documentations pourraient ventuellement en retirer les avantages suivants : - Tout dabord, certaines de ces documentations sont abonnes aux mmes priodiques. Il y a donc des cas dabonnements au format papier en doublon, on peut citer lexemple La Gazette de lHtel Drouot un abonnement pour lArt nouveau Art dco et un autre pour le 17me 18me. La GED pourrait ainsi permettre de faire lconomie dun abonnement, en passant une version lectronique exclusive qui serait partage par les deux documentations. - Ensuite, la GED pourrait permettre, plus globalement, un partage systmatique de tous les priodiques en version lectronique par toutes les documentations des muses. Mme si, trs probablement, cela napportera rien dans la majorit des cas, il se pourrait que ce partage automatique en ligne soit tout de mme intressant dans certains cas particuliers. Par exemple, certaines revues dpouilles par la documentation mode et textile pourraient intresser la documentation publicit, et rciproquement. Ce point devra faire lobjet dune analyse et dune rflexion de la part de tous les documentalistes. En fait, un partage des priodiques pourrait mme tre instaur entre les diffrents services des Arts Dcoratifs. Par exemple, la direction de la communication du muse - qui comprend notamment le service de presse des muses - est abonne des journaux de presse quotidienne (Le Monde, Le Figaro, Libration, etc) et des revues dinformation et dactualits hebdomadaires (Le nouvel Observateur, Lexpress, Le point, etc), qui pourraient intresser par exemple les documentalistes de la mode et du textile, de la publicit. Les dossiers thmatiques de la publicit comportent ainsi de nombreux articles issus de la presse quotidienne.
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 131 / 218

Ces possibilits nouvelles offertes par la GED doivent tout de mme tre values au regard des lments suivants : - Si le partage on-line de numros de priodiques en version numrique ne prsente priori aucun obstacle ou difficult technologique, il se heurtera en revanche trs probablement des habitudes de travail et des rticences de la part de certaines documentations et de certains utilisateurs, qui sont trs attachs au fait de pouvoir consulter et manipuler au format papier. - De plus, lexploitation de ces priodiques dans le cadre de la ralisation de panoramas de presse destins alimenter les dossiers documentaires doit tre encadre par des contrats, et faire au pralable lobjet dune expertise et dune analyse juridique trs prcise. Cet aspect du projet sera dvelopp dans la partie 3.9 de cette tude.

3.8.4 La perspective dune ouverture plus large au public externe


Les entretiens effectus avec les documentalistes ont mis en vidence quelques divergences dopinion concernant certaines des perspectives offertes par la dmatrialisation, notamment au sujet de : - lventualit et lopportunit douvrir un peu plus largement le centre de documentation au public ; - le dsir de mettre en ligne sur Internet une partie des rfrences des ressources du centre de documentation, dans le prolongement de la mise en ligne sur le site dune partie des collections des muses ; Le public externe qui est invit consulter sur place se compose de chercheurs, duniversitaires, de crateurs, dhistoriens, de critiques dart, dtudiants et de quelques particuliers ayant un besoin trs prcis et justifi. Le public est donc assez rigoureusement slectionn, dautant que laccueil de ce dernier nest pas la vocation du centre de documentation mais plutt celui de la bibliothque des Arts Dcoratifs. Actuellement, les faibles effectifs du personnel du centre de documentation ne permettent pas vraiment dlargir ce public, nanmoins il a t expos plus haut dans ltude cf. la partie 3.7.4 que le systme de GED pourrait ventuellement reprsenter un dbut de solution pour hausser la frquentation du centre. On constate cependant certaines disparits de fonctionnement selon les documentations du centre. On peut citer les exemples des documentations du verre et de la mode. La premire a fait plutt le choix de ne recevoir que des chercheurs renomms, les spcialistes de la discipline en quelque sorte, et limite ainsi au maximum les visites. La documentation de la

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 132 / 218

mode adopte elle une dmarche presque oppose, en recevant prs de 150 personnes par an, un public parfois trs jeune ou compos dtudiants pas rellement spcialistes. En matire daccueil du public externe, les perspectives concernant la dmatrialisation sont donc perues de faon quelque peu distinctes par ces deux documentations. Les Arts Dcoratifs ont rcemment mis en ligne sur leur site Internet un extrait des bases de donnes des collections et des revues. Cette initiative ayant rencontr un vif succs, il est envisag par certains documentalistes notamment la documentation de la publicit de mettre en ligne sur Internet une partie des rfrences - un catalogue en quelque sorte - des dossiers documentaires du centre de documentation. Potentiellement, ceci pourrait naturellement susciter lintrt et la curiosit de certains internautes, qui pourraient par la suite faire une demande de consultation auprs centre de documentation. La mise en ligne dun tel catalogue des dossiers est donc susceptible daugmenter la frquentation du centre de documentation - tout comme la mise en ligne sur le site dune partie des collections des muses contribue probablement lever la frquentation des muses. Mais toutes ces nouvelles sollicitations et demandes de visites pourront elles tre gres et assumes par le centre de documentation ? Sur ce point, certaines documentations ont des avis partags. La documentaliste du verre ne souhaite pas consacrer plus de temps laccueil de visiteurs, et nest donc pas trs enthousiaste la mise en ligne sur Internet de ce catalogue. Avec une perception diffrente, la documentaliste de la mode souhaiterait au contraire que la mise en ligne dinformations puisse se dvelopper et prendre de limportance. Sa motivation principale rside dans le fait quelle se dit consciente de la valeur et du caractre exceptionnel des ressources quelle gre. Ainsi de probables dbats auront lieu, post dmatrialisation, pour se prononcer sur ladoption, ou au contraire labandon, de cette ide dun catalogue on-line des dossiers documentaires. Dune manire gnrale, il est vident que les runions entre documentalistes autour de la faisabilit et lopportunit dune dmatrialisation constituent une excellente occasion de provoquer des changes, dexprimer des opinions et de prendre du recul. Les entretiens auront dj permis de rcolter les premires impressions des documentalistes. De la mme faon il pourrait intressant et rvlateur dorganiser deux petits sondages : - Lun auprs des conservateurs, afin de connatre prcisment leurs intrts, leurs attentes et leurs apprhensions face la dmatrialisation, et pour essayer de mieux dcrypter leurs rapports avec le papier. - Lautre auprs du public, afin dentendre ses prfrences et ses attentes en termes de consultation lectronique.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 133 / 218

3.9 Une dmarche qualit, des indicateurs de qualit


Aprs la rdaction du cahier des charges, et avant la mise en production du processus de dmatrialisation, il existe une tape, un levier, qu'il ne faut pas oublier ou sous-estimer : celui de la dmarche qualit. Par exemple, les tests suivants pourront tre effectus : - Slectionner des chantillons darticles reprsentatifs parmi les dossiers documentaires numriser, pour affiner les traitements appliquer et ventuellement crer des profils dutilisation. La prparation du document et le paramtrage du scanner peuvent tre en effet spcifiques selon ltat et le type du document (niveaux de gris ou couleur, effet moir, trs faible contraste, caractres trs petits, document corn ou pli, etc). - Affiner les modes de prparation. La remise plat des pages, la suppression des pliures excessives, lenlvement des agrafes ou trombones, lorientation des pages et ventuellement le positionnement de codes barre sont quelques-unes des tches qui devront tre effectues. Cette prparation concerne surtout la numrisation rtrospective, car, pour la numrisation au fil de leau, les flux entrants concernent essentiellement des priodiques neufs. Laffinage des modes de prparation est une tape extrmement importante puisque cela permettra de fluidifier le processus et dviter une dgradation du scanner. - Tester les diffrents modules de la chane de dmatrialisation (numrisation, OCR, traitements dimages, indexation, archivage lectronique). Chacun pourra faire lobjet de tests spcifiques visant valider son niveau de qualit, sa rapidit dexcution ainsi que la finesse des paramtrages. Aprs avoir dfini une dmarche qualit, il faut sattacher dterminer des indicateurs. Quels sont les indicateurs qualitatifs et quantitatifs qui pourraient faire lobjet dun suivi et dune attention ds la mise en activit de la plateforme de dmatrialisation ? Sur le plan quantitatif, on peut dores et dj isoler 4 indicateurs : 2 pour lalimentation du fonds et 2 pour son exploitation. - Premier indicateur quantitatif portant sur lalimentation, celui du temps de traitement dun document. Ce dernier tant bien entendu comparer avec le temps de traitement actuel dun document dans le systme papier. Tout en prcisant que le traitement dun document numris comprendra une phase supplmentaire par rapport au systme papier actuel : celle dune indexation lectronique trs prcise et trs fine, alors que le traitement dun article

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 134 / 218

papier se rsume actuellement un simple rfrencement manuel une inscription directe sur la photocopie suivi dun classement dans une chemise et une bote ; - Un deuxime indicateur intressant quil conviendrait dobserver repose sur le nombre de documents qui seront injects dans la GED par semaine (ou par mois), tout en le comparant au nombre moyen estim de documents qui sont traits et photocopis avec le systme papier actuel (par semaine ou par mois). Cet indicateur serait un bon moyen dvaluer le gain de productivit apport par la dmatrialisation. Evidemment cette valuation ne devra porter que sur le dpouillement courant et au fil de leau des priodiques, sans prendre en compte les documents qui seraient ventuellement numriss dans le cadre dune opration de dmatrialisation rtrospective ; - Un troisime indicateur trs intressant pourrait concerner lexploitation du fonds, et porterait sur la frquentation des utilisateurs. Il serait rvlateur de surveiller lvolution du nombre de consultations lectroniques par semaine (ou par mois) de la part des conservateurs. Ceci afin davoir un retour dinformations sur lacclimatation et lapprhension face ce nouvel outil de travail. Nanmoins, cet indicateur ne pourrait tre vraiment significatif quaprs avoir compltement dmatrialis le fonds, puisque, lors de la phase transitoire de numrisation rtrospective des dossiers thmatiques (qui pourrait durer plusieurs mois, voire plus, selon les moyens et de lengagement qui seront mis en uvre), une partie des documents sera disponible uniquement au format papier ;

- Enfin, dernier indicateur quantitatif essentiel, toujours propos de lexploitation : le temps daccs aux documents lectroniques. Temps comparer logiquement avec le temps daccs actuel aux documents papier. Pour pouvoir comparer ultrieurement ces temps daccs aux documents, entre le systme papier et le systme lectronique, il serait ncessaire deffectuer ds prsent des mesures avec le systme de botes thmatiques. Par exemple, commencer par dcider arbitrairement dune recherche cible, puis chronomtrer le temps cumul de la recherche dans les botes et de la remise en place des photocopies des documents trouvs ; Le premier et le dernier des indicateurs cits plus haut sont particulirement importants, puisquils ont directement trait au gain de temps pour les documentalistes et/ou les conservateurs. Ils donneraient ainsi clairement une estimation du retour sur investissement aprs mise en uvre de la dmatrialisation. Sur le plan qualitatif, on pourra se focaliser sur le taux de satisfaction des utilisateurs. Par exemple, actuellement une fiche est remise tous les visiteurs extrieurs, et qui comprend
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 135 / 218

sur la dernire ligne une question au sujet des amliorations souhaites. Afin de pouvoir tablir quelques statistiques de satisfaction - comparer ultrieurement et aprs mise en place de la GED -, il serait intressant dlargir les questions prsentes sur ce formulaire. Cela permettrait de connatre lavis des visiteurs sur la qualit de la recherche effectue, et sur la pertinence des documents rcolts. Tout en restant bien conscient quune recherche lectronique se trouve tre forcment plus fructueuse, qualitativement et quantitativement, quune recherche dans des documents papier. Surtout dans lhypothse o la recherche en texte intgral est disponible dans le systme de GED mis en place. Toujours sur le plan de la satisfaction et de ladaptation des utilisateurs au nouveau systme qui sera mis en place, un point important ne doit pas tre nglig : lergonomie des interfaces. En effet, les utilisateurs des centres de documentation nont pas en gnral la pratique et lexprience professionnelles dun documentaliste pour la recherche dun document, il sagit donc doptimiser au mieux lergonomie et le visuel du produit de GED. Ceci passe par une rflexion sur les interfaces de recherche et de consultation, et reste aussi conditionn par le choix de la solution logicielle qui sera adopte. Cette dernire doit autoriser assez de souplesse et de libert en termes de formatage et de paramtrage. Et aprs la mise en place de lapplication de GED documentaire, une enqute pourra par exemple tre mene pour recueillir les avis favorables ou dfavorables des utilisateurs, ceci dans lintention damliorer la solution en place. Concernant les conservateurs des muses des Arts Dcoratifs, ils consultent dj lintranet pour laccs aux bases des collections, mais leurs habitudes informatiques se limitent pour certains cette seule consultation. La question reste donc pose quant leur capacit dadaptation au systme numrique pour tout ce qui concerne la recherche dans les dossiers documentaires illustrant les collections.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 136 / 218

3.10 Les aspects juridiques du projet


Les aspects juridiques du projet sont cruciaux et dterminants, ils conditionneront sa russite mais surtout sa lgalit. La problmatique juridique tourne ici essentiellement autour du statut du panorama de presse , notion apparue avec ladoption en 1995 de la loi relative la gestion collective du droit de reproduction par reprographie. Cette loi a permis dclaircir la lgislation, mais mme rebaptise panorama de presse de nombreuses interrogations continuent de se poser au sujet de ce dernier, tout particulirement dans lenvironnement lectronique qui concerne directement le projet au muse.

La dmatrialisation des dossiers papiers en version lectronique sapparente donc, sur le plan de la lgislation, au passage dun panorama de presse papier un panorama de presse dit lectronique . Ce qui ncessite une rvaluation de la situation et de la gestion des droits de la part des responsables du centre de documentation.

3.10.1

Le droit de reproduction

La numrisation, tout comme la reprographie, est bien un acte de reproduction. Et, selon le code la proprit intellectuelle (CPI), lauteur dune uvre originale dispose dun droit dautoriser ou dinterdire la reproduction de son uvre. Ce droit est bien videmment cessible et ngociable. Il sagit donc ici de dmontrer que les centres de documentation ne peuvent pas bnficier dune exception au droit de reproduction, et que sils souhaitent procder des photocopies ou des numrisations darticles, ils ne peuvent viter de procder des demandes expresses auprs des auteurs ou diteurs. Prcisons tout dabord la notion de copiste : depuis 1984, le copiste est dfini comme tant celui qui, dtenant dans ses locaux le matriel ncessaire la confection des photocopies, exploite ce matriel en le mettant disposition de ses clients. Les documentalistes des centres de documentation, qui font des photocopies pour les utilisateurs en interne ou pour les visiteurs extrieurs, sont considrs comme tant des copistes. Le centre franais dexploitation du droit de copie 41 (CFC) prcise aussi que lusage priv du copiste ne correspond qu un usage strictement personnel ou familial, et quil exclut tout usage interne, mme destin une seule personne, qui serait fait dans un cadre
41

www.cfcopies.com

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 137 / 218

collectif. Les centres de documentation ne peuvent donc pas invoquer le bnfice de lexception de copie prive. Autrement dit : en termes de droit de reproduction , le centre de documentation ne peut prtendre aucune exception au droit patrimonial des auteurs concernant les photocopies faites en interne un seul exemplaire et finalit professionnelle, puisque la notion dusage titre personnel au sein dune collectivit nest pas reconnue comme exception au monopole de lauteur. De plus, dans le cas du centre de documentation des Arts Dcoratifs, les documentalistes facturent les photocopies des articles de priodiques aux visiteurs extrieurs, ce qui peut tre assimil au regard de la loi une forme dexploitation commerciale . Dans le systme actuel, le centre de documentation se fait en effet rtribuer pour ses prestations de photocopies. Un prix arbitraire a t fix pour les photocopies en noir et blanc, un autre pour les photocopies couleur, et mme un troisime pour les prises de vues avec un appareil photo. Or le muse na jamais considr vritablement cette pratique comme relevant dun quelconque usage commercial de ses dossiers, mais plutt comme une forme dindemnisation au titre des frais de fonctionnements et dentretiens de ses imprimantesphotocopieurs. Pourtant, nimporte quel auteur ou diteur concern est en droit de considrer lgitimement que ces copies sont faites des fins commerciales. De plus la facturation des photocopies aux visiteurs est en ralit suprieure aux frais dentretiens rels induits - achats de cartouches, maintenance et entretien courants, remplacements de pices mcaniques, etc -, ce qui pourrait venir mettre en doute la bonne foi du centre de documentation en cas de procs pour acte de contrefaon. Cet aspect sera dvelopp plus loin, mais on peut dores et dj prciser que toute forme de copie faite des fins commerciales exige non seulement une autorisation du CFC - dont ne dispose pas le muse actuellement puisque ce dernier na jamais contract auprs du CFC mais galement une autorisation expresse des diteurs.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 138 / 218

3.10.2 Les dernires modifications apportes au droit de reprographie


Le droit de reproduction par reprographie est encadr par la loi de janvier 1995, qui organise sa cession lgale . La reprographie fait ainsi lobjet dune cession automatique et obligatoire au CFC. La loi impose le recours la gestion collective, avec le monopole du CFC, mais les conditions de versements des droits et les tarifs ne sont pas fixs par la loi. Et dans ce cadre, layant droit peut autoriser ou interdire une exploitation de son uvre. A titre de comparaison, on peut citer un autre systme de gestion des droits dauteur : la gestion collective volontaire , qui est propose aujourdhui par le CFC pour les panoramas de presse diffuss sur intranet pour le compte des diteurs qui lont mandat cet effet. Dans la dfinition donne dans larticle L122-10 du CPI, la reprographie sentend de la reproduction sous forme de copie papier ou support assimil par une technique photographique ou deffet quivalent permettant une lecture directe . Cette dfinition exclut les procds qui, comme les ordinateurs, exigent le recours dun appareil pour pouvoir les consulter. Elle exclut les uvres consultables uniquement sur support numrique ainsi que la transmission dun article par courrier lectronique. Elle englobe dans son champ les sorties papier des imprimantes lorsque les copies sont identiques aux originaux sur support papier. Cette mise jour en 1995 de la dfinition de la reprographie tait destine faire une distinction plus nette entre la lgislation pour le papier et la lgislation pour le numrique, dans une priode o linformation sur support numrique et en ligne commenait dj se dvelopper. Mais aujourdhui, avec par exemple la gnralisation dun format numrique comme le PDF, cette loi de 1995 apparat comme relativement ambigu et complexe. Ainsi, en plus des traditionnelles photocopieuses, le CFC indique dans ses contrats que les appareils recourant la numrisation dune uvre sur des supports optiques ou magntiques en vue de la seule ralisation dune copie identique loriginal sont galement concerns. Pour essayer dclaircir ce point manquant de transparence et difficile interprter, on trouve ainsi dans la loi de 1995 les deux clauses suivantes : - une copie numrique effectue des fins de stockage et destine une consultation exclusivement sur ordinateur nentre pas dans le champs de la loi ; - en revanche, un acte de numrisation ralis en amont pour proposer des copies papier identiques loriginal serait en effet redevable de droits au CFC ainsi que toutes les sorties papier faites en aval ;

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 139 / 218

Voici un petit tableau rcapitulatif :

Typologie des reproductions selon le support


- Photocopie - Transparent - Tlcopie - Sortie imprimante dune copie identique la version papier ( par exemple une page en format pdf reproduisant larticle sous la mme forme quen version papier) - Numrisation pour lecture sur cran - Impression papier dun article cre numriquement - Transmission par courrier lecronique

Champ de la loi de 1995

Hors champ de la loi de 1995

Depuis 1995, le droit de reprographie intgre une condition supplmentaire : celle de laffichage des mentions obligatoires. Ainsi sur chaque panorama de presse doit en thorie apparatre une mention rappelant que lorganisme bnficie de lautorisation du CFC. Enfin, sur le plan de lusage commercial des reprographies, et comme cela a dj t abord plus haut, la rgle en la matire est la suivante : lorsque les copies sont faites par un tiers des fins commerciales, une double autorisation est requise, celle du CFC ainsi que celle de lauteur ou de son ayant droit. Et cest au CFC quil appartient dobtenir des ayants droit lautorisation requise.

Classification selon la destination de la reprographie


Usage collectif non commercial Usage collectif commercial CFC Signalement au CFC qui est charg dobtenir lautorisation des ayants droit

Il faut donc obligatoirement sadresser au CFC pour linformer de la commercialisation des copies. Mais, contrairement la photocopie collective faite des fins non commerciales, o aucune drogation nest possible, les ayants droits ont la possibilit de refuser un mode dexploitation commerciale. Sur ce point, et dans le cadre de ce projet de dmatrialisation au centre de documentation, il faut analyser et traiter les alinas 3.e et 8 qui sont inscrits dans larticle L122-5 du CPI, modifi par la loi n2009-669 du 12 juin 2009 art 21. - Alina 3.e : lauteur ne peut interdire la reproduction dextraits duvres des fins exclusives dillustration dans le cadre de lenseignement et de la recherche, ds lors que le public auquel cette reproduction est destine est compos majoritairement dlves,

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 140 / 218

dtudiants, denseignants ou de chercheurs directement concerns, que lutilisation de cette reproduction ne donne lieu aucune exploitation commerciale Tout dabord, les articles photocopis et proposs aux visiteurs du centre ne sont pas des extraits duvres mais bien des uvres compltes. Ce sont en effet des articles entiers et non pas des extraits darticles. Ensuite, le centre de documentation fait-il vraiment ces photocopies dans le cadre dun enseignement et de la recherche , ou, plus exactement, estce que le centre de documentation illustre un enseignement et une activit de recherche ? La rponse est clairement non. Enfin, le fait de facturer les photocopies peut tre assimil une forme dexploitation commerciale. - Alina 8 : lauteur ne peut interdire la reproduction dune uvre des fins de conservation ou destine prserver les conditions de sa consultation des fins de recherche ou dtudes prives par des particuliers, dans les locaux de ltablissement et sur des terminaux ddis par des bibliothques accessibles au public, par des muses ou par des services darchives, sous rserve que ceux-ci ne recherchent aucun avantage conomique ou commercial L aussi, la situation des Arts Dcoratifs ne rentre pas dans le cadre de cet alina. Premirement, les photocopies faites par les visiteurs sont systmatiquement emportes par ces derniers, et non pas consultes uniquement sur place au centre de documentation. Deuximement, ce dernier facture les photocopies et en retire donc un intrt commercial. En fait, il nexiste quun seul alina dans cet article L122-5 qui donne presque toutes les autorisations en termes de reprographie. Cest lalina 7 et il est trs rcent, mais il concerne uniquement les personnes handicapes. Voici un extrait de cet alina : Lauteur ne peut interdire la reproduction dune uvre par les tablissements ouverts au public, tels que les bibliothques, archives, centres de documentation et espaces culturels multimdia, en vue dune consultation strictement personnelle de luvre par des personnes atteintes dune ou de plusieurs dficiences des fonctions motrices, physiques, ..

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 141 / 218

3.10.3

Les panoramas de presse de la documentation publicit

Il sagit ici de bien discerner les notions de revue de presse et de panorama de presse , afin de clairement tablir et dmontrer que les produits documentaires proposs dans les dossiers thmatiques de la documentation publicit constituent bien des panoramas de presse et non des revues de presse. Aprs de multiples jurisprudences, la revue de presse fait actuellement partie des exceptions au monopole de lauteur reconnues par larticle L 122-5 du CPI, et doit rpondre trois critres : - reprsenter une comparaison entre plusieurs articles crits par un journaliste (reproduits intgralement ou non) ; - avoir trait un mme thme ou un mme vnement ; - donner lieu (ventuellement) un commentaire ou comporter un lment original fournissant ainsi la matire lui permettant dtre cit dans une autre revue de presse ; En fait, un 4me critre discriminatoire a mme t ajout, puisquon a spcifi que la revue de presse ne pouvait tre quune rubrique journalistique ralise par un organe de presse. Ainsi, la simple reproduction dune srie darticles qui concernent par exemple une entreprise ou ses produits - comme cest le cas dans les dossiers de la publicit o lon trouve par exemple des chemises renfermant des articles consacrs aux marques ou et aux produits phares - ne rpond pas aux critres de la Cour de cassation qui exige des commentaires autrement dit une valeur ajoute autour de ces articles. De mme, on peut citer le cas des press-books - prsents notamment dans certains dossiers documentaires de la documentation de la mode et du textile - qui, du fait de leur non accessibilit au grand public et de leur finalit, ne peuvent pas non plus tre considrs comme des revues de presse. Enfin, pour exclure dfinitivement la possibilit pour le centre de documentation de prtendre la mise en ligne de revues de presse , on retiendra que ces dernires doivent rpondre une exigence dactualit mais aussi de rciprocit et de comparabilit. Or ce nest pas le cas pour les dossiers thmatiques de la publicit ni, dune manire gnrale, pour les dossiers documentaires des autres documentations du centre. On doit donc considrer que les dossiers thmatiques de la publicit sont donc aliments par des panoramas de presse, et non des revues de presse. Dans le systme papier actuel, les dossiers thmatiques sont labors grce juxtaposition darticles qui relve du rgime des compilations et non de la courte citation. Ils proposent en effet des copies de textes reproduits dans leur intgralit, or contrairement la revue de presse ralise dans un contexte journalistique, un panorama de presse qui reprend lintgralit ou des extraits
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 142 / 218

darticles ne fait pas partie des exceptions au droit dauteur admises par la loi. Ainsi, dans la situation actuelle et avant toute rgularisation des Arts Dcoratifs qui passerait obligatoirement par la signature dun contrat auprs du CFC, ces reproductions au centre de documentation sous forme de photocopies sont susceptibles de porter atteinte lexploitation normale de luvre, et de causer un prjudice injustifi aux intrts de lauteur. Le CFC dissocie en fait les panoramas de presse qui sont raliss par les services de communication sur lactualit et les panoramas de presse documentaires qui sont thmatiques catgorie laquelle appartiennent donc les dossiers thmatiques de la publicit labors par le centre de documentation des Arts Dcoratifs. Nanmoins, cette distinction na juridiquement aucun impact car les deux produits, sils correspondent des assemblages darticles photocopis, sont redevables de droits. Ces deux types de panoramas font cependant lobjet de deux rubriques 42 bien distinctes sur le site Internet du CFC, et sont encadrs par des contrats diffrents en termes de redevance et de tarification. Le premier produit est intitul sur le site du CFC : copies raliss dans le cadre de panoramas de presse , et ne concerne pas les centres de documentation. Le deuxime produit, qui concerne en revanche directement notre tude, est intitul copies ralises dans le cadre dun centre de documentation . Il est clairement indiqu que ce contrat couvre les photocopies ralises pour les besoins documentaires, sous forme de copies lunit, de dossiers thmatiques ou documentaires. Ds prsent, il est trs important de souligner que cette distinction entre deux types de panoramas nexiste que pour le format papier, et disparat avec le support lectronique qui fait donc lobjet dune seule et mme rubrique 43 sur le site. Cela sexplique notamment par les modes de gestion des droits qui sont diffrents pour les deux types de support cession lgale pour le droit de reproduction par reprographie, gestion collective volontaire pour les panoramas de presse lectroniques. Dans lhypothse o le centre de documentation continuerait exploiter ses dossiers thmatiques au format papier aprs le lancement du processus de dmatrialisation notamment pendant la priode de numrisation rtrospective du stock des dossiers -, il est donc fortement recommand quil rgularise sa situation et contracte auprs du CFC, afin dviter toute condamnation pour acte de contrefaon. Or pour les panoramas base de

42 43

http://www.cfcopies.com/V2/cop/home.php http://www.cfcopies.com/V2/cop/cop_ea_pano_elec_home.php

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 143 / 218

copies ralises dans le cadre dun centre de documentation , le CFC propose en fait deux options : un contrat type 44 , et un contrat copies fin de vente 45 . Afin dviter tout risque dassignation en justice, et au regard de la jurisprudence, le contrat type nest pas recommand pour le centre de documentation qui facture les photocopies aux visiteurs au titre dune indemnisation des frais induits. Nanmoins, il faut souligner quil est assez regrettable tout particulirement pour les centres de documentation dont le budget est en gnral limit - de ne pas pouvoir disposer dune dfinition prcise et exacte de la notion de fins commerciales , ce qui nest pas le cas lnonc de larticle L122-10 du CPI. En effet, comme cela a t sous-entendu plus haut, cette notion implique-t-elle toute rmunration y compris celle qui permet de couvrir les frais dachat du toner ou du papier, ou implique-t-elle quil faille faire un bnfice ? Sur ce dernier point la jurisprudence montre quil nen est rien, puisque par exemple lors de son procs la Chambre de Commerce de Paris a t considre comme ayant une activit commerciale, alors mme que cette dernire tait dficitaire. Enfin, dune manire gnrale, il faut galement souligner que toutes les dcisions qui ont t prises dans les rcents procs ont dmontr que lautorisation des ayants droit tait requise pour les fournitures payantes de copies darticles, afin dviter une concurrence dloyale. Et lexploitation de la copie relevant du rgime de la gestion collective du CFC, cest ce dernier qui doit demander lautorisation aux ayants droit et bien reprendre dans son contrat les rserves ventuelles formules par les diteurs.

3.10.4 Les lectroniques

aspects

juridiques

des

panoramas

de

presse

Aprs avoir cern les enjeux et les difficults juridiques concernant lalimentation et lexploitation des dossiers thmatiques de la publicit en version papier, il faut ensuite procder une nouvelle analyse dans le cadre du projet de dmatrialisation. Il faut donc se pencher sur les spcificits juridiques du panorama de presse lectronique , objet dune lgislation sensiblement diffrente de celle du panorama de presse papier. La situation pour lenvironnement lectronique est en effet plus complexe, et notamment la loi de janvier 1995 ne permet pas dtendre la cession automatique et obligatoire du droit de reprographie la numrisation. Les rgles pour le document lectronique sont trs diffrentes. Pour les reproductions sur support numrique, aucun systme de gestion collective obligatoire na t mis en place, ce qui signifie que, dans le cadre dune ralisation dun panorama de presse
44 45

http://www.cfcopies.com/V2/cop/cop_ea_centre_type.php http://www.cfcopies.com/V2/cop/cop_ea_centre_vente.php

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 144 / 218

lectronique, les reproductions des articles sont, sauf exception, soumises lautorisation de chaque auteur et/ou diteur. Un nombre assez important dentreprises de presse ont nanmoins dj confi au CFC la gestion de leur droits numriques pour les panoramas de presse proposs sur des intranets. Actuellement, une liste comprenant plusieurs centaines de priodiques dont les diteurs ont pass des contrats avec le CFC est disponible 46 sur le site de ce dernier. Un extrait de cette liste est consultable en annexe 4, la page 178 de ce document. Mais cette liste nenglobe videmment pas lensemble des publications disponibles sur le march, et de plus elle subit priodiquement des modifications assez importantes - ajouts ou suppressions de nombreux titres. Concernant la nature et les clauses des contrats, le systme actuel comporte une chane de relations contractuelles trois niveaux : - un 1er niveau lie les entits utilisatrices des panoramas de presse avec les prestataires de presse ou le CFC ; - un 2me niveau lie les prestataires de services de panoramas de presse avec le CFC ; - un 3me niveau lie les diteurs de presse avec le CFC ; Dans cette chane, on voit bien que cest un contrat du 1er niveau qui concernerait directement le centre de documentation. Et il est trs probable que, vu loffre dsormais trs large et classique du CFC, cest plutt auprs de ce dernier que les Arts Dcoratifs contracteraient. Il faudra tout de mme bien vrifier si le CFC possde le droit dautoriser une reproduction lectronique de chacune des publications concernes par le panorama de presse. En revanche, si les contrats de panoramas de presse lectroniques proposs par le CFC ne satisfont pas le centre de documentation, il existe aussi dautres possibilits. Premirement, on pourra prospecter auprs de prestataires de presse ou dagrgateurs de presse. Deuximement, il est galement envisageable de procder une exploitation directe , ce qui signifie contacter directement les diteurs en vue de ngocier et rdiger un contrat particulier et adapt aux besoins spcifiques du centre de documentation. Tout en sassurant que ces diteurs disposent bien de tous les droits numriques. Prcisons deux points cruciaux : - les contrats passs avec le CFC sont des contrats-type dont les dispositions peuvent toujours tre rengocies ;
ladresse suivante : www.cfcopies.com/V2/repertoire_numerique/PUBLICATIONS_CONTRAT_UTILISATEUR.pdf La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009
46

Page 145 / 218

- ce type de contrat nautorise pas la reprographie, dont les modalits doivent tre rgles auprs du CFC par un contrat dautorisation de reproduction par reprographie duvres protges (on verra plus loin quelles sont les possibilits dimpression offertes par les contrats relatifs aux panoramas de presse lectroniques) ; Dune manire gnrale, lautorisation de raliser un panorama de presse lectronique qui est accorde par le contrat vise : - la numrisation et le stockage technique temporaire des articles sur un support informatique ; - la transmission des reproductions ralises vers des postes de consultation autoriss ; - la reprsentation sur cran informatique desdits articles ; - leur impression en un exemplaire par consultation partir desdits postes ; Le premier et le dernier point soulvent immdiatement de srieuses interrogations, et semblent dj poser problme. Pour tre le plus complet possible, voici ci-dessous une description et un commentaire de chacune des clauses fondamentales du contrat-type, dont on verra que certaines sont donc apparemment assez incompatibles avec le projet de dmatrialisation tel quil a t pens et imagin par le centre de documentation.

La dfinition de lintranet et linterdiction dune rediffusion


Le CFC dfinit un intranet comme tant un rseau local informatique dont laccs et lusage sont rservs aux salaris ou personnels dune mme organisation . Cette dfinition donne par le CFC pose problme et nest pas vraiment adapte la situation, puisque le centre de documentation des muses souhaite naturellement proposer une consultation lectronique de ses dossiers thmatiques, via son intranet, ses visiteurs extrieurs. Cette clause est donc un rel obstacle, que rencontrent en fait bien dautres structures. La dfinition du CFC concernant le rseau intranet est trop troite et ne rpond pas aux besoins concrets des centres de documentations.

Larticle comme unit de base


Contrairement aux contrats du CFC relatifs aux droits de reprographie, les contrats autorisant la diffusion de panoramas de presse lectroniques considrent que cest larticle qui est lunit de base du calcul, et non la page A4. De ce fait, les cots induits pour un produit documentaire lectronique savrent souvent bien plus levs que pour les versions papier.

Un stockage temporaire et une impression papier en un exemplaire


Le contrat-type propos par le CFC autorise la numrisation des articles et leur stockage sur un poste central, mais uniquement pendant la dure du contrat. Autrement dit, la rupture du contrat
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 146 / 218

impose que lon dtruise tous les fichiers stocks. Cette clause est donc trs contraignante. En effet, vu le cot financier lev de ces contrats relatifs aux panoramas de presse, vu la quantit darticles quil est projet de mettre en ligne, et vu que le centre de documentation souhaite entreprendre cette dmatrialisation pour une conservation de type patrimoniale et trs long terme, alors cette clause de stockage temporaire apparat comme contradictoire avec la philosophie du projet de dmatrialisation au muse. Prcisons que ce type de clause nexiste pas pour le papier, o il ny a jamais eu de contrle de ce type. Pour contrebalancer, le CFC autorise nanmoins limpression en un exemplaire de larticle partir de chacun des postes connects lintranet. Dans le cas du centre de documentation, si on imagine par exemple que les consultations lectroniques se fassent exclusivement sur les postes de la salle de consultation, c'est--dire que lon se trouve dans une situation et un systme o les postes personnels des conservateurs ne soient pas configurs pour accder aux dossiers thmatiques numriss, alors, l aussi, le nombre autoris de une seule impression papier par poste connect parat compltement absurde et inadapt aux usages imagins par le muse.

Une limitation du nombre de titres concerns par le dispositif


On a vu que lautorisation accorde par les contrats du CFC concerne les articles parus dans les seules publications dont le CFC gre les droits. En cas de signature dun tel contrat, les Arts Dcoratifs devront savoir avec certitude ce quils peuvent diffuser ou non de faon licite, et par l mme se prmunir contre le risque de poursuites pour contrefaon.

Des articles susceptibles dtre proposs par le CFC sans illustrations


Certains titres de priodiques interdisent, faute davoir pu ngocier les droits, la reproduction de photographies ou de graphiques qui accompagnent les articles. L encore, ce genre de clause ne figure pas dans les contrats signs pour la reprographie, alors mme que le cot dachat pour les panoramas de presse lectroniques est plus lev que pour les versions papiers.

Linterdiction dune rindexation


Cette clause soulve galement une trs grosse interrogation, et parat vraiment contradictoire avec les objectifs viss par la dmatrialisation. Sur le plan de la lgislation, lindexation correspond la reprise des ides, et est libre. Pourtant, dans le paysage lectronique tel quil est peru et rglement par le CFC, toute rindexation lectronique est interdite. Or, la documentation publicit voit au contraire dans la dmatrialisation une formidable opportunit de mettre en place une indexation numrique puissante et souple, afin doptimiser le traitement documentaire et la qualit de ses dossiers thmatiques. Une telle clause apparat donc comme tant quasiment rdhibitoire la signature dun tel contrat par le muse, puisquune telle interdiction est totalement abusive et incompatible avec lactivit dun centre de documentation dont lobjectif est dinsrer les documents dans un cadre de classement homogne.
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 147 / 218

Des quotas darticles imposs dans certains contrats


Il existe, dans la majorit des contrats proposs par le CFC, une limite au nombre darticles consultables chaque mois. Limite fixe par le titre de presse lui-mme, et non par le CFC. Cette clause parat galement inacceptable pour un centre de documentation qui tablit sa slection sur des critres qualitatifs et non quantitatifs.

Une tarification en fonction du nombre dusagers potentiels


Le systme de tarification des droits dauteur mis au point par le CFC est tabli en fonction de trois lments : la redevance moyenne par article, le nombre darticles mis en ligne, et le nombre de postes informatiques ayant potentiellement accs au panorama. Dans le contrat tel quil a t pens par le CFC, pour tenir compte des personnes qui ne liront pas les articles, des abattements sont prvus. Mais cette tarification, fonde sur lusage potentiel, est un paramtre trs alatoire et, malgr les abattements qui sont proposs, elle entrane des cots souvent excessifs. Pour le projet des Arts Dcoratifs, dans lhypothse dune signature dun contrat, il faudra donc au pralable bien dterminer les postes informatiques qui auront accs aux dossiers thmatiques numriss. Notamment il faudra faire un choix important : soit lon souhaite donner laccs cette base darticles lectroniques seulement pour un ou deux postes informatiques de la salle de consultation, soit au contraire lon prfre donner galement laccs cette base pour tous les postes informatiques personnels de tous les conservateurs - et de leurs assistants ? - souhaitant consulter les dossiers thmatiques de la publicit. Aprs avoir dfini cette liste de postes autoriss, il faudra limiter et scuriser laccs la base grce un systme didentification classique et gr par le logiciel de GED. Ainsi, en cas de contrle du CFC, ce systme informatique de GED mis en place et permettant un filtrage des accs permettrait de justifier les termes du contrat sign avec le CFC, dans lequel le nombre dusagers potentiels dclars serait trs infrieur au nombre total de personnes connects lintranet des Arts Dcoratifs.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 148 / 218

Conclusion

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 149 / 218

Cette tude de faisabilit, portant sur le projet de dmatrialisation dune partie des dossiers documentaires du centre de documentation des muses des Arts Dcoratifs, a eu pour objectif de dresser un panorama de la situation actuelle qui soit relativement complet, et de fournir des prconisations et des lments dinformation assez dtaills et approfondis. Ils permettront daider le futur responsable du projet dans ses choix et ses stratgies, et lorienteront vers un numriseur et une solution logicielle de GED qui soient les plus adquats et les plus appropris possibles. Dans ce mmoire ont t notamment abords ou traits : les modalits de lalimentation et du traitement documentaire des dossiers thmatiques, les logiciels documentaires utiliss actuellement au centre de documentation, les besoins et les attentes de ce dernier en termes de numrisation et de stockage informatique, les dernires volutions technologiques en matire de scanner et de GED et leur impact sur les diffrentes tapes de la chane de traitement du document -, les nouvelles possibilits de travail collaboratif induites par la dmatrialisation, les dernires modifications apportes aux contrats dexploitation des panoramas de presse lectroniques. Cette tude ne peut toutefois pas prtendre une quelconque forme dexhaustivit, puisquelle a t rdige par une personne extrieure lorganisme. Lavantage tant de pouvoir ainsi apporter un regard plutt neutre et objectif sur la situation, linconvnient tant de ne pas pouvoir recenser, deviner, ou anticiper absolument tous les besoins du centre de documentation - par exemple pour ce qui concerne les attentes prcises des conservateurs des muses. Les promoteurs de ce projet au centre de documentation, qui portent lide dune dmatrialisation bnfique, devront donc sappliquer finaliser et fixer dfinitivement ces besoins et ces attentes. Par exemple, il serait judicieux dorganiser rapidement des runions propos de ce projet avec tous les futurs utilisateurs concerns, ou bien de livrer ces derniers de petits questionnaires, et ce avant la phase de rdaction prcise dun cahier des charges. Dans la perspective de cette tche de rdaction, ltude de faisabilit aura probablement permis dapporter un certain claircissement, en mme temps quune forme dlan. Toujours afin daider les dcideurs et futurs responsables du projet, il est intressant de citer le travail de lAssociation des professionnels du numrique 47 (Aproged). Cette dernire a men rcemment des tudes dont il est ressorti trs clairement que chaque projet de gestion de documents sous forme numrique tait particulier, tenant naturellement compte des spcificits de chaque organisme. Nanmoins, il est apparu tout aussi nettement quun ensemble de questions taient communes tous ces projets. En partant de ce constat, et aprs
47

www.aproged.org

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 150 / 218

un travail dtudes et de synthses auprs de plusieurs organismes, lAproged a ainsi pu raliser un tableau de questions destines prciser la nature et les caractristiques dun projet de gestion documentaire, ainsi que son contexte technique, conomique et organisationnel. Il sagit en quelque sorte dun guide de bonne conduite, qui est consultable en annexe 6 la page 180 de ce document. Beaucoup de questions prsentes dans ce tableau ont t abordes et traites dans ce mmoire, mais dautres appellent encore certaines rponses ou prcisions, notamment sur le plan des budgets prvus ou sur lorganisation du pilotage du projet. Ce tableau de questions a vocation aider la fixation des bases du projet stratgique que souhaite mettre en uvre le centre de documentation, mais il permettra aussi, et plus simplement, dapporter les preuves de lintrt et de la pertinence de la dmatrialisation. Parmi les bonnes rgles pour la russite du projet de dmatrialisation, on rappellera que ce dernier possde trois volets dimportance quasi gale. La technique constitue le premier volet, souvent le plus facile grer car il est essentiellement li des choix matriels et logiciels adquats. On a vu dans cette tude de faisabilit que les choix dune numrisation des documents textuels au format PDF, dune diffusion de ces derniers sur des serveurs web XML, et dun stockage sur des disques optiques numriques reprsentent la solution la plus adapte et la plus simple et ce dans loptique dun archivage moyen ou long terme. Lorganisation constitue la deuxime facette du projet, dj plus dlicate grer car elle touche au fonctionnement mme du mtier de documentaliste. Et les principaux obstacles pour le centre de documentation sur ce plan organisationnel sont la difficult mettre en place ds lorigine du projet une vritable gestion de projet, ainsi quun manque de personnels. Le troisime volet du projet est le facteur humain, le plus difficile matriser et pourtant celui qui conditionne la russite complte du projet. Dans ce mmoire, il a t ainsi clairement signal que les difficults culturelles pourraient tre le premier frein surmonter pour ce projet aux Arts Dcoratifs. Concernant les documentalistes tout dabord, leur mtier est impact par la dmatrialisation dans le sens o des tches de manipulation du papier comme le dcoupage et le rangement dans des botes sont aujourdhui substitues par lindexation lectronique, la manipulation de logiciels pilotant les scanners et les processus OCR, ou encore la sauvegarde informatique. Il y a donc une ncessit de plus en plus vidente pour les documentalistes de disposer dune double comptence documentaire et informatique, et cette mutation peut tre ressentie par certains comme un rel bouleversement. Ensuite concernant les utilisateurs, dune manire plus gnrale, beaucoup
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 151 / 218

sont encore attachs au toucher et au feuilletage manuel des dossiers papier un processus non reproductible dans le monde numrique et donc irremplaable. Enfin, dans le cas du centre de documentation des Arts Dcoratifs, la dmatrialisation concernera du moins pour ce premier projet - plus particulirement des dossiers thmatiques aliments par des articles de presse, et lon a vu que la faisabilit et la russite du projet passent par une bonne connaissance et analyse de la lgislation actuelle en matire de panoramas de presse lectroniques. Les aspects juridiques reprsentent donc ici un quatrime volet, probablement le plus critique. Dune manire gnrale, on trouve actuellement relativement peu de dossiers outils numriques en ligne sur le web, et lexplication tient clairement aux problmes de droits droit dauteur et droit de reproduction - inhrents au support numrique. En effet, de nature assez diffrente de la majorit des projets qui sont actuellement entrepris par tous les types dorganismes, mais portant en revanche essentiellement sur la numrisation des factures, des courriers et des dossiers clients , les projets de dmatrialisation de dossiers documentaires se heurtent une lgislation trop stricte et manquant de transparence, alors que, paradoxalement, ce sont justement les diffrentes rglementations et lois qui ont permis un vritable dcollage du march de la dmatrialisation - reconnaissance dans le code civil de la valeur probante des documents lectroniques en mars 2001, loi sur la scurit financire (LSF), dcret du 18 juillet 2003 modifiant le code gnral des impts et lgalisant la dmatrialisation fiscale de la facture. On soulignera notamment que le nombre de contrats dautorisation signs par le CFC avec des centres de documentation pour la ralisation de panoramas de presse diffuss sur intranet est faible, en raison de tarifs trop levs. Pour le projet du centre de documentation des Arts Dcoratifs, en cas dimpasse, le dernier recours rsidera dans une ngociation directe avec les ayants droit.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 152 / 218

Bibliographie

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 153 / 218

La bibliographie a t arrte au 2 octobre 2009. Elle est conforme aux rgles de ponctuation simplifies de lINTD, par application des normes sur les rfrences bibliographiques : Z44-005. Dcembre 1987. Documentation. Rfrences bibliographiques : contenu, forme, structure et la norme. NF ISO 690-2. Fvrier 1998. Information et documentation. Rfrences bibliographiques : documents lectroniques, documents complets et parties de documents. Son classement est thmatique. Les rfrences sont rpertories par ordre alphabtique dauteurs lintrieur de chaque thme.

Dmatrialisation
ARCHIMAG. La dmatrialisation : guide pratique. Paris, SERDA, 2008. 96 p. ISSN 07690975

BELAID A, CECOTTI H. La numrisation de documents : Principe et valuation des performances [en ligne]. Article, Universit Nancy 2 - LORIA, 2006 [consult le 2 octobre 2009]. 46 p. <http://hal.archives-ouvertes.fr/docs/00/11/09/27/PDF/evaluation-OCR.pdf>

BOUCHARD Karinne. Numrisation du patrimoine crit et graphique : guide de projet, cahier des charges [en ligne]. L'institut du Patrimoine, 2003 [consult le 2 octobre 2009]. 104 p. <http://www.livre-poitoucharentes.org/sectionbibliotheque/patrimoine/docsressourcespat/doc_download/18-numerisation-documentsecrits-et-graphiques.html>

DINE Aurlia. Mise en ligne de dossiers documentaires : les techniques, les attentes et les craintes. Etude mene partir de l'exemple du service documentation du quotidien conomique Les Echos. 2005. 105 p. Mmoire DESS, INTD. 2005
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 154 / 218

FOURCHER Frdric. La mise en oeuvre des programmes de numrisation dans la fonction publique : tude de cas du centre de documentation du Ministre des sports. 2003. 60 p. Mmoire DESS, INTD. 2003

MINERVA (Ministerial Network for Valorising Activities in Digitisation), Groupe de travail Minerva numro 6. Guide des bonnes pratiques, version1.3 : Identification des bonnes pratiques et des centres de comptence [en ligne]. 3 mars [consult le 2 octobre 2009]. 65 p. <http://www.culture.gouv.fr/culture/mrt/numerisation/fr/eeurope/documents/bonnes_pratiqu es.pdf>

REMIZE Michel, BREBION Patrick. Dmatrialisation : le nouvel espace. Archimag, fvrier 2006, n191, p. 21-29.

WESTEEL Isabelle, AUBRY Martine (textes runis par). La numrisation des textes et des images : techniques et ralisations (actes des journes dtudes organises la Maison de la Recherche les 16 et 17 janvier 2003). Villeneuve-d'Ascq, d. du Conseil scientifique de l'Universit Charles-de-Gaulle, Lille 3, 2003. 190 p. ISBN 2-84467-050-4

Gestion Electronique de Documents


ALIDIERES Agns. Du dossier documentaire papier au dossier documentaire numrique :le cas de la Joie par les livres. 2005. 105 p. Mmoire DESS, INTD. 2005 ARCHIMAG. GED et solutions logicielles : guide pratique. Paris, SERDA, 2002. 96 p. ISSN 1242-1367 BUSCAL Caroline. Conduire un projet de GED. Archimag, mars 2003, n162, p. 40-42 CHAUMIER Jacques. La gestion lectronique de documents. Paris, Presses universitaires de France, 1996. 123 p. Collection Que sais-je ?. ISBN 2-13-047766-6 COUDERC Bruno, PREVEL Laurent. La matrise du cycle de vie du document numrique. In Site de l'Aproged, Publications [en ligne]. Puteaux, Aproged, Octobre 2007 [consult le 2 octobre 2009]. 4 p. <http://www.aproged.org/index.php/Voir-details/Publications/8-MemoLa-maitrise-du-cycle-de-vie-du-document-numerique.html>
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 155 / 218

DUPOIRIER Grard. Technologie de la GED : l'dition lectronique. Paris, Herms, 1994. 228 p. ISBN 2-86601-432-4

MARY Sylvie. La GED. In Site de Business Process Management Services, Articles "Mtier" [en ligne]. Paris, CERPEG, 12 mars 209 [consult le 2 octobre 2009].
<http://www.bpms.info/index.php?option=com_content&task=view&id=4521&Itemid=113>

NUTTIN Guillaume. Systmes de Ged : valuation de l'impact rel. Archimag, juin 2007, n205, p. 37-38

PRAX Jean-Yves, LARCHER Simon. La gestion lectronique documentaire. 3me dition. Paris, Dunod, 2004. 341 p. ISBN 978-2100078912

RANDRIANARIJAONA Bodosahondra. Transformation d'une chane documentaire papier en chane numrique : le cas d'un service Questions / Rponses. 2008. 122 p. Mmoire Titre professionnel de niveau 1, INTD. 2008

ROUMIEUX Olivier, REMIZE Michel. Format : laventure du PDF. Archimag, mars 2003, n162, p. 23-34

TOSCA CONSULTANTS, LENART, Michle (tude ralise par). La gestion documentaire : volutions fonctionnelles et description de dix logiciels. Paris, ADBS Editions, 2004. 185 p. ISBN 2-84365-075-5

TRANCHART Mlanie. Mise en ouvre d'une GEIDE et intrt pour une activit de veille : le cas pratique de l'AFPA. 2007. 74 p. Mmoire Titre professionnel de niveau 1, INTD. 2007

VERNAY Jean-Philippe. Gestion de documents pour la fonction juridique : cahier des charges pour un projet de GED Veolia Environnement. 2008. 74 p. Mmoire Titre professionnel de niveau 1, INTD. 2008

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 156 / 218

Indexation lectronique, mtadonnes


BAUDRY de VAUX Marie, DALBIN Sylvie. Mtadonnes et valorisation de linformation. Documentaliste Sciences de lInformation, 2006, vol. 43, n2, p. 144-147. ISSN 00124508

MENON Bruno. Lindexation lheure du numrique. Documentaliste Sciences de linformation, 2004, vol. 41, n6, p.340-342. ISSN 0012-4508

OCHANINE Hlne. Technologies de reconnaissance optique : des progrs notables ne pas perdre de vue. Archimag, octobre 2006, n198, p. 40-44.

Archivage lectronique
AFNOR Z 42-013 : Spcifications relatives la conception et lexploitation de systmes informatiques en vue dassurer la conservation et lintgrit des documents stocks dans ces systmes

ARCHIMAG. L'archivage lectronique : guide pratique. Paris, SERDA, 2007. 96 p. ISSN 1242-1367

Cornwell Management Consultants plc (traduction franaise par CHABIN Marie-Anne). MoReq : Model Requirements for the management of electronic records. In Site de l'ADBS [en ligne]. Commission Europenne, 2004 [consult le 2 octobre 2009]. 140 p. <http://www.adbs.fr/servlet/com.univ.collaboratif.utils.LectureFichiergw?CODE_FICHIER =1202984252455&ID_FICHE=3413>

RIETSCH Jean-Marc, CHABIN Marie-Anne, CAPRIOLI ric. Dmatrialisation et archivage lectronique : mise en oeuvre de l'ILM, information lifecycle management. Paris, "01 informatique", Dunod, 2006. 207 p. InfoPro. Management des systmes d'information. ISBN 2-10-050077-5

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 157 / 218

Les dossiers documentaires


QUAIRE Franoise, VAISSAIRE Clotilde. Les dossiers documentaires : dossier outil, dossier produit, dossier lectronique. Paris, ADBS Editions, 2005. 61 p. L'essentiel sur... ISBN 978-2843650819

Informatique documentaire
RIVIER Alexis. Aide-mmoire d'informatique documentaire. Paris, ditions du Cercle de la librairie, 2007, 156 p. ISBN : 978-2-7654-0953-3

Aspects juridiques
Association des professionnels de l'information et de la documentation, Commission Droit de l'information (rdig par Michle Battisti). Laccs linformation lectronique : le contrat en questions. Paris, ADBS Editions, 2004. 110 p. Sciences et techniques de l'information. ISBN 2-84365-068-2

BATTISTI Michle. Le panorama de presse: aspects juridiques. Paris, ADBS Editions, 2006. 64 p. L'essentiel sur... ISBN 2-84365-084-4

BATTISTI Michle. Le panorama de presse. Bulletin des Bibliothques de France [en ligne]. 2007, n 2. [consult le 2 octobre 2009], p. 125-125. <http://bbf.enssib.fr/consulter/bbf-2007-02-0125-001>

BATTISTI Michle. Droit et traitement de la presse dans les centres de documentation. Bulletin des Bibliothques de France [en ligne]. 2006, n 5. [consult le 2 octobre 2009], p. 26-30.<http://bbf.enssib.fr/consulter/bbf-2006-05-0026-004>

CFC. Le droit de reproduction par reprographie. In Site du CFC [en ligne]. Paris, CFC [consult le 2 octobre 2009] <http://www.cfcopies.com/V2/leg/leg_repr_repr.php>

CFC. Le droit de reproduction lectronique. In Site du CFC [en ligne]. Paris, CFC [consult le 2 octobre 2009] <http://www.cfcopies.com/V2/leg/leg_repr_elec.php>

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 158 / 218

Collectif AAF, ABF, ADBDP, ADBGV, ADBS, ADBU, ADDNB, AIBM, FFCB. Le projet de loi sur le droit d'auteur et les droits voisins dans la socit de l'information : attention, danger !. Documentaliste-Sciences de l'information, 2005, vol.42, n1, p. 62-63

Commission Juridique de l'Aproged. Le devoir de conseil des professionnels du numrique. In Site de l'Aproged, Publications, Livre blanc [en ligne]. Puteaux, Aproged, 6 mars 2009 [consult le 2 octobre 2009]. 28 p. <http://www.aproged.org/index.php/Voir-details/Publications/31-Livre-Blanc-Devoir-deconseil-des-professionnels-du-numerique.html>

GESTE. Guide pratique pour les utilisateurs de presse : panoramas de presse, rsums et archivages d'articles de presse en intranet. In Site du GESTE [en ligne]. Paris, GESTE [consult le 2 octobre 2009]. <http://www.geste.fr/pdf/Guide-pratique-utilisateurs.pdf>

GESTE. La charte d'dition lectronique. In Site du GESTE [en ligne]. Paris, GESTE [consult le 2 octobre 2009]. <http://www.geste.fr/9_commissions/commi_pres1.htm>

LEMU Michle. Diffuser un panorama de presse en ligne : quels droits ?. Documentaliste Sciences de linformation, 2003, vol. 40, n3, p. 220-225. ISSN 0012-4508

STRA Claire. Les panoramas de presse. Bulletin des Bibliothques de France [en ligne]. 2004, n 6. [consult le 2 octobre 2009], p. 51-55. <http://bbf.enssib.fr/consulter/bbf-200406-0051-007>

SYNDICAT NATIONAL DE LEDITION. La loi du 1er aot 2006 (DADVSI). In Site du Syndicat National de lEdition [en ligne]. Paris [consult le 2 octobre 2009]. <http://www.sne.fr/pages/les-enjeux/evolutions-du-droit-d-auteur/loi-du-1er-aout-2006dadvsi-.html>

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 159 / 218

Annexes

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 160 / 218

Annexe 1 : Numrisation et numriseurs


Critres de choix pour le numriseur de documents
Caractristiques
Format des documents Vitesse de numrisation Volume quotidien Facilit de maintenance Rsolution Mode de numrisation Type de numrisation Particularit Prix

Importance Valeurs typiques ou remarques


Haute Haute Haute Haute Moyenne Moyenne Moyenne Moyenne Basse A4,A3,A2,Microfilm 15 pages/mn, 200 pages/mn, 1000 pages/jour, 20000 pages/jour Remplacement des rouleaux, des lampes 300 dpi Chargeur automatique, plat, Bitonale, Gris, Couleur Recto/verso, tourne-pages, Le prix est le dernier critre de choix

Tableau de questions permettant de sorienter vers des choix technologiques


Etape Choix
Scannage : entranement automatique ou manuel ? Quel scanner ? Quelle rsolution ? Quel format de fichier en sortie ? A raliser en interne ou en externe ? Disque dur, CD, DVD, DON WORM, Bande magntique ? Reconnaissance Automatique de Documents (RAD) ? Lecture Automatique de Documents (LAD) ? OCR ? (avec ou sans relecture humaine) / ICR ? Saisie manuelle ? Quels types et combien de fichiers produire pour rpondre aux contraintes d'exploitation ? Quel identifiant ? Quelles mtadonnes? Quelle structuration des mtadonnes ? Quelle norme adopter ? Quel format de fichier pour l'affichage, pour l'impression, pour la conservation ? Quels accs ? Quelles fonctions ? Quelle diffusion ? Quelle gestion des accs ? Portail ?

Acquisition numrique

Stockage

Interprtation

Traitement documentaire

Exploitation

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 161 / 218

Tableau rcapitulatif des dfinitions de numrisation adquates en fonction des modes numrisation et des types de documents
Type de document Texte
texte et dessin au trait texte illustr noir et blanc niveau de gris texte illustr couleur cartes en couleur couleur 24 bits couleur 24 bits 300-400 dpi 200-300 dpi 200-300 dpi bitonal bitonal 600 dpi 600 dpi

Mode de numrisation

Dfinition

Images
images demi-tons images demi-tons en couleurs bitonal couleur 24 bits 600 dpi avec lissages l'cran au moins 1.5 fois la linature

Manuscrits et documents spciaux


dactylographie, impression laser, stylo bille stylo encre, plume d'oie, feutre documents dgrads papyrus bitonal bitonal bitonal couleur 24 bits au moins 300 dpi 300 dpi 300 dpi 600 dpi

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 162 / 218

Tableau rsumant ladaptation fonctionnelle du numriseur au type de document


Numriseur
Scanner plat Scanner plat + chargeur

Caractristiques
Les plus courants Permet la production de fichier multipages - Peu de prcision - Transportables - Coteux - Trs spcifiques la reprise darchives anciennes Adapts aux documents traiter : taille, relief du cadre des diapositives, agrandissement (pellicule). - Lents - Trs haute rsolution - Trs chers

Type de document
- Pages simples (ex : courriers) - Ensemble de feuillets - Contrats - Code barre - Segments courts (identifiants) Reprise de fonds de films, microfiches, cartes microfilm - Diapositives - Transparents

Scanners main

Scanners microformes

Scanners diapositives, ngatifs ou transparents

Les scanners tambour

- Pr-presse - Industrie - Documents relis et fragiles - Livres patrimoniaux

Les scanners livre ouvert ou scanner vertical - Appareil photo numrique mont sur un support associ des projecteurs, crans de contrle, ventuellement systme de tourne - Lents

Bancs de reproduction

Pour documents fragiles, grands formats, 3D, volumes relis

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 163 / 218

Caractristiques du mode Bitmap


Standard (proprit dAdobe) multi plateforme : - scanners ; - photo numrique ; - imprimantes ; Pas de perte de qualit. - Il stocke les caractristiques dune image dans un format balis. - Standard trs utilis en reprographie, mais pas forcment intgr aux applications bureautiques (ncessite lutilisation dun plugin). - Permet de stocker des images haute rsolution sans dperdition de qualit. - Inconvnient : le poids du fichier. - Gre le multipage. - Recommand pour larchivage du fichier de rfrence. - Pas adapt la consultation en ligne. - Recommand pour la photo.

Tif ou Tiff (Tagged Image File Format)

Jpeg (Joint Photographic Experts Group)

Norme ouverte de compression numrique (taux de compression rglable).

- Format de compression trs efficace mais avec perte de qualit. - Trs adapt au web (lger). - Adapt la photographie (16,7 millions de couleurs, bon rendu des dgrads). - Ne gre pas les transparences.

- Adapt la consultation de photos en ligne. - Ne pas utiliser comme format de rfrence. - Ne pas utiliser pour des contrats.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 164 / 218

Caractristiques du mode Vectoriel


Format mis au point par Adobe il y a une quinzaine dannes, devenu depuis un standard. - Utilis dans les imprimeries pour la production de tout le matriel imprim : journaux, livres, plaquettes, brochures. - Prserve les polices dcritures, les images et les objets graphiques du format source. - Associe image et caractres. - Trs rpandu, le lecteur tant intgr de nombreux appareils. - Gourmand en taille mmoire. - Interactif. - Gre le multipage. - Plutt destin limpression ou la photo composition plutt qu larchivage.

Postscript

PDF Portable Document Format

Format ouvert, cr par Adobe comme volution du format Postscript.

- Adapt pour une consultation lcran sur des plates-formes diverses (ordinateurs, PDA, mobiles). - Formulaires en ligne. - Conservation des contrats.

Tableau de facteurs pour la dmatrialisation


Facteur
Le type de document

Options
- article de presse ou de revue ; - formulaire ; - livres ; - iconographie ; - manuscrit original ; - contrats ; - documents administratifs ; - plans ; - catalogues ; - La taille : A4, A3, plan, format spcifique. - La couleur : de la typographie et du fond ; - Le papier : grammage, tat ; - La pagination : document multipage, liasse, agraffage, reliure, collage, document faonn, pli, cartonnage, etc ;

Influence
- La forme de l'objet dmatrialiser : Texte ou graphisme, imprim ou manuel, couleur ou noir et blanc ; - Le contenu : Texte riche ou formulaire modlis, structure forte ou non ; - L'usage futur : Preuve, dure de conservation, lecture in extenso, modification, achat, accs libre ou contrl, etc ; - Type et cot du scanner ; - Poids du fichier stock ; - Ergonomie de consultation (taille de l'cran) ; - Faisabilit de l'OCR ; - Risque de dgradation de l'original ; - Automatisation de la dmatrialisation ; - Cot de l'opration en raison des manipulations humaines raliser ; - Production de fichiers multipages ;

Le format du document

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 165 / 218

Les volumes traiter et l'accroissement

Volume important

- Mthode et cot du scannage (automatisation ou sous-traitance) ; - Contrles qualit par sondage ; - OCR et recherche plein texte plutt qu'indexation manuelle ; - Classification ; - Systme de stockage ; - Organisation de l'envoi des documents au scannage ; - Mthode de scannage (automatisation) ; - Qualit de l'OCR ; - Cot de l'opration ; - Pertinence de traiter ces documents dans un mme projet ; - Choix du scanner ; - Choix de la mthode ; - Choix de traiter les documents sur place (cration d'un atelier, cot de la main duvre en interne) ou dexternaliser ; - La faisabilit du projet peut tre remise en question ; - Prennit du support, du format de fichier, du logiciel de consultation ; - Signature lectronique ; - Datage, identifiant unique ; - Identification des accs, des profils d'utilisateurs ; - Le traitement OCR est-il utile ? - La lecture doit-elle se faire sur le document OCRis ? - Prvoir le systme de gestion des contenus et des versions ; - Prvoir le systme de scurisation ; - Prvoir les alertes (workflow) ; - Assurer la prennit avec des recopies rgulires sur nouveaux supports ;

L'homognit du fonds

- Documents de formats, polices et couleurs diffrents ; - Documents de natures diffrentes ;

L'tat et la fragilit du document initial

Documents fragiles ou prcieux.

La juridiction lie au document

- Document non reproductible ; - Document preuve ; - Droit d'auteur ;

L'exploitation prvue et la prennit

- Pas de recherche sur le texte du document ; - Le document lectronique sera lu ; - Le document sera modifiable ; - Le document ne doit pas tre modifi ; - Le document doit tre dtruit ; - Le document ne doit pas tre dtruit ;

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 166 / 218

Annexe 2 : Les supports de stockage


Les formats courants de bandes magntiques
Mdia
AIT-I AIT-2 AIT-3 DAT DAT DDS3 DAT DDS4 DLT LTO LTO2 S-AIT SDLT VXA-I VXA-2

Capacit
(en gigaoctets) de 25 70 de 50 130 de 100 260 de 4 8 de 12 24 de 20 40 de 40 80 de 100 220 de 200 400 500 de 110 220 de 33 66 de 80 160 3 6 12 1,5 3 6 5 15 30 30 11 5 6

Transfert
(en megaoctets par seconde)

Comparaison des supports de stockage


Technologie
Disques magntiques

Destination
Donnes courantes, accs rapide en ligne plusieurs traoctets Archives, donnes scurises, accs en ligne plusieurs dizaines de traoctets Sauvegardes, accs en ligne plus de cent traoctets

Avantages
Trs rapides Amovibles, infalsifiables, grande dure de vie, taille illimite sur tagre, prix Grandes capacits, amovibles, prix du support

Inconvnients
Prix, non amovibles, non archivables, facilement effaables

Disques optiques non-rinscriptibles

Mode dcriture, temps daccs

Bandes magntiques

Temps daccs trs lent, dure de vie assez faible, facilement effaables

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 167 / 218

Annexe 3 : Prsentation de loffre logicielle EverSuite


Au cours de la priode de ralisation de cette tude de faisabilit, lditeur Ever Team a organis une journe de sminaire sur la dmatrialisation, laquelle il nous a convi. Cette journe avait vocation exposer les grands principes mthodologiques et techniques de ce type de projet. Elle fut illustre par une prsentation de EverSuite qui est le produit phare de lditeur, ainsi que par lexplication dun projet de dmatrialisation ayant t ralis pour le compte du CNRS 48 , et dont la matrise duvre avait notamment t confi la socit BT technologies, spcialiste de lintgration - le CNRS et BT technologies taient donc participants et co-organisateurs de ce sminaire. Ever Team est aujourdhui le premier diteur Europen de solutions intgres de gestion de contenu dentreprise (ECM Entreprise Content Management), et un des atouts de ses solutions est quelles sont fortement orientes mtier , couvrant lensemble du spectre fonctionnel de la gestion de contenu dentreprise, culturel et patrimonial. Actuellement, toute application mtier peut tre amene traiter, partager ou utiliser des documents issus de sources multiples, et linformation est dsormais un composant part entire des processus organisationnels. Cette information peut tre structure ou non structure, et des outils de gestion lectronique de documents peuvent tre la cl pour lintgrer dans les processus et les applications mtiers de manire transverse au sein du systme dinformation. Mais comment pourrait se traduire concrtement une telle gestion transversale de linformation au sein du centre de documentation des muses des Arts Dcoratifs ? Si on analyse lexistant et les bases de donnes des collections des diffrents dpartements du muse, gres par les logiciels Micromuse et Mobytext de lditeur Mobydoc, on constate quil nexiste pas de systme dinformation globale pour toutes les collections. En effet, le muse nest mme pas dot de loption MUM propose par Mobydoc et qui permet lintgration des deux logiciels spcialiss Micromuse et Mobytext en un systme unique. Avec cette option, chaque logiciel garde pourtant son interface qui lui est propre et qui correspond au mtier de lutilisateur. Mais lavantage crucial apport par le MUM rside dans le fait que les donnes de chaque collection sont immdiatement accessibles tous les services, et que par exemple les fichiers dautorit et les thsaurus sont partageables.

48

Centre national de la recherche scientifique.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 168 / 218

Nanmoins, si sur le seul plan de la gestion des collections une option comme le MUM pourrait permettre et encourager une circulation transverse de linformation, en revanche, pour le reste du fonds - abonnements aux revues, dossiers thmatiques, dossiers dartistes, etc - limplmentation dun logiciel de gestion de contenu comme EverSuite (qualifi de solutions mtiers ) parat indispensable. On a vu en effet que les logiciels de Mobydoc navaient pas vocation grer des documents aussi varis en termes de contenu, de degr alatoire de structuration, de nature, de description - et volumineux que ceux que lon peut trouver dans les dossiers documentaires du centre de documentation. Dautant que le spectre fonctionnel de ces outils est trs incomplet sur le plan de la gestion de contenu, puisquils ne contiennent pas de module dacquisition, ni de module de processus et de travail collaboratif. Un produit comme EverSuite dispose en revanche dun spectre fonctionnel complet, permettant de dployer et dadapter chaque besoin et chaque attente : - une application de gestion documentaire - une dmatrialisation des processus - une solution darchivage Ce qui rend possible : - une valorisation du capital informationnel et patrimonial - une gnralisation et une facilitation de sa mise disposition auprs de tous les utilisateurs et consultants potentiels

Voici la dcomposition du spectre de EverSuite :

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 169 / 218

Voici larchitecture technique ouverte de EverSuite, qui assure une intgration facile au systme dinformation :

EverSuite, comme la plupart des offres ECM actuelles, prsente 3 dimensions : - Sur le plan purement informatique et technique, cest une plate-forme dECM dite J2EE full SOA . J2EE signifie Java 2 Enterprise Edition, et constitue la plate-forme (ou framework ) Java 2 destine un usage professionnel avec mise en uvre des serveurs. J2EE sappuyant entirement sur le Java, il bnficie des avantages de ce langage, en particulier il assure aux applications une excellente portabilit et maintenabilit. J2EE repose sur des composants distincts, interchangeables et distribus, ce qui signifie : - quil est trs simple dtendre larchitecture ; - que le systme prsentera une haute disponibilit et garantira une bonne qualit de service ; - que la maintenance des applications est facilite ; Quant la notion de SOA (Services oriented architecture), elle est apparue en 2003 dans la foule de lmergence des Web Services, et dcrit une nouvelle manire dimplmenter un plan durbanisation informatique . Elle permet la ralisation des objectifs stratgiques grce lalignement du systme dinformation sur les processus mtiers de lorganisme. Plus globalement, la SOA a t en fait conue pour jouer un rle de langage de communication universelle entre environnements informatiques. Mais le point le plus important et retenir en matire de SOA, cest que sa mise en uvre ncessite dexploiter des outils de
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 170 / 218

dveloppement et de dploiement particuliers, et dappliquer un mode de gestion de projet spcifique, caractris notamment par un travail conjoint de la DSI avec les directions oprationnelles pour dfinir et optimiser les processus mtiers. - Deuxime dimension des offres ECM actuelles : les solutions dites fonctionnelles. Il sagit en fait dune dcomposition de la solution en fonctions - traduites par des modules en termes de packages logiciels : capture, gestion de contenu et des processus, archivage, travail collaboratif, publication. On a vu au cours de cette tude de faisabilit que le projet de dmatrialisation du fonds de la publicit ne ncessiterait pas la mise en place dun vritable workflow, ni dun moteur de rgles, ni dune corbeille de tches. Au stade actuel de ltude et du projet, la fonction ou module processus et travail collaboratif ne simposerait pas dans la solution ventuellement retenue. - Troisime dimension des solutions ECM actuelles : leurs spcificits mtiers leur permettant de sadapter chaque secteur dactivits. Aprs avoir expos ces 3 dimensions, il est galement possible de synthtiser en 3 points la force dune plate-forme de gestion de contenu comme celle dEver Team. Un 4me atout relatif aux connecteurs - ne concerne pas directement la configuration actuelle au centre de documentation, nanmoins il est trs important pour les entreprises et est souvent mis en avant par lditeur Ever Team.

Une conception modulaire


Tout dabord, le logiciel prsente et propose une conception modulaire, afin de fournir des applications les plus personnalises et les plus volutives qui soient. La plate-forme comprend donc plusieurs dizaines de composants fonctionnels prts lemploi, indpendants mais intgrs. Ce qui permet de couvrir lensemble des tapes de traitements du document, depuis la conception et la capture jusqu larchivage et la destruction du contenu. Et cest cette approche oriente services qui permet chaque organisation de slectionner uniquement les composants ncessaires. Pour le projet au centre de documentation, il ny a par exemple aucun besoin rel de disposer dun composant de conception ou de production numrique, puisque le fonds actuel est totalement papier lorigine. De mme il nest pas ncessaire de mettre en place une organisation de destruction systmatique de certains contenus numriques, puisque tous les documents numriss injects ont vocation larchivage sur le trs long terme. En revanche, lapplication ralise et livre par Ever Team pour un client peut tout fait tre enrichie dans le futur par des composants complmentaires si un besoin apparat ou si une volution fonctionnelle simpose. Aucune application du style
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 171 / 218

de celle de EverSuite nest fige et dfinitive. Ce qui prsente un avantage majeur ayant t soulign plusieurs reprises par les reprsentants dEver prsents au sminaire - pour les organismes qui prvoient une dmatrialisation progressive petit pas . Cette dernire est la stratgie adopte par la majorit des candidats actuels la dmatrialisation et qui nont souvent pas les moyens - en temps, et financirement de refondre et de numriser en une seule fois tout leur fonds et toute leur organisation. Il est galement ressorti de ce sminaire que la plupart des projets actuels reposent sur une stratgie de clonage numrique des processus papiers existants.

Performance et robustesse
Deuxime atout dun produit comme EverSuite : la robustesse et la performance. Lapplication peut en effet grer un nombre quasi illimit denregistrements - plusieurs centaines de millions de pages pour certains projets -, dans le cadre dun workflow comportant plusieurs dizaines de milliers de tches, et concernant plus 150000 utilisateurs potentiels. Pour le projet des Arts Dcoratifs, les performances exiges en termes de workflow et de nombre dutilisateurs sont trs loin de ces chiffres. En revanche, concernant le nombre denregistrements et de pages PDF grer, les besoins en robustesse et en performance pourraient rapidement devenir trs levs si la dmatrialisation venait stendre et toucher toutes les documentations du centre. Dautant que, en plus des dossiers documentaires, le centre de documentation a commenc rflchir sur lopportunit dune numrisation des dossiers duvres, et aussi de certaines revues mortes qui sont aujourdhui considres comme un patrimoine historique et culturel. Ces dernires sont actuellement stockes dans les compactus, et il a t fait un premier recensement de celles quil serait immdiatement intressant de dmatrialiser. Parmi celles-ci on trouve : Vendre, Arts et mtiers graphiques, Lestampe et laffiche. Dans cette perspective, laccumulation de tous ces documents numriss commencerait ainsi reprsenter une masse de fichiers trs importante, ncessitant pour leur gestion une application trs robuste. Et, dune manire gnrale, dans tout investissement informatique il est non seulement indispensable de bien cerner les besoins actuels mais aussi de savoir anticiper les ambitions qui pourraient rapidement apparatre dans un deuxime temps. Il est donc fortement souhaitable que le logiciel dj acquis puisse supporter ces nouveaux besoins et rpondre aux nouvelles attentes.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 172 / 218

Scurit
Troisime force de EverSuite, une bonne gestion de la scurit avec les protocoles SSL 49 et une extension de la mise en uvre de la signature lectronique tous les composants de la plateforme. Nanmoins, les dossiers thmatiques de la publicit ne prsentent pas de documents valeur probatoire, institutionnelle ou administrative. Et loption de signature lectronique, par exemple, ne figure pas parmi la liste des besoins tablis, et ne sera donc pas exige imprativement pour lapplication de GED. Cependant, de la mme manire que pour les exigences en matire de volumtrie des donnes manipules, les besoins en scurit pourraient tre amens voluer si lutilisation de la GED se gnralise dautres fonds. Il est donc ncessaire danticiper et de bien peser les options qui seront ou pas choisies initialement avec le logiciel. Par exemple, la dcision de numriser une partie des dossiers duvre induirait forcment une hausse des besoins en termes de scurit, de contrle et de surveillance. Lusage de signatures lectroniques pourrait alors savrer indispensable, notamment pour assurer lintgrit des documents numriss et le scellement des donnes.

Les connecteurs
Enfin, EverSuite intgre un ventail de connecteurs qui sont fournis avec lapplication, afin de faciliter son intgration au sein du systme dinformation existant. Concernant le systme du centre de documentation, les seules vritables exigences en matire de connecteurs mtiers concerneraient les applications mtiers Micromusee et Mobytext, qui sont trs spcifiques la gestion de collections patrimoniales. Mais les solutions de GED actuellement sur le march ne proposent pas par dfaut de connecteurs avec ces applications de la socit Mobydoc. De manire plus gnrale, il ny a pour ce projet au muse aucun besoin de dialogues avec des applications mtiers du type ERP (Enterprise Resource Planning ou Progiciels de gestion intgrs) qui coordonneraient lensemble des applications du muse. Ltude rvle aussi quil nexiste aucun besoin de dialogues avec des applications du genre CRM (Customer Relationship Management ou Gestion de la relation client).

49

Secure Sockets Layer.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 173 / 218

Voici un document qui expose les solutions de gestion de contenu fonctionnelles proposes par le logiciel de la socit Ever Team. On voit que ces solutions constituent une suite modulaire et intgre, pouvant tre combines en fonction des besoins actuels et futurs.

Il est important de souligner que la socit Ever Team a galement dclin sa plateforme ECM EverSuite J2EE en une autre version ddie spcifiquement la gestion de contenu culturel et patrimonial.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 174 / 218

Cette solution, elle aussi mtiers , se dnomme Flora et se dcline elle-mme en 3 versions : - Flora Library, qui offre une couverture fonctionnelle complte ddie la gestion et la valorisation de lensemble des collections des bibliothques et des centres de documentation - Flora SID, qui propose un service complet de production et de valorisation documentaire au sein du systme global dinformation - Flora Archives, qui offre une couverture fonctionnelle complte de gestion des archives physiques adaptes aux organismes publiques Mme si EverSuite et Flora reposent sur une mme plateforme technologique et disposent des mmes standards dcrits plus haut, il nen reste pas moins que les solutions Flora sont donc des applications de gestion de contenu ayant t conues la carte pour les activits lies la culture et au patrimoine. Cependant, si on dtaille prcisment les fonctionnalits de ces trois produits Flora, on constate quaucun dentre eux nest vraiment adapt la gestion de dossiers thmatiques aliments par des panoramas de presse. Pour notre projet de dmatrialisation au centre de documentation, il est donc prconis de sorienter plutt vers un produit de type EverSuite tout en prcisant que la bibliothque des Arts Dcoratifs exploite dj Flora Library qui est potentiellement capable de grer tous les types de ressources documentaires, sans limite ni restriction autrement dit les bases des collections, les dossiers thmatiques, les dossiers dartistes, les dossiers duvres, le catalogage des ouvrages, le bulletinage des revues, etc.

Lexemple de la Documentation franaise avec son projet de Gestion de lInformation Publique sur Internet
Dans le cadre du projet de Gestion de linformation publique sur Internet (GIPSI), la Documentation franaise a choisi EverSuite pour amliorer la gestion de ses ressources documentaires htrognes et en nombre croissants et de son patrimoine documentaire, ainsi que valoriser linformation diffuse sur le portail tout en facilitant sa publication. Daprs les tmoignages des documentalistes, les bnfices immdiats dun tel projet ont t : - une simplification de loutil de travail des documentalistes ; - une meilleure qualit de lindexation des documents ; - un gain de productivit ; - une valorisation de linformation actuelle et future ;
La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 175 / 218

Afin dapporter quelques prcisions sur le plan technique, voici quelles taient les spcifications : - un serveur dapplication Tomcat ; - le SGBDR tait MYSQL ; - une intgration totale au systme de publication Web existant ; Concernant les enjeux de ce projet, et pour donner un ordre dide propos des volumes, on peut prciser que la Documentation franaise est en charge dun immense patrimoine, avec notamment prs de 4000 rapports publics et plus de 75000 dpches chronologiques. Afin de corroborer les explications apportes plus haut et concernant les activits documentaires des Arts Dcoratifs, il est utile de prciser que la solution retenue pour ce projet la Documentation franaise fut une option dite gnrique de gestion des ressources documentaires, en privilgiant : - la notion de paramtrage sur les dveloppements spcifiques ; - les standards (J2EE, XML, Oracle ou MySQL) sur les formats propritaires ; Cette solution gnrique peut donc voluer ultrieurement par lajout de briques pour de nouveaux usages. La Documentation Franaise a ainsi dcid rcemment la mise en uvre dune petite bibliothque numrique . La transition vers ce systme EverSuite, rpondant lensemble des besoins fonctionnels de GED exprims, a t ralise avec souplesse grce : - limplication de tous les documentalistes ; - des runions rgulires avec les utilisateurs ; - une petite formation assure par Ever Team auprs des documentalistes ; Avec cet outil de GED, les documentalistes peuvent raliser et valider les notices descriptives pour chacun des documents. EverSuite, tout comme dautres solution de GED puissantes, dispose notamment dune fonction de catgorisation - fonction de plan de classement - qui peut mme dans certains cas permettre un traitement automatique. En amont de sa mise en production, cela ncessite la structuration d'un arbre de catgories, c'est--dire un outil d'aide la construction des plans de classement. Dans le systme mis en place la Documentation Franaise, cette fonction est en fait coupl un thsaurus qui est refondu et actualis rgulirement, ce qui permet dindexer les documents de faon dtaille.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 176 / 218

Cette catgorisation se fait automatiquement grce lidentification de mots et de thmatiques cls, et cest un outil complmentaire lindexation manuelle. Pour le cas particulier des dpches chronologiques qui sont trs courtes, loutil de catgorisation est devenu si performant que la qualit de lindexation est dsormais quivalente celle ralise par les documentalistes. Cet outil ne ncessite quune validation rapide de la part du documentaliste. Les documents sont donc classs automatiquement dans un plan de classement thmatique et chronologique. Sur le plan de la publication Web, la Documentation franaise se montre trs satisfait du choix de la puissance qui a t fait avec XML, ce qui permettra dans lavenir de valoriser ce fonds patrimonial. Au final, cette solution de GED a permis : - un gain de productivit (en volume et en vitesse) ; - une ractivit dans la mise jour ; - une simplification de loutil de travail des documentalistes ; - une meilleure qualit de lindexation grce notamment aux nombreux outils daide la saisie, lassistance des tables et listes dautorit, loutil de catgorisation automatique ; - une organisation structure et une vue plus conviviale de linformation grce au plan de classement et un thsaurus redevenu vivant ;

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 177 / 218

Annexe 4 : Extrait de la liste des publications dont le CFC gre les droits pour les reproductions et reprsentations numriques

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 178 / 218

Annexe 5 : Organigramme des Arts Dcoratifs

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 179 / 218

Annexe 6 : Le guide de bonne conduite 50 de lAproged


N
1 2 3 4 5 6 7 8 9

Questions
En quelques mots, pouvez-vous dcrire en quoi consiste le projet portant sur la gestion des documents sous forme numrique ? Quels sont les cinq principaux objectifs poursuivis ? Le projet est-il considr comme critique ? (expliciter les raisons, que la rponse soit positive ou ngative) Quels sont les documents (et/ou informations) viss par le projet ainsi que les services internes concerns ? Quelles sont les rglementations gnriques ou spcifiques impliques du fait du projet ? Etes-vous confront des obstacles juridiques majeurs ? Si oui lesquels ? Quels rfrentiels et normes techniques sont retenus dans le cadre du projet et pour quelles raisons principales ? Quelles solutions sont retenues (internes/externes matrielle, logicielle, applicative, etc) ? Quels sont les critres essentiels de choix pour retenir telle ou telle solution (couverture fonctionnelle, prennit, volutivit, indpendance (ex : logiciel libre), niveau de technicit, cot, conformit, etc) ? Comment est organis le pilotage du projet ? Quels sont les profils des personnes internes (et/ou externes) qui mnent le projet ? Quels sont les profils des personnes internes (et/ou externes) concernes par la mise en uvre des solutions retenues lissue du projet ? Quelle est la dure prvue entre la prise de conscience / volont dagir et la dcision de lancement du projet ? Quelle est la dure prvue entre la dcision de lancement du projet et le lancement effectif du projet ? Quelle est la dure prvue entre le lancement du projet et la mise en uvre oprationnelle puis ventuellement le dploiement ? Quels sont les budgets prvus pour raliser le projet, par principal poste (tude, acquisition, services, formation, etc) ? Quels sont les gains envisags du fait du projet puis de sa mise en uvre, par principal poste ? Quelle documentation a t produite du fait du projet ? (politique de gestion du cycle de vie du document numrique, politique darchivage, plan de classement des documents, etc) ?

10

11

12

13

Source : Direction gnrale de la modernisation de l'tat. Gestion des documents numriques et de leur contenu. In Site de l'Aproged, Publications, Livre blanc [en ligne]. Puteaux, Aproged, 6 octobre 2008 [consult le 02 octobre 2009]. Guide de bonne consuite, page 17. <http://www.aproged.org/index.php/Telecharger/Publications/7-Livre-Blanc-Gestion-des-documentsnumeriques-et-de-leur-contenu.html?chk=2d6c0c9f15ddb54085a5fe40093059a3&no_html=1>

50

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 180 / 218

14 15 16 17

Estimez-vous avoir suffisamment dinformations (notamment dorigine publique) ou daide pour mener le projet ? Lapprhension du projet par les utilisateurs finaux a-t-elle t facilite ? (communications, plan de formation, etc), est-elle suffisante ? Pensez-vous tre confront des obstacles majeurs pendant le projet ou durant la mise en uvre des solutions, lesquels ? Quels sont les rsultats attendus du projet par les dcideurs : - Volont de productivit, - Mise en conformit lgale et rglementaire, - Pression du march ou dentreprises partenaires, - Meilleure gestion mtier , - Etc. Quelles sont les perspectives et les tapes suivantes du projet ? Quels sont les deux ou trois principaux conseils que vous pourriez souhaiter avoir ?

18 19

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 181 / 218

Annexe 7 : Extrait du plan de classement des dossiers thmatiques de la publicit


Achat despace Affichage Affichage dans le mtro Affichage mobile Affichage route Affiche de librairie Afficheurs Agriculture Alimentation Alimentation animale Alimentation pour animaux Ameublement Animal et pub Architecture commerciale Art et pub Automates Automobile B to B Bande dessine Banque Beaut Boisson alcoolise et non alcoolise Campagne collective Clbrits dans la pub Chromos Cibles publicitaires Cinma : media planning Cirque Co-branding Communication culturelle Communication de crise Communication institutionnelle Consumer magazines Conte de fes/mythologie/imaginaire Cration publicitaire Danse Design : design intrieur/fonctionnel, design objets, signaltique/urbanisme, thorie et stratgie du design/packaging, techniques et matriaux demballage Dtournements publicitaires Dveloppement durable Diable laffiche Disruption Distribution

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 182 / 218

cologie dition Effets spciaux (film publicitaire) Efficacit/mmorisation publicitaire lectromnager nergie Enfant et publicit quipement de la maison Est dans la pub Expositions/manifestations Fausse pub/pub fantme Femme dans la pub Flacons de parfums (design) Gomarketing Glocalisation Graphisme et publicit Histoire (L) dans la pub Histoire de la publicit Histoire du graphisme Historique de laffiche Homme dans la pub Homosexuels (cibles publicitaires) Humour et pub Identit visuelle Imprimerie/imprimeurs Industrie du luxe Industrie pharmaceutique Informatique/bureautique Intrt collectif Internet : mdia planning, fournisseurs daccs, format publicitaire, mesure daudience, logiciel anti-pub, publicit sur Internet Jeunes (cibles publicitaires) Jeux de hasard Jeux jouets Lancement de produits Langage publicitaire Loterie nationale Manifestations publicitaires Marionnettes Marketing thique Marketing mobile Marketing olfactif Marketing sensoriel Marques de distributeurs Mcnat et sponsoring Media planning : mesure daudience, placement de produits sur diffrents supports Media : chanes de tlvision, station de radio et presse Mode Mondialisation /globalisation

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 183 / 218

Annexe 8 : La structure des botes darchives


Voici quelques photos illustrant la structure interne d'une bote d'archives. Il a t pris ici comme exemple la bote portant le titre principal "Boissons non alcoolises 2" (2me des deux botes d'archives consacres ce thme). Il est indiqu sur l'tiquette de cette bote une srie de titres secondaires, correspondant aux sous thmes de la bote : - Sodas - Jus de fruits - Sirops - Apritifs sans alcool - Boissons nergtiques

Photo illustrant en exemple deux articles dcoups au ciseaux (et non recolls sur des feuilles A4). L'un partir d'une photocopie, l'autre partir d'une revue originale.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 184 / 218

Photo illustrant des sous-chemises plastique transparentes dans lesquelles sont ranges des photocopies d'articles.

Photo illustrant la chemise papier intitul "Jus de fruits" dans laquelle sont ranges diverses sous-chemises plastique transparentes.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 185 / 218

Photo illustrant diverses chemises papier qui sont ranges dans la bote d'archives.

Photo illustrant l'intrieur de la bote d'archives.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 186 / 218

Photo illustrant les deux botes d'archives intitules "Femme et publicit" et "Boissons non alcoolises 2".

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 187 / 218

Annexe 9 : Comparaison entre un systme de GED et un SAE

Un systme de GED - permet la modification des documents et la production de plusieurs versions ; - peut permettre la destruction des documents par leurs auteurs ; - peut comporter la gestion de dures de conservation ; - peut comprendre une structure organise de stockage, sous le contrle des utilisateurs ; - est priori ddi la gestion quotidienne des documents pour la conduite des affaires.

Un Systme dArchivage Electronique - interdit la modification des documents ; - interdit la destruction de documents en dehors dun contrle strict ; - comprend obligatoirement un contrle rigoureux des dures de conservation ; - comprend obligatoirement une structure rigoureuse de classement (le plan de classement), gre et contrle par ladministrateur ; - peut faciliter les tches quotidiennes mais est aussi destin la constitution dun fonds scuris des documents probants de lorganisation ;

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 188 / 218

Annexe 10 : Tests de numrisation et tests OCR


Des tests de numrisation ont t effectus avec : - le modle de scanner/imprimante (autrement dit imprimante multifonctions ) grand public Canon Pixma MP170 ; - le logiciel de numrisation (pilotant le scanner) Canon MP Navigator 2.0 ; - le logiciel professionnel ScanSoft OmniPage Professionnal pour le traitement OCR ; Cette phase de tests a t effectue partir dun chantillon de 19 articles extraits des dossiers thmatiques de la publicit. Cette slection a t spcialement labore avec le souci de reprsenter le plus largement possible la diversit des documents (taille de caractres, qualit de reprographie, vieillissement du papier, alignement des articles, etc) prsents dans ces dossiers documentaires. Le logiciel de numrisation a t utilis en mode avanc , permettant ainsi un maximum de paramtrages manuels. Concernant les paramtres dentre, on a procd au choix des numrisations en couleur ou en niveaux de gris. Concernant les paramtres de sortie, on a procd au choix des numrisations 200, 300, ou 400 dpi. Concernant les paramtres dimage, toutes les numrisations ont t effectues avec la mme configuration suivante : - tonalit automatique active ; - accentuation active ; - limination du moir dsactive ; - aucune rduction des imperfections ; - aucune correction de lattnuation ; - aucune correction du grain ; - aucune correction du rtroclairage ; Par manque de temps, on voit donc que certains paramtres - ncessitant un rglage trs fin et entirement manuel, comme la correction du grain - de la numrisation nont pas pu tre parfaitement optimiss. Nanmoins, la configuration dcrite ci-dessus a tout de mme permis de tester de faon trs fiable le niveau de performance du traitement OCR. Les optimisations automatises de la tonalit et de laccentuation du contraste assurant en effet de procder une reconnaissance de caractres dans des conditions satisfaisantes de traitement. De plus, afin que le traitement OCR puisse soprer de faon correcte, tous les documents prsentant des articles non aligns autrement dit les photocopies ayant t faites avec un manque de soins - ont t traits manuellement afin de raligner les textes. Ce travail a t assez lourd puisque aucune option de correction automatique des dsalignements nest disponible dans le logiciel Canon MP Navigator. Enfin, beaucoup de documents ont galement t recadrs lors de la numrisation. Ce traitement tait lui facultatif et na t fait, dans la majorit des cas, quavec un simple souci desthtisme. Ce recadrage nayant en effet aucun rel impact sur la performance de lOCR. En prcisant quaucune option de recadrage prcis nest disponible non plus dans MP Navigator. Celui-ci a donc du tre effectu manuellement avec Adobe Photoshop. Cette phase de tests aura donc permis de confirmer que loption de recadrage manuel prcis et celle de correction automatique de dsalignements paraissent indispensables dans la solution logicielle qui sera retenue par le centre de documentation des muses.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 189 / 218

Sur le plan du format de sortie des fichiers, tous les documents ont t numriss en PDF. Ces fichiers PDF ont ensuite t soumis un traitement OCR avec le logiciel ScanSoft OmniPage Professionnal (version 16). Une valuation de la performance de lOCR a ainsi pu tre ralise pour chacun des documents de lchantillon de dpart. Pour chaque test, une indication est donne sur la taille du fichier rsultant de la numrisation. Ce sont des informations importantes pour lvaluation des capacits de stockage informatique ncessaires pour le projet. Quelques captures dcran du logiciel ScanSoft OmniPage sont disponibles dans cette annexe, afin dillustrer un peu toutes les possibilits offertes par ce type de traitement.

Document 1

Le premier test correspond une numrisation dun article de la revue Stratgies, directement partir de loriginal et non pas dune photocopie. Le contraste et la qualit dimpression des caractres sont donc optimales pour ce document. Larticle a t dcoup numriquement du reste de la page grce une option de recadrage du logiciel. Plusieurs numrisations ont t ralises partir de ce document : - 200 dpi en noir et blanc (plus exactement en niveaux de gris ) - 300 dpi en noir et blanc - 200 dpi en couleur - 300 dpi en couleur Ceci afin dessayer de rpondre aux deux questions suivantes : - la rsolution de numrisation a-t-elle un impact sur la performance de lOCR ? - dans quelle proportion la couleur alourdit-t-elle le poids du fichier pdf de sortie par rapport au noir et blanc ?

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 190 / 218

On voit sur la capture dcran ci-dessus que le logiciel a bien distingu la zone texte et la zone image . Avec une numrisation 200 dpi en niveaux de gris, lOCR produit 5 erreurs, mais le souci est que lune delles porte sur le titre de larticle, ce qui est assez gnant. Et cest trs tonnant puisque la taille de ces caractres est leve. Concernant les autres erreurs, elles portent toutes sur le texte inclus dans la zone image verte en haut droite, et non pas sur le corps du texte de larticle. On pourrait donc presque dj se satisfaire dun tel rsultat. Dautant que ces erreurs sont corrigeables manuellement. Avec une numrisation 300 dpi en niveaux de gris, le traitement OCR est en revanche parfait, avec 100 % de russite. Absolument aucune erreur de reconnaissance.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 191 / 218

Sur la capture ci-dessus, on voit un exemple de recherche plein texte avec le mot-cl phosphonates . Les rsultats de lOCR obtenus avec la numrisation couleur sont exactement identiques ceux obtenus avec le noir et blanc. Poids des fichiers pdf : -200 dpi, niveaux de gris : 165 ko (projection pour 80000 documents : 12,6 Go) -200 dpi, couleur : 267 ko (projection pour 80000 documents : 20,37 Go)

Document 2

Le deuxime test correspond aussi une numrisation dun article de la revue Stratgies, directement partir de loriginal et non pas dune photocopie. Le contraste et la qualit dimpression des caractres sont donc optimales pour ce document. Larticle a t dcoup numriquement du reste de la page grce une option de recadrage du logiciel. Plusieurs numrisations ont t ralises partir de ce document : - 200 dpi en niveaux de gris - 300 dpi en niveaux de gris - 200 dpi en couleur - 300 dpi en couleur Avec une numrisation 200 dpi en niveaux de gris, lOCR commet seulement 7 fautes de reconnaissance. Nanmoins, tous les mots et les chiffres contenus dans les petits tableaux sur la partie droite du document sont parfaitement reconnus, ce qui est plutt impressionnant avec une rsolution de seulement 200 dpi. De mme, les rfrences de la revue c'est--dire le titre du priodique, le numro, la date de parution prsents dans la partie infrieure droite de la page ont t parfaitement reconnues. Ce qui montre quune indexation automatique de ces rfrences qui ncessiterait tout de mme de dsigner prcisment la zone de la page qui contient toujours les rfrences du priodique est donc envisageable.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 192 / 218

Avec une numrisation 300 dpi en niveaux de gris, lOCR est quasi parfait et ne commet quune seule faute.

Ci-dessus, recherche plein texte avec le mot-cl Corsen . Les rsultats de lOCR obtenus avec la numrisation couleur sont exactement identiques ceux obtenus avec le noir et blanc. Poids des fichiers pdf en sortie : -200 dpi, niveaux de gris : 192 ko (projection pour 80000 documents : 14,5 Go) -200 dpi, couleur : 205 ko (projection pour 80000 documents : 15,7 Go)

Document 3
Cest une photocopie noir et blanc dun article de CB news. Ce document a t slectionn cause de la trs petite taille de ses caractres. Cette photocopie est en effet une rduction avec un taux de rduction visiblement trop lev - de loriginal.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 193 / 218

En revanche la qualit de conservation du papier, ainsi que la qualit dimpression, et le contraste, sont trs bonnes pour cette photocopie. Trois tests de numrisation tous en niveaux de gris -, 200 dpi, 300 dpi, 400 dpi, ont t effectus avec ce document. Capture cran 1- Options de lOCR : Sur la gauche se trouve le document original (trs petits caractres). Choix des langues et de la priorit entre vitesse ou prcision.

Capture cran 2 et 3 - Traitement OCR : Sur la gauche on remarque les zones qua dlimit le logiciel. On a activ la vrification de lOCR, qui dtecte les mots douteux.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 194 / 218

Ici, logiquement, le logiciel narrive pas reconnatre lannotation manuscrite CB News . Comme il a t expliqu plus haut dans cette tude, les lettres non spares et non majuscules nont aucune chance dtre reconnues, peu importe la rsolution de numrisation.

Capture cran 4 et 5 Dcoupage et recadrage : Dans ce logiciel, plusieurs options de traitement de limage sont disponibles, dont la dcoupe et le recadrage. Ici cette option nous sert enlever la partie inutile qui contient les rfrences manuscrites (qui seront re-saisies via lindexation), et surtout supprimer toute la partie vierge de la page et qui alourdirait inutilement le fichier pdf final de sortie.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 195 / 218

Capture cran 6 Enregistrement du fichier final (toujours au format pdf)

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 196 / 218

Capture cran 7 Ouverture du fichier avec Adobe Reader et tests de recherche plein texte Les tests ont montr que, quelle que soit la rsolution 200, 300, 400dpi -, le traitement OCR a parfaitement fonctionn, puisque 100% des mots typographis ont t reconnus. Mme 200 dpi et avec ces trs petits caractres, la performance de lOCR est excellente. On a fait ici un test avec le mot-cl crystal .

Sur le plan du poids des fichiers, voici les chiffres : - 200 dpi le poids du fichier est de 113 ko ; - 300 dpi il est de 121 ko ; - 400 dpi il est de 130 ko ; Soit une diffrence de 15% entre la rsolution la plus faible et la plus leve sur un document, prcisons le, qui ne comporte pas dimage. Estimations si on se projette avec 80000 documents (400 pages en moyenne pour 200 botes) : - 113*80000/1024 = 8828 Mo = 8,6 Go - 121*80000/1024 = 9453 Mo = 9,23 Go - 130*80000/1024 = 10156 Mo = 9,91 Go

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 197 / 218

Document 4
Cest une photocopie en noir et blanc dun article de CB News, lui aussi rduit. Mais cette fois larticle comporte des images. Les tests pour ce document se sont rvls trs instructifs. En effet, bien que les caractres sur cette photocopie soient plus gros que ceux du document prcdent, on a pu cette fois constater que la performance de lOCR tait lie la rsolution de numrisation du document. Ainsi, certaines erreurs de reconnaissance se produisant avec une rsolution de 200 dpi ne se produisent pas 400 dpi. Et cest seulement 400 dpi que lOCR a obtenu 100% de reconnaissance pour ce document. Lexplication tient la qualit dimpression de cette photocopie, qui est lgrement moins bonne que pour le document 3. Voici ici une capture dcran montrant une erreur de la part du logiciel la rsolution de 200 dpi. LOCR a interprt un 13 la place dun B. Erreur qui ne sest pas reproduite 400 dpi.

On voit bien sur la gauche de cette capture que le logiciel a bien distingu les zones de texte (en orange) des zones dimage (en vert). A 400 dpi le rsultat de lOCR est parfait. Ici, test avec le mot Cali .

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 198 / 218

Pour ce qui est du poids : 170 ko pour le 200 dpi, 276 ko pour le 300 dpi, 362 ko pour le 400 dpi. Projections avec 80000 documents : 13 Go 200 dpi, 21 Go 300 dpi, 28 Go 400 dpi.

Document 5

Cest une photocopie en noir et blanc dun article du Figaro conomie. Elle a t slectionne car elle prsente un trs mauvais contraste ainsi quune mdiocre qualit dimpression. Trois tests ont t mens, 200, 300 et 400 dpi. Prcisons que larticle a t recadr au pralable. Ltat de cette photocopie (impression mdiocre, mauvais contraste, textes volumineux et denses) a allong considrablement le temps du traitement OCR par le logiciel, qui tait ici denviron 1mn 30 s.

On voit que le logiciel a bien distingu le texte et la photo, mais quil y a un souci avec la zone du titre.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 199 / 218

De plus, aux trois rsolutions se produisent de trs nombreuses erreurs de reconnaissance, comme pour lexemple ci-dessus. 120 mots douteux 200 dpi, plus de 300 400 dpi. Cela provient de la mauvaise impression (caractres mal imprims et pas assez marqus ), plus que du mauvais contraste avec le fond de page. On constate donc avec cette exemple qulever la rsolution de numrisation ne solutionne pas toujours les problmes de reconnaissance, et que la qualit de la photocopie reste primordiale. Ici il serait donc prfrable de numriser partir de loriginal afin dobtenir un taux de reconnaissance proche de 100%.

Les poids des fichiers de sortie sont ici trs proches de ceux concernant le document 4.

Document 6

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 200 / 218

Cest une photocopie en noir et blanc dun article de Libration. Elle prsente des caractristiques trs proches de celles du document prcdent : mauvais contraste et mauvaise qualit dimpression lgrement pire que celle du document 5 prcdent Trois tests ont t mens, 200, 300 et 400 dpi. Prcisons que larticle a t recadr au pralable.

La dure du traitement OCR a t ici denviron 2mn. Comme pour le document 5, beaucoup derreurs de reconnaissance avec les trois rsolutions (plus de 250 mots douteux chaque fois).

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 201 / 218

Le rsultat final est donc trs dcevant (cf le titre en haut qui na pas t du tout reconnu malgr la taille leve des caractres). Il est donc l aussi prconis de renumriser larticle partir de la revue originale. Le poids du fichier de sortie est denviron 250 ko. Soit 20 Go pour une projection 80000 documents.

Document 7

Cest une photocopie en noir et blanc dun article, dont la source est inconnue ! Elle prsente un contraste particulirement dgrad cause dun fond de page trs bruit . Vu les conclusions des tests prcdents savoir que la rsolution na pas dimpact sur lOCR si la qualit de la photocopie est trop mauvaise -, un seul test a t men 300 dpi. Prcisons que larticle a t recadr au pralable.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 202 / 218

On constate cf les captures dcran - que le test OCR a ici compltement chou. Le taux de reconnaissance est trs faible et la recherche plein texte est ici inexploitable. La qualit de cette photocopie - notamment cause du bruit de fond - est en dessous du seuil acceptable par le logiciel. Il y a donc obligation pour cet article de retourner loriginal (si le muse le possde) pour procder une nouvelle numrisation.

Document 8
Cest une photocopie noir et blanc dun article de la revue Stratgies. Le contraste est plutt correct, mais la qualit dimpression des caractres est en revanche assez mauvaise. La rsolution de numrisation pour ce document tait de 300 dpi.

Le taux de reconnaissance de lOCR est ici - de faon attendue - trs mdiocre, avec environ une trentaine derreurs. Cf la capture ci-dessus.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 203 / 218

En revanche les 300 dpi assurent une numrisation parfaite de limage, sans aucune perte.

On voit ci-dessus par exemple que le premier caractre du texte pourtant trs gros -, en haut gauche, na pas t reconnu par le logiciel. Poids du fichier pdf de sortie : 184 ko.

Document 9
Cest une photocopie noir et blanc dun article de la revue Mdias. Le souci avec ce document est quil se compose de deux parties suite la photocopie de deux morceaux de papiers ayant t dcoups aux ciseaux. La partie suprieure est incline alors que celle infrieure est bien aligne. Il faudrait donc isoler ces deux parties avec un dcoupage numrique, aligner la partie suprieure, puis refusionner ces deux parties en un fichier unique. On voit donc que cela peut tre long et complexe, et quune photocopie faite sans un minimum de soin peut devenir problmatique lors de la dmatrialisation. Une autre spcificit de ce document est que la qualit de la reprographie est ingale selon la rgion de larticle probablement du encore une fois une mauvaise manipulation lors de la photocopie. Ce qui ne facilite pas les traitements manuels potentiels comme la correction du grain ou lamlioration du contraste. Ce document tait numris 300 dpi.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 204 / 218

Outil de redressement disponible dans le logiciel ScanSoft OmniPage :

Avec cet outil, il est possible de redresser un document au dizime de degr prs. Malgr un trs mauvais contraste dans la partie infrieure droite de larticle, lOCR a bien fonctionn avec moins dune dizaine derreurs. Cf la capture ci-dessous.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 205 / 218

Document 10

Cest une photocopie noir et blanc, avec rduction, dune page de la revue CB news. La particularit de ce document est quil contient plusieurs articles slectionns sur cette mme page, et que lun deux dans la partie infrieure droite est particulirement mal reproduit, tel point quil est compltement illisible. Except cette partie mal reproduite dont je ne mexplique pas lorigine ? , le reste de la photocopie bnficie dun trs bon contraste et dune trs bonne qualit dimpression. La rsolution de ce document numris est de 300 dpi.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 206 / 218

Ce test de numrisation est particulirement intressant puisquon voit sur la capture cran ci-dessus que le logiciel a interprt la partie illisible de la photocopie comme une zone dimage et non comme une zone de texte . Voir, tout en bas droite, le cadre de couleur verte. Pour toutes les autres zones de la photocopie, les rsultats de lOCR sont en revanche excellents (proche du 100%), avec moins de 10 erreurs recenses dont lune est reprsente dans la capture ci-dessus, avec un BOU reconnu la place de BDDP. On peut donc se poser la question suivante pour ce document : doit-on faire le sacrifice de la partie non reconnue par lOCR, ou doit-on recommencer la numrisation partir de la revue originale ? Poids du fichier pdf de sortie : 201 ko

Recherche plein texte totalement satisfaisante pour ce document, ici avec le mot-cl christiansen .

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 207 / 218

Document 11
Cest un document trs semblable au document prcdent, c'est--dire une photocopie noir et blanc dune page de la revue CB news. Mais cette fois, absolument tous les articles contenus dans cette page ont t slectionns par le documentaliste.

La question suivante se pose donc question importante aborde plus haut dans un chapitre de ltude - : doit-on conserver ce document sous la forme dune page entire numrise et contenant tous les articles, ou doit-on isoler chacun des articles sous la forme dun fichier pdf indpendant ? La premire option a lavantage dtre plus simple et rapide lors du traitement. La deuxime a lavantage dtre plus confortable et esthtique pour le lecteur. Pour lexemple, nous avons ici fait le choix disoler les articles. On remarque l aussi que la qualit de reprographie est ingale selon les zones de la photocopie la partie infrieure gauche prsente un contraste fortement dgrad, on peut donc sattendre un OCR peu fiable. La rsolution de numrisation pour ce document est de 300 dpi.

Avec cet article par exemple, lOCR donne un rsultat parfait (100% de reconnaissance).

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 208 / 218

Document 12

Cest une photocopie noir et blanc de la page dune revue. Elle contient plusieurs articles dont un seul a t slectionn par le documentaliste, et il semble donc naturel de le recadrer mme si cela allonge lgrement le temps de traitement, denviron 20s avec OmniPage. Le contraste de cette photocopie est idal, et la qualit dimpression est parfaite. La rsolution de ce document est de 300 dpi.

Le taux de reconnaissance OCR est de 100% pour ce document, ce qui tait attendu vu la qualit de cette photocopie.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 209 / 218

Document 13
Cest une photocopie noir et blanc dun article ayant t dcoup dans une revue. Vu la trs petite surface quoccupe larticle sur cette photocopie, il convient bien naturellement de le recadrer, afin de rduire au minimum le poids du fichier de sortie on rappelle que mme une zone vierge blanche est mmorise sous forme doctets. Le contraste pour ce document est trs mdiocre (noir sur gris), mais en revanche il ny a aucun bruit et le fond darticle est trs homogne ce qui est toujours un gros avantage pour la reconnaissance. La rsolution de ce document est de 300 dpi.

Le taux de reconnaissance OCR est de 100% pour ce document, alors que le contraste de la photocopie pouvait laisser craindre un rsultat beaucoup plus mauvais. Le poids du fichier pdf de sortie est trs faible, 60 ko.

Document 14
Cest un document assez semblable au prcdent. Il a t redress au pralable. Un recadrage simpose galement. La rsolution de ce document est de 300 dpi.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 210 / 218

Le contraste est faible, tout comme pour le document prcdent, mais il est cette fois htrogne, et prsente beaucoup de bruit . En consquence, lOCR est un chec total, avec un taux de reconnaissance proche de 0%.

Document 15
Ce document ne prsente aucune difficult particulire bon contraste, bonne qualit dimpression. Il a seulement t slectionn pour dmontrer encore une fois que la reconnaissance des caractres manuscrits non spars et non majuscules est inefficace. La rsolution de ce document est de 300 dpi. Un recadrage de larticle simpose aussi ici.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 211 / 218

Ici encore, lcriture manuscrite a t confondue avec une zone image .

LOCR a donn ici 100% de russite pour la zone de texte typographi. Ci-dessous, une recherche plein texte avec le mot-cl Banga .

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 212 / 218

Document 16

Ce document ne comporte que des caractres manuscrits, et le taux de reconnaissance OCR est quasi nul.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 213 / 218

Document 17
Cest une photocopie couleur dun article dcoup dans le Figaro Magazine. Le choix de numriser en couleur sexplique par un souci de bien conserver les informations et les messages vhiculs par limage illustrant larticle - des bouteilles de sirop. Cest typiquement lexemple dun article o la photo est autant informative, sinon plus, que le texte, et o le choix de la couleur se justifie pleinement. Pour cette photocopie le contraste est bon et la qualit dimpression des caractres (nettet) est bonne. Larticle a t recadr. La rsolution de numrisation est de 300 dpi.

De faon attendue, le traitement OCR affiche un taux de reconnaissance de 100%.

Recherche plein texte avec le mot-cl teisseire . Poids du fichier pdf de sortie : 150 ko.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 214 / 218

Document 18
Cest une photocopie noir et blanc dun article du Monde. Le contraste pour cette photocopie est satisfaisant (seulement un trs lger bruit de fond ), et la qualit dimpression des caractres est bonne. Larticle a t recadr. La rsolution de numrisation est de 300 dpi.

Sans surprise, lOCR est quasi parfait, avec une seule erreur.

Recherche plein texte avec le mot-cl saatchi . Poids du fichier pdf de sortie : 131 ko. Projection pour 80000 documents : 10 Go

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 215 / 218

Document 19
Cest une photocopie noir et blanc dun article dont la source est inconnue ? De plus le titre est assez peu vocateur. A la lecture de larticle on comprend que cest un article propos dune pub pour la socit Buffalo. Do lintrt dune recherche plein texte pour cet article. Le contraste de cette photocopie est bon, et la qualit dimpression des caractres est bonne. Larticle a t recadr. La rsolution de numrisation est de 300 dpi.

Sans surprise, lOCR est quasi parfait, avec une seule erreur portant sur le titre.

Poids du fichier pdf de sortie : 78 ko. Projection pour 80000 documents : 6 Go.

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 216 / 218

Rpertoire des sigles utiliss


Est indiqu en italique le dvelopp en anglais quand il y a lieu, puis la traduction en franais. AFNOR Association Franaise de Normalisation www.afnor.org API Application Programming Interface Interface de programmation applicative APROGED Association des PROfessionnels de la Gestion Electronique de Documents www.aproged.org ASCII American Standard Code for Information Interchange Code amricain normalis pour lchange dinformation CCD Charge-Coupled Device Dispositif transfert de charge CD Compact Disk Disque compact CFC Centre Franais dexploitation du droit de Copie www.cfcopies.com CMOS CNRS Complementary Metal Oxide Semiconductor Centre National de la Recherche Scientifique www.cnrs.fr CPI DON DPI Code de la Proprit Intellectuelle Disque Optique Numrique Dot Per Inch Point par pouce DSI DVD Direction des Systmes Informatiques Digital Versatile Disc Disque numrique polyvalent GED GIF Gestion Electronique de Documents Graphics Interchange Format Format dchange dimages ICR Intelligent Character Recognition Reconnaissance intelligente de caractres INA Institut National de lAudiovisuel www.ina.fr

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 217 / 218

ISBD

International Standard Bibliographic Description Description bibliographique internationale normalise

ISO

International Organization for Standardization Organisation internationale de normalisation www.iso.org/iso/fr/home.htm

J2EE JPEG LAD LED

Java 2 Enterprise Edition Joint Photographic Experts Group Lecture Automatique de Documents Light-Emitting Diode Diode lectroluminescente

MOREQ

MOdel REQuirements for the management of electronic documents and Records

OCR

Optical Character Recognition Reconnaissance optique de caractres

PNG

Portable Network Graphics

RAID

Redundant Array of Inexpensive Disks Matrice redondante de disques indpendants

RAD SAAS

Reconnaissance Automatique de Documents Software As A Service Logiciel en tant que service

SAE SSII SSL SVG

Systme dArchivage Electronique Socit de Services en Ingnierie Informatique Secure Sockets Layer Scalable Vector Graphics Graphique vectoriel adaptable

TIFF TWAIN USB W3C

Tagged Image File Format Technology Without An Interesting Name Universal Serial Bus World Wide Web Consortium www.w3.org

WMRA WORM XML

Write Many Read Always Write Once Read Many eXtensible Markup Language

La dmatrialisation des dossiers documentaires : les enjeux et les techniques. Desaubry Ludovic 2009

Page 218 / 218