Vous êtes sur la page 1sur 61

Archivistique Archives lectroniques

Les archives lectroniques Manuel pratique


Direction des Archives de France fvrier 2002

Catherine Dhrent conservateur gnral


avec la collaboration de Franoise Banat-Berger (Ministre de la Justice), Christian Biard (SNCF), Bruno Delmas (cole des Chartes), Genevive Drouhet (groupe Mdric), Thibaut Girard (EDF-GDF), Claude Huc (Centre National d'tudes spatiales), Marie-Nolle Leblanc (Centre des archives contemporaines), Christian Perrot (SNCF), Jol Poivre (Direction des Archives de France) et les membres du groupe de rflexion de la Direction des Archives de France sur la conservation des documents lectroniques

Nous remercions aussi pour la relecture Claude Aubrie (INRIA, Direction de l'Informations Scientifique et de la Communication) et Julien Masans (Bibliothque nationale de France)

Membres du groupe de rflexion de la Direction des Archives de France sur l'archivage des documents lectroniques sous la prsidence de Martine de Boisdeffre, directrice des Archives de France Franoise Banat-Berger, Ministre de la Justice, chef du service des archives Philippe Barbat, Direction des Archives de France Jean Bartolt, Ministre de l'Intrieur David Barthe, Assemble des dpartements de France Jean-Louis Beaufrre, consultant Agns Chauvet, Conseil gnral du Var

Olivia Perez, Ministre des Affaires trangres Florence Clavaud, Centre historique des Archives nationales, responsable du service des Nouvelles technologies de linformation et de la communication Rosine Cleyet-Michaud, Archives dpartementales du Nord, directrice Martine Cornde, Direction des Archives de France, inspectrice gnrale Catherine Dhrent, Direction des Archives de France, responsable du dpartement Innovation technologique et normalisation Genevive Drouhet, groupe Mdric Grard Ermisse, Direction des Archives de France, chef de lInspection gnrale Genevive Etienne, Archives dpartementales du Var, directrice Pierre Fuzeau, SERDA Vronique Godefroy, Ministre des Affaires trangres Claude Huc, Centre national d'tudes spatiales Frdrique Jacquet, Archives municipales de Saint-Denis Marie-Claude De La Godelinais, Institut national de la statistique et des tudes conomiques (INSEE) Jean-Pierre Lalaut, Direction des Archives de France Isabelle de Lamberterie, CECOJI-CNRS Marie-Nolle Leblanc, Centre des archives contemporaines Jean Le Pottier, Direction des Archives de France, inspecteur gnral Jean-Dominique Mathias, Conseil suprieur du notariat Juliette Nunez, ministre de l'quipement, responsable de la mission des Archives nationales Galle Og, ministre de l'quipement Gauthier Osseland, groupe Pinault-Printemps-la Redoute Jean-Louis Pascon, Speos e-Arch, directeur gnral Christine Ptillat, Centre des archives contemporaines, directrice Anne-Laure Pierret, Archives municipales de Saint-Denis Jol Poivre, Direction des Archives de France Laurent Prvel, Association des professionnels de la gestion lectronique de documents (APROGED) Elisabeth Rabut, Direction des Archives de France, inspectrice gnrale Paule Ren-Bazin, ministre de la Dfense Olivier de Solan, Archives dpartementales de la Loire Pascal Souhard, Agence pour les technologies de linformation et de la communication dans ladministration (ATICA) Jean-Pierre Teil, Centre des archives contemporaines, responsable du programme CONSTANCE Evelyne Van den Neste, Services Premier ministre, responsable de la mission des Archives nationales

TABLE DES MATIRES I Introduction * II Lobjet darchivage * III Rle et comptences de l'archiviste * III.1 Larchiviste et ses interlocuteurs * III.2 Les qualifications que doit runir un service darchives * III.3 Stratgies mettre en oeuvre * IV Prparer le versement * IV.1 Reprer les donnes numriques existantes *

IV.2 Constituer les mtadonnes * IV.3 Rdiger le plan de classement de lorganisme de production * IV.4 Rdiger les tableaux de gestion * IV.5 Slectionner les donnes * ^ Les obligations fixes par la CNIL * IV.6 Conserver les donnes sous forme papier, numrique ou analogique * ^ Faut-il numriser les documents papier ? * IV.7 Garantir l'identit et l'intgrit des donnes lectroniques * ^ Rflexions sur la signature lectronique * IV.8 Assurer le transfert * V Garantir la conservation * V.1 Conditions minimales requises pour lacceptation dun versement de donnes lectroniques * V.2 Choix des formats et supports * V.2.1 Formats et langages dencodage * ^ Les formats textuels * Les traitements de texte * Les mta-langages et langages de balisage * ^ Les formats image * ^ Les formats mixtes (texte et image) * ^ Critre de choix des formats * V.2.2 Supports * V.3 La conservation long terme des donnes * V.3.1 Migration des donnes * V.3.2 Les microformes COM (Computer Output Microform) * V.4 Les locaux darchivage * VI Mettre disposition les donnes * VI.1 Les instruments de recherche *

VI.2 Communication des donnes * VII Etudes de cas * VII.1 Bases de donnes * VII.2 Les documents issus de la bureautique et le courrier lectronique * VII.2.1 Les documents issus de la bureautique * VII.2.2 Le courrier lectronique * VII.3 Ressources du Web * VIII Conclusions * IX Annexes * IX.1 Poids moyens des documents lectroniques et capacit des supports * IX.2 Les mtiers lis linformatique : exemple du ministre de lquipement * IX.3 Quelques principes de base pour valuer le cot de larchivage lectronique * IX.3.1 La capture * IX.3.2 Larchivage * IX.3.3 La consultation/archivage * IX.3.4 La migration * X Glossaire des sigles * XI Bibliographie * XI.1 Normes * XI.2 Gnralits * XI.3 Mtadonnes * XI.4 Archivage de bases de donnes * XI.5 Archivage des ressources Web *

I. Introduction

Les 8 et 9 mars 2000, la Direction des Archives de France a organis des Journes internationales sur la conservation long terme des documents lectroniques. Celles-ci au cours desquelles dix-neuf experts du monde entier ont expos leurs expriences, succs et questions, ont eu une grande audience. 500 personnes venant tant du secteur public que du secteur priv y ont assist. Au cours de ces changes, est apparu le besoin pour les professionnels des archives et leurs interlocuteurs de disposer d'un outil de rfrence simple, de premire approche, qui leur donne des recommandations et procdures gnrales et rdig dans un langage qui leur soit comprhensible. Le contexte est aujourdhui plus favorable quil ny a dix ans. Des travaux franais, europens et internationaux dans le domaine de linteroprabilit, des standards dchange et de la conservation long terme confortent les actions des archivistes et gestionnaires de documents. On peut citer parmi eux, les standards internationaux valids par le W3C (World Wide Web Consortium) pour la structuration et lchange des documents, le manuel et lappel lindustrie lancs par le DLM-Forum au niveau europen, enfin le programme daction gouvernemental franais (PAGSI) qui a eu pour consquence notamment la cration en 1998 de la MTIC (Mission pour lintroduction des technologies de linformation et de la communication dans ladministration) devenue en 2001 lATICA (Agence pour les technologies de linformation et de la communication dans ladministration). On peut aussi citer la circulaire du Premier ministre du 2 novembre 2001 relative la gestion des archives dans les services et tablissements publics de l'tat qui souligne le rle des responsables darchives intermdiaires dans la bonne gestion et communication des donnes lectroniques. La Direction des Archives de France a t associe tous les travaux mens dans le cadre de ce programme gouvernemental en ce qui concerne la conservation long terme des documents lectroniques que ce soit la prparation du Guide publi par la MTIC en janvier 2001, que ce soit aux rflexions du groupe charg du travail prparatoire et d'un rapport sur l'tablissement et la conservation des actes authentiques lectroniques, en vue de la rdaction du dcret prvu dans la loi du 13 mars 2000, que ce soit aux runions du Conseil suprieur du notariat. Le temps n'est plus o, juridiquement, le papier tait le seul vecteur fiable pour transmettre la postrit donnes et informations : le droit national et le droit europen confrent dsormais, sous certaines conditions, le mme poids lcrit lectronique qu'au document sur papier. Si on pouvait encore, nagure, sabriter derrire le " droit loubli " pour laisser disparatre des donnes informatises, la loi concilie maintenant, de la faon la plus nette, protection de la vie prive et besoins de la recherche historique, ce qui place le contenu des mmoires dordinateurs sur le mme plan juridique que les fonds darchives traditionnels. En somme, la conservation long terme et la restitution de tout ce qui est produit en mode numrique et enregistr sur des supports magntique ou optique sont dsormais des sujets dont nul archiviste nest en droit de se dsintresser. Fruit d'expertises et d'expriences diverses, ce manuel a t conu pour des archivistes, mais son contenu pourra tre utile toutes les personnes susceptibles d'intervenir dans la constitution des systmes et des bases. Son ambition est en effet d'aider les uns et les autres assurer la prservation et l'accessibilit long terme des documents et des donnes lectroniques, notamment en leur indiquant ce qu'il est actuellement possible de mettre en pratique, compte tenu de ltat des techniques et de la rglementation. Ce manuel destin se trouver sur le bureau de tout gestionnaire d'archives contemporaines, nest cependant pas un recueil de recommandations techniques et fonctionnelles pour lesquelles nous conseillerons aux lecteurs de consulter des documents comme la norme AF Z 42-013, version 2 de dcembre 2001 et le Guide publi par la MTIC. Le souci de pragmatisme a amen oprer, aussi souvent que ncessaire, une distinction entre plusieurs cas de figure ou plusieurs scnarios : on trouvera ainsi dans le prsent ouvrage aussi bien les procdures idales que des conseils pour faire face des situations dgrades, pour rattraper des arrirs ou pour sauver ce qui peut l'tre de systmes mal conus ds l'origine.

Il sera complt de publications plus spcifiques, propres chacune un mode de production ou de restitution de linformation numrique. La prsente version est appele tre remplace par une version mise jour rgulirement que l'on trouvera sous forme lectronique sur le site de la Direction des archives de France (http://www.archivesdefrance.culture.gouv.fr).

II. Lobjet darchivage Dans l'environnement numrique, l'unit lmentaire d'information est la donne qui n'est qu'une chane de caractres ou octets constitus de bits (0 ou 1). Les donnes sont inscrites sur des supports numriques. Il est indispensable de recourir des outils technologiques pour les exploiter et les lire. En cela, elles diffrent entirement du document papier qui vhicule un message immdiatement utilisable. Dans un environnement papier, les donnes et leur mise en forme et en oeuvre sont sur le mme support et le mme document. Larchiviste dispose, sur le document mme, dune grande partie des lments qui serviront sa critique, son tude diplomatique. Il en est tout autrement dans lenvironnement lectronique : les deux sont spars, conservs souvent par des services diffrents. Ils doivent cependant tre collects ensemble pour rendre les donnes comprhensibles et susceptibles de faire lobjet dune analyse historique. Une typologie sommaire des diffrents objets d'archivage montre leurs grandes diffrences et spcificits. L'archiviste aura conserver sur le long terme, trois grands types d'objets numriques :

le document qui rend compte d'une activit ou d'un raisonnement, dont les limites sont fixes et prcises et dont la taille est en gnral faible (ex. : document gr par traitement de texte, courrier lectronique), la base de donnes qui est un rservoir de donnes parfois trs volumineux, dynamique, mis jour priodiquement, certains objets d'information numriques qui associent les deux types prcdents, sont composs d'lments statiques et dynamiques et contiennent des liens vers des ressources externes (ex. : sites Web).

On peut ensuite affiner ces grands types et prendre en compte d'autres lments d'identit en sachant par exemple :

qu'une base de donnes peut induire plusieurs documents que le document peut tre produit dans un processus de workflow (flux de tches qui rgule le droulement d'une action) et avoir de multiples versions avant validation, qu'un nouvel objet d'information numrique peut rsulter de la rorganisation, de la slection, voire de la recherche de donnes.

Les donnes et documents numriques sont plus faciles certes manipuler, dupliquer, transfrer. Mais ils sont galement plus faciles modifier et ils peuvent, trs rapidement et de faon irrversible, perdre leur intgrit d'origine. Des exigences nouvelles, dues l'volution rapide des langages, des formats et des supports numriques, apparaissent donc pour la conservation long terme de l'information. Les donnes et documents numriques ne sont accessibles qu'une fois tout un travail de description, d'valuation et de slection termin. La description en est d'autant plus ardue que leurs contenus sont composites et qu'ils coexistent avec des types documentaires sur papier. Leur classification est aussi

d'autant plus cruciale pour la recherche de l'information que leur production est abondante. En cela encore, ils sont diffrents des documents sur papier, dont la consultation n'est pas conditionne par l'achvement du travail de classement et de description. De plus, une application ne remplace pas forcment strictement un type documentaire existant sous forme papier. Elle peut aussi regrouper plusieurs types documentaires sur papier prexistants, tre compose dlments dun ou plusieurs types documentaires sur papier, mais aussi de donnes nouvelles ne faisant pas lobjet de transcriptions antrieurement. Le type documentaire lectronique enfin peut tre entirement nouveau dans son contenu informatif car il rsulte du constat de lacune dans les types documentaires papier prexistants. Ainsi la Nouvelle Chane Pnale de Paris et de la rgion parisienne dans laquelle sont enregistres les affaires portes devant les formations pnales des tribunaux de grande instance depuis 1975, intgre des informations qui donnaient lieu auparavant la cration de plusieurs types de documents diffrents et compte une douzaine de modules fonctionnels grs par 265 tables dont cinq principales. C'est donc une grande varit d'objets numriques dont les contenus ont volu par rapport aux documents papier prexistants, que l'archiviste est confront. A chacun de ces types correspond une mthodologie de conservation approprie.

III. Rle et comptences de l'archiviste L'archiviste accoutum des objets stables et prennes se trouve confront dsormais une tche plus complexe et dont il peroit encore mal toute l'tendue. Dcrire des donnes numriques, les valuer et les slectionner prend beaucoup plus de temps que de classer des archives de format traditionnel ou de rdiger un instrument de recherche de type classique, ft-il trs dtaill. De cela dcoule la ncessit davoir une dmarche globale de reprage de linformation, de ses circuits et de la production documentaire. L'archiviste se doit d'intervenir beaucoup plus tt dans le cycle de vie de l'information. Il continue tre de faon privilgie et presque exclusive, responsable des documents lorsque ceux-ci ont atteint l'ge historique ou dfinitif. Mais il doit aussi revendiquer un rle ds l'amont de leur chane de traitement. Dans l'entreprise comme dans l'administration, en effet, les bouleversements frquents d'organigrammes et le renouvellement rapide des responsables privent de plus en plus la tradition orale de son efficacit et rendent de plus en plus ncessaire une organisation des flux documentaires ds l'origine : produire des documents en se disant que pour la conservation, on verra plus tard, est une politique courte vue, incompatible avec la recherche croissante de qualit et avec la ncessit frquente de justifier ses dcisions passes. Ceci est d'autant plus vrai s'agissant du document lectronique. La seule solution est de faire intervenir en amont, aux cts des producteurs et techniciens, l'archiviste qui sait ce qu'il faut conserver et comment. Ce nouveau rle de l'archiviste est parfaitement affirm dans la norme ISO 15489 sur le Records management. Toutefois selon la taille et le type d'institution dont il dpend, l'archiviste s'impliquera des degrs divers au dbut du cycle de vie documentaire. Autant il lui est possible s'il gre les archives d'une commune ou d'une entreprise et a un mandat trs prcis pour cette production, d'tre associ troitement l'laboration des structures de fichiers, des arborescences, au nommage des rpertoires, la prise en compte de l'valuation, de la rvision de l'valuation, des droits et de la commmunicabilit, avant que les donnes mme ne soient cres, autant cela sera impossible pour le responsable d'un service d'archives dpartementales responsable de la gestion long terme des informations produites

par des centaines d'organismes diffrents. Celui-ci s'attachera en ce cas former de trs bons relais et correspondants dans chaque institution et les faire intgrer dans la chane de Records management de celle-ci. L'archiviste est en mesure de rpondre aux besoins nouveaux car les rgles et les mthodes quil met en oeuvre pour transmettre aux gnrations futures les documents de forme traditionnelle ne sont en rien remises en cause dans un contexte de production documentaire domin par linformatique. Il devra cependant rappeler et faire reconnatre ces comptences en matire galement de documents lectroniques car les divers intervenants dans la cration et l'analyse des donnes et de larchitecture des systmes d'information, ne pensent pas toujours faire appel aux capacits des archivistes, dont parfois ils ne souponnent mme pas l'existence. Il est vrai que l'intervention d'un professionnel de la conservation long terme peut tre perue comme une complication supplmentaire, susceptible de retarder la ralisation des projets et d'engendrer un surcrot de dpenses. Dans un tel contexte, l'archiviste aura donc dmontrer la lgitimit de sa prsence sur ce terrain, notamment en expliquant que formaliser les systmes de gestion et de production documentaires est forcment bnfique terme et en rappelant que perdre des documents du fait d'un archivage dfectueux ou se trouver dans l'incapacit de les produire en cas de contentieux peut, au sens propre du terme, se rvler ruineux. Cette ncessit de plaider sa propre cause n'est pas le seul obstacle que l'archiviste risque de rencontrer sur sa route car il lui faut prendre en compte une autre difficult : l'utilisation des mmes mots sous des acceptions diffrentes, qui complique parfois le dialogue entre personnes de mtiers diffrents et qui rend certains milieux professionnels (les informaticiens, par exemple) rticents la collaboration avec les archivistes ou sceptiques quant l'opportunit de celle-ci. Ainsi du mot archivage que l'archiviste voit comme le transfert de documents ayant cess d'tre d'utilit courante vers un local de conservation et/ou un service d'archives ayant la capacit de les recevoir, alors que c'est pour dautres le " nettoyage " des systmes et des mmoires de tout ce qui n'est plus d'usage courant, via le stockage sur d'autres supports d'accs problmatique, pour ne pas dire hypothtique (ce qui amne parfois archivage signifier pratiquement destruction !). De mme archive -que les archivistes privent rarement du S final- signifie service d'archives chez les bibliothcaires et les documentalistes et systme ou service d'archivage virtuel chez certains informaticiens. Documentation, enfin, qui pour les archivistes dsigne soit une discipline et une profession en rapport avec la recherche et la restitution de l'information, soit un ensemble d'informations runies sur un sujet donn, est considr par beaucoup d'informaticiens comme l'quivalent de mtadonnes. Larchiviste veillera donc tre parfaitement compris de ses interlocuteurs et sattachera faire expliciter par ceux-ci leurs terminologies propres. Larchiviste doit garder lesprit quels sont ses rles et attributions exacts en matire de documents lectroniques. Il lui revient :

didentifier les exigences en matire de conservation, daider les producteurs la cration et l'tablissement des donnes et des documents afin qu'ils aient les caractristiques suivantes : authenticit, fiabilit, intgrit, capacit tre rexploits, daider la modlisation des circuits de linformation de linstitution, d'inciter les producteurs conserver des documents de travail et des tats prparatoires non valids, officieux mais qui permettent de comprendre la gense des dossiers et constituent terme des traces historiques importantes, d'aider la mise en place d'un systme de conservation fiable, intgre, conforme aux exigences de l'environnement rglementaire, de veiller ce que tous les documents soient intgrs dans le systme de conservation mis en place, de s'assurer que le systme de conservation est correctement maintenu et est prenne, dassurer les accs et possibilits de retrouver les donnes en fonction de droits dtermins (notamment par les lgislations en vigueur).

Larchiviste dispose pour cela de qualits rsultant de sa formation :

capacit communiquer avec dautres spcialistes capacit analyser des systmes complexes et les dcrire capacit valuer les documents et les dcrire

L'archiviste est un acteur mais il est neutre, et le seul de la chane de traitement documentaire proccup par le temps et l'espace, car d'une part, il envisage l'utilisation du document par d'autres communauts que celles des producteurs, d'autre part, il est proccup par la conservation des donnes au-del de leur utilit temporelle immdiate. Autant, au moment de la cration des donnes, il se doit d'tre le plus actif possible et d'intervenir, autant il devra par la suite se garder de la tentation de reconstruire linformation. En effet, l o la production traditionnelle de linformation sous forme papier tait relativement encadre et structure, celle de linformation lectronique sest dveloppe de faon sauvage en dehors des circuits existants ou officiels. Cest ainsi que larchiviste peut se trouver confront des productions bureautiques pour lesquelles aucune sauvegarde na t prvue, o on trouve X versions dun document sans pouvoir dterminer la dfinitive... Larchiviste pourrait alors tre tent de compenser au moment de larchivage dfinitif et de faire ce qui ne la pas t durant le cycle de vie de linformation. Vu l'immensit de la tche laquelle il se trouverait alors confront, il est dconseill d'essayer de reconstituer soi-mme une information mal documente et donc parfois impossible conserver. Le mieux sera alors de ne pas archiver. Pour certaines donnes particulirement importantes, cela lui semblera peut-tre indispensable ou cela sera demand par lorganisme producteur ou dtenteur de linformation. Mais cette reconstitution de la documentation et des donnes ne devra tre qu'exceptionnelle, devra toujours tre faite avec leur producteur initial et devra tre valide par celui-ci afin d'viter toute subjectivit de la part de l'archiviste qui ne connat pas totalement le contexte de production d'origine. Il faut donc se demander quelle est la pertinence de linformation rencontre au moment de larchivage. Si le cadre dans lequel elle a t produite ne permet pas de la conserver dans sa totalit de faon satisfaisante, il faut examiner si elle peut ltre de faon partielle et si on dispose dlments suffisants pour expliquer son tat lacunaire au futur chercheur dans la description ; le lecteur pourra ainsi valuer quel poids accorder linformation. III. 1. Larchiviste et ses interlocuteurs Plus que par le pass, l'archiviste devra donc participer l'laboration et la diffusion des politiques, pratiques et lignes directrices de l'institution relative la conservation des documents dans le respect de la lgislation applicable aux archives publiques et prives. Mais, seul, il ne peut pas grand chose. Sauver les donnes et informations produites en mode numrique d'une destruction inconsidre et assurer leur accessibilit long terme ne peut tre qu'une oeuvre collective. Chacune des parties prenantes la cration et la vie des bases, des sites et des systmes doit apporter sa pierre au processus de sauvetage et d'archivage. Titres et attributions de ces intervenants varient selon les organismes et les circonstances. L'archiviste devra en fait identifier quelques grandes fonctions et leurs titulaires (administration des donnes, cration des droits, gestion des espaces de travail, cration des donnes, sauvegarde, gestion des rseaux, scurit...). C'est avec eux qu'il reprera les diverses applications numriques et assurera leur traitement. Ces interlocuteurs sont :

ceux qui produisent donnes et informations (les producteurs et/ou les matres d'ouvrage), ceux qui les administrent (administrateurs de donnes, qualiticiens) , les traitent et les diffusent (documentalistes, correspondants des services d'archives historiques)

ceux dont le mtier est de concevoir et de mettre en oeuvre, pour les prcdents, les solutions et infrastructures ncessaires, les informaticiens.

Larchiviste sera aussi attentif au fait que pour une mme application, il peut avoir faire plusieurs producteurs, plusieurs informaticiens, internes ou externes linstitution productrice des donnes. Parfois ces diverses fonctions sont identifies lors de la conduite dun projet, en matrise douvrage et matrise doeuvre . Ces concepts en usage en matire de construction peuvent tre transposs la conduite des projets informatiques car ils mobilisent des acteurs de spcialits diffrentes, dont la qualit du travail de collaboration est dterminante pour laboutissement et la russite doprations complexes et onreuses. La matrise douvrage regroupe les acteurs lorigine de la commande par opposition la fonction de fournisseur remplie par la matrise doeuvre. Le matre douvrage a le pouvoir de dcision et dimpulsion dans la conduite du projet ; dans certaines institutions, ce peut tre le directeur en personne. Dans les projets importants, la matrise d'ouvrage est organise autour d'un directeur ou d'un chef de projet qui est un expert du domaine fonctionnel couvert et faonne le squelette de lapplication, en liaison troite avec le matre doeuvre et avec les utilisateurs. Il gre lorganisation du projet et les lignes budgtaires qui lui sont propres. Le matre doeuvre du projet conoit techniquement lapplication (traduit les modalits fonctionnelles en langage de programmation, tout en faisant valoir les possibilits et contraintes techniques au matre douvrage pour quil inflchisse au besoin le projet fonctionnel), la dveloppe. Un chef de projet de la matrise doeuvre est dsign au niveau de chaque projet pour tre linterlocuteur unique du chef de projet de la matrise d'ouvrage. La dfinition pralable du rle de chacun permet dviter les interfrences, les ambiguts et un meilleur change dans le respect des spcialits de chacun.

Multiplicit des partenaires : exemple d'une application informatique du ministre de la Justice

Cette application (projet) vise enregistrer et assurer le suivi des affaires passes devant les juges d'application des peines (qui appartiennent la juridiction et se situent dans le champ de l'application des peines) et leurs partenaires des SIP (services d'insertion et de probation, crs depuis 1999 qui se situent eux, dans l'administration pnitentiaire, et remplacent les anciens comits de probation et d'assistance aux librs -milieu ouvert- et les services socio-ducatifs des tablissements pnitentiaires). Pour mener un tel projet, plusieurs interlocuteurs sont pris en compte : - la matrise d'ouvrage administration pnitentiaire (ct SIP) soit le bureau en charge de l'insertion de la population pnale, - la matrise d'ouvrage des services judiciaires (ct JAP) soit le bureau charg de l'informatisation des juridictions (qui lui-mme travaille en association avec d'autres directions ou bureaux du ministre " sachants " ou " experts ", notamment dans cet exemple d'autres services de la direction des

services judiciaires ainsi que la direction des affaires criminelles et des grces), - la matrise d'oeuvre pour l'administration pnitentiaire, soit le bureau en charge de l'informatisation des services de l'administration pnitentiaire au sein de la direction de l'administration pnitentiaire, - la matrise d'oeuvre pour les services judiciaires, soit un des bureaux de la sous-direction de l'informatique cette fois au sein de la direction de l'administration gnrale et de l'quipement. A cela, il faut ajouter, ct matrise d'oeuvre, au sein de la sous-direction de l'informatique, le bureau en charge des rseaux et de l'architecture technique. Au sein de la matrise d'oeuvre, apparaissent en outre des personnesressource en charge de la rdaction du plan d'assurance qualit, dont il convient de se rapprocher dans la mesure o ces personnes ont notamment en charge la gestion de la documentation de la future application et auxquelles on peut apporter une aide en matire de structuration de cette information dont on devra assurer terme l'archivage.

Larchiviste peut demander tre associ certaines de ces fonctions et les accompagner. Il peut alors participer la rdaction de cahier des charges pour la ralisation dapplications et y veiller la mise en place de modules darchivage, participer la recette des maquettes, assurer la formation des services utilisateurs des applications pour la partie archivage, veiller avec les informaticiens lors des transferts dans les services darchives que les donnes ayant migr nont pas subi daltrations et ont gard leur caractre authentique. Larchiviste peut aussi apporter son aide aux services pour la mise en place de plans de classement et darborescences de rpertoires lectroniques. III. 2. Les qualifications que doit runir un service darchives Si larchiviste doit se tenir au courant des volutions technologiques concernant le secteur de larchivage des donnes numriques, il ne peut les matriser compltement. Il serait particulirement utile quil puisse constituer auprs de lui une quipe voue la conservation des documents lectroniques. Le mieux est le dveloppement dun ple de comptence de ce type avec un technicien informatique, comme cela est le cas dans les grands services de conservation nationaux, par exemple lquipe CONSTANCE au Centre des archives contemporaines (CAC) de Fontainebleau. Lorsque la constitution dune quipe de spcialistes nest pas possible, larchiviste devra trouver un agent de son service dont les comptences en ce domaine puissent tre dveloppes, grce des formations spcifiques. Sinon, il se tournera vers les services informatiques les plus proches, par exemple, les services informatiques du dpartement pour des archives dpartementales.

Larchiviste devra de mme sadjoindre les comptences dun juriste, soit en interne, soit en ayant recours celui qui sera le plus proche de son institution (la plupart des grandes administrations ont aujourdhui un tel service). III. 3. Stratgies mettre en oeuvre Il ne peut y avoir de bonne politique darchivage sans une prise de conscience de son importance et une validation au niveau le plus haut de la hirarchie de linstitution productrice, au niveau de la direction gnrale. La premire condition remplir est donc la reconnaissance, ce niveau, du caractre stratgique dune politique visant conserver long terme les donnes numriques, par exemple en prenant en compte leur archivage dans le schma directeur de linstitution. Pour convaincre les responsables de linstitution de production et sa propre hirarchie, de lutilit de la conservation long terme des donnes numriques et de linvestissement intellectuel, financier et humain quelle suppose, il faut mettre en avant des arguments de conservation (juridique, financier) mais aussi de valorisation et rutilisation par la communication.

Une exprience du Centre des archives contemporaines Le Centre des archives contemporaines (Fontainebleau) a pu tirer des conclusions positives dune opration de sauvetage denqutes anciennes mais intressantes lors de laquelle il a t ncessaire de reconstruire toute la documentation technique dcrivant la structure des fichiers. La mission fondamentale du service versant tait la publication de rsultats partir de ces enqutes. Les fichiers taient un outil de travail n'ayant de valeur que pour les publications auxquelles il permettait de parvenir. Dans cette logique, le producteur des donnes n'y a accord d'attention que tant qu'elles taient utilisables et, une fois utilises, ne les a pas considres comme des informations ayant une valeur en soi et dont la conservation tait ncessaire. Le CAC a rendu compte de son opration d'archivage, de son travail laborieux de reconstitution de la documentation associe et a formul lide que sa conservation pouvait prsenter un intrt. Le service versant a ainsi pris conscience que la perte des donnes pouvait lui tre prjudiciable dautant que des enqutes peuvent se rpter dans le temps et il peut tre rentable daccder une prcdente version lectronique. Il a donc dcid denvisager la constitution d'un comit d'archivage qui tudierait, entre autres, les mesures ncessaires pour organiser la conservation des enqutes sur une longue dure.

Le recours aux donnes pour des besoins juridiques peut aussi tre un argument plaidant en faveur dune bonne conservation des donnes lectroniques (c'est ainsi qu'un des responsables de l'informatisation des juridictions au ministre de la Justice sest rendu compte de limportance des procdures de prennisation lorsquil a fallu retrouver des donnes pour laffaire des disparues de lYonne ; pour la mme enqute judiciaire, la SNCF a d retrouver rapidement les horaires des trains de lpoque pour vrifier la validit des informations fournies par les suspects...)

Exemple de stratgie au ministre de la Justice Limplication de larchiviste a commenc avec lacceptation par ses interlocuteurs de sa prsence au sein des comits de suivi civil et pnal du ministre, avec le soutien du directeur. Cette participation a permis le rapprochement avec les services statistiques du ministre dont les objectifs sont de mettre en place des modules statistiques efficaces au sein des applicatifs, do la ncessit dintervenir en amont, exactement comme les archivistes. Cest dailleurs la lecture du compte rendu du comit de programmation de la statistique qui a permis de savoir que le rpertoire gnral civil dans les juridictions tait en cours de refonte (afin que toutes les affaires passant par une juridiction, quelles relvent du judiciaire ou du rle de dpt et denregistrement des greffes, soient enregistres dans le rpertoire gnral). Un volet a alors pu tre rdig concernant larchivage lectronique des donnes figurant dans le rpertoire gnral (un volet identique tait mis en place pour les statistiques) en listant les donnes essentielles et en prcisant quelles seraient transfres rgulirement ladministration des Archives. On voit par cet exemple quil sagit dintervenir trs en amont : dans ce cas prcis, les prconisations du rpertoire seront transmises aux socits grant les applications civiles en place dans les cours, les tribunaux et les conseils de prudhommes pour tre ensuite prises en compte et permettre les volutions des produits. En tout tat de cause, ces volutions ninterviendront pas avant 2002, 2003 voire 2004 (pour les tribunaux dinstance) tant sont grandes les lourdeurs inhrentes aux marchs, la rdaction des cahiers des charges et aux oprations en aval (tests, sites pilotes, implantation progressive...). On comprend aussi quintervenir une fois les jeux faits (cest--dire les applicatifs modifis) est contre-productif. La participation ce comit a permis de se positionner lors du lancement dun nouveau projet denvergure dune nouvelle chane pnale pour tous les tribunaux -hors Paris et la rgion parisienne. Ds la phase de rdaction du cahier des charges pour lassistance la matrise douvrage, larchiviste a t sollicite en tant que matre douvrage associ, la collaboration avec lquipe en charge du projet portant sur trois points : intervention dans les groupes de travail sur la reprise des donnes des anciennes applications, arguant du fait quil serait utile de pointer les affaires suffisamment anciennes pour tre archives afin de les stocker dans une base archives, vitant ainsi une reprise des donnes dans la nouvelle application trop importante ; dfinition, module fonctionnel par module fonctionnel, des donnes destines tre prennises et donc tre bascules dans une base archives centralise (aux cts de linfocentre, le mme mcanisme dans les deux cas dextraction et dinjection des donnes tant mis en oeuvre) ; conseils sur les formats, les piges viter pour la numrisation de certains documents et plus gnralement la gestion lectronique de documents. Par la suite, cette premire intgration a permis larchiviste dtre associe aux travaux de prparation du nouveau schma directeur informatique. Cette association a consist intervenir pour le rfrentiel technologique, en y faisant intgrer les outils dinterface pour larchivage ; dans llaboration du rfrentiel des mtiers de linformatique au ministre en y faisant intgrer larchiviste en tant que, dune part, matre douvrage associ et, dautre part, aide pour les services dans leurs mthodes de travail (afin damliorer la gestion documentaire) ; pour la mise en place dune mthodologie type pour

le lancement dun projet suivant le niveau du projet, en tentant de dfinir le rle dun matre douvrage associ ; pour la cartographie des applications en intgrant une colonne " module darchivage " permettant de distinguer les applications pour lesquelles il convenait de prvoir un archivage, de celles pour lesquelles ctait inutile (suivi des plannings des personnels, par exemple) ; pour la rvision du dictionnaire des donnes partages permettant pour toutes les applications, de sentendre sur les mmes concepts et enfin, pour la dfinition des domaines daction du ministre, visant modliser les circuits et les procdures du ministre (en lien avec les mtiers et par consquent avec les applications), domaine sur lequel la valeur ajoute de larchiviste tait bien relle en raison de sa connaissance globale des attributions du ministre.

Autre exemple du ministre de la Justice Lassociation aux travaux dun groupe de travail mis en place dans le cadre de la R.T.T. , sur les faons de mieux travailler avec les nouveaux outils (travail collaboratif, enregistrement du courrier, archivage du courrier lectronique, mise en rseau au sein des bureaux...). Le point de vue de larchiviste a pu ainsi tre entendu et notamment limportance de prendre en compte larchivage trs tt dans la chane du traitement documentaire. A partir des conclusions de ce groupe de travail, ont t crs deux autres groupes. Le premier concerne la mise en place dun outil denregistrement du courrier unique pour lensemble du ministre (permettant dassurer la traabilit du suivi des courriers et documents entrant au ministre) : dans cette optique, il est possible dorienter vers une organisation calque sur lexprience du ministre des affaires trangres o tous les documents ds leur enregistrement sont " tracs " grce un enregistrement efficient (mention dun objet mais galement dun lien avec un plan de classement, avec un dossier), ce suivi couvrant toutes les tapes jusqu larchivage du document. Lautre groupe de travail concerne lamlioration de la faon de travailler des secrtariats, dont on sait le rle central en matire de matrise de la production documentaire au sein du bureau : de lenregistrement des courriers au rangement et au classement des dossiers, au versement dans le service des archives. On pressent alors la possibilit pour larchiviste de mettre en place dune manire systmatique de bonnes procdures en matire de traitement de linformation, en intgrant aux anciennes pratiques bases sur le papier les nouveaux modes de travail induits par la gnralisation de linformatique dans les bureaux. Pour assurer l'efficacit d'un archivage de donnes sur le moyen et le long terme, la politique de lorganisation productrice doit tre clairement tablie et lun des premiers objectifs atteindre est dintgrer la fonction archives dans le champ couvert par les diffrentes applications de linstitution. Lorsquon aura spcifi le primtre couvrir, cest--dire prcis le besoin darchivage, on tablira une organisation avec les personnes concernes, organisation prenant en compte les liens entre ces personnes et les relations quelles entretiennent. Sans cette base, il sera trs difficile de dgager les moyens financiers et humains ncessaires pour larchivage des donnes. Larchiviste doit tre associ llaboration de cette politique pour se faire entendre des informaticiens et les influencer. Il est important de ne pas confondre les fonctions et de

faire en sorte que la fonction archives soit clairement identifie face celle de linformaticien. Ainsi larchiviste pourra jouer le rle de mdiateur neutre entre linformaticien et tout utilisateur. La conservation long terme des donnes numriques est une opration coteuse. Mais reconstruire des donnes perdues, dtriores ou dtruites l'est encore plus. Ces cots importants ont un impact dans la vie quotidienne de linstitution de conservation. Il sagira donc de faire des valuations et des tris slectifs tout dabord en fonction de lintrt scientifique des donnes, puis en fonction des capacits humaines et financires de linstitution traiter cette premire slection. On ne cherchera pas faire preuve de la mme rigueur pour des documents destins une conservation long terme et pour des documents liminables brve chance (avant 10 ans). Cependant larchivage intermdiaire tant de plus en plus souvent un moyen pour les services darchives, de justifier leur existence et de se dvelopper, la question devra tre examine en fonction des situations. On ne dira du reste jamais assez limportance pour larchiviste de savoir se positionner trs amont dans les processus de cration documentaire et dintervenir ds lge vivant des documents. La mthodologie de prservation qui suit est donc essentiellement conue pour les documents qui, ds leur cration ou leur transfert dans un service darchives, sont destins tre conservs dfinitivement. Les mthodes de description, leur approfondissement, les choix de supports devront tre plus ou moins pousss en fonction de lintrt et de la dure de vie des documents et des besoins de disponibilit et communication des donnes. Il faudra alors que larchiviste examine avec linstitution productrice comment rationaliser la politique et la production documentaire et comment la rendre claire tout utilisateur. De plus en plus souvent, l'archiviste est confront au souhait des gestionnaires de mettre en oeuvre des systmes globalisants de gestion lectronique de documents (GED). Cette orientation nat souvent de l'ide fausse que la dmatrialisation fera gagner de prcieux mtres carrs qui ne seront plus consacrs du stockage de documents papier. Si le discours de l'archiviste doit faire prendre conscience aux dcideurs, des rorganisations internes importantes qu'implique une telle entreprise pour la production documentaire et modrer quelque peu leur enthousiasme, il doit aussi accompagner cette dmarche innovante et inluctable. Un systme de GED est un ensemble composite de documents relevant d'un grand nombre de producteurs diffrents. L'archiviste devra en examiner chacun des sous-ensembles, en se fondant sur le principe de respect des fonds et devra examiner chacune des typologies l'intrieur de ses sous-fonds. Chacune aura sa mthode de traitement approprie, certains documents tant du type courrier lectronique, d'autres images de documents numriss, d'autres dossiers partags, d'autres bases de donnes... Larchiviste doit aider le producteur expliciter ses intentions et les objectifs de la production des donnes. Tous ces lments serviront alimenter la documentation sur lobjet dinformation numrique dune part, la rflexion sur l'valuation et la slection de ces objets dautre part. Larchiviste est aujourdhui un des personnages cls du Records management en contribuant une formalisation des systmes de gestion et de production documentaire qui ne peut tre que bnfique linstitution.

IV. Prparer le versement Si linstitution dcide davoir une politique optimale de Records management, larchiviste est associ la cration des documents et les fonctionnalits dvaluation, de slection, de communication des donnes sont intgres dans la couverture fonctionnelle des applications.

Mais si, comme cest encore frquent, larchiviste na pas t associ la cration du document lectronique non plus qu la gestion de son cycle de vie, il se trouve souvent, comme dans le cas du papier, confront un archivage de donnes dont il na aucune connaissance pralable. Que faire en ce cas ?

IV. 1. Reprer les donnes numriques existantes Larchiviste devra tout dabord essayer danticiper des versements anarchiques en tentant de faire le relev le plus complet possible de la production de linstitution. Il devra reprer les applications lectroniques existantes ainsi que les informations ne faisant plus lobjet dune impression papier, qui sont les plus fragiles dentre toutes. Pour cela, il demandera tout dabord aux services informatiques du producteur la liste des applications dont ils ont connaissance. Il est aussi souvent oblig de complter cette liste avec les producteurs eux-mmes qui peuvent avoir produit des applications ou des fichiers divers sans avoir fait appel aux techniciens. L'article 22 de la loi 78-17 du 6 janvier 1978 portant cration de la Commission nationale de l'informatique et des liberts (CNIL) prcise que " la commission met la disposition du public la liste des traitements, qui prcise pour chacun d'eux : la loi ou l'acte rglementaire dcidant de sa cration ou la date de sa dclaration ; sa dnomination et sa finalit ; le service auprs duquel est exerc le droit ; les catgories d'informations nominatives enregistres ainsi que les destinataires ou catgories de destinataires habilits recevoir communication de ces informations ". Sont tenus la disposition du public, dans les conditions fixes par dcret, les dcisions, avis ou recommandations de la commission dont la connaissance est utile l'application ou l'interprtation de la prsente loi. Pour connatre les applications nominatives, une source utile est donc lensemble des actes rglementaires portant dcision de traitement automatis d'informations nominatives aprs avis motiv de la CNIL pour les traitements oprs pour le compte de l'tat, d'un tablissement public ou d'une collectivit territoriale, ou d'une personne morale de droit priv grant un service public, ainsi que les arrts du ministre des finances portant approbation des programmes d'enqutes statistiques obligatoires et d'intrt gnral. Les finalits, noms des commanditaires et utilisateurs des applications, lments de documentation minimale des applications, pourront servir la description archivistique de celles-ci. Il est noter que certains actes rglementaires relatifs des traitements intressant la sret de l'tat, la dfense et la scurit publique ne sont pas publis. On s'assurera aussi de ce que certains programmes aient pu ne pas tre dclars auprs de la CNIL. Dans certaines institutions, par mconnaissance en gnral, ce cas peut tre frquent. On recourra enfin tous les documents des directions des finances, des confrences budgtaires, dans lesquels sont signales les applications mettre en oeuvre sur le prochain exercice. Lorsquil existe des schmas directeurs informatiques, on consultera les bilans de ces schmas afin de juger des ralisations et des applications mises en service. Ces bilans donnent souvent lieu la programmation dun nouveau schma que larchiviste devra attentivement prendre en compte pour reprer les projets venir et se tenir inform de leurs volutions.

Exemple d'archives communales

Larchiviste de la commune X demande ses collgues des services informatiques de faire cet tat des applications. Il reoit le tableau suivant (extraction dun tableau original de 35 applications pour une commune de 45 000 habitants) : Service utilisateur CCAS Compta Conservatoire DIMU Gestion des lves Informations cadastrales, permis, ... Election Etat Civil liste des lecteurs actes de naissance, actes de dcs mariage ... Ftes Voirie inscrits au concours + notes + rsultats plans, cadastre, informations cadastrales texte texte + fichier au format " star " Quattro Oracle + Star Oui plans dev interne texte texte Oracle Oracle Contenu Gestion de laide sociale + RMI Type dinformation texte texte texte texte, images systme Oracle Oracle Access Fox Perte crit observations

Quelques remarques sur le tableau prcdent Il sagit dun premier reprage sur lequel les archivistes et les informaticiens pourront travailler. Ces lments sont une partie des mtadonnes de description et darchivage des donnes numriques. Il sera ncessaire de complter un tel tableau sur les points suivants :

format prcis des fichiers avec lidentification de leurs versions versions des systmes de gestion bases mises jour ou pas, priodicit des mises jour dates de cration, de modification, voire de fin volume des donnes au moment T accroissement annuel

Il faudrait galement utiliser des termes plus explicites et archivistiques. Les intituls doivent tre comprhensibles par tout utilisateur. Les services informatiques de la commune X ont indiqu sous la forme " dev interne ", le fait que le programme ait t crit par leurs soins et quils matrisent les informations. L'expression " perte crit " nest pas plus explicite. Il sagit en fait des bases

ne donnant lieu aucune impression papier. La notion est fondamentale dans le cas dun tableau de gestion, car elle sert dterminer quel support sera conserv de prfrence un autre mais elle doit tre exprime autrement pour tre intelligible par tous. Le service appel utilisateur est en fait le service producteur des donnes, cest--dire pour les informaticiens celui " qui utilise " la base. Il serait donc bon de tenir compte aussi du ou des services seulement utilisateurs et non producteurs des donnes, donc des destinataires de linformation. De plus dans le cadre dun systme de gestion lectronique de documents partag et de systmes intranet, les services producteurs des donnes peuvent tre multiples. Il faudra les identifier clairement et dcrire dans les dictionnaires des donnes la part des uns et des autres dans la cration. Il arrive souvent que les services informatiques ne soient pas en possession des codes source des bases utilises par les services producteurs lorsquils les ont sous-traites. Cette carence peut entraver la migration et la rutilisation des donnes dans dautres contextes technologiques. Lidal serait que les services darchives soient dpositaires de ces codes source dans un but de prennisation des donnes. Les codes source peuvent en effet tre considrs comme faisant partie des mtadonnes associes aux donnes numriques. Les archivistes devront sensibiliser les services informatiques ce problme, notamment au moment des choix en matire de dveloppement dune application.

IV. 2.Constituer les mtadonnes Le reprage des applications nest quune tape car il faut aussi pour chacune, collecter une documentation trs prcise, appele les mtadonnes (donnes sur les donnes) du document lectronique. Les mtadonnes renseignent sur le contexte de cration, de vie et de traitement du document lectronique. Les critres dvaluation et de slection (type, date prvue, date dexcution) et de communication peuvent aussi, ds la cration des donnes, faire partie de leurs mtadonnes. On a donc diffrents types de mtadonnes : de description, de cration et gestion, de conservation long terme. Il existe aujourdhui de nombreux standards de mtadonnes. Le plus connu est celui qui sert dcrire sommairement les pages Web, l'initiative du Dublin Core, qui contient 15 lments. Pour la conservation long terme, on pourra prendre particulirement en compte le standard dvelopp par les Archives nationales d'Australie ou plus rcemment celui maintenu par la Library of Congress pour les bibliothques numriques. Des lments comme ceux de la norme de description internationale ISAD (G), des formats bibliographiques MARC ou de la DTD EAD (Encoded Archival Description), outils connus des archivistes et bibliothcaires, peuvent tre galement tre considrs comme des mtadonnes. La norme Records Management en contient aussi et un sous-groupe de travail du TC 46/SC 11 de lISO va la complter en ce domaine. Certaines mtadonnes collecter sont communes tous les documents numriques (base de donnes, traitement de texte, document structur, image...): ce sont essentiellement celles qui servent la description des documents. Mais certaines autres mtadonnes n'existent que pour certains types de documents. Pour une base de donnes relationnelle par exemple, il sera ncessaire de rcuprer dans

cette documentation, le dictionnaire des donnes, qui n'existe pas pour un document bureautique. Pour ce dernier, il faudra rechercher les spcifications de format qui ne sont pas toujours publiques... Ces mtadonnes sont, pour une partie d'entre elles, longues constituer et parfois difficiles collecter lorsquon le fait a posteriori au moment de lge intermdiaire ou au moment du versement dans un service darchives dfinitives. Car les concepteurs et producteurs de documents lectroniques ne disposent pas souvent du temps ncessaire pour formaliser leur connaissance de la base qui repose en grande partie sur la mmoire. Or il est indispensable de disposer de toute la documentation associe aux donnes. Si cela cote un peu de temps aux interlocuteurs des archivistes, ils pourront cependant en retirer un bnfice terme lorsquils auront besoin de retrouver la trace de donnes lectroniques ou la raison de leur absence. Un archiviste peut tre assur qu'il a collect les mtadonnes indispensables lorsqu' la lecture des donnes lectroniques qu'il doit recevoir, il comprend parfaitement et de faon vidente, leur contexte de cration et leur contenu. Il doit pour cela se mettre la place du chercheur. Les mtadonnes devraient tre lavenir de prfrence livres sous forme lectronique. Mais elles peuvent encore se trouver sur support papier exclusivement, notamment lorsque la forme lectronique na pas t prserve (documentation associe sur traitement de texte par exemple). Jusqu prsent, la documentation des fichiers structurs archivs au Centre des archives contemporaines est ainsi presque exclusivement sous forme papier. Lorsque les mtadonnes sont sous forme lectronique, elles peuvent tre incorpores dans le document lui-mme ou constituer une ou plusieurs applications de documentation spares du document. Les mtadonnes peuvent tre en permanence affines, compltes ou corriges si besoin. Lessentiel est den collecter le maximum pour assurer la survie des applications. Aujourdhui, le document lectronique peut se documenter entirement lui-mme. Le meilleur langage pour tablir cette documentation est le XML. Exemples de mtadonnes

Mtadonnes de conservation indispensables et minimales:

nom ou identifiant (ventuellement cod) du ou des fichier(s) ou de lapplication dictionnaire des donnes pour une base de donnes dictionnaire des balises ou des lments pour un document structur en SGML ou XML, avec sa DTD ou son schma structure des fichiers arborescence lectronique des fichiers et donnes codification des donnes pour une base de donnes (avec la date de validit de ces codes) codes-source systme dexploitation logiciel de production et version

Mtadonnes de description :

titre ou intitul du document description brve du contenu et du contexte de production service producteur ( dtailler avec les lments de la norme ISAAR (CPF))

auteur(s) expditeur destinataire(s) date de cration, modification(s), capture format lectronique langage des donnes logiciel de capture et version support lectronique dorigine indexation matire situation dans le plan de classement de linstitution

Mtadonnes de gestion :

service versant date de transmission des donnes adresse de localisation support lectronique de conservation volumtrie droits de reproduction communicabilit dure de conservation

On veillera collecter toute autre information servant comprendre le processus et le contexte de cration et de traitement des documents et donnes.

IV. 3. Rdiger le plan de classement de lorganisme de production La base dun bon archivage est dorganiser le classement des documents le plus tt possible, de faon idale au moment de leur cration. Pour cela il faut faire une analyse fonctionnelle de lorganisme producteur, de prfrence au plus haut niveau. " La dmarche analytique qui vise llaboration dun classement des activits recense toutes les activits dun organisme et les situe dans le cadre dfini par les missions et les objectifs quil assure directement ou par dlgation ". De cette analyse, labore par les producteurs aids de larchiviste, dcoule le plan de classement qui est le reflet de la structure fonctionnelle de lorganisme de production. Il est noter que cette analyse fonctionnelle et ce plan de classement sont trs diffrents de lorganigramme de linstitution, outil de gestion trs phmre tandis que les grands fonctions sont plus prennes. Il est ncessaire :

de structurer ce plan de classement et cette structure pourra inspirer le plan de nommage des fichiers, de nommer ou renommer les fichiers de faon intelligible par tous, producteurs et chercheurs futurs, de les organiser logiquement les uns par rapport aux autres dans ce plan. Il sagit donc de modliser a posteriori linformation si cela na pas t fait ds la cration des donnes.

Dans un plan de classement hirarchique :


le premier niveau reflte habituellement la fonction exerce par le producteur, le second niveau dcrit les activits constitutives de la fonction, le troisime niveau et les suivants dtaillent les actions ou ensembles dactions qui composent chaque activit. IV. 4. Rdiger les tableaux de gestion

Un tableau de gestion liste les grandes catgories de documents produits et reus par une personne morale ou physique dans lexercice de ses attributions. Les tableaux de gestion sont raliss par les services producteurs et leurs archivistes. Pour les archives publiques, ils sont valids par la Direction des Archives de France et , par la suite, aucune limination ne peut tre faite sans le visa de cette administration ou dun de ses reprsentants. Dune part les donnes lectroniques doivent tre prises en compte dans les tableaux qui grent la production papier. Chaque support (papier, analogique, numrique) doit tre mis en relation avec lautre. Des services dpartementaux ont commenc ainsi que la Direction rflchir la question : ainsi vont apparatre de nouvelles formes de tableaux de gestion. Dautre part, les tableaux de gestion de nouvelle gnration doivent sappuyer sur les plans de classement hirarchiques de la production documentaire dune institution. Il est ncessaire de passer dune typologie linaire, non structure, prsente dans les tableaux actuels une mise en relation des types documentaires refltant la modlisation de linformation, par exemple dans une base de donnes relationnelle. De cette faon, les critres de slection deviennent plus explicites. Pour chaque catgorie de document, devraient tre indiqus :

le libell, la place dans le plan de classement, une brve description de son contexte de production dont les dates de dbut de production son poids informationnel et lgal (valeur primaire, secondaire, document authentique), la dure de conservation dans le service, le dlai dutilit administrative, le sort final du document (limination, conservation, type de slection), les relations avec dautres catgories ou types documentaires. IV. 5. Slectionner les donnes

Ayant effectu le reprage des donnes, l'archiviste devra mettre en relation les divers supports de production (papier/lectronique) afin dvaluer la valeur administrative et historique de chacun. Toute conservation long terme a des objectifs scientifiques et de recherche historique. Archiver une slection de donnes numriques revient comme pour les documents sur papier assurer pour les gnrations futures la prservation de la mmoire de ce qui a t une institution, son contexte et son environnement national et international. La slection devra tre priodiquement revue en fonction de ces objectifs long terme. Larchiviste doit dfinir avec le producteur, les donnes qui seront un jour archiver. Celles-ci devront, au moment de larchivage, avoir une structure fige et valide. Certaines applications lectroniques, de type bases de donnes, conues principalement pour retrouver les dossiers papier auxquels les enregistrements se rfrent, peuvent avoir une trs grande richesse

informative. Larchiviste doit tre vigilant sur le contenu de plus en plus sophistiqu et complexe de ces documents et des usages qui pourraient en tre faits pour la recherche historique venir.

La richesse des nouveaux types documentaires : lexemple dune base de donnes du ministre de la Justice

Lapplication GIDE gre le suivi des dtenus dans les tablissements pnitentiaires depuis leur crou, le suivi de leurs demandes auprs de la juge dapplication des peines, leurs activits (travail, activits socio-ducatives), la constitution de leur pcule, les visites reues, la gestion des produits consomms la cantine, la discipline, les transferts... Il sagit donc dune base de connaissances exceptionnelle sur la dtention (plus de 600 tables sont renseignes) et le dossier papier na quasiment plus de valeur ajoute par rapport cette base, si ce nest la conservation des documents produits lextrieur de ltablissement (quon ne numrise pas). A partir de ce moment, le choix des donnes prenniser na plus grand-chose voir avec les lments stricts donnant une cl daccs aux dossiers papier.

On peut slectionner des donnes lintrieur dune application car toutes les donnes nont pas forcment tre conserves : elles peuvent en effet tre redondantes dune application une autre ou une partie dentre elles inutile sur le long terme. On peut aussi choisir de conserver une partie des donnes dune application sous forme papier et non obligatoirement sous forme numrique. On en dcidera en fonction de la frquence et du mode de communication souhaite, en fonction de critres de rentabilit financire galement. On a intrt rviser pour chaque type documentaire les critres de slection qui avaient t dfinis pour le papier. Si les tris spcifiques restent de mise et sappliquent donc des donnes, les tris systmatiques (sur un pourcentage, un critre alphabtique ou gographique) sont moins dfendables dans le cas de documents lectroniques. Ainsi, dans l'affaire des disparues de l'Yonne, les dossiers auxquels la Justice a d recourir taient ceux d'affaires classes sans suite qui auraient d tre limins selon la rglementation en vigueur et qui par hasard avaient t conservs. Ces tris ont la plupart du temps t envisags pour de trs volumineuses sries darchives occupant beaucoup de place dans les magasins darchives, considres sans intrt administratif moyen terme et sans intrt historique.. La slection mme dun chantillon montre que la srie documentaire prsente un intrt mais quelle ne peut tre intgralement conserve faute de place. Dans le mode lectronique les volumes nont plus pour des donnes textuelles la mme importance. Il faut donc rviser ces tris systmatiques et probablement accepter de conserver la totalit des donnes dun mme type pour une srie documentaire.

Les obligations fixes par la CNIL

Les avis rendus par la CNIL contiennent des prescriptions relatives llimination de donnes nominatives dans des laps de temps relativement bref. Toutefois, larticle 5 de la loi n 2000-321 du 12 avril 2000, a modifi larticle 28 de la loi n 78-17. Il est dsormais prvu " quau-del de la dure ncessaire la ralisation des finalits pour lesquelles elles ont t collectes ou traites, les informations ne peuvent tre conserves sous une forme nominative quen vue de leur traitement des fins historiques, statistiques ou scientifiques ". La conservation long terme des donnes nominatives par les services darchives comptents est donc depuis possible.

. Exemple de lapplication GIDE (gestion des dtenus dans les tablissements pnitentiaires) . La CNIL avait prvu, suite la dclaration de lapplication, une conservation des donnes durant 15 mois aprs la leve dcrou, ces 15 mois ne reposant, selon ceux mmes qui ont eu en charge le dossier, sur rien si ce nest une dclaration concernant lapplication qua remplac GIDE. Les donnes taient donc supprimes alors mme que la circulaire sur les archives de ladministration pnitentiaire prvoit bien avant transfert aux archives dpartementales une conservation des donnes papier durant 10 ans et une conservation illimite des registres dcrou. Ladministration pnitentiaire tant bien consciente que des recherches pourraient tre ncessaires dans les dossiers papier, accompagne ces destructions des donnes dditions papier multiples permettant de reconstituer un fichier papier ! Larchiviste du ministre de la Justice a rappel lexistence de la circulaire afin que soit revu le dlai de 15 mois et que le dlai corresponde bien une DUA et, dans un second temps, faire connatre les dispositions de la loi du 12 avril 2000. Concernant limpact de cette loi et de son application relle, on sorienterait pour le ministre de la justice, vers une dclaration gnrale la CNIL pour lensemble du ministre visant organiser larchivage des donnes une fois la DUA coule et non plus leur suppression.

IV.6 Conserver les donnes sous forme papier, numrique ou analogique

Selon les applications il faudra se poser la question de la conservation sous forme lectronique, sous forme analogique ou sous forme traditionnelle papier. Doit-on archiver sous forme lectronique, est-ce toujours possible ou rentable ? Le DLM-Forum prconise de conserver sous forme lectronique tout document produit sous cette forme. Mais il est sans doute prmatur dtre aussi systmatique et il faut veiller adapter les pratiques aux ralits de linstitution dont on dpend et ses moyens financiers et humains.

Il est draisonnable denvisager la conservation de grosses bases de donnes sous forme papier car les modes de recherche dans de volumineuses piles de listings sont inefficaces. En revanche, les courriers lectroniques et tous les documents de bureautique individuels sont encore souvent imprims et classs dans des dossiers, sans que cela pose le moindre problme. Si le mode de classement de ces dossiers est correct et rpond aux besoins de linstitution en matire de recherche de linformation, il ny aura peut-tre pas lieu denvisager leur conservation sous la forme lectronique. Cette pratique va sans doute tomber progressivement en dsutude et on aura sans doute intrt oprer une conversion de cet archivage vers le mode lectronique ds que cela semblera ralisable. Larchivage des documents dun mme type de dossier sous plusieurs supports ne peut tre quune solution transitoire, car elle est complexe grer de faon rationnelle et systmatique.

Faut-il numriser les documents papier ?

Larchiviste se trouve de plus en plus souvent confront aux questions ou projets des dcideurs de son institution qui, pour gagner de la place de stockage, envisagent brutalement de dmatrialiser lensemble de la production, y compris celle existant sous forme papier, de la scanner dans sa totalit et de lintgrer dans un systme de gestion lectronique de documents. La numrisation est galement sduisante pour la communication des documents et dans une institution pour la gestion de ressources partages. Nanmoins, il ne faut pas occulter les problmes techniques, organisationnels et financiers que posent de telles oprations. Les rponses varieront donc en fonction :

des capacits financires de linstitution, la numrisation ayant un cot en matriels, en formation, de lintrt dune forme numrique des documents par rapport leur forme papier, de la dure de conservation lgale des documents.

On comparera les cots de conservation papier et numrique. Le cot de la numrisation et du traitement documentaire qui y est ncessairement associ dpend de la qualit du document dorigine, de son format, des volumes, du niveau de traitement souhait (simple identification ou indexation) et de leur degr dautomatisation. Larchiviste doit aussi suggrer quil ny a aucun intrt numriser des documents liminables court ou moyen terme si les modes de classement traditionnel papier sont prouvs et suffisants pour trouver rapidement linformation recherche. On naura pas grand intrt dans nombre dinstitutions pour quelques annes encore, numriser les dossiers de personnel, dossiers de supports trs composites mais qui contiendront encore quelque temps de nombreux documents papier fournis par lintress (feuilles de demandes de congs maladie ou rguliers, lettres de motivation, procdures avec ladministration en attendant leur dmatrialisation totale). Dans ce cas un classement alphabtique des dossiers comme le pratiquent les secrtariats habituellement permet de retrouver facilement les donnes recherches et ce classement papier est encore tout fait

suffisant. Il serait plus onreux et gure plus efficace pour la recherche, denvisager la numrisation des documents papier fournis par les individus et de les intgrer dans un programme de gestion lectronique de documents et ensuite, de les grer sur le long terme. Si on dcide de numriser, il faudra tre vigilant sur les choix de rsolution des images, de formats. On optera pour ceux qui assureront au document le plus grand usage (que la qualit dimage soit suffisante pour quil ne soit pas ncessaire de recourir sans cesse au document sous forme papier) et la plus grande prennit. Sur ce point on suivra les dernires prconisations, en particulier le Guide pour larchivage des documents lectroniques produit par la MTIC. Mais ces recommandations ont aussi des consquences, de par leur poids, sur les capacits de stockage en ligne ou hors ligne.

IV. 7 Garantir l'identit et l'intgrit des donnes lectroniques

Lauthenticit repose pour le moment sur le postulat quau moment du versement dans le service de conservation long terme, le contenu des donnes tait authentique. Le groupe InterPares (International Research on Permanent Authentic Records in Electronic Systems) a dtermin un ensemble de huit rgles qui garantissent lauthenticit : 1) association de mtadonnes de description aux donnes, 2) droits daccs, 3) procdures de protection contre la perte et la corruption des donnes, 4) procdures de protection contre la dtrioration des supports et lobsolescence technologique, 5) tablissement de fiches associes chaque procdure, 6) rgles dauthentification des donnes, 7) identification de lexemplaire qui fait foi en cas dexistence de copies multiples, 8) documentation qui doit tre remise celui qui assure la conservation long terme lorsque les donnes entrent dans lge historique. Plus le nombre de rgles respectes est proche des huit, plus lauthenticit du document a de chance dtre forte. Mais un document lectronique ne respectant aucune de ces huit rgles nen sera pas pour autant dtruit. Il faut faire preuve desprit pragmatique dans ce domaine et ne pas tomber dans des discussions trop thoriques. Il ne faut pas prendre plus de prcautions sur lauthenticit de certains documents lectroniques quon en a pris pour leurs formes papier et microfilm. Le groupe InterPares a aussi dtermin lorsque les huit rgles sont respectes, un certificat dauthenticit ne serait fourni que sur demande expresse.

Rflexions sur la signature lectronique

Comme sur un document papier, la signature nest sous forme lectronique quun maillon dune chane complexe de facteurs et procdures qui, ensemble, garantissent lauthenticit des documents. Un dcret (n 2001-272) relatif la signature lectronique a t pris le 30 mars 2001 pour lapplication de larticle 1316-4 du code civil. Il dtermine les conditions ncessaires pour que des procds de signature lectronique puissent tre considrs comme scuriss et bnficier de la prsomption de fiabilit. Dans ladministration, on en est encore la simple exprimentation, par exemple pour les tldclarations, la transmission des actes soumis au contrle de lgalit. Mais terme lessentiel des actes administratifs peut tre concern par le dcret labor pour les actes sous seing priv.

Le dcret du 30 mars permet thoriquement une acception large de la signature lectronique (signature cryptographique, signature biomtrique, signature-tatouage, signature numrise). Ceci tant, il prcise que " la fiabilit dun procd de signature lectronique est prsume jusqu preuve contraire lorsque ce procd met en oeuvre une signature lectronique scurise, tablie grce un dispositif scuris de cration de signature lectronique et que la vrification de cette signature repose sur lutilisation dun certificat lectronique qualifi ". Tous les documents ne disposeront pas de toute vidence de ce type de signature. La signature cryptographique est de celles qui peuvent rpondre aux exigences de scurit dfinies dans le dcret du 30 mars 2001. Elle repose sur lexistence pour lexpditeur et le destinataire dun document, dune cl publique et dune cl prive qui permettent de raliser, la signature, le chiffrement ventuellement et la lecture du document sign. La cl publique de chaque individu est rendue disponible au sein dun annuaire, alors que la cl prive est conserve secrte. Bien que la cl publique et la cl prive soit complmentaire, il est impossible, mme en connaissant la cl publique, den dduire la cl prive. Le certificat, dlivr par une autorit de certification, contient des informations qui permettent dassocier une cl publique un individu et de sassurer de lidentit de lexpditeur dun message par exemple. Cette signature tend scuriser la circulation des documents sur les rseaux dans la mesure o son systme permet de reprer toute altration du document. En revanche, pour le moment, rien nest prvu pour permettre une vrification de la signature, des annes aprs son tablissement. Des chercheurs europens travaillent un protocole qui permettrait la conservation de lenvironnement de la signature. Sinon, il est impossible dassurer la prennit dune signature cryptographique dans la mesure o, pour assurer la lisibilit du document dans le temps, celui-ci devra faire lobjet de migrations. Le document en est invitablement modifi ce qui ferait chouer les mcanismes de vrification, le principe de la signature cryptographique tant de garantir lidentit et lintgrit du document. La signature numrise consiste simplement en la capture, au sein dun fichier informatique, de limage de la signature manuscrite dun individu. Limage informatique rsultante peut ensuite tre ajoute, par diffrents procds, la suite ou au sein dun document lectronique et conserve sous le mme format.

Exemple : le systme SAGA dvelopp pour le Service central de ltat civil du ministre des Affaires trangres (SCEC) Nantes Le systme comporte trois lments distincts : tout dabord, les 8 millions dactes numriss partir des registres papier; ensuite, le systme qui permet lofficier dtat civil dapposer un " pav " contenant le sceau de ltat et sa signature au sein de lacte numrique ; finalement, le papier scuris sur lequel la copie conforme signe est imprime, papier pourvu de caractristiques spciales qui protge son intgrit et en empche la reproduction. Au sein mme du SCEC, la scurit est assure par un ensemble de mthodes et techniques : les officiers dtat civil ne sont pas nimporte quel groupe dutilisateurs, et la pnalisation svre du faux en criture publique assure, plus que toute mesure technologique ne saurait le faire, quils ne soient pas considrs comme des fraudeurs potentiels au sein du systme. Des

mcanismes de journalisation automatique des procdures informatiques assurent leur traabilit. Laccs aux locaux contenant les documents numriss et au papier scuris est contrl par les procds traditionnels de cls et serrures, et laccs aux postes de travail des officiers dtat civil est quant lui contrl par mot (ou phrase) de passe. De plus, lutilisation de la signature numrise de lofficier est strictement guide par le systme : limage numrise de la signature ne rside pas sur le poste de travail de lofficier mais bien sur un serveur central, ntant transfre quau moment de lidentification de lofficier son poste de travail ; la signature nest utilisable que dans les modalits dfinies par le systme et ne peut tre extraite pour une utilisation non conforme. Pour des documents numriques exploitables des fins juridiques, la signature lectronique constitue une des garanties essentielles de leur intgrit et toute altration porte atteinte celle-ci. Mais pour les autres documents, un doute quant leur authenticit peut tre tolr et la signature aura moins dimportance et pourra donc tre spare des donnes si elle empche leur conservation par migration. Le chercheur usera des autres lments de critique et des mthodes traditionnelles de la diplomatique pour juger du degr dintgrit des donnes. La forme matrielle est aussi jusqu prsent un lment dterminant pour juger de lintgrit du document. Or la technique la plus couramment utilise jusqu prsent consiste dtacher les donnes de leur contexte de mise en forme, pour les prserver sur le long terme plus commodment. Un lment important pour juger de lintgrit des documents est ainsi perdu. Ce constat est lourd de consquences pour la dmatrialisation des actes authentiques dont le formalisme est trs important.

IV.8. Assurer le transfert Il est ncessaire que le service qui doit conserver les documents, dispose au moins dune station de travail avec les lecteurs appropris aux formats rceptionner.

Importance de l'quipement technique : exemple de l'archivage de la Nouvelle Chane Pnale de Paris

La Direction des Archives de France souhaitait accompagner l'archivage de cette application aux Archives dpartementales de Paris. Son quipement lui permettait de lire des CD ou des cassettes DAT 4 mm. Or les services du ministre de la Justice n'avait pas de graveur de CD connect au serveur Unix dans lequel taient stockes les donnes et ne pouvait livrer que des cassettes DAT 8 mm. L'histoire finit bien car la direction informatique de la ville de Paris a rcupr les donnes de la cassette DAT 8 mm, les a stockes puis graves sur un CD remis la Direction des Archives de France pour ses tests. L'archivage des donnes numriques ncessite d'troites collaborations et mutualisations de moyens

Le service darchives informera lavance les services producteurs qui seront amens faire des versements, des formats et supports sur lesquels ces versements devront tre faits. Lorsque l'archiviste n'a pas t associ toute la chane de traitement du document, ds l'amont, il examinera trs soigneusement le contenus des versements avant leur entre. Les fichiers seront ouverts, ventuellement par sondage sils sont trop nombreux. Leurs mtadonnes seront contrles et leur collecte ventuellement poursuivie afin quelles soient les plus compltes possible. Larchiviste sassurera aussi que ce quil intgre dans les collections est bien conforme la production initiale et que les donnes sont intgres. Ce travail est trs long, ce qui justifie pleinement une intervention prcoce de l'archiviste dans la vie du document : ceci vitera des lourdeurs, voire des checs en bout de chane. Lenregistrement de lentre sera effectu sur le systme usuel de linstitution. V. Garantir la conservation

V. 1. Conditions minimales requises pour lacceptation dun versement de donnes lectroniques Comme pour les supports traditionnels, la premire des conditions consiste naturellement sassurer que les donnes et documents accueillir sont ceux qui taient attendus, en vrifiant par sondage et avant le versement, le contenu du bordereau de versement avec le contenu des documents. Mais le versement a des caractristiques nouvelles analyser. Il faudra non seulement vrifier les contenus, lexistence et la transmission de toutes les mtadonnes indispensables la survie des documents lectroniques mais galement le format des donnes.

On vrifiera par exemple lexistence et la transmission des listes et dfinitions (dictionnaire) des donnes, de leurs codes et de leurs structures. On vrifiera que cette documentation dcrit bien le ou les fichier(s) verser. Documentation et donnes numriques sont indissociables et doivent tre verses en mme temps, la conformit dun format image par rapport au format annonc (ex. : PNG, TIFF), la conformit dun document XML par rapport la DTD ou au Schma annonc et le versement de cette DTD ou de ce Schma

VI. 2. Choix des formats et supports

Toute application hors ligne repose sur des formats et sur des supports qui ncessitent du matriel de lecture spcifique. Pour conserver les donnes dans leur format dorigine, il faudrait donc constituer des muses de technologies informatiques utopiques, tant leur cot serait considrable. Cest pourquoi, on sest jusqu prsent attach privilgier la conservation des donnes, de linformation et non celle de la forme et du format des documents dorigine. VI. 2.1 Formats et langages dencodage Au sein dun systme informatique, toute information est ncessairement reprsente la base sous forme dun code binaire compos de 0 et de 1 (les bits). De nombreux formats dencodage permettent ensuite de prsenter cette information sous forme textuelle, image...Par exemple, un format texte est compos de caractres qui sont eux-mmes composs de combinaisons de huit 0 et 1 (les octets). C'est sur ce niveau d'encodage que se pratique en gnral l'archivage long terme des donnes. Mais un format dencodage nest quun lment dans un ensemble doutils qui le rend intelligible : un fichier Word par exemple est toujours conu pour tre jumel une version du logiciel Word, lui-mme conu pour un certain modle dordinateur et pour son propre systme dexploitation. Un document lectronique nest lisible que grce linteraction de lencodage avec un logiciel et du matriel informatique permettant de linterprter. Il y a donc divers niveaux d'encodage qui sont embots les uns dans les autres. Les formats dencodage peuvent tre :

ouverts (si les spcifications sont publiques), ferms (si les spcifications sont tenues secrtes par le propritaire), propritaires, cest--dire dfinis par une entreprise prive et soumis des droits ; un tel format dont lusage peut tre gratuit peut devenir payant demain si la politique commerciale de son propritaire change ; un format propritaire peut tre ouvert, standards, cest--dire produits par un organisme de normalisation (ISO, AFNOR, W3C) ; ils sont ouverts et non propritaires.

Les formats textuels

Leur encodage repose sur un format " texte " qui se contente de grer les caractres alphanumriques, ainsi quun certain nombre de caractres " blancs ". Le plus souvent, ces caractres sont cods en ASCII, mais ce codage ne spcifiant pas la reprsentation des caractres accentus, il pourrait tre remplac par lUNICODE. LASCII et lUNICODE sont des normes ISO. Cette normalisation facilite la conservation des donnes numriques. Un document peut tre cr en pur format texte grce un diteur de texte, programme dont la fonction principale est de permettre l'dition (cration/ajout/modification/suppression) de texte simple, sans aucun enrichissement typographique ou mise en forme. Il en rsulte un fichier en TXT qui contient ce texte " plat ". De mme lorsquon veut mettre pour conservation long terme, un document " plat ", en ASCII ou en UNICODE, toute mise en forme originale disparat (police de caractre, taille, italique ou gras, etc). On ne prserve que les espaces et les caractres.

Malgr la normalisation de ces langages, cette mise plat nest pas toujours aise dans la mesure o chacun des systmes dexploitation (Windows, Macintosh, Unix, Linux...) codifie le format texte diffremment. partir de ces langages, ont t dvelopps des traitements de texte, des mta-langages et langages de balisage, ainsi que des formats mixtes combinant texte et image.

Les traitements de texte

Un traitement de texte est un logiciel servant diter du texte, de manire plus puissante, plus complte mais aussi complexe qu'un simple diteur de texte. Un des plus connus est Word (logiciel propritaire et ferm) conu par Microsoft. Le format texte mis en oeuvre par un traitement de texte, conu pour rpondre des besoins dditions modestes, donne au texte la mme apparence lcran et sur papier. Loutil peut aussi permettre de structurer linformation de faon assez sophistique mais non normalise. Un document peut tre ralis grce une macro ou macro-commande, commande forme par une succession d'autres commandes rptitives, plus ou moins structure. Les langages de macro sont de plus en plus complets, de sorte qu'une macro va du simple double-clic automatis une petite application. Ces commandes sont trs spcifiques et lies une version dun logiciel. Elles sont aussi sources de nombreux virus. Il est donc impratif den purer les fichiers pour conservation longue. Les impossibilits dchange entre logiciels de traitement de texte, y compris entre les diffrentes versions dun mme logiciel, a conduit Microsoft produire le format RTF (Rich Text Format). Cest un format propritaire mais ouvert. Il spcifie des paramtres quant la mise en forme. Tous les logiciels commerciaux sont censs le lire, pour assurer un minimum dinteroprabilit avec Microsoft Word mais de nombreuses anomalies et non-portabilit de fichiers crs dans ce format, ont pu tre constates. Il est pratiquement impossible dassurer la prennit de ces formats spcifiques de traitements de texte. En revanche, les langages de balisage prsentent des garanties.

Les mta-langages et langages de balisage

A lorigine des langages de balisage et de structuration de linformation est le SGML (Standard Generalized Markup Language), mta-langage de balisage normalis en 1986, utilis par les diteurs, les universitaires et surtout par le monde de lindustrie pour crer de grandes documentations techniques. Ce mta-langage tant lourd et dutilisation complexe, le W3C a dvelopp le HTML (HyperText Markup Language) pour la cration simple et rapide de documents " hypertexte ". Non propritaire et ouvert, il fait partie des standards mais est utilis trs diversement selon les diteurs de pages Web. Le HTML prsente des inconvnients : les utilisateurs ne peuvent dfinir une structuration qui leur soit propre, et cette structuration mle la forme et le fond, cest--dire qu une structure est obligatoirement associe une reprsentation. Il se prte mal la cration dhyperdocuments complexes. Cest pourquoi le W3C a dcid de produire un ensemble de recommandations, le XML (eXtensible Markup Language) dont la premire, XML version 1.0, publie en 1998, dfinit le mta-langage de base. Le XML dcoule du SGML, mais est adapt aux nouvelles exigences du Web. La finalit de ce mta-langage est lchange de donnes et linteroprabilit des applications. La combinaison de XML et du langage de programmation de mise en forme XSL-T (eXtensible Style LanguageTransformations), peut rpondre tous les besoins ddition, quelle que soit la plate-forme informatique, quelle que soit lapplication. Un document XML peut tre prsent en autant de faons que ncessaire grce XSL-T.

Dans le HTML, description physique et structurelle sont intimement mles. Ceci conduit deux difficults majeures : les documents crs ont une esprance de vie courte, limite par la prennit des technologies capables de donner aux lments de mise en page, linterprtation attendue, un mme document ne peut tre facilement ralis selon des modles physiques diffrents, ce qui limite son accessibilit. En revanche, le fait que contenu structur et prsentation des donnes soient distincts dans le XML, peut poser des problmes pour la critique de lintgrit des documents et de leur authenticit comme cela a t soulev dans le rapport sur la dmatrialisation des actes authentiques. On peut, si on le souhaite, modliser des types de documents prdfinis en XML grce des DTD (Document Type Definition) ou des schmas XML. Les donnes ne sont en ce cas interprtables que si on connat la DTD ou le schma quil faudra donc veiller conserver comme rfrentiel dans les mtadonnes.
o

Les formats image

La scannrisation est la faon la plus simple de numriser les archives existant sur papier, en obtenant une image lectronique de chaque page dun document, et en liant ces pages par un mcanisme dindexation appropri. Le format image permet ainsi de joindre lunivers papier et lunivers lectronique. Cependant, un format image nassigne aucune structuration smantique aux donnes contenues dans limage. En particulier, le texte crit est compris en tant quimage, et non en tant que suite de caractres intelligibles. Pour que lordinateur soit en mesure deffectuer des traitements sur le texte contenu dans un fichier image, il faut effectuer une opration ultrieure de reconnaissance optique de caractres. Limage peut tre prise par un appareil photo numrique ou par un scanner plat. Son encodage se fait selon un quadrillage (constitu de points lumineux ou pixels plus ou moins gros sur lcran) dont la densit dfinit la rsolution de limage. Pour la reprsentation informatique, on donne chaque pixel, une valeur code sur un certain nombre de bits qui va en dterminer la couleur ou lintensit. Le nombre de pixels par pouce dit " dpi " (dot per inche) (100, 300, 600...dpi) sera choisi en fonction de la qualit requise pour limage numrique. Plus le nombre de points sur une surface donne est grand, plus la qualit de limage lest, mais plus aussi augmente son volume en octets. La compression permet de rduire ce volume mais certains algorithmes de compression dgradent limage dorigine. Or, plus une image est dgrade moins elle sera prenne, tant donn que chaque migration des donnes et supports risque de lui faire perdre encore de sa qualit. Dans le cas o lalgorithme de compression ne dgrade pas limage, celle-ci a toute chance de mieux voluer dans le temps. On veillera quand mme avoir pour le passage de la gnration n la gnration n+1, le mme outil de compression/dcompression, car alors on ne fait que copier les fichiers sans leur faire subir de transformation, ce qui est plus scurisant. Il existe de nombreux formats image. On optera pour lun ou lautre en fonction des finalits de la numrisation des documents. On choisira en fonction de laffichage et de la lisibilit souhaits, de la place occupe sur les supports. Il faut rechercher le meilleur compromis entre le volume des documents lectroniques produits et la qualit recherche en fonction des usages envisags. Pour la conservation long terme, il faut privilgier un format comme le TIFF (Tagged Image File Format) qui supporte une compression sans perte ; son inconvnient est que limage TIFF est volumineuse. Deux autres formats peuvent ensuite se concurrencer : le PNG (Portable Network Graphics) qui compress, est trs peu dgrad et peu volumineux et la nouvelle gnration de JPEG (JPEG 2000), mais en veillant utiliser les bons paramtres.

Les formats mixtes (texte et image)

Lutilisation de ces formats image impose de choisir a priori et irrmdiablement, la rsolution du fichier que lon cre. Le langage PostScript propose une solution pour rsoudre ce problme, en dcrivant des images dune faon uniforme quelle soit la rsolution du priphrique ddition, laide dquations vectorielles. Un document dcrit en langage PostScript peut tre envoy tout priphrique qui supporte le langage PostScript, quelle que soit sa rsolution, en produisant un rsultat adapt chaque type de priphrique. Le format PDF (Portable Document Format) est bas sur le langage PostScript, et reprend sa philosophie. Alors que lobjectif du PostScript est de pouvoir reprsenter une page de manire qui soit indpendante de la rsolution du priphrique ddition, lobjectif du PDF est de pouvoir reprsenter un document de la mme manire, indpendamment de la plate-forme et de lordinateur utilis. On ncrit pas un document directement en PDF, on produit le document dans le logiciel appropri et ensuite, on transforme le document en PDF, le plus souvent grce au logiciel Acrobat de la socit Adobe. Le format incorpore des aspects interactifs : liens hypertextes, signets, signature lectronique, chiffrement, etc. Le format PDF tente donc de raliser tout le potentiel du document lectronique. Il est portable dans un grand nombre denvironnements et la politique mene par la socit Adobe, propritaire du format, de distribution gratuite du logiciel Acrobat Reader, pour la lecture des documents PDF a particip cette universalit. La conversion en PDF implique en revanche dutiliser le logiciel Acrobat Capture, qui lui, est payant. Ces deux formats sont propritaires mais ouverts car les spcifications en sont connues. Il sont donc moins dpendants que d'autres, de logiciels particuliers. Le PDF peut donc tre ventuellement accept pour une conservation long terme.

Critre de choix des formats

Pour la conservation long terme, en fonction des besoins et capacits de l'institution :

on choisira donc, de prfrence, des langages et formats standards ou faisant lobjet de recommandations internationales (XML, HTML, TXT pour les documents textuels)

en cas dimpossibilit, on retiendra des formats ouverts (PDF pour les documents textuels, TIFF, ou PNG pour les images) et on vitera les formats ferms.

V.2.2.Supports La conservation long terme est aussi affaire de fiabilit des supports et de prennit des matriels. Elle implique une rvision priodique des choix oprs afin de vrifier la conformit des solutions et des quipements adopts avec les volutions de la technologie car lexprience prouve que chacun des deux lments du couple support-matriel peut se rvler obsolte en quelques annes. Les critres de choix des supports sont :

le niveau d'intgrit requis pour les donnes

La meilleure garantie en ce domaine est, selon la norme AF Z 42-013, le recours la technologie du disque optique WORM, qui empche toute modification des donnes enregistres.

les moyens financiers disponibles

Le niveau de ces moyens conditionnera directement le rythme de renouvellement des supports ; le minimum indispensable (c'est--dire le niveau en dessous duquel il est illusoire de prtendre faire de larchivage lectronique) est ce qui permet deffectuer lopration deux ans au moins avant la date de premption des supports. Lidal est cependant dtre en mesure de procder des renouvellements beaucoup plus prcoces que ne limplique la dure de vie annonce des supports ou de leur technique : car plus lintervalle entre deux migrations est long, plus le risque de perte de qualit des donnes est important (une migration intervenant au bout de huit ans entrane une perte denviron 3 %, alors que la perte est rduite 0,2 % si la migration intervient dans les deux ans).

le volume des donnes conserver sur le long terme et leur frquence d'utilisation

Ce critre est dterminant pour le choix des supports. Des donnes trs volumineuses pourront trouver place sur des cassettes, de type DLT, 3480 ou 3481 dIBM. Mais ce support n'est pas utilis par le grand public et ne se prte donc gure la communication : des donnes souvent consultes (par exemple des bases de donnes tenant lieu dinstruments de recherche) seront plus leur place sur des CD-R, voire en ligne sur un serveur. La taille des supports doit en principe tre adapte la taille des fichiers : un seul fichier conserv sur un support qui lui est bien adapt quant au volume, est plus rapidement repr par un systme de gestion automatise, que de nombreux petits fichiers stocks sur un support de forte densit.

En revanche, la longvit des supports ne peut tre aujourdhui un critre de choix.

La plupart se dgradent mme dans des conditions de conservation optimale, entre 10 et 20 ans. On estime que seul le disque de verre ne pas dtriore pas et pourrait tre encore lu par les matriels existants durant une cinquantaine dannes. En revanche, rien ne garantit que les matriels de lecture supporteront encore dans quelques dcennies leur format. Car un support de bonne qualit dans des conditions optimales de conservation peut tre conserv sans altration, alors que sa technique et ses outils de lecture seront devenus obsoltes et difficiles trouver sur le march.

Exemple : les fichiers image

On a vu quil est conseill darchiver les fichiers images plutt en format PNG ou en format TIFF. Une image TIFF occupe, selon sa compression, de 10 500 Mo. Un CD-R a une contenance maximale de 650 Mo. On ne stocke donc sur un CD-R que une 60 images au plus, ce qui est peu pour de grandes sries documentaires. On narchivera donc pas de gros stocks dimages sur ce support ; on ne gravera dessus que les fichiers trs frquemment demands en consultation. Le Centre des archives contemporaines a ainsi fait le choix de cassettes SuperDLT pour larchivage en mode image du recensement de population

1999 tant donn le volume des donnes (14 To) et le cot de leur archivage. En revanche, certains estiment que plus la capacit du support de conservation est importante, plus le risque encouru par les donnes lest. Il faut cependant tenir compte dautres paramtres pour apprcier les risques : duplication des donnes, sur des supports physiques diffrents, stocks en des lieux diffrents, existence de procdures pour surveiller ltat des supports...

L'idal serait d'envisager la conservation sur deux de ces types de supports, en fonction de l'objectif de conservation : pour des documents trs demands par le public en ligne ou par commande (achat, prt), on utiliserait le disque. Mais en ce cas, il faut assumer un stockage plus lourd grer (sur rayons ou dans des tours de CD), pour des documents peu consults et volumineux, on utiliserait des cassettes comme les DLT, on peut galement combiner un support numrique et un support analogique. Avant dutiliser quelque support de conservation que ce soit, on pourra vrifier ou se faire assurer par le fournisseur que ce support et son lot ne comporte pas de dfaut de fabrication indcelable lutilisateur. La dure de vie des donnes en serait trs rduite. Le dfaut peut ntre constat quau moment o on cherchera avoir accs aux donnes archives. On veillera donc aussi aprs copie des donnes sur le support, la qualit de lecture de celles-ci. On intgrera par ailleurs dans un programme de gestion qui peut tre automatis, la vrification rgulire des supports et on assurera leur veille technologique pour tre prt en changer et faire migrer les donnes. Il est indispensable que le BLER (Bloc Error Rate), indicateur de qualit, soit tel que les donnes soient en classe 1 (ou au pire 2), pour que leur intgrit soit garantie. Certains experts estiment que la seule faon de conserver rellement sur le long terme est de conserver une copie en ligne, qui sera rafrachie rgulirement vers de nouveaux supports et laquelle on pourra recourir chaque fois qu'un problme surviendra au support hors ligne et vice versa. Si les demandes de communication sont constantes on aura intrt laisser les documents en ligne sur un serveur. Bien souvent, pour des raisons varies (pour prserver la confidentialit de certaines informations contenues dans des champs dune base ou parce que ces informations doivent tre dcodes ou modifies pour tre rendues comprhensibles au public, ou pour rduire les temps de tlchargement, ou pour viter le pillage...), ce sont des fichiers diffrents quon met en ligne. En ce cas, il peut aussi tre intressant, voire ncessaire, darchiver hors ligne la version mise en ligne. Il est de toute faon indispensable dans le cadre d'un bon archivage de documents lectroniques, de prvoir plusieurs exemplaires des mmes documents, si possible sur plusieurs types de supports diffrents. Cest la procdure de la " redondance ". Plus il se trouve par exemple de serveurs conservant des exemplaires d'un mme document numrique, moins on court le risque de les voir tous dtruits en mme temps Dans le monde numrique, le partage fait partie de la prservation long terme. On veillera aussi ne jamais privilgier un support pour faciliter seulement la communication. Le principe de conservation long terme demeure le critre le plus important.

Exemple : le Service de transfert et darchivage des fichiers (STAF) du Centre National dEtudes Spatiales (CNES)

Le CNES choisit ses supports de conservation en fonction des demandes de consultation et de mise jour et en fonction des besoins de prennisation de linformation : une donne trs demande sera sur disques magntiques en ligne, une donne moins sollicite sera " near-line " avec stockage des cassettes dans une tour de cassettes. En revanche, aucun document nest pour les chercheurs du CNES hors ligne, rang sur rayons. Les producteurs de donnes du CNES dterminent le niveau de performance requis en matire de restitution des donnes archives et de garantie de leur prennit. Le support considr par le STAF comme assurant la meilleure performance est le disque magntique. Les disques sont automatiquement dupliqus. A chaque disque, correspond un disque miroir (qui rsulte du partage de chaque disque). Le support de deuxime niveau de performance est la cartouche des gammes Storagetek ou IBM. Les cartouches sont stockes dans des librairies automatises. Le STAF gre automatiquement la migration des donnes des disques vers les cartouches mais le retour des cartouches sur disques est dclench systmatiquement quand lutilisateur veut une restitution des donnes. Le systme gre galement le recyclage des supports : un support qui est dtrior est repr par le systme qui le recycle. Les cartouches sont aussi recycles systmatiquement tous les cinq ans par le mme procd Cest ainsi que pour le stockage, le STAF propose : - des supports en ligne (les disques magntiques) - des supports "presque en ligne" (near-line), les cartouches : le dlai de restitution est un peu plus long.

La destruction des supports originaux qui contenaient les fichiers peut ntre dcide que longtemps aprs la migration de ceux-ci, voire pas du tout. En revanche, si on dcide de conserver ces supports originaux, on veillera conserver leurs outils de lecture dont la maintenance deviendra de plus en plus onreuse avec le temps. Par ailleurs, il est impratif de dtruire physiquement les supports lorsquon souhaite liminer totalement une information. Il ne faut pas se contenter, lorsque le mode de gravure le permet, deffacer les donnes pour dtruire linformation.

V.3. La conservation long terme des donnes V.3.1. Migration des donnes

Il y a deux types de migration quil convient de distinguer :


la migration permettant de changer de support physique de stockage sans toucher au train de bits contenant linformation, la migration conduisant changer le format ou le codage des donnes.

Toute application est en effet construite sur des langages, logiciels et systmes d'exploitation qui sont l'objet de modifications et enrichissements permanents. La plupart de ceux-ci, cependant, altre les conditions de restitution des donnes et des informations au point, dans certains cas, de les rendre inaccessibles et/ou inutilisables. C'est pourquoi, la solution prconise depuis un quart de sicle pour rsoudre ce problme est la migration des donnes. Cette opration consiste sparer donnes et informations de tout outil logiciel ayant servi leur constitution et les convertir dans un langage standardis offrant des garanties de prennit, comme lASCII. Mais terme la migration des fichiers pourrait se faire vers le nouveau code universel quest UNICODE. La technique de la migration assure la prennit des donnes et informations. Elle impose une veille technologique permanente. Cela implique soit que les Archives comptent dans leurs effectifs des personnes averties de lvolution des langages et des outils, soit quelles puissent trouver de telles comptences auprs du service informatique de lorganisme dont elles dpendent ou auquel elles sont rattaches. Les donnes ainsi spares de leur mise en forme originelle ne retrouveront plus, une fois remontes sur un autre outil logiciel, leurs apparence et prsentation dorigine. La conservation des donnes lectronique par la technique de la migration aboutit donc un rsultat trs diffrent de ce quon connat avec le papier et les autres supports analogues : pour ces derniers on sattache conserver en mme temps linformation et la faon dont celle-ci a t, ds lorigine, mise en forme. Et cette mise en forme est souvent elle-mme source d'information. Quiconque consultera des documents ou des donnes ayant fait lobjet de migration sera donc tributaire des instruments de recherche, et notamment de la description des mtadonnes que contiendront ceux-ci, pour reconstituer laspect initial des documents et la perception que pouvaient en avoir producteur(s) et utilisateurs. On peut donc dire que la migration est dans une certaine mesure irrversible de par la sparation des donnes de leur contexte technologique de cration. En revanche, une migration dun tat de fichier ASCII vers un tat de fichier UNICODE est ensuite rversible, ce qui est un lment important de garantie de lintgrit des donnes. Dans dautres cas, lorsque le mode de codage est spcifique un constructeur et un systme dexploitation et quon souhaite faire migrer les donnes vers un mode de codage standard, il sera impossible dassurer la rversibilit de lopration. Exemple de lirrversibilit de migration de mode dencodage Le CNES manipule des nombres avec une trs grande prcision. Il a t contraint de procder des migrations car le mode de codage des nombres rels utilis (par ex. 12398,9865490) tait propritaire et quil tait souhaitable de passer un codage standardis. En raison de la taille des nombres en machine, il na pas t possible lors de cette opration de garantir

que la dernire dcimale tait identique avant et aprs migration.

V.3.2.Les microformes COM (Computer Output Microform)

Il est possible de produire des microformes directement daprs les donnes binaires issues dun ordinateur : microfilm 16 ou 35 mm et plus communment microfiche. Il existe deux catgories de machines de production : COM alphanumrique, limite la transcription des signes de lcriture lexclusion des schmas, croquis et photographies et COM graphique apte reproduire et enregistrer toutes les formes graphiques. Il est ensuite possible de reconstituer l'objet numrique partir de la microforme COM. La technique COM assure donc une copie de scurit au document numrique ds lors que toute garantie sur lidentit et lintgrit des documents est bien assure par loutil (pas de possibilit dintervention humaine dans le transfert de la forme numrique la forme analogique par exemple). En revanche, disposer de microformes dont la dure de vie dans de bonnes conditions climatiques et matrielles, est dune centaine dannes, et qui ont aussi lavantage dtre lisible sans intervention dordinateurs, ne dispense pas de veiller la bonne conservation de la forme numrique. La microforme prive des facilits de traitement et de recherche que prsente le numrique. Elle ncessite des appareils de lecture relativement peu usits. Cependant, ce peut tre une rponse pour des typologies bien cibles. Des donnes soumises une exigence forte en matire de scurit et de fixation de l'information et dont la destruction ferait courir des risques financier et juridique, mritent qu'on envisage le recours cette technologie plus onreuse. En ce cas, il faudra veiller la parfaite conservation des microformes sans pour autant ngliger celles des donnes numriques. La SNCF par exemple utilise la technique COM pour la conservation des plans des rames TGV, produits et conservs galement sous leur forme numrique.

V.4. Les locaux darchivage De mme quun service darchives a des magasins de stockage pour les supports traditionnels, de mme il doit avoir prvu des espaces de conservation des donnes lectroniques, un service darchives lectroniques. Il est ncessaire de prvoir leur capacit pour un laps de temps donn (8 10 ans est raisonnable), en fonction de la production susceptible dtre archive et de la politique et des moyens de conservation dfinis par linstitution. Ces moyens techniques de conservation concourent assurer lintgrit des donnes et garantir leur accs travers le temps. Il suffit aujourdhui de rserver dans les locaux adapts la conservation sur support traditionnel, une pice ou un espace bien protg, sans poussire, sans lumire et avec un champ magntique aussi faible que possible en particulier en vitant la proximit de moteurs ou de transformateurs lectriques, dune temprature de 20 environ, dune humidit relative de 40%. Les supports seront conditionns dans des botes qui vitent toute dformation ou rayure de la couche de polycarbonate.

VI. Mettre disposition les donnes Cest par la mise disposition des donnes que peut tre change limage et le rle des services darchives dans la socit. La disponibilit des donnes numriques constitue un facteur dterminant dans laccroissement de lactivit de communication. La communication peut dsormais tre faite distance et accessible en mme temps un nombre indtermin de personnes. Elle peut aussi tre matriellement assure par des prestataires de service ou par des institutions autres que celles qui assureront la conservation dun autre exemplaire hors ligne des donnes. Le fait que les documents seront consults par un plus grand nombre de personnes en raison de cette amlioration de laccessibilit, en particulier lorsque les donnes sont en ligne, peut inciter les tutelles des services darchives assurer ceux-ci des ressources budgtaires et humaines plus importantes, ressources qui pourront tre consacres au traitement des donnes lectroniques plus lourd que celui des documents papier. Les services qui sauront relever le dfi dune communication immdiate des documents lgalement communicables les plus demands, rpondront vraiment aux exigences de la socit de linformation, pour laquelle lectronique est synonyme de disponibilit. Les systmes de communication des donnes devront donc prendre en compte automatiquement laccs et la gestion des droits. Les services darchives auront intrt mettre en ligne les documents les plus sollicits et assurer des services de maintenance 24h/24 des serveurs concerns. Ladministration productrice ou le chercheur retrouveront trace des donnes grce aux instruments de recherche archivistique qui prendront en compte, ventuellement automatiquement, la documentation et les mtadonnes labores lors de la production du document . Ladministration et le grand public procderont comme de coutume la demande de communication qui pourra relever du domaine des tlprocdures.

VI.1. Les instruments de recherche

La description est une des phases les plus importantes du travail de prservation long terme des donnes lectroniques. Larchiviste doit tre conscient que le travail danalyse et dlaboration dinstruments de recherche est beaucoup plus long et dlicat pour linformation numrique que pour des documents sur support papier qui supportent plus dapproximation. L'analyse d'une application ne peut tre rdige en quelques lignes. Dans le cas du document lectronique en effet, ce nest pas l'unit documentaire de quelque taille qu'elle soit quon dcrit mais les donnes quelle contient. Dans le cas d'une base de donnes, le contenu de chacune des donnes est expliqu dans le dictionnaire, ses relations avec les autres dcrites. Larchiviste veillera aussi dcrire le contexte de cration et de vie de linformation, de sa collecte, ses lacunes afin dclairer le lecteur sur ltat dans lequel elle lui est fournie. Il serait donc prfrable que cette description soit en partie faite trs en amont lors de la production des donnes. La dfinition de ces mtadonnes rsulte dune collaboration entre archiviste et producteurs. Les besoins de recherche de ladministration ou de lentreprise sont alors parfaitement pris en compte autant que ceux du grand public.

Cette description peut tre faite avec les outils usuels de l'institution et mme sur support traditionnel, y compris papier. Elle doit tre conforme aux recommandations de la norme ISAD (G) version 2 (septembre 2000) publie par le Conseil international des Archives. A terme, on pourra veiller ce quune partie des mtadonnes puisse alimenter automatiquement linstrument de recherche. En effet, dans le cas de donnes encodes ou encapsules dans le format XML, il est tout fait possible quune partie dentre elles servent alimenter un systme de description lui-mme crit en XML, par exemple recourant la DTD (EAD) (Document Type Definition/Encoded Archival Description). Cette DTD compatible avec ISAD (G) est loutil lectronique actuellement le plus adapt la description hirarchise des contenus. Il est possible de demander dans un cahier des charges de gestion lectronique de documents que certains lments alimentent automatiquement un catalogue ou des instruments de recherche, en ligne ou non. On peut mme, grce un lment encod dans une balise XML, avoir le lien de linstrument de recherche vers le document lectronique lui-mme (par exemple une base de donnes ou des donnes dune base de donnes). Il est remarquer que certaines bases constitues par ladministration peuvent tre considres comme des instruments de recherche car elles donnent accs dautres documents, par exemple des dossiers. Ces instruments de recherche, contrairement la pratique archivistique, ne sont pas toujours immdiatement communicables car ils peuvent contenir des informations confidentielles, notamment nominatives. On veillera donc ce que linstrument de recherche disponible au grand public soit expurg de ces lments non communicables, jusqu ce que le dlai de communicabilit soit chu. Un cas spcifique : le Service de transfert et darchivage des fichiers (STAF) du Centre National dEtudes Spatiales (CNES) Larchivage des projets comprend gnralement les donnes elles-mmes ainsi que les fichiers descriptifs de ces donnes. Le STAF peut grer un lien smantique entre les donnes et leur description mais bien souvent, ce sont les utilisateurs eux-mmes qui prfrent grer dans des bases qui leur sont propres, ces liens. Ladmininistrateur systme qui a une vue horizontale sur tous les projets cre une racine puis ladministrateur du projet nomme le projet, cre des profils dutilisateurs. Ainsi chaque projet a son arborescence (racine, rpertoires, fichiers ) et alimente le catalogue. Il ne s'agit pas d'une description au sens o les archivistes l'entendent habituellement. En revanche, ces lments font bien partie des mtadonnes de description et sont automatiquement intgrs l'instrument de recherche.

VI.2. Communication des donnes Selon les types de donnes, une mdiation du service darchivage sera ncessaire pour les transmettre, notamment dans le cas o celles-ci, rarement demandes, auront t conserves uniquement hors ligne.

Le public, selon les dlais de communicabilit, pourra ou non accder directement aux donnes ; aprs avoir trouv une premire piste de recherche dans les descriptions des donnes, il sera alors renseign sur leur contenu plus dtaill par le service de communication ; il pourra ainsi au besoin entamer une demande de drogation dans le cas de donnes gres par les services publics selon les lois en vigueur. Mais si dans tous les cas de figure, il est utile davoir une conservation des donnes plat, sur les supports les plus pertinents, on aura aussi intrt les faire remonter par le service informatique comptent le plus proche sur nimporte quel logiciel de gestion de bases utilis couramment dans lorganisme de conservation long terme et la maintenir sur des serveurs ds lors que les donnes sont susceptibles dtre souvent demandes afin de fournir linformation en temps rel au public et linstitution productrice. Cela est notamment vrai pour les relations entre le service darchivage et les services producteurs qui ne verseront pas leurs documents lectroniques dans les archives publiques si celles-ci ne rendent pas ce service instantan lors dune recherche administrative. Ceci signifie que les services de conservation long terme pourront remonter les donnes dans un nouveau systme de gestion de bases et les rendre interrogeables non selon le mode initial exact qui tait celui de linstitution productrice des donnes, mais selon les modes jugs les plus utiles aux chercheurs de quelque type quils soient (administration productrice et autre, chercheur). Il faudra aussi avoir un service de dlivrance au chercheur des donnes de son choix plat sur des supports standards du march ; le chercheur pourra ensuite les installer ou les faire installer sur les systmes de gestion de son choix. Si on est amen envisager une tarification de la fourniture de donnes lectroniques aux autres personnes quau service producteur, on se conformera au dcret n 2001-493 du 6 juin 2001 pris pour l'application de l'article 4 de la loi n 78-753 : " A l'occasion de la dlivrance du document, des frais correspondant au cot de reproduction et, le cas chant, d'envoi de celui-ci et qui constituent une rmunration pour services rendus peuvent tre mis la charge du demandeur. Pour le calcul de ces frais sont pris en compte, l'exclusion des charges de personnel rsultant du temps consacr la recherche, la reproduction et l'envoi du document, le cot du support fourni au demandeur, le cot d'amortissement et de fonctionnement du matriel utilis pour la reproduction du document ainsi que le cot d'affranchissement selon les modalits d'envoi postal choisies par le demandeur ". Les mmes donnes lectroniques peuvent tre accessibles dans la mme institution de diverses faons ou tre accessibles dans plusieurs institutions de diverses faons. La description des donnes doit prendre en compte ces diffrentes solutions et les multiples localisations quelle implique. Des donnes peuvent tre mises en ligne soit sur le mme systme et dans la mme base que lorsquelles taient chez leur producteur, soit mises plat sur des supports darchivage hors ligne qui peuvent eux-mmes tre de plusieurs types (une institution conservera parfois les mmes donnes sur un disque et sur une cassette, voire mme sur un support analogique comme des microformes COM). On doit prendre en compte dans la description, le fait que ces divers supports peuvent tre sous une mme responsabilit intellectuelle et scientifique et ne pas tre conservs dans le mme lieu physique (ainsi un service darchives dpartementales pourra conserver en ses propres locaux les donnes en ligne sur disque tandis que les mmes donnes seront conserves sur cassettes dans une armoire scurise du service informatique du Conseil gnral ou dune socit de sous-traitance).

VII. Etudes de cas On donnera dans ce chapitre quelques dveloppements concrets aux principes gnraux noncs dans le chapitre prcdent pour des documents et applications lectroniques relevant des services darchives et dont les procdures et techniques de conservation long terme ont dj t testes et prouves.

VII.1 Bases de donnes Une base de donnes est constitue du regroupement de plusieurs fichiers et tables dans une seule application et peut donc tre relativement complexe. Il existe plusieurs technologies pour la gestion de bases de donnes. Le langage aujourd'hui le plus rpandu, SQL, permet de manipuler assez facilement les bases de donnes conues avec un SGBD-R (systme de gestion de base de donnes relationnelle) (ajout, suppression, slection de donnes) et de faire des recherches. Certaines bases sont mises en oeuvre pour un besoin ponctuel : cest le cas des fichiers denqutes et de statistiques. Une telle base forme un tout simple identifier et dont les procdures de versement peuvent tre assez aises au del dun dlai dutilit administrative facile dterminer avec le producteur. En revanche, la plupart des bases de donnes, par exemple celle de gestion de personnels, sont vivantes, des donnes y sont quotidiennement ajoutes, ou en sont extraites et effaces. La tche de larchiviste et du producteur sera donc plus dlicate, notamment pour trouver les points priodiques de validation et fixation des donnes. Comment procder ? Le service producteur sait gnralement combien de temps les donnes enregistres lui seront utiles. Tout le problme vient en gnral du fait quil a t prvu dans linstitution productrice de supprimer les donnes au bout de ce dlai lorsque les serveurs nont pas la capacit de stocker davantage dinformation et que larchiviste nest pas au courant de cette procdure. Il est donc indispensable quil sollicite le versement rgulier des donnes quil aura slectionnes avec le service producteur comme dignes dtre conserves sur le long terme. Lobjet dinformation doit obligatoirement avoir au moment de larchivage une structure fige et valide. Quelle peut tre la phase fige et valide dune base de donnes vivante ? Il y a plusieurs rponses cela, selon le contenu de cette base et le type des donnes :

larchivage dune photographie de la base peut tre fait une priodicit dtermine, le premier archivage prend la forme dune photographie de la base, tandis que les archivages ultrieurs recueillent uniquement les donnes nouvelles depuis la date darchivage prcdente, on archivera dans les deux cas aussi les donnes qui sont retires de la base ; lextraction de la base vivante est un critre darchivage en soi, le producteur peut dterminer dautres types de phases de validation, de clture de parties de la base (par exemple de dossiers lintrieur de celle-ci) en relation avec larchiviste et prvoir larchivage selon ces critres de validation.

Si on dcide de conserver une photographie priodique de la base en effectuant par exemple un versement annuel de sa totalit, chaque versement reprendra lintgralit des donnes du versement prcdent et ny ajoutera que les modifications ou donnes nouvelles intervenues dans lanne concerne. On archivera donc en ce cas une grande masse de donnes dont une petite partie seulement reprsenterait des informations nouvelles rellement conserver. Lavantage de cette mthode est que lon est assur darchiver, sans aucune perte, mais avec des redondances, toutes les donnes de la base. En revanche cette mthode ne permet pas de rsoudre deux difficults majeures :

les consquences des modifications effet rtroactif portant consquence sur la priode chronologique prcdemment archive que ce soit dans la situation administrative dun agent (dans le cas dune base de gestion de personnel), que ce soit la suite de modifications rglementaires. La pertinence et la validit des donnes archives dans chaque versement ne

peuvent donc tre assures. Le chercheur se trouvant face aux divers versements ne pourrait faire de comparaisons valables et ne serait pas en mesure de vrifier la validit dinformations contradictoires selon les versements (par exemple pour un mme agent une mme date). Les besoins du service versant. Pour que chaque versement reprsente effectivement lintgralit des informations contenues dans la base la date laquelle il est effectu, il serait essentiel que le service versant nen dtruise aucune dune anne sur lautre. Or, si le service versant prouve le besoin darchiver les donnes, cest quil dsire que soient conserves les informations dont il est oblig de se sparer par manque de place physique.

Il est donc indispensable dans le cas dune base dont toutes les donnes vivent potentiellement en permanence, de dfinir dautres critres dextraction : par exemple pour une base de gestion de personnel, les informations relatives aux agents ayant quitt dfinitivement linstitution durant la priodicit dcide pour larchivage (par exemple durant lanne civile coule, si larchivage a lieu tous les 2 janvier). On peut aussi dcider pour accrotre la validit des donnes de ne procder cet archivage quau bout de trois ans par exemple : darchiver en 2010 les donnes concernant le personnel ayant quitt linstitution en 2007 afin de permettre les modifications pouvant intervenir pour rgulariser des situations aprs le dpart de lagent. Une fois ces donnes verses au service darchivage dfinitif, le service versant peut les liminer totalement de sa base. Cette procdure est beaucoup plus satisfaisante. Il faut essayer de maintenir dans la gestion long terme du document lectronique les phases transitoires que lon utilise pour le papier. Procder un versement avant lexpiration de ces phases-tampon qui permettent la rflexion de mrir pourrait faire perdre en fin de compte du temps. On procdera de la mme faon par exemple pour des dossiers de justice et on pourrait oprer en ce cas larchivage dfinitif pour des dossiers clos trois ans aprs leur clture. Lorsquon archive une base en mettant plat les donnes par leur migration, on les conserve seules sans les programmes qui ont servi les crer et les utiliser. On ne conserve jamais la base telle quelle sest prsente ses utilisateurs initiaux. Il est donc ncessaire de retracer dans les instruments de recherche qui la dcrivent, sa structure dorigine qui disparat avec les programmes de gestion des donnes, les types de droits qui permettaient dy accder... Cette collecte des mtadonnes indispensables pour comprendre comment t organise lorigine la base ne permettra cependant pas de la reconstituer coup sr dans son tat initial. Les versements de bases de donnes contiennent plusieurs parties distinctes :

les tables contenant les donnes en langage d'encodage standardis, l'ASCII par exemple, la structure de la base qui comprend la structure des diffrentes tables (liste et type des champs) et les relations qui les lient, les codes et leur libell en clair pour chaque type de donnes cod.

Chaque table fait l'objet d'un fichier lors du versement. Mais si on souhaite remonter rapidement la base dans un nouveau systme de gestion par exemple pour la communication, on pourra aussi se faire livrer un fichier contenant toutes les tiquettes ou fiches de la base, chacune repre par un symbole et contenant la suite les donnes en ASCII dlimit. Toutes les donnes sont par ailleurs dcrites et explicites dans un dictionnaire des donnes. Il constitue comme les tables ou dictionnaire des codes et la structure de la base, une partie de la documentation ou mtadonnes qui sont rcupres par les services darchivage long terme sous forme lectronique. Pour les tables des codes, on sera attentif au fait quun mme code peut changer de signification avec le temps pour de multiples raisons. Lidal serait quune telle situation ne se produise pas et que les gestionnaires de bases veillent ce que ce ne soit pas le cas. Mais il est invitable que larchiviste sy trouve confront un jour ou lautre. Par exemple, dans le cas de base de gestion de personnel, ce sera en raison de la cration de corps de fonctionnaires nouveaux se substituant danciens, de la

transformation de statuts ou dappellation Il importe de conserver toutes les valeurs prises par un mme code. Il sagira donc dtablir la liste des codes dune base de donnes avec lintgralit des significations diffrentes affectes chaque code, en prcisant leur date de dbut et fin de validit et cela pour toutes les tables ncessaires la comprhension des bases de donnes. Pour cela il sera ncessaire de trouver au sein des services producteurs les personnes qui connatraient les codes anciens et obsoltes prsents dans les fichiers en cours darchivage. On peut lviter en incitant les services informatiques qui grent ces tables garder leur historique, cest--dire la trace des modifications, suppressions, ajouts et de leurs dates. Les nouvelles versions des tables accompagnant les nouveaux versements seront alors transmises aux Archives sans que ce service lui-mme ait reconstituer lhistorique de ces tables. Ce travail de reconstitution est en effet trs lourd et risque de ne pas tre fait ou dtre mal fait a posteriori. On a vu quon pouvait pour les bases de donnes concevoir deux modes parallles de conservation long terme dans les services darchivage historique, en fonction des besoins de communication, modes qui permettront dune part de conserver les donnes plat, dautre part les maintiendront accessibles rapidement pour la recherche historique ou administrative. Cest ainsi quil a t procd avec la Direction des Archives de France au sein des services dpartementaux de la couronne parisienne pour la Nouvelle Chane Pnale de Paris et de la rgion parisienne. En revanche, il semble draisonnable de vouloir conserver sous forme papier des bases de donnes. Il ny a pas dautre solution de les conserver que de le faire sous mode lectronique. Linvestissement pour les concevoir et les faire vivre durant un laps de temps plus ou moins long serait totalement perdu si on pratiquait ainsi. Lintrt de la base de donnes est la grande capacit de recherche et de communication dinformation qui est grce elle possible.

Exemple : larchivage de la Nouvelle Chane Pnale de Paris et de la rgion parisienne (NCP) Dans le cadre dexprimentations sur larchivage lectronique, la Direction des Archives de France a dcid la fin de lanne 2000, sur suggestion du service des archives du ministre de la Justice, de procder un test darchivage sur une application du secteur pnal. Cette application appele " nouvelle chane pnale " est utilise dans les tribunaux de grande instance de Paris, Nanterre, Bobigny, Crteil, Pontoise, Evry et Versailles. Le test portait dune part sur les procdures mettre en oeuvre pour larchivage dune base vivante alors que les Archives nationales navaient dexprience que pour des bases denqutes statistiques ponctuelles, figes, dautre part sur les implications quune telle opration pouvait avoir pour un service darchives territoriales. Le versement de cette chane pnale fait aux Archives de Paris le 6 dcembre 2001, tait le premier dans un service darchives dpartementales, dont les moyens de traitement dinformation numrique (en matire de personnel et de technique) sont a priori moins importants que ceux dun centre dArchives nationales. Cette base tant de plus un outil daccs aux dossiers judiciaires eux-mmes, il aurait t regrettable de ne pratiquer quun archivage des donnes plat, en

ASCII. Les Archives de France ont donc ralis, sur un logiciel de gestion de base de donnes grand public, une interface dinterrogation qui permet de faire rapidement des recherches, sans avoir remonter les donnes sur un outil logiciel, comme cela est le cas dans les modes darchivage traditionnel de documents numriques.

Les mtadonnes de la Chane pnale de Paris et de la rgion parisienne Voici en se basant sur les types de mtadonnes recenss dans le tableau du sous-chapitre IV.2, Constituer les mtadonnes, ce quil en est pour une base de donnes comme celle de la Chane pnale de Paris et de la rgion parisienne, cote aux Archives de Paris : 2157 W. Mtadonnes de conservation

nom des fichiers : affaires.dat ; personnes.dat ; textes.dat tables de rfrence :

coraff.txt (concordance entre ancienne et nouvelle nomenclature des natures d'affaires) elst.txt : lments de structure elstloc.txt : lments de structure locaux evt.txt : type des vnements dclenchant l'action publique motevt.txt : motif des vnements nataff.txt : nature d'affaires natinf.txt : nature des infractions rle.txt : rle des parties service.txt : noms des services ayant trait les affaires stajuri.txt : statut juridique des personnes morales

les tables de codes datant de 2001ont t livres part. systme d'exploitation et SGBD-R : les programmes sur Gcos 7 ; bases de donnes Oracle version 7 sur serveurs UNIX

Mtadonnes de description

intitul du document : " Enregistrement sur la nouvelle chane pnale (NCP) des affaires pnales du Tribunal de Grande Instance de Paris :

affaires classes sans suite et affaires juges reprises de l'ancienne application Bureau d'ordre pnal (BOP), 1973-1986 " contexte : " Application dveloppe au ministre de la Justice, dans le secteur pnal, appele " nouvelle chane pnale " et utilise dans les tribunaux de grande instance de Paris, Nanterre, Bobigny, Crteil, Pontoise, Evry et Versailles ". service producteur : ministre de la Justice, tribunal de grande instance de Paris, parquet date de cration de la NCP : 1993 (premier site implant Pontoise) format des donnes : ASCII dlimit logiciel de capture : programme sous UNIX d'extraction des donnes de la base Oracle, requtes SQL, traitement par batch

Mtadonnes de gestion

date de versement : 6 dcembre 2001 service versant : ministre de la Justice, direction de l'administration gnrale et de l'quipement, centre de prestations rgionales de Grigny (o sont stockes les donnes du module d'archivage de la NCP) adresse de localisation : Archives de Paris supports : donnes plat et tables de rfrence sur cassette DAT 4 mm et copie sur CD-Rom ; donnes des tables remontes sur Access consultables par le personnel sur un poste ddi aux Archives de Paris et copie sur un CD-Rom. volumtrie : 300 Mo communicabilit : 100 ans. conservation : illimite

VII.2. Les documents issus de la bureautique et le courrier lectronique VII.2.1.Les documents issus de la bureautique Presque tous les documents de bureau sont depuis quelques annes, crs grce un outil lectronique ; ce qui est nouveau, cest quils ne sont plus systmatiquement imprims sur papier. La sortie sur support papier rpond encore deux besoins : un besoin ergonomique, de simple confort, qui fait que certains prfrent travailler et notamment corriger sur des sorties papier, quon apprhende mieux si on continue avoir une lecture linaire ; un besoin juridique ou de preuve qui fait porter une marque vidente de validation, telle une signature manuscrite, sur les documents papier avant de les diffuser, et qui incite les archiver sous cette forme pour conserver la trace de cette validation. Une partie de la production de bureau est informelle et officieuse. Elle peut consister en une information change uniquement sur les rseaux par un petit nombre de personnes souvent sans aucune marque de validation. Elle peut consister aussi en brouillons, annotations, versions prparatoires non valides dont la valeur historique peut tre forte car ils clairent sur la gestation des documents officiels et valids. Ces fichiers restent stocks, un certain temps, sur les disques durs de leurs rdacteurs et sont, en gnral, au moment du dpart de ce dernier, effacs. La confusion actuelle est dautant plus grave que le travail partag, sur rseau, se dveloppe. Linstruction dun dossier est aujourdhui souvent rpartie entre plusieurs personnes qui peuvent appartenir des services diffrents. Or soit les logiciels ne grent

pas de manire aise et automatique la survie des diffrentes versions des documents, soit les utilisateurs nexploitent pas toutes les potentialits de leurs outils informatiques. On assiste depuis quelques annes la gnralisation des outils de bureautique, mais les agents administratifs nont pas vraiment conscience que celles-ci les a fait entrer dans un nouvel univers, celui de la gestion lectronique des documents. Les responsables ont en consquence rarement une rflexion globale sur la production de leurs services, alors que celle-ci est aujourdhui trs complexe, le papier tant encore utilis conjointement au support lectronique. Larchiviste et tous les autres responsables de la gestion documentaire ont sensibiliser les agents au fait que linformation quils produisent doit tre traite dans sa globalit quelle soit classe dans des dossiers papier ou dans des fichiers lectroniques, voire pour une mme affaire sous les deux formes. Il sagira ainsi de dterminer en fonction de la valeur probante des documents dune part et de leur intrt historique dautre part, quelles sont les versions du document conserver, en provenance de quel serveur, de quel poste de travail, de quel dossier papier. Les mthodes de travail restent inchanges, mais llectronique introduit une couche de complexit dans la production. Un document papier isol, non rang dans un dossier, court le risque dtre dfinitivement perdu. Un dossier qui nest pas intgr dans un plan de classement est plus difficile retrouver que celui qui lest. Ces deux principes de base sont applicables aux fichiers bureautiques. Larchiviste ou ladministrateur des donnes devront expliquer aux utilisateurs que le plan de classement utilis pour les dossiers papier, est valable pour les rpertoires lectroniques. Il permettra de structurer la production des fichiers numriques, ce qui se rvle indispensable pour leur recherche car il leur donne du sens, et pour leur archivage. Tout fichier bureautique doit tre document par son auteur pour tre retrouv aisment, entre autres par l'attribution d'un mot-cl (soit une indexation du document, partir des termes du plan de classement et d'une liste d'autorits), par l'indication du nom de l'auteur, du destinataire, du titre, de l'objet. Si cette identification nest pas faite pour le document, elle devra ltre imprativement pour le rpertoire dans lequel le document est class.

Recommandations pour la tenue de la documentation du projet GEREHMI (outil de gestion des ressources humaines) du ministre de la Justice : extrait du plan d'assurance qualit du projet

" Le responsable fonctionnel est responsable de la bonne tenue de la documentation. Il peut sappuyer, pour cette tche sur le secrtariat du domaine plus particulirement charg de la tenue de la documentation papier. La documentation a une importance primordiale : cest en fait loutil de communication et de dialogue entre les membres de lquipe et les intervenants extrieurs (membres des comits, utilisateurs,...). Elle permet dassurer la prennit des informations au sein du projet. Un mcanisme normalis didentification des documents a t mis en place de manire sassurer de lefficacit de la gestion de la documentation. Les

documents sont donc rfrencs... Chaque document a un cycle de vie, cest--dire quil va passer par un certain nombre dtats. Etat du document T Travail P Provisoire C Pr-valid Description de l'tat le document est en cours dlaboration par lauteur le document est termin, en attente dtre pr-valid le document est approuv par les autres membres de lquipe, intervenants extrieurs... La prvalidation du document peut tre optionnelle le document est approuv par les personnes habilites et prend valeur de rfrence au sein du projet. Il devient applicable. le document nest plus consult rgulirement, mais une trace de son existence demeure

V Valid

A Archiv

La gestion de ltat dun document se fait via un tableau dont un exemple est donn ci-dessous : Nom du Objet Version Date de Rdacteur Etat Archiv Document la papier Version PAQ V1.1 17/2/2000 JF LEBEC Valid X GEREHMI PAQ GEREHMI V1.2 23/3/2000 JF LEBEC Travail

Ce tableau sera mis jour rgulirement (cest--dire chaque changement dtat dun document officiel projet) par le rdacteur (responsable) du document concern. Cration dun nouveau fichier. Les point suivants devront tre respects : Toujours travailler sur le serveur (et non pas sur son poste de travail) de faon ce que le document soit toujours disponible lensemble de lquipe et quil fasse lobjet de sauvegardes quotidiennes). Prvoir une V0 pour les documents de travail. Respecter lorganisation du serveur : trouver le rpertoire pertinent. Sil nexiste pas, voir avec le responsable qualit pour la cration dun nouveau rpertoire. Rcuprer la prsentation normalise dun document et ladapter au contexte

du document en question. Donner un nom suffisamment explicite au nouveau fichier (pas de limitation sur la longueur) et conforme aux normes pr-existantes. Renseigner obligatoirement les proprits et respecter les suffixes placs par dfaut (.doc, .xls,.wpd,.ppt...). Informer le secrtariat projet de la cration dun nouveau dossier pour mise jour de la liste des documents. Modification dun fichier existant Mettre ventuellement jour ltat du dossier caractris par son numro de " version.rvision " : - Le numro de version change si des modifications de fond impactent le dossier, - Le numro de rvision change si des modifications de forme (ou des ajustements mineurs) impactent le dossier. Mettre niveau (ventuellement) : - Ltat du dossier repris sur la page de garde, - les bas de pages, - les proprits "

Enfin, tant donn que des formats divers peuvent tre stocks dans un mme rpertoire de bureautique, larchiviste recommandera dutiliser pour la cration ou la conversion des fichiers, les formats les plus prennes. Une difficult rside dans le fait que les outils bureautiques actuels ne permettent pas de conversion en XML aise. En attendant que ce soit le cas, le format PDF est un candidat relativement bon pour larchivage des documents issus de la bureautique. Larchiviste peut essayer sil obtient les moyens de mettre en place un applicatif pour larchivage de ces fichiers, dautomatiser leurs versements. Les dlais dutilit administrative et le sort final des fichiers peut tre intgrs dans leurs mtadonnes. A lexpiration du dlai, peuvent tre produits des fichiers XML contenant les donnes et mtadonnes qui peuvent tre transfrs par FTP vers le serveur darchivage de linstitution de conservation. La mise en place dun tel dispositif ncessite la cration de DTD spcifiques pour chaque type de fichiers archiver. Ce travail peut tre lourd dans la mesure o ces fichiers sont bien souvent informels et non structurs.

Exemple : larchivage des documents bureautiques au ministre de la Justice

Un travail de sensibilisation a t men au ministre de la justice avec

lInspection gnrale des services judiciaires dans la mesure o les inspecteurs en charge dune mission prcise, travaillent systmatiquement en rseau et produisent un nombre impressionnant de documents lectroniques, avec divers formats, (compte rendus de visites, entretiens, notes...) prparatoires au rapport final, qui ne seront jamais publis. Ces documents tant quils taient produits sur papier, taient intgrs dans les dossiers et taient verss, tandis que les mmes documents lectroniques sont dtruits, une fois la mission acheve ou linspecteur parti. Les fichiers sont crs sans structuration initiale, stocks ple-mle sous des rpertoires portant des noms peu clairs. LInspection tant en demande auprs du service des archives, dlaborer un plan de classement pour lensemble des documents produits et reus par elle, un plan de classement a t produit et il a t demand lInspection dutiliser ce plan non seulement pour procder lenregistrement informatis de ces documents, mais galement de se servir des rubriques du plan pour structurer les bureaux des diffrents inspecteurs sur leurs postes de travail. Le service des archives a galement labor, avec le service, un tableau de gestion " adoss " ce plan de classement et a prconis, quune fois les missions acheves, seraient archivs tous les documents prparatoires quelque soit le support : les messages lectroniques et les notes et travaux rdigs qui nont pas t tirs sur papier devront tre gravs sur CD-ROM, les fichiers ayant t pralablement convertis au format PDF. 1) Pour larrir, il convient dindiquer : le nom du rpertoire dans lequel sont rassembls les divers fichiers relatifs la mission acheve ; le nom et le nombre des fichiers ; un intitul gnral pour le rpertoire. 2) A lavenir, il faudra fournir pour chaque fichier composant le rpertoire : lindication du code du plan de classement utilis ; les mots cls (tirs de la liste dautorits) ; la date et une analyse sommaire.

Ceci tant pos, la ralisation sera plus complexe quil ny parat : lourdeur dintgrer le plan de classement sur le rseau de lInspection ainsi que sur les diffrents postes de travail des inspecteurs, certains fichiers tant sur les disques durs, lourdeur de la conversion et modalits de la rpartition des tches entre le service et le service des archives.... et mentalits faire voluer, quant la prise de conscience que les fichiers lectroniques de travail sont galement des archives publiques verser.

VII.2.2. Le courrier lectronique

La premire tape pour conserver correctement long terme du courrier lectronique est dtablir des procdures claires et logiques denregistrement tel quon le pratiquait pour le courrier papier avec un objet, une date, un auteur, ... Le rdacteur devra aussi indexer, mme sommairement, tout envoi, puis structurer dans des rpertoires son courrier. Pour lindexation, il choisira des termes de prfrence prdtermins et contrls par larchiviste, le documentaliste ou le responsable du Records management de linstitution productrice. Cette indexation permettra lintgration de tout courrier lectronique dans un plan de classement. Il est donc ncessaire davoir une architecture de conservation parallle celle de la messagerie pour classer les courriers et les documents attachs et pour procder leur archivage. Les services pourront aussi mettre en place une politique commune de botes lettres fonctionnelles par grandes fonctions (il peut y en avoir plusieurs par service) pour lesquelles le logiciel de messagerie prvoira une fonction archivage automatique. La quasi totalit de ces mtadonnes de description et denregistrement peut tre capture automatiquement partir de la structure mme des courriers lectroniques. Il faut quen amont larchiviste demande que cette fonction soit bien prise en compte. Lencapsulation, dans un document XML par exemple, leur assurera alors une certaine prennit. Lexprience de la National Archives and Records Aministration aux USA (NARA)

En dveloppant des recommandations sur les technologies ncessaires pour prserver les millions de courriers lectroniques et y donner accs des utilisateurs potentiels, la NARA a demand au San Diego Super Computer Center - SDSC ... de trouver des solutions techniques compatibles avec les principes archivistique de respect des fonds et respect de lordre primitif des documents. En rponse ces exigences le SDSC a dvelopp une architecture de gestion de linformation appele " Collection -based Persistent Object Preservation ". Cette architecture incorpore une mthode qui permet de transformer les Records en un format indpendant des logiciels et matriels. Elle prend pour base le modle OAIS.

Lexprience mene sur plusieurs collections de la NARA, dont le courrier lectronique, a permis : de saisir les collections de documents de les transformer en un format capable de prennit de les placer dans un entrept de donnes de les reconstruire comme collection de faire des recherches en utilisant une technologie diffrente de celle qui avait t utilise pour crer les documents et les stocker.

Tout cela a t ralis en deux jours. Le succs de cette opration a engag la NARA poursuivre les recherches .

Plusieurs problmes indpendants des procdures et techniques de traitement se posent cependant pour la conservation long terme du courrier lectronique. Une partie importante de celui-ci est en effet dordre secondaire dans les processus administratif (information, copie, accus de rception) et est mme dans nombre de cas dordre personnel. Nombre de messages lectroniques ne sont pas signs, ne le sont pas selon les rgles de dlgation de signature ou sils sont signs, ne le sont pas dune faon qui garantirait lidentit du signataire. Cest pourquoi larchivage du courrier lectronique pose aussi les questions :

du caractre priv de ce courrier. Dans quelle mesure larchiviste ou le responsable du Records management peut-il intervenir dans les messageries pour les conserver ? En France plusieurs dcisions de justice ont condamn des employeurs qui accdaient la messagerie de leur employ mme dans le cadre du travail. Cest le caractre priv de la messagerie qui a alors t retenu par le juge. de la valeur probante de ces documents. Les Anglais ont tent dapporter une rponse en crant avec le British Standards Institution un Code of practice for legal Admissibility of Information stored on Electronic Document Management Systems -DISC PD008. Selon eux, mettre en oeuvre de bonnes pratiques dtailles dans des manuels, contrles par des audits et scurises, pourrait lever les doutes des tribunaux. Dans la pratique franaise, ces codes de bonnes pratiques ne paraissent pas suffisants et le dbat reste ouvert mme si la norme NF Z 42-013 est une rponse directe mais daspect plus technique au DISC-PD008. de la slection et du tri des messages. Le producteur du courrier devrait pouvoir prciser si le courrier peut tre archiv. Il semblerait intressant davoir des processus de slection volontaire tout en ayant dans une administration mettrice de courrier des rgles dusage qui devront tre respectes par tous les agents.

Ce sujet particulirement important est donc dlicat pour dautres raisons que techniques. La Direction des Archives de France approfondira avec les instances concernes, sa rflexion en ce domaine dans les temps venir.

VII.3.Ressources du Web Il existe plusieurs manuels raliss par des groupes de travail, manuels qui sont tous en anglais. La conservation des ressources Web est, sauf exception, assure aujourd'hui dans le monde par des bibliothques qui la prennent en compte dans la mme logique que celle du dpt lgal. Cependant de plus en plus de documents primaires sont aujourdhui publis sur linternet. La collecte de ces documents fait partie des missions de la Direction des Archives de France et des services qui sont sous sa tutelle au mme titre que celle des documents administratifs sur autre support. Les sites privs en revanche sont en dehors de son champ daction. Les services darchives pourront aussi oeuvrer larchivage des sites intranet et extranet de leur institution ou des institutions dont ils grent les documents, sites qui ne peuvent tre atteints par les collecteurs automatiques du Web.

Deux solutions sont envisageables pour larchivage du Web : soit archiver chaque lment composant un ou des sites Web, soit archiver le(s) site(s) lui-mme dans une photographie ou une strate un moment donn (snapshot en anglais) et avec une priodicit dfinir. La seconde solution est plus simple mais n'atteint que les pages statiques accessibles tous, ce qui reprsenterait encore la quasi totalit des ressources Web, en HTML pour le texte ou JPEG pour les images. Tous les lments autres, dynamiques ou gnres dynamiquement par le visiteur, et qui composent de plus en plus les sites ne peuvent en revanche tre archivs de cette faon rudimentaire. Les logiciels de collecte automatique de sites Web n'atteignent pas aujourd'hui les couches profondes du Web et n'archivent pas les documents stocks dans les bases de donnes. Il n'est pas possible actuellement d'assurer la conservation long terme des documents dynamiques et de ceux qui sont insrs ou dpendant de programmes auxiliaires, comme le JavaScript. Pour les bases de donnes, les formulaires en ligne et les rponses qui sont fournies..., il faut songer un archivage spcifique et programm avec les producteurs des pages concernes. Cela est plus facile lorsquon dcide de procder larchivage dun site dfini, prcis, dont on matrise bien tout le contenu et pour lequel on bnficie dun accs aux gestions de donnes. On pourra aussi dcider darchiver priodiquement le flux de lutilisation sur un laps de temps donn (par exemple une journe). On se rapprochera ainsi des mthodes de conservation de laudiovisuel pratiques par lINA qui archive priodiquement une journe complte de diffusion. Si lon ne prserve sur le long terme que les donnes elles-mmes, on veillera laborer et conserver une documentation suffisamment riche pour que le chercheur sache comment ces donnes ont t prsentes linternaute et utilises par lui. Il est donc indispensable de mettre en place une procdure de collecte par service producteur de site ou de partie de site Web. Lorsque le site Web est gr par plusieurs personnes et ventuellement sur des serveurs diffrents (comme l'INRIA), l'opration de collecte centralise peut se rvler plus difficile. On aura alors intrt procder l'valuation et l'archivage de chaque portion de site correspondant un producteur donn, et un serveur donn, tout en essayant de maintenir grce un plan de classement et une description archivistique structure, l'identit du tout. Une opration pionnire a t mene depuis 2001 par le ministre de lEmploi et de la solidarit.

Exprience darchivage des sites internet du ministre de l'Emploi et de la solidarit

Un groupe de travail, cr l'initiative du centre de ressources du ministre puis pilot par la mission des Archives nationales, s'est mis en place l't 2001. Ce groupe est compos pour le ministre d'informaticiens, de documentalistes, de webmestres et d'archivistes et comme partenaires extrieurs, d'un reprsentant de la BNF, d'un reprsentant de la Direction des Archives de France (charge de mission auprs de la directrice) et des Archives nationales (CAC, programme Constance). Les archivistes du ministre ont su profiter de loccasion. En effet, moyennant quelques corrections, le systme de gestion dvelopp en interne par le service informatique correspond aux besoins formuls par la mission

des Archives nationales et le CAC pour la collecte. De faon schmatique, les oprations doivent se drouler de la faon suivante : Au pralable, la mission a rdig un tableau de gestion hirarchis des types de documents. Par un systme de filtre, ds qu'un webmestre met un document en ligne, les documents destination des Archives nationales sont transfrs sur un serveur consacr l'archivage (en application du tableau de gestion). L'archiviste peut valider la slection opre automatiquement par l'ordinateur et choisir de conserver ou d'liminer les documents stocks sur le serveur "archives". Les mtadonnes peuvent lui tre fournies par la base de donnes que le webmestre doit obligatoirement renseigner pour pouvoir poster son document (la liste des mtadonnes retenues est celle propose par lATICA). Cette opration d'archivage est actuellement en phase-test. La DGAFP-DIRE des Services du Premier ministre s'appuie sur l'exprience en cours au ministre de l'Emploi avec des spcificits locales. Le travail coopratif est en particulier un outil beaucoup plus utilis par cette direction. La rflexion en cours porte sur : l'laboration d'une tude fonctionnelle de l'archivage, "l'exportation" ventuelle de la base de donnes dveloppe en interne par le ministre de l'Emploi vers d'autres ministres par convention, l'tude des cots (base de donnes, personnel, matriel). En conclusion, plusieurs dfis restent relever : l'archivage des pages dynamiques, la conception et l'laboration d'instrument de recherche, les techniques de conservation. VIII. Conclusions Ce Manuel pratique devrait permettre aux archivistes dapporter de premires rponses leurs propres questionnements et ceux de leurs services producteurs. Il sera suivi au fil du temps dautres ouvrages de recommandations et tudes comparatives, sur les supports, sur la conservation des donnes techniques (plans, documents cadastraux, archives darchitectes), des documents sonores et audiovisuels, sur les plans de classement et tableaux de gestion... Cet ouvrage en plus de sa version imprime est en ligne sur le site Web de la Direction des Archives de France ladresse : http://www.archivesdefrance.culture.gouv.fr. Cette version sera rgulirement mise

jour en fonction des volutions des connaissances dans ce domaine trs mouvant de larchivistique et en fonction des remarques et retours dexpriences des archivistes de terrain.

IX. Annexes IX.1. Poids moyens des documents lectroniques et capacit des supports

terme et taille approximative Kilo octet (Ko) = 1.024 octets

Capacit de stockage des supports 10 lignes de texte ASCII = 1 Ko

Exemple

1 page Internet de texte en HTML 1 disquette = 1 475 avec images statiques = 20 Ko Ko 1 page dun priodique lectronique en PDF = 50-500 Ko 1 image numrique en JPEG = 50Kb-1 Mo

Mgaoctet (Mo)

= 1.024.000 octets 50 articles de 10 pages en HTML = 1 Mo 1 disquette = 1,47 Mo 2-20 articles de 10 pages en PDF = 1 Mo 1-20 images en JPEG = 1 Mo 1 image numrique en TIFF = 50500 Mo Gigaoctet (Go) = 1.024.000.000 octets Teraoctet (To) 5-50 pages en TIFF = 1 Go 200-2000 pages en PDF = 1 Go 200-2000 journaux de 340 articles de 10 pages sur une priode de 10 ans en PDF = 1 To 1 cassette SuperDLT = 100-200 Go 1 CD-Rom = < 650 Mo

= 1.024.000.000.000 50-500 livres de 100 pages en octets TIFF = 1 To

2000-20000 livres de 100 pages en PDF = 1 To

IX.2. Les mtiers lis linformatique : exemple du ministre de lquipement A titre dexemple pour que les archivistes se rendent compte de la diversit des intervenants et partenaires quils pourront solliciter ou auxquels ils auront faire pour les aspects techniques, voici ce quil en est dans un des ministres, celui de lquipement. Six familles de regroupement y ont t identifies en 1999 (relevant soit de la matrise douvrage, ou " mo ", soit de la matrise doeuvre, ou " me ").

Politique dinformatisation

matre douvrage dapplication matre douvrage de systme dinformation conducteur dopration du domaine (fonctionnel) : expertise et veille informatique, recommandations ministrielles sur les volutions en cours (synthse des veilles transversales applique au domaine) directeurs et sous-directeurs dadministration centrale (deux sous-directions relevant de deux directions diffrentes)

Expertise

conseillers en droit et rglementation informatique experts de points dappui (rseau couches basses, couches hautes, systmes dexploitation, matriel, cblage et tlcommunications, multimdia) ; ils effectuent une veille technologique ; assistent technologiquement les supports techniques et les quipes de dveloppement

Etudes et dveloppement

RPMO (reprsentant permanent de la matrise d'ouvrage) chefs de projet de "me" administrateurs de donnes (" mo " ou " me ") qui garantissent la cohrence des donnes vhicules sur le rseau en terme de contenu et de modles en vitant ambigut, polysmie, redondance et en permettant le partage entre diffrentes applications (en particulier, ils mettent jour et vrifient la cohrence du dictionnaire de donnes utilis dans un projet).

Exploitation et production Les mtiers de lexploitation ncessitent de plus en plus des connaissances sur les mtiers de ladministration des rseaux. Il sagit en loccurrence de :

sassurer du bon fonctionnement des applications sur le rseau (surveillance du trafic, place disque, temps de rponse, rsolution des pannes, interventions contre malveillances, gestion des droits daccs) ; sassurer des procdures de secours des applications, de sauvegarde et de scurisation des donnes (paramtrage des droits daccs, prvention contre les malveillances, relais en cas de dfaillance technique) ; scuriser linformation et en assurer la cohrence ; ventuellement, grer des outils partags (imprimantes, lecteurs partags) ; tudier les volutions tant en terme de matriels que de logiciels pour conseiller les dveloppeurs et les chefs de projet.

Fonction supports (assistance aux utilisateurs) :


diffuseurs dune application chargs de la promouvoir et de la mettre en oeuvre dans les services (ce qui comprend linstallation des applications et la formation des utilisateurs) ; techniciens de support technique, avec assistance tlphonique (cellule informatique) ; correspondants informatiques

Management de linformatisation

responsables de linformatisation dun service ; responsables de la scurit du systme dinformation

Des mtiers mergents :


Webmestres : interaction avec communication ou documentation ; formalisateurs/cogniticiens : susceptibles de se rapprocher des besoins et des pratiques des utilisateurs en modlisant les connaissances. Cela suppose des connaissances en techniques dentretiens, en modlisation (de type systmes experts), en communication homme-machine...

IX.3. Quelques principes de base pour valuer le cot de larchivage lectronique Il ne sagit pas ici de fournir une mthode rigoureuse pour tablir des cots concernant larchivage de documents sous forme lectronique, ce qui serait une utopie, mais cherche donner un utilisateur les moyens destimer le budget global dun systme darchivage lectronique. Il convient tout dabord de dfinir quatre grands lments en matire darchivage lectronique :

la capture des donnes archiver ; la ralisation de larchivage proprement dit ; la consultation de larchive ; la migration dune gnration technique de systme darchivage une autre gnration.

IX.3.1.La capture Bien que nentrant pas proprement parler dans les cots de larchivage, il convient de rappeler quelques lments concernant les cots lis la capture. Tout dabord, il faut distinguer deux types de capture :

la capture de document dj sous une forme lectronique (par exemple les courriers lectroniques) ; la capture de document sous une autre forme (principalement sous forme papier ou microforme).

Lorsque les donnes sont dj sous forme numrique, il existe deux cots principaux :

le cot danalyse de lapplication mettrice des documents archiver ; le cot de la rception.

Le premier cot peut tre trs variable, car lapplication mettrice peut tre dj trs connue (par exemple, une gestion de comptabilit) ou tre unique (gestion dune procdure administrative spcifique un ministre). Il est vident que pour une application connue, le temps dtude est trs faible (une journe) alors que dans le second cas, cela peut aller jusqu 2 4 mois dtude.

Pour ce qui est des frais lis la rception, ils sont soit de tlcommunication, soit de poste. Il faut de plus ajouter des cots lis aux contrles de la rception. En fonction du type, cela peut aller de quelques dizaines deuros par mois quelques milliers. Pour les contrles, il faut faire des tests en vraie grandeur : ouverture dun colis, vrification du contenu (nombre de CD ou de cassettes, prsence dtiquettes, etc.) ; il convient ensuite de multiplier le temps pass par le cot horaire des personnes charges de faire ces contrles, cot qui peut tre lev. Pour ce qui est de la numrisation, le tableau suivant donne une chelle approximative des cots. Ces cots sont lis principalement :

aux conditionnements ; aux formats ; ltat des documents ; lexistence de couleurs ; au besoin de rsolution ; lindexation indispensable la gestion et recherche des documents : les cots en ce domaine varieront normment si on traite automatiquement les donnes laide de logiciels de lecture automatique de documents (LAD) ou de reconnaissance optique de caractre (OCR) ou si on les traite manuellement ce qui peut tre ncessaire si la qualit des documents est insuffisante pour un traitement automatique.

Dans les deux cas (documents dorigine lectronique ou documents obtenus par numrisation), le rle de la compression est fondamental. Le choix dune mthode de compression et ensuite dun taux de compression est presque toujours un compromis entre le gain despace darchivage et la perte de qualit des documents aprs compression. En gros, on peut dire que classiquement les taux de compression des mthodes de type tlcopie, permettent des compressions de lordre de 10 (les documents sont 10 fois plus petits aprs compression) pour des documents textuels en noir et blanc. Pour les documents couleurs, on va dun taux de compression de 2 7 pour des documents de qualit " photographique ", jusqu 10 20 (pour des documents de faible qualit). Il faut aussi noter le cas particulier des documents lectroniques correspondant des applications ayant des formats ddition rptitifs, par exemple les systmes de facturation. Exemple dune application qui produit 50 000 factures par jour qui, chacune, contiennent 30 Ko de mise en page et 1 Ko de donnes (nom et adresse du client, quantit consomme pendant la priode, montants HT, TVA, TTC). Si on stocke les factures document par document, on a, par jour, 30 Ko x 50 000 soit 1,5 Go. Si en revanche, on stocke dune part le fond de la facture (30 Ko) et de lautre, les donnes utiles (1Ko x 50 000), on a, par jour, 50 Mo stocker. Le taux de compression est alors de 30, sans aucune perte. Cependant, il faut dcrire de faon dtaille comment reconstituer le document partir des donnes et du fond de page.

IX.3.2.Larchivage

Le cot de larchivage peut se dcomposer en trois lments principaux :

quipement (matriel et logiciel) : leur cot sera trs diffrent si on utilise, en fonction des besoins, un PC avec un graveur de CD-R ou un gros systme sous UNIX avec une librairie automatique de manipulation de supports darchivage ; personnel (personnel dexploitation et personnel de dveloppement et/ou de maintenance selon les objectifs) ; mdias ou supports de conservation : un CD-R de bonne qualit cote 150 fois moins cher quune cassette de haute capacit. Exemple

pour 100 Go par mois stocker ; sur des CD-R dont le prix est 2 lunit ; 30 minutes pour le traitement dun CD ; matriel amorti sur 3 ans ; maintenance gale 15 % du prix du matriel ; cot horaire de loprateur est, charges comprises de 15 .

On a donc :

amortissement 2 000 /3 666 maintenance 2 000 x 0.15 333 nombre de CD : 100 Go/600 Mo x 12 2 000 Cot CD 2 000 x 2 4 000 temps pass 30 minutes x 2 000 1 000 heures soit en salaire (1 000 x 15 ) 15 000 frais gnraux (location immeuble, chauffage, ...) 6 000 Ce qui fait un total de 27 000 par an, soit 21 au Go.

IX.3.3.La consultation/archivage Le cot de ce poste dpend principalement du mode de consultation :


accs des CD-R par un magasinier la demande dun utilisateur ; accs en ligne peu frquent (quelques consultations par jour) ; accs en ligne frquent (plusieurs milliers de consultations par jour) gros volume de donnes (plusieurs centaines de Mo chaque consultation).

IX.3.4.La migration Le cot dune migration se dcompose principalement en trois lments :


tude de faisabilit ; cot des oprateurs ; cot des nouveaux supports.

Il est trs difficile dimaginer ces cots, puisque ce sont des cots futurs trois, cinq ans ou plus. On peut donner le cot de la migration des donnes et supports ralise en 1996 pour les 6000 fichiers conservs au Centre des archives contemporaines de Fontainebleau : 3 MF pour la migration de 4500 fichiers.

X. Glossaire des sigles ATICA : Agence pour les Technologies de l'Information et de la Communication dans l'Administration. A remplac depuis aot 2001 la MTIC. http://www.atica.pm.gouv.fr/ CNES : Centre National dtudes Spatiales. Le CNES et le CEA (Comit lEnergie Atomatique) ont des procdures performantes de stockage et darchivage long terme de donnes trs volumineuses. Le nouveau centre de calcul du CEA produit ainsi 2 To par heure. En raison des problmes soulevs par la conservation long terme de ces documents, une association constitue par les deux institutions, Aristote, a constitu un groupe de travail sur la Prennisation des Informations Numriques (PIN) anim par Claude Huc, auquel elle a associ des archivistes des secteurs priv et public dont la Direction des Archives de France. Lide du prsent Manuel est ne au sein de ce groupe qui en a prpar les versions soumises au Comit de rflexion de la Direction des Archives de France. CNIL : Commission Nationale Informatique et Liberts. http://www.cnil.fr DLM-Forum : Forum des Donnes Lisibles par Machine. Instance de la Commission europenne. MTIC : Mission pour l'introduction des Technologies de l'Information et de la Communication dans l'Administration. A exist de 1998 aot 2001 et a t remplace par l'ATICA. OAIS : Reference Model for an Open Archival Information System, modle de rfrence conu par le Comit consultatif pour les systmes de donnes spatiales (CCSDS) en 1999, port lISO en 2001 (ISO/DIS 14721.2 - CCSDS/650.0-R-2)

Le systme darchivage OAIS assure le marquage spcifique dun espace pour larchivage numrique. En effet , en prsentant lobjet darchivage comme un paquetage dinformation, lOAIS dtermine deux types dinformation :

lInformation Contenue, lInformation complmentaire la Prennisation ou PDI.

Linformation contenue et la PDI sont encapsules et identifiables au moyen de lInformation dEmpaquetage. Le Paquetage qui en rsulte peut tre retrouv grce lInformation de Description. Dans lInformation complmentaire la Prennisation, on trouve quatre catgories dinformation portant sur :

la provenance, le contexte, la rfrence ou identifiant, la fixit qui assure la protection contre toute modification.

OCR : Optical Character Recognition, reconnaissance optique de caractres, pour le transfert de lencodage de fichiers image en fichier texte. W3C : pour World Wide Web Consortium ou Consortium du Web. Cette instance regroupe des industriels fournisseurs des technologies informatiques sur lesquelles se fondent Internet et le Web, ainsi que les grands utilisateurs publics et privs de celui-ci. Elle produit toutes les recommandations, comme celle qui composent le mta-langage XML. XI. Bibliographie XI.1. Normes Information and documentation -Records Management -Part 1 : General ; Part 2 : Guidelines, ISO 15489-1 et 2, ISO, octobre 2001 Spcifications relatives la conception et lexploitation de systmes informatiques en vue dassurer la conservation et lintgrit des documents stocks dans ces systmes, norme AF Z 42-013, AFNOR, juillet 1999, rvision dcembre 2001

XI.2. Gnralits Guide pour la conservation des informations et des documents lectroniques, Secrtariat gnral du Gouvernement, MTIC, janvier 2001, http://www.atica.pm.gouv.fr/servicesenligne/conservation.shtml Rapport sur l'tablissement et la conservation des actes authentiques lectroniques, rdig par Isabelle de Lamberterie (CNRS-CECOJI) au nom du groupe de rflexion sur llaboration du dcret sur la dmatrialisation des actes authentiques ; contient un chapitre de Jean-Franois Blanchette, Les technologies de lcriture lectronique : synthse et valuation critique. Publication venir. Referencing Model for an Open Archival Information System (OAIS), CCSDS, mai 1999, http://www.ccsds.org/RP9905/RP9905.html

XI.3. Mtadonnes Dublin Core Metadata Initiative, http://dublincore.org/Ensemble de 15 lments simples pour dcrire une grande
varit de ressources en rseau.

Initiative de mtadonnes du Dublin Core, Guide dutilisation version franaise, http://www.bibl.ulaval.ca/DublinCore/usageguide-20000716fr.htmMetadata Encoding and Transmission Standard (METS), http://www.loc.gov/standards/mets/
Standard pour lencodage des mtadonnes de description, de gestion et de structuration dobjets dans une bibliothque numrique, utilisant un Schma XML. Maintenu par la Library of Congress.

Recordkeeping Metadata Standard for Commonwealth Agencies, National Archives of Australia, http://www.naa.gov.au/recordkeeping/control/rkms/contents.html

XI.4. Archivage de bases de donnes LEBLANC Marie-Nolle, Larchivage dune base de gestion de personnel dans Gazette des archives, n 163, 4me trimestre 1993, p. 336-340 et 367-369.

XI.5. Archivage des ressources Web ARMS Williams Y., Collecting and preserving the Web : The MINERVA prototype dans RLG Diginews, vol. 5, n 2, 15 avril 2001, http://www.rlg.org/preserv/diginews/ HAKALA Juha, Collecting and Prserving the Web : Developing and Testing the NEDLIB harvester dans RLG Diginews, vol. 5, n 2, 15 avril 2001, http://www.rlg.org/preserv/diginews/ STEENBAKKERS Johan, Setting up a Deposit for Electronic Publications. The NEDLIB Guidelines, http://www.kb.nl/coop/nedlib/

Pour complter votre information, vous pouvez :

vous adresser la Direction des Archives de France, dpartement Innovation technologique et normalisation, 56 rue des FrancsBourgeois, 75141 Paris Cedex 03 ; responsable : Catherine Dhrent (01 40 27 62 65, catherine.dherent@culture.gouv.fr) ; conservateur charg du dossier Archivage des documents lectroniques : Jol Poivre (01 40 27 60 02 ; joel.poivre@culture.gouv.fr) consulter le site Web de la Direction des Archives de France, rubrique Archivistique, cliquer sur Documents lectroniques, http://www.archivesdefrance.culture.gouv.fr/fr/archivistique/DAFdocel. html

Vous aimerez peut-être aussi