Mmoire technique
Sommaire
Lasocit.......................................................................................................................................................3
Leslocauxdelasocit.................................................................................................................................4
Manipulationd'ouvragesanciens...................................................................................................................5
Numrisationd'ouvragesanciens...................................................................................................................5
SCANNERSPATRIMONIAUXOS12000CA2etOS10000CA1...............................................................6
SCANNERSDEPRODUCTION(Numrisationdedocuments).................................................................7
LescannerplatEPSONV700.....................................................................................................................8
OMNISCAN..................................................................................................................................................9
Calibrage/Mire..............................................................................................................................................9
Lescransdetravail.......................................................................................................................................9
Contrledequalit.......................................................................................................................................10
Lesmtadonnes..........................................................................................................................................11
Traitementsnumriques...............................................................................................................................11
Indexationetrecherchedesimagesdanslesystmeinformatique...............................................................12
Nomenclaturedesfichiers............................................................................................................................12
Transport......................................................................................................................................................12
DigiManager.................................................................................................................................................14
Reconnaissanceoptiquedecaractres(ROCouOCR)................................................................................19
LeformatXML/METS/ALTO.....................................................................................................................22
ConversionduXML/ALTOendocumentPDF...........................................................................................23
XML/ALTOPDF......................................................................................................................................24
Indexation,encodage,extractiondedonnes...............................................................................................25
Lamiseenlignedesouvrages.....................................................................................................................25
Systmeinformatique...................................................................................................................................26
Sauvegardedesdonnes...............................................................................................................................27
Confidentialit..............................................................................................................................................28
Propritintellectuelle.................................................................................................................................28
Suividuprojet..............................................................................................................................................29
L'quipe........................................................................................................................................................29
EditTEI(encodeurXML/TEI).....................................................................................................................30
PourquoichoisirlasocitDIGISCRIB.......................................................................................................31
Dveloppementdurable...............................................................................................................................32
FRANSCRIPTOR........................................................................................................................................33
Rfrences....................................................................................................................................................34
Partenaires....................................................................................................................................................38
DIGISCRIB,leCESRetGoogle.................................................................................................................39
Articlesdepresse.........................................................................................................................................40
OS12000C..................................................................................................................................................41
OS10000C..................................................................................................................................................42
La socit
Hritage du pass dont nous profitons aujourdhui et que nous transmettons aux gnrations
venir , le patrimoine, ainsi dfini par l'UNESCO, est l'une des proccupations majeures de la socit
DIGISCRIB. Anime par cette mission, elle garantit ses clients une attention et un soin particuliers
ports aux documents traiter. Inventorier les fonds patrimoniaux, photographiques, ou littraires, afin
de les faire entrer de plain-pied dans l're numrique constitue l'enjeu de la socit DIGISCRIB,
capable de s'adapter la demande et aux exigences du march.
Implique dans les projets des socits prives, des organismes publics, et des particuliers, la
socit DIGISCRIB contribue une numrisation de plus en plus exhaustive des donnes et des
savoirs. Pragmatique, ractive et adapte une demande massive et qualitative, DIGISCRIB prend en
charge tout type de documents, de l'archive au livre ancien, en passant par la photographie la
pellicule, ou la diapositive. C'est ainsi que la socit DIGISCRIB alimente le partage des donnes et
des uvres via internet offert par l're numrique.
Toutes les pices du btiment sont quipes de portes coupe-feu et chacune d'elles possde ses
propres extincteurs contre-incendie. La pice de stockage et de numrisation des ouvrages est munie
d'une serrure trois points.
Scan OS12000
Scan OS10000
Camera et lampe
OS10000
OS10000 A1 de Zeutschel
DIGISCRIB possde aussi des scanners de production comme les scanners Fujitsu 5650C et Fujitsu
5750C qui rpondent aux attentes de la numrisation de grands volumes de documents pouvant aller
jusqu' 110 pages par minute, avec une volumtrie
journalire de 8000 feuilles chacun. La quantit n'est pas au
dtriment de la qualit, ceux-ci tant capables de respecter
ces vitesses tout en
assurant des qualits
comprises entre 100 et
600 DPI optiques. Ce type
de scanner est capable de
numriser recto-verso en
un seul passage. Ils
scannent grande vitesse
des documents allant du
plus petit format (A8) jusqu' (A3). De plus, le modle 5750C
possde une vitre grand format, afin de numriser plat des
documents plus dlicats qu'il n'est pas possible de faire passer dans
des rouleaux. Ces scanners sont relis un systme Linux et
contrls par le logiciel DigiManager qui traite nouveau les images
si ncessaire, afin de les tatouer par exemple, d'insrer des
mtadonnes, ou de fournir en sortie les formats de fichiers les plus
couramment utiliss actuellement : TIFF, JPEG, PNG, PDF, etc.
Cette haute technologie de numrisation est combine des logiciels de traitement d'images trs
performants pour vrifier la qualit des images obtenues partir des scanners, ou pour les adapter
aux demandes des clients.
Le scanner Epson Perfection V700 Photo est l'outil idal pour les
professionnels de la numrisation. Dot du systme double lentille
d'Epson associ la technologie DIGITAL ICE, il permet de raliser des
numrisations de films et de photos de qualit exceptionnelle.
Calibrage /Mire
Dans le but de garantir une constante fidlit des couleurs, les scanners
patrimoniaux Zeutschel ralisent automatiquement le calibrage des
blancs aprs avoir effectu un nombre de prises de vues donnes. Le
calibrage des couleurs est ralis l'aide d'une mire IT8.
Pour tout projet de numrisation, la socit
DIGISCRIB cre son profil de couleur de travail
(profil ICC). Celui-ci est cr partir de la mire IT8
en combinaison avec les logiciels SIPC sous
Windows ou Little CMS sous Linux.
Ceci peut tre fait plusieurs niveaux du projet
selon les besoins des clients, un profil de couleur
peut tre cr pour le projet dans sa globalit, pour
chaque ouvrage ou pour un type de document en particulier.
Concernant le calibrage de la camra, il est ralis tous les ans au minimum. Pour certains projets
long terme ou trs dlicats, la socit DIGISCRIB commande un calibrage son fournisseur avant le
dbut.
Si la numrisation est automatique, ce premier contrle du cadrage de l'image est ralis par le
scanner ; l'orientation du texte et la vrification des documents sont, elles, ralises par l'oprateur
avant leur dpt dans le bac du scanner.
Au terme de la prestation de numrisation, l'aide d'une visionneuse, un contrle exhaustif est ralis
sur l'intgralit des donnes gnres sur les points suivants :
cadrage
inclinaison
orientation
nettet
Durant ce contrle, pour des ouvrages anciens, incunables ou manuscrits, seront prises en compte les
diffrences de tonalits ventuelles entre les rectos et les versos des vues numrises en double page,
dont l'impression sur le papier n'est pas obligatoirement de la mme qualit pour ce type d'ouvrages.
Sur un chantillon de 5 20% du volume total des image, la socit DIGISCRIB ralise un contrle de
qualit approfondi, au cours duquel elle vrifie :
la colorimtrie
la compression
les mtadonnes
Enfin le contrle sur ensemble du projet est port sur les points suivants :
Toutes les images gnres par la socit DIGISCRIB sont automatiquement marques par une ou
plusieurs mtadonne(s), permettant de les associer un client, un groupe, un ouvrage, un
dossier ou un lot. Ceci permet l'indexation des images dans le systme informatique de la socit et
facilite la recherche de celles-ci.
La socit DIGISCRIB est capable de raliser l'association de mtadonnes aux images directement
dans les images elles-mmes avec les formats IPTC, EXIF et XMP ou dans des fichiers externes avec le
format Dublin Core et METS.
Traitements numriques
Le systme informatique de la socit DIGISCRIB repose sur le systme d'exploitation Linux. La
socit a recours l'Open Source pour le traitement des images comme GIMP, l'quivalent de
Photoshop sous Linux, ou les logiciels ImageMagic ou Mapivi pour la gestion, la manipulation et le
contrle des images.
Avec le logiciel DigiManager , il est possible, entre autres, de grer par lots ou individuellement, le
nommage, la conversion, la rsolution, la compression, la dcoupe, la colorimtrie, les mtadonnes
des images, de grer les proprits de fichiers PDF, de grer la gravure de CDs, le paquetage de
plusieurs fichiers en un seul.
La socit DIGISCRIB peut fournir diffrents types de formats de fichier : TIFF, TIFF compress LZW,
JPEG, JPEG2000, PNG, PDF, DJVU, etc. pour les images et DOC, XLS, XML, XML/METS, XML/ALTO,
XML/TEI, CSV, PDF, ODT, HTML, TXT, EPUB, DJVU, etc. pour les donnes.
Transport
Un bordereau est mis lors de l'enlvement des ouvrages/documents. Ce bordereau les suit
tout au long de la phase de production jusqu' leur livraison.
La socit DIGISCRIB peut procder elle-mme l'acheminement des ouvrages, grce un vhicule
adapt (vhicule ordinaire de trs grande capacit).
Ce vhicule est dot de six airbags d'une climatisation rgule par de sondes
rparties dans l'habitacle.
Il possde un coffre d'une capacit de 1658 l. avec une charge utile de 614 Kg.
Bien entendu, la socit garantit que le vhicule ne sera jamais immobilis durant le transport.
Les ouvrages et documents seront transports dans des malles en acier roulettes.
Chaque ouvrage est protg individuellement avec un plastique bulles, s'ils n'ont pas
t conditionns au pralable.
Les ouvrages les plus prcieux seront transports dans des valises
antichoc PELICASE. Cette valise exceptionnelle est utilise par les
militaires pour ses conditions de scurit lors de transports de matriel
prcieux ou sensible. En effet, cette valise est tanche et quipe d'une
mousse ignifuge.
7 fermetures
5 illets pour cadenas
Poignes latrales
Protection ingalable
Certifications : IP-67 / DEF STAN 81-41 / STANAG 4280
De plus, avec DigiManager la socit DIGISCRIB peut rfrencer les ouvrages de ses clients. En
effet, le logiciel possde un module pour la saisie, la consultation des ouvrages grs par la socit
pour ses clients.
Ce logiciel est coupl une base de donnes SQL, afin de relier tous les lments d'un projet un
client de la socit : ouvrages ou documents numriser ou traiter, documents changs, images,
fichiers de donnes, factures, devis, fichiers log des traitements, etc.
Il gre et stocke les diffrents documents changs entre la socit DIGISCRIB et ses clients.
De plus, ce module gre les fichiers dont la nomenclature comporte la date universelle en
secondes depuis le 01/01/1970.
Extraction d'images
Gestion des mtadonnes IPTC, EXIF, XMP des images (ajout, mise jour, suppression)
Ce module permet la gestion des mtadonnes internes des images. Grce ce module, il est possible
de lire les mtadonnes insres automatiquement par les scanners lors des prises de vues, comme
les mtadonnes EXIF par exemple. De plus, nous pouvons grer des mtadonnes notre
convenance : ajouter, modifier et supprimer n'importe quel champ des trois normes IPTC, EXIF et XMP.
Ocrisation d'images l'aide du logiciel Tesseract (OCR dvelopp par la socit HP dans
les annes 80, tomb dans le domaine public depuis plusieurs annes et utilis actuellement
par la socit Google)
Cet outil offre plusieurs possibilits, par exemple, il peut tre utilis tout simplement pour
comptabiliser le nombre de mots et de caractres dans un texte.
Il peut galement tre utilis pour la correction de textes. En effet, avec cet outil il est possible de
corriger interactivement les textes traits. Pour chaque mot erron, le programme demande la saisie
de la correction du mot. Si le mot est correct et qu'il n'est pas prsent dans le dictionnaire, le
programme permet la mise jour du dictionnaire avec l'ajout du mot.
De plus, lors de la vrification des textes, il est possible de dclarer le seuil minimum en pourcentage
de texte correct atteindre, dit inversement, le seuil maximum de fautes autorises dans un texte.
Pour l'ocrisation de livres et documents, DIGISCRIB utilise les logiciels les plus rcents, les plus
sophistiqus, et les plus performants du march. La socit propose une large gamme de formats de
fichiers pour le rendu du texte ou des donnes (PDF, DjVU, Word, Excel, XML, HTML, CSV, TXT, etc.),
que ce soit par l'OCR directement ou par le traitement des donnes effectu ensuite.
La socit DIGISCRIB utilise de prfrence le logiciel Omnipage pour l'ocrisation et pour la cration
des fichiers de donnes, mais elle est galement quipe du logiciel FineReader. Ces deux logiciels
sont les plus fiables, les plus performants, et les plus rpandus du march.
De plus, la socit ralise des recherches et teste des logiciels de reconnaissance optique des
caractres Open Source. C'est le cas pour l'OCR Tesseract , logiciel dvelopp par la socit HP
dans les annes 80', tomb dans le domaine public dans les annes 90' et utilis actuellement par la
socit Google. La socit DIGISCRIB l'a inclus dans son logiciel de gestion de projets
DigiManager* , avec une interface graphique adapte ses fonctionnalits pour l'obtention rapide
de textes partir des images sans mise en forme (obtention d'un fichier TXT UTF8).
Procdure d'ocrisation
Avant l'ocrisation des ouvrages ou des documents, les images ont subi deux contrles de qualit. Le
premier contrle est effectu par l'oprateur de numrisation lors de la prise de vue : il vrifie alors la
nettet, l'orientation, l'inclinaison et le cadrage des images. Lors du deuxime contrle de qualit,
l'oprateur vrifie le nommage des fichiers, la colorimtrie, le taux de compression et les mtadonnes
des images (plus amples dtails sur le contrle de qualit plus bas dans ce mmoire technique).
Pour finir, l'oprateur procde la reconnaissance optique de caractres (ROC ou OCR)
Grce des gabarits et des dictionnaires propres, la socit DIGISCRIB propose l'ocrisation
d'ouvrages en Latin ou en Ancien Franais, sans correction. Ce type d'ocrisation n'est pas garanti en
termes de taux de reconnaissance.
La socit DIGISCRIB peut fournir en sortie comme fichiers de donnes les formats : Word ou Excel de
microsoft, PDF d'Adobe ou son homologue OpenSource DjVu, XML, XML/TEI, XML/ALTO, HTML et TXT.
METS format de fichiers servant stocker les mtadonnes de nature diverse portant sur
un document numrique, dans le but de faciliter son change, sa gestion et sa
prservation.
ALTO est un format normalis XML pour stocker l'information de mise en page et de
contenu. Il contient des informations de contenu (texte) et physique (structure).
La TEI (Text Encoding Initiative) est un format XML. Le TEI Consortium est un consortium qui
regroupe des acteurs de la recherche dans le but de normaliser le codage de toutes sortes
de documents sous forme numrique en XML/TEI. Il ne s'agit pas d'une spcification (DTD ou
Schma) en soi mais plutt d'un cadre (framework) pour en dvelopper des particulires. Il a
t dfini comme un systme pour faciliter la cration, l'change, l'intgration de donnes
textuelles informatises.
La correction de l'OCR
Les logiciels d'OCR sont rarement capables de reconnatre 100% du texte. C'est la raison pour laquelle
il est souvent ncessaire de corriger l'OCR, voire de retranscrire le texte dans son intgralit, dans des
cas extrmes.
En-de d'un taux de reconnaissance de 80%, il est conseill de retranscrire les ouvrages ou les
documents.
Au-dessus d'un taux de reconnaissance de 80%, il est possible de le ramener un taux compris entre
95 et 99% voire, un taux de 99,98%.
Une correction de l'OCR l'aide de logiciels en combinaison avec des dictionnaires peut ramener le
taux de reconnaissance du texte entre 95 et 99%.
Une correction l'aide de logiciels en combinaison avec des dictionnaires, suivie d'une relecture du
texte, garantit un taux de reconnaissance de 99,98%.
La socit DIGISCRIB fait effectuer ses travaux d'ocrisation et de correction de l'OCR en France par
des francophones issus des filires littraires de l'Universit Franois Rabelais de Tours ou du Centre
d'tudes Suprieures de la Renaissance (CESR) de Tours. La transcription de textes est faite
l'tranger, et la post-correction s'effectue en France.
Voici un extrait d'un document XML/ALTO dont le contenu reprsente les deux lignes du texte :
Un fichier XML/ALTO dcrit la structure ainsi que le contenu de chacune des pages d'un ouvrage ou
d'un document. Il est possible de remarquer la structure d'un tel fichier. La balise Page dclare une
nouvelle page et nous renseigne sur la taille et les marges de la page. Chaque balise String
contient un mot du texte avec ses coordonnes dans le texte, exemple le mot je du texte :
Cette balise nous informe que le pronom je est plac au pixel horizontal 254 et au pixel vertical 330
de la page, qu'il a une largeur de 108 pixels et une hauteur 65 pixels dans la page, enfin l'attribut
content nous donne le mot lui-mme.
Ce texte est issu de l'OCR directement avec toutes les erreurs qui peut comporter ou engendrer le
logiciel d'OCR.
La socit DIGISCRIB ne s'est pas content de dvelopper des outils pour la conversion du rsultat
des OCR en XML/ALTO, mais elle a cr aussi des outils pour la conversion des fichiers du format
XML/ALTO au format PDF.
Ceci permet la cration de documents PDF partir de fichiers XML/ALTO tout en corrigeant les erreurs
de l'OCR auparavant. Il est possible de traiter les fichiers XML/ALTO au pralable, afin de corriger les
fautes de syntaxe que les logiciels d'OCR aient pu engendrer, pour la fin rgnrer le document PDF.
Pour cela il est ncessaire traiter mot mot les attributs content de chaque balise String
CONTENT="je"
CONTENT="ne"
CONTENT="suis"
CONTENT="complet"
CONTENT="qu'avec"
CONTENT="un"
CONTENT="Macintosh"
De plus, cet outil offre un certains nombre de fonctionnalits concernant les diffrents types de
documents PDF qu'il est possible de crer, par exemple il autorise la cration de documents PDF/A1, la
cration de documents PDF double couche avec la possibilit de choisir l'ordre des couches (texte sur
ou sous l'image).
De mme, cet outil permet la cration d'un document PDF par fichier XML/ALTO ou l'intgration de
l'ensemble des fichiers dans un seul. Aussi, il permet le traitement des images avant leurs insertion
dans le document PDF.
Une autre facette de la socit DIGISCRIB est l'encodage et la mise en forme de textes. En effet,
DIGISCRIB est capable de traiter les donnes issues de la numrisation par la gestion des images
comme les mtadonnes par exemple, mais aussi de traiter les textes aprs l'ocrisation des images.
DIGISCRIB peut vous fournir les textes des ouvrages numriss encods aux formats XML et HTML.
Cela peut tre fait partir d'une structure donne, dfinie et cre en fonction des besoins ou partir
d'une dfinition de type de document (DTD).
La socit peut aussi dvelopper des interfaces graphiques pour la gestion (affichage, ajout,
suppression, etc.) des donnes encodes.
De mme, la socit DIGISCRIB peut remanier la mise en page des textes issus de l'ocrisation des
images. Elle est capable de fournir les mmes textes sous plusieurs formes : une version originale et
sa version dissimile ou dtilde par exemple. La mise en forme des textes peut tre fournie aux
formats : XML, Word, Excel, CVS, PDF, DjVU, etc.
DIGISCRIB s'est spcialise ces dernires annes dans l'encodage de textes en XML/TEI. Elle peut
vous fournir l'intgralit des ouvrages (textes) dans ce format, soit avec un pr-encodage, avec la
structure de base du XML/TEI, soit avec un encodage approfondi, avec la gestion de balises
particulires, comme l'encodage des enttes des pages avec la balise <FW>, l'encodage des
corrections avec les balises <SIC> et <CORR>, l'encodage de la dissimilation et du dtildage des
textes avec les balises <ORIG> et <REG>.
DIGISCRIB ralise cette tche l'aide de l'outil EditTEI , encodeur XML/TEI dvelopp par la socit
en partenariat avec l'association Re-Transcripro et le Centre d'Etudes Suprieures de la Renaissance
(CESR) de Tours. Pour de plus amples dtails sur l'encodeur EditTEI , merci de se rfrer la page
qui lui est consacre.
Durant tout le processus du projet, numrisation, ocrisation et traitement de donnes, les donnes
sont en permanence en redondance, stockes sur des disques durs spars.
Ces disques durs peuvent tre formats selon les besoins des clients afin de
s'insrer parfaitement dans leur systme informatique : Ext2 et Ext3 pour
Linux et Unix ou FAT32 et NTFS pour Windows.
CDROM / DVD
Les CDROM sont gravs et imprims avec le robot de gravure Primera Bravo II.
Ce robot de gravure contient un chargeur de 50 CDs, qui peuvent tre traits
en automatique par le serveur ou un par un manuellement. Il possde une
imprimante de Jet d'encre pour les CDs/DVDs.
Chaque CD-R est grav de manire contenir, dans la mesure du possible, les fichiers d'un ou
plusieurs ouvrages/documents/dossier en entier. Chaque CD sera livr dans une bote slim en PVC
rigide. Chaque CD sera tiquet avec les donnes demandes par le client.
A l'issue de la prestation, la socit DIGISCRIB fournit sous forme lectronique un tableau gnral de
concordance entre les fichiers de donnes et les CDs.
CLE USB
Aussi, la socit DIGISCRIB offre un panel de cls USB 2.0 allant de 2Go 250Go pour le
stockage de donnes.
Afin de garantir la prennit des donnes stockes ou graves, les copies de donnes sont
vrifies sur tout support et la qualit des gravures sont contrles.
Aussi, la demande de ses clients, la socit peut dposer les donnes sur le serveur FTP de leur
choix.
Confidentialit
Proprit intellectuelle
L'quipe
La numrisation et le contrle de qualit proprement dits sont effectus par un titulaire d'une licence
en Histoire de l'Art form au concours de conservateur du patrimoine. Passionn d'archologie, il a
particip de nombreuses fouilles au cours de ses tudes, qui ont sans doute contribu faonner la
minutie dont il fait preuve lors du maniement des ouvrages dlicats.
L'indexation, quant elle, est ralise par des titulaires d'un Master Pro obtenu au Centre d'Etudes
Suprieures de la Renaissance et par des diplms en Lettres de l'Universit Franois Rabelais de
Tours.
Cependant, la spcialisation des oprateurs n'est pas restreinte aux documents anciens, car la
dmatrialisation touche progressivement la plupart des organismes publics (tablissements
bancaires, centres d'impts, etc), mais aussi le domaine professionnel (factures, brochures, catalogues,
contenus techniques) o elle demeure encore relativement faible. La socit DIGISCRIB souhaite donc
permettre aux entreprises, aux organismes publics, et aux particuliers, le traitement numrique des
documents techniques et professionnels, grce des oprateurs capables de souplesse et
d'adaptabilit en fonction de la demande.
Si la passion du livre et la considration apporte tout type de document sont essentielles, les
techniques informatiques occupent bien sr une place prpondrante dans les taches de numrisation
et d'ocrisation des documents confis. Comme expos plus haut, la socit DIGISCRIB est quipe
des outils de dmatrialisation les plus performants du march. Leurs logiciels, trs avancs en terme
d'imagerie; ncessitent des comptences informatiques indniables. Les oprateurs de numrisation
sont donc recruts en considration de leurs comptences informatiques, celles-ci leur permettant un
maniement optimal et ais desdites machines.
De fait, un regard critique sur les actions informatiques mcanises est constamment assur au cours
de la numrisation. Ceci est galement valable lors du traitement des donnes numrises ; en
complment de la reconnaissance optique des caractres (OCR), des personnes qualifies assurent la
comprhension du message numris, sa mmorisation, et sa correction. C'est ainsi que la socit
DIGISCRIB peut garantir ses clients un niveau de reconnaissance optique des caractres entre 90 %
et 99% selon le type d'ouvrages et de documents.
La socit DIGISCRIB tant une socit spcialise dans la numrisation de livres et documents, il va
de soi qu'elle s'intresse de prs l'encodage des textes suite leur ocrisation ou leur
transcription. Cette dmarche va de pair avec la recherche accrue, par la socit DIGISCRIB, d'outils
d'ocrisation et de gestion d'images sous Linux, comme Tesseract et ImageMagick, par exemple.
La socit DIGISCRIB s'est engage et a investi dans cette recherche de solutions informatiques pour
l'encodage, l'analyse, la gestion et la manipulation de textes et documents.
Suite la dcouverte de la mthode d'encodage de texte TEI, des possibilits qu'elle offre et des
rponses qu'elle apporte un besoin croissant, la socit DIGISCRIB s'est lance dans le
dveloppement d'un progiciel d'encodage de texte en XML/TEI.
EditTEI est le nom de ce nouvel encodeur de texte. Il est dvelopp en Java, ce qui implique qu'il
soit compatible avec plusieurs plateformes : Linux, Windows, Mac, etc. De plus, il est parfaitement
trilingue : franais, anglais et espagnol.
EditTEI propose les fonctionnalits d'dition de texte, c'est--dire la mise en page pour sa lecture
et le balisage interactif de celui-ci sans avoir connatre ni saisir les balises XML/TEI. Cette tche est
ralise partir d'une entte de donnes ou d'un fichier XML/TEI existant, ou tout simplement partir
d'un fichier vierge.
Bien entendu, cet encodeur offre les outils d'dition habituellement utiliss, comme par exemple
ouvrir, enregistrer, imprimer un fichier, copier, couper et coller du texte, insrer ou supprimer des
pages, et grer des caractres spciaux.
En plus des outils d'dition de base, l' EditTEI fournit bien sr des outils d'ajout ou de suppression
de balises XML/TEI, d'encodage de caractres en ASCII, UTF8, entre autres, l'utilisation de dictionnaires
de correction en ligne et la possibilit de dtildage des textes.
La socit DIGISCRIB se dmarque de ses concurrents par la taille de sa structure qui permet
un travail encore personnalis et une attention toute particulire apporte dans le traitement des
contrats qui lui sont confis. En effet, le dynamisme d'une quipe ractive et comptente lui permet de
s'adapter un panel de contrats toujours riches d'enseignements, et d'y rpondre dans l'intrt
permanent des livres et documents confis.
Ainsi, au sein de la socit DIGISCRIB, l'acte de numrisation n'est aucun moment une stricte
action mcanise : prcision et minutie sont convoques chaque tape du traitement de vos livres et
documents, rares ou anciens.
Par ailleurs, choisir la socit DIGISCRIB, c'est faire le choix d'un interlocuteur unique et
ractif, attentif vos exigences.
La technicit des scanners et logiciels utiliss vient parfaire les comptences d'une quipe qui
saura donc vous satisfaire, parce que spcialise dans l'histoire et la conservation du livre, et dans les
plus rcentes technologies informatiques.
Au service du livre, des Archives et des traces crites tmoignant du pass, la socit
DIGISCRIB, a souhait ds sa conception contribuer une prise en charge diffrente du patrimoine
humain et des outils qui en permettent l'accs.
Pour ce faire, elle s'est dote d'un ensemble d'outils performants prenant en charge les priorits
environnementales :
Une utilisation minimale du papier. Le Zro papier n'est certes pas atteint, mais il est sans
cesse vis. Pour preuve, la ligne fax a t annule fin 2009 au profit des changes numriques,
systmatiss pour l'envoi des devis et des factures de la socit. Cette pratique tend se
gnraliser dans le cadre des rponses aux appels d'offre, et la voie papier se rarfie.
Le peu de papier utilis dans la socit est rutilis dans la mesure du possible ou recycl.
La gestion interne de l'nergie au quotidien est opre a minima, par les serveurs internes de
travail, qui ne sont allumes qu'aux horaires d'ouverture de la socit, et non en continu. Les
serveurs HTTP, FTP, SVN, etc. qui sont hbergs galement dans les locaux de la socit,
demeurent accessibles 24/24H.
Les baies de stockage relies aux serveurs de travail sont quipes de disques durs WD CAVIAR
GREEN, disques durs rputs pour leur performance et pour leur faible consommation
d'nergie.
Le tri slectif des dchets s'opre au sein mme des locaux. Le recyclage du papier et du
plastique est systmatis. Cette dmarche gagne la gestion du parc informatique, dont les
diffrents composants sont recycls aussi souvent que possible.
Nous essayons dans la mesure du possible de ne pas utiliser des priphriques consommant
des piles. Quand cela est invitable, nous utilisons des piles rechargeables.
Quand l'tat des emballages le permet nous recyclons les emballages pour nos propres envois.
S'inscrire dans le dveloppement durable, c'est par dfinition s'inscrire dans des projets
prennes. C'est le cas de la socit DIGISCRIB, qui met en place diffrents projets d'avenir, comme le
projet d'EditTEI, progiciel d'encodage des textes anciens en XML/TEI et le projet FRANSCRIPTOR, site
communautaire pour la transcription de textes anciens (http://www.franscriptor.com), qui enracinent la
socit DIGISCRIB et ses salaris dans une prise en compte minutieuse et exhaustive des enjeux de
demain : protections du patrimoine culturel et du patrimoine naturel doivent dsormais marcher de
pair, permettant une mutation intelligente de nos habitudes au profit d'une conscience solidaire et
responsable entre gnrations.
Dissimillation :
Dtildage :
Grce Franscriptor et la participation des milliers de transcripteurs vous pouvez rcuprer le texte de vos ouvrages qu'il
n'est pas possible d'obtenir automatiquement par les technologies actuelles.
En effet, les logiciels d'OCR ou (ROC) ne sont pas capables de reconnatre toutes les langues et pour les langues qu'ils
peuvent reconnatre, ils commettent des fautes pour des raisons multiples, le texte est manuscrit, la police de caractre ou la
langue ne sont pas reconnues par le logiciel, etc.
Avec Franscriptor vous avez non seulement la possibilit de traiter des textes manuscrits, des langues anciennes, comme par
exemple le latin et le grec, et des textes anciens, comme les textes non dissimils et(ou) tilds que les logiciels d'OCR ne
grent pas mais aussi, vous avez la certitude d'obtenir des textes de qualit, avec aucune ou trs peu de fautes.
Crez vous propres quipes de transcription ou donnez un accs libre aux transcripteurs du monde entier pour le traitement
de vos ouvrages.
Durant l'ajout de votre ouvrage dans Franscriptor, vous avez la possibilit de dclarer la liste de transcripteurs qui ont accs
au traitement de l'ouvrage. Uniquement eux auront accs la dernire tape du traitement de l'ouvrage, c'est dire, la
transcription du texte et aux images en haute dfinition.
Vous pouvez inciter les transcripteurs travailler sur votre ouvrage en payant la transcription ou vous pouvez demander une
transcription gratuite, par exemple, cela peut tre demand par un professeur comme un exercice de classe pour l'tude d'un
texte mdival.
La cration de dictionnaires par langue et par poque partir des textes retranscrits :
et beaucoup plus
http://www.franscriptor.com
Digiscrib 16, rue de Montils 37 520 La Riche Version du documents : 2.4
Tl : 02.47.38.33.21 - @ : contact@digiscrib.com http://www.digiscrib.com ....................................................................................................................................
SARL au capital de 10.000 - SIRET : 503 627 937 00017 - N T.V.A. (intra) : FR86503627937 APE 723Z 31 janvier 2014
Ce document est sous copyright Il est la proprit de la socit DIGISCRIB Il ne peut tre reproduit ni communiqu sans autorisation de son propritaire 33 / 43
Rfrences
Universit Paris VII Diderot
Mairie de Tours
Courrier de l'ouest
Maison Rochas
Mdiathque de Dole
Mdiathque de Dole
La Lithographie
Mdiathque de Dole
Bibliothque de Troyes
Chanel conservatoire
Viaticum
Mdiathque de La Riche
Magnum Photos
Re-Transcripro
Aprs deux ans de travail en partenariat avec le Centre d'tudes Suprieures de la Renaissance pour le
traitement et l'encodage de texte anciens, la socit DIGISCRIB a t rcompense par une bourse
Google.
En effet, la socit DIGISCRIB dveloppe, en collaboration avec le CESR de Tours, un progiciel
d'encodage de textes en XML/TEI. Ce progiciel comporte entre autres deux modules, l'un de
dissimilation et l'autre de dtildage de textes. Ces modules sont utiliss afin de moderniser des textes
anciens. Le premier, Dissimilation , applique les rgles grammaticales modernes (Ex : vn = un). Le
deuxime remplace les lettres tildes par les lettres non tildes en application aussi des rgles
grammaticales modernes (Ex : hme = homme).