Vous êtes sur la page 1sur 18

Master DEFI 2 - Janvier 2011 Document structur Projet de Publication au format ePub

Anita Mazur Anas Bartier Pauline Joubert Myriem Zeghari Anglique Renier

Prsentation du projet
Les objectifs de ce projet sont de : maitriser le format ePub crer un programme de conversion en format ePub Le document de dpart : Un extrait de la Guerre des Gaules de Csar (document XML en TEI Lite) Disponible sur Perseus Digital Library
(http://www.perseus.tufts.edu/hopper/)

Nous disposons d'un fichier XML unique pour crer plusieurs fichiers e-pub.

Sommaire
Prsentation du projet Les diffrents formats de donnes e-book Le format e-pub Les outils/fichiers utiliss pour faire la conversion Les diffrentes tapes pour arriver la conversion Les difficults rencontres Les rsultats obtenus Conclusion Lien vers la prsentation html

Les diffrents formats de donnes e-book


Il existe plus de 25 formats d'e-book qui se distinguent par : Formats propritaires/formats libres Formats ouverts/ferms Popularit gographique Attentes spcifiques Diffrentes compatibilits avec les liseuses lectroniques Langages sur lesquels ils sont bass : XML, HTML, autre Statiques ou dynamiques

E-pub : un format ouvert


Le format E-pub est un format ouvert et libre de droit. Utilis pour les livres lectroniques (facilite la mise en page et la lecture sur des crans diffrents). L'extension est en .epub De nombreux smartphones (Windows Mobiles et Iphone) utilisent galement ce format. Certaines applications permettent de crer un fichier en .epub partir d'un fichier XML.

L'E-Pub : bas sur un triumvirat

E-Pub 2.0.1 et E-Pub 3.0

Epub 3.0 = amlioration de la version 2.0.1 Bas sur le HTML5. Mais trop rcent pour tre exploit.

E-Pub avantages et inconvnients


Avantages Inconvnients

Standard unifi

Difficile daccs

Format ouvert

Format dynamique

Format dynamique

Trs grande compatibilit

La TEI

Permet de dcrire la structure logique des textes On peut ainsi baliser des corpus laide de marquage au sein du fichiers

Depuis 1993, diffrentes versions de la TEI se sont succdes : Evolution de la TEI : 1993-1994 : TEI-P3 2001-2002 : TEI-P4 => passage de SGML XML 2007 : TEI-P5 => Adaptations personnalises de la DTD et schma XML

Structure dun texte en TEI

Comprendre la structuration d'un ePub


tape importante et pralable la mise en place du programme

A noter : avec sa structuration simple, l'ePub contient moins de mtadonnes qu'un fichier TEI, o les personnages et les lieux sont marqus tout au long du texte. Le passage d'un fichier TEI un ePub implique donc la perte d'une partie des informations fournies par le document.

Les diffrentes tapes pour arriver la conversion


Analyse des fichiers source Tous les livres convertir sont dans un seul et mme fichier Extraction des livres, puis extraction des chapitres des livres au format XML Conversion au format HTML Cration des autres fichiers requis pour le format ePub Crer un fichier ePub (fichier zip renomm) et y runir tous les fichiers et dossiers Vrifier la validit de l'ePub avec epubcheck Diagramme :

Les outils/fichiers utiliss pour faire la conversion


Premier essai : feuilles xslt et programmes disponibles en ligne. Problmes poss : Aucun ne permettait directement de transformer un fichier TEI P4 en ePub (besoin des espaces de nom) La feuille de style du consortium TEI choisie demandait un xml au format TEI P5 Une feuille permettant de passer de TEI P4 en TEI P5 existe, mais n'est pas fiable L'ePub obtenu en sortie contenait tous les livres et n'avait pas de chapitres. (c.f. image droite) Rsultat obtenu avec le passage P4 ->P5->ePub

Mme s'il a pu tre ouvert dans Calibre, il n'tait pas valide Choix de crer nos propres feuilles de style xslt pour effectuer le passage TEI P4 - ePub.

Les outils/fichiers utiliss pour faire la conversion


Programme final : Utilisation de feuilles de style XSLT personnelles Permettent de sortir les fichiers ncessaires pour un ePub Permettent une conversion plus fine, en tenant compte des chapitres et des livres Xsltproc : Conversion avec des feuilles de style XSLT 1.0 Saxon : Conversion avec des feuilles de style XSLT 2.0 Xmllint : vrifier si les fichiers XML sont bien forms Extraire des mtadonnes Faire des calculs sur les lments Epubcheck : Validation de fichiers ePub

Les difficults rencontres


La cration de plusieurs fichiers html partir d'un seul fichier xml La cration de plusieurs ePub partir d'un seul fichier xml TEI P4 L'utilisation de balises vides milestone pour sparer les chapitres dans le texte au lieu de placer le texte chaque chapitre dans un lment div. La numrotation des chapitres du livre 8 qui commence 0 au lieu de 1 pour les 7 autres livres (correspond une prface) Raliser la compression des fichiers dans le bon ordre, le fichier mimetype devant tre en premier dans l'archive zip. Plus le fichier source est complexe plus les erreurs de validation sont frquentes. Un fichier e-pub, mme invalide, peut tre lu par Calibre.

Le rsultat obtenu
Emplacement de lePub dans Calibre et Contenu des fichiers qui composent l'ePub

Couverture, index et chapitre 2 de l'ePub du livre 1 de La Guerre des Gaules (visionn avec Calibre)

Conclusion
Ce projet Nous a permis den connatre davantage sur les formats de livres numriques, et notamment sur lepub. Il nous aussi permis de dcouvrir diffrents programmes, et de nous exercer crer des feuilles de style XSLT. Bien que notre programme rponde nos attentes initiales : cration dun format epub, dcoupage en plusieurs livres, sommaire, il ne peut fonctionner quavec la TEI P4. Plus largement, ce travail nous a mis face au problme des diffrents formats numriques pouvant exister dans un domaine et la possibilit dadapter un standard nos besoins.

Merci de votre attention

Une prsentation plus complte sur format html disponible sur : http://www.island-ofknowledge.com/epub/index.html