Projet CITHER
Rdacteur
Date de rdaction
Dernire mise jour
Date dimpression
:
:
:
:
Julien Tognazzi
6 septembre 1999
28 septembre 1999
13 octobre 1999
Projet
Version
Rfrence
Diffusion
: CITHER
: 1.0
: Rapport de Projet de Fin d'Etude
: Interne
Page 2 / 17
Sommaire
1.
2.
Contexte_______________________________________________________________4
2.1. Les thses de DocINSA _____________________________________________________ 4
2.2. Intrt de la publication lectronique des thses _________________________________ 4
2.3. Droulement du projet ______________________________________________________ 5
3.
4.
5.
6.
7.
8.
Conclusion ___________________________________________________________14
9.
10. Annexes
16
Page 3 / 17
1.
Objet du Projet
2.
Contexte
2.1. Les thses de DocINSA
DocINSA, dpositaire officiel de toutes les thses soutenues au sein des laboratoires de
lINSA de LYON, reoit chaque anne environ 130 thses. Ces thses, conserves en deux
exemplaires, peuvent tre consultes la bibliothque. Dans le cadre du prt entre
bibliothques, des reproductions totales ou partielles de ces thses (photocopie) sont envoyes
aux bibliothques demandeuses. Il existe, de plus un exemplaire sous forme de microfiche
dans toutes les bibliothques universitaires.
http://csidoc.insa-lyon.fr/these
Page 4 / 17
3.
Documents de rfrence
Dossier d'initialisation,
Rgles d'dition lectronique
Manuel Technique
Manuel Utilisateur
Rapport de Projet de Fin d'Etudes
4.
Analyse de l'existant
4.1. Le poste de conversion
Le poste de conversion se compose de l'ensemble Logiciels/Matriels suivant :
Un PC sous Windows 95
Un scanner
Un graveur de CD-ROM pour l'archivage
L'application Chane d'dition numrique (CEN)
MS Office 97
Adobe Acrobat 3
Page 5 / 17
Source du
document
Serveur de
thses
Poste d'dition
lectronique
Scanner
Archivage
Figure 1 : Vue gnrale du dispositif
Page 6 / 17
06 :RUG
,PDJHV SDJHV
3')0DNHU
)LFKLHUV 3RVWVFULSW
3RVW6FULSW
&(1
3RVW6FULSW
'LVWLOOHU
/LHQV
/LHQV
LQWUDGRFXPHQW
LQWUDGRFXPHQW
)LFKLHUV $FUREDW
/LHQV
LQWHUGRFXPHQWV
([FKDQJH
&(1
7LWUH
&KDvQH G
pGLWLRQ QXPpULTXH
$XWHXU
'DWH
/LHQV LQWUDGRFXPHQW
0RWVFOpV
3RQW
/LHQV LQWHUGRFXPHQWV
G
HPEDUTXHPHQW
3') 3XEOLDEOH
(WF
$SSOLFDWLRQ
Tout dabord, une macro-commande Word (Adobe PDFMaker [Adobe 98]) cre un
fichier PostScript enrichi dinstructions pdfmark5 [Adobe 97] lintention dAcrobat
Distiller. Cette macro-commande cre (le cas chant) des liens partir des champs
note, table des matires, etc. Elle cre galement un repre Acrobat pour chaque titre
(Liens intra-document).
Les fichiers PostScript obtenus sont alors directement modifis par lapplication qui y
ajoute des repres (toujours via pdfmark) dsignant les autres fichiers (Liens interdocuments).
Les fichiers PostScript sont ensuite convertis en PDF par Distiller.
Enfin, les fichiers PDF sont retraits laide dExchange : leurs champs titre, sujet,
auteur, etc. sont renseigns ; les miniatures de pages sont cres et les fichiers optimiss
pour une lecture en ligne (opration permettant au serveur denvoyer le document page
page).
A ce point, le traitement par lot est termin, et un rapport de conversion a t gnr.
Page 7 / 17
5.
De nouveaux besoins ont t dfinis par Doc'INSA avec l'arrive au sein du projet
d'autres universits (notamment Lyon I pour l'anne 1999/2000) :
En cours d'tude, une rorientation du projet sur l'intgration des thses LaTeX a mis en
suspens la rflexion sur le langage XML.
Cls manquantes dans la base de registre Windows pour l'interface COM/OLE des
produits Acrobat.
Fonctionnement perturb par le dplacement des rpertoires de travail
Page 8 / 17
6.
Intgration de LaTeX
La part de thses rdiges en LaTeX sur l'INSA est faible mais non ngligeable7, et avec
l'arrive de Lyon I dans le projet, elle va augmenter fortement.
7% des thses recenses lors d'une enqute de Novembre 1996 Novembre 1997
Page 9 / 17
+\SHUUHI
/DWH[
'LVWLOOHU
'YLSV
+\SHUUHI
3GIWH[
/pJHQGH
/LHQV LQWUDGRFXPHQW
+\SHUUHI
)LFKLHUV 3RVW6FULSW
)LFKLHUV /D7H;
)LFKLHUV 'YL
$SSOLFDWLRQ
Page 10 / 17
2me chane
La chane de traitement base sur Pdftex, permet une conversion plus simple et plus
rapide, mais labsence de reconnaissance du format Eps est un inconvnient majeur, ce type
de fichier tant trs utilis par les utilisateurs Unix/Linux, principaux rdacteurs sous LaTeX.
Notre choix sest donc port sur la premire chane de traitement prsente, comprenant
lutilisation successive des programmes latex, dvips, distiller.
Remarque propos des rfrences croises
Pour une bonne gestion des rfrences croises sous Latex, il est ncessaire deffectuer
plusieurs passes (gnralement deux). De plus, dans le cas dun document contenant une
bibliographie, comme cest le cas pour une thse, On doit faire appel un autre programme,
Bibtex, pour les rfrences la bibliographie.
On obtient donc une chane de conversion faisant appel 4 programmes diffrents
(Latex, Bibtex, Dvips, Distiler) dont certain doivent tre lancs plusieurs fois successivement
(Latex, Bibtex).
Lutilisation dun script Perl9 Latexmk, rsout ce problme, en sassurant lui-mme du
bon enchanement des programmes Latex, Bibtex et Dvips. Il ne reste plus qu lancer
Distiller pour obtenir le fichier PDF.
Perl : Practical Extraction and Report Language. Langage de script trs puissant dvelopp par Larry Wall
Page 11 / 17
)LFKLHUV GH
WUDLWHPHQW GH WH[WH
06 :RUG
,PDJHV SDJHV
3')0DNHU
)LFKLHUV 3RVWVFULSW
3RVW6FULSW
&(1
3RVW6FULSW
'LVWLOOHU
/LHQV
/LHQV
LQWUDGRFXPHQW
LQWUDGRFXPHQW
)LFKLHUV $FUREDW
/LHQV
LQWHUGRFXPHQWV
+\SHUUHI
)LFKLHUV /DWH[
([FKDQJH
&(1
/D7H;%LE7H;
'YLSV
6FULSW 3HUO
7LWUH
/DWH[PN
$XWHXU
'DWH
0RWVFOpV
3RQW
G
HPEDUTXHPHQW
3') 3XEOLDEOH
(WF
Lapplication CEN lance le script Perl qui soccupe de la conversion des fichiers Latex
en fichiers Postscript contenant les liens intra-document. A partir de l, on rejoint la chane
existante qui poursuit la conversion par la cration des liens inter-documents (dans le cas de
plusieurs fichiers traiter) puis des fichiers PDF par le Distiller et enfin, un retraitement et
loptimisation des fichiers avec Acrobat Exchange.
Remarque :
Le CEN prvoit le cas de thses mixtes, o une partie du document serait dveloppe
sous LaTeX, et une autre sous MS Word (par exemple, la page de titre et certaines annexes en
Word, et la thse en Latex).
Page 12 / 17
7.
Une feuille de style XSL spcifie la prsentation dune classe de documents XML en
dcrivant comment une instance de cette classe est transforme en un autre document XML
utilisant le langage de prsentation des donnes.
Il est donc possible, partir dun fichier pivot, de driver plusieurs versions adaptes au
priphriques de sortie, en dfinissant les feuilles de style appropries. (par exemple :
impression sur papier A4, affichage lcran, etc.)
Enfin, XLL [XLL 99] (XML Linking Language) dfinit les liens hypertextes au sein du
document XML. Une distinction est faite entre les liens externes, et les liens internes pointant
sur des documents XML. Un lien est une relation explicite entre au moins deux donnes ou
ensemble de donnes.
10
Page 13 / 17
Ces DTD ont t reprises de SGML, elles sont trs compltes, et permettent la
dfinition dune thse.
Il semble donc possible de dfinir un fichier au format XML, ne contenant que les
donnes, la structure logique (Titre, auteur, texte, citation) et dutiliser ce fichier pour
larchivage et la gnration des diffrents formats pour la publication (HTML, PDF, XML).
Le problme rside dans lobtention dun tel fichier partir des documents sources
fournis par les doctorants (fichiers Word ou Latex)
Les outils de conversion (pour la gnration du fichier pivot XML et ensuite sa
drivation en plusieurs autre formats de sortie) ntant pas encore compltement disponibles,
il a t jug que lon nobtiendrait pas la qualit offerte par les fichiers PDF et quil valait
mieux attendre laboutissement de toutes les normes lies XML (XSL, XLL, etc.) et
larrive doutils de conversion et de visualisation.
Remarque
8.
Conclusion
Le projet CITHER offre maintenant une chane de traitement plus complte pour la
publication lectronique des thses de lINSA.
Plus dune vingtaine de thses ont dj t converties, et la chane semble maintenant
prte une monte en charge.
Mais le projet ne sarrte pas l, un groupe de travail t form sous limpulsion de
DocINSA, pour tudier la mise en place de feuilles de style propres aux thses pour aider les
tudiants dans leur rdaction et pour faciliter les traitements de conversion. Une formation
la rdaction de longs documents structurs va tre instaure.
11
Page 14 / 17
Avec larrive de MS Office 2000 sur le march et la sortie de la version 4.0 dAdobe
Acrobat, les prochains dveloppements du projet vont consister tudier leur intgration au
CEN. La veille technologique autour de XML va tre maintenue pour permettre lvolution
du projet vers ce langage ds que cela sera possible.
9.
Rfrences bibliographiques
[Hyper 99], Hypertext marks in LaTeX: the hyperref package, [On-line]. Septembre 1999
[Visit le 13 Septembre 1999] Available from internet :
<URL:http://tug.org/applications/hyperref/manual.html>
[TIE 99], Text Encoding Initiative [On-line]. Septembre 1999 [Visit le 13 Septembre 1999]
Available from internet :
<URL:http://www-tei.uic.edu/orgs/tei/>
[Pdftex 99] PDFTeX support [On-line]. Septembre 1999 [Visit le 13 Septembre 1999]
Available from internet : <URL:http://www.tug.org/applications/pdftex/>
[LaTeX 99] Une courte (?) introduction LaTeX [On-line]. Septembre 1999 [Visit le 13
Septembre 1999] Available from internet :
<URL:ftp://ctan.tug.org/tex-archive/info/lshort/french/flshort-3.3.pdf>
[Fptex 99] fpTeX 0.3 User's manual [On-line]. Septembre 1999 [Visit le 13 Septembre 1999]
Available from internet :
<URL:ftp://ftp.loria.fr/tex-archive/systems/win32/fptex/fptex.pdf>
[XML 98] Extensible Markup Language (XML) 1.0 [On-line]. Septembre 1999 [Visit le 13
Septembre 1999] Available from internet :
<URL:http://www.w3.org/TR/1998/REC-xml-19980210>
[XSL 99] Extensible Stylesheet Language (XSL) working draft [On-line]. Septembre 1999
[Visit le 13 Septembre 1999] Available from internet :
<URL:http://www.w3.org/TR/WD-xsl/>
[XLL 98] XML Linking Language (XLink) working draft [On-line]. Septembre 1999 [Visit
le 13 Septembre 1999] Available from internet :
<URL:http://www.w3.org/TR/1998/WD-xlink-19980303>
[Huneau 98] Huneau M.E., "Serveur de thses en texte intgral : Rapport de Projet de Fin
d'Etudes" [On-line]. Villeurbanne (Fr.) : INSA IF, 1998, 29 p. Available from internet :
<URL: http://csidoc.insa-lyon.fr/these/doc/rapport_pfe.pdf>
12
Les meta-donnes sont les informations portant sur le document (nom de lauteur, anne, laboratoire, rsum,
abstract, mots-cls, etc.)
Page 15 / 17
Page 16 / 17
ANNEXES
Page 17 / 17
Projet Cither
Intgration de LaTeX
Rdacteur
Date de rdaction
Dernire mise jour
Date dimpression
:
:
:
:
Julien Tognazzi
6 septembre 1999
28 septembre 1999
13 octobre 1999
Projet
Version
Rfrence
Diffusion
: CITHER
: 1.0
: Rapport de Projet de Fin d'Etude
: Interne
Sommaire
1.
Introduction ___________________________________________________________3
2.
3.
4
5
5
6
6
4.
5.
6.
Page 2 / 11
10. Introduction
Ce document prsente les modification apportes au logiciel de conversion "Chane
d'Edition Numrique" pour l'intgration des thses rdiges sous LaTeX.
[lshort.pdf] Tobias Oetiker, Hubert Partl, Irene Hyna and Elisabeth SchleglThe. "The Not
So Short Introduction to LaTeX 2", Version 3.7, 14. April, 1999
[flshort.pdf] Tobias Oetiker, Hubert Partl, Irene Hyna et Elisabeth Schlegl, traduit en
franais par Matthieu Herrb, "Une courte (?) introduction LaTeX 2", Version 3.3,
Fvrier 1999
Page 3 / 11
12.3.1.Options gnrales
Nom
Type
Dfaut Description
draft
boolean
false
Page 4 / 11
boolean
false
a4paper
boolean
true
a5paper
boolean
false
b5paper
boolean
false
letterpaper
boolean
false
legalpaper
boolean
false
executivepaper
boolean
false
12.3.2.Options de configuration
Nom
Type
Dfaut Description
Raiselinks
boolean
true
Breaklinks
boolean
false
Pageanchor
boolean
true
Plainpages
boolean
true
Nesting
boolean
false
Type
Extension
text
Dfaut Description
backref
boolean
false
pagebackref
boolean
false
Hyperindex
boolean
false
Colorlinks
boolean
false
Linkcolor
color
red
anchorcolor
color
black
citecolor
color
green
filecolor
color
magenta
menucolor
color
red
pagecolor
color
red
Page 5 / 11
color
cyan
12.3.4.Options PDF
Nom
Type
Dfaut Description
Bookmarks
boolean
false
bookmarksopen
boolean
false
RGB color 0 1 1
0 0 1
12.3.5.Options intressantes
Voici la ligne de commande hyperref utiliser dans le cadre du projet CITHER pour
rpondre aux exigences dfinies:
\usepackage[colorlinks, linktocpage, pagebackref, a4paper,
bookmarks, bookmarksnumbered]{hyperref}
L'option linktocpage rend actif les liens de la table des matires sur le numro des
pages, et non sur le titre des parties. Autrement, avec dvips, les titres de la table de matires
ne sont pas coups et la mise en page saute.
Page 6 / 11
Une fois tous problmes rsolus, rajouter les lignes ncessaires pour l'inclusion du
module hyperref et la dfinition des polices.
Page 7 / 11
Puis tester une nouvelle fois le fichier par une compilation Latex (une seule fois
suffit)
Une fois toutes les modifications ncessaires effectues, il faut vrifier que LaTeX
puisse toujours compiler le fichier. Une mauvaise surprise est toujours possible !
-
Cette fois, si des erreurs surviennent, elles sont dues l'ajout du module hyperref
qui entrane certaines incompatibilits avec les autres modules prsents. (par
exemple, il existe un problme de compatibilit entre hyperref et l'option french de
babel qui oblige changer le caractre ':' dans les rfrences (commandes \ref{}
ou \label{}) par un autre caractre ('_' ou '-')).
Projet
Prefs
Main
ListeC
Ole
HTML
About
+-------------------------------------------------------------------------+
Page 8 / 11
Remarque:
Une distribution Latex pour win32 est fournie avec le Cen ainsi que le
script Perl Latexmk (cf. la Presentation des repertoires)
+-------------------------------------------------------------------------+
1. Installation
Lancer le programme setup.exe et suivre les instructions a l'ecran
Le repertoire d'installation propose par defaut est :
c:\DocINSA\Cen\
Le programme d'installation installe aussi les fichiers suivants:
<ProgramFilesDir>\Microsoft Office\Office\demarre\PdfMaker.dot
c'est la macro Word necessaire a l'application.
Si votre version de MS Office n'est pas installer a cette endroit, il vous
sera necessaire d'installer la macro vous meme, apres l'installation.
(fichiers fournis)
<ProgramFilesDir>\Microsoft Office\Modles
une autre macro necessaire a l'application, meme remarque que au-dessus
Ces deux macro rajoutent deux nouvelles barres d'outils dans Word.
La 1ere PDFMaker contenant deux icones (le logo acrobat et Prefs)
La 2eme Theses contenant 1 seul icone (un smiley jaune)
si c'est deux nouvelles barres n'apparaissent pas, reportez-vous a la
rubrique "en cas de problemes".
Page 9 / 11
Pour l'application
<INSTALLDIR>\Cen
<INSTALLDIR>\Cen\Html
<INSTALLDIR>\Cen\Guide
<INSTALLDIR>\Cen\Guide\images
<INSTALLDIR>\Cen\Projets
<INSTALLDIR>\fptex 0.3
%Distribution Latex
<INSTALLDIR>\Docs
%Fichier de documentation
<INSTALLDIR>\Perl
%distribution Perl
<INSTALLDIR>\Cacro.reg
+-------------------------------------------------------------------------+
3. En cas de problemes
3.1. Configuration de MS Word
2 nouvelles barres d'outils doivent maintenant apparaitre
Page 10 / 11
Page 11 / 11