Vous êtes sur la page 1sur 79

Bases de donnes documentaires (v0.

1) Partie 1/6

Philippe Bajoit

Le sujet
Bases de donnes documentaires

17 November 2011

Page 2

Un exemple
Herv Jamar (MR), secrtaire d'Etat la modernisation des Finances et la lutte contre la fraude fiscale

17 November 2011

Page 3

Philippe Bajoit
Licence en Informatique ULg 1991 1993-1999
Cognitive Systems Europe, BIM: NLP, PDF CapGemini: gnraliste

2000-2009
Wang, Getronics, Fujitsu Services, KPN: gestion documentaire

2009-maintenant
ULg: architecture des logiciels HR

Rseaux
facebook LinkedIn http://be.linkedin.com/in/philippebajoit

Bases de donnes documentaires


Sujets
Le document Stocker et retrouver des documents Le document XML (validation, transformation)

Agenda
6x le jeudi AM, 2 heures

Evaluation
Livre ouvert Exercices pratiques Questions de rflexion

17 November 2011

Page 5

Table des matires


Les mtiers du document numrique Le concept de document, versions Indexation et mtadonnes Taxonomie Thesaurus XML (3x) Exercices Un cas: Fedex Archivage Evolutions vers XML Proprit intellectuelle Les systmes de recherche

17 November 2011

Page 6

Les mtiers du document numrique

17 November 2011

Page 7

Les mtiers du document numrique


A la frontire de 3 mtiers:
Bibliothque/documentaliste Knowledge management Quality management (via RM)

IT incontournable
Exploitation Consultance

17 November 2011

Page 8

Les outils informatiques


Solutions complexes et spcialises Des fournisseurs particuliers, en cours de concentration:
FileNet (maintenant IBM) Documentum (EMC) Microsoft (solutions limites) Open-source (eg Alfresco, Apache JackRabbit, Nuxeo)

17 November 2011

Page 9

Le concept de document

17 November 2011

Page 10

Le concept de document
Dfinition Document physique Document numrique, mta-donnes Caractristiques du document numrique :
htrogne, distribu, volutif, droits daccs, cycles de vie, prrenit, archives

17 November 2011

Page 11

Le concept de document Dfinition Ensemble form par un support et une information, gnralement enregistr de faon permanente, et tel qu'il puisse tre lu par l'homme et la machine. Fonctions:
Conservation de linformation Communication de linformation

Nombreux supports:
Papier Microfiche, Audio, Numrique

17 November 2011

Page 12

Le concept de document Le document physique


Papier Formes plus larges (record) Granularit:
Feuille de papier Article Exemplaire du livre vs Livre

Types:
Livre (gnral) Monographie Intgrale de .. Ouvrage de rfrence Littrature grise

17 November 2011

Page 13

Le concept de document Le document numrique Le document numrique


Nombreux supports : film, image, numrique, audio Nombreux formats :
Image : TIFF, JPEG, PDF Audio : propritaires, WAV, MP3, OGG

Les mtadonnes
donne qui dcrit une donne Sapplique aux documents (vrifier) Essentiel pour les documents numriques

17 November 2011

Page 14

Le concept de document Le document numrique Dune manire simple, un document se dfinit par
un contenu des donnes pour le dcrire

Document
Contenu (texte, images, autre contenu)

17 November 2011

Page 15

Le concept de document Le document numrique Composants de diffrentes natures


Texte Autres (images, logos, annotations)

17 November 2011

Page 16

Le concept de document Le document numrique Traitements


Changement dchelle dune image? Changement dchelle dun extrait audio? Validation dune signature lectronique? Validation dun fragment de texte?

Parfois utile, parfois non


Collaboration, collgues -> format rvisable eg MS-Word Publication de documents finaux -> format non rvisable eg PDF

17 November 2011

Page 17

Le concept de document Le document numrique Lien avec les fichiers informatiques


Souvent une relation 1-1 Parfois une structure complexe (fichier principal avec liens vers des fichiers de chapitres)

17 November 2011

Page 18

Le concept de document Le document numrique Recherche des mtadonnes


Feuille de papier Article Exemplaire du livre vs Livre Livre (gnral) Monographie Intgrale Ouvrage de rfrence Littrature grise

17 November 2011

Page 19

Le concept de document Caractristiques du document numrique Caractristiques du document numrique:


htrogne, distribu, volutif, droits daccs, cycles de vie, prrenit, archives

17 November 2011

Page 20

Le concept de document Caractristiques du document numrique L'objet numrique est htrogne...


par sa nature (livre numris, page Web, notice bibliographique) par sa forme (un fichier, plusieurs fichiers juxtaposs, plusieurs fichiers hirarchiss) par son niveau (un fichier, un groupe de fichiers, un document, un groupe de documents)

17 November 2011

Page 21

Le concept de document Caractristiques du document numrique Distribu


localisation prcise du stockage problmatique du partage de documents

17 November 2011

Page 22

Le concept de document Caractristiques du document numrique Evolutif


le document numrique changera les cycles de vie du document les versions et ditions les droits daccs

17 November 2011

Page 23

Le concept de document Caractristiques du document numrique Droits daccs


les droits des utilisateurs (permissions, contraintes) les droits de proprit intellectuelle et/ou industrielle

17 November 2011

Page 24

Le concept de document Caractristiques du document numrique Cycles de vie


form dtats un seul tat la fois Transitions et vnements objectifs de la gestion des cycles de vie:
matriser les outils de cration et de gestion, faciliter les changes et la diffusion, garantir l'accessibilit et la conservation.

17 November 2011

Page 25

Le concept de document Caractristiques du document numrique Prrenit


l'objectif de la prservation numrique est de maintenir la capacit : d'afficher, d'extraire, et d'utiliser les collections numriques sur le long terme. long terme : priode assez longue pour que lon se soucie de l'impact : des changements technologiques, de l'volution de la communaut des informations dtenues par une archive, priode qui peut stendre linfini. utilisateurs sur les

17 November 2011

Page 26

Le concept de document Caractristiques du document numrique Archives


le moyen dassurer la prrenit archivage du contenu et de lapparence visuelle:
le contenu : documents figs, documents avec versions (modifications, enrichissements). l'apparence visuelle : but juridique, but de mmoire.

17 November 2011

Page 27

Versions

17 November 2011

Page 28

Versions dun document


Dfinition? Exemples ?
Document et logistique (v0.12) ICT/FR/FILENET API CM

17 November 2011

Getronics Confidential

Page 29

Versions dun document


Variantes du mme document logique
versions historiques : le document change au fil du temps (la notion la plus courante de version) versions linguistiques : le document (contenu et mtadonnes) est prsent dans diffrentes langues; versions de format : le contenu peut tre en format HTML, Word, PDF, etc. Cela peut inclure la version prcise du logiciel ddition (e.g. MS-WORD 95, MS-Word 11, Word 2003).

17 November 2011

Getronics Confidential

Page 30

Versions dun document

17 November 2011

Getronics Confidential

Page 31

Versions dun document


En pratique limplmentation des versions dpend du produit logiciel
Existence de versions mineure, majeure Versions historiques out-of-the-box Autres types de versions souvent non prvues Comportement fin

Exemples:
JSR170: version (unique) Nuxeo: version cre au choix (optionnelle, mineure ou majeure) lors du check-in FileNet P8: version mineure cre lors du check-out, version majeure au choix

17 November 2011

Getronics Confidential

Page 32

Versions dans le produit Nuxeo


Cration dune version mineure Dmarre du document courant

17 November 2011

Getronics Confidential

Page 33

Versions dans le produit Nuxeo


La version 1.0 est cre

La version courante est maintenant 1.1

17 November 2011

Getronics Confidential

Page 34

BREAK
Questions ?

17 November 2011

Page 35

Indexation et mtadonnes

17 November 2011

Page 36

Mtadonnes et indexation
donne qui dcrit une donne (le document) Formalisme OO Utilit des mtadonnes Fonctions Types de valeurs (eg Single value, multiple value) Liens entre documents

17 November 2011

Page 37

Formalisme orient-objet (OO) Le terme orient objet a 4 caracteristiques principales:


Encapsulation, Hritage, Hierarchie de types dobjets ou de classes, Polymorphisme.

17 November 2011

Page 38

Formalisme orient-objet (OO) Encapsulation means that an object will contain both data and the methods needed to manipulate the data.
Exemple: Assume we have a "title-object". It would contain the actual words of the title, information about the fonts used and the methods needed to create, delete, display, print and edit the title. Wherever you chose to plug-in this object, you would be able to use the built-in methods that came along with the data.

17 November 2011

Page 39

Formalisme orient-objet (OO) Encapsulation, exemples

17 November 2011

Page 40

Formalisme orient-objet (OO) Hritage means that once you have defined one type of object, you can define an unlimited number of derived objects (sons or daughters), and they will as a default have inherited all the characteristics of the parent object type.
Exemple: Starting with the "title" object type, you could easily derive a "subtitle" object type that inherited all the methods of its parent. You could then introduce a small change in the display and the print methods so that a smaller point size was used.

17 November 2011

Page 41

Formalisme orient-objet (OO) Hritage, exemples

17 November 2011

Page 42

Formalisme orient-objet (OO) Hirarchie de types dobjets ou de classes: Perhaps starting with "the Mother of all text-objects" an object type called "word", you could define an entire hierarchy of text objects, all sharing a number of characteristics and being separated by specific, limited differences.
Exemple: Users of Word for Windows will probably recognize this way of working from the way "styles" are defined in this product.

17 November 2011

Page 43

Formalisme orient-objet (OO) Hirarchie de types dobjets ou de classes, exemples

17 November 2011

Page 44

Formalisme orient-objet (OO) Polymorphisme means that a particular method could have the same name for a lot of different object types. But it would work differently according to the current object in question. As a user, you would not be required to know about these differences.
Exemple: You would be able to call the print-method for the "title" and "subtitle" objects without worrying about any differences in their characteristics.

17 November 2011

Page 45

Formalisme orient-objet (OO) Polymorphisme, exemples


Java? C++ ?

17 November 2011

Page 46

Mtadonnes et indexation Utilit Utilit:


donner un sens au document, partager linformation

17 November 2011

Page 47

Mtadonnes et indexation Utilit Exemple: les rfrences


Large: all legislation over Enlargement; Prcis: Proposal for a COUNCIL DECISION to take account of the accession of the Czech Republic to the European Union; Unique: COM (2005) 372 2005/0152/AVC.

Identification unique souhaitable Porte de lidentifiant?

17 November 2011

Page 48

Mtadonnes et indexation Fonctions Fonctions:


recherches, labellisation, catalogage, droits daccs, droits dutilisation, cycles de vie, archivage, signature, rating

17 November 2011

Page 49

Mtadonnes et indexation Valeurs Diffrents types de valeurs pour une mtadonne:


single value (eg Titre), multiple value (eg Auteurs), forme alternative (eg single value avec ses traductions)

17 November 2011

Page 50

Mtadonnes et indexation Liens entre documents Liens entre documents:


liens directs collections eg sitemap Thmes

Exemple: 1 document contient n fichiers de 1 contenu

17 November 2011

Page 51

Dublin Core (DC)

17 November 2011

Page 52

Dublin Core
Dublin Core Metadata Initiative (1995) http://dublincore.org/ Ambition de doter les documents web de mtadonnes universelles Peu de contraintes (eg aucun lment obligatoire, tous rptables) Adoption lente Extensible

17 November 2011

Page 53

Elements DC
Title Creator Subject Description Publisher Contributor Date Type Format Identifier Source Language Relation Coverage Rights

17 November 2011

Page 54

Elements DC, exemples


XML
<dc:creator>Rose Bush</dc:creator> <dc:title>A Guide to Growing Roses</dc:title> <dc:description>Describes process for planting and nurturing different kinds of rose bushes.</dc:description> <dc:date>2001-01-20</dc:date>

HTML
<meta name="DC.subject" content="fruits de mer" /> <link rel="DC.relation" hreflang="en" href="http://www.example.org/en/" /> <link rel="DC.relation" hreflang="de" href="http://www.example.org/de/" />

17 November 2011

Page 55

Extensions DC
Qualificateur (Qualifier) pour apporter des prcisions
<meta name="DC.description" content="description" /> <meta name="DC.description.abstract" content="This article describes the work of the IFB Chaos Committee, including a summary of its major findings." /> <meta name="DC.description.tableOfContents" content="Introduction; Vertebrates; Invertebrates; Molluscs " />

Schma (Scheme) pour encodage ou valeurs externes


<meta name="DC.type" scheme="DCTERMS.DCMIType" content="Text" /> DCTERMS.DCMIType eg Text, Collection, Sound, Image, MovingImage

17 November 2011

Page 56

Taxonomie

17 November 2011

Page 57

Taxonomie
A lorigine, classification des espces vivantes Actions:
Nommer, classer

Rsultats:
classification, hirarchie

Problme de signification du vocabulaire: sera trait par le thesaurus

17 November 2011

Page 58

Taxonomie
Processus de rcolte de linformation

17 November 2011

Page 59

Taxonomie Exemple Exemple: OHIM Office of Harmonization for the Internal Market Domaine de la proprit intellectuelle (marques et modles, ie except les brevets) Support au classement des documents

17 November 2011

Page 60

Thesaurus

17 November 2011

Page 61

Thesaurus
Fournit le sens un vocabulaire contrl Gnralement spcifique un domaine Lien avec les mta-donnes : vocabulaire Lien avec la taxonomie: sens + relations Utilit pour les recherches Diffrent des corrections orthographiques (ie Google) Synonymes
Corporate memory vs Organization memory

Traductions, par liaison entre thsaurus

17 November 2011

Page 62

Thesaurus Exemple: sens et contextes

17 November 2011

Page 63

Thesaurus Exemple: synonymes

17 November 2011

Page 64

Thesaurus Exemple: aggrgations

17 November 2011

Page 65

Thesaurus
Termes Relations entre termes:
Terme Terme Terme Terme spcifique (TS) gnrique (TG) associ (TA) rejet (TR)

Utilisation pour lindexation:


Indexer avec les termes les plus spcifiques

Utilisation pour les recherches:


Rechercher des termes gnriques Profondeur de recherches (ajoute des termes plus spcifiques) Prise en compte des termes associs (oui/non)

17 November 2011

Page 66

Thesaurus
Termes racine (top-terms) Accs hirarchique

17 November 2011

Page 67

Thesaurus
TG + TS

17 November 2011

Page 68

Thesaurus
Termes rejets

17 November 2011

Page 69

Thesaurus
Annotations (notes)

17 November 2011

Page 70

Thesaurus
Accs alphabtique

17 November 2011

Page 71

Thesaurus
Export selon des spcifications

17 November 2011

Page 72

Thesaurus
Export selon des spcifications

17 November 2011

Page 73

Exercices

17 November 2011

Page 74

Exercice 1
Indexation dun document
Facture commerciale Dcouverte des mtadonnes Taxonomie (classement) ? Reprsentation du traitement (ie qui doit traiter ce document dans lentreprise) : via une mtadonne, ou un autre systme?

17 November 2011

Page 75

Exercice 2
Modle documentaire
Les traductions Modle multilingue (nombre indtermin) Le document traduire possde ses propres mtadonnes Notion de document original (ie crit par lauteur, et non par le traducteur) Notions de versions

17 November 2011

Page 76

Thank you

17 November 2011

Page 77

Licence

http://creativecommons.org/licenses/by-nc-sa/2.0/be/

17 November 2011

Page 78

17 November 2011

Page 79