Vous êtes sur la page 1sur 25

Catalogage dynamique des manuscrits

arabes anciens numérisés

Mohammed Ourabah SOUALAH Mohamed HASSOUN


ELICO - Lyon. ELICO -Lyon. France
med_soualah@yahoo.fr mohamed.hassoun@enssib.fr

Collège Doctoral Européen, 5 – 6 Novembre 2015

10e Colloque International ISKO France Systèmes


d'organisation des connaissances et humanités
numériques.
Sommaire
1. Le manuscrit arabe
2. Le catalogage du manuscrit arabe ancien
3. Caractéristique du manuscrit arabe ancien
4. Instabilité du document : Catalogage dynamique
5. Mise en œuvre du catalogage dynamique
(Annotation, transcription, encodage)
Le manuscrit arabe

Le manuscrit :
▪Une œuvre artisanale
▪Unique
▪Une œuvre considérée sous plusieurs
angles

Le manuscrit arabe :
▪3 millions à travers le monde
▪Conditions de préservation dérisoires
Le manuscrit arabe

⚫Le manuscrit est une véritable source d'information et


de connaissance.
⚫Nécessité de donner accès aux chercheurs et experts.

Mais,
comment ?
Le manuscrit arabe

⚫Le manuscrit est une véritable source d'information et


de connaissance.
⚫Nécessité de donner accès aux chercheurs et experts.

✔ Accès par le contenu : Usage de


la reconnaissance de caractère

✔ Accès en mode image : Usage


du catalogue
Accès en ligne aux manuscrits numérisés
Accès par le contenu
▪Problème d'indexation
✔ Analyse de la structure du manuscrit
✔ Reconnaissance de caractère

Pseudo-mots

Boites englobantes imbriquées

Problèmes de voyellation

Problèmes de diacritiques
Accès en ligne aux manuscrits numérisés

Usage du catalogue
▪Efficace, simple et pratique
▪Communauté expérimentée

Principe du catalogage de manuscrits


▪Description des caractéristiques du manuscrit selon un protocole
de catalogage bien défini :
⚫ Aspects paléographiques
⚫ Aspects codicologiques
⚫ Histoire du manuscrit
Accès en ligne aux manuscrits numérisés
Usage du catalogue
Le protocole de catalogage : Les métadonnées
Paléographie : Science qui traite des écritures anciennes

▪Type d'écriture
▪Qualité de l'écriture
▪Changement de main
▪Langue de l'écriture (arabe ou aj'amii)
Aspects ▪Abréviation
paléographiques ▪Ligatures
▪Signes utilisés (présence de la shadda, de la hamza, des
diacritiques, de signes de voyellation)
▪Paragraphes et ponctuation
▪Numérotation des cahiers
▪… etc.
Accès en ligne aux manuscrits numérisés
Usage du catalogue
Le protocole de catalogage : Les métadonnées
Codicologie : Etude des manuscrits reliés en codex en
tant qu'objets matériels.

▪ Instruments d'écriture, encre


▪ Matériaux de support : papyrus, parchemin,
papier
▪ Forme des livres : Rouleau, codex
Aspects
codicologiques ▪ Composition des cahiers : Signature
▪ Réglure : piqûre, lignes rectrices, lignes de
justification.
▪ Reliure : Couture, Ais, …
▪ Etat du manuscrit : accident destructif,
effritement de pages,
▪ Etude du volume : Auteur, copiste, titre du
Accès en ligne aux manuscrits numérisés
Usage du catalogue
Le protocole de catalogage : Les métadonnées
Histoire du manuscrit : Elle s'intéresse au parcours du
manuscrit jusqu'à son acquisition
par l'institution.

▪ Histoire des éditions,


▪ Marques de possession,
Histoire du ▪ Inscription du Waqf
manuscrit ▪ Notes :
▪ Attestation de lecture.
▪ Attestation de collation (Muqabalat).
▪ Attestation d'audition (Sama't).
▪ Certificat de transmission (Ijjaza)
▪ …etc.
Processus d'accès en ligne aux manuscrits via le catalogue
Problèmes liés aux manuscrits
Corrosion, insectes et Lieu de sauvegarde inappropriés :
effritement Humidité et perte de folios, …
Impact sur le catalogage
Absence d'information
-Notices bibliographiques Risque d'inaccessibilité
incomplètes, au manuscrit numérisé
-Information relatives aux
métadonnées inexistante

Information
inconnue
Aspects écdotiques du manuscrit
✔ Plusieurs études complémentaires sur le manuscrit :
Edition critique

▪ Possibilité d’existence de copies dans un autre lieu.

▪ Possibilité de déchiffrement d’une information longtemps restée


incompréhensible par un expert.

▪ L’information peut être retrouvée à tout moment : D’où la


possibilité de mise à jour du catalogue à tout moment.

✔ Solution : Adapter le modèle de catalogage


▪ Document instable : Modèle de catalogage dynamique
Processus du catalogage dynamique
✔ Plateforme collaborative
▪ Transcription des manuscrits (crowdsourcing)
▪ Annotation
Transcription

Intégration des
documents validés
Expert
dans la base
documentaire

Validation

Médiateur
Annotateur
Processus du catalogage dynamique
Principe de mise à jour ou d'intégration de métadonnées
Trois cas de figures peuvent se présenter :

Cas 1 : L'élément annoté/transcrit est inexistant dans la notice


bibliographique

-Intégrer entièrement l'élément annoté dans la notice bibliographique

Cas 2 : Une partie de la métadonnée annotée/transcrite est présente dans la


notice bibliographique, mais le contenu du document-annotation ou du
document-transcription est inexistant.

-Deux structures non similaires, alors mise à jour de la notice bibliographique.

Cas 3 : Modification du contenu de la notice bibliographique

-Cas de mise à jour. Remplacer uniquement les contenus de la notice.


La transcription
Les annotation
Extraction de métadonnées à partir des annotation
et de la transcription

Principe :

✔ L’extraction de métadonnées est un concept dérivé de l’extraction

d’information

✔Elle consiste à extraire à partir de document annotation/transcription des


métadonnées et les injecter dans un formulaire : La notice bibliographique.
Méthode d’extraction

Principe :

✔ Elle est basée sur le principe de similarité structurelle de deux

documents.

✔La similarité structurelle permet de comparer deux document et de


statuer sur le degré de ressemblance ou de différence entre les deux
documents.

✔Les notices bibliographiques sont sous format XML

✔Mesure de similarité : La mesure de similarité entre deux arbres T1 et T2

est donnée par


Méthode d’extraction

Principe :

✔Comparaison de tous les nœuds de deux documents.

✔Résultat : T1 est équivalent à T2 si sim(T1,T2) = 1

T1 est différent de T2 si sim (T1,T2) = 0


Usage de la similarité structurelle pour la mise à
jour des notices bibliographiques
Algorithme :
Entrée :
Document-Annotation/transcription (T1)
Notice bibliographique (T2)
Sortie :
Notice bibliographique mise à jour.
Calcul similarité :
{
Calculer la similarité sim (T1, T2);
Si sim(T1,T2) = 0
Alors
Intégrer le contenu du document-
annotation/transcription (T1) dans la notice (T2)
Sinon
Remplacer le contenu de la métadonnée de la notice (T2) par le
contenu du document-annotation/transcription.
Finsi
}
Usage de la similarité structurelle pour la mise à
jour des notices bibliographiques

Phase 1 : Mapping du
document XML :
Extraction des termes +
le contenu

Phase 2 : Instanciation
des métadonnées

Phase 3 : Intégration des


métadonnées
Conclusion

✔Instabilité de document : nécessité d'un modèle de catalogage adapté.

✔Le catalogage dynamique.

▪Modèle de catalogage continuel et évolutif.

▪Modèle de catalogage basé la dynamique des métadonnées.


Catalogage dynamique des manuscrits arabes anciens
numérisés

Merci pour votre attention

Question ?

Vous aimerez peut-être aussi