Académique Documents
Professionnel Documents
Culture Documents
Computing »
par Mélissa Hernandez · Publié 01/10/2012 · Mis à jour 03/10/2012
***
Dans les années 1950-1960 des projets sur des corpus de textes, des
ensembles dʼauteurs sont menés par des universitaires isolés. Une
application des concordanciers se distingue : lʼapproche quantitative, pour
étudier le style dʼun texte et établir sa véritable paternité.
La fin du 19ème siècle présentait des expériences similaires sur des textes
littéraires. Mendenhall prouve que Shakespeare est bien lʼauteur de
certains textes en comptant le nombre de mots possédant le même
nombre de lettres dans ses œuvres et celles de Bacon.
Entre le début des années 1960 et le début des années 1970, des
conférences sur les Humanities Computing vont donner naissance aux
futurs groupes de travail, centres, associations et revues spécialisés dans
ce domaine dʼétudes :
Troisième période : milieu des années 1980 – début des années 1990
Du côté des standards et des langages, le format TEI utilise SGML pour
définir un ensemble de balises et pour préciser la manière dont elles
peuvent être utilisées.
Enfin, lʼaccès élargi aux ressources électroniques grâce au Web fait éclore
un nouveau champ universitaire mêlant technologies numériques et
sciences humaines et sociales : les Humanities Computing. La
communauté universitaire adopte cette nouvelle discipline et des
formations spécialisées sont ouvertes au Royaume-Uni et aux Etats-Unis.
***
Mélissa Hernandez
Présentation de la TEI
La TEI comme réponse à un besoin de
standardisation des données textuelles
Le balisage de texte est né avec la technologie de texte. Et comme toutes
les technologies rapidement popularisées, elle a subi, à ses prémisses,
des variations personnelles et multiples. Et dʼautres termes, au début du
balisage de texte, chacun faisait comme il le souhaitait. Si cette méthode
offrait une multiplicité dʼidées qui ont sans doute fait émerger de
nouveaux principes aujourdʼhui utilisés, elle présentait un fort
désavantage : des projets dʼauteurs différents nʼavaient aucune
interopérabilité, car ils nʼétaient pas découpés de la même façon. Alors,
comment relier, classer, utiliser les textes digitaux ?
Crédits de lʼimage : Colorblind
De cette question est née une nécessité dʼun balisage générique, qui
permettrait dʼavoir une information accessible par tous, et surtout
reconnaissable par la machine. La TEI, à lʼorigine un projet dʼhumanités
numériques, a donc vu le jour en 1987, au cours dʼun meeting au Vassar
College de New York. Il sʼagissait de mettre en place ses principes
intellectuels pour la première fois. Depuis, la TEI a subi des évolutions
régulières en fonction des besoins exprimés par ses utilisateurs.
La TEI fournit dans ce cas une manière nouvelle de sʼapproprier les textes,
et une nouvelle manière dʼutiliser les capacités technologiques pour la
lecture.
Pour quʼil soit utilisable dans le cadre des humanités numériques, il doit
également :
La limite du support
Les documents papier dont on se sert pour les recherches ont parfois des
déchirures, des coupures, des tâches, des marques qui sont ancrées dans
leur histoire. Ces éléments scannables visuellement sont plus difficiles à
représenter en TEI. Il existe la possibilité dʼattribuer des balises
spécifiques qui mentionnent des corrections, des modifications, des
ajouts ou des suppressions, mais le document en devient rapidement
illisible par lʼhomme, et traitable uniquement par la machine. La TEI pour la
recherche est donc plutôt réservée aux textes “propres” quʼaux
documents historiques.