Vous êtes sur la page 1sur 14

« The History of Humanities

Computing »
par Mélissa Hernandez · Publié 01/10/2012 · Mis à jour 03/10/2012

Compte-rendu du texte de Susan Hockey


(Department of Information Studies, University College London)

Susan Hockey nous raconte la genèse des Humanities Computing de


1949 à nos jours. Les quatre périodes historiques étudiées, nous
permettent de suivre lʼévolution :

des technologies : des réalisations semi-automatiques aux


technologies du Web,
des comportements humains : des projets portés par un individu à la
création dʼune communauté en interaction permanente,
des productions de ressources : des documents portant sur les
thèmes chers aux Humanités aux textes analytiques sur les
Humanities Computing.

***

Première période : 1949 – début des années 1970

Les Humanities Computing naissent en 1949 avec le projet de Roberto


Busa. Le prêtre jésuite crée un index contenant tous les termes des
ouvrages de Saint Thomas dʼAquin, soit onze millions de mots en latin
médiéval : lʼIndex thomisticus. Les textes sont tapés au fur et à mesure sur
des cartes perforées. Un programme informatique semi-automatique
établit des concordances et prend en compte la lemmatisation. Cʼest la
naissance des concordanciers, des logiciels permettant dʼexplorer des
corpus textuels afin de rechercher certains mots et leurs contextes
dʼoccurrences.

Dans les années 1950-1960 des projets sur des corpus de textes, des
ensembles dʼauteurs sont menés par des universitaires isolés. Une
application des concordanciers se distingue : lʼapproche quantitative, pour
étudier le style dʼun texte et établir sa véritable paternité.
La fin du 19ème siècle présentait des expériences similaires sur des textes
littéraires. Mendenhall prouve que Shakespeare est bien lʼauteur de
certains textes en comptant le nombre de mots possédant le même
nombre de lettres dans ses œuvres et celles de Bacon.

Les ordinateurs permettent de brasser des corpus plus importants et


donnent des résultats plus précis. En 1964, Mosteller et Wallace
identifient le véritable auteur de 12 des 85 articles du recueil Federalist
Papers. Grâce à des méthodes statistiques ils attribuent la paternité de
ces textes à Madison et non à Hamilton, tous deux Pères Fondateurs.

Cependant la technologie reste limitée. Des problèmes parfois toujours


dʼactualité sont pointés :

Deux types de données analysables : nombre ou texte


Accès séquentiel aux données enregistrées sur bande magnétique
Représentation complexe dʼensembles de caractères non-standards
Localisation imprécise dʼexpressions dans les textes à linéaments
(poésie, théâtre, manuscrit …)

En 1967, COCOA Concordance Program est créé par Russel. Il permet


dʼobtenir la fréquence de termes et dʼétablir des concordances entre des
textes de structures différentes.

Entre le début des années 1960 et le début des années 1970, des
conférences sur les Humanities Computing vont donner naissance aux
futurs groupes de travail, centres, associations et revues spécialisés dans
ce domaine dʼétudes :

1964 : conférence à Yorktown Heights au Royaume-Uni (IBM).


Publication des actes: Literary Data Processing Conference
Proceedings.
1963 : fondation du Centre for Literary and Linguistic Computing à
Cambridge (Wisbey)
En Allemagne, à Tübingen, développement des logiciels dʼanalyse de
texte : TuStep software modules (Wilhelm Ott).
1966 : publication de la revue Computers and the Humanities
(Raben).
1970 : conférence internationale à lʼUniversité de Cambridge.

Deuxième période : années 1970 – milieu des années 1980

Les universitaires sʼintéressent au potentiel des ordinateurs pour leurs


recherches et leurs enseignements. Le développement des conférences,
la création de nouvelles associations et de revues renforcent le
mouvement :

1972-1980 : organisation de quatre conférences importantes au


Royaume-Uni.
1973: fondation de lʼAssociation for Literary and Linguistic Computing
(ALLC). Organisation dʼun événement annuel et publication du journal
Literary and Linguistic Computing (1986).
Milieu des années 1970 : série de conférences en Amérique du Nord :
International Conference on Computing in the Humanities (ICCH).
Création de lʼAssociation for Computers and the Humanities (ACH,
1978).

A la fin des années 70 : les directions des systèmes dʼinformation des


universités commencent à supporter les travaux des chercheurs en
améliorant les logiciels de concordance. Le concordancier dʼOxford (OCP)
est créé en 1982. Des cours analysant le phénomène des Humanities
Computing sont donnés dans les universités. La question de former
systématiquement les étudiants à la programmation se pose.

Le besoin dʼarchiver et de garantir lʼintégrité des textes électroniques se


fait ressentir. En 1976, le système dʼarchivage OTA (Open Text Archive)
permet de conserver les textes et de les partager entre universitaires. Des
bases de données de textes en langues classiques sont
construites (Thesaurus Linguae Graecae, Brunner). Les bases de données
relationnelles sont privilégiées car elles structurent mieux lʼinformation
sous forme de tables. Le disque remplace la bande magnétique. Il permet
un accès aléatoire et non plus seulement séquentiel aux données.

La naissance des bibliothèques numériques entraîne avec elle la question


de la création de normes de description des documents électroniques.

Un décalage existe entre les enseignants chercheurs et ces nouvelles


technologies souvent complexes. Les universitaires préfèrent encore
publier leurs travaux via les modes de diffusion traditionnels.

Troisième période : milieu des années 1980 – début des années 1990

Deux nouveaux outils facilitent lʼutilisation de lʼinformatique et les


interactions entre universitaires : lʼordinateur personnel (IBM, Apple
Macintosh) et le mail (listes de diffusion). Les universitaires peuvent
innover librement avec leur ordinateur. Apple Macintosh rencontre le plus
de succès :

Interface graphique agréable,


Représentation des caractères non-standards,
Développement de lʼhypertexte avec lʼHyperCard et son modèle de
fiches reliables. En 1991, pour son projet Beowulf Workstation,
Conner améliore son enseignement en tissant des relations entre un
texte ancien, ses versions anglaises modernes et des annotations.

Des listes de diffusion apparaissent :

1986 : Ansaxnet (Conner).


1987 : Humanist (MacCarty).

Un regroupement massif de connaissances sur les logiciels, les projets et


les publications est effectué au sein dʼune bibliographie : Humanities
Computing Yearbook (HCY, 1988).

La normalisation des schémas et langages est lancée :

1986 : Publication du langage de description à balises SGML


(Standard Generalized Markup Language, ISO). Il permet de séparer
la structure logique du document et sa mise en page.
1994 : Création du format de codage TEI (Text Encoding Initiative) via
les mails et les listes de diffusion. Il permet de décrire la structure
spécifique des textes appartenant au domaine des Humanités. Les
bibliothèques numériques se développent et utilisent ce format pour
rechercher en plein texte.

Point important : Les Computational Linguistics se distinguent


progressivement des Humanites Computing.

Quatrième période : début des années 1990 à nos jours

Lʼarrivée dʼInternet et du World Wide Web font apparaitre de nouveaux


moyens de diffusion de lʼinformation. Au départ, les universitaires à
lʼorigine du format TEI se méfient du Web et du langage de balisage HTML
(HyperText Markup Language). Pour les nouveaux arrivants, le Web est
perçu comme une opportunité de rendre visibles leurs travaux
universitaires, de promouvoir leurs activités au sein dʼune communauté
élargie. Les contraintes de format, de taille des fichiers nʼexistent plus. Les
hyperliens permettent de mettre à profit les annotations. Le processus de
création, de publication des documents est simplifié.

Au début des années 1990, la réflexion sur lʼédition électronique des


travaux universitaires est lancée. Certains projets sont réalisés mais
beaucoup dʼentre eux sont abandonnées quand arrive la phase de
création de logiciels, de saisie et codage des textes.

Du côté des standards et des langages, le format TEI utilise SGML pour
définir un ensemble de balises et pour préciser la manière dont elles
peuvent être utilisées.

En informatique, lʼaccent est porté sur la navigation et les interfaces


plutôt que sur le développement dʼoutils dʼanalyse de textes. Lʼidée
dʼintroduire de la technologie dans les Humanités est plus familière grâce
aux efforts concernant la présentation et lʼaccessibilité des documents.
Publier des travaux universitaires sur le Web devient une pratique
commune.

Les bibliothèques commencent aussi à publier le contenu de leur


collection sur Internet. Le moteur de recherche Open Text SGML permet
dʼeffectuer des recherches sur des chaînes de caractères.

Le projet Orlando mené par lʼUniversité dʼAlberta, portant sur la création


dʼune histoire de lʼécriture féminine britannique, renouvèle la conception
de la publication électronique de documents. Lʼextraction de parties de
documents et leur reconstitution dans un nouvel ensemble pour générer
par exemple des chronologies sur un sujet précis sont désormais
possibles.

Des outils en ligne encouragent le travail collaboratif. Ils facilitent lʼédition


électronique de manuscrits. Des spécialistes du monde entier peuvent les
annoter successivement à distance.

Une réflexion commune débute sur la manière dʼenvisager les traitements


des ressources multimédia (images, fichiers audio et vidéo).

Enfin, lʼaccès élargi aux ressources électroniques grâce au Web fait éclore
un nouveau champ universitaire mêlant technologies numériques et
sciences humaines et sociales : les Humanities Computing. La
communauté universitaire adopte cette nouvelle discipline et des
formations spécialisées sont ouvertes au Royaume-Uni et aux Etats-Unis.

***

Dʼautres projets motivent à présent la communauté des Humanities


Computing :

La publication du patrimoine culturel sur le Web afin de le rendre


accessible au grand public.
Lʼintégration des techniques de la linguistique computationnelle,
dans le cadre de projets tels que la bibliothèque numérique Perseus.
La mise à disposition des outils et techniques développées par les
Humanities Computing pour dʼautres domaines de recherche.
Le recrutement dans le milieu universitaire, mais aussi dans lʼédition
électronique, les technologies de lʼéducation et du développement
multimédia, dʼétudiants diplômés en sciences humaines et en
informatique.

En somme, comme le dit Susan Hockey, à lʼheure dʼInternet, lʼimagination


et lʼinnovation dont a fait preuve la communauté des Humanities
Computing ont permis dʼouvrir à ce domaine de connaissances un large
horizon de possibilités.

Mélissa Hernandez

Présentation de la TEI
La TEI comme réponse à un besoin de
standardisation des données textuelles
Le balisage de texte est né avec la technologie de texte. Et comme toutes
les technologies rapidement popularisées, elle a subi, à ses prémisses,
des variations personnelles et multiples. Et dʼautres termes, au début du
balisage de texte, chacun faisait comme il le souhaitait. Si cette méthode
offrait une multiplicité dʼidées qui ont sans doute fait émerger de
nouveaux principes aujourdʼhui utilisés, elle présentait un fort
désavantage : des projets dʼauteurs différents nʼavaient aucune
interopérabilité, car ils nʼétaient pas découpés de la même façon. Alors,
comment relier, classer, utiliser les textes digitaux ?
Crédits de lʼimage : Colorblind

De cette question est née une nécessité dʼun balisage générique, qui
permettrait dʼavoir une information accessible par tous, et surtout
reconnaissable par la machine. La TEI, à lʼorigine un projet dʼhumanités
numériques, a donc vu le jour en 1987, au cours dʼun meeting au Vassar
College de New York. Il sʼagissait de mettre en place ses principes
intellectuels pour la première fois. Depuis, la TEI a subi des évolutions
régulières en fonction des besoins exprimés par ses utilisateurs.

Le but premier de la TEI nʼest pas de donner un système de découpage


strict des textes digitaux. Cʼest plutôt un ensemble de recommandations
pour définir un format de texte qui permette lʼéchange de données et leur
analyse. La TEI est indépendante du matériel comme des logiciels,
rigoureuse dans sa définition des objets textuels, et compatible avec les
standards qui ont existé avant elle.

La TEI comme un intermédiaire entre lʼhomme et


la machine
Un document numérique nʼest pas quʼune suite de caractères encodés. Il
nʼest pas non plus uniquement une séquence de formes lexicales. Un
texte numérique a une structure et une signification, un contenu que
lʼauteur a voulu transmettre à lʼautre. Il peut par conséquence avec
plusieurs lectures différentes, être enrichi par des annotations, ou partagé
à ses pairs. Le balisage et lʼencodage dʼun document en explicite la
lecture. Si un texte brut est interprétable par lʼhomme, la machine en
revanche ne pourra pas en traiter le sens.

La TEI vise à définir un ensemble de recommandations, de conseils et


dʼexemples qui servent à encoder un texte virtuel. En dʼautres termes, elle
sert à donner un sens interprétable par la machine comme pour lʼhomme,
en passant par le balisage.

Crédits de lʼimage : Emma Tunbridge

Lʼun des plus gros bénéfices de lʼapplication de ce balisage dans le cadre


de la recherche a été mise en exergue par le projet de lʼédition digitale des
lettres de Van Gogh. Lʼapplication réalisée permet aux utilisateurs de
chercher les lettres sur des critères de contenu : les personnes ou les
scènes sʼy trouvant. Sans la TEI, qui introduit un balisage précis des textes
concernés, ce type de critères de recherche sophistiqué aurait été
impossible à appliquer.

La TEI fournit dans ce cas une manière nouvelle de sʼapproprier les textes,
et une nouvelle manière dʼutiliser les capacités technologiques pour la
lecture.

Les conditions dʼun balisage TEI


Le balisage a été défini comme “nʼimporte quel moyen de rendre explicite
lʼinterprétation dʼun texte.” Il sert, en règle générale, à marquer des
morceaux de texte pour leur donner un sens lors de leur lecture par la
machine. Le nom explicite des balises utilisées dans la TEI donne un sens
compréhensible par lʼhomme lors de la récupération des informations
quʼelles contiennent.

Le seul élément obligatoire pour quʼun texte respecte la TEI, cʼest le


TEIHEader, suivi dʼun texte, ou dʼun groupe de texte.

Le rôle du header est de fournir les informations descriptive du texte pour


créer un entête électronique. Cʼest un peu comme la couverture et la
quatrième de couverture dʼun livre, applicable à nʼimporte quel document
numérique. En utilisant le découpage TEI, ces informations deviennent
lisibles et interprétables à la fois pour lʼhomme et pour la machine.

Exemples de header TEI dʼun document

Utiliser la TEI pour les textes académiques


Quʼest-ce quʼun texte digital académique ?
Un texte académique digital est une modélisation de données utilisables
pour la recherche grâce au balisage. Le découpage TEI appliqué à ces
textes sert à illustrer la compréhension qui est faite de ce texte. En règle
générale, on considère que les textes académiques digitaux se basent sur
des données issues des humanités numériques. Pour autant, il ne suffit
pas de digitaliser un texte pour en faire un document dʼhumanités
numériques, utilisable et utile pour la recherche.

Un des exemples de cette distinction est le projet Gutenberg, réalisé en


1971. Le but de ce projet était dʼencourager la création et la distribution de
eBooks. Cette notion de partage en fait dʼailleurs lʼun des premiers projets
collaboratifs digitaux. La digitalisation des textes a posé problème à cause
de lʼabsence de garanties sur lʼexactitude de ceux-ci. Sans source fiable
et identifiée, ces textes numériques ne pouvaient pas être utilisés pour la
recherche.

Pour quʼun texte numérique soit considéré comme utile à la recherche, il


doit respecter trois critères :

– Offrir la données essentielle dont on a besoin, comme les informations


bibliographiques.

– Décrire les décisions éditoriales et la méthode de travail

– Utiliser des technologies et programmes Open Source, pour ne pas


devenir obsolètes et pouvoir être transformés en dʼautres formats. Cela le
rend ainsi accessible au plus grand nombre.
Crédits de lʼimage : Colin Anderson

Pour quʼil soit utilisable dans le cadre des humanités numériques, il doit
également :

– Déclarer explicitement la théorie éditorale ou lʼinterprétation qui est


soutenue, comme elle a été exprimée dans lʼécriture du texte.

– Démontrer ou activer des recherches qui nʼauraient pas pu voir le jour


autrement. Par exemple, en explorant des interrogations anciennes dʼune
nouvelle manière et en faisant naître de nouvelles questions.

– Interagir avec dʼautres textes digitaux et écosystèmes digitaux, comme


des infrastructures de recherches.

Ce quʼapporte la TEI à ces textes


La TEI est devenue très influente dans le domaine des textes de recherche
car elle permet – et même exige – que les projets humains soient lisibles
par la machine. Dans son processus dʼexplicitation de chacun de ses
critères, la TEI permet lʼéchange et lʼaccessibilité de nombreuses
connaissances académiques.

Les limites de la TEI


Comme tout processus dʼencodage, la TEI a quelques inconvénients. En
lʼoccurence, il sʼagit plutôt de limites, dûes au facteur humain.

La limite de temps disponible


Lors de lʼencodage dʼun texte académique en TEI, tout ne peut pas être
automatisé. Il existe sans doute des éditeurs automatiques de TEI, mais la
plupart des informations doivent être remplies au préalable par la main
humaine. Cʼest un processus de création particulièrement chronophage,
considérant que lʼencodage dʼun document est assi important que le texte
quʼil contient. Il ne faut rien laisser au hasard, et la TEI étant codifiée de
manière plutôt précise, numériser un ensemble de textes est une tâche
fastidieuse et très longue.
Crédits de lʼimage : Fusion Pix

La limite du support
Les documents papier dont on se sert pour les recherches ont parfois des
déchirures, des coupures, des tâches, des marques qui sont ancrées dans
leur histoire. Ces éléments scannables visuellement sont plus difficiles à
représenter en TEI. Il existe la possibilité dʼattribuer des balises
spécifiques qui mentionnent des corrections, des modifications, des
ajouts ou des suppressions, mais le document en devient rapidement
illisible par lʼhomme, et traitable uniquement par la machine. La TEI pour la
recherche est donc plutôt réservée aux textes “propres” quʼaux
documents historiques.