Vous êtes sur la page 1sur 9

Les sciences du langage : champs, applications et débouchés

Cours 7 : Mardi 8, mercredi 9, jeudi 10 novembre 2011

Linguistique-informatique

Rachel Panckhurst & Augusta Mela

Plan de la présentation

1. Définition des termes et des domaines : Linguistique-informatique,


Traitement automatique des langues, Traitement informatisé de
corpus, etc.
2. Démonstration d’outils pratiques.
3. Présentation des cours en licence.
4. Champs d’application et débouchés.

Bibliographie

Bouillon P., Vandooren F., Da Sylva L., Jacqmin L., Lehmann S., Russell G.,
Viegas E., (1998), Traitement automatique des langues, Paris, Bruxelles :
Duculot. Disponible : Montpellier BU Lettres.

Daille B., Romary L. (2001, éd.) Linguistique de corpus, Traitement Automatique


des Langues (TAL), 42(2), Hermès Sciences Publications. Disponible : Montpellier
BU Lettres.

Fuchs C., Danlos L., Lacheret-Dujour A., Luzzati D., Victorri B., 1993,
Linguistique et traitements automatiques des langues, Paris : Hachette.
Disponible : Montpellier BU Lettres ; Béziers BU Duguesclin.

Habert B., Nazarenko A., Salem A., (1997), Les linguistiques de corpus, Paris :
Armand Colin. Disponible : Montpellier BU Lettres ; Béziers BU Duguesclin.

Champs d’application et débouchés

Le domaine de la linguistique-informatique, en rapport avec les


technologies de l’information et de la communication, constitue un
débouché professionnel important, à la fois pour des linguistes et des
spécialistes de l’information et de la communication, offrant une voie
alternative aux carrières universitaires de recherche et d’enseignement.

 Linguiste-informaticien
 Documentaliste, lexicographe, terminologue
 Ergolinguiste
 Assistant de recherche (ou recherchiste)
 Rédacteur technique, multi-support (web, tablette, téléphonie
mobile, etc.)

1
Les sciences du langage : champs, applications et débouchés
Cours 7 : Mardi 8, mercredi 9, jeudi 10 novembre 2011

Linguistique-informatique

Rachel Panckhurst & Augusta Mela

Domaines : Traitement automatique des langues ; Traitement


informatisé de corpus

1. Traitement automatique des langues

Le traitement automatique des langues (naturelles) (ou TAL, TALN) est un


domaine où se croisent les deux disciplines suivantes : la linguistique et
l'informatique.

« L'objectif des traitements automatiques des langues est la conception


de logiciels (programmes) capables de traiter de façon automatique des
données linguistiques, c'est-à-dire des données exprimées dans une
langue (dite « naturelle »). » (Fuchs et al., 1993, p.7)

Dans la communauté du traitement automatique du langage (désormais


TAL), cette citation est consensuelle ; cependant, pour des néophytes, elle
n’est pas simple à comprendre. Qu’est-ce que réellement le traitement
automatique des langues ? À quoi cela sert-il ?

Commençons par dégager les mots clefs de la citation : traitement,


automatique, données linguistiques, langue, naturel.

Le traitement correspond à la manipulation d’un objet en entrée vers la


modification en un nouvel objet de sortie. On pourrait imaginer, par
exemple, le traitement, la transformation, d’un texte, pour le corriger,
pour en extraire des données, pour le traduire dans une autre langue, etc.
Ce traitement se passe de manière automatique, c’est-à-dire en utilisant
des moyens mécaniques (grec : mêkhanê, machine), par opposition à des
moyens manuels. Dans le cas présent, le moyen mécanique utilisé est
l’ordinateur.

On traite de manière automatique des données linguistiques. Ces données


linguistiques peuvent être de plusieurs sortes : par exemple, des textes
écrits, des dialogues (écrits, oraux), des unités linguistiques de plus petite

2
taille (des phrases, des mots, etc.), émanant d’une langue, des langues,
du langage (cf. Fuchs, 1993, p. 10-11 pour une précision langue/langage
dans ce contexte).

Pourquoi ajoute-t-on « dans une langue dite naturelle » ? Parce qu’il s’agit
de traiter de manière automatique des données linguistiques émanant
d’une langue, qui n’est pas artificielle ; un langage de programmation est
un langage artificiel, tandis que le français est une langue naturelle.

Mais comment, me diriez-vous, peut-on faire traiter par l’ordinateur des


données émanant d’une langue naturelle ? L’ordinateur n’est-il pas surtout
conçu pour effectuer des calculs ? Comment peut-on automatiser des
données linguistiques, qui, par définition, contiennent du flou, de
l’implicite, du non-dit, etc. ? C’est précisément le problème du TAL. Que
l’automatisation recherchée soit totale (entièrement effectuée par
l’ordinateur) ou partielle (assistée par l’ordinateur), on doit formuler de
façon totalement explicite des règles, des ensembles de règles, qui vont
caractériser le fonctionnement d’un texte : dégager des régularités qui
sont généralisables, exprimer ces régularités en essayant d’éliminer le
flou, l’implicite, le non-dit… Bien entendu, la question incessante est :
dans l’activité humaine, intelligente, il y a une part irréductible de
subjectivité ; l’ordinateur, peut-il simuler le comportement humain ?

Lire les deux citations suivantes pour vous aider dans votre réflexion pour
la réponse à cette question.

Soyons réalistes : l'ordinateur ne fait que ce qu'on lui dit de faire, ne


sait (comprend) que ce qu'on sait (comprend) et qu'on est capable de
lui expliciter ; sa seule supériorité réside dans sa puissance de calcul
et (éventuellement) dans la taille de sa mémoire. Retournons donc les
questions vers nous : pour l'instant nous ne savons traiter (et
encore…) que des textes à visée informative, correspondant à des
univers référentiels précis et restreints - et ceci aux niveaux les plus
« bas » du traitement (très grossièrement dit : plus près des formes
que du sens). Les progrès en matière de traitements automatiques
des langues viendront de nos capacités à décrire les mécanismes de
langue de façon plus fine, et à appréhender des régularités cachées
derrière d'apparentes « exceptions ». (Fuchs et al., 1993, p. 11-12).

L’esprit humain comprend sans savoir comment il procède ; et


l’ordinateur ne comprend pas mais on sait comment il procède.
(Rastier F., Cavazza M., Abeillé A. (1994), Sémantique pour l'analyse -
De la linguistique à l'informatique, Paris : Masson, 240p., p. 11).

3
Certains considèrent le TAL comme étant un sous-ensemble de
l'intelligence artificielle. L’intelligence artificielle fait intervenir à son tour
d'autres disciplines connexes : la logique, la psychologie, la neurologie,
l'épistémologie…

Le TAL est concerné par :

 le traitement de l'écrit : reconnaissance, analyse et génération de


données textuelles ;
 le traitement de l'oral : reconnaissance de la parole et synthèse
vocale.

Parmi les problèmes linguistiques les plus importants qui se posent en


TAL, citons notamment l'ambiguïté lexicale, syntaxique ou structurelle,
sémantique ou logique, pragmatique.

Le domaine du TAL est né à la fin de la deuxième guerre mondiale, et se


confond au départ avec les recherches en traduction automatique ; celles-
ci intéressaient au premier chef les services d'espionnage et l'armée
(langues traitées : le russe et l'anglais).

Les technologies de l'information et de la communication éducatives


(TICE) ont clairement bouleversé nos habitudes ; l'utilisation du langage
par des moyens informatiques a pris une importance croissante. Dès les
années 80, est apparue une multiplication de termes pour désigner les
activités, les techniques et les produits impliquant le TAL : industries de la
langue (IdL), ingénierie linguistique, génie linguistique, etc.

Le mariage entre la linguistique et l’informatique peut servir à élaborer


des outils logiciels. Précisons quelles sont les applications pratiques du
TAL.

Du côté de l'écrit, l'on peut citer, entre autres :

 l'analyse et la génération automatique de documents


 par exemple, corriger l’orthographe et la grammaire d’une
langue ; proposer des résumés automatiques (ou
automatisés) de textes ;

 la traduction automatisée/automatique
 traduire des données textuelles d’une langue à l’autre, par
exemple, la visualisation de pages Web émanant d'une autre
langue dans sa langue maternelle ;

 l'indexation automatique et la recherche d'informations


documentaires
 indexer et/ou rechercher automatiquement des informations,
des documents, des références (par exemple, sur Internet) ;

4
l'indexation transforme le texte en une représentation, qui
sera utilisée par la suite lors de la recherche documentaire
afin de retrouver des informations, des documents, des
références… ;

 l'extraction terminologique
 par exemple, pour déterminer le vocabulaire spécialisé d’un
domaine particulier ;

 l'élaboration de dictionnaires électroniques spécialisés


 par exemple, pour pouvoir accéder rapidement à des données
à partir de son ordinateur, etc.

Les applications pour l'oral concernent, entre autres :

 la reconnaissance de la parole
 interphones, systèmes de reconnaissance de dictée — par
exemple, dans le domaine médical ou juridique pour effectuer
des dictées immédiatement reconnues par la machine et
affichées à l’écrit à l’écran ;

 la synthèse de la parole
 montres pour mal-voyants, aide à l'éducation de la parole
pour enfants mal-entendants, vocalisation de SMS pour
personnes aveugles, etc.

L’articulation entre l’écrit et l’oral est, bien entendu, primordiale. La


communication entre l’homme (la personne) et l’ordinateur est cruciale ;
l’idéal serait, bien sûr, que nous puissions parler à l’ordinateur, qui nous
« comprendrait » et qui nous répondrait. C’est ce que l’on appelle la
communication homme-machine. Cette communication existe à l’heure
actuelle (sauf dans le cas de quelques prototypes isolés qui traitent
effectivement de la parole), sous forme d’interfaces graphiques ; ce sont
les menus contextuels, les messages qui s’affichent à l’écran de votre
ordinateur, vous demandant d’effectuer telle ou telle action. Un des
objectifs du TAL est de faciliter l’utilisation des ordinateurs en permettant,
précisément, un traitement, une analyse plus approfondie de notre
langue. Une interface en langage naturel (en français, par exemple, au
lieu de cliquer à l’aide de la souris quelque part ou d’utiliser des écrans
tactiles) permettrait à l’humain de « converser » avec l’ordinateur. Il y a
des domaines où cela existe, mais ce sont, en général, des univers
restreints : horaires de train, avion…

Dans une interrogation de bases de données, la question de l’utilisateur


doit d’abord être analysée par la machine ; ensuite, l’ordinateur génère
une réponse (ou une autre question qui relance le dialogue). Mais
comment réaliser ce vaste projet ? Comment faire pour que l’ordinateur
puisse analyser, comprendre, générer des réponses cohérentes ?

5
Par rapport au langage naturel, si le travail du linguiste consiste à
identifier les propriétés qui caractérisent le langage et à en donner des
descriptions formelles, alors le linguiste-informaticien se préoccupe
d'implémenter (c'est-à-dire élaborer pour mettre en machine) des outils
(prototypes et/ou logiciels) pour le traitement du langage naturel par
ordinateur dans lesquels il aura injecté les théories et les descriptions
linguistiques particulières. Dans ce contexte, la linguistique théorique doit
fournir des descriptions entièrement explicites et organisées dans des
théories cohérentes du savoir linguistique, et ce au niveau de toutes les
composantes d’une langue. Vaste projet !

Plusieurs approches sont utilisées en TAL, reflétant notamment l’écart


entre la linguistique théorique appliquée et les applications industrielles :
les uns se servent exclusivement de méthodes strictement linguistiques
(incorporant, par exemple, des analyses syntaxiques d'un texte non
étiqueté en entrée, pour fournir, en sortie, une description complète de
données textuelles) ; d'autres y incorporent des méthodes numériques et
statistiques. Dans le cadre du traitement informatisé de corpus (cf. § 2.
ci-dessous), parfois des approches mixtes sont adoptées.

Références :
Bouillon P., Vandooren F., Da Sylva L., Jacqmin L., Lehmann S., Russell G.,
Viegas E., (1998), Traitement automatique des langues, Paris, Bruxelles :
Duculot. Disponible : Montpellier BU Lettres.

Fuchs C., Danlos L., Lacheret-Dujour A., Luzzati D., Victorri B., 1993,
Linguistique et traitements automatiques des langues, Paris : Hachette.
Disponible : Montpellier BU Lettres ; Béziers BU Duguesclin.

Panckhurst R. (2001), « Traitement automatique des langues » in Termes et


concepts pour l’analyse du discours. Une approche praxématique, Détrie C.,
Siblot P., Vérine B. (coord.), Genève : Honoré Champion, 365–367.

Discussion, pour approfondir : Une différenciation des objectifs du TAL par rapport à ceux des
IdL s’impose, et derrière la définition consensuelle de Fuchs et al. se logent des enjeux théoriques
importants. Les IdL impliquent nécessairement un objet (la langue) qui peut se vendre. Pour le
linguiste-informaticien œuvrant dans le domaine du TAL, la vente de produits linguistiques n’est
pas obligatoirement le but ultime ; ce qui importe, c’est avant tout une théorisation linguistique
importante au départ, avant que ne soient réalisées ensuite des implémentations informatiques
(qui peuvent être soit des prototypes, soit des logiciels commercialisables, mais pas
nécessairement). Cette distinction, entre linguistique théorique et applications industrielles ne se
réduit pas à une bataille terminologique : les orientations des deux approches conduisent à des
résultats fort différents. Mais, dans ce domaine précis, il est certain que l’on ne peut pas consacrer
des années à une recherche fondamentale sans qu’elle soit appliquée, d’une part, et, par ailleurs,
élaborer des outils (commercialisables) à la va-vite sans qu’il y ait un réel travail théorique sous-
jacent. L’idéal serait que les linguistes et les informaticiens collaborent ensemble, vraiment, que
l’informaticien implémente les théories linguistiques proposées par le linguiste, mais à l’heure
actuelle, c’est encore une position plutôt utopique.

6
2. Traitement informatisé de corpus

On pourrait considérer que le traitement informatisé de corpus est un


sous-domaine du traitement automatique des langues dans la mesure où
il s’agit de faire effectuer par ordinateur un traitement de données
textuelles.

Le travail sur corpus exige alors de recueillir (c’est-à-dire sélectionner et


organiser) des données linguistiques formant « un échantillon du
langage », (Sinclair, in Habert et al., 1997, p. 11). Ce peut être dans une
optique de recueil documentaire ou de rassemblement de productions
attestées, par exemple.

Les textes électroniques disponibles à l'heure actuelle augmentent


quotidiennement ; le fonds le plus connu en France reste la base textuelle
Frantext (consultable en ligne à partir du site de l’ATILF, Analyse et
Traitement Informatique de la Langue Française : http://www.frantext.fr/)
contenant 4084 textes (soit 247 937 581 mots — données : septembre
2011). Frantext est une base de données en texte intégral de textes
français depuis le 16e siècle : 80% de littérature, 20% d'essais, traités,
récits de voyages. Frantext a servi pour la production du Trésor de la
langue française (TLF), puis sa version informatisée, TLF-i :
http://atilf.atilf.fr/tlf.htm.

L'utilisation de ces données n'est pas récente ; par contre, ce qui change
est l'accès facilité aux données (via le réseau Internet, notamment) et
l'augmentation de la taille de celles-ci. Le traitement informatisé de corpus
(comme pour tout traitement du langage naturel écrit) implique
l’annotation automatique ou automatisé des données textuelles en une
représentation (un étiquetage, une arborescence) et, par la suite, la
recherche et l’extraction d'informations à partir de cette annotation.

Le terme traitement informatisé de corpus renvoie à des approches qui


font intervenir des recherches de type :

 lexicométrique (analyse par fréquences, cooccurrences, segments


répétés…)
ou à l’aide de
 concordanciers : qui effectuent des tris de termes clefs en contexte
— KWIC, Key words in context).

Historiquement, il s’agit surtout de méthodes de fouille de texte utilisées


dans un contexte littéraire. Mais, l’apport du traitement informatisé de
corpus des années 80-90 a été l’étiquetage de texte, c’est-à-dire
l’association d’une catégorie grammaticale ou d’un lemme (une forme
canonique) à des données textuelles. Cette étape est produite par un

7
programme qui s’appelle un étiqueteur (tagger, en anglais) ; parfois les
corpus sont annotés manuellement.

L’étiquetage peut être réellement morpho-syntaxique (à partir d’un texte


nu en entrée), c’est-à-dire une analyse morpho-syntaxique complète de la
phrase est effectuée, ou bien, il peut être effectué par des patrons de
fouille, dont le travail consiste à vérifier des contextes gauche et droit
immédiats, avant d’établir les catégories à affecter aux données, et ce
sans procéder à une analyse complète de la phrase.

Le traitement informatisé de corpus, tout comme le traitement


automatique des langues, ne s’arrête pas à un niveau uniquement
morpho-syntaxique ; les recherches sémantiques voire pragmatiques
foisonnent, mais nous ne disposons pas encore d’outils robustes
permettant l’analyse réelle de corpus.

Définitions

Termes employés :

concordance, concordancier, lexicométrie, lexicologie, lexicostatistique,


statistique lexicale, méthodes statistiques, analyse du discours, analyse
des données…

Lexicostatistique

« La lexicostatistique est l'application des méthodes statistiques au


vocabulaire d'un texte, d'un ensemble d'énoncés considérés comme
représentatifs d'un auteur ou de la langue elle-même. Son domaine
d'application sera : la stylistique, si l'on cherche à apprécier la richesse du
vocabulaire d'un écrivain, la philologie, si l'on tente de dater des textes les
uns par rapport aux autres, la pédagogie, si l'on essaie de définir le
vocabulaire fondamental d'une langue, enfin, la linguistique générale, si
l'on cherche à déterminer si la fréquence des mots et leur rang fréquentiel
obéissent à des lois générales ». Dictionnaire de linguistique et des
sciences du langage (1994), Paris : Larousse, p. 282.

Concordance

« En lexicographie, une concordance est un index de mots présentés avec


leur contexte. Une fois réalisée, l'indexation des mots d'un texte, d'un
auteur, d'une époque fournit des renseignements sur les références des
mots et éventuellement sur leur fréquence ; on offre à l'utilisateur la
possibilité d'étudier parallèlement les divers emplois du même vocable ».
Ibid., p. 108.

8
Statistique lexicale

« La statistique lexicale est une application des méthodes statistiques à la


description du vocabulaire. […] La tentative d'enregistrement du français
fondamental constitue une […] approche quantitative. Il s'agit de définir
les mots les plus employés de la langue, pour en assurer l'enseignement
prioritaire aux non-francophones. Les enquêtes menées pour la définition
des diverses listes (français élémentaire - français fondamental) ont établi
la différence entre fréquence et probabilité d'occurrence. Un mot d'une
fréquence élevée dans le français fondamental (classe, par exemple) peut
avoir, dans une autre situation, une probabilité d'occurrence voisine de
zéro. Toute lexicologie quantitative doit tenir compte de la situation de
communication. » Ibid., p. 441.

Références :

Daille B., Romary L. (2001, éd.) Linguistique de corpus, Traitement Automatique


des Langues (TAL), 42(2), Hermès Sciences Publications. Disponible : Montpellier
BU Lettres.

Habert B., Nazarenko A., Salem A., (1997), Les linguistiques de corpus, Paris :
Armand Colin. Disponible : Montpellier BU Lettres ; Béziers BU Duguesclin.

Panckhurst R. (2001), « Traitement informatisé de corpus » in Termes et


concepts pour l’analyse du discours. Une approche praxématique, Détrie C.,
Siblot P., Vérine B. (coord.), Genève : Honoré Champion, 368–369.

Discussion, pour approfondir : La tradition de linguistiques sur corpus, Péry-Woodley,


1995, (ou, linguistiques de corpus, Habert et al., 1997, à partir de corpus linguistics, en
anglais) va au-delà ; elle (r)ouvre le débat linguistique sur l’opposition (ou, tout au
moins, la différenciation) entre exemples linguistiques et productions authentiques
relevées dans des corpus. En fait, la question qui doit être posée de prime abord est
celle-ci : qu’est-ce que la donnée en linguistique (Panckhurst, 1994, p. 39) ? Pour les
premiers, « le nom spécifique de la donnée observable en linguistique est l’exemple »,
Milner, 1989, p.51, où l’exemple désigne un énoncé qui pourrait être effectivement
prononcé, même s’il ne l’est pas dans les faits, alors que pour les seconds, la donnée en
linguistique correspond au corpus et le seul observable devient alors les productions
authentiques contenues dans le corpus. Cette différenciation est fondamentale dans la
mesure où l’étude du corpus tout-venant, quelle que soit la taille, n’a pas lieu d’être dans
certaines écoles linguistiques. Au contraire, pour les tenants des approches statistico-
probabilistes, l’utilisation de (très) gros corpus s’impose, mais l’inconvénient réside dans
le niveau de justesse des résultats, qui manquent parfois de finesse quant aux
descriptions linguistiques.
Milner J.-C., (1989, 1985), Introduction à une science du langage, Paris : Seuil.
Disponible : Montpellier BU Lettres.
Panckhurst R., (1994), « A Database for Linguists : Intelligent Querying and Increase of
Data », Computers and the Humanities, vol. 28, n° 1, p. 39-52. Disponible sur demande
auprès de l’enseignante.
Péry-Woodley M.-P., (1995), « Quels corpus pour quels traitements automatiques ? »,
T.A.L., vol. 36, n° 1-2, p. 213-232.

Vous aimerez peut-être aussi