Académique Documents
Professionnel Documents
Culture Documents
Concept : il s'agit d'une représentation. Les concepts tirent leurs significations en s'opposant
et se distinguant les uns par rapport aux autres.
Image acoustique : ce n'est pas exactement un son, mais un schéma codifié, susceptible de
varier.
Exemple : "rose" ne se prononce pas exactement de la même manière à Marseille et à
Orléans. Mais cette différence n'a aucune incidence sur la compréhension : le o ouvert ou
fermé sont, en français, deux variantes d'une même image acoustique.
Un même signifiant (par exemple vers) peut avoir plusieurs signifiés selon le contexte :
- J'écris en vers.
- Je vais vers Paris.
- La poule mange des vers.
Ou selon la langue : le signifiant if n'aura pas le même signifié en français (désigne un arbre)
et en anglais ( conjonction équivalant à "si" ).
Signifiant et signifié sont les deux "faces" de tout signe linguistique.
Le signifié est exprimé par le signifiant et le signifiant sert à exprimer le signifié
Caractéristiques du signe linguistique : le signe linguistique se définit par son caractère:
a. arbitraire: il n'y a pas de relation "naturelle" entre le mot (ou le signifiant) et la réalité
physique qui lui est associée (le signifié).
Par exemple, le choix du mot "bureau" ne repose sur aucun critère qui aurait pu favoriser le choix
d'un tel mot plutôt qu'un autre.
Une exception cependant: les onomatopées. Dans ce cas, les mots utilisés sont relativement proches
du son que l'on veut décrire, et ce, dans toutes les langues. ex.: le crie du chat; le miaulement, le
chant du coq; cocorico ou coquerico, le bruit de la vache; le meuglement ….
Si ce lien obligé entre la réalité et le signe linguistique existait, tous les humains parleraient
probablement la même langue. Ce caractère arbitraire du signe fait que l'on doive apprendre un
large vocabulaire lorsqu'on apprend une langue, qu’elle soit maternelle ou seconde.
b. conventionnel : Pour que les membres d'une communauté se comprennent, il faut qu'ils
s'entendent sur les mêmes conventions ou sur les mêmes signes. En fait, partager la même langue,
c'est également partager un certain nombre de conventions.
c. linéaire: Le signifiant se présente de façon linaire dans l'axe du temps. il nous faut du temps
pour prononcer un mot, pour le réaliser de façon physique. De même, il y a un ordre qui est suivi lors
de sa prononciation.
Exemple : Dans la réalisation du signifiant [wazo], il ne m'est pas permis de prononcer les sons
dans un ordre différent de celui que nous avons ci -haut si je veux que les autres locuteurs me
comprennent. Les signes forment donc une successivité et non une simultanéité.
VALEUR, linguistique : signification est la relation entre le signifié et le signifiant d'un mot
tandis que la valeur est la mise en rapport des mots entre eux.
La valeur est le résultat de l'intégration d'un signe linguistique ou d'un mot à l'intérieur d'un système
linguistique, donc d'une langue.
La valeur d'un mot se détermine par rapport aux autres mots qui partagent des sèmes communs
(unités de sens) ainsi que des sèmes uniques.
La valeur d'un mot est donc définie par l'existence d'autres mots à sens proche.
Exemple : rivière se définit par rapport à fleuve de par leur sème commun cours d'eau et de
par leur différence entre se jette dans un autre cours d'eau et se jette dans la mer
En anglais river est seul et ne s'oppose pas à un autre mot. Puisqu'il n'entretient pas le même rapport
au système qu'en français, il n'a pas la même valeur.
« mouton » peut avoir la même signification que le mot anglais mutton ;
« j'ai mangé du mouton »
I ate mutton ;
il peut aussi avoir la même signification que le mot anglais sheep ;
« j'ai vu un mouton »
I saw a sheep .
Mais jamais ces termes n'auront la même valeur, car ils ne coexistent pas, dans leurs systèmes
respectifs, avec les mêmes unités.
Les rapports entre les mots : Dans la notion de valeur sont également définis les liens entre
les mots. Ces rapports, qui constituent les frontières du sens d'un mot, peuvent être de
différents types :
rapport de synonymie : qui rapproche deux mots par leur sens, mais en fait, ceux-ci ne
peuvent conserver la même valeur et l'usage de ces mots va progressivement modifier la
valeur de l'un d'eux pour qu'ils deviennent différents. On considère donc plutôt ce rapport
comme un rapport de réciprocité.
Exemple : Les mots vivre et survivre se définissent réciproquement.
Survivre possède le sème supplémentaire continuer à vivre en dépit de quelque chose.
rapport de négativité : qui permet de définir un mot par son opposé. Un mot présentant
l'exact contraire d'un autre mot.
Exemple : Les mots vivre et mourir se définissent négativement
rapport de différencialité : qui couvre le degré de précision (plus ou moins général) et le
degré d'appréciation (nuance méliorative ou péjorative)
Exemple : Les mots vivre et habiter sont différents de par le degré de précision ; vivre et vivoter de
par une nuance péjorative marquée sur le deuxième mot.
Performance et compétence : En 1957 Noam Chomsky propose une organisation du langage
en deux niveaux. La structure de surface correspond à la performance, et la structure
profonde correspond à la Compétence
Compétence : Désigne la capacité de langage d’un individu qui a intériorisé une grammaire et un
lexique. Autrement dit, c’est l’ensemble du savoir linguistique d’un locuteur.
Performance : C’est l’extériorisation (par la parole) du lexique et de la grammaire, par un individu.
Puisque la performance se fait au niveau individuel, elle est sujette à des contraintes hic et nunc qui
l'influencent.
Ces contraintes peuvent être d'ordre psychologique (facteurs de mémoire ou d'attention),
physique (questions de voix, de niveau sonore, de rapidité du discours)
ou physiologique (questions de muscles, de perception).
Dans la vaste majorité des cas, tout fonctionne bien: c'est même cela qui est surprenant dans la
langue, sa résistance aux effets extérieurs
Le système linguistique: La langue est un système
L’axe horizontal :
Salim est heureux Phrase française
est heureux Salim Phrase non française
Heureux Salim est Phrase non française
Pourquoi certaines phrases sont-elles reconnues comme française et d’autres comme non
françaises ? Ce sont pourtant les mêmes unités ou segments linguistiques qui les composent.
Oui, ce sont les mêmes unités linguistiques mais leur ordre est différent.
Dans la 1ère phrase, les unités sont distribuées selon des lois propres à la langue française,
dans les deux suivantes, l’ordre n’est pas conforme à ces lois :
Sujet + copule + adjectif (ici la copule est le verbe être) Cette combinaison (enchaînement)
des unités se fait sur un axe horizontal appelé axe syntagmatique
(syntagme = combinaison linéaire des unités régie par les lois du système français).
Donc, on peut en déduire que, dans la phrase française, les unités linguistiques entretiennent
des rapports sur l’axe syntagmatique.
L’axe vertical
Salim est heureux
Il paraît ravi
L’étudiant semble joyeux
Classe grammaticale des différentes unités de la phrase :
Salim : sujet
Est : verbe d’état
Heureux : adjectif qualificatif
+ Il, l’étudiant … font partie du paradigme de « Salim ». Ils appartiennent au paradigme du
nom ou du pronom.
(Un paradigme est l’ensemble des unités linguistiques qui remplissent la même fonction et qui
peuvent donc être substituées l’une à l’autre.)
+ Paraît, semble… font partie du paradigme de « est ». Ils appartiennent à la même catégorie
des verbes d’état.
+ Joyeux, ravi… font partie du paradigme de « heureux ». Ils appartiennent à la même
catégorie grammaticale de l’adjectif qualificatif.
Les rapports paradigmatiques sont les rapports virtuels, saisis par l’esprit, existant entre les unités de
la langue appartenant à une même classe morphosyntaxique (grammaticale)
Exemple :
Les Enfants Jouent au ballon à axe syntagmatique
Les Enfants Jouent au ballon
Des
Deux
Plusieurs
Ces
…. à axe paradigmatique, liste non exhaustive – Classe des déterminants du nom.
Le traitement automatique des langues
Le traitement automatique des langues naturelles (TAL) a pour objet la création de programmes
informatiques capable de traiter automatiquement les langues naturelles.
En fait, le traitement ne concerne pas directement la langue, mais il porte sur les données
linguistiques, les textes, codés dans une langue particulière. Sous cette dénomination générique,
nous regroupons aussi les dialogues, écrits ou oraux, et des unités plus petites, comme les
paragraphes ou les phrases.
Par traitement, nous entendons, dans une première approximation, la transformation d’un objet
d’entrée en un objet de sortie. Quand il porte sur la langue, le traitement peut êtres de deux types :
Il peut agir sur des données linguistiques (c’est-à-dire les textes) pour les corriger, les
condenser ou les traduire. Bien souvent, cette transformation comprend une étape
intermédiaire qui vise à extraire des textes leur représentation appelée analyse des langues
naturelles. Il désigne toute traduction du texte dans un système autre que la langue naturelle
et qui rend explicites des informations implicites dans le texte : un ensemble de mots-clés,
un arbre syntaxique, une formule logique, etc. dans ce premier type de traitement, l’entrée
est donc un texte et la sortie un nouveau texte ou une représentation de texte.
Le TAL peut aussi faire l’opération inverse : il prend alors en entrée la représentation de
texte, pour produire un texte en langue naturelle. En général, cependant, on ne dispose pas
de la représentation de textes mais de données brutes, comme des tableaux ou des tables,
qu’il faudra d’abord traduire en une représentation de texte. Cette opération est appelée
génération des langues naturelles.
Les outils du TAL
Le traitement automatique nécessite évidemment des outils divers que l’on peut grouper en trois
catégories distinctes :
1- Linguistiques, ils décrivent les diverses connaissances relatives à la langue.
2- Formels, ils expriment ces connaissances dans un formalisme qui convient à un traitement
automatique.
3- Informatiques, ils utilisent cette description formelle des connaissances dans une
application informatique concrète.
Il ne faut donc pas s’étonner de la diversité du TAL, qui fait intervenir des recherches dans différents
domaines :
La linguistique informatique et l’informatique linguistique, qui développent des programmes
de TAL et définissent, dans ce but, de véritables langages informatiques, spécialisés pour les
applications du TAL ;
La linguistique qui fournit des théories explicites du savoir linguistique ;
L’informatique qui permet d’optimiser les algorithmes et les programmes de traitement,
mais aussi de développer des techniques formelles (de démonstration ou de résolution de
problèmes, par exemple) ;
Les mathématiques qui étudient les propriétés formelles des outils de traitement et des
théories ;
L’intelligence artificielle (IA) qui s’occupe de la représentation des connaissances et de leur
utilisation.
Pourquoi traiter automatiquement les langues naturelles ?
Deux raisons principales, souvent conjointes dans la réalité, justifient le TAL.
Tout d’abord, sur un plan théorique, le TAL permet de vérifier les théories linguistiques ou, de
manière plus générale, de mieux comprendre comment les humains communiquent entre eux. A
cette fin, il utilise l’ordinateur pour simuler les capacités humaines de compréhension et de
production de la langue naturelle.
Les résultats ainsi obtenus peuvent ensuite être comparés aux performances humaines et les
théories sur lesquelles se fondent les simulations, vérifiées.
Ensuite, sur un plan pratique, le TAL rend possible la construction de systèmes opérationnels qui
débouchent sur des produits commerciaux. Les applications les plus importantes sont :
La traduction automatique (TA) et la traductique. Première application du TAL, la TA se
définit comme l’application de l’informatique à la traduction de textes oraux ou écrits d’une
langue naturelle de départ (ou langue source) dans une langue d’arrivée ( ou langue cible).
La traductique recouvre l’ensemble des disciplines relatives à l’informatisation de la
traduction ; tels que les dictionnaires, les banques de données terminologiques, la gestion de
glossaires…
L’indexation automatique et la recherche documentaire. Comme la plupart des informations
ont la forme de textes en langue naturelle (références, livres, journaux, articles, etc),
l’intérêt d’une recherche documentaire automatique est évident : elle doit permettre de
retrouver automatiquement les informations, les documents perti nents ou les références des
documents, qui répondent à une question de l’utilisateur.
Les systèmes multimédia : ceux-ci se sont considérablement développés ces dernières
années et permettent non seulement le stockage d’informations sous diverses formes
(textuelle, graphique, audio, vidéo, etc.) mais aussi leur accès et leur manipulation à
distance.
Les correcteurs : il faut citer les correcteurs d’orthographe, de syntaxe et de style, qui se
limitent à l’analyse du langage et aident l’humain à transformer un texte à un autre qui est la
correction du premier.
Outils très répondus, ils font déjà partie intégrante de la plupart des logiciels de traitement
de texte. Leur qualité relative repose en grande partie sur la qualité de la description
linguistique.
La génération de texte en langue naturelle : cette application vise à produire des textes en
langue naturelle à partir de données non linguistiques, comme des graphiques, des schémas,
des données numériques, etc
Elle constitue une application idéale dans des domaines tels que la météorologie et la bourse
où l’on dispose de données brutes, non linguistiques, qui doivent être traduites
régulièrement dans des langues naturelles.
Ces application du TAL sont très connues dans le monde francophone ; pour répondre aux
besoins de la Communauté Européenne, qui doit faire face à l’accroissement alarmant du
nombre de traductions.
Différents programmes de TAL se succèdent, contribuant ainsi au développement des
industries de la langue. Citons, à titre d’exemple, les programmes européens EUROTRA
(1986-1992) de traduction automatique entre les neuf langues de la Communauté
Européenne.
« Dictionnaire électronique », « dictionnaire informatisé », il est très souvent que ces deux
expressions sont utilisées de façon synonymique dans l’usage courant.
Dictionnaires informatisés : ceux qui représentent la version électronique de dictionnaire papier ».
Dictionnaires électroniques : ceux conçus dès l’origine dans une perspective de traitement
automatique (reconnaissance ou génération). A ces dictionnaires, il faut donner des
indications plus précises que celle offertes dans un dictionnaire papier, dans la mesure où la
personne qui consulte un article de dictionnaire apporte avec elle tant d’informations pré
requises qu’elle ne décode pas seulement l’information mais apporte une foule
d’information préexistantes
Dictionnaires en ligne : ceux qui sont accessibles directement par le réseau Internet ou par le
biais d’un fournisseur de services.
Les dictionnaires actuels reposent sur la distinction des mots en catégories : noms, verbes,
adjectifs, etc. Ces catégories sont la plupart du temps identifiées à un emploi prototypique : un nom
désigne un objet, un verbe une action ou un événement, un adjectif traduit une qualité attribuée à
un substantif.
Cette conception repose sur une autonomie déclarée du lexique par rapport à la syntaxe et la
sémantique. La syntaxe, domaine des régularités, est alors considérée comme la combinatoire
d’éléments lexicaux autonomes et relève de la grammaire indépendamment du lexique.
Cette position, défendant l’autonomie des différents niveaux linguistiques, résiste difficilement à
l’analyse si on prend en considération l’ensemble des constructions des parties du discours, car elles
sont toutes syntaxiquement polysémiques.
Pour élaborer un dictionnaire électronique on a besoin de faire une description globale de la langue.
Est pour réaliser cette description il est nécessaire de formuler des règles générales mais ce n’est pas
suffisant, il nous faut aussi décrire toutes les propriétés linguistique de chaque mot, afin de
reconnaître et de générer l’ensemble des emplois.
Puisque on va décrire tous les emplois d’un mot, on a besoin de changer le format de la grammaire
en lexique. Et pour définir et distinguer les emplois du mot les uns des autres en cas de polysémie on
va travailler au niveau de la phrase. Mais il ne faut pas qu’on omette la dimension syntaxique.
1- Grammaire et lexique
Les unités lexicales ne peuvent être appréhendées comme des entités isolées, closes sur elles-
mêmes, elles doivent au contraire être définies en termes d’emplois dans le cadre des phrases où
elles apparaissent.
Déjà, sur le plan logique, Frege mettait en avant le principe de contextualité: « Rechercher la
signification des mots non pas isolément mais seulement dans le contexte d’une proposition.
« C’est uniquement dans un contexte que les mots ont leur signification ».
Notre analyse est différente. Nous considérons que l’unité minimale d’analyse de la langue n’est
pas le mot, le morphème, mais la phrase.
Le point de départ de cette analyse, qui remonte à Zellig Harris, est que toutes les suites ne sont pas
possibles. C’est dire a contrario que les combinaisons sont soumises à des règles qu’il s’agit de
mettre en évidence.
structure de la phrase élémentaire
Il existe pour l’essentiel deux représentations de la phrase. La première est issue de la
philosophie antique, la découpe en deux ensembles correspondant respectivement à « ce dont en
parle » (et que l’on appelle thème ou sujet) et « ce qu’on dit » de ce thème (et que l’on nomme
rhème ou prédicat). Ce découpage a été repris par la grammaire générative sous les termes de (GN)
et (GV)
Une autres représentation de la phrase est d’inspiration logique. Elle est défendue, à la suite de
tenants de la philosophie analytique (G. Frege) et de phénoménologue (E. Husserl) par Z. Harris, qui
voit dans une phrase un prédicat accompagné de ses arguments (sujet ou objets).
Le découpage binaire (SN+SV) privilégie parmi les arguments le sujet, en lui accordant un rang
supérieur à celui des objets. Or, comme beaucoup d’études l’ont montré et comme nous le verrons
plus loin à propos des emplois du verbe abattre, les informations apportées par les compléments
sont plus importantes que celles fournies par le sujet: détermination de l’emploi en cas de
polysémie, possibilité de passivation, indication du figement, place de la négation, etc.
La structure prédicat/arguments semble plus opératoire que les découpages binaires
classiques (sujet/prédicat), (thème/rhème), (GN/GV).
La phrase est composée de deux types d’entités différentes et complémentaires : un mot
relationnel (prédicat) qui sélectionne des classes spécifiques de substantifs en position d’arguments.
prédicat (arg1, arg2, arg3,….)
Je rédige un article
Rédiger (je, article)
Un prédicat donné doit être défini par la suite la plus longue de ses arguments;
Paul a frappé Jean sur la tête avec une règle.
Frapper( Paul, Jean, tête, règle)
Selon cette perspective, toute phrase simple s’articule autour d’un noyau prédicatif, expression
que viennent compléter un ou plusieurs arguments nominaux (Tesnière, Fillmore, Harris, Frege).
C’est le prédicat qui détermine le nombre de positions constitutives de la phrase:
Prédicat sous forme de verbes:
P(x) dormir x dort
P(x,y) regarder x regarde y
P(x,y,z) donner x donne y à z
Prédicat sous forme d’adjectifs:
Mortel (x) x est mortel
Content (x,y) x est content de y
Sous forme de substantifs prédicatifs que ceux-ci soient associés à
- des verbes (rêver/rêve)
- des adjectifs (bon/bonté),
qu’ils soient autonomes (aversion) :
Rêve (x) x fait un rêve (=x rêve)
Bonté (x) x est d’une grande bonté (= x est très bon)
Aversion (x,y) x a de l’aversion pour y
Encore faut-il, pour qu’il y ait phrase, que le prédicat soit actualisé. Si le verbe porte en lui -même
ses propres marques (temps, personne, aspect), l’adjectif et le nom, à l’inverse, doivent être
accompagnés d’un actualisateur externe :
c’est le rôle de « être » dans les constructions adjectivales (x est mortel) et celui des « verbes
supports » pour les prédicat nominaux (faire, avoir, être, permettent de « conjuguer »
respectivement, dans nos exemples, les prédicats rêve, aversion et bonté).
A la limite, un même contenu prédicatif est susceptible de développer les trois formes
simultanément, sans que la structure sémantique ni le schéma d’arguments soient modifiés:
Admir- (Ali, le courage de Laïla)
= Ali admire le courage de Laïla
= Ali est admiratif (pour + devant) le courage de Laïla
= Ali a de l’admiration pour le courage de Laïla
= Ali est en admiration devant le courage de Laïla
Relations hiérarchiques dans le cadre de la phrase
Nous avons déjà vu qu’une unité lexicale peut jouer le rôle de :
prédicat : Sami aime Rajae, Sami est amoureux de Rajae, Sami éprouve de l’amour envers
Rajae ;
d’argument : Salim a acheté une voiture ;
et d’actualisateur : Sami a pris une décision, Sami a une santé de fer.
Entre ces trois fonctions, il existe une hiérarchie, puisque les prédicats sont hiérarchiquement
supérieurs ; viennent ensuite les arguments dont l’apparition dépend du sens du prédicat. Enfin, les
actualisateurs sont de deux types : les actualisateurs du prédicat et les actualisateurs des arguments.
Les trois fonctions des mots n’étant pas exclusives, il est possible qu’une même unité lexicale
puisse être argument ou prédicat.
Prédicat et arguments : les mécanismes de recatégorisation structurelle
Nous nous intéressons aux cas où certains arguments élémentaires deviennent des prédicats.
Plusieurs mécanismes sont en jeu :
incorporation morphologique : à partir d’un argument élémentaire hôpital, on peut obtenir un
prédicat verbal en ajoutant un suffixe verbal –iser. Nous dirons que l’item lexical hôpital donne sa
matière au prédicat : hospitaliser. Ce verbe peut, par ailleurs, avoir un emploi adjectival comme dans
la phrase suivante :
Sami est hospitalisé à la Salpêtrière
Hospitalisé (Sami , Salpêtrière)
hôpital argument
hospitalisé prédicat
formation syntagmatique : qui opère la même recatégorisation que l’incorporation
morphologique de l’argument hôpital. Soit la phrase suivante :
Sami est à l’hôpital
Cette phrase a deux lectures : une lecture compositionnelle où c’est la préposition qui est
prédicative :
Sami se trouve à l’hôpital, et une lecture non compositionnelle où il s’agit d’un prédicat
adjectival figé :
Sami est à l’hôpital signifie dans ce cas que Sami est hospitalisé.
Inversement, des prédicats peuvent jouer le rôle d’arguments en changeant de sens et de fonction.
Prédicat / Argument
- Le ciel est bleu : le prédicat de <couleur> désigne un état transitoire.
- Les bleus l’ont remporté : l’adjectif de <couleur> n’est plus prédicats, il s’agit d’un
argument humain qui renvoie à l’équipe de France.
D’autres types de recatégorisation sont possibles : recatégorisation grammaticale :
Des déterminants deviennent des arguments
Luc a pris un verre de vin : dans cette phrase, verre a toutes les propriétés d’un déterminant.
Quand on supprime le nom du contenu vin, on obtient
Luc a pris un verre.