Académique Documents
Professionnel Documents
Culture Documents
Form Ling Tal
Form Ling Tal
Marlet
1
Formalismes linguistiques
Traitement Automatique
des Langues
Renaud Marlet
LaBRI / INRIA
http://www.labri.fr/~marlet
Formalismes linguistiques – TAL © 2005 R. Marlet
2
1. Invention de l'écriture
– effets amplifiés par l'imprimerie
Qu'est-ce que :
– un ordinateur ?
– un microprocesseur ?
– un programme ?
– un langage de programmation ?
– une base de données ?
– un corpus électronique ?
– un traitement informatique de la langue ?
Formalismes linguistiques – TAL © 2005 R. Marlet
4
Dispositifs écran
de sortie
Ordinateur
réseau
(unité microprocesseur mémoire
centrale)
Dispositifs
clavier souris
d'entrée
Microprocesseur et mémoire
mémoire volatile
(rapide)
microprocesseur
(fait les calculs)
mémoire persistante
(lente)
[En réalité, la mémoire persistante (disque, disquette, CD-ROM, clé USB, etc.) est
un dispositif d'entrée et de sortie, mais cela importe peu pour le raisonnement]
Formalismes linguistiques – TAL © 2005 R. Marlet
6
Représentation d'informations
symboliques en mémoire (1)
●
Associer nombres et symboles
... 65 66 67 ... 97 98 92 ... 231 232 233 ...
... A B C ... a b c ... ç è é ...
●
Il existe des conventions standardisées
35721 65
●
Savoir interpréter :
– Un nombre ne « dit » pas s'il doit être interprété comme
nombre (sens propre) ou comme symbole (sens figuré)
– Il faut se souvenir du type de l'information stockée
Formalismes linguistiques – TAL © 2005 R. Marlet
9
Représentation d'informations
symboliques en mémoire (2)
●
Conventions pour représenter une succession de
symboles (ex. suite de lettres d'un mot)
– cases mémoire successives
– symbole terminateur ou longueur de la chaîne
Ex. mot « Bx3 », stocké à l'adresse 35721 et suivantes
... ... ... ...
35721 66 35721 3
66
35722 120 35722 120
66
35723 51 35723 120
51
35724 0 35724 51
0
... ... ... ...
Formalismes linguistiques – TAL © 2005 R. Marlet
10
Sauce Béchamel
Description par l'image
Formalismes linguistiques – TAL © 2005 R. Marlet
14
Sauce Béchamelle
(livre de cuisine de ma grand-mère)
La Béchamelle — est essentiellement une sauce
maigre ; on la prépare en faisant fondre dans une
casserole 30 gr. de beurre auquel, peu à peu, l'on
mélange quantité égale de farine en mouillant
également peu à peu avec un demi-litre de lait froid
bouilli, on aromatise avec sel, pincée de mignonnette,
bouquet garni, pointe de muscade, carotte coupée en
tranches minces, on tourne sans cesse jusqu'à ce que
la sauce bouille ; après dix minutes d'ébullition, à
grand feu et en remuant toujours, on supprime les
aromates. Si la sauce est parfaitement lisse, il est
inutile de la passer ; au cas contraire, on la passera
dans une passoire en tournant.
Formalismes linguistiques – TAL © 2005 R. Marlet
15
opération (instruction)
récipient (case) Sauce Béchamelle
produit (données)
condition (test)
contrôle (déroulement)
(de mémé)
La Béchamelle — est essentiellement une sauce
maigre ; on la prépare en faisant fondre dans une
casserole 30 gr. de beurre auquel, peu à peu, l'on
mélange quantité égale de farine en mouillant
également peu à peu avec un demi-litre de lait froid
bouilli, on aromatise avec sel, pincée de mignonnette,
bouquet garni, pointe de muscade, carotte coupée en
tranches minces, on tourne sans cesse jusqu'à ce que
la sauce bouille ; après dix minutes d'ébullition, à
grand feu et en remuant toujours, on supprime les
aromates. Si la sauce est parfaitement lisse, il est
inutile de la passer ; au cas contraire, on la passera
dans une passoire en tournant.
Formalismes linguistiques – TAL © 2005 R. Marlet
16
Sauce Béchamel
(mon livre de cuisine, plus moderne)
●
30 g. de farine
●
30 g. de beurre
●
1/3 l. de lait
●
Sel, poivre
●
Éventuellement noix de muscade
Faire fondre le beurre dans une petite casserole, y
ajouter la farine, faire chauffer jusqu'à ce que le
mélange mousse.
Ajouter, en remuant, le lait froid, continuer à tourner
jusqu'à ce que la sauce épaississe. Assaisonner.
Formalismes linguistiques – TAL © 2005 R. Marlet
17
Sauce Béchamel
(mon livre de cuisine, plus moderne)
●
30 g. de farine opération (instruction)
récipient (case)
●
30 g. de beurre produit (données)
condition (test)
●
1/3 l. de lait contrôle (déroulement)
●
Sel, poivre
●
Éventuellement noix de muscade
Faire fondre le beurre dans une petite casserole, y
ajouter la farine, faire chauffer jusqu'à ce que le
mélange mousse.
Ajouter, en remuant, le lait froid, continuer à tourner
jusqu'à ce que la sauce épaississe. Assaisonner.
Formalismes linguistiques – TAL © 2005 R. Marlet
18
●
La sauce Béchamel est utilisée dans plusieurs
recettes, en particulier les gratins (choux-fleurs,
endives, pâtes, ...)
●
En ce cas, la recette dit quelque chose comme :
– Napper de sauce Béchamel.
●
Cela signifie qu'il faut :
– sauter à la page de la sauce béchamel,
– la faire,
– et revenir au point où on en était dans la recette initiale
Formalismes linguistiques – TAL © 2005 R. Marlet
24
« Procédure » Sauce Béchamel
●
Nommage du programme (procédure) sauce Béchamel
pour une casserole données (passage d'argument) :
procedure sauce_Béchamel(Casserole)
1. Casserole ← Casserole + Beurre
...
10. end
●
Réutilisation de la procédure sauce_Béchamel dans le
programme gratin_de_pâtes :
1. Casserole_1 ← Casserole_1 + Eau + Pâtes
...
17. do sauce_Béchamel(Casserole_2)
18. Plat_à_four ← Plat_à_four + Casserole_2
...
Formalismes linguistiques – TAL © 2005 R. Marlet
25
Recette Programme
récipient case mémoire (à une certaine adresse)
produit donnée (contenu d'une case mémoire)
instruction instruction
Langages de programmation
de haut niveau
Des instructions sans référence directe à la mémoire
– Affectation de valeurs, opérations arithmétique
X ← 3 ; X ← X+1
– Contrôle de l'exécution
if condition then instructions ; do instructions until condition
Des données complexes
tableaux : tab[i+1] ← tab[i] + 1
structures de données composites
☛ Ils simplifient l'écriture de programmes
(par rapport au langage machine)
Formalismes linguistiques – TAL © 2005 R. Marlet
30
Différents paradigmes de
langages de programmation
●
Programmation impérative
– instructions qui modifient l'état de la mémoire
●
Programmation fonctionnelle
– définition par équations sans référence explicite à la
mémoire
●
Programmation logique
– expression de relations entre objets et recherches
de solutions satisfaisant une relation
Et aussi : programmation objet, réactive,
déclarative, parallèle, par aspects, etc.
Formalismes linguistiques – TAL © 2005 R. Marlet
31
●
C'est plus dur de multiplier les pains
Formalismes linguistiques – TAL © 2005 R. Marlet
32
●
cas d'un texte commençant par un espace,
35729 é comportant plusieurs espaces à la suite,
... ... terminant sans ponctuation, ...
Formalismes linguistiques – TAL © 2005 R. Marlet
34
●
Seconde guerre mondiale : premiers prototypes
de calculateurs utilisés en cryptographie
●
1949 : Warren Weaver (mathématicien) prétend
que la traduction automatique d'une langue
naturelle à une autre est faisable
Idée : la traduction est assimilable à du décryptage (!)
« Quand je vois un article en russe, je me dis que c'est
en fait un texte en anglais codé avec d'étranges
symboles. Je vais donc entreprendre de le décoder. »
☛ Approche naïve et simpliste (~ mot à mot)
Formalismes linguistiques – TAL © 2005 R. Marlet
36
●
1954 : premiers « traducteurs » automatiques
Double traduction célèbre d'un passage de l'évangile
(de l'anglais au russe puis à l'anglais) :
●
« l'esprit est ardent mais la chair est faible »
→ « l'alcool est fort mais la viande ne vaut rien »
●
Résultats plus que décevants mais efforts
poursuivis (généreux financement de dizaines
de groupes de recherche)
– Le contexte de la guerre froide fait accepter les
promesses abusives des chercheurs (rêve de
surveillance continue de l'URSS)
Formalismes linguistiques – TAL © 2005 R. Marlet
38
●
1960 : Y. Bar-Hillel (linguiste et logicien) tire la
sonnette d'alarme dans un rapport célèbre
– « le bois était dans la maison »
– bois : matériau ou lieu ?
– besoin de connaissances générales sur le monde
●
1965 : commission d'enquête (rapport ALPAC),
coup d'arrêt brutal au financement public et privé
de la recherche américaine (et ~ mondiale) dans
le domaine de la traduction automatique
Formalismes linguistiques – TAL © 2005 R. Marlet
39
●
Aujourd'hui :
– plusieurs niveaux de traduction selon la profondeur
d'analyse (éventuellement un peu sémantique)
L1 L2
●
Notion de langage pivot
langage
– langage conceptuel universel L6 pivot L3
– N langages → 2N traducteurs
L5 L4
– encore hors d'atteinte
●
Traduction par couple de langue L1 L2
Documentation automatique
●
Gérer l'immense masse des documents écrits
●
Processus d'automatisation depuis les années 50
– index de titres d'articles
– « phrases représentatives » sélectionnées selon la
fréquence de mots (ou co-occurrences) « importants »
(généralement : noms, verbes)
●
silence (non reconnaissance de passages importants)
●
bruit (fausses reconnaissances)
●
problèmes : mots polysémiques, importance des mots-outils
éliminés (négation), reconnaissance de paraphrases, ...
●
traduction en langages documentaires, aujourd'hui délaissés
Formalismes linguistiques – TAL © 2005 R. Marlet
41
●
Intelligence Artificielle (IA) : simulation par
l'ordinateur des activités intelligentes de
l'homme
– reconnaissance de formes (visuelles, sonores, ...)
– résolution de problèmes
– acquisition et utilisation des connaissances
– compréhension du langage naturel
●
Vaste champ de recherche né à la fin des
années 1940 aux USA (Marvin Minsky, etc.)
Formalismes linguistiques – TAL © 2005 R. Marlet
42
●
1964 : Eliza, célèbre programme développé au
labo d'IA du MIT (Joseph Weizenbaum)
●
Objectif : simuler une conversation en anglais avec
un interlocuteur humain
●
Programme bâti sur deux niveaux
– recherche de schémas d'expressions (pattern matching)
– invention de réponse plausible sur un thème
●
Doctor
– joue le rôle d'un psychothérapeute
Formalismes linguistiques – TAL © 2005 R. Marlet
43
●
Reconnaissance de mots clés
●
Si aucune séquence n'est reconnaissable,
envoyer une formule passe-partout, du genre
« pouvez-vous préciser votre pensée ? »
●
Eliza « marche » pourtant étonnamment bien
– pas de mise à l'épreuve de la réalité
– principe de « renvoi de la balle »
– simplicité mais efficacité du pattern matching
– mais limites visibles en prolongeant la conversation
Formalismes linguistiques – TAL © 2005 R. Marlet
45
Analyse syntaxique
●
Noam Chomsky, fin des années 1950
– recherche sur la syntaxe des langues naturelles en
s'appuyant sur les techniques pour langages formels
– notion de compétence linguistiques (partition : phrases
grammaticales / phrases agrammaticales)
●
Colourless green ideas sleep furiously
– mise en correspondance d'une structure profonde
avec une structure de surface
– grammaires non contextuelles (or hors contexte ; angl.
context-free grammars), très utilisées en informatique
= Essentiel de la recherche linguistique 1955-1970
Formalismes linguistiques – TAL © 2005 R. Marlet
46
Analyse sémantico-logique
●
Terry Winograd, début des années 1970,
système SHRDLU
●
Le monde des blocs : espace à 3 dimensions
contenant des objets simples
– parallélépipèdes, pyramides, cubes, de tailles et
couleurs diverses
●
Robot virtuel pour
les manipuler
Formalismes linguistiques – TAL © 2005 R. Marlet
47
Caractéristiques de SHRDLU
●
SHRDLU
– comprend « de même couleur » selon le contexte
– sait qu'il faut déplacer un objet pour en poser un autre à
la place
– est capable d'expliquer chacun de ses gestes
– peut donner à tout moment une description correcte de
son univers
●
Analyse non seulement syntaxique mais aussi
sémantique et logique
– En fait, l'analyse sémantique guide l'analyse syntaxique
Formalismes linguistiques – TAL © 2005 R. Marlet
49
●
Roger Schank, seconde moitié des années
1970
●
Observe que les humains se souviennent du
contenu informatif mais peu de la forme
→ réduction de l'importance de la syntaxe
→ traduction en représentations conceptuelles
Formalismes linguistiques – TAL © 2005 R. Marlet
50
●
1943 : W. McCulloch et W. Pitt, analogie entre
les neurones et les circuits électriques qui
accomplissent des fonctions logiques
●
1949 : D. Hebb, modèle neurologique du
fonctionnement de l'esprit
– réseau de neurones formels, dont on donne un
modèle mathématique
●
1958 : F. Rosenblatt, perceptron, réseau à trois
couches
– tâches de reconnaissance de forme et de classification
Formalismes linguistiques – TAL © 2005 R. Marlet
53
●
1969 : Minsky et Papert, limites du perceptron
→ désintérêt pendant une dizaine d'années
●
Fin des années 1970 :
– agglomérats multidimensionnels
– réseaux compétitifs (effets excitateurs et inhibiteurs)
●
Aujourd'hui
– adaptés à la reconnaissance de la parole (y compris
en milieu bruité), l'identification de caractères
manuscrits, et l'analyse morphologique
Formalismes linguistiques – TAL © 2005 R. Marlet
54
Ce qui a changé
avec les années 1990 (1)
Technologies
– Augmentation de la capacité des ordinateurs
●
puissance de calcul
●
mémoire
– Réseau
●
implantation mondiale
●
haut débit
– Nouveaux supports de communication
●
téléphone mobile, ordinateur portable, bornes interactives,
systèmes embarqués, ...
Formalismes linguistiques – TAL © 2005 R. Marlet
55
Ce qui a changé
avec les années 1990 (2)
Web
– Mise à disposition d'informations
●
documents électroniques
– Offre de services
●
sites interactifs, e-commerce, ...
Bureautique
– documents :
●
création, manipulation, recherche
– travail coopératif
●
échange de messages
Formalismes linguistiques – TAL © 2005 R. Marlet
56
Ce qui a changé
avec les années 1990 (3)
Linguistique informatique
– Modèles statistiques
●
indexation à grande échelle
●
analyse superficielle de textes
– Formalismes linguistiques mécanisables
●
développement de grammaires formelles réalistes
●
analyseurs syntaxiques de complexité raisonnable
– Disponibilité de gros corpus électroniques
●
mise au point des analyseurs
●
extraction des connaissances
Formalismes linguistiques – TAL © 2005 R. Marlet
57
Marché
– Monde : 1400 M€
●
représente environ 1/200 du marché du logiciel
●
à titre de comparaison : ~ 1/1000 du marché de l'automobile
– Europe : 510 M€
●
36% du marché mondial
●
dont 60% Royaume-Uni, France, Allemagne, Italie
– France : 77 M€
●
15% du marché européen
●
96 sociétés (ingénierie linguistique)
Formalismes linguistiques – TAL © 2005 R. Marlet
59
Offre
– traitement du texte (80%)
– traitement de la voix (20%)
Demande
– pharmacie et santé (36%)
– services, banques, assurances, finances (20%)
– public (15%)
– transport, tourisme (11%)
– ...
Formalismes linguistiques – TAL © 2005 R. Marlet
60
[*] Attention : chiffres en partie incohérents dans l'étude réalisée et rapportée ici
— il y a peu de telles études —, ne regarder que l'ordre de grandeur
Formalismes linguistiques – TAL © 2005 R. Marlet
62
●
Quelles applications du TAL connaissez-vous ?
– ...
– ...
– ...
●
De quelles applications rêvez-vous ?
– ...
– ...
– ...
Formalismes linguistiques – TAL © 2005 R. Marlet
63
Clients
– e-commerce
– traduction automatique et assistée
– support en ligne
– automates de reconnaissance et synthèse vocale
pour le support automatique par téléphone
– traitement automatique des mails
– constitution et interrogation de bases de
connaissances
– ...
Formalismes linguistiques – TAL © 2005 R. Marlet
65
Clients potentiels
– moteur de recherche
– aide à la recherche et la compréhension de
documents
– analyse de réponse à des enquêtes
– profiling
Environnement
– veille : technologique, concurrentielle, légale
(brevets) ...
Formalismes linguistiques – TAL © 2005 R. Marlet
66
Bureautique
– reconnaissance optique de caractères (OCR)
– correction orthographique et grammaticale
– résumé automatique
– traduction automatique ou assistée
– dictée vocale
Formalismes linguistiques – TAL © 2005 R. Marlet
67
Ambiguïtés
●
À chaque étape, des ambiguïtés sont possibles
– prends : 2ème ou 3ème personne ?
– car : substantif ou conjonction de coordination ?
– « la petite brise la glace »
– avocat : fruit ou juriste ?
– construction : processus ou résultat ?
– commencer un livre : lire ?, écrire ?, imprimer ?, ...
●
Syntaxe : jusqu'à plusieurs millions d'analyses
pour une phrase...
Formalismes linguistiques – TAL © 2005 R. Marlet
70
Standards
ISO TC 37
– Encodage des textes et caractères
– Structuration des textes (XML)
– Structurations des ressources linguistiques
●
morphologie, syntaxe, sémantique
●
terminologies mono- et multi-lingues
●
lexiques et dictionnaires
●
annotations de corpus
Formalismes linguistiques – TAL © 2005 R. Marlet
71
Technologie TAL
– recherche des documents par mots-clés
– analyse morpho-syntaxique des documents
– analyse sémantique (extraction de connaissance)
●
identification des entités : noms de personnes, noms de
compagnies, valeurs, dates, lieux, ...
●
reconnaissance des relations entre entité : relation
d'achat, de cause à effet entre deux sociétés, ...
Exemple : Portail
Problème :
– portail = contenu externe résultant de la surveillance de
milliers de sites
– besoin de fonctions de recherche « intelligentes »
Technologie TAL
– enrichissement de requête (synonymes)
– expansion à d'autres langues
– détection de la langue des documents (pour l'indexation)
– Ex. un recherche sur « machines agricoles » trouvera
des documents anglais parlant de « harvester »
Formalismes linguistiques – TAL © 2005 R. Marlet
74
Problème
– enquêtes client suite à un achat
– analyser les questions ouvertes
●
donner une vue synthétique
●
faire ressortir les points critiques
Technologie TAL
– analyse morpho-syntaxique et identification du
thème
– classification après un apprentissage sur un lot
représentatif
Formalismes linguistiques – TAL © 2005 R. Marlet
75
Problème
– permettre de lire rapidement un brevet pour identifier
s'il est pertinent ou non par rapport à une recherche
Technologie TAL
– collecte de formulations récurrentes et marqueurs
lexicaux qui introduisent des éléments rhétoriques
précis
– mise en exergue des passages-clés : objet du brevet,
aspects innovants, critiques des autres brevets, ...
Formalismes linguistiques – TAL © 2005 R. Marlet
76
Technologie TAL
– synonymie/dérivation
● Ex. tenue de sport → tenue sportive
● Ex. lecteur CD portable → baladeur CD
– transformer des requêtes en langue naturelle en
des requêtes de base de données (analyse
morpho-syntaxique et automates)
●
Ex. « pantalon noir en velours à moins de 60 euros »
– article : pantalon
– couleur : noir
– matière : velours
– prix : < 60 euros
Formalismes linguistiques – TAL © 2005 R. Marlet
78
Problème :
– produire et maintenir une documentation technique
– en plusieurs langues, adapté à diverses réglementations
→ mise en place d'une terminologie d'entreprise
Technologie TAL
– identification de la langue, lemmatisation, analyse et
désambiguïsation morpho-syntaxique
– extraction de terminologie multilingue (groupes
nominaux, ...)
Formalismes linguistiques – TAL © 2005 R. Marlet
79
Problème :
– gérer de gros volumes de candidatures (20.000 à
200.000 CV par an)
Technologie TAL
– reconnaissance optique de caractères (OCR)
– détection de la langue, du type de document (CV,
lettre de motivation)
– analyse morpho-syntaxique
– application d'étiquettes sémantiques à certains
types de lexiques
Formalismes linguistiques – TAL © 2005 R. Marlet
80
Et aussi...
●
Génération de textes (bulletins météo, ...)
●
Concordanciers
●
Phonétisation (ex. lecture de textes pour aveugles)
●
Accentuation automatique
●
Annotation multilingue (alignements de phrases, de mots)
●
Résumé par compréhension, par extraction
●
Traduction assistée
●
Dialogue homme-machine
●
...
Formalismes linguistiques – TAL © 2005 R. Marlet
82
Exemples :
– Analyse syntaxique
● locale (fenêtre d'analyse) → raisonnable, pas parfaite
– Traduction
●
automatique : encore médiocre
●
assistée : bons résultats
– Reconnaissance vocale
●
nécessite de nombreuses corrections
– Indexation
●
bons résultats
Formalismes linguistiques – TAL © 2005 R. Marlet
83
Bibliographie
●
La philosophie du langage, Sylvain Auroux, Presses
Universitaires de France, 1996 (chapitre 8)
●
Ingénierie des langues, sous la direction de Jean-Marie
Pierrel, Editions Hermes, 2000
●
Informatique et linguistique, Jean Véronis, Université de
Provence, 2001 (disponible sur le web, chapitres 1 à 5:
http://www.up.univ-mrs.fr/veronis/cours/INFZ18/)
●
Le traitement automatique des langues dans les
industries de l'information, Livre blanc, GRIIIL, Janvier
2005 (disponible sur le web:
http://www.apil.asso.fr/docs/LB_GRIIIL.pdf)