Tal1011 v1

TAL : théories et
applications
Amalia Todirascu
todiras@unistra.fr
Planning
● Séances de 3 heures
● 15.09, 22.09, 29.09, 06.10
● Enseignant: Amalia Todirascu todiras@unistra.fr
● Evaluation: dossier à rendre pour le 01
novembre au plus tard
2
Plan
● Introduction
● TAL: définition, historique
● TAL: applications
● Les étapes du traitement automatique
● Les ressources nécessaires
● Outils d'analyse morphologique
● Outils d'analyse syntaxique
● Ressources pour l'analyse syntaxique
3
Traitement automatique de langues
● Domaine qui a comme objectif le
développement des outils, des méthodes et des
ressources pour la compréhension des textes
● Un domaine de l'intelligence artificielle (aussi
ancien que l'informatique)
● Colloque de Dartmouth 1956 – première
conférence d'Intelligence artificielle
– les machines peuvent être intelligentes
● Raisonnement
● Représentation des connaissances
● Produire et comprendre des textes
4
TAL
●
Au carrefour de trois domaines : linguistique,
informatique, statistique
●
Mise en place des modèles linguistiques
●
Techniques informatiques d’analyse et de
génération automatique
●
Mise en place de ressources électroniques
– Dictionnaires électroniques
– Grammaires
– Bases de patrons
– Bases de connaissances
TAL - Historique
● Traduction automatique
● 1954 : traduction automatique russe-anglais
● BULL et IBM
● Systèmes de dialogue homme-machine
● SHRDLU (Winograd 1968) – l'utilisateur demandait
au système de deplacer des blocs sur une table
– Langage contrôlé, monde limité
● ELIZA (Weizenbaum 1966) – dialogue homme-
machine – paires de questions-réponses
● Analyse et génération automatique des textes
6
TAL – Historique (II)
● 1960 – 1980
● Travaux en linguistique Chomsky, Harris
● analyse automatique morphologique, syntaxique,
sémantique (Gazdar, Kay, Schank)
● Géneration automatique (Dale)
● Beaucoup de travaux sur l'anglais
● Années 1980 – systèmes experts, systèmes de
représentation de connaissances
● Essor de techniques d'intelligence artificielle
– Apprentissage automatique
7
TAL – Historique (III)
● Années 1990 – arrivée des technologies
réseaux et de numérisation des documents
● Volume important de données
● standardisation des formats de données
● Financements (DARPA,Communauté Européenne)
● Années 2000 – industrie des langues
● Outils de reconnaissance et de synthèse vocale
● Catégoriseurs/lemmatiseurs
● Applications en recherche d'information, extraction
d'information, traduction automatique et outils 8
d'aide à la traduction
TAL en France
● ATALA - L’Association pour l’étude et le
développement de la Traduction Automatique et
de la Linguistique Appliquée – 1959
● Groupe de traducteurs de l'UNESCO
● Axes de recherche
– Traduction automatique
– Statistique lexicale
– Linguistique appliquée
● Années 60: la crise dans le domaine de la
traduction automatique
– ATALA devient l’Association pour le Traitement 9
Automatique des Langues
TAL en France (II)
● Années 60-80
● Travaux en linguistique formelle (Catherine Fuchs,
Jean-Pierre Desclès, Jean Pitrat, Maurice Gross,
Antoine Culioli)
● Années 82-90 le déclin
● Années 90
● Essor des entreprises
● Formations en TAL
● Groupes de recherche interuniversitaire et
interaction avec d'autres communautés
10
TAL en France (III)
● 1965-1980: plus de préoccupations de
linguistique computationnelle : modèles
formels, logiques
● COLING = Computational Linguistics
● 1980- 1993 : emergence des thématiques
comme les systèmes experts, la représentation
de connaissances
● Années 1990 : Internet a renouvellé l'interet
pour les techniques de TAL
● Années 2000: industrialisation des techniques 11
de TAL
Plan
● Introduction
● TAL: définition, historique
● TAL: applications
● Les étapes du traitement automatique
● Les ressources nécessaires
● Outils d'analyse morphologique
● Outils d'analyse syntaxique
● Ressources pour l'analyse syntaxique
12
Applications TAL
● Moteurs de recherche mono et multilingues
● Indexation par groupes nominaux
● Indexation par thème
● Veille technologique
● Retrouver les documents qui parlent du même
sujet, personne, évenement
● Fouille d'opinions
● Dialogue homme-machine
● domaines limités
13
Applications TAL (II)
● Ressources pour la traduction assistée par
ordinateur ou pour la traduction automatique
● Mémoires de traduction (DGT-TM)
● Dictionnaires mono et multilingues
– Identifiés à base de corpus mono et multilingues
● Féderation de ressources pour la traduction
automatique
(http://cordis.europa.eu/fp7/ict/language-
technologies/portfolio_en.html)
– ITRANSLATE4
– EuroMatrixPlus
14
– FAUST
Applications TAL (III)
● Ressources pour la didactique des langues
● www.clarin.eu
● Web sémantique (http//:semanticweb.org)
● Génération automatique du contenu multilingue
ATLAS - Applied Techology for Language-Aided
CMS
● Construction d'ontologies
● Suivi des réseaux sociaux
15
Les phases du traitement
• La segmentation
• Le traitement au niveau lexical
• Analyse syntaxique
• Analyse sémantique
• Analyse pragmatique
• => une représentation du texte sous forme
de connaissances
Analyse automatique des textes
texte Traitement
segmentation
lexical
Représentation
Analyse Analyse
conceptuelle sémantique syntaxique
La segmentation
●
Découpage du texte en phrases
●
Séparateurs :. ,?!
●
Problèmes
– Ambiguïté des séparateurs (abbreviations etc.)
– Manque de séparateurs
●
Découpage de chaque phrase en unités
lexicales
●
Tokens : unité mono-lexicale ou polylexicale
●
Erreurs en cascade à cause d'une mauvaise
segmentation
Traitement lexical
● Être capable d'identifier pour chaque token
l'unité linguistique dotée de ses propres
caractéristiques
● Chevaux – nom, masc, sg, cheval
● Accès lexical direct si le lexique est assez
exhaustif
● Base de règles qui permettent d'identifier les
propriétés morphologiques et syntaxiques
Analyse syntaxique
● Syntaxe = étude des contraintes portant sur les
successions des formes qui doivent être prises
en compte pour chercher à décrire des phrases
grammaticalement correctes
● Grammaire
● Entrée : un texte étiquété avec les catégories
lexicales
● Problèmes avec les fautes d'orthographe
Analyse sémantique
● Identification du sens: un ensemble de
concepts et relations conceptuelles
● Base de connaissances contenant des
concepts et des relations
● Connaissances encyclopédiques
● Connaissances contextuelles
● Connaissances du domaine
Ressources nécessaires
● Segmentation
● liste des séparateurs
● Listes d'abbreviations
● Règles d'identification des numéros, monnaies etc.
● Traitement lexical
● Lexique
● Base de règles pour identifier les racines et les
terminaisons
Ressources nécessaires
● Analyse syntaxique
● Règles de grammaires
● Lexique ou texte étiquété et lemmatisé
● Analyse sémantique
● Dictionnaire conceptuel
● Ontologie
– Connaissances du domaine
– Connaissances génériques
● Base terminologique
Comment obtenir ces ressources?
● Développement manuel
● Coût important
● Vérification et correction manuelle
● Utilisation d'un modèle formel ou observations sur
un corpus pour proposer des règles
● Apprentissage automatique
● Présenter des textes annotés (plusieurs niveaux)
● Extraire les régularités et les définir comme règles
du système
Outils d'analyse morphologique
Mot et morphème
• Le morphème = l'unité la plus petite qui a un
signifié et un signifiant
• Le mot = est une unité complexe (peut y avoir
plusieurs mophèmes)
– Critères
• Segmentation de la phrase en mots
• Structure interne des mots
Segmentation des mots
• Délimitation du mot à l'ecrit: signe de
ponctuation, espace...
• Délimitation du mot à l'oral: pause, démarcatifs
phonologiques, phenomènes de liaison
• À l'écrit et à l'oral:
– Prononcer un mot isolé
– Séparer les mots en intercalant d'autres mots
– Echanger les mots
Analyse morphologique
• Analyser la structure interne du mot
• Morphologie flexionnelle et derivationnelle:
– À partir d'un mot fléchi, on identifie ses propriétés
morpho-syntaxiques
• Ex. suit : lemme: suivre, catégorie lexicale: verbe, mode:
infinitif
– A partir d'un lemme et de ses propriétés, on dérive
la forme fléchie du mot
• Ex. cheval+nombre:pluriel => chevaux
Morphologie flexionnelle et
dérivationnelle
• Flexion = variation de la forme des unités lexicales en
fonction de facteurs grammaticaux ; on distingue
traditionnellement la déclinaison (nom, adjectif, pronom) et
la conjugaison (verbe)
– Les morphèmes flexionnels n'affectent pas le sens
lexical
– En général placés à la péripherie des mots
– Pauvre phonétiquement
• Dérivation = formation d'unités lexicales nouvelles à partir
de matériel morphologique existant
Morphologie flexionnelle et
dérivationnelle
• Morphologie flexionnelle
– Entrée: la forme fléchie
– Sortie: la forme de base (lemme) et les propriétés
morpho-syntaxiques
• Morphologie dérivationnelle
– Entrée: le lemme et les propriétés de la forme qu'on
genere
– Sortie: la forme fléchie
Paradigme flexionnel
• Paradigme flexionnel = l'ensemble des formes fléchies d'une
même unité lexicale.
– Catégorie grammaticale (nombre, cas, temps, voix, mode,
personne)
– Nombre de valeurs/catégorie
• Exemples
– Pour le nom français: 2 valeurs pour nombre, 2 valeurs pour
genre
– Pour le verbe français: 6 valeurs pour personne, 8 valeurs
pour le mode et le temps
Paradigme flexionnel (II)
• Parfois tous les formes d'un paradigme
partagent un même lexeme (une forme de
base) + des suffixes
– Suffixes marqueurs du cas
– Suffixes qui changent une partie de la forme de
base
• Une ou plusieurs formes de base
– Le nom au singulier
– Le verbe au mode infinitif
Ressources linguistiques (I)
●
Dictionnaires de formes fléchies et leurs
propriétés morphosyntaxiques
●
exhaustivité
●
langue générale
●
Exemples
●
dictionnaire proposé par ABU
(http://abu.cnam.fr/DICO/mots-communs.html)
●
dictionnaire MORPHALU
(http://www.cnrtl.fr/lexiques/morphalou/)
Ressources linguistiques(II)
Classes flexionnelles
• Les classes qui partagent les même paradigme
flexionnel = classes flexionnelles
• Exemples:
– Les verbes du 1er groupe en français
– Les noms en anglais dont le pluriel est obtenu par
l'ajout d'un “s”
– Le noms en anglais dont le pluriel est identique au
singulier
Ressources linguistiques pour l'analyse
morphologique automatique
Base de terminaisons Lemmes et formes de base
travailler: v,travail, v1gr

v1gr: -e,-es,-e, v, travailler, v1grf
-ons, -ez, -ent prendre: v,prenn, v3grpl
v3grpl: -ons,-ez,-ent v,prends, v3grsg
nom1: -' ', -s v,prendr, v3grf
prennent
-' ' terminaison vide
Avantages et inconvénients
• Eviter les redondances dans le lexique
• Contexte de l'application:
– analyse/géneration automatique
– Création des corpus étiquetés
– La recherche d'information
• Mais: représentation complexe des formes
de base et des suffixes
• Une grande famille d'applications nécessite
seulement la catégorie lexicale et le lemme
Etiquettage
• Il s'agit d'associer à un mot une étiquette (la catégorie
lexicale et eventuellement le lemme)
• Le logiciel qui réalise cette tâche automatiquement =
un catégoriseur lexical
– Entrée: le corpus
– Sortie: les mots du corpus étiquetés
• Etiquettage demandée par les autres phases de
l'analyse
• Exemples: le catégoriseur de Eric Brill (Brill 1997), le
TreeTagger (Schmid 1994)
La phase d'entraînement
Corpus corrigé Corpus sans

manuellement étiquettes
Module Corpus étiqueté

d'apprentissage Etiquetteur
automatiquement
Mise à jours de la base de règles
ressources
ressources linguistiques linguistiques
TreeTagger
• Un catégoriseur qui a besoin des ressources:

– Un dictionnaire de suffixes
– Un dictionnaire de mots étiquetés avec leur probabilités
(phase d'apprentissage avec corpus annoté nécessaire)
– un dictionnaire par défaut
• Un arbre de décision qui est construit à base des
trigrams extraits des corpus
– Dans les feuilles on retrouve les catégories (et leurs
probabilités)
– Dans les noeds on retrouve les catégories des mots
précedents
Un arbre de décision
tag=ADJ?
non oui
tag=DET?
tag=NN?
non oui
tag=ADJ? NN=70%
ADJ=30%
TreeTagger (II)
●
ressources disponibles dans plusieurs langues: en, fr,
de
●
disponible pour Linux et Windows
●
capable de traiter des corpus de grande taille
●
http://www.ims.uni-
stuttgart.de/projekte/corplex/TreeTagger/
●
pour le lancer
D:\Mli07\Corpus\TreeTagger\bin\run_french.bat
●
ATTENTION! a verifier que le tagger_french.bat contient le
chemin d'acces où TreeTagger est installé
Problèmes
• la qualité de l'étiquetage depend du corpus

d'entraîennement
– validé manuellement
– qui couvre tous les genres (textes littéraire,
journaux, textes scientifiques etc.)
– correction possible avec un dictionnaire
• erreurs possibles propagées plus tard dans
la suite du traitement
Le catégoriseur Brill
• Eric Brill 1997

• “apprentissage” à partir d'un corpus étiqueté
manuellement
• Performances: très peu d'erreurs
• Identification de la catégorie lexicale mais
pas des lemmes
• Mots inconnus signalés
Exemple de jeu d'étiquettes
• NN – nom au
singulier • CD -cardinal
• DT – article • PRP – pronoun
• NNP – nom propre • IN – preposition
• NNS – nom au pluriel • VBZ – verbe
auxiliaire
• VB – verbe
• MD – verbe modal
• VBG - verbe+ing
• . - point
• CC - conjonction
La phase d'entraînement
Corpus étiqueté Corpus sans

manuellement étiquettes
Comparer et changer l'étiquette
Corpus étiqueté
Catégoriseur de Brill Brill init
automatiquement
Mise à jours de la base de règles
Base de règles Règles

contextuelles lexicales
Exemples de règles
• Règles lexicales
– NN s fhassuf 1 NNS x
– NN . fchar CD x
– NN - fchar JJ x
– NN ed fhassuf 2 VBN x
• Règles contextuelles
– NN VB PREVTAG TO
– VBP VB PREV1OR2OR3TAG MD
– NN VB PREV1OR2TAG MD
– VB NN PREV1OR2TAG DT
Exemples
• Les regles pour l'anglais LEXICALRULE et
CONTEXTRULE
• Exemples
– I saw a man in the park with the telescope .
– I/PRP saw/VBD a/DT man/NN in/IN the/DT park/NN
with/IN a/DT telescope/NN ./.
– I've took my car and ride to the harbour.
– I've/NNP took/VBD my/PRP$ car/NN and/CC
ride/VB to/TO the/DT harbour./CD
Références
• E.Brill Unsupervised Learning of Disambiguation Rules for Part of Speech
Tagging In Natural Language Processing Using Very Large Corpora.
Kluwer Academic Press.1997.
• E.Brill Some Advances In Rule-Based Part of Speech Tagging AAAI 1994
• F.Namer "Flemm : Un analyseur Flexionnel du Français à base de règles",
Traitement automatique des langues pour la recherche d'information, revue
T.A.L, (Ch. Jacquemin éd.), Paris, 2000
• H.Schmid "Probabilistic Part-of-Speech Tagging Using Decision Trees",
International Conference on New Methods in Language Processing, 1994

Tal1011 v1

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Tal1011 v1

Transféré par

Droits d'auteur :

Formats disponibles

TAL : théories et

Base de terminaisons Lemmes et formes de base

travailler: v,travail, v1gr

Corpus corrigé Corpus sans

Module Corpus étiqueté

Mise à jours de la base de règles

• Un catégoriseur qui a besoin des ressources:

• la qualité de l'étiquetage depend du corpus

• Eric Brill 1997

Corpus étiqueté Corpus sans

Comparer et changer l'étiquette

Mise à jours de la base de règles

Base de règles Règles

Vous aimerez peut-être aussi