Vous êtes sur la page 1sur 48

TAL : théories et

applications
Amalia Todirascu
todiras@unistra.fr
Planning
● Séances de 3 heures
● 15.09, 22.09, 29.09, 06.10
● Enseignant: Amalia Todirascu todiras@unistra.fr
● Evaluation: dossier à rendre pour le 01
novembre au plus tard

2
Plan
● Introduction
● TAL: définition, historique
● TAL: applications
● Les étapes du traitement automatique
● Les ressources nécessaires
● Outils d'analyse morphologique
● Outils d'analyse syntaxique
● Ressources pour l'analyse syntaxique

3
Traitement automatique de langues
● Domaine qui a comme objectif le
développement des outils, des méthodes et des
ressources pour la compréhension des textes
● Un domaine de l'intelligence artificielle (aussi
ancien que l'informatique)
● Colloque de Dartmouth 1956 – première
conférence d'Intelligence artificielle
– les machines peuvent être intelligentes
● Raisonnement
● Représentation des connaissances
● Produire et comprendre des textes
4
TAL

Au carrefour de trois domaines : linguistique,
informatique, statistique

Mise en place des modèles linguistiques

Techniques informatiques d’analyse et de
génération automatique

Mise en place de ressources électroniques
– Dictionnaires électroniques
– Grammaires
– Bases de patrons
– Bases de connaissances
TAL - Historique
● Traduction automatique
● 1954 : traduction automatique russe-anglais
● BULL et IBM
● Systèmes de dialogue homme-machine
● SHRDLU (Winograd 1968) – l'utilisateur demandait
au système de deplacer des blocs sur une table
– Langage contrôlé, monde limité
● ELIZA (Weizenbaum 1966) – dialogue homme-
machine – paires de questions-réponses
● Analyse et génération automatique des textes
6
TAL – Historique (II)
● 1960 – 1980
● Travaux en linguistique Chomsky, Harris
● analyse automatique morphologique, syntaxique,
sémantique (Gazdar, Kay, Schank)
● Géneration automatique (Dale)
● Beaucoup de travaux sur l'anglais
● Années 1980 – systèmes experts, systèmes de
représentation de connaissances
● Essor de techniques d'intelligence artificielle
– Apprentissage automatique
7
TAL – Historique (III)
● Années 1990 – arrivée des technologies
réseaux et de numérisation des documents
● Volume important de données
● standardisation des formats de données
● Financements (DARPA,Communauté Européenne)
● Années 2000 – industrie des langues
● Outils de reconnaissance et de synthèse vocale
● Catégoriseurs/lemmatiseurs
● Applications en recherche d'information, extraction
d'information, traduction automatique et outils 8
d'aide à la traduction
TAL en France
● ATALA - L’Association pour l’étude et le
développement de la Traduction Automatique et
de la Linguistique Appliquée – 1959
● Groupe de traducteurs de l'UNESCO
● Axes de recherche
– Traduction automatique
– Statistique lexicale
– Linguistique appliquée
● Années 60: la crise dans le domaine de la
traduction automatique
– ATALA devient l’Association pour le Traitement 9
Automatique des Langues
TAL en France (II)
● Années 60-80
● Travaux en linguistique formelle (Catherine Fuchs,
Jean-Pierre Desclès, Jean Pitrat, Maurice Gross,
Antoine Culioli)
● Années 82-90 le déclin
● Années 90
● Essor des entreprises
● Formations en TAL
● Groupes de recherche interuniversitaire et
interaction avec d'autres communautés
10
TAL en France (III)
● 1965-1980: plus de préoccupations de
linguistique computationnelle : modèles
formels, logiques
● COLING = Computational Linguistics
● 1980- 1993 : emergence des thématiques
comme les systèmes experts, la représentation
de connaissances
● Années 1990 : Internet a renouvellé l'interet
pour les techniques de TAL
● Années 2000: industrialisation des techniques 11
de TAL
Plan
● Introduction
● TAL: définition, historique
● TAL: applications
● Les étapes du traitement automatique
● Les ressources nécessaires
● Outils d'analyse morphologique
● Outils d'analyse syntaxique
● Ressources pour l'analyse syntaxique

12
Applications TAL
● Moteurs de recherche mono et multilingues
● Indexation par groupes nominaux
● Indexation par thème
● Veille technologique
● Retrouver les documents qui parlent du même
sujet, personne, évenement
● Fouille d'opinions
● Dialogue homme-machine
● domaines limités
13
Applications TAL (II)
● Ressources pour la traduction assistée par
ordinateur ou pour la traduction automatique
● Mémoires de traduction (DGT-TM)
● Dictionnaires mono et multilingues
– Identifiés à base de corpus mono et multilingues
● Féderation de ressources pour la traduction
automatique
(http://cordis.europa.eu/fp7/ict/language-
technologies/portfolio_en.html)
– ITRANSLATE4
– EuroMatrixPlus
14
– FAUST
Applications TAL (III)
● Ressources pour la didactique des langues
● www.clarin.eu
● Web sémantique (http//:semanticweb.org)
● Génération automatique du contenu multilingue
ATLAS - Applied Techology for Language-Aided
CMS
● Construction d'ontologies
● Suivi des réseaux sociaux

15
Les phases du traitement
• La segmentation
• Le traitement au niveau lexical
• Analyse syntaxique
• Analyse sémantique
• Analyse pragmatique
• => une représentation du texte sous forme
de connaissances
Analyse automatique des textes

texte Traitement
segmentation
lexical

Représentation
Analyse Analyse
conceptuelle sémantique syntaxique
La segmentation

Découpage du texte en phrases

Séparateurs :. ,?!

Problèmes
– Ambiguïté des séparateurs (abbreviations etc.)
– Manque de séparateurs

Découpage de chaque phrase en unités
lexicales

Tokens : unité mono-lexicale ou polylexicale

Erreurs en cascade à cause d'une mauvaise
segmentation
Traitement lexical
● Être capable d'identifier pour chaque token
l'unité linguistique dotée de ses propres
caractéristiques
● Chevaux – nom, masc, sg, cheval
● Accès lexical direct si le lexique est assez
exhaustif
● Base de règles qui permettent d'identifier les
propriétés morphologiques et syntaxiques
Analyse syntaxique
● Syntaxe = étude des contraintes portant sur les
successions des formes qui doivent être prises
en compte pour chercher à décrire des phrases
grammaticalement correctes
● Grammaire
● Entrée : un texte étiquété avec les catégories
lexicales
● Problèmes avec les fautes d'orthographe
Analyse sémantique
● Identification du sens: un ensemble de
concepts et relations conceptuelles
● Base de connaissances contenant des
concepts et des relations
● Connaissances encyclopédiques
● Connaissances contextuelles
● Connaissances du domaine
Ressources nécessaires
● Segmentation
● liste des séparateurs
● Listes d'abbreviations
● Règles d'identification des numéros, monnaies etc.
● Traitement lexical
● Lexique
● Base de règles pour identifier les racines et les
terminaisons
Ressources nécessaires
● Analyse syntaxique
● Règles de grammaires
● Lexique ou texte étiquété et lemmatisé
● Analyse sémantique
● Dictionnaire conceptuel
● Ontologie
– Connaissances du domaine
– Connaissances génériques
● Base terminologique
Comment obtenir ces ressources?
● Développement manuel
● Coût important
● Vérification et correction manuelle
● Utilisation d'un modèle formel ou observations sur
un corpus pour proposer des règles
● Apprentissage automatique
● Présenter des textes annotés (plusieurs niveaux)
● Extraire les régularités et les définir comme règles
du système
Outils d'analyse morphologique
Mot et morphème
• Le morphème = l'unité la plus petite qui a un
signifié et un signifiant
• Le mot = est une unité complexe (peut y avoir
plusieurs mophèmes)
– Critères
• Segmentation de la phrase en mots
• Structure interne des mots
Segmentation des mots
• Délimitation du mot à l'ecrit: signe de
ponctuation, espace...
• Délimitation du mot à l'oral: pause, démarcatifs
phonologiques, phenomènes de liaison
• À l'écrit et à l'oral:
– Prononcer un mot isolé
– Séparer les mots en intercalant d'autres mots
– Echanger les mots
Analyse morphologique
• Analyser la structure interne du mot
• Morphologie flexionnelle et derivationnelle:
– À partir d'un mot fléchi, on identifie ses propriétés
morpho-syntaxiques
• Ex. suit : lemme: suivre, catégorie lexicale: verbe, mode:
infinitif
– A partir d'un lemme et de ses propriétés, on dérive
la forme fléchie du mot
• Ex. cheval+nombre:pluriel => chevaux
Morphologie flexionnelle et
dérivationnelle
• Flexion = variation de la forme des unités lexicales en
fonction de facteurs grammaticaux ; on distingue
traditionnellement la déclinaison (nom, adjectif, pronom) et
la conjugaison (verbe)
– Les morphèmes flexionnels n'affectent pas le sens
lexical
– En général placés à la péripherie des mots
– Pauvre phonétiquement
• Dérivation = formation d'unités lexicales nouvelles à partir
de matériel morphologique existant
Morphologie flexionnelle et
dérivationnelle
• Morphologie flexionnelle
– Entrée: la forme fléchie
– Sortie: la forme de base (lemme) et les propriétés
morpho-syntaxiques
• Morphologie dérivationnelle
– Entrée: le lemme et les propriétés de la forme qu'on
genere
– Sortie: la forme fléchie
Paradigme flexionnel
• Paradigme flexionnel = l'ensemble des formes fléchies d'une
même unité lexicale.
– Catégorie grammaticale (nombre, cas, temps, voix, mode,
personne)
– Nombre de valeurs/catégorie
• Exemples
– Pour le nom français: 2 valeurs pour nombre, 2 valeurs pour
genre
– Pour le verbe français: 6 valeurs pour personne, 8 valeurs
pour le mode et le temps
Paradigme flexionnel (II)
• Parfois tous les formes d'un paradigme
partagent un même lexeme (une forme de
base) + des suffixes
– Suffixes marqueurs du cas
– Suffixes qui changent une partie de la forme de
base
• Une ou plusieurs formes de base
– Le nom au singulier
– Le verbe au mode infinitif
Ressources linguistiques (I)

Dictionnaires de formes fléchies et leurs
propriétés morphosyntaxiques

exhaustivité

langue générale

Exemples

dictionnaire proposé par ABU
(http://abu.cnam.fr/DICO/mots-communs.html)

dictionnaire MORPHALU
(http://www.cnrtl.fr/lexiques/morphalou/)
Ressources linguistiques(II)
Classes flexionnelles
• Les classes qui partagent les même paradigme
flexionnel = classes flexionnelles
• Exemples:
– Les verbes du 1er groupe en français
– Les noms en anglais dont le pluriel est obtenu par
l'ajout d'un “s”
– Le noms en anglais dont le pluriel est identique au
singulier
Ressources linguistiques pour l'analyse
morphologique automatique

Base de terminaisons Lemmes et formes de base

travailler: v,travail, v1gr


v1gr: -e,-es,-e, v, travailler, v1grf
-ons, -ez, -ent prendre: v,prenn, v3grpl
v3grpl: -ons,-ez,-ent v,prends, v3grsg
nom1: -' ', -s v,prendr, v3grf

prennent
-' ' terminaison vide
Avantages et inconvénients
• Eviter les redondances dans le lexique
• Contexte de l'application:
– analyse/géneration automatique
– Création des corpus étiquetés
– La recherche d'information
• Mais: représentation complexe des formes
de base et des suffixes
• Une grande famille d'applications nécessite
seulement la catégorie lexicale et le lemme
Etiquettage
• Il s'agit d'associer à un mot une étiquette (la catégorie
lexicale et eventuellement le lemme)
• Le logiciel qui réalise cette tâche automatiquement =
un catégoriseur lexical
– Entrée: le corpus
– Sortie: les mots du corpus étiquetés
• Etiquettage demandée par les autres phases de
l'analyse
• Exemples: le catégoriseur de Eric Brill (Brill 1997), le
TreeTagger (Schmid 1994)
La phase d'entraînement

Corpus corrigé Corpus sans


manuellement étiquettes

Module Corpus étiqueté


d'apprentissage Etiquetteur
automatiquement

Mise à jours de la base de règles

ressources
ressources linguistiques linguistiques
TreeTagger

• Un catégoriseur qui a besoin des ressources:


– Un dictionnaire de suffixes
– Un dictionnaire de mots étiquetés avec leur probabilités
(phase d'apprentissage avec corpus annoté nécessaire)
– un dictionnaire par défaut
• Un arbre de décision qui est construit à base des
trigrams extraits des corpus
– Dans les feuilles on retrouve les catégories (et leurs
probabilités)
– Dans les noeds on retrouve les catégories des mots
précedents
Un arbre de décision

tag=ADJ?

non oui

tag=DET?
tag=NN?

non oui

tag=ADJ? NN=70%
ADJ=30%
TreeTagger (II)

ressources disponibles dans plusieurs langues: en, fr,
de

disponible pour Linux et Windows

capable de traiter des corpus de grande taille

http://www.ims.uni-
stuttgart.de/projekte/corplex/TreeTagger/

pour le lancer
D:\Mli07\Corpus\TreeTagger\bin\run_french.bat

ATTENTION! a verifier que le tagger_french.bat contient le
chemin d'acces où TreeTagger est installé
Problèmes

• la qualité de l'étiquetage depend du corpus


d'entraîennement
– validé manuellement
– qui couvre tous les genres (textes littéraire,
journaux, textes scientifiques etc.)
– correction possible avec un dictionnaire
• erreurs possibles propagées plus tard dans
la suite du traitement
Le catégoriseur Brill

• Eric Brill 1997


• “apprentissage” à partir d'un corpus étiqueté
manuellement
• Performances: très peu d'erreurs
• Identification de la catégorie lexicale mais
pas des lemmes
• Mots inconnus signalés
Exemple de jeu d'étiquettes
• NN – nom au
singulier • CD -cardinal
• DT – article • PRP – pronoun
• NNP – nom propre • IN – preposition
• NNS – nom au pluriel • VBZ – verbe
auxiliaire
• VB – verbe
• MD – verbe modal
• VBG - verbe+ing
• . - point
• CC - conjonction
La phase d'entraînement

Corpus étiqueté Corpus sans


manuellement étiquettes

Comparer et changer l'étiquette

Corpus étiqueté
Catégoriseur de Brill Brill init
automatiquement

Mise à jours de la base de règles

Base de règles Règles


contextuelles lexicales
Exemples de règles

• Règles lexicales
– NN s fhassuf 1 NNS x
– NN . fchar CD x
– NN - fchar JJ x
– NN ed fhassuf 2 VBN x
• Règles contextuelles
– NN VB PREVTAG TO
– VBP VB PREV1OR2OR3TAG MD
– NN VB PREV1OR2TAG MD
– VB NN PREV1OR2TAG DT
Exemples
• Les regles pour l'anglais LEXICALRULE et
CONTEXTRULE
• Exemples
– I saw a man in the park with the telescope .
– I/PRP saw/VBD a/DT man/NN in/IN the/DT park/NN
with/IN a/DT telescope/NN ./.
– I've took my car and ride to the harbour.
– I've/NNP took/VBD my/PRP$ car/NN and/CC
ride/VB to/TO the/DT harbour./CD
Références
• E.Brill Unsupervised Learning of Disambiguation Rules for Part of Speech
Tagging In Natural Language Processing Using Very Large Corpora.
Kluwer Academic Press.1997.
• E.Brill Some Advances In Rule-Based Part of Speech Tagging AAAI 1994
• F.Namer "Flemm : Un analyseur Flexionnel du Français à base de règles",
Traitement automatique des langues pour la recherche d'information, revue
T.A.L, (Ch. Jacquemin éd.), Paris, 2000
• H.Schmid "Probabilistic Part-of-Speech Tagging Using Decision Trees",
International Conference on New Methods in Language Processing, 1994

Vous aimerez peut-être aussi