Vous êtes sur la page 1sur 12

La Cantine Nantes : Rdv de la Recherche #2

Traitement automatique des langues :


problématiques, réalisations et
objectifs

Fabien Poulard

fabien@fabienpoulard.info
http://www.fabienpoulard.info
Plan
➔ Mon parcours : du Bac au Doctorat

➔ Mon domaine de recherche : le TAL

➔ Problématiques et objectifs du TAL

➔ Réalisations concrètes pour l'industrie ?


Mon parcours : du Bac au Doctorat
Scolaire Extra-scolaire
● Baccalauréat ● Linux-Nantes
Scientifique ● Nantes-Wireless
● DEUG MIAS ● Fest'é preuves
(Math + Info) ● Contributions LL
● Licence Informatique diverses
● Évangélisme
● Patchs (gentoo...)
● Docs + Traductions
Mon parcours : du Bac au Doctorat
ISEP exchange student
● Ball State University (IN, USA)
● Master classes (2 missing for graduation)
● Software Engineering Research Center (SERC)
– Travail avec l'équipe de recherche du Pr W. Zage
– Software quality and Outsourcing
– Dev. GATE 2
Mon parcours : du Bac au Doctorat
● Master 2 à Nantes
● Systèmes d'aide à la décision
– Contraintes + Recherche opérationnelle
– Bioinformatique
– Traitement Automatique des Langues
● Stage au sein de l'équipe TALN
– Détection automatique de citations
– Projet ANR PIITHIE
(Plagiat et Impact de l'Information Textuelle recHerchée
dans un contexte InterlinguE)
Mon parcours : du Bac au Doctorat
● Thèse en 3 ans et demie
● Équipe TALN
● Encadré par Béatrice Daille et Nicolas Hernandez
● Intitulé initial : Détection de reprise de contenu
● Intitulé final: Détection de dérivation de texte
● Soutenue le 24 mars dernier
Mon domaine de recherche : le TAL
● TAL = Traitement Automatique des Langues
● Domaine issue de l'éclatement de l'IA
● Recoupement entre
– la linguistique,
– l'informatique,
– l'intelligence artificielle par sa composante
« apprentissage »
● Graal : test de Turing
– Comprendre les langages des humains
– Utiliser ces langages
Mon domaine de recherche : le TAL
● TAL = explorer le langage dans toute sa largeur :
● Ses modalités :
– Écriture : reconnaissance de l'écriture manuelle (statique
vs. dynamique) ou typographiée
– Texte numérisé
– Parole
– Langage des signes...
● Ses dimensions : lexique, syntaxe, sémantique,
discours, style...
● Ses ponts : traduction, synthèse, ...
Mon domaine de recherche : le TAL
● Deux grandes approches :
● Analyse linguistique fine → coûteux en temps
– Compilation de ressources lexicales
– Écriture manuelle de règles (FSM...)
● Analyse statistique → coûteux en ressources
– Apprentissage supervisé
– Apprentissage non-supervisé
– Renforcement
● Approches hybrides
Problématiques et objectifs du TAL
● Grands axes
● Traduction automatique
● Recherche d'information
● Extraction de connaissances
● Génération automatique
● Aide à l'écriture (correction orthographique,
syntaxique, stylistique...)
● Catégorisation de documents
● Ponts entre modalités (reconnaissance écriture,
parole...)
Problématiques et objectifs du TAL
● Axes de l'équipe TALN du LINA
● Extraction terminologique dans un contexte multilingue
● Analyse syntaxique par grammaires à dépendances
● Analyse du discours
● Extraction de connaissances dans un contexte
multimodal (parole + texte ou écriture + texte)
– Analyse d'opinions
– Rapprochement sémantiques
– Tours de parole
● QA
● Détection de dérivation de texte
Réalisations concrètes ?
● Google...
● Outils fiables pour la reconnaissance de la
parole et de l'écriture
● VisionObjects à Nantes
● Amélioration continue des outils d'aide à
l'écriture
● Cordial de Synapse Développement
● Outils de gestion documentaire (RI + analyse
sémantique)
● Nuxeo