Académique Documents
Professionnel Documents
Culture Documents
Thierry Hamon
hamon@limsi.fr
LIMSI-CNRS &
Institut Galilée - Université Paris 13
Ma recherche
Maı̂tre de conférences en Informatique à Paris 13
Recherche au Laboratoire d’Informatique et de Mécanisque
pour les Sciences de l’Ingénieur (LIMSI – Orsay)
Domaine : Traitement Automatique des Langues
appliqué aux domaines de spécialité (électricité, médecine,
risque chimique, etc.)
sur des textes en français, anglais, ukrainien, arabe
Proposition d’approches pour
Constitution et enrichissement de ressources terminologiques
Articulation d’outils de TAL
Extraction et recherche d’information
Type de données textuelles : bases bibliographiques,
documents techniques, dossiers patients, articles scientifiques,
forums de discussion, etc.
Développement d’outils en Perl (modules CPAN)
2/131 Repr. K & IA T Hamon
Introduction Historique Notions importantes Connaissance
Ma recherche
Ma recherche
Extraction et recherche d’information
Fouille de dossiers patients (en anglais) :
Identification des maladies, des médicaments et des traitements
mais aussi des relations entre eux et de leur niveau de certitude
[Grabar et Hamon 2009, Hamon et al. 2010, Prinet et al. 2011]
Fouille de données bibliographiques :
Collecte des facteurs de risque associés aux maladies
[Hamon et al. 2010]
Collecte ciblée de documents sur le Web [Gollub et al. 2007]
Intégration d’informations linguistiques dans le moteur de
recherche de l’intranet [Grabar et al. 2009]
Fouille de forums de discussion [Hamon et Gagnayre 2013]
Identifier des compétences requises par des programmes
d’éducation thérapeutique
Profilage des internautes (identification des informations
démographiques – en cours)
9 séances
Alternance de cours et de TD ou de TP
Travail en binôme
Pendant la plupart des séances : présentation d’articles
scientifiques en lien avec la représentation des connaissances
Présentation de 15 minutes en binôme
5/10 minutes de questions (par tout le monde)
Nombre de présentations en fonction du nombre de binômes
Evaluation
Présentation d’articles et questions posées
Projet final
Introduction
Introduction
Représentation des connaissances, Web sémantique et...
Traitement Automatique des Langues ?
Textes : Contiennent la plupart des connaissances produites
Accéder à ces connaissances : besoin d’analyser les textes
Connaissances existantes : guide pour l’analyse de textes
Communication ?
Représentations mentales des connaissances de l’émeteur et du
récepteur
Interaction : besoin de connaissances communes, d’inférence
Organisation des connaissances
Didactique ?
Transmettre des connaissances : besoin de bien les représenter
Représentation des connaissances : outil pour conceptualiser
Supports pédagogiques numériques : besoin d’une
formalisation des connaissances
7/131 Repr. K & IA T Hamon
Introduction Historique Notions importantes Connaissance
Connaissance
”It’s a key.”
Magritte, La Trahison des Images ”No. Much more better...It is a
drawing of a key.”
Recensement et
Structuration des connaissances
dans une représentation schématique
pour les rendre visibles, manipulables, compréhensibles,
communicables
(Paquette, 2002a)
On obtient un modèle de connaissances
Pourquoi faire ?
Plan
Introduction
Intelligence Artificielle (IA)
Historique de l’IA
Définitions
Notions importantes
Inférence
Codage des informations
Connaissances
Modèles de représentation de connaissance
Systèmes fondés sur la logique
Réseaux sémantiques
Les objets structurés : schémas et scripts
L’Intelligence Artificielle
Rechercher
Analyser, résoudre des problèmes, trouver des méthodes de
résolution
Représenter des connaissances
logique, règles, mémoire, cas, langue naturelle, etc.
Mettre en application les idées 1) et 2)
Systèmes Experts, Pilotes automatiques,
Planification, Data Mining,
Agents d’interfaces, fouille de texte, système de dialogue
Robots, avatars, chatbots, etc.
Rechercher
Analyser, résoudre des problèmes, trouver des méthodes de
résolution
Représenter des connaissances
logique, règles, mémoire, cas, langue naturelle, etc.
Mettre en application les idées 1) et 2)
Systèmes Experts, Pilotes automatiques,
Planification, Data Mining,
Agents d’interfaces, fouille de texte, système de dialogue
Robots, avatars, chatbots, etc.
On est loin du transparent précédent !
Historique
Décidabilité : définition
Décidabilité : problème
L’indécidabilité de l’arrêt
L’indécidabilité de l’arrêt
Décidabilité : problème
La machine de Turing
Turing a démontré
l’existence de machines qui pouvaient ne jamais s’arrêter de
calculer
machine universelle :
La machine de Turing
Défi technique
La prise de décision
Le Test de Turing
Naissance de l’IA
Les années 50
convergence des recherches sur ces problèmes
un réseau de recherche : A. Newell, J. C. Shaw, M. L. Minsky,
J. McCarthy, C. Shannon
1956 : l’organisation de la conférence du Dartmouth College
Le domaine a reçu le nom de IA [McCarthy, 1956]
IA : deux écoles
IA : deux écoles
Années 60-70
ELIZA
http://www-ai.ijs.si/eliza/eliza.html
https://www.pandorabots.com/pandora/talk?botid=
a847934aae3456cb
http://www.strout.net/info/science/ai/brian/
http://eliza.levillage.org/index.html
http://sboisse.free.fr/technique/info/eliza.php
https://elizia.net/
IA : définitions
Plusieurs définitions :
The building of computer programs which perform tasks
which are, for the moment, performed in a more satisfactory
way by humans because they require high level mental
processes such as : perception learning, memory organization
and critical reasoning. [Marvin Lee Minsky, 1956]
Son but est la création de programmes informatiques qui
puissent se comporter ou penser intelligemment [Gardner,
1993]
Chaque aspect de l’apprentissage ou toute autre
caractéristique de l’intelligence peut en principe être décrit
d’une façon suffisamment précise pour qu’une machine puisse
le simuler. [McCorduck, 1979]
IA : définition
[R.Kurzweil, 1990]
IA : définition
IA : définition
Lisp
1960, J. MacCarthy
Prolog
1973, A. Colmerauer
SmallTalk
1972, A. Kay, D. Ingals, T. Kaehler, A. Goldberg
JAVA
1994
C++ (1993), Scheme (1975), ...
Un champ pluri-disciplinaire
Informatique
systèmes, codage, ...
Linguistique
Psychologie
intelligence humaine, animale, développement
Ergonomie
analyse des tâches
Biologie, Statistique, Economie, Ethologie,
...
IA aujourd’hui
IA aujourd’hui
IA aujourd ’hui
Exemples d’application
IA aujourd’hui
automatiques de robot.
Prix Loebner
décerné aux chatbots qui satisfont au mieux les critères du
test de Turing
Exemples :
ELIZA (Weizenbaum, 1966)
ALICE (Wallace, 2000, 2001, 2004)
ELBOT
http://elbot_e.csoica.artificial-solutions.com/cgi-bin/elbot.cgi?START=normal%27,
%27elbot%27,%27width=425,height=650,scrollbars=no
Approche symbolique
sans se limiter à reproduire des phénomènes observables
Approche neuro-mimétique
en s’inspirant de la réalité biologique
en construisant des modèles biologiquement plausibles
Approche hybride neuro-symbolique
Approche symbolique
Approche neuro-mimétique
Recherche en IA
De nombreux aspects :
Représentation et Raisonnement
Ingénierie des Connaissances
Apprentissage Automatique
Reconnaissance des Formes, Vision
Robotique, Automatique
Traitement Automatique des Langues
Satisfaisabilité, Contraintes Sustainabiity
Interaction avec l’Humain : EIAH, IHM
Extraction et Gestion des Connaissances
Agents et Systèmes Multi-Agents
La recherche en IA en France
Quelques perspectives
Moyen terme :
Imitation du comportement humain non pas de l’humain
Deep Learning (une toute petite partie de l’IA)
Long terme :
Jonction inéluctable entre Big Data et IA
Ethique
Notions importantes
Inférence
Inférence
Inférence
But :
Générer de nouvelles phrases (np) vraies sachant que les
anciennes sont vraies
Les anciennes phrases sont stockées dans la base de
connaissance (knowledge Base/KB)
Une règle d’inférence ri permet soit :
de générer de nouvelles phrases np qui prétendent être la
conséquence sémantique de KB
de prétendre tester si une phrase np est la conséquence logique
ou non de KB
L’ensemble des dérivations élémentaires est appelé la preuve
Propositions : un énoncé
Une proposition a une valeur de vérité V ou F
Exemples :
La Rochelle est en Charente-Maritime (V)
La hauteur de la Tour Eiffel est inférieure à 300m
(F)
Connecteurs pour combiner les propositions
∧ ET
∨ OU
¬(NON)
→ (IMPLIQUE)
⇐⇒ (EQUIVALENT)
¬(¬A) équivaut à A
A → B équivaut à ¬A ∨ B
¬(A ∧ B) équivaut à ¬A ∨ ¬B
¬(A ∨ B) équivaut à ¬A ∧ ¬B
Les deux dernières équivalences sont les lois de De Morgan.
Distributivité
(A ∧ B) ∨ C équivaut à (A ∨ C ) ∧ (B ∨ C )
(A ∨ B) ∧ C équivaut à (A ∧ C ) ∨ (B ∧ C )
Commutativité
A ∧ B équivaut à B ∧ A
A ∨ B équivaut à B ∨ A
Associativité
A ∧ (B ∧ C ) équivaut à (A ∧ B) ∧ C
A ∨ (B ∨ C ) équivaut à (A ∨ B) ∨ C
Contraposée
A → B équivaut à ¬B → ¬A
Modus ponens
Si A et (A → B ) Alors on déduit B
Modus tollens
Si ¬B et (A → B) Alors on déduit ¬A
Enchaı̂nement
Si A → B et B → C alors on déduit A → C
Notions importantes
Axiomes
formules de départ
Théorèmes
formules dont il existe une démonstration
Démonstration
enchaı̂nement de dérivations (ou inférences)
Décidabilité
logique des proposition est décidable (il existe un procédé fini
permettant de décider si une formule est un théorème ou non)
Exemple et Limites
Exemple :
A : tout homme est mortel
B : Socrate est un homme
C : Socrate est mortel
Formule logique : A ∧ B → C
Exemple
Exemples :
personne, professeur, professeur RepKWS, nbCours
print, printf, afficheMessage, afficheMsg,
π, PI, e, g
liste synonymes.txt, connaissances.xml
P Représentation 1 :
Prédicat : le verbe
SN SV SN Punc
Arguments du prédicat :
Nom, nom propre
NP Verbe Art Nom .
Représentation 2 :
Prédicat : le groupe verbal
Socrate est un homme
Arguments du prédicat :
syntagme nominal
SN SV SP Punc SN SV SP Punc
la maison l’ université
Autre possibilité :
X = Arthur
Y = maison
seTrouve(X , Y )
Z = Sophie
T = Universit è
seTrouve(Z , T )
Unification
Appariement de clauses :
Logique des propositions : immédiat
Logique des prédicats : complexe car présence de variables
Bilan
Programmation logique
Exemple (2)
Logiques non-classiques
Connaissances
Quelques notions
Données :
Élément fondamental et objectif, qualitatif ou quantitatif
servant de base à un raisonnement ou à la réalisation des
traitements
Informations :
Ensemble de données non structurées et organisées pour
donner forme à un message résultant d’un contexte donné et
donc parfaitement subjectif.
La notion de connaissance
Connaissance
C = Connaissance Je suis à Orléans aujourd’hui
C = I · U avec I = Information Information assimilée
U = Utilisation
pour réaliser une action Je m’habille chaudement
I = Information
I = D · k avec D = Données Information La température est de 10o C
k = Contexte
Données mises en contexte à Orléans aujourd’hui
Données 10o C
Eléments bruts en
dehors de tout contexte
Exemple :
Si Tristan est le fils de Gilles alors il a probablement autour
de 30 ans de moins que lui, il porte le même nom de famille,
etc.
→ Propositions déduites et convoquées en fonction du contexte du
statut de la relation père- fils.
L’information doit rentrer en résonance avec les référentiels de
récepteur de l information.
La connaissance est caractérisée par sa propension à produire
de l information
La psychologie cognitive
La psychologie cognitive
La notion de connaissance
Problèmes
les modélisations de différentes formes de connaissances
leur stockage
leur utilisation
Types de connaissances
Types de connaissances
Connaissance ?
Connaissance ?
Représentation ?
Représentation ?
Représentation ?
Langage de représentation
Langages formels :
un alphabet : ensemble de symboles pas nécessairement réduit
à des caractères
un procédé de formation des expressions, pas nécessairement la
concaténation
un ensemble d’axiomes :
des expressions obéissant aux deux premiers points ci-dessus
dont on décide arbitrairement qu’ils appartiennent au système
des règles de dérivation qui, à partir des axiomes,
permettent de produire des théorèmes (c’est-à-dire des
expressions appartenant au système),
et peuvent ensuite s’appliquer aux théorèmes pour en produire
d’autres
Langage de représentation
Réseaux Sémantiques
Les objets structurés : schémas et scripts
Web sémantique
Ontologies
A suivre...
Bilan
Traitement
Automatique
des Langues
Cartes conceptuelles
(cartes topiques/topic maps/cartes conceptuelles, cartes mentales,
cartes heuristiques, etc.)
(Buzin, 1971)
Outil très général de représentation des connaissances
Agrégation des informations disponibles autour d’un thème
(aussi, point d’indexation, le topic)
Mise en relation des informations dans un réseau sémantique
à l’aide d’association
Standard ISO avec une syntaxe XML (XTM)
ISO/IEC 13250 :2003 – Topic Maps
gestion distribuée de l’information et de la connaissance
Langage de requêtes des cartes conceptuelles (TMQL)
http://www.topicmaps.org/
Introduction
Objectifs :
Gérer la surabondance d’informations
Construire des réseaux de connaissances sur n’importe quelles
ressources
Structurer l’information
Introduction
Introduction
Introduction
3 notions primitives :
1. sujet (Topic/concept) i.e. individus des langages de
représentation de connaissances
nom donné aux concepts.
Possibilités :
plusieurs noms pour le même concept
Définition de cartes conceptuelles multilingues
noms partagés par plusieurs concepts
2. Association : mise en relation de concepts, permet la
navigation dans le sujet
3. Occurrences : entité externe pouvant être indexée par les
topics
Ressource associée à un concept (URL, livre, image, etc.)
Introduction
Mais aussi :
Portée : spécification du contexte dans lequel une relation est
valide
Facette : prise en compte d’un aspect particulier (sorte de
filtrage)
Représentations
Applications générales
Applications
Règles de conception :
Un concept de plus haut niveau (concept central)
Les concepts généraux sont placés en haut. Les concepts
spécifiques sont placés plus bas
Les concepts sont représentés dans des formes spécifiques
avec un nom à l’intérieur
Les flêches orientées (−→) représente les liens. Un mot est
associé à chaque lien.
Exemple (1)
Exemple (2)
Exemple (3)
Mise en relation des concepts
Avantages :
Mode de représentation naturel
Possibilité de représentation graphique des ontologies
Inconvénients :
Pas de sémantique claire (pas de sémantique formelle)
Utilisation de n’importe quel type de concept et de relation
On privilégie la richesse du langage et les interprétations
multiples
Hamon (Thierry), Graña (Martin), Raggio (Vı́ctor), Grabar (Natalia) et Naya (Hugo). –
Identification of relations between risk factors and their pathologies or health conditions by mining scientific
literature. In : Proceedings of MEDINFO 2010, pp. 964–968. –
PMID : 20841827.
Hamon (Thierry), Engström (Christopher) et Silvestrov (Sergei). –
Term ranking adaptation to the domain : genetic algorithm based optimisation of the C-Value. In :
Proceedings of PolTAL 2014 – Advances in Natural Language Processing, éd. par Springer , pp. 71–83.
Hamon (Thierry), Nazarenko (Adeline), Poibeau (Thierry), Aubin (Sophie) et Derivière (Julien). –
A Robust Linguistic Platform for Efficient and Domain specific Web Content Analysis. In : Proceedings of
RIAO 2007. –
Pittsburgh, USA, 2007. 15 pages.
Neifar (Wafa), Hamon (Thierry), Zweigenbaum (Pierre), Khemakhem (Mariem Ellouze) et Belguith
(Lamia Hadrich). –
Adaptation of a Term Extractor to Arabic Specialised Texts : First Experiments and Limits. In :
Proceedings of the 17th International Conference on Intelligent Text Processing and Computational
Linguistics (CICLING2016), éd. par Springer .
Hamon (Thierry). –
Rapport de Stage à l’UQAM - 19 juin - 21 juillet 2000, octobre 2000.
Hamon (Thierry). –
131/131 Repr. K & IA T Hamon
Introduction Historique Notions importantes Connaissance
Hamon (Thierry). –
Acquisition terminologique pour identifier les mots clés d’articles scientifiques. In : Actes de l’atelier DEFT
2012, pp. 25–31. –
Grenoble, France, Juin 2012.