Vous êtes sur la page 1sur 138

Lappren tissage

M ach in e / Au tomatiqu e / Artificiel

Gilles BISSON
Equipe Apprentissage - LEIBNIZ
Gilles.Bisson@imag.fr

Le domaine de lintelligence artificielle


Les principes de lapprentissage
Lapprentissage de concepts (arbres de dcision, clauses)
Le raisonnement par analogie (IBL, CBR ...)
Les algorithme gntiques
La classification automatique
Applications

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 1


IA : lIntelligence Artificielle

Comment dfinir lIA? (Russel, Norvig 03)

Rfrences
Humanit Rationalit
Lautomatisation des activits que nous associons L'tude des mthodes qui rendent possible la
la pense humaine, telles la dcision, la rsolution perception, le raisonnement et l'action
de problme, l'apprentissage (Bellman 1978) (Winston 1992)
Penser

Cognitif Logique
Comprhension du fonctionnement Reprsentation des connaissances
de lintelligence et des raisonnements
Modlisation et simulation des Conception de langages et de
Objectifs

processus mentaux systmes formels


L'tude de comment faire raliser des Le champ de l'tude qui cherche expliquer et
ordinateurs des tches que pour l'instant les gens simuler un comportement intelligent en termes de
font mieux (Rich et Knight 1991) processus computationnels (Schalkoff 1990)
Agir

Utopique Pragmatique
Reproduction In silico de Mise en uvre de comportements
lintelligence humaine rationnels en rsolution de pb.
Vers la ralisation dune machine Ralisation de systmes (ou agents)
intelligente (HAL ...) intelligents ralisant un objectif
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 2
Les domaines de lIA

Quelques exemples dutilisations et les disciplines relevants de lIA

Traduction automatique Traitement du langage naturel


Linguistique,
Recherche dinfos sur WWW
Perception par ordinateur
Programmation de jeux Traitement du signal,
Vhicule autonomes Robotique
Mcanique,
Surveillance (rseaux, camra,) Reprsentation des connaissances
Interfaces homme/machine Logique des propositions/prdicats
Rseaux baysiens
Assistant personnel (PDA) Multi-agents
Traitement des connaissances
Systmes experts Recherche dans un espace dtats
(Mdecine, industrie, ATC, ...) Mthodes dinfrences
Programmation par contraintes
Contrle de processus Optimisation, Planification,
Dcouverte dans les BD (KDD) Apprentissage des connaissances
Arbre de dcisions
Mmoire dentreprise Rseaux de neurones, SVM
Logique inductive (ILP),

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 3
Cerveaux / Ordinateurs en 2005

En nombre dinstructions/s (cf. JP Delahaye 03)

On peut valuer: 1 instruction machine = 105 oprations binaires (AND, OR)


Puissance d'une console (PlayStation2) : 5.108 i/s
Puissance d'un micro-ordinateur en 2003 : entre 109 i/s et 1010 i/s
Deep-BLue (IBM USA, a battu Kasparov) : 1012 i/s
Virginia Tech (Mac System X) : 1013 i/s (12 Tflop)
Earth Simulator NEC Japon : 1013 i/s (40 Tflop)
Blue Gene IBM USA : 2.10^14 i/s (90180360 Tflop)
Et pour se tenir jour voir: http://www.top500.org/

Et le cerveau humain?

Architectures diffrentes: Squentiel / Parallle | Numrique/ Analogique


Evaluation propose par N. Bostrom
- Environ 1011 neurones ; 5000 synapses ; 100 dcharges par seconde ;
- Chaque signal porte approximativement 5 bits d'information ;
- Donc 1018 oprations binaires par seconde, soit : 1013 i/s
Evaluation propose par R. Merkle
- Consommation d'nergie (Cerveau 10 Watt) : [1013 .. 1016 ] i/s
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 4
Temps de calcul et complexit

Mieux vaut travailler bien que vite!

Pour un ordinateur (rapide) capable de traiter 1010 i/s


Soit une fonction f(x) dont le calcul seffectue en 10 instructions

N=10 N=20 N=100 N=1000 Exemple prob.


(X 2) (X 5) (X 10)

O(N) 10 ns 20 ns 100 ns 1 s Planarit dun graphe

O(N2) 100 ns 0,4 s 10 s 1 ms Comp. Connexes

O(N3) 1 s 8 s 1 ms 1s Flt maximum

O(N4) 10 s 160 s 100 ms 17 minutes


O(2N) 1 s 1 ms 400 1012 ans 3283 ans Jeu de taquin

O(N! ) 360 s 7 ans 10143 ans 12550 ans Voyageur Commerce

O(NN) 10 s 330 106 ans 3182 ans 13000 ans Cliques

Certains problmes ne pourront donc jamais tre traits de manire exacte


mais de manire heuristique : 15 112 villes en 2001 pour le VC.
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 5
Un bref historique de lIA: les dbuts

Des dbuts euphoriques (1950-65) ...


Traduction automatique de textes
Les jeux sur ordinateurs : checs, dames
Congrs de Darmouth (56): naissance officielle de lintelligence artificielle
Premiers systmes capables dapprendre (Perceptron, Checker)

Dmonstrateurs automatiques (General Problem Solver de Newell, Simon)

Simon en 58: dans 10 ans lordinateur sera champion du monde dchec

mais dont la porte reste limite (1965-70)


Approches bases sur des critres syntaxiques
Sous-estimation de la complexit des problmes
Problme annexe : la faible puissance des ordinateurs !
(PDP 11/20 de Digital en 1970 : processeur 16 bits, cycle de 800ns, 56 Ko de mmoire, 20.000$)

Dans de nombreux cas il faut, en effet, tre capable de:


Mettre en uvre un raisonnement
Reprsenter des connaissances
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 6
Annes 75-85 : lmergence des Systmes experts

Systme qui, sur un domaine restreint, simule le comportement dun expert humain

Ide : la sparation Connaissances (Quoi) / Interprtation (Comment)

Lisibilit : la reprsentation est indpendante de limplmentation


Evolutivit : on peut facilement ajouter/retirer des connaissances
Gnricit : de multiples situations sont traitables par une mme base
Explicabilit : il est possible de reprsenter une trace du raisonnement

Quelques ralisations fondatrices

DENDRAL (65-83) : analyse de spectrogrammes de masse


MYCIN (72-80) : diagnostic de maladies infectieuses sanguines
TEIRESIAS : acquisition de connaissances pour MYCIN
PROSPECTOR(80) : interprtation de donnes minralogiques
XCON (80) : configuration matrielle de systmes VAX
...

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 7


Architecture gnrale dun SE

Base de connaissances
Connaissances du domaine Connaissances de contrle

Connaissance factuelles Stratgies de rsolution


Connaissances dductives Heuristiques

Mcanisme
dinfrence

Espace des donnes Agenda

Donnes courantes Actions en cours


Hypothses courantes Hypothses vrifier

Mmoire de travail

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 8


Base de connaissances

Utilisation de rgles dinfrences

Si {ensemble de conditions} Alors {actions}

De (trs) nombreux langages de reprsentation, parmi eux ...

Logique des propositions (Moteur dordre 0)


Si couleur_chapeau_est_rouge & possde_points_blancs
alors champignon_toxique

Logiques des propositions values (Moteur dordre 0+)


Si annonce_adverse_trfle > 120 & mes_trfles > 2 & possde_valet_trfle
alors annonce_possible = coinche

Logiques des prdicats (Moteur dordre 1, ex : langage PROLOG)


Si double_liaison_CO (M, C, O1) & liaison-COH (M, C, O2, H) & diff (O1, O2)
alors Molecule (M, acide)

Plus rcemment les reprsentations par objets, mieux structures

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 9


Schma de fonctionnement dun SE

Espace des donnes


(base de faits)

Nombre_trfle = 8
Liaisons-CO (c1, c2)
S l e c t i o n dun Filtrage par mise Gestion de conflicts Excution des rgles
sous-ensemble de en appariement des lorsquil y a des rgles avec dductions de
faits et de rgles faits et des rgles contradictoires nouveaux faits
Si ...&...& ...Alors
Si ...&...& ...Alors

Connaissances du Connaissances de contrle


domaine (mta-connaissances)
(base de rgles)
Agenda

Diffrentes stratgies de travail, dont ...


Si .... Alors ....
Chanage avant : raisonnement dductif (data-driven)

Chanage arrire : raisonnement hypothtique (goal-driven)

Chanage mixte : raisonnement dductif et hypothtique

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 10


Exemple de chanage avant (saturation)

Base de connaissances Trace de la BF et de lagenda

R1 : Si B&D&E F Base de B,C Agenda


faits R4, R7
R2 : Si D&G A
R3 : Si C&F A B,C,X R7, R8, R9
R4 : Si B X
R5 : Si D E B,C,X,D R5, R8, R9
R6 : Si A&X H
R7 : Si C D B,C,X,D,E R1, R8
R8 : Si C&X A
B,C,X,D,E,F
R9 : Si B&X D R3, R8

Base de faits initiale B,C,X,D,E,F,A R6, R8


(B, C)
B,C,X,D,E,F,A,H

Stratgie de contrle :
On dclenche les rgles selon lordre lexicographique
On ne garde dans lagenda que les rgles utiles

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 11


Exemple de chanage arrire (ex: Prolog)

Base de connaissances Trace de larbre dexcution

R1 : Si B&D&E F D? C
Temps
OK
R2 : Si D&G A R7 Fait initial

R3 : Si C&F A
R2 G? Echec
R4 : Si B X
R5 : Si D E A? OU
Fait initial
R6 : Si A&X H R3 C OK
R7 : Si C D B OK
Fait initial
R8 : Si C&X A H? R6
F? R1 D OK
R9 : Si B&X D Fait dduit

E? D OK
Base de faits initiale + Hypothses R5 Fait dduit
X? B OK
(B, C) on veut prouver H R4 Fait initial

Stratgie de contrle :
On dclenche les rgles selon lordre lexicographique
Les prmisses sont vrifies de gauche droite
On effectue le parcours des hypothses en profondeur dabord
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 12
Les annes 80: une industrialisation

Dbut dindustrialisation de techniques issues de lIA


Environnements de dveloppement de Systmes Experts : KEE, ART
Arrive des environnements WYSIWYG (Star (81) de Xerox puis Lisa (83) dApple)

Quelques jolies Flops


Machines spcialises LISP et PROLOG
Projet japonais de machines de cinquime gnration

Echec relatif des approches Systmes experts


Mauvaise robustesse pour des problmes rels du tout symbolique
Problme de lacquisition des connaissances auprs des experts
Difficults structurer les rgles et tablir le mta-contrle

Mais avec lmergence de nouveaux paradigmes


Reprsentations par objets,
Logiques floues et prise en compte de lincertitude ...
Raisonnements partir de contraintes
(R)-apparition des rseaux de neurones

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 13


LIA aujourdhui ...

Les approches actives


Les systmes bases de connaissances (volution des SE vers la modlisation)

Lapprentissage automatique (KDD, IBL, SVM, CBR, ...)


Analyse des textes en langage naturel (extraction de connaissances sur le WEB)

Les approches multi-agents et lmergence


Vers une tendance gnrale la formalisation (logique, baysienne, )
Quelques ralisations/concours mdiatiques

AIBO(2k) & QRIO(40k) (Sony) RoboCup (foot, gnie civil, ) RoboSail


http://www.robocup.org http://www.robosail.com/sailingteam/

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 14


Le Grand Challenge

Concours lanc par la DARPA en 2004 (http://www.grandchallenge.org/)

Objectif : faire un vhicule tout terrain entirement autonome


En 2004
o Le vhicule gagnant a fait seulement 7 Miles
En 2005
o 4 vhicules terminent le circuit de 132 Miles!
o Le premier (Stanford) met 6h53 (soit ~ 30km/h)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 15


Le test de turing

De nombreuses ralisations et concours


Le Loebner Prize: http://www.loebner.net/Prizef/loebner-prize.html
Un concours public : http://www.chatterboxchallenge.com/
Le site dAlice : http://www.alicebot.org/
Un Chatterboten franais: http://www.cyber-ethnik.net/elioth/

Fonctionnement actuel
Repose sur lutilisation de bases de donnes de phrases pr-construites
La base peut-tre tendue lors des conversations (Jabberwacky = 6.106 phrases)

Code en AIML (Artificial Intelligence Markup Language) Dialogue correspondant


<aiml> USER: bonjour toi mon petit bot !
<category> HAL: Bonjour visiteur.
<pattern>BONJOUR *</pattern>
<template>Bonjour <getname/> </template>
</category>
</aiml>
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 16
LIA en bref

Bilan dun demi-sicle de travaux

Rsoudre des problmes difficiles laide de mthodes originales


Une appelation provocatrice qui facilite les critiques
Un domaine vou une volution perptuelle, avec
Des checs partiels
Mise en uvre dapproches initiales naves (perceptron, ...)

Inadquation entre les ambitions et les moyens (traitement de la parole)

Des effets de mode excessifs (systmes experts)

Des russites, mais souvent ...


Le domaine devient autonome
Mthodes de recherche, travaux sur lIHM, rseaux de neurones, ...

Les techniques sont intgres dautres domaines (rgles)

Lordinateur sera de plus en plus le compagnon de ltre humain

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 17


Lapprentissage Automatique/Artificiel

Quest-ce quapprendre ?

o Apprendre consiste construire et modifier des reprsentations partir d'une


srie d'expriences (Michalski 86)

o Apprendre consiste amliorer les performances dun systme sur une tche
donne partir dexpriences (Mitchell 96)

Pourquoi faire de lapprentissage ?

Un flux de donnes de plus en plus important traiter (BD, Web, )

Besoin croissant de systmes ractifs intelligents


Construction de systmes de diagnostic et prise de dcisions
Vhicules autonomes (robot, ...) capables de traiter des signaux
Interfaces homme/machine conviviales (PDA/organiseurs, filtres de recherche, ...)

Systmes daide lanalyse de masses de donnes (data mining)

Les moyens thoriques et calculatoires le permettent

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 18


Problmes relevants de lapprentissage

Diffrents types dobjectifs


Caractrisation/discrimination de concepts (arbres, clauses, )
Rvision de concepts (optimisation )
Construction de classes/catgories (partition, arbres )
Approximation/Optimisation de fonctions numriques (stochastiques )
Apprentissage de connaissances de contrle (renforcement )
Construction de rgles de syntaxe ou de grammaires
Analyse de sries temporelles

Un exempleclassique : la construction darbre de dcision

#Cycles Masse PH Carboxyle Activit


M1 1 faible <5 non nulle
M2 2 moyen <5 oui toxique
M3 0 moyen >8 oui toxique
M4 0 moyen <5 non nulle
M5 1 lourd ~7 non nulle
M6 2 lourd >8 non toxique
M7 1 lourd >8 non toxique
M8 0 faible <5 oui toxique

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 19


Bref historique de lapprentissage

1950:lpoquehroque

IA Apprentissage

Traduction automatique CHECKERS (Samuel 59)


Jeux dchecs Evaluation (Coup) = Ki x Critrei
Vision par ordinateur ... PERCEPTRON (Rosenblat 62)

Annes70-80:nouvellesapproches

IA Apprentissage

Nouvelles de reprsentation Mta-Dendral (Buchenan)


Frames, Rgles dinfrence ... construction de mta-rgles pour Dendral

Systmes Base Connaissances ID3, Induce, AM, Eurisko, Bacon, ...


Dendral, Mycin ... Rseaux de neurones (85)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 20


Lapprentissage 85 - prsent

Formalisation du domaine

Lapprentissage vu comme lexploration dun espace de recherche


Thorie de lapprenabilit (Valiant 84),
Approche statistique (Vapnik 95)
Industrialisation de nombreuses mthodes fiables

Rseaux de neurones, SVM, modles de Markov


Construction automatique darbres de dcisions
Apprentissage partir de cas
Archologie dans les bases de donnes (Data-mining)
Multiples sources dinspiration

Biologique : Neuronales, Gntiques, ...


Numrique : Rseaux Baysiens, Thorie de linformation, ...
Logique : Programmation Logique Inductive, ...
Cognitive : Analogie, Raisonnement partir de cas, ...

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 21


Une Cartographie non-exhaustive du domaine

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 22


Ressources sur lIA et lApprentissage
Livres ou journaux
Apprentissage Artificiel. A. Cornujols, L. Miclet. Eyrolles (2002)
Machine Learning. T. Mitchell. McGraw-Hill Education (1997)
Artificial Intelligence: a modern approach. S. Russell, P. Norvig, Prentice Hall (2003)
Deux journaux principaux: Machine Learning et Artificial Intelligence
Sites Web
Portail AFIA : Association Francophone d'Intelligence Artificielle
Site Kdnet: http://www.kdnet.org/
Data-Mining: http://www.kdnuggets.com/
Le site des SVM: http://www.kernel-machines.org/
Le projet WEKA offre une plateforme JAVA de logiciels d'apprentissage
Vie artificielle: http://www.vieartificielle.com/
Les outils de recherche d'informations et darticles :
o Google (http://scholar.google.com/), Teoma (www.teoma.com)
o NecResearchIndex pour les articles scientifiques
o Wikipdia: http://www.wikipedia.org/ (180.000 articles en franais, x4 en anglais)
Transparents cours : http://www-leibniz.imag.fr/Apprentissage/Depot/Cours.pdf
Principales confrences en ML ...
ECML : European Conference on Machine learning
ICML : International Conference on Machine Learning
ECAI : European Conference on Artificial Intelligence (ou IJCAI)
PKDD : Practice of Knowledge Discovery in Databases
CAp : Confrence Francophone d'Apprentissage
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 23
Quest ce quun systme dapprentissage ?

Contexte Objectifs Modle(s) appris


Descriptions des expriences Caractrisation de concepts Symbolique (+ intelligible)
But identifi: S: {(Xi, Ui) } Identification de concepts Arbre de dcisions
Ui= h (Xi)
But non identifi: S: {Xi, } Ensemble de rgles, clauses
Rgression Hirarchie de classes ...
Nature des objets dcrits h: fonction continue
Numriques Acquisition de concepts Numrique(+ efficace)
Complexes (squence, graphes) Classification
Paramtres dun hyper-plan
Partition de S
Traitement effectu Rseaux de neurones
Dcouverte de relations
Par lot Rseaux Baysiens ...
(apprentissage off line) Optimisation de performances
Incrmental
(apprentissage on line) Renforcement

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 24


Apprendre pour Rsoudre

Construction de systmes de rsolution de problme (systmes experts)

Gnralisation Moteur d'infrences


Problme
Ensemble de problmes
dj rsolus (exemples) : Base de
A & B & C -> Classe 1
B & D -> Classe 2 ... Connaissances Solution

Apprentissage partir dexemples (apprentissage supervis)


Approches inductives classiques (il sagit de construire F en ayant : <x, F(x)>)
- Symbolique/numriques ID3 (Quinlan 86), FOIL (Quinlan 90), ...
- Programmation logique GOLEM (Mug. 92), Progol (Mug. 95) , Claudien (De Raedt 97) ...

Algorithmes gntiques
Apprentissage par analogie (R-utilisation de solutions de problmes dj rsolus)

Apprentissage de nature purement numrique


Apprentissage baysiens (Pearl 88)
Rseaux de neurones (Dreyfus 02)
Sparateurs Vaste Marge (SVM) (Vapnik 95, Schlkopf 99)
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 25
Apprendre pour Modliser

Mettre en vidence des structures dans un ensemble de donnes

Classification B
(ou catgorisation)
C ^ o C
Vgtaux

o B ^ ^ Etres Vivants

L z L# o
# z

Apprentissage partir d'observations (apprentissage non supervis)


Construction de hirarchies de classes
- Non incrmentales : CLUSTER (Stepp 86), BIRCH (Zhang et al. 96), CHAMELEON(Karypis 99)
- Incrmentales : COBWEB (Fisher 87), DBSCAN (Ester 96), ...

Classification en analyse de donnes


Mthodes ascendante et descendante de construction
CAH, Nues dynamiques (Diday 85), WaveCluster (Sheikholeslami 98), ...

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 26


Apprendre pour Explorer

Outils daide lanalyse de bases de donnes (KDD)


U

U R I T
R 305 100 3 298

+
32

240
5

40
6

6
94

326 U = R.I
I 2 2 1 102
- 4878 1212 4 197

Dcouverte scientifique Bacon(Langley 85), Abacus(Michalski, Moulet), ...


Recherche de substances mutagnes PROGOL (Muggleton et al. 96), Molfea (Helma 03)
Recherche dintrons/exons dans lADN MORGAN (Salzberg et al. 97)
Prdiction des structures secondaires ou tertiaires ...

Apprentissage partir d'observations


Mise en vidence de nouveaux regroupements (concepts)

Apprentissage partir dexemples


Mise en vidence de relations ou de descripteurs importants

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 27


Apprendre pour Optimiser

Optimisation de connaissances opratoires

Apprentissage par explications


Optimisation dune BC par utilisation dune trace de rsolution
EBL(Dejong 86), EBG(Mitchell 86), .

Apprentissage par confrontation lenvironnement


Toutes les mthodes potentiellement incrmentales
- Rseaux de neurones
- Algorithmes gntiques, ...

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 28


Apprentissage et acquisition des connaissances

Mthodologie classique de construction dune base de connaissances

Utilisation du couple expert/cogniticien


La (im)mobilisation dun expert peut tre coteuse
Sensation de vol de comptence
Multiples problmes de communication rsoudre
Dfinition dun langage commun
Rester dans le contexte dexpertise (Savoir Expliquer)
Expliciter les connaissances de nature perceptive
Acquisition Transfert
Acquisition = Formalisation
Dfinition de mthodologies dacquisition des connaissances (KADS)

Lapprentissage permet de simplifier ces tapes

L'expert se borne :
Dresser une liste de descripteurs gnraux
Donner des exemples de son travail de tous les jours
La base construite apporte un nouveau regard sur le domaine ...
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 29
Comment apprend-on ?

Empirique (prdictivit) Smantique (plausibilit)

Quest ce quun bon modle?


Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 30
Prdictivit / Plausibilit dun modle

La science consiste seulement dire ce qui est le plus probable, ou le moins probable, et non
prouver sans cesse ce qui est possible et impossible (Richard Feynman)
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 31
Critre de qualit dun modle

Problme illustratif (Miclet 03)

Question Beaucoup de rponses sont possibles


(Ce nombre est infini en thorie : Wittgenstein)

Quel nombre prolonge logiquement 6: car cest une suite dentiers sauf 4
la squence croissante : 7: car cest la suite des nombres premiers
8: car cest la suite de Fibonacci
1, 2, 3, 5,?

Principe du rasoir dOccam (14me Sicle)

Quand plusieurs modles permettent de


prdire des choses similaires, il est
Les entits ne devraient pas
raisonnable de privilgier celui qui est le plus
tre multiplies sans ncessit
simple, cest dire celui qui sintgre le mieux
avec les connaissances courantes

Dans le contexte informatique

On choisit un langage de reprsentation des instances et des hypothses, fixant


ainsi ce qui reprsentable et apprenable par le systme.
On slectionne les modles les plus efficaces et les plus concis.
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 32
Reprsentation des donnes

Modliser le domaine de travail

Cest dcrire en machine:


Les objets du domaine (entits)
Leurs proprits
Les relations entre objets

Les tapes dune modlisation


- Dfinition dun niveau de granularit dans la description du domaine
- Dtermination des lments/proprits/relations modliser
- Choix dun langage de reprsentation informatique
- Lappariement entre les objets du langage et ceux du domaine
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 33
Deux grands types de reprsentation

Donnes vectorielles Donnes structures


Tableau de donnes: Graphe de relation
Numrique

A1 An
E1 V 11 V 1n
Exemples

E2 V 21 V 2n

En V n1 V nn

Logique propositionnelle :
Symbolique

Logique des prdicats:


poids_molculaire=167 nombre_cycle=6 bond (m1, c1, o, double), bond (m1, c1,c2, single),
contient_Br=Vrai ... aldehyd (m1)

Paramtres du modle [a1, ., an] Graphe conceptuel (Sowa),


Numrique
Connaissances

- Vecteur de poids
Clauses Prolog :
- Vecteur de probabilits
mutagenic (M):-
Rgles: bond (M, Atom1, Atom2, double),
Symbolique

Si (poids_molculaire<500) (LogP> 5) has_ring (M, R, 5), bond (M, R, Atom1, single)


Alors (Candidat_mdicament = vrai) is (Atom1, Br),

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 34


Exemple: reprsentation de molcules (1)

Propositionnel: linarisation des molcules 2D

Utilisation dune bibliothque de clefs structurelles prdfinies

C6 H 6 1
N-N 0
C-CH 3
C-N-O2 2
S-N 0

Utilisation de clefs structurelles calcules
Recherche de tous les chanes de longueur N dans la
molcule
Codage des chanes laide dune fonction de hash-code

Reprsentation par un vecteur (boolen, numrique )


K 1 K2 ... ... Kn
Molcule n:
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 35
Exemple: reprsentation de molcules (2)

Molcules: graphes connexes non-orients et tiquetts

G = (V, E, Lv , Le)
- Lv fonction associant chaque sommet Vi son tiquette (type datome)
- Le fonction associant chaque artes Ei son tiquette (liaison, distance, ...)

Graphes topologiques (2D) ou gomtriques (3D)

6.4
N C
7.1 4.1 2.3
5.1
C
O 2.5

Reprsentation sous forme de prdicats


H H
Ethanal: liaison (c1, o, double) liaison (c1, c2, simple)
H C C atome (c1, carbone) distance (c1, c2, 2.3)
O
aldehyde ()
H

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 36


Apprentissage sur des donnes numriques

Vision gomtrique du problme

Un exemple:

X: {x1, x2, , xp } avec xiR


p
est reprsentable dans R

On veut trouver une description


exprime dans le langage LH
discriminant les classes + et -.

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 37


Apprentissage supervis

Recherche de surfaces (ou volumes) sparatrices

Selon le langage des hypothses


(et donc lalgorithme utilis )

LH1: constantes
Si A<3 Alors Classe = +
Si B<2,5 Alors Classe = +
Si B>8,5 Alors Classe = +

A<3 B<2,5 B>8,5 Classe = +

LH2: droites
Si A<7-B Alors Classe = +
Si A<B-4 Alors Classe = +

LH3: polynme de degr 2


Si A<-0,22xB2-2,3xB+8
Alors Classe = +

Il y a videmment bien dautres solutions possibles


Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 38
Apprentissage non-supervis

Recherche de regroupements

Les exemples ne sont plus tiquetts

On recherche des groupes:


- Homognes
- Constrast

Utilisation de:
- Distances
- Modle de distribution

Description des classes:


C1: A [7..10] et B [2..5]
C2: A [5..8] et B [6..9]
C3: A [0..5] et B [0..5]
C4: A [0..5] et B [6..10]

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 39


Cas supervis : lespace des hypothses

Lapprentissage vu comme un processus de recherche dans H

Taille de lespace H?
Par exemple, si le langage comprend N descripteurs boolens,
o on aura alors 2N-1 descriptions conjonctive (rgles) possibles
(2N-1)
o soit 2 hypothses possibles (disjonctions de rgles)
avec {A, B} on a 8 hypothses: , A, B, AB, AB, ABA, ABB, ABAB
avec N = 10 on a ~ 10308 hypothses
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 40
Algorithmes de recherche

Apprentissage de type generate and test (Espace des versions, ID3, PLI, )

Construction dune nouvelle hypothse (X, H)


Tant que Qualit(H) < seuil
Appliquer les oprateurs de raffinement Opi sur H -> {Newj}
Pour tous les Newj valuer: Qualit (Newj, X)
Placer la meilleure nouvelle hypothse dans H

On retire de X les exemples traits par H et on recommence


Apprentissage de type optimisation (Connexionisme, SVM, baysiens, gntique, )

Construction dune nouvelle hypothse (X, H)


Tant que Qualit(H) < seuil
Prendre un exemple Ei: {v1, vn, u} de X
Appliquer des oprateurs de raffinement sur H pour rduire (H(Ei), u)

On retire de X les exemples traits par H et on recommence


Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 41
Stratgies dexploration (1)

Structure de lespace
Pour quune recherche soit possible il faut que lespace soit ordonn
o Partiellement (ex: notion de gnralit entre les hypothses)
o Localement (ex: notion de voisinage entre les hypothses)

Stratgie dexploration de lespace


Recherche complte et optimale
Gradient: on prend loprateur qui conduit dans le meilleur tat, mais

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 42


Stratgies dexploration (2)

Recherche par faisceaux

On garde chaque tape un ensemble dhypothses candidates Hi

Recuit simul:

On slectionne loprateur qui conduit dans le meilleur tat


Si galit avec ltat prcdent
on slectionne un autre oprateur de manire probabiliste
La taille du saut est fonction de la temprature (T0)

Stochastique:

La recherche est partiellement alatoire


On travaille avec un ensemble dhypothses
Par exemple: les algorithmes gntiques!

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 43


La validation empirique des rsultats (supervis)

Plusieurs approches
Validation classique
66% des exemple en apprentissage
33% des exemples en test
Validation par leave one out
Si lon a P = {x1, xp } exemples
o on construit p modles Mi diffrents avec P-{xi} exemples
o on test chaque modle Mi avec le iime exemple
Gnralisation du processus avec le N-Fold
o on dcoupe la base en N bases de p/N exemples
o on apprend N fois sur N-1 base et on teste sur la base restante

Deux critres considrer

Erreur dapprentissage (Ea) Erreur de gnralisation (Eg)


Taux de mauvais Taux de mauvais
classement sur lensemble classement sur lensemble
dapprentissage de test
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 44
Les mesures

Table de contingence

Dans le cas de 2 classes + et (gnralisable C classes)

Classe relle
classe = + Classe = -

classe = + A B
Classe
prdite
vrais positifs faux positifs

classe = - C D
faux ngatifs vrais ngatifs

A+ D
Taux de reconnaissance = = (1 taux d'erreur)
A+ B+ C + D

A A
En RI Rappel = Prcision =
A+ C A+ B
A D
Mdical Sensibilit = Spcificit =
A+ C B+ D

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 45
Difficults inhrentes lapprentissage

Donnes en entres

Lchantillonnage des donnes nest pas suffisant pour couvrir le domaine

Le nombre dexemples est trop faible par rapport au nombre de descripteurs

Lensemble des descripteurs est incomplet pour caractriser les concepts

o Linformation est totalement absente


o Linformation nest pas sous une forme utilisable

Les donnes sont bruites: fausses ou mal tiquettes

Lalgorithme dapprentissage fonctionne mal

Les paramtres du systme sont mal rgls (biais dexploration ou darrt)

Le concept nest pas apprenable dans lespace des Hypothses H

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 46


Le compromis Biais Variance

Importance du choix de H
Plus la taille de H est restreinte (biais de reprsentation est fort), plus
o Lapprentissage est facile
o Ce que lon est capable de reprsenter (apprendre) est limit

inversement avoir H grand (biais de reprsentation est faible) peut


o Gner la recherche dune solutionsatisfaisante !
o Conduire des problmes de sur-apprentissage (overfitting)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 47


Exemple de sur-apprentissage

Un cas classique: la rgression

En terme dapprentissage

Ea(LH1) > Ea(LH2) > Ea(LH3)

Mais en terme de gnralisation

Eg(LH1) Eg(LH3) > Eg(LH2)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 48


Data mining

La chaine de traitement complte

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 49


Apprentissage Symbolique: la gnralisation

Une opration fondamentale pour apprendre

Dfinition du dictionnaire
Opration intellectuelle par laquelle on tend un ensemble de classes
ou bien une classe, les proprits et les caractres observs sur un
nombre limit de cas ou d'individus.

Objectif gnral
Caractriser les proprits communes un ensemble dindividus qui
appartiennent un mme concept

Gnralisation dun lever de soleil

G
& ... &

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 50


Relation de gnralit

Que signifie tre plus gnral ?

Dfinition ensembliste

La description A est plus gnrale que celle de B si A


toutes les instances convertes par B sont incluses
dans celles couvertes par A (on a alors B A).
B
Le concept Mammifre est plus gnral que le concept Elphant

Dfinition logique
(Note terminologique : est plus gnral que subsume)

Soit F et G deux formules conjonctives


La formule G -subsume la formule F si et ssi , G F (Plotkin 70)

G=mammifre (X) -subsume F=mammifre (a) couleur (a, gris)


En effet, pour la substitution ={X/a} dans G on a bien :
mammifre (a) mammifre (a) couleur (a, gris)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 51


Problme de la gnralisation
(Plotkin 70, Michalski 83, Kodratoff et al. 86, Muggleton et al. 92, Rouveirol 92, ...)

Soit

Un ensemble dinstances (ou faits) comportant


o Des exemples E1, E2, ... , En dun concept C que lon veut apprendre
o Des contre-exemples CE1, CE2, ... Cem de ce concept
Une thorie du domaine T
Un ensemble de contraintes (ou biais) B
Une procdure M appariant une formule F et une instance I, tq : M(F,I)

Trouver une formule G vrifiant les biais B telle que :


G couvre tous les Ei : , (G) TEi (G complet)
G ne couvre aucun CEj : , (G) TCEj (G cohrent)

CE1 G
Compactage de l'information
E1
(on passe de N exemples 1 description)
E2
E3
CE2 Rgle : Si G ALORS C
CE3 Clause : C:- G.
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 52
Gnralisation dun ensemble dexemples

Apprentissage du concept lever de soleil

On utilise ici une reprsentation des exemples de type logique des prdicats

E1 : montagne (a), soleil (b),


monte (b,a), nuage (c),
au-dessus (c,a)
G = soleil (X),
monte (X,Y),
nuage (Z),
au-dessus (Z,Y).

Liste des substitutions effectues


X / b, d
E2 : ville (c), soleil (d),
Y / a, c
monte (d,c), nuage (e),
Z / c, e
au-dessus (e,c)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 53


Gnralisation exemples/contre-exemples

E1 : montagne (a), soleil (b), monte (b,a),


nuage (c), au-dessus (c,a) G = soleil (X), monte (X,Y),
nuage (Z), au-dessus (Z,Y)

E2 : ville (c), soleil (d), monte (d,c), Appariement de G avec CE


nuage (e), au-dessus (e,c) En utilisant la fonction dappariement M

soleil (X) X/i


monte (i, Y) Echec

G = soleil (X), monte (X,Y),


nuage (Z), au-dessus (Z,Y)
CE : ville (f), montagne (g), soleil (i)
monte (h,f), nuage (h), au-dessus (h,f) G est correcte et cohrent
G est minimalement discriminant
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 54
Gnralisation avec une thorie

E1: boule (b), rouge (b), E2 : soleil (c), G = monte (X,Y) !!!
montagne (a), monte (b,a) ville (d), monte (c,d)

Thorie du domaine
R1: SI montagne (X) ALORS sol (X)
R2: SI ville (X) ALORS sol (X)
R3: SI boule (X), rouge (X) ALORS soleil (X)

Dduction de nouveaux faits par chanage avant:

Application de R1 et R3 sur E1
E1: soleil (b), sol (a), monte (b,a)

Application de R2 sur E2
E2: soleil (c), sol (d), monte (c,d) G = soleil (X), monte (X,Y), sol (Y)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 55


Gnralisation et biais

Thorie du domaine plus complexe

R1: SI montagne(X) ALORS sol(X)


R2: SI ville(X) ALORS sol(X)
R3: SI boule(X), rouge(X), au-dessus(X,Y), sol(Y) ALORS soleil(X)
R4: SI soleil(X) ALORS boule(X), rouge(X), au-dessus(X,Y), sol(Y)

- Deux gnralisations sont possibles ?!


G = soleil (X), monte (X,Y), sol (Y)
G = boule(X), rouge(X), monte (X,Y), sol (Y)

Quelque exemples de biais syntaxiques:


Minimiser le nombre des prmisses dans les rgles
Maximiser le nombre dexemples couverts par les rgles
Quantit dinformation, Connaissances spcifiques, ....
G = soleil (X), monte (X,Y), sol (Y)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 56


Utilisation de la thorie du domaine

Comment/quand utiliser les rgles de la TD ? (Rouveirol 92)

Solution idale : quand on en a besoin ...


Critres syntaxiques de dcision sont insuffisants
On a besoin d'avoir des mta-connaissances ...

Solution pratique: la saturation

Exemple initial Thorie du domaine


EX : pre (john, peter), pre (peter, mike) SI pre (X, Y), pre (Y, Z) ALORS grand-pre(X, Z)

Moteur d'infrence

Exemple aprs saturation


EX : pre (john,peter), pre (peter,mike), grand-pre(john,mike)

Avantages
On utilise un moteur d'infrence en chanage avant simple
Toute l'information est directement accessible au systme
Utilisable indpendemment de la stratgie dapprentissage
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 57
Utilisation des contre-exemples

E1 : montagne (a), soleil (b), monte (b,a), nuage (c), au-dessus (c,a)
E2 : ville (c), soleil (d), monte (d,c), nuage (e), au-dessus (e,c)
CE :ville (f), montagne (g), soleil (i), monte (h,g), nuage (h), au-dessus (h,f)

Gnralisation maximalement spcifique CE1


G = soleil (X), monte (X,Y), nuage (Z), au-dessus (Z,Y) G1
E1
Garde lensemble des informations communes E2
Simple calculer lorsque E3
La description du concept est purement conjonctive
Le langage de description est la logique des propositions CE2 CE3

Taille importante : mauvaise lisibilit et peu efficace

Gnralisation minimalement discriminante CE1 G2


G = soleil (X), monte (X,Y)
E1
On ne conserve que linformation pertinente E2
Description oprationnelle du concept E3

Grand nombre de gnralisations possibles CE2 CE3

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 58


Deux stratgies dlagage

Spcialisations successives du gnralis (Muggleton 92)

Soit la gnralisation G maximalement discriminante


Soit la formule F =
Tant que F nest pas cohrent
Slectionner un atome Ai de G non utilis (choix multiple !!)
Ajouter Ai dans la formule F
Tester la cohrence de F sur les contre exemples

Gnralisations successives du gnralis (Siquiera et al. 88)

Soit la gnralisation G maximalement discriminante


Soit la formule F = G
Tant que F reste cohrent
Slectionner un atome Ai de F (choix multiple !!)
Supprimer Ai dans la formule F
Tester la cohrence de F sur les contre exemples

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 59


Treillis des gnralisations

La relation de gnralit induit un ordre partiel sur les hypothses


Si F1 subsume F2 F1
E1
Alors F1 Treillis des
E2 gnralisations
F2 F1 E3 F2
F2
Max. spcif.

Quelques proprits rsultantes

Si F1 est complet les formules plus gnrales


le sont galement
Si F1 est cohrent alors F2 lest aussi

Si F2 est cohrent les formules plus spcifiques


le sont aussi
Si F2 est complet alors F1 lest aussi

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 60


Espace des Versions
(Mitchell 82)

Description des gnralisations laide de deux frontires

Processus incrmental :
Les exemples et contre-exemples
sont soumis un par un au systme

A un instant donn on a ...

G : Ensemble des gnralisations les plus gnrales qui soient


compltes et cohrentes avec les instances prsents

S : Ensemble des gnralisations les plus spcifiques qui soient


compltes et cohrentes avec les instances prsents

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 61


Algorithme gnral

Rpter
Soit un nouvel exemple EX
Gnraliser les modles de S qui rejettent EX en vrifiant que
On effectue les modifications minimales (plus petit pas de gnralisation)
Chaque modle doit tre une spcialisation dun modle de G
Aucun modle ne doit tre une gnralisation dun autre de S
Supprimer de G les modles ne couvrant pas EX

Soit un nouveau contre-exemple CE


Spcialiser les modles de G qui couvrent CE en vrifiant que
On effectue les modifications minimales (plus petit pas de gnralisation)
Chaque modle doit tre une gnralisation dun modle de S
Aucun modle ne doit tre une spcialisation dun autre de G
Supprimer de S les modles qui couvrent CE

Si S = G Alors SUCCES (convergence des deux bornes)


Si S ou G sont vides ECHEC (le concept nest pas apprenable dans le langage actuel)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 62


Exemple EV (1)

Recherche des conditions du dclenchement dune allergie

Restaurant Repas Jour Cot Raction


Pierrot djeuner vendredi pas cher oui
A la frite diner vendredi normal non
Pierrot diner samedi pas cher oui
Quick djeuner dimanche pas cher non
Pierrot djeuner dimanche normal non

Ajout de lexemple : [Pierrot, djeuner, vendredi, pas cher]

G
[ ?, ?, ?, ? ]

[ Pierrot, djeuner, vendredi, pas cher ]


S

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 63


Exemple EV (2)

Ajout du contre-exemple : Ajout de lexemple :


[A la frite, diner, vendredi, normal] [Pierrot, diner, samedi, pas cher]

G G

[ Pierrot, ?, ?, ? ] [ ?, ?, ?, pas cher ] [ Pierrot, ?, ?, ? ] [ ?, ?, ?, pas cher ]

[ ?, djeuner, ?, ? ] [ ?, djeuner, ?, ? ]

[ Pierrot, ?, ?, pas cher ]

[ Pierrot, djeuner, vendredi, pas cher ]


S S
[ Pierrot, djeuner, vendredi, pas cher ]

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 64


Exemple EV (3)

Ajout du contre-exemple : Ajout du contre-exemple :


[Quick , djeuner, dimanche, pas cher] [Pierrot, djeuner, dimanche, normal]

G G
[ ?, ?, ?, pas cher ]

[ Pierrot, ?, ?, ? ] [ Pierrot, ?, ?, ? ]
plus gnral
[ Pierrot, ?, ?, pas cher ]
[ Pierrot, ?, ?, pas cher ]
[ Pierrot, ?, ?, pas cher ] [ Pierrot, ?, ?, pas cher ]
Identiques

S S
[ Pierrot, djeuner, vendredi, pas cher ] [ Pierrot, djeuner, vendredi, pas cher ]

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 65


Le compromis langage/apprenabilit

Expressivit et complexit croissent en fonction :

Du type de gnralisation qui est recherche


Maximalement spcifique
Minimalement discriminant

De la description de concept qui est attendue


Purement conjonctive
Un concept est dcrit par une conjonction dattributs : rgle, clause, classe ...
Disjonction de conjonctions
Un concept est dcrit par plusieurs conjonctions: rgles, clauses, classes ...

Du langage de reprsentation (instances/concepts) qui est utilis


Logique des propositions value (LPV)
Logique des prdicats du premier ordre (LPO)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 66


LPV et description conjonctive

La gnralisation maximalement spcifique est unique


On a un ensemble de fonctions gnralisant les valeurs
Gen-nombre (2, 5.25, -5, 8.1) = [-5 .. 8.1]
Gen-taxinomie (france, italie, suisse)= (europe)

On garde les attributs prsents dans tous les exemples


Ex1 : Temprature (40) Lymphocyte (5000) Pas-antcdant ...
Ex2 : Temprature (39) Pas-antcdant ...
Ex3 : Temprature (39.2) Pas-antcdant ...
Gen : Temprature [39,40] Pas-antcdant ...

Plusieurs gnralisations minimalement discriminantes (Haussler 88)

A1 A2 A3 A4 A5 ... Ai
Ex1 1 1 1 1 1 ... 1
C E1 1 1 0 0 0 ... 0
C E2 0 1 1 0 0 ... 0
C E3 0 0 1 1 0 ... 0
C E4 0 0 0 1 1 ... 0

La borne G de lEV crot exponentiellement (G crot en 2i)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 67


LPV et descriptions disjonctives

Souvent il ny a pas de description purement conjonctive

On apprend un ensemble de descriptions partielles du concept


Si Temprature (40) Pas-antcdant Alors Maladie-1 (couvre les exemples : 1,2,5,6)
Si Temprature (39) Lymphocyte (5000) Alors Maladie-1 (couvre les exemples : 3,4,5,7,8)

Trouver une partition/recouvrement {P1...Pk) des exemples tel que :


Chaque gnralisation partielle Gi soit complte et cohrente
La disjonction des Gi couvre lensemble des exemples

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 68


Problme li au partitionnement

Trs large espace de recherche


k =n
kn
Pour un ensemble de N exemples : Pn (Par exemple P12 = 4 . 106 )
k =1 k!

La borne S de lEV peut crotre exponentiellement

Utilisation dalgorithmes de recherche gloutons ayant pour critres


Minimiser le nombre de partitions/rgles construites
Obtenir des gnralisations minimalement discriminantes

R2 R1

R4

R5
R3
R7
R6

Eviter de construire des jeux de rgles sur-spcialises

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 69


Gnralisation en LPO

Problme des appariements multiples


A
E1 B
A B
triangle -droite cercle
triangle (a), clair (a), -droite (a,b), ... clair gris
C
E2 C D D
carr triangle
carr (c), clair (c), -droite (c,d), ... clair -droite
sombre
Thorie : carr, triangle et cercle sont des objets
gris et sombre sont des couleurs

Plusieurs descriptions conjonctives diffrentes


(X/A:D, Y/B:C)
G1 = j'ai deux objets X et Y dont un triangle X

(Z/A:C, T/B:D)
G2 = j'ai un objet color T plac droite d'un autre Z

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 70


Espace de recherche en LPO

Description conjonctive des concepts

Nombre des conjonctions crot exponentiellement

En fonction du nombre E des entits dcrites


En fonction du nombre N des exemples gnraliser
Taille thorique de lespace de recherche en EN

Description disjonctive des concepts

On retrouve le mme problme de partitionnement quen LPV


Taille thorique de lespace de recherche en PN.EN

Avec la LPO il est ncessaire dutiliser de solides heuristiques

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 71


Les approches TDIDT : ID3, C4.5, (Quinlan 86-96)
(Top Down Induction of Decision Tree)

Prsentation gnrale
Construction dun arbre de tests permettant didentifier des problmes
Approche ancienne avec des recherches actives en AD et IA
Bon rapport rsultat/complexit (ID3, CART, ID5, Assistant 86, C4.5, OC1, ...)

Entres du systme
Un ensemble d'exemples caractrisant plusieurs concepts
Les exemples sont des conjonctions attribut/valeur

Sorties du systme
Un arbre de dcision (ex : une flore)
nuds : des attributs tester
arcs : les valeurs possibles
feuilles : pointent sur des classes

Permet de prdire la classe de


nouveaux exemples

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 72


Comment construire larbre ?

Quels attributs slectionner ? Dans quel ordre ?


But : obtenir un arbre le plus compact possible afin
damliore la lisibilit du rsultat (valuation smantique)
de minimiser le nombre de questions auxquels doit rpondre lutilisateur
(Une question peut avoir un cot financier ou temporel)

La recherche de larbre optimal est un problme NP complet


#arbres (Prof, #Valeurs, #Descripteurs) = V P A PD #arbres (5, 2, 50) = 8 109 arbres possibles

Qualit de discrimination dun attribut ...

Quest ce quun bon attribut?

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 73


Thorie de linformation (Shannon,Weaver 49)

Mesurer le dsordre dune partition


Un nud de larbre ensemble E d'exemples correspondant N classes
On peut donc mesurer lentropie associe E
Lentropie mesure le degr de dsordre dun systme
Elle indique le nombre de bits ncessaires pour coder la classe associe un lment de E

n Pi : probabilit dun exemple de E


Entropie(E) = Pi Log2 (Pi ) d'appartenir classe i. On approxime
la frquence relative.
i=1

Soit un ensemble E contenant 2 classes A et B Entropie (E)


Entropie (E) = - PA Log2 PA - PB Log2 PB

E1 : P(A) = 1 & P(B) = 0 Entropie (E1) = 0


E2 : P(A) = 0,90& P(B) = 0,10 Entropie (E2) = 0,47
E3 : P(A) = 0,75& P(B) = 0,25 Entropie (E3) = 0,81
E4 : P(A) = 0,50& P(B) = 0,50 Entropie (E4) = 1 P(A)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 74


Minimiser lentropie

On veut minimiser le dsordre du systme

Si lon choisit un attribut A ayant J modalits (valeurs) possibles


On partitionne E en J sous-ensembles Ej
E
A=V1 A=V2 A=Vj
E1 E2 Ej

Entropie moyenne associe lutilisation de A avec E :


V P (Vj) : probabilit dobserver la
EM(E, A) = P(V j ) Entropie(E j ) modalit i dans les exemples. On
j=1 approxime la frquence relative.

Le gain dentropie occasionn par le choix de A :

Gain(E, A) = Entropie(E) EM(E, A)

En slectionnant lattribut maximisant le gain on minimise le dsordre


Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 75
Principe de lalgorithme

Initialement l'arbre est rduit sa seule racine R qui contient


lensemble des exemples toutes classes confondues.

Tant qu'il reste une feuille F dans l'arbre pour laquelle il reste
des exemples appartenant plusieurs classes Ci :

Pour tous les descripteurs Di non encore utiliss

Mesurer le gain dentropie engendre par le choix de Di

Prendre le descripteur D optimisant ce gain.


Ajouter la feuille F autant de branche que D possde
de modalits possibles dans les exemples de F.

Rpartir les exemples de F dans les nouvelles feuilles.

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 76


Exemple (1)

Apprentissage du concept Coup de soleil

Taille Poids Cheveux Lotion Concept


Sarah moyenne lger blonds non coup de soleil
Dana grande moyen blonds oui non coup de soleil
Alex petite moyen bruns oui non coup de soleil
Annie petite moyen blonds non coup de soleil
Emily moyenne lourd roux non coup de soleil
Pete grande lourd bruns non non coup de soleil
John moyenne lourd bruns non non coup de soleil
Katie petite lger blonds oui non coup de soleil

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 77


Exemple (2)

Entropie associe la slection de lattribut Taille

Entropie associe un ensemble :


n
Entropie(E) = Pi Log2 (Pi )
i=1

Entropie associe la partition :


V
EM(E, A) = Pr ob(V j ) Entropie(E j )
j=1

Entropie pour les trois sous-ensembles


Coup de soleil Non coup de soleil
Entropie (Petite) -1/3 . log2 (1/3) -2/3 . log2 (2/3)) 0,92
Entropie (Moyenne) -2/3 . log2 (2/3) -1/3 . log2 (1/3) 0,92
Entropie (Grande) 0 (aucun lment) -2/2 . log2 (2/2) 0

Entropie moyenne pour la partition


Petite Moyenne Grande
EM (E, Taille) 3/8 . (0,92) 3/8 . (0,92) 2/8 . (0) 0,69

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 78


Exemple (3)

4 choix possibles : Taille, Poids, Cheveux, Lotion

Gain(E, A) = Entropie(E) EM(E, A)

Entropie (E) EM (E,A) Gain (E,A)


Attribut Taille 0,95 0,69 0,26

Attribut Poids 0,95 0,94 0,01
Attribut Cheveux 0,95 0,5 0,45
Attribut Lotion 0,95 0,61 0,34

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 79


Exemple (4)

3 choix possibles : Taille, Poids, Lotion

Entropie (blond) EM (E,A) Gain (E,A)


Attribut Taille 1 0,5 0,5
Attribut Poids 1 1 0
Attribut Lotion 1 0 1

Cheveux Rgles quivalentes :


Blond Brun R1 : Si Cheveux = brun
Roux Alors non-coup-de_soleil
Lotion OK R2 : Si Cheveux = roux
Alors coup-de_soleil
Non Oui Alex
Emilie
R3 : Si Cheveux = blond & Lotion = oui
Pete
OK John Alors non-coup-de_soleil
R4 : Si Cheveux = blond & Lotion = non
Sarah Dana
Annie Katie Alors coup-de_soleil

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 80


Problmes des modalits multiples

Gestion de la taille des domaines

Gain (E, A) favorise les attributs ayant beaucoup de modalits (V)

Minimiser le nombre de partitions et favoriser une rpartition homogne

Gain(E, A) V

GainM (E, A) = f (Log V,R) avec R = - j=1


P(V j ) Log2 P(V j ) [0..1]
2

Gestion des valeurs continues



Discrtisation des valeurs numriques continues
petit moyen grand
Dfinition de plages de valeurs pertinentes
0 10 20 30 40 50 60 70 80

Taille_inf_30 Taille_inf_60
Cration de plusieurs attributs boolens
0 10 20 30 40 50 60 70 80

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 81


Gestion des valeurs manquantes
A1 A2 A3 A4 Ak
ex1
ex2 ???
ex3
???
exn ???

Valeurs non pertinentes (dont care)


Certains attributs ne sont pas simultanment dfinis
Exemples : Nbr_nageoires et Nbr_pattes ; Point_fusion et Point_sublimation ; ...

Considrer que lexemple possde toutes les modalits (neutralisation)

Valeurs inconnues (unknown)


Certains attributs de E nont pas pu tre valus
Exemple : mesures manquantes dans les domaines exprimentaux

Plusieurs stratgies lorsque un nud N utilise lattribut manquant


Affecter la valeur qui est majoritaire pour les exemples du nud
Affecter la valeur qui est majoritaire pour les exemples du mme concept
Dupliquer lexemple dans les nud fils en les pondrant avec P(Vi)
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 82
Prfrences sur les attributs

Lacquisition dune valeur peut ...

Avoir un cot financier (ex : scanner / analyse sanguine)

Prsenter un aspect douleureux (ex : electromyographie)

Ncessiter un dlai dacquisition (ex : information lcran / recherche spcifique)

Dpendre du degr dexpertise de lutilisateur (ex : couleur fleur / dicotyldone)

Prise en compte de ces diffrentes dimensions : Cot (A)

Gain 2 (E, A)
GainC (E, A) = Cot(A)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 83



Bruit dans les donnes

Erreurs dans les donnes

Mauvais acquisition/transcription de certaines valeurs dattributs


Erreur didentification dun exemple (classe errone)

Problme de sur-spcialisation des arbres (overfitting)

- William : blond, petit, lourd, lotion, Blond


Lotion
Blond
Non Oui
Lotion
Non Oui Poids
Sarah Lger Lourd
?! Annie Moyen

Sarah Dana OK
Annie Katie OK OK

William Katie Dana William

Les arbres de grande taille sont difficilement lisibles


Une sur-spcialisation des tests entraine de mauvaises capacits prdictives

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 84


Elagage de larbre

Durant la construction ...

On arrte la construction de larbre


Lorsque le gain dinformation devient trop faible
Lorsque les ensembles dexemples sont statistiquement non pertinents

Aprs la construction (post-lagage) ...

On simplifie larbre (ou lensemble de rgles) via les exemples de validation


Soit Taux_Erreur_Courant = rsultat de larbre initial
Rpter
Pour tous les nuds Ni de larbre
Transformer le nud Ni en feuille
Etiqueter la feuille par la classe majoritaire
Appliquer le jeu de validation sur cet arbre
Mmoriser le rsultat obtenu
Soit Erreur (Ni) le meilleur rsultat obtenu
Si Erreur (Ni) Taux_Erreur_Courant
Alors Taux_Erreur_Courant:= Erreur (Ni)
Simplifier larbre en retirant le nud N
Sinon FIN_ELAGAGE
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 85
Limites des arbres de dcision

Tout nest pas apprenable

Impossibilit dapprendre directement certains concepts simples


R1 : Si a=vrai alors C1 R1 : Si a=vrai alors C1
R2 : Si b=vrai alors C2 R2 : Si a=faux & b=vrai alors C2

Hypothse de non-corrlation entre les attributs


Le calcul dentropie nest ralis que sur un seul attribut la fois ...
Rgles simples (XOR-like)
Si Cout < s1 & Age < s2 Alors
Si Cout > s1 & Age < s2 Alors
Si Cout < s1 & Age > s2 Alors
Si Cout > s1 & Age > s2 Alors
Or ces 2 attributs on peut de chance dtre retenus ...
Gain (E, Cot) = Entropie (E) - EM (E, Cot) 0
Gain (E, Age) = Entropie (E) - EM (E, Age) 0

Une solution : llagage du jeu de rgles

Transformation de larbre en rgles et lagage (glouton) des prmisses


Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 86
Conclusion

Une approche rpandue

Mthode de recherche rapide par gradient

Complexit algorithmique faible

Utilisation tous les attributs (cas pire) : (#Exemple.#Attribut2)


Pour un arbre binaire de profondeur P : (#Exemple.#Attribut.Log2 P)

Nombreuses extensions existantes permettant :


Incrmentalit : ID5, ...
Post-lagage statistique : C4.5, C5.0, ASSISTANT 86, ...
Utilisation de nombres rels : NewId, ...

Systme ancien avec de nombreuses versions commerciales:


C5: http://www.rulequest.com/
CART 5: http://www.salford-systems.com/products-cart.html
CLEMENTINE 7: http://www.spss.com/spssbi/clementine/whats_new.htm

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 87


Le systme Weka
http://www.cs.waikato.ac.nz/~ml/weka/

Une boite outilspour lapprentissage

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 88


Weka: Outils de classification

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 89


Weka: Visualisation des sorties

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 90


Weka: Configuration de flots de donnes

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 91


Induction de rgles : Induce (Michalski 83)

Prsentation gnrale
Construction de rgles didentification de problmes
Nombreuses versions existantes (Induce, AQ, CN2, FOIL, ...)
Moins de contraintes sur le format de la connaissance que dans TDIDT

Entres
Un ensemble d'exemples caractrisant plusieurs concepts
Les exemples sont des conjonctions de littraux
Attribut slecteur valeur (Induce, AQ, CN2)
Calcul des prdicats (FOIL)
Une thorie du domaine (Induce)

Sorties
Ensemble de rgles discriminantes : Si D1& D2 & D3 Alors C

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 92


Procdure de ltoile

L'Etoile G(E|NEG)
Gnralisations conjonctives de E minimalement discriminantes
Problme : la taille de ltoile peut tre trs importante en LPO

Exemple dEtoile

E1 : poids=lger & sexe=garon & age=bb & cheveux=blond

CE1 : poids=lger & sexe=fille & age=ado & cheveux=blond


CE2 : poids=moyen & sexe=garon & age=bb & cheveux=roux

G(E1| (CE1,CE2))

{ (poids=lger & sexe=garon) (poids=lger & age=bb)


(sexe=garon & cheveux=blond) (age=bb & cheveux=blond)}

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 93


Algorithme de base

Pour chaque classe Ci discriminer :


Les exemples de Ci forment l'ensemble des POS
Tous les autres exemples forment les NEG

Tant que POS n'est pas vide


Prendre un lment E de POS (la graine)
Calculer l'toile : G(E|NEG)
Prendre la "meilleure" description trouve D
Critres de prfrence :
- Nombre d'exemples POS couverts, NEG couverts
- Simplicit de la description
- Pertinence des descripteurs, ...

Construire la rgle R : Si D Alors Ci


Enlever de POS les lments couverts par la rgle

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 94


Etoile Borne G(E | NEG,MAX)

Principe: une recherche par faisceau (Beam search)

Initialisation
PS = Ensemble des candidats {(Di, PosCouv, NegCouv), ...}
- Les diffrents littraux qui composent E: D1, D2, ...
- Dautres littraux construit laide de la thorie du domaine

SOLUTION = ; COHERENT = ; CPS = PS


Seuil1, Seuil2, Branch sont des paramtres donns

Tant que (card (SOLUTION) < Seuil1 OU card (COHERENT ) < Seuil2)
EVAL (PS) : Evaluer les descriptions dans PS et les classer
STORE (PS) : Ranger les descriptions satisfaisantes trouves
BUILD (PS) : Construire les nouveaux descripteurs de PS

GEN (COHERENT): Gnraliser les descriptions de COHERENT

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 95


Eval et Store

Procdure EVAL (PS)


Classer les descriptions avec les LEF (Lexical Evaluation Functions)
a) Ordonner les lments de PS selon la couverture
b) Rejetter les lment ne vrifiant pas
NegCouv > Max-Neg-Couvert & PosCouv > Max-Pos-Couvert
c) ...

Procdure STORE (PS)


PS = les MAX meilleurs descriptions de PS
Pour toutes les descriptions Di dans PS
Si Di est complte (tous POS) et cohrente (aucun NEG)
SOLUTION = SOLUTION+ Di
Si Di est seulement cohrente (aucun NEG)
COHERENT = COHERENT + Di

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 96


Build et Gen

Procdure BUILD (PS)


Pour I = 1 jusqu Branch
Construire de nouvelles descriptions Di
A= Elment-de (PS)
B = Elment-de (CPS)
Di = A & B SSI Intrt (Last (A)) Intrt (B)
Placer Di dans PS

Procdure GEN (COHERENT)


Gnraliser les descriptions de COHERENT avec les rgles
Variabilisation des termes Poids (titi,60kg) Poids (X,60kg)

Utilisation de la rgle dabandon Age=25 & Taille=150 Taille=150

Remonte dans les taxonomies Forme=carr Forme=rectangle

Elargissement des limites Taille=[5..10] Taille=[5..20]

Placer les descriptions compltes et cohrentes dans SOLUTION

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 97


Exemple (1)

Exemples

E1 : poids=lger & sexe=garon & age=bb & cheveux=roux


E2 : poids=moyen & sexe=garon & age=adulte & cheveux=blond

CE1 : poids=lger & sexe=fille & age=ado & cheveux=roux


CE2 : poids=lourd & sexe=garon & age=bb & cheveux=blond
CE3 : poids=moyen & sexe=fille & age=adulte & cheveux=roux

Thorie du domaine

Poids : valeurs ordonnes (lger, moyen, lourd)


Age : valeurs ordonnes (bb, enfant, ado, adulte)

Paramtre initiaux

MAX = 3, Seuil1 = 1, Seuil2 = 3, Branch = 5


La graine slectionne est E1
POS = {E1, E2} et NEG = {CE1, CE2, CE3}

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 98


Exemple (2)

1) Construction de PS (et CPS) pour G(E1 | NEG,3)

PS = { (poids=lger ; PosCouv=1 ; NegCouv=1 )


(sexe=garon ; PosCouv=2 ; NegCouv=1 )
(age=bb ; PosCouv=1 ; NegCouv=1 )
(cheveux=roux ; PosCouv=1 ; NegCouv=2 )

2) Ordonnancement des descriptions selon le ratio de couverture

PS Description PosCouv NegCouv


D1 sexe=garon 2 1
D2 poids=lger 1 1
D3 age=bb 1 1
D4 cheveux=roux 1 2

3) Aucune description n'est complte ni cohrente, donc :


SOLUTION = & COHERENT =

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 99


Exemple (3)

4) On garde les 3 (MAX) premires descriptions. On cr 5


(Branch) nouvelles descriptions partir de PS et de CPS.

5) On itre, puis on ordonne les descriptions avec la LEF

PS Description PosCouv NegCouv


D1 sexe=garon & poids=lger 1 0
D2 sexe=garon & cheveux=roux 1 0
D3 poids=lger & age=bb 1 0
D4 poids=lger & cheveux=roux 1 1
D5 sexe=garon & age=bb 1 1

6) On a trouv 3 descriptions cohrentes (Seuil2) on s'arrte !

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 100


Exemple (4)

7) On essaye de gnraliser ces trois descriptions de COHERENT

D1 : sexe=garon & poids=lger


D2 : sexe=garon & cheveux=roux
D3 : poids=lger & age=bb

En utilisant le fait que Poids est un type ordonn on peut


gnraliser la description D1 :

(sexe=garon & poids=lger)


(sexe=garon & poids=[lger .. moyen])

Cette formule couvre tous les POS et rejette tous les NEG.

8) Rgle de reconnaissance finale R

R : SI sexe=garon & poids = [lger .. moyen] ALORS Classe-P

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 101


Analyse d'INDUCE

Avantages

Construction de systmes de rgles efficaces


Nombreuses versions (Aq, Induce, ...)
Reprise du principe de construction glouton (CN2, FOIL, ...)

Inconvnients

Cot calculatoire si le langage est complexe


Tests de couverture coteux en ordre 1
De trs nombreux biais sans smantique relle
Choix des rgles, des valeurs de seuil, ...
Introduction alatoire des disjonctions
Nombre de disjonctions dpend des graines choisies
Pas d'enchainement entre les rgles

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 102


Dans les reprsentations relationnelles

Les approches ILP (Inductive Logique Programming)

Nombreux systmes :
Progol (Muggleton), Foil (Quinlan), Golem (Muggleton & Feng), RIBL (Emde
& Wettschereck), Claudien (De Raedt & Dehaspe), STILL (Sebag), Tilde
(Blockeel & De Raedt), Midos (Wrobel), WARM (Dehaspe),

Reprsentation des exemples en logique (Datalog)

H H Ethanal(m1):-
lien (m1, c1, o, double),
H C C lien (m1, c1,c2, simple),
lien (m1, c1, h1, simple),
H O
aldhyde (m1),
7,

On apprend des clauses, par exemple: (Srinivasan et al. 99)

Mutagne (Molecule):- lien (Molcule, Atome1, Atome2, double),


contient_5_cycles (Molcule, Cycle1),
aromatique (Cycle1)
est_dans_cycle (Atome1, Cycle1).

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 103


Le systme FOIL

Principe

Apprentissage par spcialisation de clauses


En entre des tuples positif et ngatifs
+
 : Femme(marie), Parent(anne, marie),
Femme(eve), Parent(eve, tom)

-: Femme(isabelle), Parent(pierre, isabelle),

Une clause apprendre: Fille (X, Y):-

Contraintes syntaxiques sur les hypothses :

Pas de terme fonctionnel mais ngations et utilisation de constantes


Possibilit de dfinir des types darguments
Les Cls expriment des restrictions sur linstanciation des variables

CO1(molecule_id,atom_id,atom_id) #--

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 104


Algorithme de FOIL

Programme =
P = ensemble dexemples positifs
" 8 .- "

Tant que P nest pas vide


N = ensemble dexemples ngatifs
C = Concept (X1,, Xn) :- .
Tant que Neg nest pas vide:
o Construire un ensemble de littraux candidats {L1 Lk}
o Evaluer la couverture des littraux sur les ensembles P et N

o Ajouter le terme slectionn Lc la clause C


o Retirer de N les exemples ngatifs qui ne sont rejetts par C
Ajouter la clause apprise C au Programme
Retirer de P tous les exemples positifs couverts

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 105


Analyse des rsultats

Avantages

Construction de systmes de rgles assez gnrales


Capacit grer du bruit dans les donnes
Possibilit dexprimer des contraintes syntaxique
Gestion de la ngation (hypothse du monde clos)

Inconvnients

Cot calculatoire lev si la base est complexe


Ne gre pas les dfinitions rcursives (version courante)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 106


Approches volutionistes (Holland 84)

Prsentation gnrale
Algorithmes dinspiration biologique
Mtaphore sur le mcanisme de la gntique (mutations, ...)
Mtaphore de la thorie de lvolution (multiplication des mieux adapts)
Domaines dutilisation varis
Apprentissage de bases de rgles (classifieurs)
Optimisation de fonctions numriques
Acquisition de connaissances de contrle
Exploration alatoire de lespace des hypothses recherche par gradient

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 107


Principes lmentaires des AG

Les AE reposent sur les hypothses suivantes

Codage des informations (individus, rgles, ) sous une forme homogne


Utilisation dune population dindividus
Mesure objective de ladquation des individus lenvironnement
Processus de reproduction avec modifications et changes

Population (t) 2 Population (t+1)


New
: L c
1
^ Evaluation Reproduction
c C : ^ New
: c U
] ~ C L C
^ L
] ~

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 108


Codage des informations

Population dindividus

Codage homogne des rgles sous forme dun vecteur de bits (gnotype)

Attribut couleur taille forme classe


Valeur rouge 4 carr positive

Codage 001 010 010 000


0 3 6 9 12

Chaque attribut est cod par une srie de n bits


Logique deux ou trois tats : 0, 1 et # (Valeur quelconque)
Exemple de couleurs : Rouge : 001 ; Vert : 010 ; Bleu : 100, Jaune : 011, etc

Diffrent type de codage : code binaire, code Gray , ...

Individus initiaux tires alatoirement ou issues des exemples


A chaque individus est associe une valeur de qualit refltant son
adquation (celui de son phnotype) avec lenvironnement

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 109


Rgles dvolution

Deux oprateurs de modification des donnes

Mutation dun gne



R 001 010 010 000

Rm 001 000 01# 000
0 3 6 9 12

Exemple de mutation alatoire sur les bits 4 et 8 de R

Croisement entre gnes (Crossing-over)

R 1 001 011 000 010 R1 000 010 000 010



R 2 001 010 010 000 R2 001 011 011 000
0 3 6 9 12 0 3 6 9 12

Exemple de croisement alatoire entre les bits 2-5 de R1 et 5-8 de R2

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 110


Apprentissage de rgles (classifieurs)

Soit un ensemble dexemples des concepts apprendre

Initialisation
On gnre alatoirement une population de rgles

Tant que le taux de prdiction global < seuil

On prend un exemple Ei de lensemble de test


On teste chacune des rgles sur cet exemple Ei
- Celles le classifiant bien sont rcompenses (Qualit + )
- Celles le classifiant mal sont pnalises (Qualit - )
Suppression des rgles les moins bien notes
(avec une probabilit de suppression qui est inversement fonction de la qualit)

Nouvelles rgles par Reproduction, Mutation & Croisement


(avec une probabilit de slection qui est fonction de la qualit)

Note: on ne garde pas la population finale mais lensemble des meilleures rgles gnres
au cours des itrations (la qualit nest pas monotone croissante)
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 111
Optimisation de fonctions numriques

Mme ide que dans le cas de rgles


Soit la fonction F(x, y, ..., z) que lon veut maximiser
On gnre une population de vecteurs Vi = [xi, yi, ..., zi]
Repter
1) Evaluer les vecteurs prsents dans la population
2) Les faire se reproduire en fonction de leur qualit
Tant que F(Vi) > F(Vi-1)

Exemple simple

Soit la fonction F(x) = x 2 maximiser


Les vecteurs vont tre cods en binaire sur 5 bits (0-31)

La fonction de rcompense est R(x) = x2


Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 112


Exemple doptimisation de fonction : F(x) = x2
On pourrait simuler la population initiale et les tirages alatoire dindividu et de position ncessaires pour effectuer le croisement
et la mutation laide de ds (ou de pices de monnaie) ...

Population initial Suppression (8 ) /Reproduction (24 )


X Codage R(x) Prob X Codage R(x) Prob
13 01101 169 .144 13 01101 169 .100
24 11000 576 .492 24 11000 576 .342
8 01000 64 .055 24 11000 576 .342
19 10011 361 .309 19 10011 361 .216
Total 1170 1.0 Total 1682 1.0

Croisement (entre 24 et 19 sur la position pivot 2) Mutation (sur 13 position 4)


X Codage R(x) Prob X Codage R(x) Prob
13 01101 169 .098 15 (ex 13) 01111 225 .126
27 (ex 24) 11011 729 .421 27 11011 729 .408
24 11000 576 .333 24 11000 576 .322
16 (ex 19) 10000 256 .148 19 10000 256 .144
Total 1730 1.0 Total 1786 1.0

On est pass de [R(X) = 1170, Max = 576] [R(x) = 1786, Max = 729]
On boucle sur ltape

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 113


Utilisation en robotique

Apprentissage de connaissance de contrle

Confrontation directe des individus avec lenvironnement


La rtribution des individus est fonction des objectifs atteints

Exemplede robot marcheur

Objectif: avancer le plus vite possible

Gnome : manipulation des 4 membres Mi


o Vecteur de 9 termes
o Sin[Vitesse x(Temps +Phasei)] Amplitudei

Cycle dapprentissage:
- Initialisation des 16 agents
- Boucler:
Prendre 4 Robots Ri au hasard
Mesurer le dplacement ralis
Rplication des 2 meilleurs Logiciel de simulation Multi-Agent Breve
Suppression des 2 autres http://www.spiderland.org/breve/

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 114


La programmation gntique

Reprsentation des programmes sous forme arborescente (LISP-like)

Exemple:
Function Calcul (a, b)
If a > 0
Then a b
Else a * (b + 1)

En LISP:
(defun calcul (a b)
(if (> a 0)
(- a b)
(* a (+ b 1))))

Mutation: ajout/retrait de sous-arbre alatoires


Croisement: changes de sous-arbres entre programmes
Rcompense: qualit du rsultat produit par la fonction
Application: robotique, apprentissage de surfaces sparatrices,
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 115
Conclusions sur les AE

Exploration stochastique de l'espace de recherche

Bon rsultats sur des problmes doptimisation complexes

Apprentissage assez peu rapide


On utilise des populations (10 1000)
De nombreuses itrations sont ncessaires (100 10000)

De nombreux paramtres de contrle dterminer


Taille de la population
Type de codage utiliser coder le problme et les valeurs
Taux de reproduction, de mutation et de croisement utiliser
Choix du modle dvolution (c--d de lalgorithme)

Domaine trs cratif ...

Couplage entre AG et AS pour apprendre des (mta) rgles de


mutation et de croisement.
Mcanisme de co-volution entre diffrents types dindividus

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 116


Lanalogie

Ressemblance tablie par limagination entre deux objets, ou


connaissances, essentiellement diffrents

Lanalogie dans le langage courant


Enoncs 2, 3 ou 4 termes
A est B Les bourgeois cest comme les cochons (Mtaphore)
A est le B de C Tu est le soleil de ma vie
A est B ce que C est D La fanfare militaire est la musique, ce que McDonald est la gastronomie

Lanalogie en sciences cognitives


La thorie de lappariement des structures (Gentner 83, 96)
Le systme dappariement ACME (Thagard, Holyoak 90)

Lanalogie en rsolution de problme


Lanalogie comme heuristique
On essaye de se ramener un cas dj vu (ex : dmonstration mathmatique, jeux, ...)

Lanalogie comme raisonnement


On rapplique une solution qui a dj t applique pour un cas analogue

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 117


Analogie et dcouverte

SOURCE CIBLE

Notion dappariement

Diffrence de pression Diffrence de temprature


Tuyau de liaison Barre mtallique
Elvation du niveau Elvation de la temprature

Le glaon fond car la chaleur diffuse travers la barre


Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 118
Travaux de Gentner

Reprsentation des cas analogues


Reprsentation voisine de la LPO
CAUSE [SUPERIEUR (PRESSION (bcher), PRESSION (verre) ), FLUX (bcher, verre) ]

CAUSE

SUPERIEUR FLUX (bcher, verre, eau, tube) SUPERIEUR

PRESSION (bcher) PRESSION (verre) TEMPERATURE (caf) TEMPERATURE (glace)

SUPERIEUR LIQUIDE (caf) FLUX (caf, glace, chaleur, barre)


PLAT (eau)

LIQUIDE (eau) DIAMETRE (bcher) DIAMETRE (verre) PLAT (caf)

Principes dappariements analogique entre les objets


Mise en correspondances des objets de la source et de la cible
Pas de prise en compte des attributs isols
On essaye dapparier les objets lis par des relations
Principe de prservation des systmes (systematicity principle)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 119


Un modle de la remmoration

Diverses formes de comparaison

Attributs Relations Exemple


Apparence Beaucoup Peu Une luciole ressemble une lampe
Similarit abs. Beaucoup Beaucoup Le lait ressemble de l'eau
Analogie Peu Beaucoup Un atome est analogue au systme solaire
Abstraction Peu Beaucoup La chaleur s'coule par diffusion

Thorie MAC/FAC (Many Are Called/Few Are Chosen)

La recherche dune information en mmoire seffectue en deux tapes

Une recherche rapide pour retrouver des cas possibles


Une phase de slection des analogues extraits

La recherche rapide en mmoire - Similarits de surface


Pertinence de la comparaison - Similarits structurelles

La notion classique de similarit correspond une similarits littrales

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 120


Le systme ACME

Satisfaction de trois contraintes lors de lappariement

Syntaxique
Isomorphisme de structure (systematicity principle)

Smantique
Ressemblance entre les prdicats
- Identit (seule prise en compte par Gentner, sauf pour les attributs)
- Synonymie
- Hyperonyme (parent commun dans une taxonomie)
- Mronyme (composants dun mme objet physique)

Pragmatique
Pondration des informations importantes

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 121


Mthode dappariement

Rsolution par un rseau de contraintes

Cration des nuds (ensemble des appariements possibles)


Cration des liens dactivation (appariements compatibles)
Cration des liens dinhibition (appariements conflictuels)

Cible : Source :

T1 A(a) S1 M(m)
T2 B(b) S2 N(n)
T3 C(a,b) S3 O(m,n)
T4 D(b,a) S4 P(n,m)
A ressemble M
N est important

Utilisation du rseau (synchrone)


Nj(t+1) = Nj(t) + (activation_positive) - (activation_ngative)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 122


Paradigme de lanalogie

Raisonnement analogique en quatre tapes :


Recherche dune source potentielle
Elaboration dun appariement entre source S et cible C
Evaluation des mises en correspondances et nouvelles infrences
Transfert de la solution avec
Par adaptation (modification directe)
Par explication (utilisation dune abstraction)

Bibliothque de sources
relation 1
Source Enonc Solution

S

identit de causalit '


1=2
Cible
C Enonc ?
relation 2

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 123


Exemple de raisonnement analogique

Cible : toile (Vga), plante (Rama), tourne (Rama, Q u e s t i o n : Quelle est la


Vga), distance (Vga, Rama, 170 Mkm), temprature dure, en jour, de lanne
(Rama, 15), jour (Rama, 70.000 s). sur la plante Rama ?

Recherche dune source potentielle


Source : toile (Soleil), plante (Terre), tourne (Terre, Soleil), distance (Terre, Soleil, 150 Mkm),
vitesse (Terre, 30 km/s), jour (Terre, 86.400 s), satellite (Terre, Lune) anne (Terre, 365 j)

Elaboration dun appariement entre les entits


Soleil Vga : toile (x) , tourne (_, x), distance (x, _, _)
Terre Rama : plante (y) , tourne (y, _), distance (_, y, _), jour (y, _)

Evaluation des mises en correspondance et nouvelles infrences


Similarit (C, S) = 5 communes / 7 proprits = 72 %
Transfert de proprits de la source vers la cible :
vitesse (Rama, 30 km/s) satellite (Rama, Lune).

Transfert de la solution
Par adaptation (Transfert de : anne (Rama, 365 j)) : anne = 365 j

Par explication (Anne = 2..Distance/Vitesse.Jour) : anne = 507 j

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 124


Raisonnement (analogique) par lexemple

S1 est P
or S2 ressemble S1
donc S2 est probablement P

Approche pragmatique de lanalogie

Des analogies intra-domaine


Source et cible sont de mme nature
La tche dapprentissage effectuer est bien dfinie
Des langages de reprsentation assez simple (souvent LPV)
Nombreuses approches
IBL (Instance Based Learning) et CBR (Case Based Reasoning)

Vers un apprentissage paresseux

Lapprentissage est de nature intrinsquement incrmental


On ne construit pas (ou peu) de connaissances explicites

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 125


Exemples versus Connaissances...

Donnes Abstractions

Apprentissage

- On ne travaille que sur les exemples + On construit des rgles symboliques


- Lisibilit de la base faible + Reprsentations explicites
Utilisation de la ressemblance Mise en uvre dun raisonnement
+ Mise jour lmentaire - Remise jour assez difficile (rvision)
+ Pas de perte dinformation (robuste) - Compression destructive (fragile)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 126


Instance Based Learning
(Aha et al. 91)

Ide gnrale

Apprentissage simple par mmorisation des instances (exemples)


Utilisation dun algorithme de type k-Plus Proche Voisin (avec k=1)
Apprentissage de type incrmental, avec en pratique ...
Des phases de mise jour de la base dinstances (MI)
Des phases dutilisation du systme

Lapprentissage repose sur 3 fonctions

Mesure de ressemblance entre les instances

Critre de classification des instances

Remise jour de la description de concepts

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 127


La notion de distance

De quoi sagit-il ?

Quantifier les diffrences qui existent entre deux descriptions

Vision gomtrique
Distance de Manhattan (City-block, Hammer)
Age
Dist (A,B) = AgeA AgeB + TailleA TailleB

Distance Euclidienne
A

Dist(A,B) = (AgeA AgeB ) 2 + (TailleA TailleB ) 2
Distance ?

Proprits dune distance


B a, b, c
1) (a, a) = 0 (proprit de minimalit)
Taille 2) (a, b)= d (b, a) (proprit de symtrie)
3) (a, b)= 0 a = b (proprit de sparation)
4) (a, c) (a, b) + (b, c) (ingalit triangulaire)
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 128
Comparaison de deux exemples

Distance entre deux exemples


Prise en compte du type de valeur considrer (Nominales, Ordonnes, ...)

Normalisation de lchelle des distances dans lintervalle [0..1]


Attributs

dist T (xi ,yi )


i
DIST(x,y) =
Card( Attributs) Attributs = union des attributs de x et de y

On peut aussi considrer la similarit : SIM (x,y) = 1 - DIST (x,y)

Quelques fonctions distT classiques


- Nominales : dist T (x i , y i ) = Si (x i = y i ) Alors 0 Sinon 1
- Ensemble : dist T (x i , y i ) = card(x i y i ) card(x i y i )
- Continues : dist T (x i , y i ) = x i y i cardi

- Intervalles : dist T (x i , y i ) = ( min x i min y i + max x i max y i ) 2.cardi

- Taxonomies : dist T (x i , y i ) = Longueur(x i , y i ) Longueur _ max

On peuttoutefois trouver une expression gnrale de ces formules .
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 129

Exemple de calcul

Soit les attributs suivants

Sexe : nominal (homme, femme) Taxonomie pour habitat


Age : continue [1..100]
Poids : continue [10..120]
Taille : ordonn (petit, moyen, grand, trs_grand)
Teint : ordonn (blond, brun, roux)
Horaire : intervalle [0 .. 24]
Habitat : taxonomie [(terre / continent / pays / ville)]

Calcul de distance

Sexe Age Poids Taille Teint Horaire Habitat


Yves homme 22 - grand brun [6..16] Rennes
Joan femme 32 56 grand - [10..24] Norvge
distT 1 0,1 1 0 1 0,25 0,5
simT 0 0,9 0 1 0 0,75 0,5

DISTmanhattan (Yves, Joan) = 3,85 / 7 = 0,55 (soit une similarit de 0,45)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 130


Mthode IB 1

Algorithme dapprentissage
Soit I une nouvelle instance classer en utilisant la base MI
Procdure IB1 (I)
Pour tous S MI
Calculer Sim (I,S) (fonction de similarit)
Soit Smax le cas plus similaire I
Affecter I la classe de Smax (fonction de classification)
Correction de la classe de I ; MI I (fonction de remise jour)

Analyse de IB1

Apprentissage par cur, mais


bonnes performances prdictives
Mmorise lensemble des instance

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 131


Mthode IB 2

Algorithme dapprentissage
Soit I une nouvelle instance classer en utilisant la base MI
Procdure IB2 (I)
Pour tous S MI
Calculer Sim (I,S) (fonction de similarit)
Soit Smax le cas plus similaire I
Affecter I la classe de Smax (fonction de classification)
Si la rponse est fausse (fonction de remise jour)
Correction de la classe de I ; MI I

Analyse de IB2

Mmorise seulement les frontires


Meilleure occupation en mmoire
Rsultat moins bon que pour IB1:
sensibilit lordre des instances
sensibilit au bruit
Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 132
IB 2+ avec oubli

Algorithme dapprentissage
Soit I une nouvelle instance classer en utilisant la base MI
Procdure IB2+ (I)
Pour tous S MI
Calculer Sim (I,S) (fonction de similarit)
Soit Smax le cas plus similaire I
Affecter I la classe de Smax (fonction de classification)
Si la rponse est fausse (fonction de remise jour)
Correction de la classe de I ; MI I
pertinence (Smax) = pertinence (Smax) -
Si pertinence (Smax) < seuil Alors MI = MI Smax
Sinon
pertinence (Smax) = pertinence (Smax) +

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 133


Pondration des attributs

Prise en compte de limportance des attributs

Lors dune recherche tous les attributs ne sont pas pertinents

La pertinence dpend du but de la recherche


Exemple : reconnaitre des familles dautomobiles (urbaines, sportives, ...)

Utilisation dune mesure de ressemblance pondre


Attributs

W i.dist T
(xi , yi )
i
DIST(x,y) = Attributs

Wi
j

Or, choisir a priori la pondration des attributs nest pas toujours facile

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 134


Apprentissage des poids

Utiliser les prdictions pour pondrer automatiquement (EACH, Salzberg 91)

Soit Smax le cas le plus similaire I


Pour tous les Wi ,on calcule
Si S classe bien I, on rcompense Wi
W i simT (Si ,Ii ) =
Wi Wi + K ( Influence )
2

Influence i = Attributs i

W j simT (S j ,I j ) Si S classe mal I, on pnalise Wi


2
j
=
Wi Wi K ( Influence i)


Exemple de calcul (tous les domaines sont dans lintervalle [0..100] et K = 0,5)
simT
S max I Wi Influencei Si I bien class Si I mal class
Taille 30 50 0,8 2 (2x0,8/2,8) =57 % Wi=2,16 Wi=1,84
Age 20 80 0,4 1 (1x0,4/2,8) =14 % Wi=1,01 Wi=0,99
Poids 45 65 0,8 1 (1x0,8/2,8) =29 % Wi=1,04 Wi=0,96

Autres approches possibles

Grer indpendemment la pondration au niveau de chacun des concepts


Apprentissage des poids par un autre SA (Algo. gntique : GA-WKNN de Kelly et Davis)

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 135


Raisonnement par cas
(Kolodner 92)

Une approche pragmatique du raisonnement analogique

Analogie intra-domaine

Raisonnement partir de bibliothques de cas dj rsolus

Indexation pousse des cas en mmoire (rapidit, pertinence)

Facilit de mise en uvre et de maintenance

De nombreux implmentations commerciales:

Des systmes de diagnostic


Aide la conception, la planification
Gestion du support clients ...

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 136


Schma gnral du CBR

Entre
Nouveau
problme Remmoration

Cas
Cas appris Bases de cas remmors

Connaissances
gnrales

Mmorisation

Rutilisation
Solutions Rvision Solutions
adaptes retrouves
Sortie

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 137


Les tapes du raisonnement

Remmoration : recherche de cas similaires en mmoire


Utilisation de mesures de similarit syntaxiques
Utilisation dindex en mmoire pour focaliser la recherche

Rutilisation : Mise en correspondance entre S et C

Recherche des parties significatives du problme

Rvision : Adaptation de la solution prcdente


Par modification directe ou par reconstruction

Mmorisation : intgration du nouveau cas la base


Gnralisation avec les cas similaires
Mise jour des index : dtection des attributs discriminants

Gilles Bisson, Cours Apprentissage, novembre 9, 2005, p 138