coursFM Apprentissage

APPRENTISSAGE ARTIFICIEL
( Machine-Learning )
Fabien Moutarde
Centre de Robotique (CAOR)
MINES ParisTech (Ecole des Mines de Paris)
Fabien.Moutarde@mines-paristech.fr
http://www.mines-paristech.fr/~moutarde
Apprentissage artificiel ( Machine-Learning )
Fabien Moutarde, CAOR, MINES ParisTech
mai 2011
Un domaine interdisciplinaire
INTELLIGENCE
ARTIFICIELLE
STATISTIQUES,
analyse de donnes
OPTIMISATION
Apprentissage
Artificiel
AUTOMATIQUE,
commande,
robotique
VISION
mai 2011
APPRENTISSAGE ARTIFICIEL
Capacit dun systme
amliorer ses performances via
des interactions avec son environnement
Une des familles essentielles de techniques pour

lIntelligence Artificielle (IA) : permet
conception et/ou adaptation automatise du modle
et/ou du comportement dagents intelligents
mai 2011
Exemples introductifs
Reconnaissance de caractres
Systme de
reconnaissance
de chiffres
Comportement dun robot autonome

Navigation vue optimisant
accomplissement dune tche
(e.g., collecter de la nourriture )
mai 2011
Notion dagent intelligent

Modle gnral pour lIA : agent intelligent
perception
AGENT
?
"actionneurs "
"action"
ENVIRONNEMENT
senseurs
NOTES :
1. action comprendre AU SENS LARGE (par exemple a
peut tre fournir un diagnostic )
2. Boucle Agent/Environnement pas ncessairement ferme
mai 2011
Spcificit de lapprentissage
Conception et/ou adaptation de lagent

par analyse automatise (gnralement statistique)
de son environnement, et/ou du rsultat
de son action dans celui-ci.
mai 2011
Exemple typique dapprentissage

Agent prdicteur
historique
PREDICTEUR
prdiction
donnes
externes
Performance vise : minimiser erreur de prdiction

Moyen mis en uvre :
utiliser des donnes exprimentales pour trouver un
modle prdiction=f(historique, donnes externes) le
plus correct possible
mai 2011
Typologie de lapprentissage
Capacit dun systme amliorer ses performances via
des interactions avec son environnement
Quel systme ?
types de modle (Ad hoc ? Issu dune famille particulire de

fonctions mathmatiques [tq splines, arbre de dcision, rseau
de neurones, arbre dexpression, machine noyau] ?)
Quelles interactions avec lenvironnement ?

apprentissage hors-ligne v.s. en-ligne
apprentissage supervis ou non, par renforcement
Quelles performances ?
fonction de cot, objectif, critre implicite,
Comment amliorer ?
type dalgorithme (gradient, rsolution exacte problme

quadratique, heuristique, )
mai 2011
Paradigme dapprentissage
Chaque paradigme se caractrise par :
Un modle, le plus souvent paramtrique

+
Une faon dintragir avec lenvironnement
+
Une fonction de cot minimiser (sauf exceptions)
+
Un algorithme pour adapter le modle,
en utilisant les donnes issues de lenvironnement,
de faon optimiser la fonction de cot
mai 2011
Exemple trivial :
rgression linaire par moindres carrs
Modle : droite y=ax+b (2 paramtres a et b)

Interaction : collecte pralable de n points (xi,yi)2
Fonction de cot : somme des carrs des carts la
droite K=i(yi-a.xi-b)2
Algorithme : rsolution directe (ou itrative) du
systme linaire
n
xi2
i 1
n
xi
i 1
n
xi
xi yi
a
i 1
i 1n
b
n
yi
i 1
n
mai 2011
10
Nombreux paradigmes
Rgression linaire par moindre carrs

Algo ID3 ou CART pour arbres de dcision
Mthodes probabilistes
Rtropropagation du gradient sur rseau

neuronal couches
Cartes topologiques de Kohonen
Support Vector Machines
Boosting de classifieurs faibles

mai 2011
11
Principaux types dalgorithmes

Rsolution systme linaire (rgression, Kalman, )
Algos classiques doptimisation
Descente de gradient, gradient conjugu,
Optimisation sous contrainte
Heuristiques diverses :
Algo dauto-organisation non supervise de Kohonen

Algorithmes volutionnistes (GA, GP, )
colonies de fourmis (Ant Colony Optimization)
Optimisation par Essaim Particulaire (OEP)
Renforcement (Q-learning, )
mai 2011
12
APPRENTISSAGE SUPERVIS :
rgression et classification
Environnement exemples de type (entre,sortie)
entre = perception
AGENT
?
sortie adquate ( dsire )
Rgression
Classification
(approximation)
(yi = tiquettes )
sortie
entre =
position point
sortie dsire =
classe ( =-1,+=+1)
entre
points = exemples courbe = rgression

Fonction
tiquette=f(x)
(et frontire de
sparation)
mai 2011
13
Apprentissage supervis
Exemples entre-sortie
(x1,y1), (x2,y2), , (xn, yn)
H famille de
modles mathmatiques
ALGORITHME
hH
DAPPRENTISSAGE
Hyper-paramtres pour
lalgorithme dapprentissage
mai 2011
14
Typologie des algos de classification

Par analogie Plus Proches Voisin (PPV)
Par combinaison de tests lmentaires :
Arborescence Arbre de Dcision Binaires (ADB)
Vote pondr boosting (dopage)
Par approche probabiliste (avec hypothses sur distribution
des classes) mthodes baysiennes
Par minimisation de lerreur (descente de gradient, etc..)
Rseaux de neurones (MLP), etc
Par maximisation de la marge
Support Vector Machines (SVM)
mai 2011
15
Notion de perte et
les diverses erreurs dapprentissage
Mesure de la qualit du modle h :
E(h)=E( L(h(x),y) )
o L(h(x),y) est la fonction de perte
gnralement = ||h(x)-y||2
Divers optima possibles

h* optimum absolu = argMinh(E(h))
h*H optimum dans H = argMinhH(E(h))
h*H,n optim. ds H avec ex. = argMinhH(En(h))
o En(h)=1/N i(L(h(xi),yi))
E(h*H,n)-E(h*)=[E(h*H,n )-E(h*H)]+[E(h*H)-E(h*)]
mai 2011
16
APPRENTISSAGE SUPERVIS :
dfinition formelle
APPRENDRE = INFERER/INDUIRE + GENERALISER
Etant donn un ensemble fini dexemples (x1,y1), (x2,y2),

, (xn, yn), o xid vecteurs dentre, et yis sorties
dsires (fournies par le superviseur ), trouver une
fonction h qui approxime et gnralise au mieux la
fonction sous-jacente f telle que yi=f(xi)+bruit
but = minimiser erreur de gnralisation
Egen= ||h(x)-f(x)||2 p(x)dx
(o p(x)=distrib. de proba de x)
mai 2011
17
Erreur empirique et VC-dimension

En pratique, seule est mesurable lerreur empirique
sur les exemples dapprentissage :
Eemp = ( i ||h(xi)-yi||2 )/n
Travaux de Vapnik et thorie de la rgularisation

minimiser Eemp(h) sur une famille H minimisera
aussi Egen si H est de VC-dimension finie
VC-dimension : taille maximum dun chantillon S telle que
pour toute dichotomie de S, il existe hH la ralisant (en gros,
la complexit de la famille H)
mai 2011
18
Fonction de cot
et terme de rgularisation
Plus pcisment Vapnik a montr que :
Proba(maxhH |Egen(h)Eemp(h)| ) < G(n,,)
o n=nb dex. et =VC-dim, et G dcrot si n/ augmente

pour tre certain de bien minimiser Egen en rduisant Eemp ,
il faut une VC-dim dautant plus petite que n est petit
une approche possible : minimiser C=Eemp+ (h)

o (h) pnalise les h trop complexes
( rduction de la VC-dim effective )
Principe similaire au rasoir dOckham !!

( pourquoi faire compliqu si on peut faire simple ? )
mai 2011
19
RESEAUX NEURONAUX
Inspirs de larchitecture et fonctionnement cerveau
corps cellulaire
dendrite
synapse
axone
Modle mathmatique paramtr simple + algos

dadaptation des paramtres
ei
P f
Wij
Oj

O j f P e ,Wj
avecpar exemple
P e ,Wj eiWij
f p tanh( p)
X1
Y1
X2
Y2
X3
neurone formel
Rseau =
assemblage de neurones
mai 2011
20
RESEAUX NEURONAUX (2)

Apprentissage = partir d'exemples de couples
(entre, sortie) , le rseau modifie :
les paramtres W (poids des connexions)
ventuellement son architecture A
(en crant/liminant neurones ou connexions)
Plus de dtails sur divers types de neurones, de rseaux

et les algorithmes dapprentissage dans le cours
ddi aux rseaux neuronaux
mai 2011
21
SVM = Support Vector Machines

(= Sparateur Vastes Marges)
Espace des
reprsentations internes
Espace
d'entres X
F
x
Redescription
non linaire
h
Sparation
linaire
Espace
de sortie
F connue seulement
indirectement via noyau k
k(x,z) = <F(x),F(z)>
y
h sparation linaire optimale
au sens marge maximale,
i.e. distance maxi entre hyperplan
et exemples plus proches
(= points de support )
Plus de dtails dans partie du cours

consacre cette technique
mai 2011
22
APPRENTISSAGE NON SUPERVIS

AGENT
?
sortie voulue INCONNUE
ENVIRONNEMENT
entre = perception
Soit on na des exemples que de type entre , et on

cherche obtenir un agent dont la sortie vrifie
une certaine proprit (par exemple, sortie obtenue
identique ou proche pour des entres voisines )
Soit on dispose juste dun environnement (rel ou

simul) dans lequel on peut placer lagent pour
valuer son comportement de faon lamliorer
mai 2011
23
Apprentissage NON supervis

partir de donnes
Base dexemples
de type entre seule :
X= {x1, x2, , xn}
(xid, souvent avec d grand )
H famille de
modles mathmatiques
[ chaque hH agent
avec comportement y=h(x) ]
ALGORITHME
DAPPRENTISSAGE
hH telle que
critre J(h,X)
soit vrifi ou
optimis
Hyper-paramtres pour
lalgorithme dapprentissage
Exemple typique : le clustering

h(x)C={1,2, , K} [ chaque i cluster ]
J(h,X) : dist(xi,xj) plus faible pour xi,xj tq h(xi)=h(xj)
que pour des xi,xj tq h(xi)h(xj)
mai 2011
24
Le clustering (Regroupement, en franais)
Objectif = structuration des donnes

On cherche regrouper les points
proches/similaires en paquets
Pb : les groupes peuvent tre assez bien dfinis et
spars, ou au contraire imbriqus/sans frontires
claires, et de formes quelconques
mai 2011
25
Proximit et distance
Notion de proximit
Mesure de dissimilarit DM : plus la mesure est faible, plus les
points sont similaires ( distance)
Mesure de similarit SM : plus la mesure est grande, plus les points
sont similaires
Comment mesurer la distance entre 2 points d(x1; x2) ?
distance euclidienne :
d2(x1; x2) = i (x1i - x2i)2 = (x1 - x2).t(x1 - x2) (norme L2)
distance de Manhattan :
d(x1; x2) = i |x1i - x2i| (norme L1)
distance de Sebestyen :
d2(x1; x2) = (x1 - x2)W t(x1 - x2) avec W= matrice diag.
distance de Mahalanobis :
d2(x1; x2) = (x1 - x2)C t(x1 - x2), avec C=covariance
mai 2011
26
Types de clustering
Clustering par agglomration
Regroupement Hirarchique Ascendant (Agglomerative
Hierarchical Clustering)
Clustering par partitionnement

Partitionnement Hirarchique Descendant
Partitionnement spectral (sparation dans espace de
vecteurs propres de Matrice adjacence)
K-means
Clustering par modlisation

Mlange de gaussiennes (GMM)
Cartes de Kohonen (Self-Organizing Maps, SOM)
Clustering bas sur la densit

mai 2011
27
Regroupement H. Ascendant
Principe : chaque point ou cluster est progressivement
"absorb par le cluster le plus proche.
Algorithme
Initialisation :
Chaque individu est plac dans son propre cluster
Calcul de la matrice de ressemblance M entre chaque couple de
clusters (ici les points)
Rpter
Slection dans M des deux clusters les plus proches Ci et Cj
Fusion de Ci et Cj par un cluster Cg plus gnral
Mise jour de M en calculant la ressemblance entre Cg et les
clusters existants
Jusqu' la fusion des 2 derniers clusters

mai 2011
28
Dissemblance entre 2 clusters ??
plus proche voisin : min(d(i;j); iC1; jC2)

distance maximum : max(d(i;j); iC1; jC2)
distance moyenne : (i;j d(i;j))/(n1*n2)
distance des centres de gravit : d(b1;b2)
distance de Ward : sqrt(n1n2/(n1+n2))*d(b1;b2)
Chaque mesure variante de RHA

ppV single-linkage
distMax complete-linkage
mai 2011
29
RHA: Dendrogramme
dendrogramme = reprsentation des fusions

successives
hauteur d'un cluster dans le dendrogramme =
similarit entre les 2 clusters avant fusion (sauf
exception avec certaines mesures de similarit...)
mai 2011
30
Clustering par partitionnement

Cas de lalgo nomm k-means
Chaque cluster Ck est dfini par son centrode ck, qui est un
prototype (un vecteur de lespace dentre) ;
Tout x est assign au cluster Ck(x) dont le prototype est le plus
proche de x : k(x)=ArgMink(dist(x,ck))
ALGO :
On choisit K points distincts c1,,cK au hasard parmi {x1,, xn}
On rpte jusqu stabilisation des ck :
Assigner chaque xi au cluster Ck(i) tq dist(xi,ck(i)) est minimum
x card Ck
Recalculer les centrodes ck des clusters : ck
K
[Ceci revient minimiser D dist ck , x ]

2
xCk
k 1 xCk
mai 2011
31
Partitionnement spectral
Principe = passer par graphe dadjacence
nuds = points donnes
val. artes = similarits
(ds [0;1], 1 mme pt)
0.8
0.1
0.9
0.6
0.4
0.8
0.5
0.2
4
algos de partitionnement de graphe (min-cut, etc )

permettent sparer points en groupes
Ex: sur arbre couvrant minimal (Minimal Spanning Tree)

supprimer artes de + petite + grande single-linkage clusters
mai 2011
32
Partitionnement spectral : algo
Calculer matrice Laplacienne L=D-A du graphe adjacence

0.1
0.8
0.6
0.5
0.2
Aij e
||si s j || / 2
2
x1
x2
X3
x4
x5
x6
x1
1.5
-0.8
-0.6
-0.1
x2
-0.8
1.6
-0.8
x3
-0.6
-0.8
1.6
-0.2
x4
-0.2
1.1
-0.4
-0.5
x5
-0.1
-0.4
1.4
-0.9
x6
-0.5
-0.9
1.4
0.9
0.4
0.8
Trouver et trier valeurs propres de L (symtrique => valeurs propres

relles0, et vecteurs propres
Projeter pts sid sur k vect propres de + gdes valeurs propres
nouvelle reprsentation xik, o sparation + facile
0.8
0.6
1.5
0.4
0.5
0.2
0
-2
-1.5
-1
-0.5
0.5
1.5
-0.709
-0.7085
-0.708
-0.7075
-0.707
-0.7065
-0.5
0
-0.706
-0.2
-1
-0.4
-1.5
-0.6
-2
-0.8
mai 2011
33
Apprentissage NON supervis :

cartes auto-organisatrices de Kohonen
Rseau de neurones particulier
neurones
de
sortie
X1
X2
Xn
Entres
avec algorithme dauto-organisation permettant dobtenir

au final un mapping de lespace dentre vers la carte
qui respecte la topologie des donnes
mai 2011
34

cartes auto-organisatrices de Kohonen
L'inspiration initiale est biologique :
auto-organisation des rgions du systme nerveux.
MOTIVATIONS EN CLASSIFICATION / ANALYSE DE DONNEES

Organiser/analyser/catgoriser un grand volume de donnes inexploitable tel
quel (en particulier faire du clustering, i.e. regrouper les exemples en paquets
"similaires" pour dfinir des classes)
Construire une reprsentation visualisable (1D ou 2D en gnral) des entres
par une sorte de "projection non-linaire" de l'espace des entres (en gnral
de grande dimension) qui respecte la topologie initiale (les "projections" de
points proches restent proches).
mai 2011
35
Caractristiques
du rseau de Kohonen
une seule couche de neurones
neurones de type distance
notion de voisinage sur la

couche (souvent appele carte)
chaque neurone peut-tre vu comme un vecteur de lespace
dentre (cf son vecteur de poids)
utilisation : pour une entre X (de d), chaque neurone k
de la carte calcule sa sortie = d(Wk,X), et on associe alors
X au neurone gagnant qui est celui de sortie la plus faible
utilisable pour clustering et/ou comme une
sorte de projection non linaire de d carte
mai 2011
36
Principe de lalgorithme de Kohonen

La rponse d'une cellule i de poids Wi = (wi1, ... , win)
une forme X = (x1, ..., xn) est la distance euclidienne de
X Wi.
l'apprentissage :
reprer la cellule la plus active (la plus proche)
essayer de la rendre encore plus active
EN MEME TEMPS QUE SON VOISINAGE.
2 paramtres : la taille du voisinage (rayon)
le pas (t) de la modification des poids
qui diminuent avec les itrations
mai 2011
37
Voisinage pour carte de Kohonen

dfinition de voisinages sur la carte :
Vi(t) voisinage dcroissant avec itration t

Variante couramment utilise : voisinage gaussien de
largeur dcroissant avec le temps
mai 2011
38
L'ALGORITHME DE KOHONEN
t=0, initialiser les poids (hasard ?)
date t, prsenter l'exemple X
dterminer le neurone gagnant g de poids le plus proche
dterminer le pas (t) [et ventuellement le voisinage V(t)]
modifier les poids :
Wi(t+1) = Wi(t) + (t) (X-Wi(t)) (i,g,t)
avec (i,g,t)=1 si iV(t) et 0 sinon (cas voisinage limit),
ou bien (i,g,t)=exp(-dist(i,g)2/(t)2) [par exemple]
t = t+1
Convergence de l'algorithme :
conditions sur (t) (1/t convient)
[Voir dmo ]
mai 2011
39
Exemple dapplication de Kohonen
Rsultat dun apprentissage sur une base o chaque exemple est un

pays, reprsent par un vecteur de 39 indicateurs de la qualit
de vie (tat de sant, esprance de vie, nutrition, services
ducatifs)
mai 2011
40
Utilisation de Kohonen pour clustering

Analyse des distances entre neurones de carte (U-matrix)
Idem en vue 3D
de courbes de niveau
Niveau de gris
(+ sombre = + gde distance)
Possibilit de segmentation automatise qui fournit

un clustering sans a priori (nb et formes amas) sur donnes
Exemple chainLink
Exemple twoDiamonds
mai 2011
41
Application de Kohonen
au text-mining
Chaque document
reprsent comme un
histogramme des mots
contenus
A droite extrait dune
carte obtenue avec tous
les articles de
lEncyclopedia
Universalis
WebSOM (voir dmo, etc http://websom.hut.fi/websom)
mai 2011
42

sparation aveugle de sources
Sparation
aveugle
de sources
Objectif :
partant de M mlanges diffrents de
M signaux indpendants,parvenir
reconstituer les signaux sources
(exemple : plusieurs locuteurs ou instruments, et autant de
micros placs des endroits diffrents)
mai 2011
43
Sparation aveugle de sources

m1 ( t )
...
m (t )
M
Agent
sparateur
y1 ( t )
...
y (t )
M
Critre optimiser par lagent :

indpendance des yi
Modle : transformation linaire (= une couche de

neurones sommateurs sans biais) variant avec le temps
(t)
m(t)
m1
m2
y(t)
mM
mai 2011
44
Apprentissage non supervis

pour la sparation de sources
Nombreuses variantes dalgorithmes de mise jour des
poids, correspondant parfois la minimisation explicite
dune quantit (Information Mutuelle, corrlations
croises,) parfois une simple heuristique.
Par exemple :
W (t 1) W (t ) I g1 ( y ) g2 ( y ) W (t )
(Jutten et Hrault)
OU
W (t 1) W (t ) I y y T g ( y ) y T y g ( y T ) W (t )
(Cardoso, EASI)
[o m= pas ; I=matrice identit ; g,g1,g2= fonctions non-linaires ; voir dmo]
mai 2011
45
Autres types dapprentissages

non-superviss
Par exemple, trouver automatiquement pour un
robot autonome un comportement qui ralise au
mieux une tche donne
Apprentissage par renforcement , et/ou

heuristiques diverses (algorithmes volutionnistes, )
mai 2011
46
QUELQUES REFERENCES SUR

LAPPRENTISSAGE ARTIFICIEL
Apprentissage artificiel : concepts et algorithmes,
A. Cornujols, L. Miclet & Y. Kodratoff, Eyrolles,
2002.
Pattern recognition and Machine-Learning,
Christopher M. Bishop, Springer, 2006.
Introdution to Data Mining, P.N. Tan, M. Steinbach &
V. Kumar, AddisonWeasley, 2006.
Machine Learning, Thomas Mitchell, McGraw-Hill
Science/Engineering/Math, 1997.
mai 2011
47

coursFM Apprentissage

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

coursFM Apprentissage

Transféré par

Droits d'auteur :

Formats disponibles

APPRENTISSAGE ARTIFICIEL

Apprentissage artificiel ( Machine-Learning )

Fabien Moutarde, CAOR, MINES ParisTech

Fabien Moutarde, CAOR, MINES ParisTech

Une des familles essentielles de techniques pour

Apprentissage artificiel ( Machine-Learning )

Fabien Moutarde, CAOR, MINES ParisTech

Comportement dun robot autonome

Apprentissage artificiel ( Machine-Learning )

Fabien Moutarde, CAOR, MINES ParisTech

Notion dagent intelligent

Fabien Moutarde, CAOR, MINES ParisTech

Conception et/ou adaptation de lagent

Apprentissage artificiel ( Machine-Learning )

Fabien Moutarde, CAOR, MINES ParisTech

Exemple typique dapprentissage

Performance vise : minimiser erreur de prdiction

Fabien Moutarde, CAOR, MINES ParisTech

types de modle (Ad hoc ? Issu dune famille particulire de

Quelles interactions avec lenvironnement ?

type dalgorithme (gradient, rsolution exacte problme

Apprentissage artificiel ( Machine-Learning )

Fabien Moutarde, CAOR, MINES ParisTech

Un modle, le plus souvent paramtrique

Fabien Moutarde, CAOR, MINES ParisTech

Modle : droite y=ax+b (2 paramtres a et b)

Apprentissage artificiel ( Machine-Learning )

Fabien Moutarde, CAOR, MINES ParisTech

Rgression linaire par moindre carrs

Rtropropagation du gradient sur rseau

Fabien Moutarde, CAOR, MINES ParisTech

Principaux types dalgorithmes

Algo dauto-organisation non supervise de Kohonen

Apprentissage artificiel ( Machine-Learning )

Fabien Moutarde, CAOR, MINES ParisTech

points = exemples courbe = rgression

Fabien Moutarde, CAOR, MINES ParisTech

Apprentissage artificiel ( Machine-Learning )

Fabien Moutarde, CAOR, MINES ParisTech

Typologie des algos de classification

Fabien Moutarde, CAOR, MINES ParisTech

Divers optima possibles

Fabien Moutarde, CAOR, MINES ParisTech

Etant donn un ensemble fini dexemples (x1,y1), (x2,y2),

Fabien Moutarde, CAOR, MINES ParisTech

Erreur empirique et VC-dimension

Travaux de Vapnik et thorie de la rgularisation

Fabien Moutarde, CAOR, MINES ParisTech

o n=nb dex. et =VC-dim, et G dcrot si n/ augmente

une approche possible : minimiser C=Eemp+ (h)

Principe similaire au rasoir dOckham !!

Fabien Moutarde, CAOR, MINES ParisTech

Modle mathmatique paramtr simple + algos

Fabien Moutarde, CAOR, MINES ParisTech

RESEAUX NEURONAUX (2)

Plus de dtails sur divers types de neurones, de rseaux

Fabien Moutarde, CAOR, MINES ParisTech

SVM = Support Vector Machines

Plus de dtails dans partie du cours

Fabien Moutarde, CAOR, MINES ParisTech

APPRENTISSAGE NON SUPERVIS

Soit on na des exemples que de type entre , et on

Soit on dispose juste dun environnement (rel ou