Vous êtes sur la page 1sur 69

IFT 603

Techniques dapprentissage

Thme 1
Techniques dapprentissage :
concepts et dfinitions

Andr Mayers Hiver 2012
1
PLAN
Introduction
Motivation pour lapprentissage automatique (AA)
Paramtres dun problme dAA
(paradigmes dapprentissage)
Apprentissage supervis
Concepts fondamentaux
Espace dhypothses
Fonction cibles,
Critres de performances
fonctions objectives
courbes de performances et types derreurs
Exemples de techniques dapprentissage pour la classification
2
PLAN
Introduction
Motivation pour lapprentissage automatique (AA)
Paramtres dun problme dAA
(paradigmes dapprentissage)
Apprentissage supervis
Concepts fondamentaux
Espace dhypothses
Fonction cibles,
Critres de performances
fonctions objectives
courbes de performances et types derreurs
Exemples de techniques dapprentissage pour la classification
3
Quelques notions voisines ou synonymes
machine learning
apprentissage machine
apprentissage automatique
apprentissage artificiel
apprentissage algorithmique
acquisition de connaissances

extraction dun concept
catgorisation, classification, rgression
prdiction
gnralisation
comprhension
4
Un domaine interdisciplinaire
STATISTIQUES,
analyse de donnes
OPTIMISATION
AUTOMATIQUE,
commande,
robotique
INTELLIGENCE
ARTIFICIELLE
Apprentissage
Artificiel
VISION
Apprentissage naturel & artificiel
L Apprentissage naturel est la facult dapprendre de ses
expriences passes et de sadapter est une caractristique
essentielle des formes de vies. Elle est essentielle ltre humain
dans les premires tapes de la vie pour apprendre des choses
aussi fondamentales que reconnatre une voix, un visage familier,
apprendre comprendre ce qui est dit, marcher et parler... Elle
est galement essentielle dans dautres tapes de la vie.

Apprentissage artificiel (Machine Learning) est le nom de la science
qui cherche comprendre et reproduire cette facult
dapprentissage dans des systmes artificiels. Il sagit, trs
schmatiquement, de concevoir des algorithmes capables, partir
dun nombre important dexemples (les donnes correspondant
lexprience passe), den assimiler la nature afin de pouvoir
appliquer ce quils ont ainsi appris aux cas futurs.
6
Apprentissage automatique : dfinitions
Capacit dun systme amliorer ses performances via des
interactions avec son environnement
Une des familles essentielles de techniques pour lIntelligence
Artificielle (IA) : permet conception et/ou adaptation automatise
du modle et/ou du comportement dagents intelligents

Un programme possde des capacits dapprentissage si ses
potentialits de comportement sur les donnes se modifient en
fonction de ses performances au fur et mesure quil traite les
donnes.
Un programme possde des capacits dapprentissage si au cours
du traitement dexemples reprsentatifs de donnes il est capable
de construire et dutiliser une reprsentation de ce traitement en
vue de son exploitation.
i.e. laboration dun modle pour la prdiction et la dcouverte.
7
PLAN
Introduction
Motivation pour lapprentissage automatique (AA)
Paramtres dun problme dAA
(paradigmes dapprentissage)
Apprentissage supervis
Concepts fondamentaux
Espace dhypothses
Fonction cibles,
Critres de performances
fonctions objectives
courbes de performances et types derreurs
Exemples de techniques dapprentissage pour la classification
8
Ma motivation pour lapprentissage artificiel
Selon un point de vue cognitiviste,
il sagit de bien comprendre le phnomne dapprentissage
chez lhumain, les animaux, dans la nature
Cependant en tant quinformaticien,
cette comprhension doit passer par la construction de modles
computationnels en mesure de reproduire le phnomne
dapprentissage.
Mon intrt pour la science mentrane
explorer les consquences de postulats initiaux, et de leurs variations,
dfinir ce quest une infrence valide, un apprentissage correct et les
conditions ncessaires pour quil puisse avoir lieu.
Cette exploration mentrane loin de lintelligence humaine pour
aborder le phnomne de lintelligence partout o elle se manifeste.
Le tout est extrmement utile puisque les techniques
dapprentissage sont utiliss en finances, modlisation de lusager,
vision artificielle, mdecine, gntique voir prochaines
diapositives.

9
Autres approches ou motivations
Construction de programmes qui s'amliorent
automatiquement partir de leur exprience.
Programme de jeu
Il est plus facile dcrire un programme qui a pour but dapprendre
comment jouer au jeu dchec plutt que de convertir lexpertise dun
joueur professionnel en programme informatique.
Robotique
robot autonome qui apprend se dplacer dans son environnement
10
Autres approches ou motivation
Construction de logiciels que lon ne sait pas programmer " la
main".
Exemple :
lecture de codes postaux
reconnaissance de caractres
11
Autres motivations
Campagne de publicit cible
Dcouvrir que le profil des personnes ayant des produits de
valeurs la maison pour leur vendre de lassurance

Analyse de crdit
Dcouvrir des signes prcurseurs de faillites personnelles

Comportements psychologiques
O retrouver les personnes suicidaires

12
PLAN
Introduction
Motivation pour lapprentissage automatique (AA)
Paramtres dun problme dAA
(paradigmes dapprentissage)
Apprentissage supervis
Concepts fondamentaux
Espace dhypothses
Fonction cibles,
Critres de performances
fonctions objectives
courbes de performances et types derreurs
Exemples de techniques dapprentissage pour la classification
13
Les paramtres dun problme dAA
Lobjectif
Le protocole
Le critre de succs
La nature des entres
(lespace de reprsentation)
La nature du rsultat
(lespace des hypothses ou fonctions cibles)
14
Lobjectif
Acquisition de connaissances
Apprentissage de concepts
Classification
Amlioration des performances
Adaptation
Amlioration en ligne
15
Le protocole
Prsentation des donnes
Tous la fois (batch ou hors ligne)
Un par un, selon un certain tirage (en ligne)
Par renforcement
La rtroaction est pour le rsultat final.
16
Protocole dapprentissage
17
Identification
Prdiction
protocole didentification = apprentissage batch .
lapprenant doit trouver une hypothse h.
protocole de prdiction = apprentissage en-ligne,
lapprenant doit trouver la bonne rponse pour chaque donne
on suppose quaprs chaque prdiction, lapprenant reoit une confirmation
Le critre de succs
Critre relatif un observateur externe.
Souvent, la performance est mesure en fonction du nombre derreurs
commises par lapprenant (un algorithme dapprentissage) en cours
dapprentissage ou en fonction de son taux derreur aprs
apprentissage.
Ce critre est toujours formalis (fonction de cot, objectif) et devient
la fonction optimiser
Sa formalisation peut tre complexe
La valeur dun coup aux checs en fonction de lespace, du temps
Exemple
en classification il sagit de mesurer le taux des objets mal classifis.
18
Nature des donnes d'entre
Numriques;
Symboliques (binaires, nominales, squentielles, etc.);
Mixtes
Exemple
Les attributs ou variables
gnes, protines, pixels, caractristiques
19
Nature du rsultat
Lespace des hypothses
Rgles de dcision (arbres de dcisions)
Fonctions discriminantes linaires ou non linaires (machines noyaux)
Dcision dans lespace de reprsentation des entres (plus proches
voisins)
Optimisation de la structure et des paramtres
(rseaux baysien)

Pour chaque espace, il faut aussi considrer sa cardinalit.
20
Techniques dapprentissage
Apprentissage supervis
(classification/catgorisation)
Fonction discriminante linaire et non linaire.
Algorithmes
arbres de dcision,
rseaux de neurones,
mthodes baysienne,
machines noyaux.
descente de gradient,
rsolution exacte,
problme quadratique,
Certain algo sont qualifis dheuristique
Algo dauto-organisation non supervise de Kohonen
Algorithmes volutionnistes (GA, GP, )
colonies de fourmis (Ant Colony Optimization)
Optimisation par Essaim Particulaire (OEP)
Renforcement (Q-learning, )
Apprentissage non supervis
techniques pour dcouvrir
des associations,
des corrlations
des tendances.
Algorithmes de clustering.
21
Taxonomie des techniques dapprentissage
Induction, gnralisation
Avec professeur : supervis
(nomm souvent classification pour les donnes discrtes)
Il faut apprendre identifier les objets partir dexemples dont on connat la
classe
Sans professeur : non supervis
(nomm souvent segmentation (clustering))
Il faut apprendre infrer les classes qui divisent les exemples pour un but
donn alors quon ne connat que leurs attributs
Dduction
Explication,
Dduire les connaissances exactes ou errones qui expliquent les actions
dun apprenant dans un environnement dapprentissage.
Dcouvrir les symptmes, les causes dune maladie (arbre dcision)
Rvision des connaissances
Mettre jour le modle des connaissances dun apprenant en observant son
comportement dans un environnement dapprentissage
22
Utilisation de lapprentissage artificiel
pour le jeu dchec
Lobjectif est dobtenir un algorithme qui
effectue une recherche en avant dans larbre des coups possibles,
value chaque position atteinte en fonction de certains critres (par exemple :
loccupation du centre, lavantage matriel, etc.),
Le protocole
joue un coup la fois et une partie la fois
Le critre de succs
joue le coup lui permettant de maximiser le gain que ladversaire est oblig de
lui concder.
Lapprentissage artificiel consiste dduire cette fonction dvaluation,
cest elle qui dtermine la qualit des dcisions.
La nature des entres
Toutes les configurations possibles
La nature des rsultats
Toutes les fonctions qui prdisent le prochain coup jouer
Une algorithme dapprentissage artificiel trivial pourrait tout simplement mmoriser
toutes les parties joues et construire une table dassociation entre une position et le
coup jouer.
Pour le tic-tac-toe : OK
Pour le jeu dchec : lespace dhypothses est trop grand
Pas tant que a, voir lapprentissage par renforcement.
23
Autres faons de caractriser
un problme dapprentissage

En arrire de chaque faon daborder un problme dapprentissage
se trouve un paradigme qui se caractrise par
Un modle, le plus souvent paramtrique
Une faon dinteragir avec lenvironnement
Une fonction de cot minimiser (sauf exceptions)
Un algorithme pour adapter le modle,
en utilisant les donnes issues de lenvironnement,
de faon optimiser la fonction de cot
Nombreux paradigmes
Rgression linaire par moindre carrs
Algo ID3 ou CART pour arbres de dcision
Mthodes probabilistes


Rtropropagation du gradient sur rseau neuronal couches
Cartes topologiques de Kohonen
Support Vector Machines
Boosting de classifieurs faibles

Exemple trivial :
rgression linaire par moindres carrs
Modle
droite y=ax+b
(2 paramtres a et b)
Interaction
collecte pralable de n points (x
i
,y
i
)e9
2

Fonction de cot
somme des carrs des carts la droite
K=E
i
(y
i
-a.x
i
-b)
2

Algorithme
rsolution directe (ou itrative) du systme linaire
2
1 1 1
1 1
n n n
i i i i
i i i
n n
i i
i i
x x x y
a
b
x n y
= = =
= =
| | | |
| |
| |
| |
=
|
| |
\ .
| |
| |
\ . \ .


PLAN
Introduction
Motivation pour lapprentissage automatique (AA)
Paramtres dun problme dAA
(paradigmes dapprentissage)
Apprentissage supervis
Concepts fondamentaux
Espace dhypothses
Fonction cibles,
Critres de performances
fonctions objectives
courbes de performances et types derreurs
Exemples de techniques dapprentissage pour la classification
27
APPRENTISSAGE SUPERVIS :
rgression et classification
?
AGENT
entre = perception
sortie adquate ( dsire )
Environnement exemples
Les exemples sont de la forme (entre,sortie)

Lagent doit apprendre partir des exemples (entre, sortie) la fonction
qui associe chaque entre sa sortie
APPRENTISSAGE SUPERVIS :
rgression et classification
entre
s
o
r
t
i
e

points = exemples

courbe = rgression
entre = position point

sortie dsire = classe ( =-1,+=+1)


Fonction tiquette=f(x)
(et frontire de sparation)
Rgression Classification
sortie est une approximation sortie est y
i
= tiquettes
Apprentissage supervis
Exemples entre-sortie
(x
1
,y
1
), (x
2
,y
2
), , (x
n
, y
n
)
H famille de
modles mathmatiques
Hyper-paramtres pour
lalgorithme dapprentissage



ALGORITHME
DAPPRENTISSAGE



heH
Quest-ce quune famille de modles
mathmatiques ?
31
Le modle mathmatiques est compos
des k centres,
de la fonction de distance et
de la fonction de dcision.

Description de la fonction de dcision
Soit c1, c2 ck les k centres et x un nouvelle entre
Si d(x,ci) = Min(d(x c1), d(x c2) d(x ck)) alors x est dans le segment i

Tous les modles mathmatiques considrs sont identiques sauf pour les k centres

Lobjectif de lalgo dapprentissage est de trouver ces k centres.
Exemple pour les k-moyennes
Quest-ce quune famille de modles
mathmatiques ?
32
Le modle mathmatique est compos
de la configuration du rseau neuronal
du nombre de couches et
du nombre de neurones dans chaque couche
de la fonction qui combine les entres de chaque neurone
de la fonction qui dtermine la sortie de chaque neurone
des poids sur chaque neurone entrant (cest la seule chose qui varie)
de la fonction de dcision
(la neurones en sortie qui a la plus grande valeur dtermine la classe)
Exemple pour les rseaux de neurones
Algorithme dapprentissage supervis
33
Dfinition formelle
Un algorithme dapprentissage A est un algorithme qui prend en entre :
un espace de description X,
un espace de sortie Y,
un espace de fonctions hypothses H dfinies de X sur Y,
un chantillon dapprentissage S
m
= {(x
i
, u
i
) : 1 s i s m },
et qui retourne une hypothse h e H

Un algorithme dapprentissage peut tre vu comme la fonction suivante :
1
: ( )
m
m
A X Y H

=

Composantes dun problme dapprentissage
34
1. un algorithme dapprentissage
un systme de calcul dune sortie partir de la donne de certaines entres.
2. un critre de performance vis par lapprentissage.
Il sagit souvent de trouver une hypothse h minimisant lesprance de
perte, cest--dire le risque rel
( )
( ) ( ( ), ( ))
* ( ) ( ( ), ( ))
: fonction de risque
=
: fonction de perte pour chaque exemple
le cot de la dcision h(x) tant donn la ralit f(x)

X
x X
h H h H
R h
R h l h x f x P dx
l
h ArgMin R h ArgMin l h x f x
e
e e
= =
}

X
x X
P dx
e
}
Il est souvent impossible de connatre h* parce quon ne connat pas P
X
Les 2 principales composantes sont
Typologie des algos de classification
Par analogie Plus Proches Voisin (PPV)
Par combinaison de tests lmentaires :
Arborescence Arbre de Dcision Binaires (ADB)
Vote pondr boosting (dopage)
Par approche probabiliste (avec hypothses sur distribution des
classes) mthodes baysiennes
Par minimisation de lerreur (descente de gradient, etc..)
Rseaux de neurones (MLP), etc
Par maximisation de la marge
Support Vector Machines (SVM)
Notion de perte et
les diverses erreurs dapprentissage
Mesure de la qualit du modle h :
E(h)=E( L(h(x),y) )
o L(h(x),y) est la fonction de perte
gnralement = ||h(x)-y||
2

Divers optima possibles
optimum absolu = argMin
h
(E(h))

optimum dans H = argMin


heH
(E(h))

optim. ds H avec ex. = argMin


heH
(E
n
(h))
o E
n
(h)=1/N E
i
(L(h(x
i
),y
i
))
erreur + erreur
destimation dapproximation
E(

) = [E(

) - E(h
*
)] + [E(h
*
)-E(f)]
APPRENTISSAGE SUPERVIS
dfinition formelle
APPRENDRE = INFRER/INDUIRE + GNRALISER

Etant donn un ensemble fini dexemples (x
1
,y
1
), (x
2
,y
2
), , (x
n
, y
n
),
o x
i
e9
d
vecteurs dentre,
et y
i
e9
s
sorties dsires (fournies par le superviseur ),
trouver une fonction h qui approxime et gnralise au mieux
la fonction sous-jacente f telle que y
i
=f(x
i
)+bruit

but = minimiser erreur de gnralisation
E
gen
= } ||h(x)-f(x)||
2
p(x)dx
(o p(x)=distrib. de proba de x)

PLAN
Introduction
Motivation pour lapprentissage automatique (AA)
Paramtres dun problme dAA
(paradigmes dapprentissage)
Apprentissage supervis
Concepts fondamentaux
Espace dhypothses
Fonction cibles,
Critres de performances
fonctions objectives
courbes de performances et types derreurs
Exemples de techniques dapprentissage pour la classification
38
Espace dhypothses
39
Il sagit dapprendre une courbe qui spare les carrs des rectangles.
Pour un humain, cest trivial, mais pas pour un algorithme qui ne voit
quun pixel la fois et qui construit sa courbe point par point.

Lensemble des courbes bonnes et mauvaises courbes est lespace dhypothses

Il est possible de restreindre lespace dhypothses,
par exemple les droites passant par le point o.
o
u

Il est possible de reformuler en disant que
lespace dhypothses est lintervalle [0 t]

Le point o est un paramtre de lalgori-
thme dapprentissage puisquil est choisi
par lexprimentateur.

Lobjectif de lalgorithme dapprentissage est
de trouver langle u qui maximise une fonc-
tion objective (mesurant la sparation).
Fonction objective
Il y plusieurs faon de dfinir une fonction objective mesurant la
qualit de la sparation
Un certain nombre dentre elles peuvent tre dfinis avec la
matrice de confusion
40
Classe prdite


Classe
relle
Classe= Classe=
Classe= a b
Classe= c d
a : nbre de carr prdit carr
b : nbre de carr prdit triangle
c : nbre de triangle prdit carr
d: nbre de triangle prdit triangle
Fonction objective












41
1 4
1 2 3 4
Prcision
Justesse (p)
Rappel (r)
2 2
F-mesure (F)
1 1
Prcision pondr
a d
a b c d
a
a c
a
a b
rp
r p
p r
wa w d
wa w b w c w d
+
=
+ + +
=
+
=
+
= =
+
+
+
=
+ + +
Classe prdite


Classe
relle
Classe= Classe=
Classe= a b
Classe= c d
Exploration de lespace dhypothses
42
95%
Apprentissage dun concept
43
Exemples
aab
aaaab
aaaaaaaab


Contre-exemples
aaab
bb

Peut-tre vu aussi comme lapprentissage dune grammaire.
Espace dhypothses
44
Il sagit dapprendre une fonction permettant de sparer les carrs bleus
des carrs verts disperss alatoirement sur une droite. La figure
illustre un chantillon de ces points. Il est toujours possible de trouver
un espace dhypothses suffisamment vaste pour expliquer
nimporte quel chantillon de ces points. Si lespace dhypothse est
reprsent les fonctions sin( x) avec
+
alors il existe toujours
plusieurs valeurs de (qui peuvent tre trs grande) qui sparent les
carrs verts des carrs bleus. La courbe en rouge est la fonction sin(50x).
Courbe de performance
45
erreurs
Utilisation des
donnes menant
un raffinement
de lhypothse
Performance en reconnaissance (erreur de reconnaissance)
le taux derreur du systme en prdiction sur des exemples vus.
Performance en gnralisation (erreur de reconnaissance)
le taux derreur du systme en prdiction sur des exemples non vus
Concepts de base de lapprentissage supervis
46
: fonction de loracle associant une donne sa classe, et est
appele ;
: fonction gnre par lapprenant pour approximer

: une donne issue de lchantillon


: la vraie classe de la donne

: la classe donne par lapprenant pour la donne




Concepts de base de lapprentissage supervis
47
1 1
:
( , ) ( , ( ))
( )
( ) ( ( ), ( ))
Ensemble d'exemples
: fonction de risque
=
: fonction de perte pour chaque exemple
le cot de la dcision h(x) tant donn la ral
i i i i
i m i m
X
x X
S
S x u x f x
R h
R h l h x f x P dx
l
s s s s
e
= =
}
* ( ) ( ( ), ( ))
*
it f(x)

: la meilleure hypothse que l'on peut induire car on ne peut infrer
X
x X
h H h H
h ArgMin R h ArgMin l h x f x P dx
h h
e
e e
= =
}
Lhypothse

optimise un critre inductif, cest--dire un critre dfini sur


lchantillon dapprentissage S et tenant lieu de la fonction objectif ou risque
(voir quation 1.1) inconnu.
Ce critre inductif, dfini de HS R permet dvaluer chaque hypothse h e H.
Par exemple, il peut prendre la forme dun risque empirique :
1
1
( ) ( ( ), ))
m
Emp
i
R h l h xi yi
m
=
=

Induction de concept
48
Lapprentissage revient chercher une partition de lespace X

Ce problme dapprentissage peut tre reformuler comme la
recherche dune frontire de dcision.
Induction de concept = classification binaire
?
Apprentissage dune fonction binaire
49
Soit f une fonction binaire dfinie sur un espace dentre trois attributs.
La table fournit un chantillon de 5 exemples de cette fonction.
Certains attributs peuvent tre inutiles et lespace dhypothses ne devrait pas
en tenir compte.
Frontire de dcision et
espace dhypotyhses
50
Chaque point de H, ou encore hypothse, correspond
une partition de lespace des entres X.

Lespace dhypothses H dtermine les partitions possibles.

Une frontire de dcision peut tre compose de plusieurs courbes
mais correspond une seule partition
Espace dhypothses
51
Supposons lespace des hypothse H ne prend en
compte que x
1
et x
3
pour dcider de ltiquette
de la forme reue.
H contient donc 16 (2
4
) hypothses alors que
lespace des objets permet 256 (2
8
) hypothses.
Que se passera-t-il si lchantillon contient les deux objets suivants

1 0 1 + 1 1 1 -
Espace dhypothses
52
classe
Supposons lespace dhypothses ne contient que des rectangles. On peut supposer
un langage formel LH pour dcrire les h possibles ne permet que de dcrire les
rectangles.
Lhypothse h correspond au rectangle dessin.
Cette hypothse h dcrit sans erreur lchantillon.
Selon cette hypothse h, le point - est de la classe +.

Espace dhypothses
53
Supposons que la vritable partition soit lunion des deux patatodes.
Dans ce cas, il est impossible dapproximer correctement le concept cible
laide dune hypothse de H.
La fouille dans lespace dhypothses
54
Contexte
protocole didentification (hors ligne)
tout lchantillon dapprentissage est suppos demble disponible.
on gnre des hypothses et on les teste.
Si h
i,
lhypothse courante, est insatisfaisante (voir flche bleu)
il faut chercher une nouvelle hypothse dans H.
La question est : o doit-il chercher ?
La fouille dans lespace dhypothses
55
Contexte
protocole de prdiction (en ligne)
seul le point x
i+1
(voir flche bleu) est disponible.
h
i
est acceptable pour tous les x
j
tel que j s i
Si la prdiction de h
i
pour x
i+1
est contredite,
il faut chercher une nouvelle hypothse dans H.
La question est quelle direction prendre dans H pour la trouver ?
(en supposant que la notion de direction est un sens pour H)
erreur destimation et
erreur dapproximation
56
Lerreur dapproximation est d aux choix de lespace dhypothses H.
Lerreur destimation est d aux de choix de H et de lchantillon

est le heH qui minimise lerreur empirique avec cet chantillon


Risque
Erreur
destimation
Erreur
dapproximation
La courbe du risque empirique est pour un chantillon donn.
La courbe du risque rel (rouge) est videmment indpendant de lchantillon.


On na pas parl que les donnes peuvent tre bruites,
i.e. loracle donne la mauvaise classe
Espace H des hypothses considres
Le compromis biais / variance
Quand H est restreint :
La meilleure solution dans H est facile trouver
Mais elle peut tre loigne de la vraie solution
Quand H est large :
La meilleure solution dans H est difficile trouver
Cest dommage, car elle est sans doute plus proche de la vraie solution
De plus, H peut tre trop large
57
Un exemple

On cherche une formule magique pour distinguer les hommes des
femmes :

0
+

=1

Les

sont des mesures, et la formule est positive si le sujet est


une femme et ngative si le sujet est un homme.
On dispose de 100 exemples dhommes et de femmes avec les
mesures associes.
Si on prend une seule mesure, la taille, un algorithme doptimisation
donnera une valeur trs prcise
0
et

. Mais le critre
nest pas trs efficace.
Si on prend 50 mesures, la taille, lge, la longueur des cheveux, etc...
on va trouver une formule qui spare en effet les exemples, mais...
58
Un exemple (suite)

Pourquoi les deux formules sont-elles si peu magiques?
La premire est exacte : le seuil trouv sur la taille est excellent, mais
cette mesure ne suffit pas caractriser le sexe.
La seconde est fausse : trop peu de donnes dapprentissage ne
permettent pas de fixer les valeurs

avec prcision.
Dans les deux cas, un classement dun nouvel individu par la
formule trouve doit se lire avec une forte probabilit derreur.
Il faut donc trouver un compromis efficace...
59
Si on tient compte que dun attribut
60
Densits de probabilit des femmes et des hommes en fonction de la
taille. Dcision en comparant la taille mesure un seuil s
Quel degr du polynme choisir ?
61
Plus le degr est lev
plus il y a des paramtres pour ajuster la courbe aux points
Richesse des concepts appris
62
Si lespace dhypothse est restreint alors le risque rel et le risque empirique
sont levs plus on largit lespace dhypothse plus le risque empirique diminue
parce que lhypothse trouve colle trs bien aux donnes de lchantillon.
Le risque rel diminue initialement avec llargissement des hypothses mais
saccrot par la suite.
Erreur empirique et VC-dimension
En pratique, seule est mesurable
lerreur empirique sur les exemples dapprentissage :
E
emp
= ( E
i
||h(x
i
)-y
i
||
2
)/n


Travaux de Vapnik et thorie de la rgularisation
minimiser E
emp
(h) sur une famille H minimisera aussi E
gen

si H est de VC-dimension finie

VC-dimension : taille maximum dun chantillon S telle que
pour toute dichotomie de S,
il existe heH la ralisant
(en gros, la complexit de la famille H)
Fonction de cot
et terme de rgularisation
une approche possible :
minimiser C=E
emp
+ O(h)
o O(h) pnalise les h trop complexes
( rduction de la VC-dim effective )
Principe similaire au rasoir dOckham !!
(~ pourquoi faire compliqu si on peut faire simple ? )
Plus pcisment Vapnik a montr que :
Proba(max
heH
|E
gen
(h)E
emp
(h)| > c) < G(n,o,c)
o n=nb dex. et o=VC-dim, et G dcrot si n/o augmente
pour tre certain de bien minimiser E
gen
en rduisant E
emp
,
il faut une VC-dim dautant plus petite que n est petit

PLAN
Introduction
Motivation pour lapprentissage automatique (AA)
Paramtres dun problme dAA
(paradigmes dapprentissage)
Apprentissage supervis
Concepts fondamentaux
Espace dhypothses
Fonction cibles,
Critres de performances
fonctions objectives
courbes de performances et types derreurs
Exemples de techniques dapprentissage pour la classification
65
RESEAUX NEURONAUX
axone
corps cellulaire
dendrite
synapse
Y1
Y2
X1
X2
X3
e
i
f
W
ij
O
j
P
( ) ( ) j W e P f O
j

, =
avec par
exemple
( )
ij
i
i
W e j W e P

=

,
( ) ) tanh( p p f =
neurone
formel
Rseau =
assemblage de
neurones
Inspirs de larchitecture et fonctionnement cerveau
Modle mathmatique paramtr simple
+ algos dadaptation des paramtres
RESEAUX NEURONAUX (2)
Apprentissage = partir d'exemples de couples (entre, sortie) , le
rseau modifie :
les paramtres W (poids des connexions)
ventuellement son architecture A
(en crant/liminant neurones ou connexions)



Plus de dtails sur divers types de neurones, de rseaux et les
algorithmes dapprentissage dans le cours ddi aux rseaux
neuronaux
SVM = Support Vector Machines
(= Sparateur Vastes Marges)
Plus de dtails dans partie du cours
consacre cette technique
Espace des
reprsentations internes
Espace
de sortie
Espace
d'entres X
Sparation
linaire
Redescription
non linaire

u
h
x y
u connue seulement
indirectement via noyau k
k(x,z) = <u(x),u(z)>
h sparation linaire optimale
au sens marge maximale,
i.e. distance maxi entre hyperplan
et exemples plus proches
(= points de support )
Problme dapprentissage ralisable
A learning problem is realizable if the hypothesis space contains
the true function, otherwise the problem is unrealizable.
It is not always possible to tell whether a learning problem is
realizable
One way is to use prior knowledge to derive a hypothesis space in
which the true function must lie
Another way is to use the largest possible hypothesis space
there is a trade-off between the expressiveness of a hypothesis space and the
complexity of finding simple, consistent hypothesis within that space
Inductive learning method
69