Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Jamal Atif
30 mai 2017
Marvin Minsky
Science qui consiste à faire faire aux machines ce que
l’homme ferait moyennant une certaine intelligence.
Ecueils
I Récursivité de la définition : dépend da définition de l’intelligence
humaine
I Portée de “faire faire" ?
HUMAN
HUMAN
INTERROGATOR ?
AI SYSTEM
I Turing a prédit qu’en 2000, une machine aurait une chance de 30% de tromper un
humain pendant 5 minutes.
I A anticipé tous les arguments contre l’IA dans les 50 ans suivants.
I A suggéré les composantes principales de l’IA : connaissances, raisonnement, TAL,
apprentissage
Problèmes : le test n’est ni reproductible, ni constructif, ni apte à une analyse mathématique
Converser ?
I Composer de la musique ?
I Jouer à la bourse comme des traders professionnels ?
I Détecter des tumeurs ?
I Traduire l’activité cérébrale en signal moteur ?
I ...
Apprentissage automatique
Définition imprécise
Doter les machines de capacités
I d’extraction automatique de “connaissances” à partir de masses de
données
I et d’auto-amélioration à partir d’expérience
Définition imprécise
Doter les machines de capacités
I d’extraction automatique de “connaissances” à partir de masses de
données
I et d’auto-amélioration à partir d’expérience
I Apprentissage supervisé
I Apprentissage non-supervisé
I Apprentissage par renforcement
I Apprentissage actif
I Transfert d’apprentissage, par analogie, de préférences, etc.
I Y ≡ R : problème de régression
I Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
I H peut être un espace fonctionnel ou de densités de probabilités
I Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy
X ×Y
I Y ≡ R : problème de régression
I Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
I H peut être un espace fonctionnel ou de densités de probabilités
I Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy
X ×Y
I Y ≡ R : problème de régression
I Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
I H peut être un espace fonctionnel ou de densités de probabilités
I Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy
X ×Y
I Y ≡ R : problème de régression
I Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
I H peut être un espace fonctionnel ou de densités de probabilités
I Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy
X ×Y
I Y ≡ R : problème de régression
I Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
I H peut être un espace fonctionnel ou de densités de probabilités
I Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy
X ×Y
I Y ≡ R : problème de régression
I Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
I H peut être un espace fonctionnel ou de densités de probabilités
I Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy
X ×Y
Généralités
I Un agent, situé dans le temps et l’espace
Qu’apprend-on
une politique = stratégie = {état → action}
Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 20 / 44
Allons plus profondément dans la boite !
Figure: A neuron’s basic anatomy consists of four parts: a soma (cell body),
dendrites, an axon, and nerve terminals. Information is received by dendrites,
gets collected in the cell body, and flows down the axon.
Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 22 / 44
Neurone artificiel
Terminal Branches
Dendrites
of Axon
x1
w1
x2
w2
x3 w3
S
Axon
wn
xn
Rosenblatt 1957
Règle de Hebb
En cas de succès, ajouter à chaque connexion quelque chose de proportionnel à
l’entrée et à la sortie.
Règle du perceptron : apprendre seulement en cas d’échec
0
w1 = 1
P −1 1 if a > 0 ỹ = 0
0 w2 = 1 a= i wi xi 0 elsewhere
y=0
w3 = −1
1
wi = wi + (y − ỹ)xi
w1 = 1 + 0 ∗ 0
w2 = 1 + 0 ∗ 0
w3 = −1 + 0 ∗ −1
0
w1 = 1
P 0 1 if a > 0 ỹ = 0
1 w2 = 1 a= i wi xi 0 elsewhere
y=1
w3 = −1
1
wi = wi + (y − ỹ)xi
w1 = 1 + 1 ∗ 0 = 1
w2 = 1 + 1 ∗ 1 = 2
w3 = −1 + 1 ∗ 1 = 0
1
w1 = 1
P 1 1 if a > 0 ỹ = 1
0 w2 = 2 a= i wi xi 0 elsewhere
y=1
w3 = 0
1
wi = wi + (y − ỹ)xi
w1 = 1 + 0 ∗ 0 = 1
w2 = 2 + 0 ∗ 1 = 2
w3 = 0 + 0 ∗ 1 = 0
1
w1 = 1
P 3 1 if a > 0 ỹ = 1
1 w2 = 2 a= i wi xi 0 elsewhere
y=1
w3 = 0
1
wi = wi + (y − ỹ)xi
w1 = 1 + 0 ∗ 0 = 1
w2 = 2 + 0 ∗ 1 = 2
w3 = 0 + 0 ∗ −1 = 0
0
w1 = 1
P 0 1 if a > 0 ỹ = 0
0 w2 = 2 a= i wi xi 0 elsewhere
y=0
w3 = 0
1
wi = wi + (y − ỹ)xi
w1 = 1 + 0 ∗ 0 = 1
w2 = 2 + 0 ∗ 1 = 2
w3 = 0 + 0 ∗ 1 = 0
0
w1 = 1
P 2 1 if a > 0 ỹ = 1
1 w2 = 2 a= i wi xi 0 elsewhere
y=1
w3 = 0
1
wi = wi + (y − ỹ)xi
w1 = 1 + 0 ∗ 0 = 1
w2 = 2 + 0 ∗ 1 = 2
w3 = 0 + 0 ∗ 1 = 0
1 1
0 0
0 1 0 1
OR(x1 , x2 ) AND(x1 , x2 )
0 1
XOR(x1 , x2 )
Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 28 / 44
Mais !
XOR(x1 , x2 )
AND(x1 , x̄2 )
0 1
AND(x̄1 , x2 )
x1
x2
o1
x3
om
Output layer
xd
Input Layer
Hidden layers
x1 w11 h1 b2
w 21 w12
w1
2
w 31
w
13
x2 w22 h2
w22
w 32
w23
x3 w33 h3 w32
n2
Output Layer
w
P
f (x) = o(b2 + d 2
i=1 w1 hi (x))
n3
w2
w
d
1
wn
w 3d
w1
d
xn
wd2
wnd
Input Layer
hd
Hidden Layer
P
hj (x) = g(b + n i=1 wij xi )
Flow!graph:!any!directed!acyclic!graph!
…$ !node!=!computa8on!result!
!arc!=!computa8on!dependency!
!
…$ !!!!!!!!!!!!!!!!!!!!!!!!!!!! !!=!successors!of!!
…$
65!
Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 32 / 44
PMC: entraînement par retropropagation
XOR
P a1 1
h1
1
x1 i wi1x i
+ b11 h(x) = 1+e−a(x)
1
w11
w12
P ao 1
ỹ
1
w12 k wk2 hk + b2 ho (x) = 1+e−a(x)
2
w21 w22
P a2 1
h2
x2
1 1
i wi2 x2 + b2
h(x) = 1+e−a(x)
2
w22
b11 b12 b2
1 1
P a1 1
h1
1
x1 i wi1x i
+ b11 h(x) = 1+e−a(x)
1
w11 =1
w12 = 1
w 12
ao ỹ
1
P 1
wk2 hk + b2 ho (x) =
−1
=1
k 1+e−a(x)
b11 =
1
=
w1
21
w22 = 1
P a2 1
h2
x2 i
1
wi2 x2 + b12 h(x) = 1+e−a(x)
b 2 = −1
1
w22 =1
1
−
1 =
b2
1 1
a1 = −1 1 0.27
x1 0 h1 (x) =
1
P 1 1
1+e−a1 (x)
w11 =1 i wi1xi + b1
w12 = 1 −0.46
w 12
ao = ỹ = 0.39
1
1
ho (x) =
−1
=1
P 1+e−ao (x)
2 2
k wk hk + b
b11 =
y=0
1
=
w1
21
w22 = 1
a2 = −1 1 0.27
x2 0 h2 (x) = 1+e−a2 (x)
P 1
x2 + b12
b 2 = −1
1 wi2
w22 =1 i
1
−
1 =
b2
1 1
δk = (y − ỹ)(1 − ỹ)ỹhk
w ∂ ỹ ∂ao
a1 = = ∂E
∂ ỹ ∂ao ∂w 2
−1 1 0.27 k
x1 0 h1 (x) =
1
P 1 1
1+e−a1 (x)
w11 =1 i wi1xi + b1
w12 = 1 −0.46
w 12
ao = ỹ = 0.39
1
1
ho (x) =
−1
=1
P 1+e−ao (x)
wk2 hk + b2
b11 =
k
y=0
1
=
w1
21
w22 = 1
a2 = −1 1 0.27
x2 0 h2 (x) = 1+e−a2 (x)
P 1
x2 + b12
b 2 = −1
1 wi2
w22 =1 i
1
−
1 =
b2
1 1
ao = ỹ = 0.39
1
−.98
1
ho (x) =
=1
P 2 2
1+e−ao (x)
k wk hk + b
b11 =
y=0
1
=
w1
21
w22 = 0.98
a2 = −1 1 0.27
07
x2 0 h2 (x) = 1+e−a2 (x)
P
b 2 = −1.
1
1
w22 =1 i wi2 x2 + b12 w12 = w12 + 1 ∗ (0 − .39)(1 − .39).3 ∗ 0.27
8
.9
− w22 = w22 + 1 ∗ (0 − .39)(1 − .39).3 ∗ 0.27
1 =
b2
1 1 b2 = b2 + 1 ∗ (0 − .39)(1 − .39).3 ∗ 1
1
w11 = 1 + 1 ∗ (0 − .39)(1 − .39) ∗ .39 ∗ 1 ∗ .27 ∗ (1 − .27) ∗ 0
1
w22 = 1 + 1 ∗ (0 − .39)(1 − .39) ∗ .39 ∗ 1 ∗ .27 ∗ (1 − .27) ∗ 0
..
.
a1 = .02 1 0.5
x1 0 h1 (x) =
P 1
1+e−a1 (x)
1
w11 =1 i wi1x i
+ b11
ao = ỹ ≈ 0.5
1
−.98
1
ho (x) =
=1
P 1+e−ao (x)
2 2
k wk hk + b
b11 =
y=1
1
=
w1
21
w22 = 0.98
a2 = .02 1 0.5
07
x2 1 h2 (x) = 1+e−a2 (x)
P
b 2 = −1.
1
1
w22 =1 i wi2 x2 + b12
8
.9
−
1 =
b2
1 1
x1
x2
o1
x3
om
Output layer
xd
Input Layer
Hidden layers
Essouflement du gradient
I Avancées en optimisation stochastique
I Pré-entraînement non-supervisé
Sur-apprentissage
I Techniques de régularisation
I Stochastic “dropout"
Et surtout
I Disponibilité de très grandes masses de données
Idée principale
Initialiser le réseau de façon non-supervisée pas à pas
x1 x1 x1
x2 x2 x2
x3 x3 x3
xd xd xd
Comment ?
I Ajouter la couche de sortie
x2
x3
Output Layer
xd
Input Layer
Intuition
Régulariser le réseau en annulant aléatoirement des unités cachées.
Procédure
Affecter à chaque neurone caché une valeur 0 avec une probabilité p (choix
commun : .5)
x1
x2
x3
Output Layer
xd
Input Layer
her given 0
0.2 0.4 0.6 0.8 1
Area under the PR curve (AUC)
0
0.2 0.4 0.6 0.8 1
Area under the PR curve (AUC)
0
0.2 0.4 0.6 0.8 1
Area under the PR curve (AUC
Decision Decision
Representation learning
Classifier Classifier
Hand-crafted Learned
features features