Vous êtes sur la page 1sur 73

Intelligence Artificielle

MESR - Plan de Formation National

Jamal Atif

Professeur des Universités


PSL, Université Paris-Dauphine, LAMSADE, CNRS

30 mai 2017

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 1 / 44


Définir l’intelligence artificielle

Une entreprise périlleuse!

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 2 / 44


Acte de naissance
Conférence de Dartmouth en 1956...4 ans après le décès tragique de A. Turing

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 3 / 44


Une définition · · · discutable !

Marvin Minsky
Science qui consiste à faire faire aux machines ce que
l’homme ferait moyennant une certaine intelligence.

Ecueils
I Récursivité de la définition : dépend da définition de l’intelligence
humaine
I Portée de “faire faire" ?

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 4 / 44


L’héritage de Turing

Turing (1950) “Computing machinery and intelligence”:


I “Can machines think?” −→ “Can machines behave intelligently?”
I Test opérationnel : le jeu de l’imitation

HUMAN

HUMAN
INTERROGATOR ?
AI SYSTEM

I Turing a prédit qu’en 2000, une machine aurait une chance de 30% de tromper un
humain pendant 5 minutes.
I A anticipé tous les arguments contre l’IA dans les 50 ans suivants.
I A suggéré les composantes principales de l’IA : connaissances, raisonnement, TAL,
apprentissage
Problèmes : le test n’est ni reproductible, ni constructif, ni apte à une analyse mathématique

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 5 / 44


Autres définitions· · · tout aussi discutables

I “Tout problème pour lequel il n’existe pas d’algorithme connu, ou de coût


raisonnable, relève de l’I.A.”
I “L’I.A. doit permettre de proposer des solutions logicielles permettant aux
programmes de raisonner logiquement”
I “L’IA est le domaine de l’informatique qui étudie comment faire faire à
l’ordinateur des tâches pour lesquelles l’homme est aujourd’hui encore le
meilleur”
I “Le but de l’Intelligence Artificielle est de construire un objet pouvant
réussir avec fiabilité le Test de Turing”
I “L’IA est ce qui est publié dans les conférences et journaux de l’IA”

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 6 / 44


Autres définitions· · · tout aussi discutables

I “Tout problème pour lequel il n’existe pas d’algorithme connu, ou de coût


raisonnable, relève de l’I.A.”
I “L’I.A. doit permettre de proposer des solutions logicielles permettant aux
programmes de raisonner logiquement”
I “L’IA est le domaine de l’informatique qui étudie comment faire faire à
l’ordinateur des tâches pour lesquelles l’homme est aujourd’hui encore le
meilleur”
I “Le but de l’Intelligence Artificielle est de construire un objet pouvant
réussir avec fiabilité le Test de Turing”
I “L’IA est ce qui est publié dans les conférences et journaux de l’IA”

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 6 / 44


Autres définitions· · · tout aussi discutables

I “Tout problème pour lequel il n’existe pas d’algorithme connu, ou de coût


raisonnable, relève de l’I.A.”
I “L’I.A. doit permettre de proposer des solutions logicielles permettant aux
programmes de raisonner logiquement”
I “L’IA est le domaine de l’informatique qui étudie comment faire faire à
l’ordinateur des tâches pour lesquelles l’homme est aujourd’hui encore le
meilleur”
I “Le but de l’Intelligence Artificielle est de construire un objet pouvant
réussir avec fiabilité le Test de Turing”
I “L’IA est ce qui est publié dans les conférences et journaux de l’IA”

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 6 / 44


Autres définitions· · · tout aussi discutables

I “Tout problème pour lequel il n’existe pas d’algorithme connu, ou de coût


raisonnable, relève de l’I.A.”
I “L’I.A. doit permettre de proposer des solutions logicielles permettant aux
programmes de raisonner logiquement”
I “L’IA est le domaine de l’informatique qui étudie comment faire faire à
l’ordinateur des tâches pour lesquelles l’homme est aujourd’hui encore le
meilleur”
I “Le but de l’Intelligence Artificielle est de construire un objet pouvant
réussir avec fiabilité le Test de Turing”
I “L’IA est ce qui est publié dans les conférences et journaux de l’IA”

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 6 / 44


Autres définitions· · · tout aussi discutables

I “Tout problème pour lequel il n’existe pas d’algorithme connu, ou de coût


raisonnable, relève de l’I.A.”
I “L’I.A. doit permettre de proposer des solutions logicielles permettant aux
programmes de raisonner logiquement”
I “L’IA est le domaine de l’informatique qui étudie comment faire faire à
l’ordinateur des tâches pour lesquelles l’homme est aujourd’hui encore le
meilleur”
I “Le but de l’Intelligence Artificielle est de construire un objet pouvant
réussir avec fiabilité le Test de Turing”
I “L’IA est ce qui est publié dans les conférences et journaux de l’IA”

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 6 / 44


Un objet protéiforme

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 7 / 44


Une histoire mouvemontée
1943 McCulloch & Pitts: Boolean circuit model of brain
1950 Turing’s “Computing Machinery and Intelligence”
1952–69 Look, Ma, no hands!
1950s Early AI programs, including Samuel’s checkers program,
Newell & Simon’s Logic Theorist, Gelernter’s Geometry Engine
1956 Dartmouth meeting: “Artificial Intelligence” adopted
1965 Robinson’s complete algorithm for logical reasoning
1966–74 AI discovers computational complexity
1969 Minsky and Papert’s “Group Invariance Theorem”
Neural network research almost disappears
1972 Prolog by Alain Colmerauer and Philippe Roussel
1969–79 Early development of knowledge-based systems
1980–88 Expert systems industry booms
1988–93 Expert systems industry busts: “AI Winter”
1985–95 Neural networks return to popularity (Geff Hinter is there!)
1988– Resurgence of probability; general increase in
technical depth (machine learning)
“Nouvelle AI”: ALife, GAs, soft computing
1995– Agents, agents, everywhere . . .
2006– Human-level AI and neural networks (deep learning)
back on the agenda (Geff Hinton is there!)

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 8 / 44


Que sait on faire aujourd’hui ?
Jouer au Go - AlphaGo, le désormais retraité

Figure: Mars 2016. AlphaGo : 4 Lee Sedol (9 d) : 1

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 9 / 44


Que sait on faire aujourd’hui ?
Jouer au Go - AlphaGo, le désormais retraité

Figure: 25 mai 2017. AlphaGo : 3 Kee Jie (9 d) : 0

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 9 / 44


Que sait on faire aujourd’hui ?
Jouer au Poker ?

Figure: Libratus: heads-up, no-limit Texas Hold’em. Counterfactual Regret


Minimization (CFR)
Jamal Atif (Université Paris-Dauphine)
Intelligence Artificielle 30 mai 2017 9 / 44
Que sait on faire aujourd’hui ?
Conduire de façon autonome ?

Figure: Waymo Google Car


Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 9 / 44
Que sait on faire aujourd’hui ?

Converser ?

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 9 / 44


Que sait on faire aujourd’hui ?
Traduire en temps réel ?

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 9 / 44


Que sait on faire aujourd’hui ?

Dépasser les capacités humaines en reconnaissance de formes ?

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 9 / 44


Que sait on faire aujourd’hui ?

I Composer de la musique ?
I Jouer à la bourse comme des traders professionnels ?
I Détecter des tumeurs ?
I Traduire l’activité cérébrale en signal moteur ?
I ...

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 10 / 44


Raisons d’un engouement !

I Avancées dans l’ensemble des champs disciplinaires : Rep. des


connaissances (knowledge graph), raisonnement (complexité), SAT,
théorie de l’apprentissage, etc.
I Disponibilité de grandes masses de données
I Disponibilité des moyens de calcul
I Percée de l’apprentissage automatique et des modèles neuronaux profond
I Représentation des connaissances et raisonnement sur des données à
grande échelle

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 11 / 44


Ouvrons la boite !

Apprentissage automatique

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 12 / 44


Apprentissage automatique

Définition imprécise
Doter les machines de capacités
I d’extraction automatique de “connaissances” à partir de masses de
données
I et d’auto-amélioration à partir d’expérience

Définition moins imprécise (Tom Mitchell)


A computer program is said to learn from experience E with respect to some
class of tasks T and performance measure P , if its performance at tasks in T ,
as measured by P , improves with experience E.
Jeu de dame : T jouer au dame, P % de parties gagnées, E mouvements connus ou pratique
du jeu

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 13 / 44


Apprentissage automatique

Définition imprécise
Doter les machines de capacités
I d’extraction automatique de “connaissances” à partir de masses de
données
I et d’auto-amélioration à partir d’expérience

Définition moins imprécise (Tom Mitchell)


A computer program is said to learn from experience E with respect to some
class of tasks T and performance measure P , if its performance at tasks in T ,
as measured by P , improves with experience E.
Jeu de dame : T jouer au dame, P % de parties gagnées, E mouvements connus ou pratique
du jeu

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 13 / 44


Grandes figures de l’apprentissage automatique

I Apprentissage supervisé
I Apprentissage non-supervisé
I Apprentissage par renforcement
I Apprentissage actif
I Transfert d’apprentissage, par analogie, de préférences, etc.

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 14 / 44


Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 15 / 44
Apprentissage supervisé
Principe: étant donné un échantillon de données étiquetées
S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui
lie les données aux étiquettes.
h∈H
X 3 x −→ y ∈ Y
p(.,.)

I Y ≡ R : problème de régression
I Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
I H peut être un espace fonctionnel ou de densités de probabilités
I Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy
X ×Y

I Minimisation du risque empirique


n
1X
ĥ = arg min `(h(xi ), yi )
h∈H n i=1
Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 16 / 44
Apprentissage supervisé
Principe: étant donné un échantillon de données étiquetées
S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui
lie les données aux étiquettes.
h∈H
X 3 x −→ y ∈ Y
p(.,.)

I Y ≡ R : problème de régression
I Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
I H peut être un espace fonctionnel ou de densités de probabilités
I Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy
X ×Y

I Minimisation du risque empirique


n
1X
ĥ = arg min `(h(xi ), yi )
h∈H n i=1
Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 16 / 44
Apprentissage supervisé
Principe: étant donné un échantillon de données étiquetées
S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui
lie les données aux étiquettes.
h∈H
X 3 x −→ y ∈ Y
p(.,.)

I Y ≡ R : problème de régression
I Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
I H peut être un espace fonctionnel ou de densités de probabilités
I Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy
X ×Y

I Minimisation du risque empirique


n
1X
ĥ = arg min `(h(xi ), yi )
h∈H n i=1
Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 16 / 44
Apprentissage supervisé
Principe: étant donné un échantillon de données étiquetées
S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui
lie les données aux étiquettes.
h∈H
X 3 x −→ y ∈ Y
p(.,.)

I Y ≡ R : problème de régression
I Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
I H peut être un espace fonctionnel ou de densités de probabilités
I Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy
X ×Y

I Minimisation du risque empirique


n
1X
ĥ = arg min `(h(xi ), yi )
h∈H n i=1
Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 16 / 44
Apprentissage supervisé
Principe: étant donné un échantillon de données étiquetées
S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui
lie les données aux étiquettes.
h∈H
X 3 x −→ y ∈ Y
p(.,.)

I Y ≡ R : problème de régression
I Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
I H peut être un espace fonctionnel ou de densités de probabilités
I Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy
X ×Y

I Minimisation du risque empirique


n
1X
ĥ = arg min `(h(xi ), yi )
h∈H n i=1
Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 16 / 44
Apprentissage supervisé
Principe: étant donné un échantillon de données étiquetées
S = {hxi , yi i}1···n , apprendre une fonction/densité de prob. de prédiction qui
lie les données aux étiquettes.
h∈H
X 3 x −→ y ∈ Y
p(.,.)

I Y ≡ R : problème de régression
I Y ≡ ensemble discret(e.g. {0, 1}): problème de classification
I H peut être un espace fonctionnel ou de densités de probabilités
I Choix de la fonction de perte et du risque à minimiser (erreur en
généralisation) :
Z
R(h) = E(x,y)∼D [`(h(x), y)] = `(h(x), y)pXY (x, y)dxdy
X ×Y

I Minimisation du risque empirique


n
1X
ĥ = arg min `(h(xi ), yi )
h∈H n i=1
Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 16 / 44
Apprentissage supervisé
Procédure

Apprentissage 6= mémorisation : généralisation vs spécialisation

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 17 / 44


Apprentissage supervisé
Risque structurel
Soit une séquence infinie d’ensembles d’hypothèses ordonnés par inclusion,
H1 ⊂ H2 ⊂ · · · ⊂ Hm ⊂ · · ·
n
1X
ĥ = arg min `(h(xi ), yi ) + penalty(Hm , m)
h∈Hm ,m∈N n i=1

I Garanties théoriques fortes


I Complexité de calcul
I Cadre pour la régularisation :
n
1X
ĥ = arg min `(h(xi ), yi ) + λ Reg(h) (1)
h∈H n i=1
n
1X
ĥ = arg min `(h(xi ), yi ) + λ||h||0 (2)
h∈H n i=1

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 18 / 44


Apprentissage non-supervisé

Principe: étant donné un échantillon de données non-étiquetées


S = {xi , i = 1, · · · , n}, découvrir des régularités en créant des groupes
homogènes.

I Cadre théorique mal maîtrisé


I Challenge pour les années à venir

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 19 / 44


Apprentissage non-supervisé

Principe: étant donné un échantillon de données non-étiquetées


S = {xi , i = 1, · · · , n}, découvrir des régularités en créant des groupes
homogènes.

I Cadre théorique mal maîtrisé


I Challenge pour les années à venir

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 19 / 44


Apprentissage par renforcement

Généralités
I Un agent, situé dans le temps et l’espace

I Evoluant dans un environnement incertain (stochastique)


I But : sélectionner une action à chaque pas de temps,
I · · · afin de maximiser une espérance du gain cumulé à horizon temporel
fini ou infini

Qu’apprend-on
une politique = stratégie = {état → action}
Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 20 / 44
Allons plus profondément dans la boite !

Réseaux de neurones · · · profonds

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 21 / 44


Anatomie (basique) d’une neurone

Figure: A neuron’s basic anatomy consists of four parts: a soma (cell body),
dendrites, an axon, and nerve terminals. Information is received by dendrites,
gets collected in the cell body, and flows down the axon.
Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 22 / 44
Neurone artificiel

Terminal Branches
Dendrites
of Axon
x1
w1
x2
w2
x3 w3

S
Axon

wn
xn

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 23 / 44


Perceptron

Rosenblatt 1957

Figure: Mark I Perceptron machine

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 24 / 44


Perceptron
Apprentissage des poids wi

Règle de Hebb
En cas de succès, ajouter à chaque connexion quelque chose de proportionnel à
l’entrée et à la sortie.
Règle du perceptron : apprendre seulement en cas d’échec

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 25 / 44


Apprentissage du Perceptron
Exemple : la fonction OR

Initialization: w1 (0) = w2 (0) = 1, w3 (0) = −1


x(k) wi xki ỹ (k) y (k)
P
t w1 (t) w2 (t) w3 (t) ∆w1 (t) ∆w2 (t) ∆w3 (t)
0 1 1 -1 001 -1 0 0 0 0 0
1 1 1 -1 011 0 0 1 0 1 1
2 1 2 0 101 1 1 1 0 0 0
3 1 2 0 111 3 1 1 0 0 0
4 1 2 0 001 0 0 0 0 0 0
5 1 2 0 011 2 1 1 0 0 0

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 26 / 44


Perceptron : illustration

x(1) = [0, 0]T t=0

0
w1 = 1

P −1 1 if a > 0 ỹ = 0
0 w2 = 1 a= i wi xi 0 elsewhere
y=0
w3 = −1
1
wi = wi + (y − ỹ)xi

w1 = 1 + 0 ∗ 0
w2 = 1 + 0 ∗ 0
w3 = −1 + 0 ∗ −1

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 27 / 44


Perceptron : illustration

x(2) = [0, 1]T t=1

0
w1 = 1

P 0 1 if a > 0 ỹ = 0
1 w2 = 1 a= i wi xi 0 elsewhere
y=1
w3 = −1
1
wi = wi + (y − ỹ)xi

w1 = 1 + 1 ∗ 0 = 1
w2 = 1 + 1 ∗ 1 = 2
w3 = −1 + 1 ∗ 1 = 0

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 27 / 44


Perceptron : illustration

x(3) = [1, 0]T t=2

1
w1 = 1

P 1 1 if a > 0 ỹ = 1
0 w2 = 2 a= i wi xi 0 elsewhere
y=1
w3 = 0
1
wi = wi + (y − ỹ)xi

w1 = 1 + 0 ∗ 0 = 1
w2 = 2 + 0 ∗ 1 = 2
w3 = 0 + 0 ∗ 1 = 0

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 27 / 44


Perceptron : illustration

x(4) = [1, 1]T t=3

1
w1 = 1

P 3 1 if a > 0 ỹ = 1
1 w2 = 2 a= i wi xi 0 elsewhere
y=1
w3 = 0
1
wi = wi + (y − ỹ)xi

w1 = 1 + 0 ∗ 0 = 1
w2 = 2 + 0 ∗ 1 = 2
w3 = 0 + 0 ∗ −1 = 0

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 27 / 44


Perceptron : illustration

x(1) = [0, 0]T t=4

0
w1 = 1

P 0 1 if a > 0 ỹ = 0
0 w2 = 2 a= i wi xi 0 elsewhere
y=0
w3 = 0
1
wi = wi + (y − ỹ)xi

w1 = 1 + 0 ∗ 0 = 1
w2 = 2 + 0 ∗ 1 = 2
w3 = 0 + 0 ∗ 1 = 0

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 27 / 44


Perceptron : illustration

x(2) = [0, 1]T t=5

0
w1 = 1

P 2 1 if a > 0 ỹ = 1
1 w2 = 2 a= i wi xi 0 elsewhere
y=1
w3 = 0
1
wi = wi + (y − ỹ)xi

w1 = 1 + 0 ∗ 0 = 1
w2 = 2 + 0 ∗ 1 = 2
w3 = 0 + 0 ∗ 1 = 0

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 27 / 44


Perceptron : capacité

1 1

0 0

0 1 0 1
OR(x1 , x2 ) AND(x1 , x2 )

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 28 / 44


Perceptron : capacité

0 1
XOR(x1 , x2 )
Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 28 / 44
Mais !

XOR(x1 , x2 )
AND(x1 , x̄2 )

0 1
AND(x̄1 , x2 )

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 29 / 44


Perceptron Multi-Couches Paul Werbos, 84. Rumelhart, Hinton et al, 86
1
b 1

x1

x2

o1

x3

om

Output layer

xd

Input Layer

Hidden layers

Universal approximation theorem (Cybenko, 89; Hornik 91) :


Sous certaines conditions sur les fonctions d’activation, le PMC avec
une seule couche cachée composée d’un nombre fini de neurones, peut
approcher avec une erreur arbitraire toute fonction dans Rn

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 30 / 44


PMC avec une couche cachée
1 1
b

x1 w11 h1 b2
w 21 w12
w1
2
w 31
w
13
x2 w22 h2
w22
w 32
w23

x3 w33 h3 w32

n2
Output Layer

w
P
f (x) = o(b2 + d 2
i=1 w1 hi (x))

n3
w2

w
d
1
wn

w 3d

w1
d

xn
wd2
wnd
Input Layer

hd

Hidden Layer
P
hj (x) = g(b + n i=1 wij xi )

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 31 / 44


PMC: entraînement par retropropagation
Chain rule généralisée
Chain Rule in Flow Graph

Flow!graph:!any!directed!acyclic!graph!
…$ !node!=!computa8on!result!
!arc!=!computa8on!dependency!
!

…$ !!!!!!!!!!!!!!!!!!!!!!!!!!!! !!=!successors!of!!

…$
65!
Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 32 / 44
PMC: entraînement par retropropagation
XOR

P a1 1
h1
1
x1 i wi1x i
+ b11 h(x) = 1+e−a(x)
1
w11

w12
P ao 1

1
w12 k wk2 hk + b2 ho (x) = 1+e−a(x)

2
w21 w22
P a2 1
h2
x2
1 1
i wi2 x2 + b2
h(x) = 1+e−a(x)
2
w22

b11 b12 b2

1 1

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 33 / 44


PMC: entraînement par retropropagation
XOR

P a1 1
h1
1
x1 i wi1x i
+ b11 h(x) = 1+e−a(x)
1
w11 =1

w12 = 1
w 12

ao ỹ
1

P 1
wk2 hk + b2 ho (x) =
−1
=1

k 1+e−a(x)
b11 =
1
=
w1
21

w22 = 1
P a2 1
h2
x2 i
1
wi2 x2 + b12 h(x) = 1+e−a(x)

b 2 = −1
1
w22 =1
1

1 =
b2
1 1

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 33 / 44


PMC: entraînement par retropropagation
XOR

a1 = −1 1 0.27
x1 0 h1 (x) =
1
P 1 1
1+e−a1 (x)
w11 =1 i wi1xi + b1

w12 = 1 −0.46
w 12

ao = ỹ = 0.39
1

1
ho (x) =
−1
=1

P 1+e−ao (x)
2 2
k wk hk + b
b11 =

y=0
1
=
w1
21

w22 = 1
a2 = −1 1 0.27
x2 0 h2 (x) = 1+e−a2 (x)
P 1
x2 + b12

b 2 = −1
1 wi2
w22 =1 i
1

1 =
b2
1 1

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 33 / 44


PMC: entraînement par retropropagation
XOR

wk2 = wk2 + ηδk

δk = (y − ỹ)(1 − ỹ)ỹhk
w ∂ ỹ ∂ao
a1 = = ∂E
∂ ỹ ∂ao ∂w 2
−1 1 0.27 k
x1 0 h1 (x) =
1
P 1 1
1+e−a1 (x)
w11 =1 i wi1xi + b1

w12 = 1 −0.46
w 12

ao = ỹ = 0.39
1

1
ho (x) =
−1
=1

P 1+e−ao (x)
wk2 hk + b2
b11 =

k
y=0
1
=
w1
21

w22 = 1
a2 = −1 1 0.27
x2 0 h2 (x) = 1+e−a2 (x)
P 1
x2 + b12

b 2 = −1
1 wi2
w22 =1 i
1

1 =
b2
1 1

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 33 / 44


PMC: entraînement par retropropagation
XOR

∂Ew ∂Ew ∂ho ∂ao ∂hj ∂aj


1
wij 1
= wij − ηδij δij = ∂wij = ∂ho ∂ao ∂hj ∂aj ∂wij
wk2 = wk2 − ηδk
δij = −(y − ỹ)(1 − ỹ)ỹwj2 hj (1 − hj )xi ∂Ew
δk = 2 , Ew
∂wk
= 21 (y − ỹ)2
w ∂ ỹ ∂ao
= ∂E
∂ ỹ ∂ao ∂w 2 δk = −(y − ỹ)(1 − ỹ)ỹhk
k
a1 = −1 1 0.27
x1 0 h1 (x) =
P 1
1+e−a1 (x)
1
w11 =1 i wi1x i
+ b11

w12 = 0.98 −0.46


w 12

ao = ỹ = 0.39
1

−.98

1
ho (x) =
=1

P 2 2
1+e−ao (x)
k wk hk + b
b11 =

y=0
1
=
w1
21

w22 = 0.98
a2 = −1 1 0.27

07
x2 0 h2 (x) = 1+e−a2 (x)
P

b 2 = −1.
1
1
w22 =1 i wi2 x2 + b12 w12 = w12 + 1 ∗ (0 − .39)(1 − .39).3 ∗ 0.27
8
.9
− w22 = w22 + 1 ∗ (0 − .39)(1 − .39).3 ∗ 0.27
1 =
b2
1 1 b2 = b2 + 1 ∗ (0 − .39)(1 − .39).3 ∗ 1
1
w11 = 1 + 1 ∗ (0 − .39)(1 − .39) ∗ .39 ∗ 1 ∗ .27 ∗ (1 − .27) ∗ 0
1
w22 = 1 + 1 ∗ (0 − .39)(1 − .39) ∗ .39 ∗ 1 ∗ .27 ∗ (1 − .27) ∗ 0
..
.

b11 = −1 + 1 ∗ (0 − .39)(1 − .39) ∗ .39 ∗ 1 ∗ .27 ∗ (1 − .27) ∗ −1

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 33 / 44


PMC: entraînement par retropropagation
XOR

a1 = .02 1 0.5
x1 0 h1 (x) =
P 1
1+e−a1 (x)
1
w11 =1 i wi1x i
+ b11

w12 = 0.98 −0.09


w 12

ao = ỹ ≈ 0.5
1

−.98

1
ho (x) =
=1

P 1+e−ao (x)
2 2
k wk hk + b
b11 =

y=1
1
=
w1
21

w22 = 0.98
a2 = .02 1 0.5

07
x2 1 h2 (x) = 1+e−a2 (x)
P

b 2 = −1.
1
1
w22 =1 i wi2 x2 + b12
8
.9

1 =
b2
1 1

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 33 / 44


PMC comme un réseau profond
PMC avec plus de 2/3 couches est un réseau profond
1
b 1

x1

x2

o1

x3

om

Output layer

xd

Input Layer

Hidden layers

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 34 / 44


D’où vient la rupture ?

Avant 2006, l’entraînement des architectures profondes était sans succès !


Bengio, Hinton, LeCun

Essouflement du gradient
I Avancées en optimisation stochastique
I Pré-entraînement non-supervisé

Sur-apprentissage
I Techniques de régularisation
I Stochastic “dropout"

Et surtout
I Disponibilité de très grandes masses de données

I Disponibilité de moyens de calcul

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 35 / 44


Pré-entraînement non-supervisé

Idée principale
Initialiser le réseau de façon non-supervisée pas à pas
x1 x1 x1

x2 x2 x2

x3 x3 x3

xd xd xd

Input Layer =⇒ Input Layer =⇒ Input Layer

Modèles dédiés : RBM, Auto-encodeurs, et plusieurs variantes

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 36 / 44


Fine tuning

Comment ?
I Ajouter la couche de sortie

I Initialiser ses poids de façon aléatoire


I Mise à jour par rétropprogaration
x1

x2

x3

Output Layer
xd

Input Layer

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 37 / 44


Drop out

Intuition
Régulariser le réseau en annulant aléatoirement des unités cachées.

Procédure
Affecter à chaque neurone caché une valeur 0 avec une probabilité p (choix
commun : .5)
x1

x2

x3

Output Layer
xd

Input Layer

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 38 / 44


Quelques réseaux d’intérêt

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 39 / 44


Convolutional Neural Networks Lecun, 89–
Etat de l’art en vision et autres

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 40 / 44


faces cars

Convolutional Neural Networks Lecun, 89–


Etat de l’art en vision et autresConvolutional Deep Belief Networks for Scalable
Table 2. Test er
Labeled training samples 1,000
CDBN 2.62±0.12%
Ranzato et al. (2007) 3.21%
Hinton and Salakhutdinov (2006) -
Weston et al. (2008) 2.73%
faces
Figure 3. Columns 1-4: the secondcarslayer bases (top) an
categories. Column 5: the second layer bases (top) and
object categories (faces, cars, airplanes, motorbikes).
Faces Motorbikes Cars
0.6 0.6 0.6
first layer first layer first layer

calable Unsupervised Learning of Hierarchical Representations


0.4
second layer
third layer 0.4
second layer
third layer 0.4
second layer
third layer

0.2 0.2 0.2

her given 0
0.2 0.4 0.6 0.8 1
Area under the PR curve (AUC)
0
0.2 0.4 0.6 0.8 1
Area under the PR curve (AUC)
0
0.2 0.4 0.6 0.8 1
Area under the PR curve (AUC

reatment Features Faces Motorbikes Cars


ottom-up
Jamal Atif (Université Paris-Dauphine)
First layer 0.39±0.17
Intelligence Artificielle
0.44±0.21 0.43±0.19
30 mai 2017 40 / 44
Réseaux récurrents : LSTM
Etat de l’art en TAL

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 41 / 44


Inside AlphaGo
Combiner CNN, RL et MCTS

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 42 / 44


Qu’y a t-il de profond en apprentissage profond
Paradigmes nouveaux vs anciens

Decision Decision

Representation learning
Classifier Classifier

Hand-crafted Learned
features features

Raw data Raw data

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 43 / 44


Conclusion

I Avancées considérables en reconnaissance de formes (solution au paradoxe


de Moravec ?)
I Continuum mathématique/informatique en apprentissage automatique
I Peu de compréhension des réseaux de neurones profonds : problèmes
d’interprétation et donc d’acceptabilité
I Le futur est pour la combinaison des approches
I Nous sommes loins de l’intelligence artificielle générale
I · · · un (petit) pas au travers du Deep Reinforcement Learning

Jamal Atif (Université Paris-Dauphine) Intelligence Artificielle 30 mai 2017 44 / 44

Vous aimerez peut-être aussi