Deep.6 GAN

Deep generative models
à VAE, GANs & co

Pourquoi ?
• Estimation de densité de probabilité P(X) à partir d’observations X
• P(Y|X) vs P(X) ou P(X,Y), ie: supervisé vs non-supervisé
• Générer de nouvelles données

• Utile lorsque peu de données disponibles
• Compléter des données manquantes
• Nombreuses applications
• Adaptation, transfert, multivues, …
• Interpolation (dans un espace latent)
Pourquoi ?
• Partitionnement de données (ie: GMM)
• Estimation d’une distribution de probabilité pour chaque cluster
• Estimer P(X) comme une somme pondérée de gaussiennes :
• Réduction de dimension (ie: PPCA, FA)

• Trouver P(Z|X) ~ 𝒩(𝜇, 𝛴)
• Apprentissage non supervisé

• Pas besoin d’étiquette, seulement les données !
Apprentissage non supervisé
• Données : X , Z
• Données observées x1, … xN
• Variables latentes z1, …, zk
• Objectif : Déterminer une structure sous jacente de X

• Apprendre une distribution sur les variables latentes Z
•
Apprentissage non supervisé
• Données : X , Z
• Données observées x1, … xN
• Variables latentes z1, …, zk
• Objectif : Déterminer une structure sous jacente de X

• Apprendre une distribution sur les variables latentes Z
Compliqué… alors le deep learning peut aider !

Retour sur les Autoencodeurs
• Architecture dédiée pour l’apprentissage d’un espace latent de
manière non supervisée
• Objectif : Décodeur
Z
• Deux entités apprises conjointement
• Encodeur qui modélise Encodeur
• Décodeur qui modélise
X
• Intérêt en compression, apprentissage de features, débruitage, …

• Exemple avec des images naturelles 32 x 32 x 3 (CIFAR10)
• Espace latent de dimension 4 x 4 x 16 = 256 !

• Problème : peu utile pour la génération (d’images) …
• La fonction de perte L2 n’est pas adaptée aux distributions multimodales

→ Tend à générer du flou
• Pas de contrainte sur la structure de l’espace latent

→ Peu compact ou non continu : interpolation difficile
Variational Autoencoder
• [Kingma, 2014]
• Cherche à maximiser
• Calcul insoluble si Z est continue et/ou de très grande dimension

• Idée : introduire P(Z|X) et l’approximer par une distribution Q(Z|X) plus simple
• Minimiser la divergence entre Q(Z|X) et P(Z|X)
• Evidence Lower Bound (ELBO)

• L(X, P𝜃) > L(X, P𝜃, Qɸ)
Minimiser
Reconstruction
ELBO ≥0
• Maximiser L(X, P𝜃) ó Maximiser la reconstruction et minimiser la KL
• si P(Z) ～ 𝒩(0, I)
• Q(Z|X) est un encodeur qui apprend 𝜇 et 𝜎
• P(X|Z) est le décodeur sachant le prior Z (+ reparameterization trick)

• Sampler Z directement sur 𝒩(𝜇Z|X , 𝜎Z|X )

empêche l’apprentissage par backprop
Décodeur = P( |Z)
⇒ Reparameterization trick
Z
z = 𝜇Z|X + ℇ 𝜎Z|X2 avec ℇ～ 𝒩(0, I)
𝜇 Z|X 𝜎 Z|X
• Après convergence, 𝜇 ≈ 0 et 𝜎 ≈ I Encodeur = Q(Z|X)
⇒ Génération possible à partir de 𝒩(0, I) ! X

KL Loss KL + L2 Loss
Arithmétique dans l’espace latent Interpolation entre exemples
Generative Adversarial Network
• Paradigme d’apprentissage récent [Y. Goodfellow, 2014]
• Adversarial training is the coolest thing since sliced bread. — Yan LeCun
• Utile pour apporter une supervision

lorsque pas disponible
• Enormément de travaux dérivés

depuis le premier papier
• Un « jeu » entre deux adversaires, objectifs contradictoires
Un faussaire veut Un policier essaie

produire des d’attraper des
billets de banque faux billets.
les plus réalistes. Pénalité s’il se
Risque la prison trompe

générateur = produire des d’attraper des = classifieur :
de billets billets de banque faux billets. billet à vrai/Faux









Données : X
Générateur : P(X|Z)
Discriminateur : P( {Real|Fake} | X)
Real
Z ～ 𝒩(0, I) Z Générateur Discriminateur loss
G D
Fake
Real
GAN – Objective function
• PX : Distribution des données (ie: exemples réels) à P(X)

• PZ : Distribution prior de l’espace Z à P(Z)
GAN – Objective function
• PX : Distribution des données (ie: exemples réels) à P(X)

• PZ : Distribution prior de l’espace Z à P(Z)
• PG : Distribution apprise par le générateur à P(X|Z)
• Entrainement du Discriminateur
Données : X
Etiquettes : {Real | Fake}
Real
X
Z ～ 𝒩(0, I) Z Générateur Discriminateur
G D
Fake
• Entrainement du Générateur
Données : Z
Etiquettes : Real
D n’est pas mis à jour
Z ～ 𝒩(0, I) Z Générateur Discriminateur

Real
G D
• Convergence et optimalité : maximisation sur D
maximum de a log(x) + b log(1-x) = a / (a + b)
• Quelque soit G, le meilleur D est

• Convergence et optimalité : minimisation sur G
• Minimum atteint quand PX = PG è
è Converge vers !
• Convergence et optimalité : minimisation sur G
• Minimise la divergence de Jensen-Shannon entre PX et PG !

Entrainé sur MNIST (50000 images 32x32 pixels de chiffres manuscrits)
Adversarial Autoencoder
• [Makhzani, 2016]
Z ～ 𝒩(0, I)
Real
Décodeur
Z Discriminateur loss
Fake
Encodeur
X
DCGAN
• [Radford, 2014]
• Architecture convolutionnelle dans le Générateur (et le Discriminateur)
• images normalisées vers [-1, 1] ; dernière couche avec tanh activation

• stride convolution, pas de pooling
• batchNormalization
• leakyReLU(0.2)
• minibatch = 128
• Adam optimizer
• momentum = 0.5
• LR = 0.0002
• poids initialisés avec Z ～ 𝒩(0, 0.02)
DCGAN
DCGAN
DCGAN
DCGAN
D’autres améliorations
• CGAN : Conditional GAN [Mirza, 2014]
⇒ Minimise la f-divergence de Jensen-Shannon entre P(X|Z,Y) et Q(X|Z,Y)
• LSGAN : Least-Squares GAN [Mao, 2016]

⇒ Minimise la f-divergence de Pearson-Chi2 entre P(X|Z) et Q(X|Z)
• WGAN : Wasserstein GAN [Arjovsky, 2017]

⇒ Optimise une distance de transport optimal entre P(X|Z) et Q(X|Z)
• ALI : Adversarially Learned Inference [Dumoulin, 2017]

⇒ Optimise la f-divergence de Jensen-Shannon entre P(X,Z) et Q(X,Z)
⇒ Q(X, Z) = Q(X) Q(X|Z) et P(X, Z) = P(Z) P(X|Z)
⇒ Apprend la distribution jointe (et la marginale)
• Progressive Growing of GANs for Improved Quality, Stability, and Variation [Karras, 2018]
• Génère des visages 1024x1024 pixels !
Conditional GAN
• [Mirza, 2014]
• ICGAN : Invertible Conditional GAN [Perarnau, 2016]

ALI [Dumoulin, 2017]
ALI
Adaptation de domaine
• Classification de données provenant de
distributions différentes
• Source vs Target
• Classes similaires
• Few-shot learning
• Etiquettes cibles connues ou non
• Classification de données provenant de distributions différentes
• Domain-Adversarial Training of Neural Networks

• [Ganin, 2016]
• Classification de données provenant de distributions différentes
• Adversarial Discriminative Domain Adaptation

• [Tzeng, 2017]
Transformation d’images
• Image-to-image translation with conditional adversarial networks
[Isola, 2017] à « pix2pix »
• L2 + CGAN
• Discriminateur par patch
Transformation d’images
• Image-to-image translation with conditional adversarial networks
[Isola, 2017] à « pix2pix »
• L2 + CGAN
• Unpaired Image-to-Image Translation using Cycle-Consistent

Adversarial Networks [Zhu, 2017]
à CycleGAN :
Séparation contenu / style
• « Disentangling »
• Générer des images avec un autre style
• Modèles conditionnels, Discriminateur avec pair d’images
• [Mathieu, 2016]
Adversarial Learning for Generating Muliview Data
[Chen, 2018]
• Séparation contenu / vues : Génère des images avec une autre vue
[Chen, 2018]
• Deux (copies) du générateur produisent deux images avec le même c et un v
différent
• Le discriminateur apprend à distinguer une paire d’images d’une même
personne dans deux vues quelconques
Adversarial Learning for Generating Muliview Data
[Chen, 2018]
• Séparation contenu / vues : Génère des images avec une autre vue
[Chen, 2018]
• Deux (copies) du générateur produisent deux images avec le même c et un v
différent
• Le discriminateur apprend à distinguer une paire d’images d’une même
personne dans deux vues quelconques
Transforme une
image donnée
Adversarial Learning for Generating Muliview
Data [Chen, 2018]
Motion Capture Synthesis with Adversarial Learning
[Qi, 2017]
• Même idée pour la génération de séquences

Apprentissage des GANs compliqué :
« Mode Collapse »
• Difficulté à apprendre une distribution à plusieurs modes
è Le générateur produit des données peu variées
è Le discriminateur a mal appris
• Comment le contourner ?
• Experience Replay
• Multiple GANs, ie: AdaGAN [Tolstikhin, 2017]
• Minibatch Discrimination [Salimans, 2016]
• Minibatch Standard Deviation [Karras, 2018]
Juste un mot sur l’évaluation
• Evaluation qualitative
• « à l’œil » !
• À plus ou moins grande échelle …
• Evaluation quantitative
• MS-SSIM, PSNR
• Inception Score :
Questions ?

Deep.6 GAN

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Deep.6 GAN

Transféré par

Droits d'auteur :

Formats disponibles

Deep generative models

à VAE, GANs & co

• Générer de nouvelles données

• Réduction de dimension (ie: PPCA, FA)

• Apprentissage non supervisé

• Objectif : Déterminer une structure sous jacente de X

• Objectif : Déterminer une structure sous jacente de X

Compliqué… alors le deep learning peut aider !

• Intérêt en compression, apprentissage de features, débruitage, …

• Espace latent de dimension 4 x 4 x 16 = 256 !

• La fonction de perte L2 n’est pas adaptée aux distributions multimodales

• Pas de contrainte sur la structure de l’espace latent

• Calcul insoluble si Z est continue et/ou de très grande dimension

• Evidence Lower Bound (ELBO)

• Maximiser L(X, P𝜃) ó Maximiser la reconstruction et minimiser la KL

• Q(Z|X) est un encodeur qui apprend 𝜇 et 𝜎

• P(X|Z) est le décodeur sachant le prior Z (+ reparameterization trick)

• Sampler Z directement sur 𝒩(𝜇Z|X , 𝜎Z|X )

• Après convergence, 𝜇 ≈ 0 et 𝜎 ≈ I Encodeur = Q(Z|X)

⇒ Génération possible à partir de 𝒩(0, I) ! X

• Utile pour apporter une supervision

• Enormément de travaux dérivés

Un faussaire veut Un policier essaie

Un faussaire veut Un policier essaie

Un faussaire veut Un policier essaie

Un faussaire veut Un policier essaie

Un faussaire veut Un policier essaie

Un faussaire veut Un policier essaie

Un faussaire veut Un policier essaie

Un faussaire veut Un policier essaie

Un faussaire veut Un policier essaie

Un faussaire veut Un policier essaie

Un faussaire veut Un policier essaie

Z ～ 𝒩(0, I) Z Générateur Discriminateur loss

• PX : Distribution des données (ie: exemples réels) à P(X)

• PX : Distribution des données (ie: exemples réels) à P(X)

Z ～ 𝒩(0, I) Z Générateur Discriminateur

Z ～ 𝒩(0, I) Z Générateur Discriminateur

maximum de a log(x) + b log(1-x) = a / (a + b)

• Quelque soit G, le meilleur D est

• Minimum atteint quand PX = PG è

• Minimise la divergence de Jensen-Shannon entre PX et PG !

• images normalisées vers [-1, 1] ; dernière couche avec tanh activation

• LSGAN : Least-Squares GAN [Mao, 2016]

• WGAN : Wasserstein GAN [Arjovsky, 2017]

• ALI : Adversarially Learned Inference [Dumoulin, 2017]

• ICGAN : Invertible Conditional GAN [Perarnau, 2016]

• Domain-Adversarial Training of Neural Networks

• Adversarial Discriminative Domain Adaptation

• Unpaired Image-to-Image Translation using Cycle-Consistent

• Même idée pour la génération de séquences

Vous aimerez peut-être aussi