Vous êtes sur la page 1sur 33

Apprentissage à grande échelle

R. Gaudel1

1
ENSAI, CREST

Janvier 2021
Première partie I

Exemple 1 : partitionnement de variétés

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 2 / 28


Deuxième partie II

Exemple 2 : descent de gradient


(aléatoire)

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 3 / 28


Troisième partie III

Exemple 3 : SVM à noyaux approchés


par attributs de Fourrier aléatoires

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 4 / 28


Quatrième partie IV

Exemple 4 : partionnement à partir d’un


résumé des données
Anthony Bourrier, Rémi Gribonval, et Patrick Pérez (2017). Compressive gaussian mixture estimationn. In IEEE International Conference on Acoustic,
Speech and Signal Processing (ICASSP), pages 6024–6028, 2013

Anthony Bourrier, Rémi Gribonval, et Patrick Pérez (2017). Compressive Gaussian Mixture estimation. In Haulger Boche, Robert Calderbank, Gitta
Kutyniok, and Jan Vybiral, editors, Compressed Sensing and its Applications - MATHEON Workshop 2013, pages 6024–6028. Birkhäuser Basel, 2015

Nicolas Keriven, Anthony Bourrier, Rémi Gribonval, et Patrick Pérez (2017). Sketching for Large-Scale Learning of Mixture Models

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 5 / 28


Partitionnement d’une grande bases
de données

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 6 / 28


Mixture de Gaussiennes

Données
I n points x1 , . . . , xn ∈ Rd
i.i.d. def PK
I xi ∼ PΘ = α N (µk , Σk )
k =1 k
I Θ = ((α1P, θ1 ), . . . , (αK , θK )) et pour tout k , θk = (µk , Σk )
K
I αk > 0, k =1 αk = 1
I N (µk , Σk ) : distribution gaussienne d’espérance µk ∈ Rd et de covariance
Σk ∈ Rd×d
Objectif
I Identifier les paramètres (αk , θk )

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 7 / 28


EM pour mixture de Gaussiennes

Variables
I estimateurs Θ̂, α̂k , θ̂k , µ̂k , et Σ̂k
I Pour chaque exemple xi et chaque partie k : ẑi,k , estimation de la probabilité
que xi provienne de la partie k
Algorithme EM (espérance-maximisation)
I Entrées : x1 , . . . , xn , K
I Sorties : Θ̂
I Pour chaque k , initialiser α̂k , θ̂k aléatoirement
I Répéter
α̂ P (x )
F Pk θ̂k i
(étape E) Pour chaque i, k , ẑi,k ←
α̂j P (xi )
1
j
P θ̂j
(étape M 1/3) Pour chaque k , α̂k ← n
P i ẑi,k
F

ẑi,k xi
F (étape M 2/3) Pour chaque k , µ̂k ← Pi

P i i,k
ẑi,k (xi −µ̂k )(xi −µ̂k )T
i
F (étape M 3/3) Pour chaque k , Σ̂k ← P
ẑi,k
i

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 8 / 28


Réduction du coût de calcul

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 9 / 28


Principe : résumé d’une ditribution

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 10 / 28


Compressive mixture learning à la
Orthogonal Matching Pursuit
(CL-OMP)

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 11 / 28


Construction du résumé

Algorithme
I Entrées : x1 , . . . , xn , m = 5(2d + 1)K , Λ = N (0, I)
I Sorties : résumé ẑ ∈ Cm
I pour tout j ∈ {1, . . . , m}, wj ∼ Λ
Pn −iwjT xi
I pour tout j ∈ {1, . . . , m}, ẑj ← √1 1 e
m n i=1

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 12 / 28


Opérateur de résumé A :

d m
h surhR →
A : Distributions iC h ii
T T
I AP = √1
m
Ex∼P e−iw1 x , . . . , Ex∼P e−iwm x
P 
I ẑ = A i
δxi
L’estimateur ẑ
I ẑ ≈ APΘ
Distributions gaussiennes
h T
i
Ex∼N (µ,Σ) e−iw x
 
I = exp −iw T µ exp w T Σw
h T
i PK
Ex∼PΘ e−iw x
 
I = k =1
exp −iw T µk exp w T Σk w

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 13 / 28


Opérateur de résumé A :

d m
h surhR →
A : Distributions iC h ii
T T
I AP = √1
m
Ex∼P e−iw1 x , . . . , Ex∼P e−iwm x
P 
I ẑ = A i
δxi
L’estimateur ẑ
I ẑ ≈ APΘ
Distributions gaussiennes
h T
i
Ex∼N (µ,Σ) e−iw x
 
I = exp −iw T µ exp w T Σw
h T
i PK
Ex∼PΘ e−iw x
 
I = k =1
exp −iw T µk exp w T Σk w

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 13 / 28


Opérateur de résumé A :

d m
h surhR →
A : Distributions iC h ii
T T
I AP = √1
m
Ex∼P e−iw1 x , . . . , Ex∼P e−iwm x
P 
I ẑ = A i
δxi
L’estimateur ẑ
I ẑ ≈ APΘ
Distributions gaussiennes
h T
i
Ex∼N (µ,Σ) e−iw x
 
I = exp −iw T µ exp w T Σw
h T
i PK
Ex∼PΘ e−iw x
 
I = k =1
exp −iw T µk exp w T Σk w

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 13 / 28


Identification de Θ
Poursuite de base orthogonale

Algorithme
I Entrées : résumé ẑ ∈ Cm , opérateur de résumé A, K
I Sorties : S, α
I r̂ ← ẑ, S ← ∅
I Pour t allant de 1 à K

AN (µ,Σ)

F θ ← argmax(µ,Σ) Re kAN (µ,Σ)k
, r̂
F S ← S ∪ {θ}
Pt
F α ← argminα >0 kẑ − α AN (µk , Σk ) k
k =1 k Pt
F S, α ← argmin(S,α α>0 kẑ −
α):α k =1
αk AN (µk , Σk ) k
Pt
F r̂ ← ẑ − k =1
αk AN (µk , Σk )
I α ← Pα
αk
k

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 14 / 28


Complexité

EM résumé OMP
O mdK 2 .TDG

calcul O (dnKTEM ) O (dnm) avec m = O (dK )
mémoire O (dn) O (md) O (md)

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 15 / 28


En pratique

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 16 / 28


Bonus

" n n
#
1 1 X −iw1T xi 1 X −iwmT xi
ẑ = √ e ,..., e
m n n
i=1 i=1

Parallélisable
Calculable incrémentalement

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 17 / 28


Opérateur de résumé, noyau, et
distance

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 18 / 28


Opérateur de résumé, noyau, et distance
Deux distributions P et Q sur Rd
ẑP résumé obtenu à partir d’exemples xP,1 , . . . , xP,nP tirés selon P
ẑQ résumé obtenu à partir d’exemples xQ,1 , . . . , xQ,nQ tirés selon Q

dΛ (P, Q) ≈ kẑP − ẑQ k


 h i h i 2 
2 def −iw T x −iw T x
dΛ (P, Q) = Ew∼Λ Ex∼P e − Ex∼Q e


h h ii
def T
Correspond au noyau κ (P, Q) = Ex∼P,y ∼Q Ew∼Λ e−iw (x−y )

1 X h T
i h T
i 2
dΛ (P, Q)2 ≈ Ex∼P e−iwj x − Ex∼Q e−iwj x

m
j
X 1 h i 1 h i 2
−iwjT x −iwjT x
= √m Ex∼P e − √ Ex∼Q e

j
m
2
X 1 1 X 1 1 X −iwjT xQ,i
−iwjT xP,i 2
≈ √ e −√ e = kẑP − ẑQ k
m nP m nQ


j i i

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 19 / 28


Opérateur de résumé, noyau, et distance
Deux distributions P et Q sur Rd
ẑP résumé obtenu à partir d’exemples xP,1 , . . . , xP,nP tirés selon P
ẑQ résumé obtenu à partir d’exemples xQ,1 , . . . , xQ,nQ tirés selon Q

dΛ (P, Q) ≈ kẑP − ẑQ k


 h i h i 2 
2 def −iw T x −iw T x
dΛ (P, Q) = Ew∼Λ Ex∼P e − Ex∼Q e


h h ii
def T
Correspond au noyau κ (P, Q) = Ex∼P,y ∼Q Ew∼Λ e−iw (x−y )

1 X h T
i h T
i 2
dΛ (P, Q)2 ≈ Ex∼P e−iwj x − Ex∼Q e−iwj x

m
j
X 1 h i 1 h i 2
−iwjT x −iwjT x
= √m Ex∼P e − √ Ex∼Q e

j
m
2
X 1 1 X 1 1 X −iwjT xQ,i
−iwjT xP,i 2
≈ √ e −√ e = kẑP − ẑQ k
m nP m nQ


j i i

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 19 / 28


Opérateur de résumé, noyau, et distance
Deux distributions P et Q sur Rd
ẑP résumé obtenu à partir d’exemples xP,1 , . . . , xP,nP tirés selon P
ẑQ résumé obtenu à partir d’exemples xQ,1 , . . . , xQ,nQ tirés selon Q

dΛ (P, Q) ≈ kẑP − ẑQ k


 h i h i 2 
2 def −iw T x −iw T x
dΛ (P, Q) = Ew∼Λ Ex∼P e − Ex∼Q e


h h ii
def T
Correspond au noyau κ (P, Q) = Ex∼P,y ∼Q Ew∼Λ e−iw (x−y )

1 X h T
i h T
i 2
dΛ (P, Q)2 ≈ Ex∼P e−iwj x − Ex∼Q e−iwj x

m
j
X 1 h i 1 h i 2
−iwjT x −iwjT x
= √m Ex∼P e − √ Ex∼Q e

j
m
2
X 1 1 X 1 1 X −iwjT xQ,i
−iwjT xP,i 2
≈ √ e −√ e = kẑP − ẑQ k
m nP m nQ


j i i

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 19 / 28


Variantes

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 20 / 28


CL-OMPR
Poursuite moins gloutonne

Entrées : résumé ẑ ∈ Cm , opérateur de résumé A, K


Sorties : S, α
r̂ ← ẑ, S ← ∅
Pour t allant de 1 à 2K D E
AN (µ,Σ)
I θ ← argmax(µ,Σ) Re kAN (µ,Σ)k
, r̂
I S ← S ∪ {θ}
I Si |S| > K
P|S| AN (µk ,Σk )
F β ← argminβ >0 kẑ − β
k =1 k kAN (µk ,Σk )k
k
F Sélectionne les K plus grandes valeurs βi1 , . . . , βiK
F S ← {θi1 , . . . , θiK }
P|S|
I α ← argminα >0 kẑ − k =1
αk AN (µk , Σk ) k
P|S|
I S, α ← argmin(S,α α>0 kẑ −
α):α k =1
αk AN (µk , Σk ) k
P|S|
I r̂ ← ẑ − k =1
αk AN (µk , Σk )
α ← Pα
α k
k

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 21 / 28


Meilleur résumé

Algorithme
I Entrées : x1 , . . . , xn , m = 5(2d + 1)K , Λ = ΛAr
Σ=I
I Sorties : résumé ẑ ∈ Cm
I pour tout j ∈ {1, . . . , m}, wj ∼ Λ
Pn −iwjT xi
I pour tout j ∈ {1, . . . , m}, ẑj ← √1 1 e
m n i=1

w ∼ ΛAr
Σ=I
  12 2
R4 1
I P(R) ∝ R 2 + 4
e− 2 R

I φ ∼ U Sphere unité de Rd
1
I w = RΣ − 2 φ
h T
i
Rappel : Ex∼N (µ,Σ) e−iw x = exp −iw T µ exp w T Σw
 

h T
i  4
 12 1 2 2
Donc pour d = 1, ∇(µ,σ) Ex∼N (µ,σ) e−iw x = R 2 + R4 e− 2 σ R

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 22 / 28


Anisotropisme

Algorithme
I Entrées : x1 , . . . , xn , m = 5(2d + 1)K , Λ = ΛAr
Σ=σ̄ 2 I
I Sorties : résumé ẑ ∈ Cm
I pour tout j ∈ {1, . . . , m}, wj ∼ Λ
Pn −iwjT xi
I pour tout j ∈ {1, . . . , m}, ẑj ← √1 1 e
m n i=1

Hypothèse : Σk ≈ diag(σk2,1 , . . . , σk2,d )


Hypothèse : σk ,j ≈ σ̄
Inférence de σ̄ sur une n0 6 n examples et m0 6 m fréquences

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 23 / 28


Inférence de σ̄

Entrées : x1 , . . . , xn , n0 6 n, m0 , c ∈ N∗ , T ∈ N∗
σ̄ ← 1
pour t allant de 1 à T
I pour tout j ∈ {1, . . . , m0 }, wj ∼ ΛAr
Σ=σ̄ 2 I
I ordonner
h {w 1 , . . . , w m0 } par module croissant
i
T T
Pn Pn −iwm xi
I ẑ0 ← 1
n i=1
e−iw1 xi , . . . , 1
n i=1
e 0

I q ← bm0 /cc
I pour tout ` ∈ {1, . . . , c}, j` = argmaxj∈{(`−1)q+1,...,`q} |ẑ0,j |
h i
2
1 σ2
− e− 2 |ẑ0,j` |
 
I σ̄ 2 ← argminσ2 >0
|ẑ0,j` | `∈{1,...,c}

`∈{1,...,c}

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 24 / 28


En pratique

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 25 / 28


Identification de la "classe" des exemples

CL-OMP(R), identifie uniquement Θ = ((α1 , µ1 , Σ1 ), . . . , (αK , µK , ΣK ))


Classe associée à chaque exemple : 1 étape E de EM
α̂ Pθ̂ (xi )
k
I Pour chaque i, k , ẑi,k ← P k
α̂j Pθ̂ (xi )
j j 
I Plus de temps de calcul : O nKd 2
I Plus de mémoire : O (nK )

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 26 / 28


Identification de la "classe" des exemples

CL-OMP(R), identifie uniquement Θ = ((α1 , µ1 , Σ1 ), . . . , (αK , µK , ΣK ))


Classe associée à chaque exemple : 1 étape E de EM
α̂ Pθ̂ (xi )
k
I Pour chaque i, k , ẑi,k ← P k
α̂j Pθ̂ (xi )
j j 
I Plus de temps de calcul : O nKd 2
I Plus de mémoire : O (nK )

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 26 / 28


Conclusion

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 27 / 28


À retenir

Résumé de distribution de taille O (dK ) est suffisant


Résumé = attributs de Fourrier aléatoire / fonction caractéristique
Résumé calculable en parallèle ou incrémentalement
Partitionnement = poursuite de base othogonale

R. Gaudel (ENSAI, CREST) Apprentissage à grande échelle jan. 2021 28 / 28