Cours IFT6266,
Maximum de vraisemblance et algorithme EM
Entropie croisée et log-vraisemblance:
La neg-log-vraisemblance avec modale de densité f est
1 a ps a os
2 Slog f(s) = Bt tog f(X)] = = / lx) log fdr
Ventropie croisée de la distribitution empirique p et le moddle f. Son espérance
(sur D) est
- [ v(2)t0g fae
Ventropie croisée entre la vraie loi p et le modéle J, qui est minimisée quand f
ce qui donne lentropie de p. Note: B,,{6(2—<7)] = p(s). Si on soustrait Pentropie
de p on obtient la divergence de Kullback Liebler entre p et f, KL(p||f)
Le défant du crittre de maximum de vraisemblance, c'est qu'il pent donner des
résultats pour lesquels la distribution est trés pointe autour des exemples et zero
ailleurs. En fait, si il n'y avait aucune contrainte sur la famille de fonctions Py, on
obtiendrait exactement 6/1 aux points des exemples et 0 ailleurs (6 est une fonction
de masse 1 concentrée en un seul point). Cela signifie que le critere est anssi petit
qu'il est possible (90) pour les exemples d’apprentissage tont en étant anssi grand
qu'il est possible (oo) en tout point qui n'est pas dans ensemble ’apprentissage.
Des critdres alternatifs ont été proposés (voir: penalized maximum likelihood et
méthodes Bayesiennes): en général le principe est le méme qu’avee les algorithmes
apprentissage, i.e., on pénalise les solutions moins lisses (on plus “complexes’
selon un certain critere, telle la probabilité a priori)
Modéles de mélange
plz) =) pl2)PO)
ia
on a une densité p(x|j) pour chaque composante j, done si p(r|j) uormalisé p(r)
aussi, Pour un « donné on peut calculer la proba a posteriori P(j|r) = SEO
Si on permet de varier m on obtient qqchose de fondamentalement non-paramétrique
(méme si pour chaque m fixe on a un modéle paramétrique). On verra la méme
on avec les réseaux de neurones.Mélange de Gaussiennes: p(z|j) est une normale de moyenne p1; et variance 5.
C'est nn “approximateur universel” des densités (pour une erreur fixée € on peut
trouver m < oo et les j1;.3, qui approxime avee une erreur plus petite)
Parambtzes: les P() et les parametres de chaque composante.
On peut aussi avoir des mélanges conditionnels
PUD
6) = SO PUIX) PY. i)
qu’on appelle aussi des mélanges d’experts (mixtures of experts). Dans ce cas,
chacun des sous-mnoddles représente une distribution conditionnelle (par exemple
on peut utiliser um réseau de neurone pour calculer les parambtres d'une Ganssi-
enne). Rappelous que
EIY|X] => PUX)EIY |X.)
Done sion a un ensemble de moddles de régression, E[Y |X. 7}, on peut les combiner
ainsi, La fonction P(i|X) est aussi une fonction paramétrisée de X, et on Yappelle
le gater puisqu’elle décide quelle sous-distribution utiliser dans chaque contexte
Xx.
Algorithme EM
Malheureusement on ne peut maximiser analytiquement la vraisemblanee pour un
modéle de mélange de densités simples (e.g, mélange de Gaussiennes). L’algo
EM est un algorithme doptimisation pour modéles probabilistes quand on peut
résoudre analytiquement une fois qu’une eertaine variable aléatoire est introduite
et supposée observée (ici ca sera 'identité de la composante j qui a généré la
donnée 2).
L’algorithme EM est un algorithme d'optimisation (estimation de paramitres)
pour certaines distributions paramétriques P(Y) (possiblement conditionnelles
P,(¥|X)), et quia été principalement utilisé pour des mixtures, telles que les
mixtures de Ganssiennes et les moddles de Markov cachés (HMMs). II s'agit d'une
technique d’optimisation qui permet parfois d’accélerer l'estimation des parambtres
(par rapport & un algorithme d’optimisation numérique générique). Il faut pouvoir
introduire un nouveau modéle probabiliste P,(Y, Z) avec une variable cachée (non-
observée) Z (généralement discréte), telle que la maximisation de la vraisemblance
de Pa(¥, Z) est beaucoup plus facile que celle de P,(¥’). C'est par exemple le cas
des mélanges de Gaussiennes et des HMMs. Pour les mélanges de Gaussiennes, lavariable cachée est 'identité de la Gaussienne qui est associée A l'exemple Y. Si on
comnaissait la valeur de cette variable cachée (pour chaque exemple), estimation
des parambtres deviendrait triviale (c'est comme si on avait plusieurs problomes
indépendents d'estimation des param@tres de plusieurs Gaussiennes). Comme Z
n'est pas observée, Valgorithme proctde ainsi, de maniere itérative:
1, Phase E (estimation):
20.0%
= Bx{S log( Palys, Z))1@-1, DI
(oh D = {ur.--tp} et la distribution de Z est conditionnée sur la connais-
sance de D, en utilisant les paramitres 64.1).
2. Phase M (maximisation):
4, — argmax,Q(0,0,1)
La phase M peut se faire analytiquement quand on peut solutionner Péquation
sadn)
ont = 0. On peut montrer que cette algorithme converge vers 1m maximum
iblement: local) ou un point selle (improbable)
a,
(po
D’oit vient la fonction auxiliaire Q?
On va utiliser Q pour borer la vraisemblance et on va ensuite optimiser @ par
rapport & cette borne, Soit L(0) Ia log-vraisemblance obtenue avec les paramdtres
8. Done
10) - LO) =
I) PZ
¥) Py (Z
j,) log § =
Me {now = n)P, (2 =i =9)
oi Von a utilisé Vinégalité de Jensen pour le log (log(£[X]) > Ellog X]).
}EM pour mélange de Gaussiennes
Soit un mélange de Gaussiennes
K
PAY) = So wiPo, (Vl)
{
ot P,,(Y|) est une distribution Gaussienne avee des paramitres p1, et Sy, 10, est
le poids de la Ganssiene i, qui pent étre interprété comme la probabilité a priori
de la Gaussienne i, w, = P(Z = i). Ceci correspond en fait A introduire une autre
variable aléatoire, Z, cachée, qui identifie la Gaussienne associée 4 un exemple.
On a done une distribution jointe
PAY =y,Z =
= Po(Z = i)PAY = |Z = 1)
Si on applique l'algorithme EM ci-haut, on obtient les formules de réestimation
et
et
est appelé le postérieur de la Gaus i (pour exemple 1)