Vous êtes sur la page 1sur 4
Cours IFT6266, Maximum de vraisemblance et algorithme EM Entropie croisée et log-vraisemblance: La neg-log-vraisemblance avec modale de densité f est 1 a ps a os 2 Slog f(s) = Bt tog f(X)] = = / lx) log fdr Ventropie croisée de la distribitution empirique p et le moddle f. Son espérance (sur D) est - [ v(2)t0g fae Ventropie croisée entre la vraie loi p et le modéle J, qui est minimisée quand f ce qui donne lentropie de p. Note: B,,{6(2—<7)] = p(s). Si on soustrait Pentropie de p on obtient la divergence de Kullback Liebler entre p et f, KL(p||f) Le défant du crittre de maximum de vraisemblance, c'est qu'il pent donner des résultats pour lesquels la distribution est trés pointe autour des exemples et zero ailleurs. En fait, si il n'y avait aucune contrainte sur la famille de fonctions Py, on obtiendrait exactement 6/1 aux points des exemples et 0 ailleurs (6 est une fonction de masse 1 concentrée en un seul point). Cela signifie que le critere est anssi petit qu'il est possible (90) pour les exemples d’apprentissage tont en étant anssi grand qu'il est possible (oo) en tout point qui n'est pas dans ensemble ’apprentissage. Des critdres alternatifs ont été proposés (voir: penalized maximum likelihood et méthodes Bayesiennes): en général le principe est le méme qu’avee les algorithmes apprentissage, i.e., on pénalise les solutions moins lisses (on plus “complexes’ selon un certain critere, telle la probabilité a priori) Modéles de mélange plz) =) pl2)PO) ia on a une densité p(x|j) pour chaque composante j, done si p(r|j) uormalisé p(r) aussi, Pour un « donné on peut calculer la proba a posteriori P(j|r) = SEO Si on permet de varier m on obtient qqchose de fondamentalement non-paramétrique (méme si pour chaque m fixe on a un modéle paramétrique). On verra la méme on avec les réseaux de neurones. Mélange de Gaussiennes: p(z|j) est une normale de moyenne p1; et variance 5. C'est nn “approximateur universel” des densités (pour une erreur fixée € on peut trouver m < oo et les j1;.3, qui approxime avee une erreur plus petite) Parambtzes: les P() et les parametres de chaque composante. On peut aussi avoir des mélanges conditionnels PUD 6) = SO PUIX) PY. i) qu’on appelle aussi des mélanges d’experts (mixtures of experts). Dans ce cas, chacun des sous-mnoddles représente une distribution conditionnelle (par exemple on peut utiliser um réseau de neurone pour calculer les parambtres d'une Ganssi- enne). Rappelous que EIY|X] => PUX)EIY |X.) Done sion a un ensemble de moddles de régression, E[Y |X. 7}, on peut les combiner ainsi, La fonction P(i|X) est aussi une fonction paramétrisée de X, et on Yappelle le gater puisqu’elle décide quelle sous-distribution utiliser dans chaque contexte Xx. Algorithme EM Malheureusement on ne peut maximiser analytiquement la vraisemblanee pour un modéle de mélange de densités simples (e.g, mélange de Gaussiennes). L’algo EM est un algorithme doptimisation pour modéles probabilistes quand on peut résoudre analytiquement une fois qu’une eertaine variable aléatoire est introduite et supposée observée (ici ca sera 'identité de la composante j qui a généré la donnée 2). L’algorithme EM est un algorithme d'optimisation (estimation de paramitres) pour certaines distributions paramétriques P(Y) (possiblement conditionnelles P,(¥|X)), et quia été principalement utilisé pour des mixtures, telles que les mixtures de Ganssiennes et les moddles de Markov cachés (HMMs). II s'agit d'une technique d’optimisation qui permet parfois d’accélerer l'estimation des parambtres (par rapport & un algorithme d’optimisation numérique générique). Il faut pouvoir introduire un nouveau modéle probabiliste P,(Y, Z) avec une variable cachée (non- observée) Z (généralement discréte), telle que la maximisation de la vraisemblance de Pa(¥, Z) est beaucoup plus facile que celle de P,(¥’). C'est par exemple le cas des mélanges de Gaussiennes et des HMMs. Pour les mélanges de Gaussiennes, la variable cachée est 'identité de la Gaussienne qui est associée A l'exemple Y. Si on comnaissait la valeur de cette variable cachée (pour chaque exemple), estimation des parambtres deviendrait triviale (c'est comme si on avait plusieurs problomes indépendents d'estimation des param@tres de plusieurs Gaussiennes). Comme Z n'est pas observée, Valgorithme proctde ainsi, de maniere itérative: 1, Phase E (estimation): 20.0% = Bx{S log( Palys, Z))1@-1, DI (oh D = {ur.--tp} et la distribution de Z est conditionnée sur la connais- sance de D, en utilisant les paramitres 64.1). 2. Phase M (maximisation): 4, — argmax,Q(0,0,1) La phase M peut se faire analytiquement quand on peut solutionner Péquation sadn) ont = 0. On peut montrer que cette algorithme converge vers 1m maximum iblement: local) ou un point selle (improbable) a, (po D’oit vient la fonction auxiliaire Q? On va utiliser Q pour borer la vraisemblance et on va ensuite optimiser @ par rapport & cette borne, Soit L(0) Ia log-vraisemblance obtenue avec les paramdtres 8. Done 10) - LO) = I) PZ ¥) Py (Z j,) log § = Me {now = n)P, (2 =i =9) oi Von a utilisé Vinégalité de Jensen pour le log (log(£[X]) > Ellog X]). } EM pour mélange de Gaussiennes Soit un mélange de Gaussiennes K PAY) = So wiPo, (Vl) { ot P,,(Y|) est une distribution Gaussienne avee des paramitres p1, et Sy, 10, est le poids de la Ganssiene i, qui pent étre interprété comme la probabilité a priori de la Gaussienne i, w, = P(Z = i). Ceci correspond en fait A introduire une autre variable aléatoire, Z, cachée, qui identifie la Gaussienne associée 4 un exemple. On a done une distribution jointe PAY =y,Z = = Po(Z = i)PAY = |Z = 1) Si on applique l'algorithme EM ci-haut, on obtient les formules de réestimation et et est appelé le postérieur de la Gaus i (pour exemple 1)

Vous aimerez peut-être aussi