Vous êtes sur la page 1sur 25

CLASIFICADORES ESTADSTICOS APLICADOS AL

RECONOCIMIENTO EN IMGENES

Luis Miguel Bergasa Pascual

Departamento de Electrnica. Universidad de Alcal.


Email: bergasa@depeca.uah.es
Luis M. Bergasa. Departamento de Electrnica (UAH)
1

CLASIFICADORES EN IMGENES

Sistema de clasificacin automtica


Clasificador por regiones (redes neuronales)
Clasificacin por distancia eucldea
Clasificador estadstico
Teorema de Bayes
Funciones discriminantes
Estimacin de funciones de densidad
Estimacin de parmetros (ML, MAP, EM)
Estimacin mediante mezcla de funciones

Luis M. Bergasa. Departamento de Electrnica (UAH)


2
Sistema de Clasificacin Automtica
Principio de Funcionamiento

UNIVERSO

EXTRACCIN
SEGMENTACIN X? X
DE
(Obtencin de objetos)
CARACTERSTICAS
X1XN
BASE DE DATOS
(Objetos del
Universo)

Universo de trabajo (UT): objetos predefinidos a clasificar UT=(patrones)


Vector de caractersticas: caractersticas de los objetos a clasificar
X >x1 x2 ...x N @T
Clasificacin automtica: grado de semejanza entre el vector de caractersticas de
un objeto cualquiera (X?) y de los patrones previamente definidos
Luis M. Bergasa. Departamento de Electrnica (UAH)
3

Sistema de Clasificacin Automtica


Fses de diseo

Obtencin del Universo


de Trabajo
Procesador
Cmara
Robot
Eleccin del vector de
caractersticas

Clculo de las funciones


discriminantes
Cinta Transportadora

Bien?

Implementacin

Luis M. Bergasa. Departamento de Electrnica (UAH)


4
Sistema de Clasificacin Automtica
Fses de diseo
Obtencin del Universo de trabajo
UT=(meln, naranja, frsas)

Eleccin del vector de caractersticas


x2 (intensidad de rojo)
Propiedades que deben cumplir
Discriminantes + Fresas
Segn su dispersin respecto a la media + ++
Determinsticas ++ + Naranjas
Aleatorias oo o
oo o Melones
Incorreladas oo o x x
x x
Clculo en tiempo real xxx x
x x
Obtencin con sensores econmicos
x1 (rea)
Clculo de las funciones discriminantes (gi())
Aplicacin escalar sobre el vector X
Permiten discriminar de forma inequvoca entre las clases del UT
En el caso de fds lineales: w x1
i1
w x
i2 2
gi ( X ) wi1 x1  wi 2 x2  ...  wiN x N  T WiT X W ... X ...
wiN
xN
T 1

Luis M. Bergasa. Departamento de Electrnica (UAH)
5

Clasificador por regiones


Concepto
Clasificador determinstico, en el proceso de regionalizacin se usa como variable
el signo de las funciones discriminantes
Si g ( X ) ! 0 signo 
Si g ( X )  0 signo 
Si g ( X ) 0 vector in det er min ado

g1
x2
g1 g2
+ -
3
+
g2
6 1 + +
1 -
4 2 + -
3 - +
6
9
10 4 - -
4 x1
-3
4 g1 ( X ) x1  7
-5 x1
2
g2(X ) x2 
2
1

Luis M. Bergasa. Departamento de Electrnica (UAH)


6
Clasificador por regiones
Redes Neuronales
La forma prctica de hacer un clasificador por regiones es mediante redes
neuronales

Neurona bsica

x1
w1
x2 w2 Net N
y
g(Net) y g( w x i i T ) g(W T X ) g ( Net )
wN i 1

xN
g(Net) g(Net) g(Net)
1 1 1

Net- Net- Net-


-1
(a) (b) (c)
g(Net) g(Net)
1
B
b
0.5
B Net-
b
(d) Net-
(e)
Luis M. Bergasa. Departamento de Electrnica (UAH)
7

Clasificador por regiones


Redes Neuronales
Red Neuronal formada por un conjunto de neuronas

Cada neurona bsica implementa una fd (gi)

Las salidas de las neuronas (fds) pueden ser


Lineales, si las funciones de salida son lineales
No lineales, si las funciones de salida son no lineales

La inteligencia de las RNs se encuentra distribuida en los pesos de la red

Los pesos inicialmente toman un valor aleatorio

Las RNs se entrenan usando un conjunto de vectores de test (entrada-salida


deseada)

Normalmente los pesos se ajustan usando un algoritmo de entrenamiento de


minimizacin de error entre la salida obtenida y la salida deseada usando la
tcnica de descenso por el gradiente

Luis M. Bergasa. Departamento de Electrnica (UAH)


8
Clasificador por regiones
Redes Neuronales

Estructura Regiones de Problema de la Clases con Formas de regiones


decisin XOR regiones mezcladas ms generales

1 capa Medio plano


limitado por un A B
hiperplano A
B
B A

2 capas Regiones cerradas


o convexas A B
A
B
B A

3 capas Clasificador
universal. A B
Complejidad
arbitraria A
limitadas por el B
nmero de B A
neuronas

Luis M. Bergasa. Departamento de Electrnica (UAH)


9

Clasificador por distancia eucldea


Concepto
Clasificador determinstico (las desviaciones tpicas de los elementos de una clase
difieren menos del 10 % de su media)

Una clase i=(Xi1, Xi2, ,XiP) formada por P elementos vendr representada por
un nico vector prototipo que ser su media ponderada:
P
1
Zi
P X
j 1
ij

x2

i
x
x x xx x x Zi
x
x xx x x
x x

x1

Luis M. Bergasa. Departamento de Electrnica (UAH)


10
Clasificador por distancia eucldea
Concepto
Supongamos que existen M clases (1, 2, M) con sus respectivos prototipos (Z1,
Z2, ,ZM)

Sea un vector X a clasificar (X?) el reconocedor por distancia eucldea asociar el


vector X a la clase cuyo prototipo est ms cerca (distancia eucldea menor)

3
X? d3
Z3

d1
d2
1

2
Z1
Z2

N
d E ( X , Z i ) || X  Z i || X  Z i T X  Z i x
j 1
j  zij 2

Luis M. Bergasa. Departamento de Electrnica (UAH)


11

Clasificador por distancia eucldea


Clculo
1. Se hace manualmente segn las caractersticas del Obtencin del UT
clasificador a disear
2. No existen reglas formales se trata ms de un arte
que de una ciencia. Existen paquetes software de
ayuda (Tooldiag, etc) Eleccin del vector de
3. Hay que estudiar las matrices de covarianza de caractersticas
cada clase
C11 C12 ... C1 N No
C Hiptesis determinista?
21 C 22 ... C 2 N
Ci > T
E >X  E >X @@ >X  E >X @@ @ ... ... ... ...
Si
C N 1 C N 2 ... C NN
Clculo de centroides
C jj
Cij xi  xi x j  x j E ( xi ) xi 
o d 0.1 Clculo de las funciones
Zj discriminantes
P
1
4. El centroide de cada clase ser: Z i X ij No
Bien?
P j 1
Si
5. Las fds sern las distancias eucldeas
Implementacin
gi ( X ) d E ( X , Zi )

Luis M. Bergasa. Departamento de Electrnica (UAH)


12
Clasificador por K vecinos ms cernanos
Concepto
Es una variante del clasificador por distancia eucldea

Calcula la distancia a los K vectores ms cercanos y clasifica X? como


perteneciente a la clase ms representada entre los K vecinos
d i ( X , X i ) || X  X i || 0iK
K n de puntos que se evalan
d ordenada do1 , do2 ,..., doK
X ?D i si max_ veces D do1 , do2 ,..., do K i

x2

2
x
1 x x xx x x
x
x xx x x
x x x
x x xx x x d2 x d3
x
x xx x x d1 X?
x x

x1
Luis M. Bergasa. Departamento de Electrnica (UAH)
13

Clasificador por K vecinos ms cernanos


Uso
El clasificador eucldeo es una particularizacin de este para K=1

Su uso est justificado cuando los centroides de las clases no son representativos
de todos los elementos de las clases. Por ejemplo cuando la desviacin tpica de
una de las caractersticas es mucho mayor que respecto a otras

x2
2

x1

Cuanto mayor sea K menor ser la tasa de error aunque el tiempo de clculo ser
mayor

Luis M. Bergasa. Departamento de Electrnica (UAH)


14
Clasificador estadstico
Concepto
Se emplea en casos en los que las clases representan una gran dispersin respecto
a la media y adems provoca solape entre clases

Su principal virtud radica en que asume que las variables son aleatorias con lo
que tiene una mayor capacidad que los anteriores en clasificar clases solapadas

Resuelve los problemas de probabilidad condicionada P(hiptesis/evidencia)

Ejemplo de clasificacin de tuercas y tornillos

x2
1
x xx x 2 1: tuercas
x x x xx o o o
x x x x x xo o o o
x
x x x xx x xo o oo o o 2: tornillos
x o
x x x x oxxx o o o oo o o
o o
x xo o o oo
x x o oo o o o
o o o oo o
o o

x1
Luis M. Bergasa. Departamento de Electrnica (UAH)
15

Clasificador estadstico
Concepto
Representando nicamente la caracterstica x1 o x2 se observa que sigue una
distribucin normal o de Gauss. Esta curva viene caracterizada por su media
(m1, m2) y por sus desviaciones tpicas (1, 2)
1 2

1 2

m1 m2 x1

El teorema de Bayes es el soporte matemtico sobre el que se apoya este


clasificador
p ( X / Zi ) p (Zi )
p (Zi / X )
p( X )
p(i/X): probabilidad a posteriori de la hiptesis i habindose medido X
p(X/i): probabilidad de que dada i el valor de la variable aleatoria sea X, es decir es la
funcin densidad de probabilidad (pdf) de la clase i (probabilidad condicionada)
p(i): probabilidad a priori de que se presente un elemento de la clase i
p(X): probabilidad de que se presente un elemento a clasificar con un vector de caractersticas X
(evidencia). Opera como un factor de escala ya que aparece en todas las clases.
Luis M. Bergasa. Departamento de Electrnica (UAH)
16
Clasificador estadstico
Clculo
Problema de clasificacin: dado un UT con M clases UT=(1, 2, M) y un
vector de caractersticas X=(x1, x2, ,xN)
X Z j si p ( X / Z j ) p (Z j ) ! p ( X / Zi ) p (Zi )
i z j , i 1,2,..., N
p(1)

p(X/1)
p(2) g1
g2

mximo
p(X/1) X p(X/j) p(j) mximo
X?

p(N) gM

p(X/M)

Las fds para el caso de clases con distribucin normal vienen dadas por:
1
1  ( X  mi )T Ci1 ( X  mi )
p(Z j ) p ( X / Z j ) p (Zi ) e 2
Ci: es la matriz de covarianza
2S n / 2 Ci mi: es el vector de medias
i 1,2,..., N
Luis M. Bergasa. Departamento de Electrnica (UAH)
17

Clasificador estadstico
Clculo
Probabilidad de error
1 2
p (Z 1 / X ) si se clasifica como Z 2
p ( error / X ) 1 2
p (Z 2 / X ) si se clasifica como Z1 error
o
p ( error / X ) min > p (Z 1 / X ), p (Z 2 / X ) @
m1 m2 x1
f f
p ( error ) p (error , X ) dX p (error / X ) p ( X ) dX
f f

El teorema de Bayes es ptimo si p(X/i) y p(i) son conocidas

p(i) se estima mediante datos de entrenamiento

p(X/i) se estima mediante datos de entrenamiento (histogramas discretos


normalizados)
A veces es complejo (insuficiente nmero de muestras, alta dimensin de X)
Soluci
Solucin: forma paramtrica (Gaussinas) -> estimacin de N(m,C)

Luis M. Bergasa. Departamento de Electrnica (UAH)


18
Ejemplo de diseo

Se desea disear un clasificador que diferencie entre la letra mayscula B y el


nmero 8

UT={B,8}
B 8
X=(x1, x2)
x1=grado de linealidad del tramo izquierdo
x2=rea parte superior/rea parte inferior
x2

x xx
1.5 x x x x x ooo
x x x x x xo o o
x
x x x xx xo xo o oo o x: 8
1 x
x x x x xxx o o o oo o o: B
o o
x x o o oo
0.5 x x o o oo o
oo o
o

0.5 1 x1
Luis M. Bergasa. Departamento de Electrnica (UAH)
19

Ejemplo de diseo

Regla de decisin del clasificador:


p( X / B ) p( B ) ! p( X / 8 ) p( 8 ) X B
p( X / B ) p( B )  p( X / 8 ) p( 8 ) X 8

Hiptesis:
Ambas clases son equiprobables: p(B)=P(8)
x1 y x2 son estadsticamente independientes en ambas clases
Las matrices de covarianza son todas iguales: CB=C8=C
1
1  X  mB T C 1 X  mB
p( X / B ) e 2 ?
2SV 1V 2 V 12 0 X  mB T C 1 X  mB t X  m8 T C 1 X  m8
C 2
1 
1
X  m8 T C 1 X  m8 0 V 2
p( X / 8 ) e 2 distancia de Mahalanobis
2SV 1V 2

Si todas las caractersticas tienen la misma varianza: CB=C8=2


1 2
1  X  mB
p( X / B ) e 2V 2 ?
2 2
2SV 2 X  mB t X  m8
1 2
1  X  m8
2V 2 clasificador determinstico basado en distancia eucldea
p( X / 8 ) 2
e
2SV
Luis M. Bergasa. Departamento de Electrnica (UAH)
20
Ejemplo de diseo

Funciones discriminantes del clasificador:

x2 Distancia de Mahalanobis
x2
Bayesiano Distancia eucldea

x xx x xx
1.5 x x x xooxo ooo 1.5 x x x oxoxo ooo
x x x x x xo o o o x x x x x oo
x x x x x ox o o o
x x x xx xo xo o oo o x: 8
x x: 8
1 x x x o xoo o
x x x x xxx o o o oo o o: B 1 x
x x x x xxx o o o oo o o: B
o
x x o o o o oo x
o o
x o o o oo
x x o o o o
0.5 x x
o oo o 0.5
o oo o

0.5 1 x1 x1
0.5 1

Clasificador bayesiano: fds son elipsoides 2D


Clasificador por distancia eucldea: fd es la mediatriz del segmento que une ambos
centroides
Clasificador por distancia de Mahalanobis: fd es una funcin lineal cuyo ngulo con el
segmento que une ambos centroides es funcin de la covarianza

Luis M. Bergasa. Departamento de Electrnica (UAH)


21

Funciones discriminantes

Existen distintas funciones discriminantes:

p( X / Zi ) p(Zi )
gi ( X )
p( X )
gi ( X ) p ( X / Zi ) p (Zi )
gi ( X ) ln p( X / Zi )  ln p(Zi ) En la prctica

Funciones discriminantes para funciones de densidad Gausianas

Como p ( X / Zi ) | N (mi , Ci )
1 n 1
gi ( X )  ( X  mi )T Ci1 ( X  mi )  ln 2S  ln C i  ln p (Zi )
2 2 2

Definen los bordes de decisin: gi(X)=gj(X)

En funcin de estos se obtienen las distintas


regiones en el espacio de clasificacin

Luis M. Bergasa. Departamento de Electrnica (UAH)


22
Funciones discriminantes

Caso 1: C i V 2 I (caractersticas incorreladas con la misma varianza)


2
X  mi 2
gi ( X )  2
 ln p (Zi ) ; X  mi ( X  mi ) T ( X  mi )
2V
1
gi ( X ) 
2V 2
>X T
@
X  2miT X  miT mi  ln p (Zi ) Clusters: hipercircunferencias del
mismo tamao
Teniendo en cuenta que XTX es constante:
1 1
gi ( X ) wiT X  wi 0 ; wi 2
mi wi 0  2
miT mi  ln p (Zi ) Discriminante lineal
V 2V
Borde de decisin: gi(X)=gj(X)

wT X  X 0 0 Hiperplano
w mi  m j
1 V2 p(Zi )
X0 mi  m j  2
ln mi  m j
2 mi  m j p(Z j )

Luis M. Bergasa. Departamento de Electrnica (UAH)


23

Funciones discriminantes

Caractersticas:

Pasa por X0

Ortogonal a la lnea que une las medias

Si p(Zi ) z p(Z j ) X0 se aleja de la media


ms probable

Si p(Zi ) p(Z j ) entonces:


2
X  mi
gi ( X ) 
2V 2

Si es muy pequea la posicin del borde


es insensible a p(Zi ) y p(Z j )

Luis M. Bergasa. Departamento de Electrnica (UAH)


24
Funciones discriminantes

Caso 2: C i C (matrices de covarianza iguales)

1
gi ( X )  ( X  mi )T C 1 ( X  mi )  ln p (Zi ) Clusters: hiperelipsoides del mismo
2 tamao
Si p(Zi ) es el mismo para todas las clases:

1
gi ( X )  ( X  mi )T C 1 ( X  mi ) Distancia de Mahalanobis
2
Expandiendo la expresin anterior y eliminando el trmino constante (XTX):
1
gi ( X ) wiT X  wi 0 ; wi C 1mi wi 0  miT C 1mi  ln p(Zi ) Discriminante lineal
2
Borde de decisin: gi(X)=gj(X)

wT X  X 0 0 Hiperplano
w C 1 mi  m j

X0
1 >
mi  m j  ln p(ZTi ) /1p(Z j ) mi  m j @
2 ( X  mi ) C ( X  mi )
Luis M. Bergasa. Departamento de Electrnica (UAH)
25

Funciones discriminantes

Caractersticas:

Pasa por X0

No es ortogonal a la lnea que une


las medias

Si p(Zi ) z p (Z j ) X0 se aleja de la
media ms probable

Si p(Zi ) p(Z j ) entonces X0 se


encuentra equidistante de sus
medias

Luis M. Bergasa. Departamento de Electrnica (UAH)


26
Funciones discriminantes

Caso 3: C i (matrices de covarianza arbitrarias)

gi ( X ) X T Wi X  wi X  wi 0
Clusters:diferentes formas y
1 1 1 tamaos
Wi  Ci1 wi 1
C mi
i wi 0  miT C 1mi  ln Ci  ln p (Zi )
2 2 2

Borde de decisin: gi(X)=gj(X)

Luis M. Bergasa. Departamento de Electrnica (UAH)


27

Estimacin de parmetros de la pdf

Mxima probabilidad
Asume que los parmetros del modelo son fijos
La mejor estimacin se calcula como aquella que maximiza la
probabilidad de obtener las muestras observadas
Gran dependencia del modelo (si el modelo es malo los resultados
sern pobres)

Estimacin Bayesiana
Asume que los parmetros del modelo son variables aleatorias con
una distribucin conocida a priori
La observacin de las muestras convierte a stas en una
probabilidad a posteriori que se usa para determinar el valor real
de los parmetros
Asume incertidumbre en el modelo

Luis M. Bergasa. Departamento de Electrnica (UAH)


28
Estimacin por mxima probabilidad
(ML-Maximum Likelihood)
Asunciones:
Los datos de entrenamiento se dividen en c clases (D1, D2, , Dc)
Los datos de cada clase son independientes
P(X/j) es la funcin densidad de la clase j que se modela mediante una Gausiana de
parmetros T j N m j , C j
Problema:
Dado X = X1, X2, , Xn estimar
Se debe aplicar el mismo procedimiento para cada conjunto de datos Dj
Solucin ML:
Estima el valor de que maximiza la probabilidad de los datos observados (p(X/ ))
n
p( X / T ) p( X 1, X 2, ..., X n / T ) p( X k /T )
k 1

Para encontrar el mximo: T p ( X / T ) 0 o T ln p( X / T ) 0

Solucin: T arg maxT ln p( X / T )


Luis M. Bergasa. Departamento de Electrnica (UAH)
29

Estimacin de mxima probabilidad


(ML-Maximum Likelihood)
ML: caso Gausiano con m y C desconocidas
Consideremos una Gaussina 1D p ( X )
p( x) | N m, V 2 ; T T1 ,T 2 m,V
2

1 1
ln p( x / T )  ln 2ST 2  xk  T1 2
2 2T 2
Computando T ln p ( xk / T )
w ln p ( xk / T ) 1
( x k  T1 )
T1 T2
w ln p ( xk / T )1 ( x k  T1 ) 2
 
T2 2T 2 2T 22
Igualando a cero: T ln p ( x / T ) 0
n
1
T
k 1 2
( x k  T1 ) 0

n n
1 ( x k  T1 ) 2
 k 1
2T 2
 k 1 2T 22

Luis M. Bergasa. Departamento de Electrnica (UAH)


30
Estimacin de mxima probabilidad
(ML-Maximum Likelihood)
Las soluciones son:

1 n
m xk
nk1
2 1 n
V ( xk  m ) 2
nk1
En general para el caso multivariable (Xk=xk1, xk2, xkN) las soluciones son:

n
1
m
n X
k 1
k

n
1
C ( X k  m )T ( X k  m )
n k 1

Luis M. Bergasa. Departamento de Electrnica (UAH)


31

Estimacin de mxima probabilidad a


posteriori (MAP)
Maximiza la probabilidad a posteriori:
n

p( X / T ) p (T ) p( X
k 1
k / T ) p (T )
p (T / X )
p( X ) p( X )
n
max imiza p (T / X ) o p( X k / T ) p (T )
k 1

Ejemplo: T m p ( m ) | N ( m0 , V m )
n
w
wm k 1
ln p ( X k / T )  ln p (T )


0
V m2 n
n
1 1
m0 
V2 k 1
Xk
V 2
X k  m 
V m2
m  m0 0 o m
V2
k 1
1  m2
V
n
V m2
Si 2 !! 1, entonces m |
V X k 1
k (igual que ML)

Luis M. Bergasa. Departamento de Electrnica (UAH)


32
Estimacin Bayesiana

Se basa en la estimacin de la funcin densidad a posteriori


Modelos:
Paramtricos
No paramtricos
Semiparamtricos

Modelos paramtricos
Asume que la funcin densidad a posteriori tiene una forma paramtrica
normalmente Gausiana
Es apropiado cuando el conocimiento del problema sugiere una forma funcional
especfica (por ejemplo Gausiana)
La estimacin por mxima probabilidad (ML) suele usarse para estimar los
parmetros del modelo

Luis M. Bergasa. Departamento de Electrnica (UAH)


33

Estimacin Bayesiana

Modelos no paramtricos
No tiene en cuenta la forma de la funcin densidad
No funcionan muy bien a no ser que se utilice una gran cantidad de datos
Ventana de Parzen
La funcin densidad p(X) se calcula mediante la media de M funciones kernel
Las funciones kernel suelen ser simtricas y unimodales (Gaussianas de varianza fija)
2
1 M
1 X  Xm
p( X )
M
2SV
m 1
2 N /2
exp (
2V 2
)

La desventaja de este mtodo es que el nmero de las funciones kernel y sus parmetros crece
con el tamao de los datos

Histograma
Cuantifica el espacio de datos en
acumuladores de igual volumen
La funcin de densidad se aproxima en
funcin de la fraccin de datos que caen en
cada acumulador
Al igual que las ventanas de Parzen la
aproximacin es pobre

Luis M. Bergasa. Departamento de Electrnica (UAH)


34
Estimacin Bayesiana

Modelos semiparamtricos
tiles para estimar funciones de densidad de estructura desconocida con datos
limitados
El nmero de parmetros puede variarse en funcin de la naturaleza de la funcin de
densidad de probabilidad real
El nmero de parmetros no es funcin de la cantidad de datos
Est formado por una suma ponderada de K funciones de densidad paramtricas
K
p( X / T ) p( X / T ) S
k 1
k k

Todas las componentes tienen la misma forma paramtrica (normalmente Gausianas)


Los parmetros k son los pesos de la mezcla y su suma vale 1
K

S
k 1
k 1

Asumiendo mezclas Gausianas hay que calcular (mk, Ck, k )


No se puede usar estimacin ML
Se emplea un algoritmo de aprendizaje iterativo llamado EM (Expectation-
Maximization)
Luis M. Bergasa. Departamento de Electrnica (UAH)
35

Algoritmo EM

Algoritmo que comienza con una estimacin inicial de e iterativamente la


modifica para incrementar la probabilidad de los datos observados

Funciona bien en situaciones donde los datos son incompletos

Se usa fundamentalmente con modelos de mezcla (por ejemplo Gausianas)

Datos incompletos:
Muy a menudo no se puede emplear estimacin ML ya que no se pueden medir todas
las caractersticas o ciertos valores no se pueden conseguir

EM es ideal para problemas con datos no observables


x1
x x1
Datos reales : X 2 Datos observados :Y x
x3 2

pdf completa : p ( X / T ) pdf incompleta : p(Y / T )

La pdf incompleta se puede obtener de la completa: p (Y / T ) ... p( X / T ) dX mis sin g

Luis M. Bergasa. Departamento de Electrnica (UAH)


36
Algoritmo EM

Ejemplo: problema de reconocimiento de 2 clases


(1) Clase de objetos oscuros
(1.1) Objetos oscuros redondos
(1.2) Objetos oscuros cuadrados
(2) Clase de objetos claros
Datos completos y pdf:
x1 n objetos oscuros redondos
Datos reales : X x n objetos oscuros cuadrados
2
x3 n objetos claros
n! x1 x2 x3
p ( x1 , x2 , x3 / T ) x ! x ! x ! 1 / 4 1 / 4  T / 4 1 / 2  T / 4

1 2 3

Datos incompletos:
y1 x1  x2 n objetos oscuros
Y y x
2 3 n objetos claros

Luis M. Bergasa. Departamento de Electrnica (UAH)


37

Algoritmo EM. Pasos

Maximiza la estimacin de p(X/) dando los datos Y y la estimacin de

Alterna los pasos de Estimacin y Maximizacin

1. Inicializacin: inicializa el algoritmo con 0

2. Estimacin: con respecto a las variables desconocidas usando la estimacin de


parmetros actual y condicionada a las observaciones

Q T ,T t
E xno observada ln p Dx / T / D y , T t
Se aplica a las variables no observadas a partir de los datos observados

Cuando ln p(Dx/ ) es una funcin lineal de las variables no observadas entonces este
paso es equivalente a encontrar E(x no observada/ Dy, t)

3. Maximizacin: produce una nueva estimacin de los parmetros


T t 1 arg maxT Q(T ;T t )

4. Convergencia: Si T t 1  T t  H stop; en caso contrario ir al paso 2


Luis M. Bergasa. Departamento de Electrnica (UAH)
38
Algoritmo EM. Pasos

Eleccin inicial de
parmetros (0)
t=0

E-Step
Estima datos no
observados usando (t)

M-Step
Computa ML
Estima los parmetros (t+1)
usando los datos estimados

t=t+1
Converge?

Luis M. Bergasa. Departamento de Electrnica (UAH)


39

Algoritmo EM. Ejemplo

1. Estimacin: computa E ln p Dx / T / D y ,T t
n n
p D x / T i 1
p( X i / T ) ln p Dx / T ln p( X
i 1
i /T )

n
n!
i
ln
x ! x ! x
1 i1 i 2 i 3
!
 xi1 ln( 1 / 4 )  xi 2 ln( 1 / 4  T / 4 )  xi 3 ln( 1 / 2  T / 4 )

n
>
E ln p( Dx / T ) / D y ,T t
@ E ln x n!
> @
/ D y ,T t  E xi1 / D y ,T t ln( 1 / 4 ) 

i 1 i 1 ! xi 2 ! xi 3 !
E >x i2 @
/ D y ,T t ln( 1 / 4  T / 4 )  xi 3 ln( 1 / 2  T / 4 )

2. Maximizacin: computa t+1 maximizando E ln p Dx / T / D y ,T t

d
>
E ln p D x / T / D y ,T t @ 0 T t 1
> @
2  E x i 2 / D y ,T t  x i 3
dT > @
E x i 2 / D y ,T t  x i 3

Luis M. Bergasa. Departamento de Electrnica (UAH)


40
Algoritmo EM. Ejemplo

1. Estimacin (continuacin): estima E xi 2 / D y ,T t

y 1
p( xi 2 / yi1 , yi 2 ) p( xi 2 / yi1 ) i1 1 / 4 xi 2 1 / 4  T / 4 yi 1  xi 2
yi 2 1 / 2  T / 4 yi1
1/ 4
>
E xi 2 / D y ,T t @ yi 1
1 / 2 T t / 4

Luis M. Bergasa. Departamento de Electrnica (UAH)


41

Algoritmo EM con mezcla de funciones

Modelo de mezcla
Se define como una suma ponderada de K componentes donde cada una es una es una
funcin densidad paramtrica
K
p( X / T ) p( X / T ) S
k 1
k k

SALIDA DEL MODELO MEZCLA

Selector

p(1) p(2) p(3) p(K)

Submodelo Submodelo
1
Submodelo Submodelo K
2 3

Luis M. Bergasa. Departamento de Electrnica (UAH)


42
Algoritmo EM con mezcla de funciones

Parmetros de la mezcla
Los parmetros a estimar son:
* los valores de S k
* los parametros T k de p( X / T k )

Las componentes de densidad p(X/k) suelen tener la misma forma paramtrica


K

Los parmetros de la mezcla suman 1: S


k 1
k 1

Ajustar un modelo mezcla a un conjunto de observaciones Dx consiste en estimar el


conjunto de parmetros mezcla que mejor describe estos datos

Mezcla de funciones Gaussianas


p(X/k) es una distribucin Gaussiana multivariable

Los parmetros k son (mk, Ck)

Luis M. Bergasa. Departamento de Electrnica (UAH)


43

Algoritmo EM con mezcla de funciones

Mezcla de parmetros usando estimacin ML


Dado un conjunto de datos D=(X1, X2, , Xn), ML obtiene el valor de que maximiza:
n
p( D / T ) p( X
i 1
i /T )

Si p( X i / T ) p( X
k 1
i /Tk )S k

n K
p( D / T ) p( X
i 1 k 1
i / T k )S k

wp( D / T )
No se puede resolver 0 explicitamente, por ello se recurre a mtodos
wT
iterativos como el algoritmo EM

Luis M. Bergasa. Departamento de Electrnica (UAH)


44
EM para estimacin con mezcla de
funciones
Si supiramos qu submodelo es responsable de la generacin de cada punto,
sera fcil encontrar los parmetros ML para cada submodelo
Se usa EM para estimar el submodelo que es responsable de la generacin de cada
punto
Se calculan los parmetros ML basados en estas estimaciones
Se usan los nuevos parmetros ML para re-estimar la funcin densidad y volver a
iterar

Variables ocultas
Se desconoce qu instancia Xi es generada por cada componente (los datos ocultos son
las etiquetas de los submodelos que generan cada dato)
Yi X i , zi
donde zi z1i , z 2i ,..., z Ki
1 si X i es generado por la componente j
zij
0 para el resto
X i es observable y zi es no observable
Luis M. Bergasa. Departamento de Electrnica (UAH)
45

EM para estimacin con mezcla de


funciones
Clculo del paso de Estimacin (E-step)


Q T ,T t
E zi ln p Dx / T / D y ,T t
n
Como p( D y / T ) p( Y / T )
i 1
i

p( Yi / T ) p( X i , zi / T ) p( X i / zi ,T ) p( zi / T ) p( X i / T j )S j
( asumiendo que zij 1 y zik 0 para k z j )
Se puede rescribir la ecuacin anterior como:
K
p( Yi / T ) > p( X i / T k )S k @zik
k 1
n K
p( D y / T ) > p( X i / T k )S k @zik
i 1 k 1

Luis M. Bergasa. Departamento de Electrnica (UAH)


46
EM para estimacin con mezcla de
funciones
Computando el ln( ):
n K n K n K
ln p( D y / T )
i 1 k 1
zik ln p( X i / T k )S k
i 1 k 1
zik ln p( X i / T k )  z
i 1 k 1
ik ln S k

Y calculando el valor esperado del mismo:


n K n K

E ln p( D y / T ) / Dx ,T t E z ik ln p( X i / T k )  E z ik ln S k
t t

i 1 k 1 i 1 k 1

Teniendo en cuenta que E(zik) es la probabilidad de que la instancia Xi sea generada


por la componente k

p( X i / T kt )S kt
E( zik ) K

p( X i / T tj )S tj
j 1

Luis M. Bergasa. Departamento de Electrnica (UAH)


47

EM para estimacin con mezcla de


funciones
Clculo del paso de Maximizacin (M-Step)
K

Maximiza Q(; t) teniendo en cuenta que S k 1


k 1

n K n K K
t
Qc( T ;T ) E( z
i 1 k 1
ik ) ln p X i / T k 
i 1 k 1
E( zik ) ln S k  O 1 


k 1
Sk

Donde es el multiplicador de Lagrange
n n
wQc 1 1
0 o E zik O 0 o S kt 1 E z ik
wS k k 1
Sk ni 1
K K n
( la restriccin S
k 1
k 1 hace que E( z
k 1 i 1
ik ) O)

n
wQ c 1
0 o mkt 1 E( z ik )X i
wmk nS kt 1 i 1
n
wQ c 1
E( z ) X
T
0 o C kt 1 ik i  mkt 1 X i  mkt 1
wC k nS kt 1 i 1

Luis M. Bergasa. Departamento de Electrnica (UAH)


48
EM para estimacin con mezcla de
funciones (Resumen)
1. Inicializacin: T k0 S 0 0 0
k , mk , C k
2. E-step:
p( X i / T kt )S kt
E( zik ) K

p( X i / T tj )S tj
j 1
3. M-Step
n
1
S kt 1 E z ik
n i 1
n
1
mkt 1 E( z ik )X i
nS kt 1 i 1
n
1
E( z ) X
T
C kt 1 ik i  mkt 1 X i  mkt 1
nS kt 1 i 1

4. Condicin de parada: Si T t 1  T t  H stop; en caso contrario ir al paso 2


Luis M. Bergasa. Departamento de Electrnica (UAH)
49

EM para estimacin con mezcla de


funciones (Estimacin de K)
Se puede usar EM para obtener una secuencia de parmetros estimados para
un rango de valores K
^4( K ) , K K min ,..., K max `
El valor de K se define como aquel que minimiza alguna funcin de coste:
K
arg minK C 4 ( K ) , K K min ,..., K max
Frecuentemente la funcin de coste usa ln p(Dy/) y un trmino adicional cuyo
objetivo es penalizar los valores grandes de K

Diferentes criterios se han utilizado:


Minimum Description Length (MDL)

Minimum Message Length (MML)

Gaussian Mixture Modeling (GMM)

Luis M. Bergasa. Departamento de Electrnica (UAH)


50

Vous aimerez peut-être aussi