Curso Vision 7

CLASIFICADORES ESTADSTICOS APLICADOS AL
RECONOCIMIENTO EN IMGENES
Luis Miguel Bergasa Pascual
Departamento de Electrnica. Universidad de Alcal.

Email: bergasa@depeca.uah.es
Luis M. Bergasa. Departamento de Electrnica (UAH)
1
CLASIFICADORES EN IMGENES
Sistema de clasificacin automtica

Clasificador por regiones (redes neuronales)
Clasificacin por distancia eucldea
Clasificador estadstico
Teorema de Bayes
Funciones discriminantes
Estimacin de funciones de densidad
Estimacin de parmetros (ML, MAP, EM)
Estimacin mediante mezcla de funciones

2
Sistema de Clasificacin Automtica
Principio de Funcionamiento
UNIVERSO
EXTRACCIN
SEGMENTACIN X? X
DE
(Obtencin de objetos)
CARACTERSTICAS
X1XN
BASE DE DATOS
(Objetos del
Universo)
Universo de trabajo (UT): objetos predefinidos a clasificar UT=(patrones)

Vector de caractersticas: caractersticas de los objetos a clasificar
X >x1 x2 ...x N @T
Clasificacin automtica: grado de semejanza entre el vector de caractersticas de
un objeto cualquiera (X?) y de los patrones previamente definidos
3

Fses de diseo
Obtencin del Universo

de Trabajo
Procesador
Cmara
Robot
Eleccin del vector de
caractersticas
Clculo de las funciones

discriminantes
Cinta Transportadora
Bien?
Implementacin

4
Fses de diseo
Obtencin del Universo de trabajo
UT=(meln, naranja, frsas)
Eleccin del vector de caractersticas

x2 (intensidad de rojo)
Propiedades que deben cumplir
Discriminantes + Fresas
Segn su dispersin respecto a la media + ++
Determinsticas ++ + Naranjas
Aleatorias oo o
oo o Melones
Incorreladas oo o x x
x x
Clculo en tiempo real xxx x
x x
Obtencin con sensores econmicos
x1 (rea)
Clculo de las funciones discriminantes (gi())
Aplicacin escalar sobre el vector X
Permiten discriminar de forma inequvoca entre las clases del UT
En el caso de fds lineales: w x1
i1
w x
i2 2
gi ( X ) wi1 x1 wi 2 x2 ... wiN x N T WiT X W ... X ...
wiN
xN
T 1

5
Clasificador por regiones

Concepto
Clasificador determinstico, en el proceso de regionalizacin se usa como variable
el signo de las funciones discriminantes
Si g ( X ) ! 0 signo
Si g ( X ) 0 signo
Si g ( X ) 0 vector in det er min ado
g1
x2
g1 g2
+ -
3
+
g2
6 1 + +
1 -
4 2 + -
3 - +
6
9
10 4 - -
4 x1
-3
4 g1 ( X ) x1 7
-5 x1
2
g2(X ) x2
2
1

6
Redes Neuronales
La forma prctica de hacer un clasificador por regiones es mediante redes
neuronales
Neurona bsica

x1
w1
x2 w2 Net N
y
g(Net) y g( w x i i T ) g(W T X ) g ( Net )
wN i 1
xN
g(Net) g(Net) g(Net)
1 1 1
Net- Net- Net-

-1
(a) (b) (c)
g(Net) g(Net)
1
B
b
0.5
B Net-
b
(d) Net-
(e)
7

Redes Neuronales
Red Neuronal formada por un conjunto de neuronas
Cada neurona bsica implementa una fd (gi)
Las salidas de las neuronas (fds) pueden ser

Lineales, si las funciones de salida son lineales
No lineales, si las funciones de salida son no lineales
La inteligencia de las RNs se encuentra distribuida en los pesos de la red
Los pesos inicialmente toman un valor aleatorio
Las RNs se entrenan usando un conjunto de vectores de test (entrada-salida

deseada)
Normalmente los pesos se ajustan usando un algoritmo de entrenamiento de

minimizacin de error entre la salida obtenida y la salida deseada usando la
tcnica de descenso por el gradiente

8
Redes Neuronales
Estructura Regiones de Problema de la Clases con Formas de regiones

decisin XOR regiones mezcladas ms generales
1 capa Medio plano

limitado por un A B
hiperplano A
B
B A
2 capas Regiones cerradas

o convexas A B
A
B
B A
3 capas Clasificador
universal. A B
Complejidad
arbitraria A
limitadas por el B
nmero de B A
neuronas

9
Clasificador por distancia eucldea

Concepto
Clasificador determinstico (las desviaciones tpicas de los elementos de una clase
difieren menos del 10 % de su media)
Una clase i=(Xi1, Xi2, ,XiP) formada por P elementos vendr representada por
un nico vector prototipo que ser su media ponderada:
P
1
Zi
P X
j 1
ij
x2
i
x
x x xx x x Zi
x
x xx x x
x x
x1

10
Concepto
Supongamos que existen M clases (1, 2, M) con sus respectivos prototipos (Z1,
Z2, ,ZM)
Sea un vector X a clasificar (X?) el reconocedor por distancia eucldea asociar el

vector X a la clase cuyo prototipo est ms cerca (distancia eucldea menor)
3
X? d3
Z3
d1
d2
1
2
Z1
Z2
N
d E ( X , Z i ) || X Z i || X Z i T X Z i x
j 1
j zij 2

11

Clculo
1. Se hace manualmente segn las caractersticas del Obtencin del UT
clasificador a disear
2. No existen reglas formales se trata ms de un arte
que de una ciencia. Existen paquetes software de
ayuda (Tooldiag, etc) Eleccin del vector de
3. Hay que estudiar las matrices de covarianza de caractersticas
cada clase
C11 C12 ... C1 N No
C Hiptesis determinista?
21 C 22 ... C 2 N
Ci > T
E >X E >X @@ >X E >X @@ @ ... ... ... ...
Si
C N 1 C N 2 ... C NN
Clculo de centroides
C jj
Cij xi xi x j x j E ( xi ) xi
o d 0.1 Clculo de las funciones
Zj discriminantes
P
1
4. El centroide de cada clase ser: Z i X ij No
Bien?
P j 1
Si
5. Las fds sern las distancias eucldeas
Implementacin
gi ( X ) d E ( X , Zi )

12
Clasificador por K vecinos ms cernanos
Concepto
Es una variante del clasificador por distancia eucldea
Calcula la distancia a los K vectores ms cercanos y clasifica X? como

perteneciente a la clase ms representada entre los K vecinos
d i ( X , X i ) || X X i || 0iK
K n de puntos que se evalan
d ordenada do1 , do2 ,..., doK
X ?D i si max_ vecesD do1 , do2 ,..., do K i
x2
2
x
1 x x xx x x
x
x xx x x
x x x
x x xx x x d2 x d3
x
x xx x x d1 X?
x x
x1
13
Clasificador por K vecinos ms cernanos

Uso
El clasificador eucldeo es una particularizacin de este para K=1
Su uso est justificado cuando los centroides de las clases no son representativos
de todos los elementos de las clases. Por ejemplo cuando la desviacin tpica de
una de las caractersticas es mucho mayor que respecto a otras
x2
2
x1
Cuanto mayor sea K menor ser la tasa de error aunque el tiempo de clculo ser
mayor

14
Concepto
Se emplea en casos en los que las clases representan una gran dispersin respecto
a la media y adems provoca solape entre clases
Su principal virtud radica en que asume que las variables son aleatorias con lo
que tiene una mayor capacidad que los anteriores en clasificar clases solapadas
Resuelve los problemas de probabilidad condicionada P(hiptesis/evidencia)
Ejemplo de clasificacin de tuercas y tornillos
x2
1
x xx x 2 1: tuercas
x x x xx o o o
x x x x x xo o o o
x
x x x xx x xo o oo o o 2: tornillos
x o
x x x x oxxx o o o oo o o
o o
x xo o o oo
x x o oo o o o
o o o oo o
o o
x1
15
Concepto
Representando nicamente la caracterstica x1 o x2 se observa que sigue una
distribucin normal o de Gauss. Esta curva viene caracterizada por su media
(m1, m2) y por sus desviaciones tpicas (1, 2)
1 2
1 2
m1 m2 x1
El teorema de Bayes es el soporte matemtico sobre el que se apoya este

clasificador
p ( X / Zi ) p (Zi )
p (Zi / X )
p( X )
p(i/X): probabilidad a posteriori de la hiptesis i habindose medido X
p(X/i): probabilidad de que dada i el valor de la variable aleatoria sea X, es decir es la
funcin densidad de probabilidad (pdf) de la clase i (probabilidad condicionada)
p(i): probabilidad a priori de que se presente un elemento de la clase i
p(X): probabilidad de que se presente un elemento a clasificar con un vector de caractersticas X
(evidencia). Opera como un factor de escala ya que aparece en todas las clases.
16
Clculo
Problema de clasificacin: dado un UT con M clases UT=(1, 2, M) y un
vector de caractersticas X=(x1, x2, ,xN)
X Z j si p ( X / Z j ) p (Z j ) ! p ( X / Zi ) p (Zi )
i z j , i 1,2,..., N
p(1)
p(X/1)
p(2) g1
g2
mximo
p(X/1) X p(X/j) p(j) mximo
X?
p(N) gM
p(X/M)
Las fds para el caso de clases con distribucin normal vienen dadas por:
1
1 ( X mi )T Ci1 ( X mi )
p(Z j ) p ( X / Z j ) p (Zi ) e 2
Ci: es la matriz de covarianza
2S n / 2 Ci mi: es el vector de medias
i 1,2,..., N
17
Clculo
Probabilidad de error
1 2
p (Z 1 / X ) si se clasifica como Z 2
p ( error / X ) 1 2
p (Z 2 / X ) si se clasifica como Z1 error
o
p ( error / X ) min > p (Z 1 / X ), p (Z 2 / X ) @
m1 m2 x1
f f
p ( error ) p (error , X ) dX p (error / X ) p ( X ) dX
f f
El teorema de Bayes es ptimo si p(X/i) y p(i) son conocidas
p(i) se estima mediante datos de entrenamiento
p(X/i) se estima mediante datos de entrenamiento (histogramas discretos

normalizados)
A veces es complejo (insuficiente nmero de muestras, alta dimensin de X)
Soluci
Solucin: forma paramtrica (Gaussinas) -> estimacin de N(m,C)

18
Ejemplo de diseo
Se desea disear un clasificador que diferencie entre la letra mayscula B y el

nmero 8
UT={B,8}
B 8
X=(x1, x2)
x1=grado de linealidad del tramo izquierdo
x2=rea parte superior/rea parte inferior
x2
x xx
1.5 x x x x x ooo
x x x x x xo o o
x
x x x xx xo xo o oo o x: 8
1 x
x x x x xxx o o o oo o o: B
o o
x x o o oo
0.5 x x o o oo o
oo o
o
0.5 1 x1
19
Ejemplo de diseo
Regla de decisin del clasificador:

p( X / B ) p( B ) ! p( X / 8 ) p( 8 ) X B
p( X / B ) p( B ) p( X / 8 ) p( 8 ) X 8
Hiptesis:
Ambas clases son equiprobables: p(B)=P(8)
x1 y x2 son estadsticamente independientes en ambas clases
Las matrices de covarianza son todas iguales: CB=C8=C
1
1 X mB T C 1 X mB
p( X / B ) e 2 ?
2SV 1V 2 V 12 0 X mB T C 1 X mB t X m8 T C 1 X m8
C 2
1
1
X m8 T C 1 X m8 0 V 2
p( X / 8 ) e 2 distancia de Mahalanobis
2SV 1V 2
Si todas las caractersticas tienen la misma varianza: CB=C8=2

1 2
1 X mB
p( X / B ) e 2V 2 ?
2 2
2SV 2 X mB t X m8
1 2
1 X m8
2V 2 clasificador determinstico basado en distancia eucldea
p( X / 8 ) 2
e
2SV
20
Ejemplo de diseo
Funciones discriminantes del clasificador:
x2 Distancia de Mahalanobis
x2
Bayesiano Distancia eucldea
x xx x xx
1.5 x x x xooxo ooo 1.5 x x x oxoxo ooo
x x x x x xo o o o x x x x x oo
x x x x x ox o o o
x x x xx xo xo o oo o x: 8
x x: 8
1 x x x o xoo o
x x x x xxx o o o oo o o: B 1 x
x x x x xxx o o o oo o o: B
o
x x o o o o oo x
o o
x o o o oo
x x o o o o
0.5 x x
o oo o 0.5
o oo o
0.5 1 x1 x1
0.5 1
Clasificador bayesiano: fds son elipsoides 2D

Clasificador por distancia eucldea: fd es la mediatriz del segmento que une ambos
centroides
Clasificador por distancia de Mahalanobis: fd es una funcin lineal cuyo ngulo con el
segmento que une ambos centroides es funcin de la covarianza

21
Existen distintas funciones discriminantes:
p( X / Zi ) p(Zi )
gi ( X )
p( X )
gi ( X ) p ( X / Zi ) p (Zi )
gi ( X ) ln p( X / Zi ) ln p(Zi ) En la prctica
Funciones discriminantes para funciones de densidad Gausianas
Como p ( X / Zi ) | N (mi , Ci )
1 n 1
gi ( X ) ( X mi )T Ci1 ( X mi ) ln 2S ln C i ln p (Zi )
2 2 2
Definen los bordes de decisin: gi(X)=gj(X)
En funcin de estos se obtienen las distintas

regiones en el espacio de clasificacin

22
Caso 1: C i V 2 I (caractersticas incorreladas con la misma varianza)

2
X mi 2
gi ( X ) 2
ln p (Zi ) ; X mi ( X mi ) T ( X mi )
2V
1
gi ( X )
2V 2
>X T
@
X 2miT X miT mi ln p (Zi ) Clusters: hipercircunferencias del
mismo tamao
Teniendo en cuenta que XTX es constante:
1 1
gi ( X ) wiT X wi 0 ; wi 2
mi wi 0 2
miT mi ln p (Zi ) Discriminante lineal
V 2V
Borde de decisin: gi(X)=gj(X)
wT X X 0 0 Hiperplano
w mi m j
1 V2 p(Zi )
X0 mi m j 2
ln mi m j
2 mi m j p(Z j )

23
Caractersticas:
Pasa por X0
Ortogonal a la lnea que une las medias
Si p(Zi ) z p(Z j ) X0 se aleja de la media

ms probable
Si p(Zi ) p(Z j ) entonces:

2
X mi
gi ( X )
2V 2
Si es muy pequea la posicin del borde

es insensible a p(Zi ) y p(Z j )

24
Caso 2: C i C (matrices de covarianza iguales)
1
gi ( X ) ( X mi )T C 1 ( X mi ) ln p (Zi ) Clusters: hiperelipsoides del mismo
2 tamao
Si p(Zi ) es el mismo para todas las clases:
1
gi ( X ) ( X mi )T C 1 ( X mi ) Distancia de Mahalanobis
2
Expandiendo la expresin anterior y eliminando el trmino constante (XTX):
1
gi ( X ) wiT X wi 0 ; wi C 1mi wi 0 miT C 1mi ln p(Zi ) Discriminante lineal
2
wT X X 0 0 Hiperplano
w C 1 mi m j
X0
1 >
mi m j ln p(ZTi ) /1p(Z j ) mi m j @
2 ( X mi ) C ( X mi )
25
Caractersticas:
Pasa por X0
No es ortogonal a la lnea que une

las medias
Si p(Zi ) z p (Z j ) X0 se aleja de la
media ms probable
Si p(Zi ) p(Z j ) entonces X0 se

encuentra equidistante de sus
medias

26
Caso 3: C i (matrices de covarianza arbitrarias)
gi ( X ) X T Wi X wi X wi 0
Clusters:diferentes formas y
1 1 1 tamaos
Wi Ci1 wi 1
C mi
i wi 0 miT C 1mi ln Ci ln p (Zi )
2 2 2

27
Estimacin de parmetros de la pdf
Mxima probabilidad
Asume que los parmetros del modelo son fijos
La mejor estimacin se calcula como aquella que maximiza la
probabilidad de obtener las muestras observadas
Gran dependencia del modelo (si el modelo es malo los resultados
sern pobres)
Estimacin Bayesiana
Asume que los parmetros del modelo son variables aleatorias con
una distribucin conocida a priori
La observacin de las muestras convierte a stas en una
probabilidad a posteriori que se usa para determinar el valor real
de los parmetros
Asume incertidumbre en el modelo

28
Estimacin por mxima probabilidad
(ML-Maximum Likelihood)
Asunciones:
Los datos de entrenamiento se dividen en c clases (D1, D2, , Dc)
Los datos de cada clase son independientes
P(X/j) es la funcin densidad de la clase j que se modela mediante una Gausiana de
parmetros T j N m j , C j
Problema:
Dado X = X1, X2, , Xn estimar
Se debe aplicar el mismo procedimiento para cada conjunto de datos Dj
Solucin ML:
Estima el valor de que maximiza la probabilidad de los datos observados (p(X/ ))
n
p( X / T ) p( X 1, X 2, ..., X n / T ) p( X k /T )
k 1
Para encontrar el mximo: T p ( X / T ) 0 o T ln p( X / T ) 0
Solucin: T arg maxT ln p( X / T )

29
Estimacin de mxima probabilidad

ML: caso Gausiano con m y C desconocidas
Consideremos una Gaussina 1D p ( X )
p( x) | N m, V 2 ; T T1 ,T 2 m,V
2
1 1
ln p( x / T ) ln 2ST 2 xk T1 2
2 2T 2
Computando T ln p ( xk / T )
w ln p ( xk / T ) 1
( x k T1 )
T1 T2
w ln p ( xk / T )1 ( x k T1 ) 2

T2 2T 2 2T 22
Igualando a cero: T ln p ( x / T ) 0
n
1
T
k 1 2
( x k T1 ) 0
n n
1 ( x k T1 ) 2
k 1
2T 2
k 1 2T 22

30
Estimacin de mxima probabilidad
Las soluciones son:
1 n
m xk
nk1
2 1 n
V ( xk m ) 2
nk1
En general para el caso multivariable (Xk=xk1, xk2, xkN) las soluciones son:
n
1
m
n X
k 1
k
n
1
C ( X k m )T ( X k m )
n k 1

31
Estimacin de mxima probabilidad a

posteriori (MAP)
Maximiza la probabilidad a posteriori:
n
p( X / T ) p (T ) p( X
k 1
k / T ) p (T )
p (T / X )
p( X ) p( X )
n
max imiza p (T / X ) o p( X k / T ) p (T )
k 1
Ejemplo: T m p ( m ) | N ( m0 , V m )
n
w
wm k 1
ln p ( X k / T ) ln p (T )

0
V m2 n
n
1 1
m0
V2 k 1
Xk
V 2
X k m
V m2
m m0 0 o m
V2
k 1
1 m2
V
n
V m2
Si 2 !! 1, entonces m |
V X k 1
k (igual que ML)

32
Estimacin Bayesiana
Se basa en la estimacin de la funcin densidad a posteriori

Modelos:
Paramtricos
No paramtricos
Semiparamtricos
Modelos paramtricos
Asume que la funcin densidad a posteriori tiene una forma paramtrica
normalmente Gausiana
Es apropiado cuando el conocimiento del problema sugiere una forma funcional
especfica (por ejemplo Gausiana)
La estimacin por mxima probabilidad (ML) suele usarse para estimar los
parmetros del modelo

33
Estimacin Bayesiana
Modelos no paramtricos
No tiene en cuenta la forma de la funcin densidad
No funcionan muy bien a no ser que se utilice una gran cantidad de datos
Ventana de Parzen
La funcin densidad p(X) se calcula mediante la media de M funciones kernel
Las funciones kernel suelen ser simtricas y unimodales (Gaussianas de varianza fija)
2
1 M
1 X Xm
p( X )
M
2SV
m 1
2 N /2
exp (
2V 2
)
La desventaja de este mtodo es que el nmero de las funciones kernel y sus parmetros crece
con el tamao de los datos
Histograma
Cuantifica el espacio de datos en
acumuladores de igual volumen
La funcin de densidad se aproxima en
funcin de la fraccin de datos que caen en
cada acumulador
Al igual que las ventanas de Parzen la
aproximacin es pobre

34
Estimacin Bayesiana
Modelos semiparamtricos
tiles para estimar funciones de densidad de estructura desconocida con datos
limitados
El nmero de parmetros puede variarse en funcin de la naturaleza de la funcin de
densidad de probabilidad real
El nmero de parmetros no es funcin de la cantidad de datos
Est formado por una suma ponderada de K funciones de densidad paramtricas
K
p( X / T ) p( X / T ) S
k 1
k k
Todas las componentes tienen la misma forma paramtrica (normalmente Gausianas)

Los parmetros k son los pesos de la mezcla y su suma vale 1
K
S
k 1
k 1
Asumiendo mezclas Gausianas hay que calcular (mk, Ck, k )

No se puede usar estimacin ML
Se emplea un algoritmo de aprendizaje iterativo llamado EM (Expectation-
Maximization)
35
Algoritmo EM
Algoritmo que comienza con una estimacin inicial de e iterativamente la

modifica para incrementar la probabilidad de los datos observados
Funciona bien en situaciones donde los datos son incompletos
Se usa fundamentalmente con modelos de mezcla (por ejemplo Gausianas)
Datos incompletos:
Muy a menudo no se puede emplear estimacin ML ya que no se pueden medir todas
las caractersticas o ciertos valores no se pueden conseguir
EM es ideal para problemas con datos no observables

x1
x x1
Datos reales : X 2 Datos observados :Y x
x3 2
pdf completa : p ( X / T ) pdf incompleta : p(Y / T )
La pdf incompleta se puede obtener de la completa: p (Y / T ) ... p( X / T ) dX mis sin g

36
Algoritmo EM
Ejemplo: problema de reconocimiento de 2 clases

(1) Clase de objetos oscuros
(1.1) Objetos oscuros redondos
(1.2) Objetos oscuros cuadrados
(2) Clase de objetos claros
Datos completos y pdf:
x1 n objetos oscuros redondos
Datos reales : X x n objetos oscuros cuadrados
2
x3 n objetos claros
n! x1 x2 x3
p ( x1 , x2 , x3 / T ) x ! x ! x ! 1 / 4 1 / 4 T / 4 1 / 2 T / 4

1 2 3
Datos incompletos:
y1 x1 x2 n objetos oscuros
Y y x
2 3 n objetos claros

37
Algoritmo EM. Pasos
Maximiza la estimacin de p(X/) dando los datos Y y la estimacin de
Alterna los pasos de Estimacin y Maximizacin
1. Inicializacin: inicializa el algoritmo con 0
2. Estimacin: con respecto a las variables desconocidas usando la estimacin de

parmetros actual y condicionada a las observaciones

Q T ,T t
E xno observada ln pDx / T / D y , T t
Se aplica a las variables no observadas a partir de los datos observados
Cuando ln p(Dx/ ) es una funcin lineal de las variables no observadas entonces este
paso es equivalente a encontrar E(x no observada/ Dy, t)
3. Maximizacin: produce una nueva estimacin de los parmetros

T t 1 arg maxT Q(T ;T t )
4. Convergencia: Si T t 1 T t H stop; en caso contrario ir al paso 2

38
Algoritmo EM. Pasos
Eleccin inicial de
parmetros (0)
t=0
E-Step
Estima datos no
observados usando (t)
M-Step
Computa ML
Estima los parmetros (t+1)
usando los datos estimados
t=t+1
Converge?

39
Algoritmo EM. Ejemplo
1. Estimacin: computa E ln pDx / T / D y ,T t
n n
p D x / T i 1
p( X i / T ) ln pDx / T ln p( X
i 1
i /T )
n
n!
i
ln
x ! x ! x
1 i1 i 2 i 3
!
xi1 ln( 1 / 4 ) xi 2 ln( 1 / 4 T / 4 ) xi 3 ln( 1 / 2 T / 4 )

n
>
E ln p( Dx / T ) / D y ,T t
@ E ln x n!
> @
/ D y ,T t E xi1 / D y ,T t ln( 1 / 4 )

i 1 i 1 ! xi 2 ! xi 3 !
E >x i2 @
/ D y ,T t ln( 1 / 4 T / 4 ) xi 3 ln( 1 / 2 T / 4 )
2. Maximizacin: computa t+1 maximizando E ln pDx / T / D y ,T t
d
>
E ln p D x / T / D y ,T t @ 0 T t 1
> @
2 E x i 2 / D y ,T t x i 3
dT > @
E x i 2 / D y ,T t x i 3

40
Algoritmo EM. Ejemplo
1. Estimacin (continuacin): estima E xi 2 / D y ,T t
y 1
p( xi 2 / yi1 , yi 2 ) p( xi 2 / yi1 ) i1 1 / 4 xi 2 1 / 4 T / 4 yi 1 xi 2
yi 2 1 / 2 T / 4 yi1
1/ 4
>
E xi 2 / D y ,T t @ yi 1
1 / 2 T t / 4

41
Algoritmo EM con mezcla de funciones
Modelo de mezcla
Se define como una suma ponderada de K componentes donde cada una es una es una
funcin densidad paramtrica
K
p( X / T ) p( X / T ) S
k 1
k k
SALIDA DEL MODELO MEZCLA
Selector
p(1) p(2) p(3) p(K)
Submodelo Submodelo
1
Submodelo Submodelo K
2 3

42
Parmetros de la mezcla
Los parmetros a estimar son:
* los valores de S k
* los parametros T k de p( X / T k )
Las componentes de densidad p(X/k) suelen tener la misma forma paramtrica

K
Los parmetros de la mezcla suman 1: S

k 1
k 1
Ajustar un modelo mezcla a un conjunto de observaciones Dx consiste en estimar el

conjunto de parmetros mezcla que mejor describe estos datos
Mezcla de funciones Gaussianas

p(X/k) es una distribucin Gaussiana multivariable
Los parmetros k son (mk, Ck)

43
Mezcla de parmetros usando estimacin ML

Dado un conjunto de datos D=(X1, X2, , Xn), ML obtiene el valor de que maximiza:
n
p( D / T ) p( X
i 1
i /T )
Si p( X i / T ) p( X
k 1
i /Tk )S k
n K
p( D / T ) p( X
i 1 k 1
i / T k )S k
wp( D / T )
No se puede resolver 0 explicitamente, por ello se recurre a mtodos
wT
iterativos como el algoritmo EM

44
EM para estimacin con mezcla de
funciones
Si supiramos qu submodelo es responsable de la generacin de cada punto,
sera fcil encontrar los parmetros ML para cada submodelo
Se usa EM para estimar el submodelo que es responsable de la generacin de cada
punto
Se calculan los parmetros ML basados en estas estimaciones
Se usan los nuevos parmetros ML para re-estimar la funcin densidad y volver a
iterar
Variables ocultas
Se desconoce qu instancia Xi es generada por cada componente (los datos ocultos son
las etiquetas de los submodelos que generan cada dato)
Yi X i , zi
donde zi z1i , z 2i ,..., z Ki
1 si X i es generado por la componente j
zij
0 para el resto
X i es observable y zi es no observable
45

funciones
Clculo del paso de Estimacin (E-step)

Q T ,T t
E zi ln pDx / T / D y ,T t
n
Como p( D y / T ) p( Y / T )
i 1
i
p( Yi / T ) p( X i , zi / T ) p( X i / zi ,T ) p( zi / T ) p( X i / T j )S j
( asumiendo que zij 1 y zik 0 para k z j )
Se puede rescribir la ecuacin anterior como:
K
p( Yi / T ) > p( X i / T k )S k @zik
k 1
n K
p( D y / T ) > p( X i / T k )S k @zik
i 1 k 1

46
funciones
Computando el ln( ):
n K n K n K
ln p( D y / T )
i 1 k 1
zik ln p( X i / T k )S k
i 1 k 1
zik ln p( X i / T k ) z
i 1 k 1
ik ln S k
Y calculando el valor esperado del mismo:

n K n K

E ln p( D y / T ) / Dx ,T t E z ik ln p( X i / T k ) E z ik ln S k
t t
i 1 k 1 i 1 k 1
Teniendo en cuenta que E(zik) es la probabilidad de que la instancia Xi sea generada

por la componente k
p( X i / T kt )S kt
E( zik ) K
p( X i / T tj )S tj
j 1

47

funciones
Clculo del paso de Maximizacin (M-Step)
K
Maximiza Q(; t) teniendo en cuenta que S k 1

k 1
n K n K K
t
Qc( T ;T ) E( z
i 1 k 1
ik ) ln p X i / T k
i 1 k 1
E( zik ) lnS k O 1

k 1
Sk

Donde es el multiplicador de Lagrange
n n
wQc 1 1
0 o E zik O 0 o S kt 1 E z ik
wS k k 1
Sk ni 1
K K n
( la restriccin S
k 1
k 1 hace que E( z
k 1 i 1
ik ) O)
n
wQ c 1
0 o mkt 1 E( z ik )X i
wmk nS kt 1 i 1
n
wQ c 1
E( z )X
T
0 o C kt 1 ik i mkt 1 X i mkt 1
wC k nS kt 1 i 1

48
funciones (Resumen)
1. Inicializacin: T k0 S 0 0 0
k , mk , C k
2. E-step:
p( X i / T kt )S kt
E( zik ) K
p( X i / T tj )S tj
j 1
3. M-Step
n
1
S kt 1 E z ik
n i 1
n
1
mkt 1 E( z ik )X i
nS kt 1 i 1
n
1
E( z )X
T
C kt 1 ik i mkt 1 X i mkt 1
nS kt 1 i 1
4. Condicin de parada: Si T t 1 T t H stop; en caso contrario ir al paso 2

49

funciones (Estimacin de K)
Se puede usar EM para obtener una secuencia de parmetros estimados para
un rango de valores K
^4( K ) , K K min ,..., K max `
El valor de K se define como aquel que minimiza alguna funcin de coste:
K
arg minK C 4 ( K ) , K K min ,..., K max
Frecuentemente la funcin de coste usa ln p(Dy/) y un trmino adicional cuyo
objetivo es penalizar los valores grandes de K
Diferentes criterios se han utilizado:

Minimum Description Length (MDL)
Minimum Message Length (MML)
Gaussian Mixture Modeling (GMM)

50

Curso Vision 7

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Curso Vision 7

Transféré par

Droits d'auteur :

Formats disponibles

CLASIFICADORES ESTADSTICOS APLICADOS AL

Luis Miguel Bergasa Pascual

Departamento de Electrnica. Universidad de Alcal.

Sistema de clasificacin automtica

Luis M. Bergasa. Departamento de Electrnica (UAH)

Universo de trabajo (UT): objetos predefinidos a clasificar UT=(patrones)

Sistema de Clasificacin Automtica

Obtencin del Universo

Clculo de las funciones

Luis M. Bergasa. Departamento de Electrnica (UAH)

Eleccin del vector de caractersticas

Clasificador por regiones

Luis M. Bergasa. Departamento de Electrnica (UAH)

Net- Net- Net-

Clasificador por regiones

Cada neurona bsica implementa una fd (gi)

Las salidas de las neuronas (fds) pueden ser

La inteligencia de las RNs se encuentra distribuida en los pesos de la red

Los pesos inicialmente toman un valor aleatorio

Las RNs se entrenan usando un conjunto de vectores de test (entrada-salida

Normalmente los pesos se ajustan usando un algoritmo de entrenamiento de

Luis M. Bergasa. Departamento de Electrnica (UAH)

Estructura Regiones de Problema de la Clases con Formas de regiones

1 capa Medio plano

2 capas Regiones cerradas

Luis M. Bergasa. Departamento de Electrnica (UAH)

Clasificador por distancia eucldea

Luis M. Bergasa. Departamento de Electrnica (UAH)

Sea un vector X a clasificar (X?) el reconocedor por distancia eucldea asociar el

Luis M. Bergasa. Departamento de Electrnica (UAH)

Clasificador por distancia eucldea

Luis M. Bergasa. Departamento de Electrnica (UAH)

Calcula la distancia a los K vectores ms cercanos y clasifica X? como

Clasificador por K vecinos ms cernanos

Luis M. Bergasa. Departamento de Electrnica (UAH)

Resuelve los problemas de probabilidad condicionada P(hiptesis/evidencia)

Ejemplo de clasificacin de tuercas y tornillos

El teorema de Bayes es el soporte matemtico sobre el que se apoya este

El teorema de Bayes es ptimo si p(X/i) y p(i) son conocidas

p(i) se estima mediante datos de entrenamiento

p(X/i) se estima mediante datos de entrenamiento (histogramas discretos

Luis M. Bergasa. Departamento de Electrnica (UAH)

Se desea disear un clasificador que diferencie entre la letra mayscula B y el

Regla de decisin del clasificador:

Si todas las caractersticas tienen la misma varianza: CB=C8=2

Funciones discriminantes del clasificador:

Clasificador bayesiano: fds son elipsoides 2D

Luis M. Bergasa. Departamento de Electrnica (UAH)

Existen distintas funciones discriminantes:

Funciones discriminantes para funciones de densidad Gausianas

Definen los bordes de decisin: gi(X)=gj(X)

En funcin de estos se obtienen las distintas

Luis M. Bergasa. Departamento de Electrnica (UAH)

Caso 1: C i V 2 I (caractersticas incorreladas con la misma varianza)

Luis M. Bergasa. Departamento de Electrnica (UAH)

Ortogonal a la lnea que une las medias

Si p(Zi ) z p(Z j ) X0 se aleja de la media

Si p(Zi ) p(Z j ) entonces:

Si es muy pequea la posicin del borde

Luis M. Bergasa. Departamento de Electrnica (UAH)

Caso 2: C i C (matrices de covarianza iguales)

No es ortogonal a la lnea que une

Si p(Zi ) p(Z j ) entonces X0 se

Net- Net- Net-

4. Convergencia: Si T t 1 T t H stop; en caso contrario ir al paso 2

2. Maximizacin: computa t+1 maximizando E ln pDx / T / D y ,T t

Maximiza Q(; t) teniendo en cuenta que S k 1

4. Condicin de parada: Si T t 1 T t H stop; en caso contrario ir al paso 2