Académique Documents
Professionnel Documents
Culture Documents
Introduccin
Recordamos:
La forma ptima de realizar el proceso de clasificacin consiste en
la utilizacin del clasificador bayesiano:
Reconocimiento de Patrones
Aproximacin Generativa
Objetivo:
Estimar p(x|wi) , P(wi), necesarios para aplicar el modelo de
Decisin Bayesiano.
Informacin disponible:
Un conjunto de muestras de entrenamiento H representativas de
las distintas clases, correctamente etiquetadas con su clase de
pertenencia.
Esto es, H= H1 H2 ... Hc, donde cada Hi tiene las muestras de
la clase wi
Asumiremos:
Que las muestras de cada clase no proporcionan informacin
acerca de la otra clase.
Las muestras en cada clase son independientes
Esto permite:
Estimar p(x|wi) , P(wi) nicamente a partir de las muestras en Hi.
Tenemos que resolver el problema de estimacin para cada clase
Problema:
La estimacin de P(wi) es simple, sin embargo la estimacin de
p(x|wi) es un problema complejo
Reconocimiento de Patrones
Estrategias de Estimacin
Estimacin Paramtrica
Se basa en suponer que la forma de p(x|wi) es conocida (gausiana,
beta, etc...) y depende de un conjunto de parmetros i .
Principal Ventaja: Los mtodos de estimacin son ms simples y
precisos
Principal Desventaja: Es necesario conocer la forma de la distribucin.
Los mtodos suelen ser sensibles a errores en dicha forma.
Mtodos ms importantes:
Estimacin por Mxima Verosimilitud.
Estimacin mximo a posteriori
Estimacin Bayesiana.
Estimacin no Paramtrica.
No se realiza ninguna asuncin acerca de la forma de p(x|wi)
Principal Ventaja: Mtodos robustos
Principal Desventaja: Mtodos complejos y que requieren un gran
nmero de muestras para una estimacin precisa.
Mtodos ms importantes
Ventanas de Parzen.
Vecinos ms prximos.
Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna
Reconocimiento de Patrones
Mtodos paramtricos
Se asume que la forma de las funciones de densidad condicionales
son conocidas y dependen de un conjunto de parmetros i.
Escribiremos esta dependencia como p(x|wi ,i).
Por ejemplo para una normal multidimensional tendremos que
i={i,i}
Sin embargo, se desconoce el valor verdadero del conjunto de
parmetros que la determinan completamente. Este verdadero valor
se estima a partir de un conjunto de entrenamiento mediante un
estimador.
Es importante recordar que:
El valor del estimador (estimacin) depende del conjunto de
entrenamiento y distintos conjuntos de entrenamiento proporcionan
distintas estimaciones.
La estimacin no tiene por qu coincidir con el verdadero valor del
parmetro.
Reconocimiento de Patrones
Simplificacion:
Las muestras de la clase wi slo dan informacin acerca del
parmetro de dicha clase i,.
Esto permite trabajar con cada clase por separado y obtener c
problemas de la forma:
Utilizar un conjunto de muestras Hi tomadas de forma
independiente de p(x | wi ,i ) para estimar i
Notacin:
Eliminaremos de la notacin la dependencia de la clase para
simplificar la escritura y escribiremos p(x | ) en vez de p(x | wi ,i )
y H en lugar de Hi.
No obstante debemos recordar siempre que estamos utilizando las
muestras de una nica clase y estimado los parmetros para esa
clase.
Por tanto para completar el clasificador debemos tener resuelto el
problema de estimacin para cada clase por separado.
Reconocimiento de Patrones
EMV: Mtodo
Idea:
Encontrar los valores del conjunto de parmetros que hace mxima
la verosimilitud del conjunto de entrenamiento
Obtencin de la mxima verosimilitud
Si H={x1,x2,...,xn} son muestras generadas de forma independiente
de la funcin de densidad p(x| ) entonces
1.- Calcular la funcin de verosimilitud de todas las muestras:
n
L = p(H | ) = p( x k | )
p(H|)
k =1
EMV
Ejemplo:
Estimar la media , y la matriz de una distribucin normal por
EMV, a partir de un conjunto H={x1,x2,...,xn}.
1 n
1 n
EMV = x k ,
EMV = ( x k EMV )( x k EMV )T
n k =1
n k =1
ln( p(H | )) = 0
Reconocimiento de Patrones
EMV: Propiedades
El EMV tiene propiedades muy deseables:
Es asintticamente insesgado: lim E(EMV ) =
n
Significa que la media sobre los valores de los posibles
conjuntos de entrenamiento da el verdadero valor del
parmetro cuando el nmero de muestras del conjunto de
entrenamiento tiende a infinito
P EMV = 1
Es asintticamente consistente: nlim
Reconocimiento de Patrones
Un inciso...
De la misma forma puede comprobarse que la decisin tomada
utilizando el conjunto de entrenamiento para el ejemplo de los
rdalos y salmones del tema anterior est basada en la estimacin
por mxima verosimilitud de las correspondientes funciones de
distribucin para cada clase.
Reconocimiento de Patrones
Distribuciones verdaderas:
0 1 0
p(x | w1 ,1 )~ N ,
0 0 1
P(w1)=0.5, P(w2)=0.5
Clasificacin:
Conjunto de testeo:
1 1 0
, p(x | w2 ,2 )~ N ,
1 0 1
Conjunto de entrenamiento:
50 muestras por clase
Estimacin:
0.45 0.02 0.09
,
p ( x | w1 ) ~ N
0
.
32
0
.
09
0
.
53
0
.
73
0
.
23
Error bayesiano:
0.23
-1
-2
-1.5
-1
-0.5
0.5
1.5
2.5
Reconocimiento de Patrones
Mtodos no Paramtricos:
Es un conjunto de mtodos que no necesita informacin acerca de la forma
de las funciones de densidad condicionales p(x | wi)
Simplificacin:
Se asume que los elementos de Hi solo dan informacin sobre dicha clase.
Esto permite resolver c problemas independientes
Notacin:
Eliminaremos de la notacin la dependencia de la clase para simplificar la
escritura y escribiremos p(x) en lugar de p(x | wi ) y H en lugar de Hi
No obstante debemos recordar siempre que estamos utilizando las
muestras de una nica clase y por tanto para completar el clasificador
debemos tener resuelto el problema de estimacin para cada clase por
separado.
Algunos Procedimientos:
Ventanas de Parzen
Se estima la funcin de densidad p(x) examinando el conjunto de entrenamiento
H en un entorno de x que cuya forma no depende de H
k- Vecinos ms prximos
Se estima la funcin de densidad p(x) examinando el conjunto de entrenamiento
H en un entorno de x cuya forma depende de H
Escuela Tcnica Superior de Ingeniera Informtica. Universidad de La Laguna
Reconocimiento de Patrones
k n
,
V
V =
dx
R
x
R
p ( x ) =
5 / 18
V
k=5
n=18
V=rea de R
Reconocimiento de Patrones
Convergencia de la Estimacin
Convergencia
Una condicin deseable es la convergencia de la estimacin de
p(x) a su verdadero valor cuando el tamao del conjunto de
entrenamiento tiende a infinito.
Condiciones de Convergencia
Para expresar la dependencia de k y V del tamao del conjunto de
entrenamiento n escribiremos:
k n
p n ( x ) = n
Vn
Con el siguiente resultado se asegura la convergencia de dicha
estimacin:
lim Vn = 0, lim k n = , lim k n / n = 0 lim p n ( x ) = p( x )
n
Reconocimiento de Patrones
Ventanas de Parzen:Preliminares
Histogramas
La forma ms simple de estimacin de funciones de densidad es
mediante la creacin de un histograma de frecuencias relativas.
En un histograma unidimensional se puede elegir el nmero de
celdas M y el punto de comienzo de la divisin en intervalos
Desventajas
Cuando se tienen d caractersticas no es factible construir el
histograma debido a que el nmero de celdas es exponencial ( Md )
en el nmero de caractersticas d.
Reconocimiento de Patrones
Ventanas de Parzen:Introduccin
Idea inicial:
Fijar un tamao de regin, construirla nicamente alrededor del
punto x para el que se desea estimar su probabilidad y aplicar la
frmula de los mtodos no paramtricos:
k n
p ( x ) =
V
Vamos a formalizarlo:
Caso unidimensional
La celda es un intervalo centrado en x de longitud h
Hallaremos k de una forma un tanto especial:
1 | t | 1 2
Primero definimos
la
funcin
(
t
)
=
n
0 otro caso
Entonces k= (( x x i ) h )
i =1
p ( x ) =
k n 1 n (( x x i ) h ) 1 n
p ( x ) =
=
= (x x i ),
V
n
V
n i =1
i =1
34
h
x1
(x) =
1 x
, V = h
V h
x
x3 x4
x2
h/2
h/2
Ventanas de Parzen
x1
x2
x3 x4
Reconocimiento de Patrones
Caso multidimensional
La celda es un hipercubo centrado en x
y la longitud de cada lado es h
h /2
h /2
-h/2
- h /2
Hipercubo en 2-D
Entonces k=
(( x x i ) h)
(x ) =
1 x
, V = h d
V h
i =1
Reconocimiento de Patrones
Problema:
1 n
La estimacin p ( x ) = (x x i ) genera funciones de densidad
n i =1
discontinuas (pues las funciones son discontinuas).
Generalmente se suele trabajar con funciones de densidad
continuas
Solucin
Generalizar la nocin de histograma variando la funcin ncleo
utilizando por ejemplo una gausiana: G(x)=1/(2h2)d/2 exp( (-1/2)
xx) que suelen proporcionar una estimacin ms suave.
Estimacin de Parzen mediante las funciones ncleo gausianas para 5 muestras y distintos valores de h
Grficos de: Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification. Copyright (c) 2001 por John Wiley & Sons, Inc.
Reconocimiento de Patrones
Una solucin:
Dividir el conjunto de entrenamiento en dos partes: uno para testeo
y otro para validacin. Utilizar el conjunto de entrenamiento para
definir distintas estimaciones en funcin de h. Posteriormente elegir
aquel valor de h para el que la probabilidad del conjunto de
validacin sea mxima.
Grficos de: Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification. Copyright (c) 2001 por John Wiley & Sons, Inc.
Reconocimiento de Patrones
Distribuciones verdaderas:
0 1 0
p(x | w1 ,1 )~ N ,
0
0
1
1 1 0
, p(x | w2 ,2 )~ N ,
1 0 1
P(w1)=0.5, P(w2)=0.5
Clasificacin:
Conjunto de testeo:
50 muestras por clase
Conjunto de entrenamiento:
50 muestras por clase
2.154
0.32
Error bayesiano:
0.23
-1
-2
-1.5
-1
-0.5
0.5
1.5
2.5
Reconocimiento de Patrones
Grficos de: Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification. Copyright (c) 2001 por John Wiley & Sons, Inc.
Reconocimiento de Patrones
Recordemos:
El clasificador ptimo bayesiano se puede construir hallando la
clase para la que es mxima la probabilidad a posteriori: p (wi |x)
Entonces:
Supongamos que el conjunto de datos H contiene ni muestras en la
clase wi y n muestras en total.
Supongamos que fijamos una regin R de volumen V para todas
las clases
Como sabemos, debemos resolver un problema de estimacin por
clase. Para la clase wi la estimacin ser:
k n
p ( x | wi ) = i i
V
ni
k
Entonces si utilizamos p (w i ) =
tendremos p (w i | x ) = i
n
k
La regla es simple: Seleccionar la clase con mayor nmero de
elementos en la regin R.
La regin R puede definirse mediante el esquema de las ventanas
de Parzen o los k-vecinos. Este ltimo esquema lleva a la
clasificacin por vecinos ms cercanos.
Reconocimiento de Patrones
P* P P*2
P * < 2P * , para n
c 1
Reconocimiento de Patrones
1
ke
Reconocimiento de Patrones
Distribuciones verdaderas:
0 1 0
p(x | w1 ,1 )~ N ,
0
0
1
1 1 0
, p(x | w2 ,2 )~ N ,
1 0 1
P(w1)=0.5, P(w2)=0.5
Clasificacin:
Conjunto de testeo:
50 muestras por clase
Conjunto de entrenamiento:
-1
-2
-1.5
-1
-0.5
0.5
1.5
2.5
0.28
Reconocimiento de Patrones
Resumiendo...