Vous êtes sur la page 1sur 11

Instituto Tecnológico de León

Departamento de Posgrado e Investigación

Análisis de imágenes y reconocimiento de patrones

Clasicador No Supervisado Max-Min

Autores:
L.I. Roberto Oswaldo Cruz Leija

Profesor:
Dr. Raúl Santiago Montero

20 de Febrero del 2011

1
Índice general
Introducción 3

Antecedentes 4
0.1. Tipos de Clasicación 4
0.2. Clasicador MaxMin 4
0.3. Medición de Distancia 5

Desarrollo propuesto 7

Pruebas experimentales 8
0.4. Resultados de Clasicación 8

Conclusiones 10

Referencias 11

2
Introducción
En toda el área de Reconocimiento de Patrones es importante denir como objeti-
vo principal el de reconocer un conjunto de características, poder determinar con esa
información a qué clase de objetos pertenece. Estamos convencidos que la selección de
características es muy importante, si una buena selección será muy difícil tener clases
separadas que mejoren el criterio de clasicación. Existen diferentes técnicas o algorit-
mos de clasicación, algunos más robustos que otros pero todos gozan de un diferente
grado de conabilidad para determinadas situaciones. complejidad y porcentaje de clasi-
cación correcta. El objetivo de la Implementación es conocer a detalle el funcionamien-
to de diferentes clasicadores, conocer el comportamiento, identicar sus debilidades y
fortalezas.
Dentro del aprendizaje automático, encontremos técnicas de clasicación que nos
permiten agrupar muestras de acuerdo a criterios o métodos, estas técnicas son la clasi-
cación supervisada y la no supervisada.
El objetivo de la clasicación dentro del aprendizaje automático consiste en la asig-
nación de un objeto o un fenómeno físico a una de las diversas categorías o clases
especicadas (se hace referencia a clase como una agrupación de objetos que tiene car-
acterísticas comunes, o mejor dicho como un sinónimo de categoría). La clasicación es
una técnica muy útil, usada en diversos campos como el de reconocimiento de patrones.

3
Antecedentes
0.1. Tipos de Clasicación
0.1.1. Supervisada. Este tipo de clasicación cuenta con un conocimiento a pri-
ori, es decir para la tarea de clasicar un objeto dentro de una categoría o clase conta-
mos con modelos ya clasicados (objetos agrupados que tienen características comunes).
Podemos diferenciar dos fases dentro de este tipo de clasicación:

La primera fase tenemos un conjunto de entrenamiento o de aprendizaje (para el


diseño del clasicador) y otro llamado de test o de validación (para clasicación),
estos nos servirán para construir un modelo o regla general para la clasicación.
En la segunda fase es el proceso en sí de clasicar los objetos o muestras de las
que se desconoce la clase a las que pertenecen.

Ejemplos de clasicación supervisada son: el diagnóstico de enfermedades, predicción de


quiebra o bancarrota en empresas, reconocimiento de caracteres escritos a mano, en la
minería de datos, etc. Entre las técnicas dentro del grupo de clasicación supervisada
se encuentran los algoritmos de clasicación por vecindad.

0.1.2. No Supervisada. A diferencia de la supervisada no contamos con conocimien-


to a priori, por lo que tendremos un área de entrenamiento disponible para la tarea de
clasicación. A la clasicación no supervisada se la suele llamar también clustering.
En este tipo de clasicación contamos con  objetos o muestras que tiene un conjunto
de características, de las que no sabemos a que clase o categoría pertenece, entonces la
nalidad es el descubrimiento de grupos de  objetos cuyas características anes nos
permitan separar las diferentes clases.
En la perspectiva de maquinas de aprendizaje se marca la diferencia entre agru-
pamiento (clasicacion no supervisada) y analisis de discriminantes (clasicacion super-
visada). El agrupamiento consiste en formar clases de pertenencia que incluyan a los
elementos del conjunto original de acuerdo con alguna medida de similitud, mientras
que en el analisis discriminante, las clases son ya conocidas y el objetivo es asignar un
patron desconocido a una de esas clases. Los algoritmos de clusterizacion clasicos se
agrupan en:

1. Algoritmos de Clusterizacion Jerarquica


2. Algoritmos de Clusterizacion Particional
3. Algoritmos de Clusterizacion Basados en densidad
4. Algoritmos de Clusterizacion Basados en grids.

0.2. Clasicador MaxMin


Este algoritmo primero determina todos los centros de grupo con base en un umbral
arbitrario que en cada paso determina si un nuevo grupo debe ser creado. Despues asigna

4
los elementos restantes del conjunto original en el grupo para el cual el elemento tenga
la mnima distancia al centroide del grupo. El algoritmo es el siguiente:
n
Dado un conjunto de ejemplos en < , cuya distribucion sugiere la existencia de al
menos dos grupos, este algoritmo determina la pertenecia de cada ejemplo a una clase
particular, emplenado un clasicador de mnima distancia.

Entrada:

n- La dimension del problema


m- El numero de ejemplos.
X = {xi } , 1 ≤ i ≤ m- Los m ejemplos en <n .
t- Un valor de umbral que determina si un nuevo grupo debe ser creado.

Salida:

k - El numero de centros de grupos encontrado.


{yj } , 1 ≤ j ≤ k - Los centros de grupo.
{mj } , 1 ≤ j ≤ k - Los tamaños de grupo.
{lij } , 1 ≤ i ≤ mj - Los indices de los ejemplos originales que pertenecen al j-esimo
grupo, 1 ≤ j ≤ k .

Paso 1. Asignar y1 = x1 , y2 = xj0 ,l11 = 1, l12 = j0 donde kxj0 −y1 k = max2≤i≤m kxi −yj k
Asignar k = 2, a = kyi − yj k(media), donde 1 ≤ i, j ≤ k ,i 6= j y X = X − {y1 , y2 }
'

0
Paso 2. Encontrar j0 , 1 ≤ j0 ≤ k y xi0 ∈ X tales que d = kxi0 − yj0 k =
maxxi ∈X 0 (min1≤j≤k kxi − yj k)
Si d < ta (no se requieren mas grupos) ir al paso 4. De otra forma, ir al paso 3.
0 0
Paso 3. Asignar k = k + 1,yk+1 = xi0 ,lk1 = i0 , X = X − {yk+1 }e ir al paso 2.
Paso 4. Asignar mj = 1,1 ≤ j ≤ k
0
Paso 5. Para cada xi ∈ X . Encontrarj : 1 ≤ j ≤ k para los cuales kxi − y1 k =
min1≤j≤k kxi − yj k y
asignar mj = mj + 1 y lmi j = i
Paso 6. Para 1 ≤ j ≤ k reemplazar yj por (x11j + x12j + · · · + x1mjj /mj ).
mj
Paso 7. Para 1 ≤ j ≤ k enviar a la salida yj ,mj ,{lij }i=1

0.3. Medición de Distancia


El análisis discriminante utiliza mediciones continuas variables en los diferentes gru-
pos de elementos a destacar los aspectos que distinguen a los grupos y utilizar estas
mediciones para clasicar nuevos elementos. Los usos habituales del método han sido en
la clasicación biológica de las especies y subespecies, la clasicación de las solicitudes
de préstamos, tarjetas de crédito y de seguros en categorías de bajo riesgo y alto riesgo,
la clasicación de los clientes de nuevos productos, los estudios médicos con los alcohóli-
cos y no alcohólicos, los estudios antropológicos como clasicación de los cráneos de los
fósiles humanos y los métodos para identicar las huellas dactilares humanas.

La distancia Euclidiana se basa en el siguiente esquema

1
g (x) = mT x − kmk2
2
Desarrollo propuesto
El objetivo de esta práctica es implementar el algoritmo No Supervisado Max-Min,
para poner aprueba el clasicador se utilizaron 2 bases de datos conocidas: Iris Plant
y Wine, dichas bases de datos presentan una variada distribución de los datos. Es im-
portante utilizar bases de datos como estas para tener una idea más amplia de cómo
funciona Max-Min. El en el siguiente esquema se muestra en general la forma de trabajar
del Clasicador Max-Min.

7
Pruebas experimentales
Para dar inicio a las pruebas experimentales es importante ver cómo están distribui-
dos los datos, en la siguiente graca se muestran los diferentes vectores de las diferentes
clases de la BD Iris Plant. Podemos ver claramente que una de las clases esta lineal-
mente separable a las demás, las otras 2 presentan un ligero cruce, dicho cruce provocará
confusión a la hora de clasicación.

0.4. Resultados de Clasicación


Estos son algunos de los comportamientos del clasicador, donde se muestra como
se van generando los diferentes centroides dependiendo del valor del umbral, ademas los
clusters nales.

8
Los vectores representativos de los cluster nales son los siguientes
Conclusiones
Cuando las clases están linealmente separables se espera el 100 % de clasicación
correcta
Entre mayor es el valor del umbral es ma dicil que aumenten los números de
clusters.
No es tan trivial determinar el rendimiento general del clasicador por el hecho
de ser un clasicador no-supervisado.
Puede ser que el algoritmo sea costoso computacionalmente si se utiliza la orde-
nación para obtener el valor máximo de mínimos.

10
Referencias
[Duda,2000] Duda R.O., Hart P.E., Stork D.G. Pattern classication.
www.cs.princeton.edu/courses/archive/fall08/cos436/Duda/PR_simp/lin_disc.htm
www.advancedtech.wordpress.com/2008/04/14/clasicaci on-supervisada-y-no-supervisada/

11

Vous aimerez peut-être aussi