Académique Documents
Professionnel Documents
Culture Documents
ABSTRACT:
In this paper, we show a scheme for recognition of handwritten numerals using a multilayer cluster neural network trained with the back propagation algorithm. Kirsch mask are adopted for extracting features vectors and a three-layer cluster neural network with five independent subnetworks is developed for classifying similar numerals efficiently. The neural network was trainned with a handwritten numeral dabase of more than 9000 patterns of differents writers and differents styles of type. We obtain a correct recognition rates about 96.2 %.
1. INTRODUCCIN
En el presente artculo se estudia el problema de la clasificacin automtica de patrones de nmeros escritos a mano. Su campo de aplicacin es muy amplio, por ejemplo, reconocimiento de Cdigos Postales de cartas y cheques de banco. Los patrones pueden estar desplazados, escalados, distorsionados e incluso con cierta inclinacin, o sobrescritos. El mtodo usado se basa en la utilizacin de una red neuronal multicapa [1] que ha sido entrenada con el algoritmo de Backpropagation [2]. La entrada a la red neuronal son un conjunto de vectores de caractersticas obtenidos mediante un preprocesado, que lleva consigo la captura, segmentacin, normalizacin, escalado y compresin de los patrones originales. A este preprocesado se le aade una extraccin de vectores o mapas de caractersticas, basados en el algoritmo de deteccin de ejes de Kirsch de esta manera se consigue introducir en la red neuronal informacin de ms alto nivel y prescindir de informacin redundante o de tipo ruidoso. Para el entrenamiento de la red neuronal se ha creado una base de datos consistente en mas de 9000 dgitos escritos a mano por mas de treinta escritores diferentes de ambos sexos de diversas edades, y con diferentes estilos de escritura. El mtodo de estimacin del error de generalizacin de la red, para el reconocimiento de patrones nunca antes vistos por la red, es el de Validacin Cruzada [2] ; en el que se particiona toda la base de datos, repetidas veces, entrenando con una particin y validando con el resto. Los resultados obtenidos mediante el mtodo estudiado son bastante alentadores pues nos permiten alcanzar unos porcentajes de reconocimiento correcto del orden del 96% de dgitos manuscritos.
Los dgitos, ya sea escritos a mano o impresos, son esencialmente lneas dibujadas, esto es, estructuras de una dimensin en un espacio bidimensional. Por tanto, la deteccin de segmentos de lneas segn las zonas de la
imagen parece ser un preprocesado adecuado. Para cada zona de la imagen la informacin de la presencia de un segmento de lnea, y su concreta orientacin respecto a los dems segmentos, son almacenados en un mapa de caractersticas. Con este tipo de representacin se consigue, una estructura no muy compleja, con buenas caractersticas de velocidad de preprocesado, con un espacio de entrada no muy elevado, y con las muestras de las clases de patrones menos dispersas que usando una representacin de mas bajo nivel.
3. PREPROCESADO
Como se dijo anteriormente, los dgitos son escritos en una plantilla de cuadriculas para facilitar el proceso de segmentacin. Se digitaliza la plantilla mediante escaneado, en modo blanco y negro con una resolucin de 300 ppp. y obteniendo un fichero en formato TIFF listo para el preprocesado. De cada una de las cuadriculas se extrae un primer cuadro del patrn de unos 100x100 pixeles binarios, donde se pasa a segmentar por los cuatro lmites quedndose as solo con la regin mnima que contiene al patrn, se eliminan pequeos puntos aislados ruidosos no deseables. El patrn as obtenido puede tener un tamao muy variable por lo que se hace necesaria una etapa de normalizacin o escalado que ayude al reconocedor a comportarse invariante frente a distintos tamaos de las muestras. El patrn tambin es centrado para conseguir cierta invarianza de posicin. En el escalado se mantiene la relacin de aspecto del patrn inicial evitando la deformacin de la estructura del patrn. Se normaliza a imgenes de 16x16 pixeles con diferentes niveles de grises debido a la linealidad de la transformacin. Mediante una etapa de extraccin de caractersticas se pretende transformar la representacin de los datos, de formato de pixel simple a un nivel mayor, quedndose con las caractersticas mas importantes del patrn y deshacindose de informacin redundante. Se trata de extraer unos mapas de caractersticas con informacin sobre los segmentos de lneas, su ubicacin y su orientacin respecto a otros segmentos vecinos. Los detectores de ejes diferenciales de primer orden son adecuados para esta tarea de localizacin de segmentos de lneas, adems son de rpido calculo. Existen diversos y variados tipos de detectores de ejes diferenciales de primer orden: Freichen, Kirsch, Prewitt, Sobel, etc. pero el que es mas preciso para encontrar los cuatro ejes direccionales (horizontal, vertical, diagonales derecha e izquierda) es el detector de Kirsch, puesto que considera los ocho vecinos de cada pixel. Kirsch [4] define un algoritmo de bsqueda de ejes como sigue: G(i. j) = max 1, max [ 5Sk - 3Tk ] (1) k=0
7
A A A
0 7 6
donde
1 (i, j) A 5
A A A
2 3 4
S = A k + A k +1 + A k+2
k
Tk = A k +3 + A k +4 + A k +5 + A k +6 + A k +7
Tabla 1 Definicin de los vecinos del pixel (i,j), segn el algoritmo de Kirsch.
En (1), G(i,j) es el gradiente del pixel (i,j), los subndices de A son evaluados en modulo 8, y Ak (k = 0,1,...,7) son los ocho vecinos del pixel (i,j) definidos como muestra la Tabla 1.
.
Basndonos en este algoritmo, calculamos vectores o mapas de caractersticas en las cuatro direcciones, horizontal (H), vertical(V), diagonal derecha (D) y diagonal izquierda (I). De esta forma obtenemos 4 mapas o vectores de caractersticas locales del patrn original, para obtener otra caracterstica global lo que hacemos es incluir otro mapa con el patrn original sin aplicar ningn mtodo de gradiente, por tanto el conjunto de mapas de caractersticas esta formado por 5 patrones de tamao 16x16 (4 locales + 1 global). Figura 1. Como ltima etapa del preprocesado, lo que hacemos es una compresin de los patrones Kirsch 16x16 a 4x4, mediante un diezmado lineal, de esta forma reducimos mucho la dimensin del espacio de entrada por una potencia de 16, lo cual har factible el aprendizaje de la red neuronal, sin necesidad de obtener un numero muy elevado de patrones de entrada para el entrenamiento.
Normalizacin 16x16
Compresin 4x4
Imagen Original
Patrn Normalizado.
Patrn global.
Horizontal
Vertical
Diagonal derecha
Diagonal Izquierda
Fig. 1. Preprocesado: Normalizacin a tamao 16x16, extraccin de caractersticas de Kirsch ( 4 direcciones) y compresin a 4x4.
4.2 ENTRENAMIENTO DE LA RED Cada una de las subredes entre la capa de entrada y la capa oculta es inicializada con pesos aleatorios y entrenada con diferentes mapas de caractersticas, respectivamente. Todas las conexiones en la red son de tipo adaptativo, y son entrenadas con el algoritmo de retropropagacin o "Backpropagation". El coeficiente de aprendizaje que es el nico parmetro libre en el algoritmo de entrenamiento, es fijado antes del entrenamiento y no se varia posteriormente.
En la Figura 3 se observa que para el conjunto de validacin, se alcanza el mximo porcentaje de reconocimiento, 96.2% , sobre las 200 iteraciones , mantenindose prcticamente constante para mas iteraciones, por tanto, no hace falta un criterio de parada de entrenamiento que sea muy preciso, ya que el efecto de sobreentrenamiento es prcticamente nulo. Los errores cuadrticos medios (MSE) del test de aprendizaje y de validacin estn entorno a 0.01 y 0.07, respectivamente.
Fig. 3. Reconocimiento correcto frente al nmero de iteraciones.
1 9
4 9
4 1
7 3
4 9
7 2
5 1
3 5
4 9
5 6
Tabla 3. neuronal.
6. CONCLUSIONES FINALES
En este artculo se ha mostrado un esquema para el reconocimiento de dgitos escritos, usando una red neuronal multicapa y entrenada con el algoritmo Backpropagation. Los resultados finales obtenidos por el este reconocedor son de un error de clasificacin del 3.8% sin rechazo de patrones, y del 1% rechazando el 9% de los patrones de la entrada. Como lneas futuras de investigacin est la creacin de una segunda etapa clasificadora que intentara reconocer los patrones rechazados por la primera red,, as como tambin una precisa inicializacin ,mediante algoritmos genticos, sobre los pesos de la red neuronal.
REFERENCIAS:
[1] Seong-Whan Lee, Off-Line Recognition of totally unconstrained handwritten numerals using multilayer cluster neural networks, IEEE Trans. on P.A.M.I. Vol 18, Num. 6, Pag 648-652,1996. [2] Simon Haykin , Neural Networks. A Comprehensive Foundation. Pag. 179-181. 1994.
[3] Stefan Knerr, Leon Personnaz, Gerard Dreyfus,Handwritten Digit Recognition by Neural networks with Simgle-Layer Training, IEEE Trans. on Neural Networks Vol.3, Num. 6, Pag. 962-968. 1992. [4] W.K. Pratt, Dgital Image Processing. New York: Wiley,1978.