Vous êtes sur la page 1sur 5

Reconocimiento de Dgitos Escritos Mediante una Red Neuronal Multicapa.

Tratamiento de Voz e Imagen


Daniel Cruces lvarez, Fernando Martn Rodrguez. Departamento de Tecnologas de las comunicaciones. E.T.S.I.T. de Vigo. Universidad de Vigo E.T.S.I.T. Ciudad Universitaria S/N.36200 Vigo. Tfno: (986) 812131. Fax (986) 812121. E-mail:dani@tsc.uvigo.es, fmartin@tsc.uvigo.es.

ABSTRACT:
In this paper, we show a scheme for recognition of handwritten numerals using a multilayer cluster neural network trained with the back propagation algorithm. Kirsch mask are adopted for extracting features vectors and a three-layer cluster neural network with five independent subnetworks is developed for classifying similar numerals efficiently. The neural network was trainned with a handwritten numeral dabase of more than 9000 patterns of differents writers and differents styles of type. We obtain a correct recognition rates about 96.2 %.

1. INTRODUCCIN
En el presente artculo se estudia el problema de la clasificacin automtica de patrones de nmeros escritos a mano. Su campo de aplicacin es muy amplio, por ejemplo, reconocimiento de Cdigos Postales de cartas y cheques de banco. Los patrones pueden estar desplazados, escalados, distorsionados e incluso con cierta inclinacin, o sobrescritos. El mtodo usado se basa en la utilizacin de una red neuronal multicapa [1] que ha sido entrenada con el algoritmo de Backpropagation [2]. La entrada a la red neuronal son un conjunto de vectores de caractersticas obtenidos mediante un preprocesado, que lleva consigo la captura, segmentacin, normalizacin, escalado y compresin de los patrones originales. A este preprocesado se le aade una extraccin de vectores o mapas de caractersticas, basados en el algoritmo de deteccin de ejes de Kirsch de esta manera se consigue introducir en la red neuronal informacin de ms alto nivel y prescindir de informacin redundante o de tipo ruidoso. Para el entrenamiento de la red neuronal se ha creado una base de datos consistente en mas de 9000 dgitos escritos a mano por mas de treinta escritores diferentes de ambos sexos de diversas edades, y con diferentes estilos de escritura. El mtodo de estimacin del error de generalizacin de la red, para el reconocimiento de patrones nunca antes vistos por la red, es el de Validacin Cruzada [2] ; en el que se particiona toda la base de datos, repetidas veces, entrenando con una particin y validando con el resto. Los resultados obtenidos mediante el mtodo estudiado son bastante alentadores pues nos permiten alcanzar unos porcentajes de reconocimiento correcto del orden del 96% de dgitos manuscritos.

2. BASE DE DATOS Y REPRESENTACIN DE LA INFORMACIN.


En este articulo, se utiliza una base de datos que consiste en 9300 dgitos escritos a mano proporcionados por 90 escritores de diferentes edades, con muy variados tamaos y estilos de escritura. Los escritores proporcionan sus nmeros dentro de una plantilla, de esta manera se facilita la segmentacin de las muestras. La distribucin de nmeros, por clases, es uniforme, por tanto es una base de datos balanceada. La eleccin de una apropiada representacin de los datos es un punto crucial en las tareas de clasificacin de patrones, ya sea una clasificacin con o sin entrenamiento. Si se utiliza una representacin a bajo nivel, se necesitara un conjunto de entrenamiento lo suficientemente grande para obtener buenos resultados, porque , en general, la eficiencia del clasificador depender bastante de las particularidades del conjunto de entrenamiento, siendo mas costosa la generalizacin. Por tanto, es conveniente transformar la representacin de entrada, de bajo nivel, en una de mayor nivel, mediante un diseo apropiado de operaciones de preprocesado. Por otra parte, hay otros factores que nos influyen en la eleccin de la representacin de los datos, como son la necesidad de alta velocidad computacional o limitaciones hardware, favoreciendo as, representaciones que no requieran preprocesados muy complejos y costosos en tiempo.

Los dgitos, ya sea escritos a mano o impresos, son esencialmente lneas dibujadas, esto es, estructuras de una dimensin en un espacio bidimensional. Por tanto, la deteccin de segmentos de lneas segn las zonas de la

imagen parece ser un preprocesado adecuado. Para cada zona de la imagen la informacin de la presencia de un segmento de lnea, y su concreta orientacin respecto a los dems segmentos, son almacenados en un mapa de caractersticas. Con este tipo de representacin se consigue, una estructura no muy compleja, con buenas caractersticas de velocidad de preprocesado, con un espacio de entrada no muy elevado, y con las muestras de las clases de patrones menos dispersas que usando una representacin de mas bajo nivel.

3. PREPROCESADO
Como se dijo anteriormente, los dgitos son escritos en una plantilla de cuadriculas para facilitar el proceso de segmentacin. Se digitaliza la plantilla mediante escaneado, en modo blanco y negro con una resolucin de 300 ppp. y obteniendo un fichero en formato TIFF listo para el preprocesado. De cada una de las cuadriculas se extrae un primer cuadro del patrn de unos 100x100 pixeles binarios, donde se pasa a segmentar por los cuatro lmites quedndose as solo con la regin mnima que contiene al patrn, se eliminan pequeos puntos aislados ruidosos no deseables. El patrn as obtenido puede tener un tamao muy variable por lo que se hace necesaria una etapa de normalizacin o escalado que ayude al reconocedor a comportarse invariante frente a distintos tamaos de las muestras. El patrn tambin es centrado para conseguir cierta invarianza de posicin. En el escalado se mantiene la relacin de aspecto del patrn inicial evitando la deformacin de la estructura del patrn. Se normaliza a imgenes de 16x16 pixeles con diferentes niveles de grises debido a la linealidad de la transformacin. Mediante una etapa de extraccin de caractersticas se pretende transformar la representacin de los datos, de formato de pixel simple a un nivel mayor, quedndose con las caractersticas mas importantes del patrn y deshacindose de informacin redundante. Se trata de extraer unos mapas de caractersticas con informacin sobre los segmentos de lneas, su ubicacin y su orientacin respecto a otros segmentos vecinos. Los detectores de ejes diferenciales de primer orden son adecuados para esta tarea de localizacin de segmentos de lneas, adems son de rpido calculo. Existen diversos y variados tipos de detectores de ejes diferenciales de primer orden: Freichen, Kirsch, Prewitt, Sobel, etc. pero el que es mas preciso para encontrar los cuatro ejes direccionales (horizontal, vertical, diagonales derecha e izquierda) es el detector de Kirsch, puesto que considera los ocho vecinos de cada pixel. Kirsch [4] define un algoritmo de bsqueda de ejes como sigue: G(i. j) = max 1, max [ 5Sk - 3Tk ] (1) k=0
7

A A A

0 7 6

donde

1 (i, j) A 5

A A A

2 3 4

S = A k + A k +1 + A k+2
k

Tk = A k +3 + A k +4 + A k +5 + A k +6 + A k +7

Tabla 1 Definicin de los vecinos del pixel (i,j), segn el algoritmo de Kirsch.

En (1), G(i,j) es el gradiente del pixel (i,j), los subndices de A son evaluados en modulo 8, y Ak (k = 0,1,...,7) son los ocho vecinos del pixel (i,j) definidos como muestra la Tabla 1.
.

Basndonos en este algoritmo, calculamos vectores o mapas de caractersticas en las cuatro direcciones, horizontal (H), vertical(V), diagonal derecha (D) y diagonal izquierda (I). De esta forma obtenemos 4 mapas o vectores de caractersticas locales del patrn original, para obtener otra caracterstica global lo que hacemos es incluir otro mapa con el patrn original sin aplicar ningn mtodo de gradiente, por tanto el conjunto de mapas de caractersticas esta formado por 5 patrones de tamao 16x16 (4 locales + 1 global). Figura 1. Como ltima etapa del preprocesado, lo que hacemos es una compresin de los patrones Kirsch 16x16 a 4x4, mediante un diezmado lineal, de esta forma reducimos mucho la dimensin del espacio de entrada por una potencia de 16, lo cual har factible el aprendizaje de la red neuronal, sin necesidad de obtener un numero muy elevado de patrones de entrada para el entrenamiento.

Normalizacin 16x16

Compresin 4x4

Imagen Original

Patrn Normalizado.

Patrn global.

Horizontal

Vertical

Diagonal derecha

Diagonal Izquierda

Fig. 1. Preprocesado: Normalizacin a tamao 16x16, extraccin de caractersticas de Kirsch ( 4 direcciones) y compresin a 4x4.

4. RED NEURONAL MULTICAPA


Uno de los objetivos buscados en las redes neuronales es la minimizacin del error cuadrtico medio (MSE) entre la salida actual de la red y la salida enseada. Esta minimizacin se lleva a cabo mediante un procedimiento de gradiente descendente donde se requiere el calculo del gradiente del MSE respecto a los pesos de los enlaces. Backpropagation [2] es un mtodo eficiente de calcular ese gradiente. En la red neuronal se ha de llegar a un compromiso en el numero de conexiones o pesos que la conforma. Si el numero de pesos se mantiene demasiado bajo, la red no llega a ser capaz de aprender el conjunto de entrenamiento; por otra parte, si ese numero de pesos es excesivo, los parmetros pueden causar sobreentrenamiento [2]. 4.1 ARQUITECTURA DE LA RED La arquitectura de la red neuronal utilizada se muestra en la Fig. 2 La capa de entrada consiste en cinco mapas de 4x4 unidades, 4 mapas correspondientes a caractersticas locales segn las 4 direcciones y el quinto mapa, guardando la caracterstica global del patrn de entrada. Cada uno de estos 5 mapas de entradas conforman grupos totalmente conectados a su correspondientes de la capa oculta, formando as 5 subredes independientes. En la capa de salida tenemos 10 unidades totalmente conectadas a todas las unidades de la capa oculta, cada unidad representa una clase de numero. Cuando se introduce un patrn que pertenece a la clase 'i' , la salida enseada ser +1 para la i-sima unidad de salida, y cero para el resto de las mismas. La red as diseada, consta de 170 unidades y un total de 2080 enlaces o parmetros independientes. Esta arquitectura de red, tiene la ventaja de permitir el reconocimiento de los patrones a pesar de que alguna de las subredes encuentre ambigedad o confusin en la clasificacin, ya que el resto de las subredes pueden contrarrestar su efecto y favorecer as, su clasificacin , esto es debido a que las subredes han sido inicializadas independientemente y entrenadas con diferentes mapas de caractersticas.
Fig. 2. Arquitectura de la red neuronal..

4.2 ENTRENAMIENTO DE LA RED Cada una de las subredes entre la capa de entrada y la capa oculta es inicializada con pesos aleatorios y entrenada con diferentes mapas de caractersticas, respectivamente. Todas las conexiones en la red son de tipo adaptativo, y son entrenadas con el algoritmo de retropropagacin o "Backpropagation". El coeficiente de aprendizaje que es el nico parmetro libre en el algoritmo de entrenamiento, es fijado antes del entrenamiento y no se varia posteriormente.

En la Figura 3 se observa que para el conjunto de validacin, se alcanza el mximo porcentaje de reconocimiento, 96.2% , sobre las 200 iteraciones , mantenindose prcticamente constante para mas iteraciones, por tanto, no hace falta un criterio de parada de entrenamiento que sea muy preciso, ya que el efecto de sobreentrenamiento es prcticamente nulo. Los errores cuadrticos medios (MSE) del test de aprendizaje y de validacin estn entorno a 0.01 y 0.07, respectivamente.
Fig. 3. Reconocimiento correcto frente al nmero de iteraciones.

5 RESULTADOS EXPERIMENTALES Y ANLISIS


Se han realizados diversos experimentos para determinar los parmetros que nos permitieran obtener los mejores resultados, en todos ellos, se entreno la red neuronal con un total de 9300 patrones diferentes, y de escritores distintos, el mtodo usado para validar los entrenamientos fue el siguiente: De toda la base de datos, se realizan 32 particiones, de las cuales se entrena la red con 31 y se valida con la restante, este mtodo de validacin cruzada se conoce como 'Leave one out' repitiendo el proceso, con todas las particiones se obtienen un total de 32 experimentos que promediamos para ver el reconocimiento estimado de la red. A la hora de evaluar los resultados hay que tener en cuenta que en determinadas aplicaciones es mejor permitir que el reconocedor rechace determinados patrones que le resulten dudosos ,si con ello se consigue mayor fiabilidad en el reconocimiento. Aplicando esta idea a la red entrenada, mediante un algoritmo que permita que la red rechace (no clasifique) un 9% de los patrones, se obtiene un error de sustitucin de slo el 1% de los patrones clasificados. La Tabla 2 muestra ejemplos de patrones que fueron clasificados correctamente a pesar de ser bastante distintos a cualquier patrn del entrenamiento, esto nos muestra el poder de generalizacin de la red frente a patrones nunca antes "vistos" por la red neuronal. La Tabla 3 muestra patrones que fueron clasificados incorrectamente.

1 9

4 9

4 1

7 3

4 9

7 2

5 1

3 5

4 9

5 6

Tabla 2. Patrones atpicos, clasificados correctamente.

Tabla 3. neuronal.

Patrones clasificados incorrectamente por la red

6. CONCLUSIONES FINALES
En este artculo se ha mostrado un esquema para el reconocimiento de dgitos escritos, usando una red neuronal multicapa y entrenada con el algoritmo Backpropagation. Los resultados finales obtenidos por el este reconocedor son de un error de clasificacin del 3.8% sin rechazo de patrones, y del 1% rechazando el 9% de los patrones de la entrada. Como lneas futuras de investigacin est la creacin de una segunda etapa clasificadora que intentara reconocer los patrones rechazados por la primera red,, as como tambin una precisa inicializacin ,mediante algoritmos genticos, sobre los pesos de la red neuronal.

REFERENCIAS:
[1] Seong-Whan Lee, Off-Line Recognition of totally unconstrained handwritten numerals using multilayer cluster neural networks, IEEE Trans. on P.A.M.I. Vol 18, Num. 6, Pag 648-652,1996. [2] Simon Haykin , Neural Networks. A Comprehensive Foundation. Pag. 179-181. 1994.

[3] Stefan Knerr, Leon Personnaz, Gerard Dreyfus,Handwritten Digit Recognition by Neural networks with Simgle-Layer Training, IEEE Trans. on Neural Networks Vol.3, Num. 6, Pag. 962-968. 1992. [4] W.K. Pratt, Dgital Image Processing. New York: Wiley,1978.

Vous aimerez peut-être aussi