Instituto Tecnológico de León

INSTITUTO TECNOLGICO de LEN
ANALISIS DE CARACTERISTICAS PRINCIPALES PARA EL RECONOCIMIENTO DE ROSTROS EN IMGENES BIDIMENSIONALES POR COMPUTADORA
TESIS Que para obtener el grado de: MAESTRO EN CIENCIAS EN CIENCIAS COMPUTACIONALES Presenta: Carlos Anguiano Guerrero Con la asesora de: M.C. Martha Alicia Rocha Snchez
Len, Guanajuato
Junio 2006
Agradecimientos
Agradezco a Jesucristo por indicarme verdades nuevas y darme la voluntad para conocerlas. A mis padres, Carlos y Luz Edith por su infinito apoyo. A mis hermanos Jess, Francisco y Deborah por estar Siempre conmigo. A mi asesora Martha Alicia, mis revisores y amigos que conspiraron para que este trabajo culminara. Y con placer presento esta tesis al Instituto Tecnolgico de len.
He visto un rostro con mil semblantes, y un rostro que no era sino un solo semblante, como si estuviera en un molde. He visto un rostro cuyo resplandor no ocultaba su fealdad interior, y un rostro cuyo resplandor esconda una belleza esplndida. He visto un rostro viejo con arrugas inexpresivas, y un rostro terso en el que todas las cosas haban dejado huella. Conozco los rostros porque miro a travs de la tela que mis propios ojos tejen, y busco la realidad que hay debajo.
Jalil Gibrn - Rostros
vi
Contenido
Sntesis Introduccin 1.1 Antecedentes del reconocimiento de rostros 1.2 Definicin del problema 1.3 Objetivo general de la investigacin 1.4 Objetivos especficos de la investigacin 1.5 Hiptesis de la tesis 1.6 Justificacin del proyecto 1.7 Producto final y delimitacin de la investigacin 1.8 Historia del reconocimiento de rostros 1.9 Organizacin del documento 1 2 3 10 10 11 11 12 12 13 15
Captulo dos. Fundamentos de la visin computacional 2.1 La Visin 2.2 La visin artificial 2.3 Diferencias entre la visin humana y la visin artificial 2.4 Procesamiento digital de imgenes 2.4.1 Imgenes digitales 2.4.1.1 Modelos de colores de imgenes digitales 2.4.2 Relacin entre matrices, vectores e imgenes en lenguajes de programacin 2.4.3 Formatos de imgenes 2.4.3.1 Formato BMP 2.4.3.2 Formato GIF 2.4.3.3 Formato JPEG 2.4.3.4 Formato TIFF 2.4.4 Histograma de una imagen 2.4.5 Distorsin de imgenes digitales 2.4.5.1 Teora de filtros 2.5 Mejoramiento de imgenes para la identificacin de rostros 2.5.1 Contraccin del histograma 2.5.2 Igualacin del histograma 2.5.3 Operador logartmico 2.5.4 Operador exponencial 2.6 Segmentacin de imgenes 2.7 Deteccin de objetos 2.7.1 Transformada de Hough 2.8 Aplicacin de la visin computacional 2.8.1 Redes Neuronales Artificiales (RNA)
17 18 19 20 21 22 24 26 33 34 34 34 35 35 36 36 40 41 42 48 51 52 56 56 57 59
Captulo tres. Proceso de identificacin de rostros en imgenes bidimensionales 3.1 Sistema completo para el reconocimiento de rostros
64 65
vii
3.2 Deteccin de rostros 3.3 Descripcin general del sistema para la identificacin de rostros 3.4 Algoritmo para el reconocimiento de rostros 3.5 Metodologa en el reconocimiento de rostros 3.6 Definicin de reglas para el reconocimiento 3.7 Mejoras al proceso de identificacin 66 69 72 74 85 88
Captulo cuatro. Resultados y Conclusiones 4.1 Microsoft Visual Basic 4.2 FaceRec.exe. Sistema de Reconocimiento de Rostros 4.3 Imgenes de rostros ORL 4.4 Pruebas de identificacin de rostros 4.5 Comparacin de resultados con otros estudios Conclusiones Trabajos futuros Bibliografa y referencias
92 93 94 100 111 128 129 131 133
Apndice A. Breve repaso de lgebra lineal A.1 Definiciones generales A.2 Espacio de vectores A.3 Vectores linealmente independientes A.4 Norma de vectores y propiedades A.5 Aspectos importantes de la ortogonalidad A.6 Procesos estocsticos A.6.1 Modelo de Leslie A.7 Clculo de los autovectores y autovalores de la matriz A.7.1 Clculo de los autovectores y autovalores de una matriz de n x n A.7.2 Mtodo de potencias A.8 Diagonalizacin ortogonal A.8 Proyecciones ortogonales A.9 Proceso de Gram-Schmidt A.10 Ortonormalizacin de Householder A.11 Resultados de los procesos de Householder, Gram Schmidt y la funciones Matlab orth, qr, inv y eig
136 137 149 150 152 155 156 163 167 170 171 181 182 185 190 194
Listado de figuras, ecuaciones, ejemplos, tablas y cdigos de programas Listado de figuras Listado de ecuaciones Listado de ejemplos Listado de tablas Listado de cdigo de programas Glosario de acrnimos
197 198 203 207 210 211 212
Sntesis
Se presenta una tesis para la identificacin de rostros humanos por imgenes bidimensionales y se describe un sistema de reconocimiento en un tiempo que no es real. La identificacin se realiza comparando las caractersticas principales del rostro con individuos conocidos. El enfoque trata el reconocimiento en imgenes con caras localizadas utilizando el hecho que son imgenes de naturaleza similar, por ser rostros claramente detectados. Las imgenes de los rostros se proyectan a un espacio conocido como Espacio de Rostros. El conjunto de imgenes se codifican segn por las variaciones de los rostros conocidos. El Espacio de Rostros son los autovectores del conjunto de imgenes que no necesariamente corresponden a rasgos aislados como los ojos, boca, nariz, etc. El sistema propuesto provee la capacidad de aprender y reconocer nuevas imgenes de rostros de naturaleza similar a un conjunto de imgenes que forman un espacio de autovectores conocidos como Espacio de Rostros con el cual el sistema puede identificar el individuo de manera no supervisada.
Captulo uno Introduccin
La conversacin enriquece la comprensin, pero la soledad es la escuela del genio. -Edward Gibson
1.1 Antecedentes del reconocimiento de rostros

En la imagen de un rostro de una persona estn presentes muchas caractersticas como por ejemplo: una cara, frente, orejas, tipo de calvicie o cabellera, pilosidad facial, (cejas, barba, bigote, patillas, etc.) ojos, nariz, labios, boca, arrugas o lneas faciales, tatuajes, acn, verrugas, lunares, pecas, cicatrices, papada, barbilla partida u hoyo en el mentn, maquillaje, diferentes accesorios como lentes, sombrero, aretes, etctera.
FG 1-1 Visin lateral de los rasgos externos de la cabeza.

(The visual dictionary of the human body. Dorling Kindersley Limited. UK 1991)
FG 1-2 Visin frontal de los elementos exteriores de la cabeza.

La presencia de algunas caractersticas y sus propiedades (forma, tamao, grosor, posicin, distancia entre los mismos, etc.) nos puede intuitivamente indicar genero de la persona, su edad, su raza, defectos congnitos, estado de animo, etctera.
FG 1-3 Msculos de la cabeza y del cuello.

La estructura que forma el rostro humano es tan compleja como fascinante (FG 1-3). Es el principal medio de por lo que las personas se expresan. Los huesos de la cabeza estn unidos en forma rgida en las suturas excepto en la articulacin temporomaxilar (temporomandibular) que es de tipo bisagra. Los huesos craneanos incluyen los huesos planos que contribuyen a formar la bveda que protege al cerebro. Los huesos angulares e irregulares, forman la estructura de la cara. La estructura de la nariz es, en su mayor parte, cartilaginosa. En el hombre, hay tres clases de msculos, los msculos esquelticos (tambin llamados como msculo voluntario porque puede ser controlado conscientemente), los msculos lisos (tambin llamados involuntarios ya que no est controlados por la voluntad) y el tejido especializado del msculo cardiaco. El ser humano tiene ms de 600 msculos esquelticos, que difieren en tamao y forma, dependiendo del papel que cumplan. Los msculos esquelticos estn unidos directa o indirectamente (a travs de tendones) a los huesos y trabajan en pares opuestos (un msculo en el par se contrae mientras el otro se relaja) para realizar movimientos diversos como gesticular una expresin facial [KINDERSLEY 1991]. Los msculos de la expresin facial (vase FG 1-3) generalmente se inician en hueso o cartlago y se insertan en la fascia superficial o en uno de los esfnteres musculares de la rbita (orbicular de los parpados) o de la boca (orbiculador de la boca). Estos son msculos muy finos y delicados sobre los cuales el sistema nervioso tiene un control muy preciso. Una simple expresin es el resultado del movimiento de muchos msculos.
a)
b)
c)
d)
e)
FG 1-4 Principales msculos de la expresin facial (FG 1-3). Corrugador superciliar a). Zigomtico mayor b). Orbicular de los labios c) Frontal d). Depresor angular de la boca e).
La boca es la estructura ms mvil de la cara, de ah que la mayora de los msculos faciales se inserten en el esfnter de sta. Estos msculos estn inervados en su mayora por el nervio facial; el dao que produce que los msculos del lado afectado se tornen flcidos y la piel se cuelgue, especialmente alrededor de los ojos y la boca, como si estuviera jalado hacia el lado contrario. Los msculos de la masticacin se insertan en la mandbula. La articulacin temporomandibular tipo bisagra permite movimientos de elevacin y depresin de la mandbula, as como una ligera protrusin y movimientos laterales. Slo el pterigoideo externo (va desde la extremidad inferior del temporal hasta la parte interna del cndilo de la mandbula) o lateral tiene una depresora de la mandbula, ya que es la gravedad la que tiene un papel ms importante en este movimiento. Se requiere ms energa para mantener la boca cerrada y eso es natural porque tiene una base anatmica. La importancia de poder reconocer a una persona y reconocerse a s mismo no es necesario aclararla. El Reconocer a una persona a pesar de cmo las caractersticas presentes en el individuo cambian; a medida que la persona envejece, los cuidados en el aspecto que tiene, es una tarea relativamente sencilla para los seres humanos, gracias a los millones de neuronas cerebrales que reciben la informacin de millones de clulas nerviosas de la retina. La visin es un sentido muy apreciado, a travs de l es posible obtener gran cantidad de informacin, para fundamentar mejor las decisiones tomadas. Las personas pueden determinar la relacin con los objetos, su forma, tamao, color, textura, y dems caractersticas, sin que necesariamente se tenga un contacto fsico. El ojo que con sus millones de clulas fotorreceptoras y neuronas que realizan millones de operaciones por segundo, para obtener una imagen fidedigna al cerebro, en donde se hacen juicios racionales de aquello. Este proceso se hace con relativa eficiencia y sencillez. Sin embargo, no siempre es sencillo, como en el caso de los gemelos, o cuando la persona se presenta con cambios drsticos, como maquillaje, un disfraz, ciruga plstica o alguna enfermedad o los efectos de algn accidente grave.
FG 1-5 Gemelos separados al nacer y se reencontraron a los 31 aos, con la sorpresa que trabajaban en lo mismo y tenan los mismos gustos.
(Enciclopedia Microsoft Encarta 2003)
Inclusive si el observador se encuentra en un entorno social distinto al acostumbrado, como lo sera para un mexicano al visitar China serle difcil distinguir a los chinos, por serle tan poco familiares tender a generalizar a las personas. Cuando esto ocurre, el inexperto observador, debe esforzarse encontrar rasgos ms distintivos, como la estatura, la complexin, voz y an hasta cualidades de personalidad. Tambin la percepcin que se tiene de una persona es influida por caractersticas extrnsecas. Entre las que se puede mencionar la contaminacin en el aire, iluminacin, distancia relativa en que se observa a la persona, la orientacin (perfil, frente, ladeado, de espalda, etc.) por decir algunas. No debe de omitir otros factores muy importantes como la calidad de visin del observador, como la miopa, astigmatismo, hemeralopa, etc. As como problemas psicopatologicos, como los transtornos somatoformes y los transtornos disociativos, etc. donde el individuo fsicamente puede ver pero no puede reconocer objetos. En efecto, el ser humano adems de ver requiere observar. Es decir que la informacin que recibe a travs sus sentidos tenga una congruencia con lo que entiende del mundo. Unas imgenes como las siguientes no son ajenas a controversias. Teniendo para cada persona significados diferentes. Aunque todas las personas pudieran ver lo mismo, pero observaran cosas muy diferentes. Unas personas observaran una mujer galante de perfil, otros una anciana encorvada (FG 1-6a). Tambin en (FG 1-6b) muchos pensaran que el lado a es menor al lado b, cuando en realidad tienen el mismo tamao.
a)
b)
FG 1-6 Diferencias de percepcin sobre una misma imagen.

Una misma realidad, como el rostro de una persona puede ser percibida de diferentes maneras como el mundo es concebido segn al conjunto de experiencias tiles. Por lo que el simple proceso de adquirir una imagen, para una computadora es su procesamiento. Sin embargo, la inteligencia involucrada en la misma imagen se llama en trminos computacionales como visin computacional. Pero reconocer a una persona a partir de una fotografa es ms difcil a las personas, se debe considerar el tipo de imagen, si la imagen posee ruido, como problemas de
iluminacin o si la imagen es borrosa, la posicin del rostro dentro de la imagen, orientacin, la escala, es decir, la distancia del rostro al objetivo de la cmara y dems factores relevantes. Como una fotografa solo representa al individuo en un momento, su reconocimiento no es sencillo si lo que el observador recuerda es muy diferente a lo que se esta observando. Si la tarea se debe de realizar por un ordenador el problema se complica ms. Las capacidades de los ordenadores actuales son mucho ms limitadas a las del cerebro humano. Los recursos son mucho menores y el aprendizaje requiere de complejos algoritmos. Sin embargo, las computadoras actuales son eficientes en procesos repetitivos y manipulacin de informacin. Entonces el inters en agregar a los sistemas computacionales convencionales el sentido de visin, consiste en aumentar la potencialidad de stos, as como apegarlos mas en actividades tan comunes que son para los humanos como el reconocimiento de rostros dentro de los limites que el silicn ofrece. Con la amplia disponibilidad de equipo computacional, tcnicas de procesamiento digital de imgenes, inteligencia artificial, visin robtica, el estudio de nuevos algoritmos sobre la clasificacin de patrones, son los esfuerzos encaminados a la visin artificial. Las redes neuronales artificiales o sistemas conexionistas son un conjunto de tcnicas matemticas inspiradas en la funcionalidad de las neuronas biolgicas, aplicadas para el reconocimiento de patrones, en donde se modelan las conexiones y relaciones entre el conjunto de datos obtenidos, para efectuar predicciones en sistemas tan complejos, entre ellos, claro, la visin computacional. Es un reto computacional implementar un sistema sobre algo que los seres humanos es sencillo de hacer, como es el reconocerse a s mismo, e identificarse como diferentes de otros, dentro de los limites tecnolgicos actuales. Lo importante es implementar un sistema de cmputo que permita extraer los rasgos principales en un rostro y segn sta informacin, analizarla y agruparla con otras imgenes similares de naturaleza similar, y tener una certidumbre para considerar estas imgenes como de una misma persona. El rostro es una de las partes ms importante en el ser humano, es el factor principal de influencia en las interacciones sociales. A ste le son universalmente asociadas emociones que se reflejan en las expresiones faciales, adems de constituir el elemento fundamental para la identidad de las personas. Las necesidades actuales en materia de seguridad, registro de personas han forzado la implementacin de sistemas de reconocimiento de rostros. En esta tesis se busca exponer al lector un sistema de reconocimiento de rostros utilizando la herramienta matemtica del Anlisis de Componentes Principales (Transformada de Hotelling) [GONZALO 2002]. Esta tcnica es ampliamente explicada en el captulo tres. El captulo dos y el apndice de esta tesis es para apoyar la explicacin del captulo tres. En el captulo dos, se busca ofrecer un entendimiento general del procesamiento de imgenes digitales y la visin
10
computacional. El apndice, es para que el lector tenga los conocimientos necesarios para entender los conceptos matemticos mencionados en el captulo tres. Este captulo, es una introduccin general de la tesis; se definen objetivos, hiptesis, justificacin del trabajo, mbito de la investigacin y cmo esta organizado el documento. Se ofrece un compendio de los esfuerzos de matemticos en el reconocimiento de rostros por computadora y el impacto que ha tenido en esta tesis.
1.2 Definicin del problema

La tarea de reconocimiento de rostros se puede encontrar en lugares donde se necesite tener un acceso restringido a una cierta rea, o en sistemas de identificacin de personas como los que son utilizados por la polica. De manera general, los sistemas de reconocimiento de rostros se pueden clasificar en dos categoras: 1. Cuando se quiere encontrar la identidad de una persona utilizando una base de datos. Este tipo de sistemas no es necesario hacer un reconocimiento en tiempo real. 2. Cuando se quiere identificar a una persona en tiempo real (por ejemplo, en un sistema de monitoreo de seguridad), o cuando se desea permitir el acceso nicamente a un grupo de personas. En este trabajo de investigacin tratar con los sistemas de la primera categora, es decir, los sistemas que no se ejecutan en tiempo real. La imagen bidimensional de un rostro ya detectado permitir establecer un grado de semejanza con otras imgenes de naturaleza similar para identificar a la persona con una incertidumbre mnima.
1.3 Objetivo general de la investigacin

El objetivo general de la investigacin es desarrollar un sistema experimental que use la tcnica como el Anlisis de Componentes Principales que permitan primeramente, describir las caractersticas principales del rostro, y despus identificarlos, para un sistema de clasificacin de personas. El reconocimiento de personas a travs de imgenes bidimensionales tendr un mnimo error (un 5% de tasa de error mxima).
11
1.4 Objetivos especficos de la investigacin

Un sistema de reconocimiento de rostros realizados por un ordenador debe considerar los siguientes aspectos. 1. La Adquisicin de la imagen: Que el ordenador pueda obtener una imagen a travs de diversos medios como una cmara digital escner. Que la imagen tomada sea de un rostro claramente detectado. 2. Un preprocesamiento de la imagen: Dado que las imgenes de los rostros regularmente son tomadas en momentos diferentes, esto trae como consecuencia que las distintas imgenes de una misma persona tengan variaciones en cuanto a la iluminacin, la orientacin, y el tamao del rostro. Por tal motivo, es necesario que la imagen sea preprocesada antes de que pueda ser utilizada en la aplicacin de algn mtodo de filtrado para mejorar la calidad de la imagen, mtodos como la ecualizacin del histograma son los ms recomendados. 3. La extraccin de caractersticas: La extraccin de caractersticas es una de las etapas de la cual depende en gran medida el buen desempeo del sistema de reconocimiento de rostros. El objetivo principal de esta etapa es extraer la informacin ms discriminante de un individuo, eliminando aquella que resulte irrelevante para el reconocimiento. Para esto se requiere una profunda comprensin de la herramienta matemtica del Anlisis de Componentes Principales. 4. Un entrenamiento: El entrenamiento bsicamente consiste en utilizar alguna forma de aprendizaje que le permita al sistema aprender los rostros que constituyen el Conjunto de Entrenamiento. 5. Un reconocimiento: El alimentar al sistema con imgenes de personas diferentes a las utilizadas durante el entrenamiento, esperando obtener como resultado, alguna forma de codificacin que permita identificar de que persona se trata. Se alcanzaran los objetivos mencionados dentro de sus limites existentes como el hardware, (poder de calculo del procesador, memoria, etc.) las capacidades algortmicas y de la plataforma de desarrollo.
1.5 Hiptesis de la tesis

Con el desarrollo de un algoritmo empleando el modelo de Anlisis de Componentes Principales ser posible en su aplicacin discriminar la imagen del rostro de un conjunto, con un error menor del 5% de reconocimiento. Las imgenes sern de rostros claramente detectados.
12
1.6 Justificacin del proyecto

La importancia del presente trabajo de tesis radica en la aplicacin tecnolgica de los conocimientos existentes de la visin computacional para el reconocimiento de rostros. A travs de un proceso algoritmo eficiente los sistemas computacionales actuales podrn identificar el rostro de los interesados y ofrecer la informacin pertinente, previamente almacenada; tenindose as sistemas inteligentes para el apoyo de muchas de actividades sociales, como son los sistemas de control de acceso, sistemas base de datos que contenga informacin sobre individuos, y dems sistemas en donde requiera una interfaz hombre mquina natural y eficiente [TURK Y PENTLAND 1991].
1.7 Producto final y delimitacin de la investigacin

Un sistema completo de reconocimiento de rostros involucra varias etapas en donde cada una de ella representa diferentes grados de complejidad y requieran ser tratadas con las mejores tcnicas matemticas y herramientas que ofrecen los sistemas de cmputo. En la primera etapa radica la captura de la imagen. En esta etapa los medios son tan variados que van desde la tomografa acstica, tcnica de representacin de imgenes por el sonido reflejado hasta la imagen de visin nocturna. Las imgenes pueden ser de dos ms dimensiones (holograma imagen de resonancia magntica). Dependiendo de la aplicacin que se tenga pensando hacer se escoger el medio. En esta tesis se tratar del reconocimiento de rostros con lo ms convencional. Una imagen digital de dos dimensiones de la persona. Para simplificar el proceso se han pensado en imgenes que se indique solo la iluminacin (imagen en tono de grises). Las imgenes que se analizarn tendrn una naturaleza similar. Un sistema de reconocimiento de rostros necesitar un proceso de deteccin y localizacin (encuadre) si en la imagen est presente ms de una persona. El sistema de reconocimiento que se desarrolle tratar de imgenes que no requieran de estas tareas, se tomaran las imgenes como estn, aplicndoles solo el filtro de ecualizacin del histograma para mejorar el contraste. Pero an si la imagen no necesita de un proceso de deteccin y encuadre de rostros, la carga de cmputo crece a medida que las imgenes son de mayores dimensiones. No es la misma carga de cmputo identificar a una persona en una fotografa de 20 cm. 15 cm. que en una de un tamao de 2.5 cm. 3.0 cm. el sistema de reconocimiento que se desarrolle tender hacia estas ultimas, con dimensiones de 2.42 cm. 2.95 cm. Ahora, por el tiempo en que se espera que el sistema de una resolucin si una persona es o no es miembro de un grupo, se podr definir la herramienta matemtica, el equipo de cmputo necesario y lenguaje de programacin. Es muy diferente un sistema reconocimiento de rostros en tiempo real como un video al sistema de reconocimiento en
13
una imagen. El factor del tiempo de respuesta esperada no es prioritario, un sistema de cmputo como una IBM PC Pentium de 200 Mhz con 64 Megabytes de memoria ser mas que suficiente, as como un lenguaje de programacin como Microsoft Visual Basic permitir crear el sistema. Lo importante es el sistema de reconocimiento en s y exponer el conocimiento que condujo al desarrollo del mismo, para que el lector lo implemente en otros equipos y plataformas de desarrollo para que compare los resultados obtenidos con lo de esta tesis. Existen diferentes herramientas matemticas para reconocer rostros. Para un sistema reconocimiento de imgenes bidimensionales de rostros localizados se emplear herramienta matemtica del Anlisis de Componentes Principales (Transformada Hotelling) [TURK y PENTLAND 1991]. El mtodo, la implementacin y resultados el reconocimiento de rostros con esta herramienta son mostrados en esta tesis. de la de en
1.8 Historia del reconocimiento de rostros

No obstante el hecho de que existen mtodos de identificacin de personas ms precisos (como las huellas digitales, o el iris) el reconocimiento de rostros permanece como el foco principal de atencin en investigaciones porque su naturaleza no invasiva y porque el principal mtodo que las personas usan para identificarse es su cara. En los albores de la visin por computadora y el procesamiento de imgenes, ha habido una gran cantidad de trabajo dedicado a la deteccin de rostros humanos por medio de computadora. En la actualidad hay muchos trabajos dedicados a la deteccin de rostros. Un simple detector de rostros como uno que provee segmentacin de color puede de hecho distinguir rostros de imgenes que no son de rostros, pero sera incapaz de distinguir un rostro de otro. El buscar las caractersticas consistentes entre modelos de rostros puede ser considerado como un mtodo potencial para la identificacin de rostros. Pero es posible que el primer sistema ms conocido de reconocimiento de rostros sea de Kohonen, [KOHONEN 1982] quien demostr que una red neuronal sencilla podra realizar reconocimiento de rostros de imgenes alineadas y normalizadas. El tipo de red que emple, comput los rasgos buscando la proximidad los autovectores de la matriz de autocorrelacin de imgenes de rostros; estos autovectores son ahora conocidos como autocaras (eigenfaces en ingls). El sistema Kohonen no tuvo un xito en la practica, sin embargo, por la necesidad para precisar la normalizacin y alineacin, muchos investigadores trataron los esquemas de reconocimiento de rostros basndose en bordes, distancias entre los rasgos y otras redes neuronales. Mientras muchos sistemas fueron exitosos en bases de datos pequeas de imgenes alineadas, ningn sistema fue exitoso en problemas mas realistas, en grandes bases de datos donde la localizacin y escala de un rostro es desconocida.
14
Kirby y Sirovich [KIRBY y SIROVICH 1990] introdujeron una manipulacin algebraica que hicieron sencillo directamente calcular las autocaras. Turk y Pentland [TURK y PENTLAND 1991] demostraron que el error residual en la codificacin usando autocaras, podra ser usadas tanto para detectar rostros como agrupar imgenes y determinar la localizacin precisa de una imagen. Entonces se demostr que al incorporar este mtodo para detectar y localizar rostros con el mtodo de reconocimiento de autocaras, se podran lograr un reconocimiento en un tiempo real de rostros con un mnimo de requerimientos. Esta demostracin, tcnicas de reconocimiento de patrones en tiempo real pudieron combinarse para crear sistemas tiles, esto fue la chispa que inici la explosin del inters en el tpico de reconocimiento de rostros. Hace casi una dcada que el Anlisis de Componentes Principales (ACP) se ha convertido en una herramienta popular para encontrar la coincidencia entre imgenes. En esencia el ACP busca encontrar los Componentes Principales, tambin conocidos como Vectores Caractersticos. Por lo tanto, desde que se public el trabajo de Turk y Pentland sobre autocaras ha sido muy popular y fcilmente implementado como esquema de identificacin. En 1993 la Agencia para Proyectos de Investigacin Avanzados para la Defensa de los EE.UU. DARPA (Defense Advanced Research Projects Agency) y laboratorios de investigacin del ejercito norteamericano establecieron el proyecto FERET. Investigaciones conjuntas entre universidades y el ejrcito busca tener tasas de rendimiento altas con grandes bases de datos. [PHILLIPS 1993 et al]. En 1997 proyecto FERET empieza a dar resultados. Surgen algoritmos de alto rendimiento y que soportan grandes conjuntos de entrenamiento (al menos 1196 personas) en condiciones variables. Los miembros del proyecto FERET, la Universidad del Sur de California (USC), [WISKOTT 1997 et al] la Universidad de Maryland (UMD) [ETEMAD Y CHELLAPPA 1997] y el Laboratorio de Multimedios del Instituto Tecnolgico de Massachussets (MIT) [MOGHADDAM y PENTLAND 1997] y la Universidad de Rockefeller [PENEY y ATICK 1996] ofrecen soluciones. Los algoritmos del MIT, UMD y la Universidad de Rockefeller usan una versin de la transformada de autocaras con un modelo descriminativo. El algoritmo de UMD usa una discriminacin lineal mientras el sistema de MIT usa discriminantes cuadraticas. Mientras la Universidad de Rockefeller usaron un descriminante de una rede neuronal. El sistema de USC usa la transformada de Gabor. Todos los algoritmos desarrollados en el proyecto FERET funcionaron con un desempeo mayor al 95% en bases de 200 personas. Para bases de datos grandes (no menores de 1166 imgenes en la base de datos) los desempeos fueron similares. Con imgenes tomadas con diferentes condiciones de luz y cmaras alcanzaron los algoritmos un desempeo cercano al 80%. Y para reconocimiento de imgenes de personas tomadas un ao despus los rendimientos de los algoritmos estuvieron alrededor del 50%.
15
Con los atentados del 11 de septiembre del 2001, el proyecto FERET cobra importancia y se le asignan recursos adicionales, permitiendo la operacin del sistema de clasificacin de inmigrantes en el 2003. Todava investigaciones adicionales en reconocimiento de rostros estn siendo conducidas con nuevos informes e ideas surgen constantemente. Por lo tanto, el reconocimiento de rostros est y seguir siendo investigado con un gran potencial en el futuro.
1.9 Organizacin del documento

En esta tesis se busca explicar como un sistema de reconocimiento de rostros puede operar usando la tcnica matemtica de Anlisis de Componentes Principales eigenfaces [TURK y PENTLAND 1991]. En el captulo dos, Visin Computacional, se empezar una discusin de lo que es el procesamiento digital de imgenes y sus aplicaciones para que el lector ubique el reconocimiento de rostros dentro del campo de las ciencias computacionales. En el captulo se describir la manipulacin de imgenes con objeto de producir imgenes que permita mejor extraer la informacin deseada. Se explicar lo que es la visin computacional y el lector podr entender como se vinculan las herramientas matemticas empleadas en la metodologa de desarrollo con las ciencias computacionales. Por ser un tema tan extenso se tratarn solo aquellos filtros que sean tiles para el Anlisis de Componentes Principales. El captulo tres, Proceso de Identificacin de Rostros en Imgenes Bidimensionales, es el captulo ms importante de la tesis exponiendo la metodologa de desarrollo. El captulo expone en forma detallada el mtodo para la identificacin de una persona entre un conjunto de imgenes de rostros. Se menciona en detalle el Anlisis de Componentes Principales. [TURK y PENTLAND 1991] y cmo se aplica en el reconocimiento de rostros por ejemplos. Exhaustivamente se explicar la metodologa de desarrollo, pero para no perder la ilacin del tema se ha agregado un apndice. El propsito de ste apndice es dar un contexto general, que sea suficiente para el entendimiento de los trminos de lgebra lineal que se mencionan principalmente en el captulo dos. Trminos como vector, matriz, autovector, ortonormalizacin, distancia euclidiana, etc. Se explican en detalle. Si el lector desconoce estos conceptos se recomienda leer ste apndice. Los resultados del proceso de identificacin fueron obtenidos por el Sistema de Reconocimiento de Rostros codificado para la validacin de la hiptesis son mostrados en el ltimo captulo.
16
Para entender mejor esta tesis, las figuras imgenes, la aplicacin de las ecuaciones, el cdigo de programacin, tablas y las ecuaciones se enumeran de la siguiente manera: Con FG se esta indicando que el elemento es una imagen o figura. Con EJ se es diciendo que el elemento es un ejemplo de la aplicacin de alguna ecuacin. Esto es para mostrar mejor cmo opera una frmula o una herramienta matemtica en un caso tpico. Con CD es para enumerar el cdigo de programas muestra. Con TB es para enumerar tablas de datos. Con EC es para listar las ecuaciones. Cada figura, ejemplo y ecuacin esta enumerada en orden de captulo y nmero consecutivo en el captulo que lo contiene. Al final de la tesis esta un listado de todos estos elementos. En el caso de las figuras se menciona la fuente de donde procede, en caso de que se omite la fuente, se trata de una imagen tomada o la figura fue realizada por el autor de la tesis. Los temas se enumeran en captulos y nmero de tema. Cuando es un subtema o una parte de un tema general se sealara con una enumeracin agregada.
Captulo dos Fundamentos de la visin computacional
Las ideas matemticas tienen su origen en el mundo emprico... Sin embargo, una vez han sido concebidas, esas ideas adquieren una peculiar vida propia y son ms comparables con el mbito creativo, gobernado casi totalmente por motivaciones estticas... A medida que una disciplina matemtica se difunde, o despus de mucha endogamia abstracta, corre peligro de degenerar... Cuando se alcanza ese estadio, me parece que no cabe otro remedio que regresar a las fuentes en busca de regeneracin, es decir, volver a inyectar ideas ms o menos directamente empricas. -John Von Newman
18
Capitulo 2. Fundamentos de la visin computacional

En este capitulo se explicar lo que es la visin computacional, empezando de lo que se entiende por visin. De la visin computacional se subdividir el tema en dos partes lo que es el procesamiento digital de imgenes y la aplicacin de la visin computacional, es decir la interpretacin de las mismas imgenes. Del procesamiento digital de imgenes, se explicar que se entiende por una imagen en trminos computacionales. Para un mejor entendimiento de los captulos subsecuentes de esta tesis, se establecer un puente entre el lgebra lineal y las imgenes y su manipulacin de estas para obtener la informacin deseada, como algoritmos para aumentar la calidad de una imagen, sin degradar los detalles presentes para facilitar la identificacin. De la aplicacin de la visin computacional, que es un tema ms extenso, se ofrecer una explicacin general.
2.1 La Visin
El ojo es el rgano de la visin en los seres humanos y en los animales. Los ojos de las diferentes especies varan desde las estructuras ms simples, capaces de diferenciar slo entre la luz y la oscuridad, hasta los rganos complejos que presentan los seres humanos y otros mamferos, que pueden distinguir variaciones muy pequeas de forma, color, luminosidad y distancia. En realidad, el rgano que efecta el proceso de la visin es el cerebro; la funcin del ojo es traducir las vibraciones electromagnticas de la luz en un determinado tipo de impulsos nerviosos que se transmiten al cerebro. La visin es la facultad por la cual a travs del ojo se percibe el mundo exterior. Muchos organismos simples tienen receptores luminosos capaces de reaccionar ante determinados movimientos y sombras, pero la verdadera visin supone la formacin de imgenes en el cerebro. Los ojos de los distintos organismos proporcionan imgenes de diversa claridad. La visin est relacionada en especial con la percepcin del color, la forma, la distancia y las imgenes en tres dimensiones. En primer lugar, las ondas luminosas inciden sobre la retina del ojo, pero si estas ondas son superiores o inferiores a determinados lmites no producen impresin visual. El color depende, en parte, de la longitud o longitudes de onda de las ondas luminosas incidentes, que pueden ser simples o compuestas, y en parte del estado del propio ojo, como ocurre en el daltonismo. La luminosidad aparente de un objeto depende de la amplitud de las ondas luminosas que pasan de l al ojo, y las pequeas diferencias de luminosidad perceptibles siempre guardan una relacin casi constante con la intensidad total del objeto iluminado. Los seres humanos y otros animales son capaces de enfocar los dos ojos sobre un objeto, lo que permite una visin estereoscpica, fundamental para percibir la profundidad. El principio de la visin estereoscpica puede describirse como un proceso visual relacionado con el uso de un estereoscopio, el cual muestra una imagen desde dos ngulos ligeramente diferentes, que los ojos funden en una imagen tridimensional nica.
19
La visin en los seres humanos es estereoscpica porque la informacin recabada se basa en la determinacin de la diferencia de distancia de las proyecciones (disparidad) de un punto en un objeto bajo medicin en el plano focal en que los dos ojos calculan la distancia d&i (FG 2-1) con respecto al plano de observacin SS. El problema siempre ser la localizacin de los puntos proyectados en cada una de los ojos (puntos conjugados) correspondientes a un punto en el espacio tridimensional. Para resolver este problema se requiere que el cerebro realice una correlacin que a las personas les resulta muy natural.
FG 2-1 Visin estereoscpica.

La perspectiva lineal es el sistema de representacin que ms se asemeja a la visin humana. La perspectiva, es un mtodo grfico capaz de representar el espacio tridimensional sobre una superficie plana. Existe una gran cantidad de tipologas perspectivas, derivadas de los distintos sistemas proyectivos que permite la geometra. Entre las ms usuales destacan la perspectiva caballera, sistema cilndrico oblicuo, la perspectiva axonomtrica, sistema cilndrico ortogonal, y, sobre todo, la perspectiva lineal, tambin llamada cnica porque se genera a partir de una proyeccin cnica. Una de las leyes fundamentales de la perspectiva lineal es la de que las rectas paralelas se representan como convergentes: las vas del tren, que parece que se acercan a medida que se pierden en la distancia. Los elementos ms importantes de este tipo de perspectiva son el plano del cuadro (la superficie de representacin), la lnea del horizonte, situada a la altura del punto de vista (los ojos del espectador), y los diferentes puntos de fuga, donde convergen, sobre la lnea del horizonte, las rectas horizontales ms importantes de la figura.
2.2 La visin artificial

La visin es uno de los mecanismos sensoriales de percepcin ms importantes en el ser humano aunque no es exclusivo. El intento de dotar a las mquinas de un sistema de visin aparece el concepto de visin artificial. La visin artificial es una tarea ms difcil a comparacin de lo que pueden lograr las personas, sus aplicaciones cada vez son mas
20
demandadas en todos los campos del desarrollo humano. La visin artificial involucra tres procesos, procesamiento de la imagen, anlisis de imgenes y aplicaciones. El procesamiento implica la manipulacin de las imgenes vistas como seales digitales, para extraer la informacin deseada. Los mtodos de procesamiento de imgenes digitales se fundamenta en dos reas principales de aplicacin: a) mejora de la calidad para la interpretacin humana; b) procesamiento de los datos de la escena para la percepcin de las mquinas de forma autnoma. El anlisis se encamina a determinar ciertas estructuras elementales tales como contornos o regiones as como las relaciones entre ellas. Finalmente las aplicaciones tratan de dar solucin a los problemas relacionados con ciertas situaciones del mundo real, a saber: reconocimiento, movimiento, reconstruccin 3-D, etc.
Cuando la visin artificial es estereoscpica, la informacin se recaba de manera similar a como lo hacen la mayora de los seres vivos. Por ejemplo, el estereoscopio es un instrumento ptico usado desde el siglo XIX para observar fotografas de objetos, pero no como representaciones planas, sino con apariencia slida y profundidad para simular la visin estereoscpica. El estereoscopio es un instrumento donde se presentan al mismo tiempo dos fotografas del mismo objeto, una a cada ojo apareciendo este objeto en una sola imagen tridimensional (estereograma). Las dos fotografas estn tomadas desde ngulos ligeramente diferentes y se observan a travs de dos objetivos con lentes separadas e inclinadas para que coincidan y se fundan las dos imgenes en una tridimensional. La fotografa estereoscpica area permite realizar representaciones en tres dimensiones que pueden utilizarse en la preparacin de mapas de relieve muy utilizado para el reconocimiento areo.
2.3 Diferencias entre la visin humana y la visin artificial

Los sistemas computacionales actuales aunque su capacidad, precisin y velocidad resulten impresionantes, son an lentos y escasos si las comparamos con la inteligencia como la de un perro que es capaz de reconocer a su amo en milsimas de segundo. La tarea del reconocimiento para una persona involucra aproximadamente diez trillones de operaciones por segundo esto no es alcanzado aun por ningn sistema. Sin embargo, tecnologas futuras como la nanotecnologa, los sistemas digitales-biologicos o la computacin quntica pretender reducir esta brecha. Por esto se debe mejorar mucho los algoritmos para poder emular los las capacidades humanas en los sistemas de cmputo dentro de los limites establecidos hasta el momento.
21
Visin Humana
Flexibilidad Habilidad Muy adaptable y flexible en las tareas de visin . Puede ser relativamente preciso. Estima de manera subjetiva. Ejemplo: Detectar fruta mala basada por su color, textura, forma y olor. Subjetivo en color.
Visin computacional
Rgido en la tarea. Requiere cuantificar datos (pxeles) Puede hacer mediciones de dimensiones basndose en entrada de datos predeterminados, basado en el conteo de pxeles.
Color Sensibilidad
Respuesta
2-D y 3-D
Salida de datos
Percepcin Espectro
Medicin de la magnitud de los parmetros cromticos (RGB). Adaptacin en las diferentes condiciones Sensitivo al nivel y frecuencia de de iluminacin, caractersticas fsicas en iluminacin tambin como la naturaleza detalles de la superficie y distancia al fsica de la superficie y distancia al objeto. objeto. Habilidad para cuantificar es relativamente Limitacin en la habilidad a distinguir entre grande y ajustado por el sensor, las tonalidades de gris. Vara en funcin del caractersticas del entorno y del sistema. individuo as como del tiempo, se pueden Puede identificar fcilmente 256 niveles de identificar de 7 a 10 niveles de gris. gris. Velocidad en un orden de 0.1 de segundo. La velocidad de la respuesta depende del sistema computacional y el tipo de problema, usando las mejores tcnicas y hardware. Pueden manejar operaciones 3-D y Puede manejar operaciones 2-D fcilmente longitudes de onda mltiples (longitudes de pero limitada en tareas en 3-D. En onda de color) fcilmente. operaciones 3-D se requieren dos cmaras y es ms lento. Puede manualmente suministrar a un Puede automticamente suministrar datos sistema una descripcin de lo observado. discretos de entrada precisos al sistema El tiempo es mucho y muy impreciso. continuamente. Con costos al sistema variables. Percibe iluminacin en escala logartmica. Puede percibir la iluminacin en ya sea una Se afecta la percepcin por el rea escala lineal o logartmica. circundante. Limitado a un espectro visual de 300 a 700 Con la tecnologa adecuada puede hacer milimicrones. mediciones en todo el espectro visual.
TB 2-1 Diferencias entre visin humana y visin computacional

(Encyclopaedia Britannica 2003 Ultimate Referente CDs)
2.4 Procesamiento digital de imgenes

El procesamiento digital de imgenes, es una disciplina que desarrolla las bases tericas y algortmicas mediante las cuales pueda extraerse informacin del mundo real, de manera automtica a partir de una imagen observada, de un conjunto de imgenes o de una secuencia. Tal informacin pudiera relacionarse con el reconocimiento de objetos genricos, descripciones tridimensionales del mismo, posicin y orientacin del objetos o la medicin de cualquier propiedad espacial tal como la distancia entre dos puntos bien definidos o la seccin transversal del objeto.
22
El espectro de aplicaciones es bastante amplio e incluye desde las aplicaciones industriales, imgenes areas y medicas. Por herramientas fundamentales que incluyen el preprocesamiento de la imagen, deteccin de contornos y segmentacin, as como el estudio del movimiento en una secuencia de imgenes. El uso de la computacin en diferentes dominios, ha permitido sofisticar la naturaleza del procesamiento de las imgenes, con el propsito de extraer al mximo, cualquier informacin disponible en las mismas que pueda ser de utilidad como herramienta. El estudio de tcnicas avanzadas de procesamiento digital de imgenes representa un prerrequisito importante con el motivo de desarrollar cualquier investigacin en esta rea, que pueda ser significativa dentro de un contexto global. El inters por mtodos por el procesamiento digital de imgenes se deriva en dos reas principales de aplicacin: Mejoramiento de la informacin grfica para una interpretacin humana; y procesamiento de la imagen para que pueda almacenarse, transmitirse, y representarse de forma autnoma en los equipos. El objetivo principal en explicar este tema es establecer un puente entre las imgenes digitales y el lgebra lineal y la manipulacin para la extraccin de datos relevantes.
2.4.1 Imgenes digitales

Las imgenes digitales son un conjunto secuencial de bits que representa, en la memoria, una imagen que puede visualizarse en la pantalla, especialmente en los sistemas que disponen de interfaz grfica de usuario. La configuracin de ceros y unos en la imagen de bits determina la configuracin de los puntos en los colores que forman una imagen en la pantalla. Un pxel, en informtica, es la abreviatura fontica del concepto ingls picture element. Se trata de un punto en una rejilla rectilnea de miles de puntos tratados individualmente, para formar una imagen en la pantalla de la computadora. Al igual que un bit es la unidad de informacin ms pequea que puede procesar una computadora, un pxel es el elemento ms pequeo que el hardware y el software de pantalla que se puede manipular para crear grficos. Una imagen se puede representar con ms de dos colores. Si un pxel puede slo tener dos valores de color, se puede codificar con un solo bit de informacin, un bit de valor de uno para un pxel de color blanco o un bit con valor de cero para un pxel de color negro. Cuando se utilizan ms de dos bits para representar un pxel, es posible representar un rango mayor de colores y niveles de gris. Con dos bits se representan cuatro colores o niveles de gris, con cuatro bits se representan diecisis colores, y as sucesivamente. Es decir con 2n bits se pueden representar n colores diferentes.
23
100111001001111010001101
FG 2-2 Formacin de imgenes con pxeles. La resolucin de bit, mide la cantidad de informacin de color disponible para cada pxel de una imagen. Cuanto mayor sea la profundidad de pxel en una imagen (ms bits de informacin por pxel) ms colores habr disponibles y ms exacta ser la representacin del color en la imagen digital. Una imagen a escala de grises es una serie progresiva de tonos que van desde el negro al blanco. El nmero de niveles de gris depende del nmero de bits que se usen para describir el color de cada pxel (punto) de la imagen. El uso de n bits por pxel permite 2n niveles de gris. A medida que aumenta el nmero de bits de codificacin, aumentan los requisitos de almacenamiento. Lo ms comn es 8 bits de codificacin para imgenes en escala de grises. Por lo tanto, es necesario equilibrar la resolucin y la capacidad de almacenamiento requerida por la imagen para que sta sea de buena calidad sin desaprovechar la memoria.
24
a)
b)
c) FG 2-3 Imagen de la mariposa isabelina espaola en diferentes resoluciones. 1 bit, a) 8 bits a escala de grises, b) 8 bits a escala de color c) y 24 bits a escala de color d).
(Enciclopedia Microsoft Encarta 2003. foto d) WHM Bildarchiv/Peter Arnold, Inc. y foto f) por Takahashi, Kenji )
d)
2.4.1.1 Modelos de colores de imgenes digitales

Las computadoras almacenan y manipulan colores segn el modelo empleado. Si se usa un byte de memoria para almacenar los valores de cada uno de los colores rojo, verde y azul, pueden representarse una imagen con ms de 16 millones de combinaciones cromticas. Adems de determinar el nmero de colores que puede representar una imagen, los modelos de color afectan al nmero de canales y al tamao de archivo de una imagen. Los canales son lo que permite representar la informacin de los elementos de color de la imagen. En general, al aumentar el nmero de colores o canales en una imagen, tambin aumenta el tamao de la misma.
25
Mapas de bits: Las imgenes con mapas de bits estn hechas de un bit de color (blanco o negro) por pxel, y necesitan un espacio mnimo en el disco. Escala de grises: Las imgenes en escala de grises estn compuestas generalmente de 8 bits de informacin por pxel y usan 256 variaciones de gris para simular gradaciones en color. Aunque es posible aadir canales nuevos a una imagen en escala de grises. Color RVA: Con este modelo, cada pxel necesita 24 bits de informacin. Con 8 bits son para representar los 256 niveles de intensidad de color por canal, siendo tres, el canal de rojo, el canal de verde y por ltimo el canal de azul. Las imgenes RVA (RGB en ingls) se componen de estos tres canales para presentar imgenes con hasta 16,7 millones de colores en pantalla. Color CMAN: se basa en las propiedades de absorcin de luz de la tinta impresa en papel. Las imgenes CMAN estn formadas por los cuatro colores, Cyan (azul verdoso) Magenta, Amarillo y Negro. Con estos cuatro canales se pueden representar hasta 232 colores. Reservando cada canal con 8 bits. El modelo de color L*a*b se basa en el modelo original de color propuesto por la Commission Internationale dEclairage (CIE) en 1931 como estndar de medida para el color. El modelo L*a*b soluciona el problema de la variabilidad de la reproduccin del color que se produce al emplear monitores o dispositivos de impresin diferentes. El componente de luminosidad (L) oscila entre 0 y 100. El componente a (eje verde-rojo) y el componente b (eje azul-amarillo) pueden estar comprendidos entre +120 y 120. El modelo HSI se basa en la percepcin humana del color. En este modelo, todos los colores se describen segn caractersticas fundamentales como tono(H), saturacin(S) y brillo(I). El modelo YIQ se usa en la TV comercial y fue diseado para obtener la ventaja del sistema visual humano, que es ms sensible a cambios en la reflectancia que a los cambios en el matiz o saturacin. La principal ventaja es que la reflectancia (Y) y la informacin del color (I y Q) se pueden tratar por separado. Se recordar que la reflectancia es proporcional a la cantidad de luz que puede percibir el ojo humano. Por lo tanto, la importancia de esta separacin es que la reflectancia puede ser procesada sin afectar a su contenido del color. Para la obtencin de los valores YIQ, se pueden emplear los valores RVA y aplicar estos valores en la siguiente ecuacin:
26
0.114 R Y 0.299 0.587 I = 0.596 0.275 0.321 V Q 0.212 0.523 0.311 A
EC 2-1 Ecuacin para la conversin entre modelo RVA a YIQ. Con 0.299R + 0.587V + 0.114A se obtiene la reflectancia, til si se quiere mostrar solo la iluminacin (escala de grises)
2.4.2 Relacin entre matrices, vectores e imgenes en lenguajes de programacin

En la visin artificial una imagen es considerada como una matriz o vector, esto es dependiendo del lenguaje de programacin empleado. El lenguaje de programacin Java de Sun Microsystems, Inc trata las imgenes como vectores. En contraparte, Visual Basic de Microsoft considera a las imgenes como una matriz. Una de las herramientas de programacin ms populares es Visual Basic, comercializada por Microsoft para desarrollos de aplicaciones en entornos Windows. Microsoft Visual Basic proporciona un juego completo de herramientas que facilitan el desarrollo rpido de aplicaciones. Visual Basic proporciona varios tipos de datos numricos: Integer (entero), Long (entero largo), Single (signo flotante de simple precisin), Double (signo flotante de doble precisin) y Currency (para calculos monetarios). Las variables Long se almacenan como nmeros con signo de 32 bits (4 bytes) con un valor comprendido entre -2.147.483.648 y +2.147.483.647. El mtodo point devuelve en Visual Basic un valor de tipo Long el color rojo-verde-azul (RVA) de un pxel especificado en coordenadas como x columnas, y renglones dentro de un objeto Form o un control PictureBox. Al contrario, la funcin pset establece a un pxel un color especificado segn los valores enteros de rojo, verde y azul dentro de un objeto Form o PictureBox. Un control PictureBox puede mostrar un grfico a partir de una imagen, que puede ser cargada con el mtodo LoadPicture. Como en Visual Basic el color de un pxel se registra como un dato tipo long, opera las imgenes en modelo RVA y el siguiente es el formato de cada pxel (FG 2-4)
Long
31 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
FG 2-4 Formato de un pxel usando Visual Basic con los alfa, azul, verde y rojo y sus posiciones de inicio. La funcin RGB devuelve un nmero entero tipo Long que representa un valor de color RVA. y su sintaxis es RGB(rojo, verde, azul). Mismo valor puede usarse para
27
establecer el color de un pxel en objeto como PictureBox. El canal alfa se usa para la transparencia del pxel y ese canal no se usa. El siguiente cdigo esta escrito en Visual Basic versin 6. El programa convierte una imagen de colores a escala de grises. Clase
Form PictureBox CommandButton
Objetos
Form1 PictureBox1, PictureBox2 CommandButton1
Dim pixels() As Long Dim ImgWidth, ImgHeight As Integer Private Sub Form_Load() '&HE4B99C = RGB(156,185,228) Form1.BackColor = &HE4B99C Form1.Caption = "Grey scale" PictureBox1.ScaleMode = vbPixels PictureBox2.ScaleMode = vbPixels PictureBox1.Picture = LoadPicture("C:\FLOR.JPG") ImgWidth = PictureBox1.ScaleWidth ImgHeight = PictureBox1.ScaleHeight ReDim pixels(ImgWidth, ImgHeight) End Sub Public Function BlueColor(colorvalue As Long) As Integer Dim Blue As Integer 'Hex(16711680) = FF0000 'Hex(65536) = 010000 Blue = CInt((colorvalue And 16711680) / 65536) BlueColor = Blue End Function Public Function GreenColor(colorvalue As Long) As Integer Dim Green As Integer 'Hex(65280) = 00FF00 'Hex(256) = 000100 Green = CInt((colorvalue And 65280) / 256) GreenColor = Green End Function Public Function RedColor(colorvalue As Long) As Integer Dim Red As Integer 'Hex(255) = 0000FF 'Hex(1) = 000001 Red = CInt((colorvalue And 255) / 1) RedColor = Red End Function Public Sub ReadImage() Dim x As Integer Dim y As Integer Dim RGBval As Long
28
Dim value As Byte For x = 0 To ImgWidth - 1 For y = 0 To ImgHeight - 1 'Leer el color de un pixel pixels(x, y) = PictureBox1.Point(x, y) Next y Next x End Sub Public Sub ConvertGreyScale() Dim x As Integer Dim y As Integer Dim GreyValue As Integer For x = 0 To ImgWidth - 1 For y = 0 To ImgHeight - 1 GreyValue = CInt(Round( _ (RedColor(pixels(x, y)) * 0.299) + _ (GreenColor(pixels(x, y)) * 0.587) + _ (BlueColor(pixels(x, y)) * 0.114) )) pixels(x, y) = RGB(GreyValue, GreyValue, GreyValue) Next y Next x End Sub Public Sub PaintGreyImage() Dim x As Integer Dim y As Integer For x = 0 To ImgWidth - 1 For y = 0 To ImgHeight - 1 'dibujar un pixel PictureBox2.PSet (x, y), pixels(x, y) Next y Next x End Sub Private Sub CommandButton1_Click() Call ReadImage Call ConvertGreyScale Call PaintGreyImage End Sub
CD 2-1 Programa en Visual Basic para convertir una imagen a color en modelo RVA a escala de grises. Para la conversin se utiliza la ecuacin (EC 2-1) para obtener la reflectancia Y= 0.299*R + 0.587*V + 0.114*A y as mostrar la imagen en escala de grises.
29
FG 2-5 Salida del programa en Visual Basic. (CD 2-1) Para aclarar otras dudas por el cdigo anterior investguese en libros o en el Microsoft Developer Network Library Visual Studio. Como ya se mencion, otros lenguajes de programacin tratan a las imgenes como un vector como el lenguaje de programacin Java. JAVA es un lenguaje de programacin orientado a objetos desarrollado por la empresa Sun Microsystems en 1995 y que se ha extendido ampliamente en World Wide Web. Es un lenguaje de alto nivel y propsito general similar a C++, con marcadas caractersticas de seguridad y transportabilidad (que las aplicaciones pueden funcionar en diferentes plataformas). Este lenguaje define una mquina virtual independiente de la plataforma donde se ejecuta, que procesa programas, llamados Applets, descargados desde el servidor Web. Adems, debido al modo de ejecucin de los Applets, este lenguaje es muy seguro frente a la presencia y ataque de virus informticos. El siguiente programa (CD 2-2) fue escrito en lenguaje Java. El programa lee una imagen y guarda su informacin en un archivo de texto en formato de MS-DOS. Si la imagen esta en escala de grises, se tendr un vector con valores de pxeles entre 0 (un pxel negro) y 255 (un pxel blanco) y ser de tipo byte. Es decir, el programa operar una imagen con una profundidad de 8 bits. Si la imagen es de color y si esta en el modelo RVA, guardar adems de la posicin relativa, el color del pxel formado por la combinacin de los tres canales; rojo, verde y azul. Cada canal tendr valores entre 0 y 255. En caso de que la imagen sea de color se guardar en un vector de valores tipo Integer. La estructura de cada pxel en el lenguaje Java es la siguiente:
Byte
7 6 5 4 3 2 1 0
Long
31 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 3 2 1 0
FG 2-6 Formato de un pxel codificando en el lenguaje de programacin Java para imgenes en gris (tipo de dato byte) e imgenes a color (tipo de dato int).
30
Existen algunas consideraciones especiales con el lenguaje de programacin Java. El tipo de dato byte en Java requiere 7 bits para representar un valor entero ms un bit para su signo, es decir que un tipo de dato byte solo puede mostrar valores dentro de un rango que va desde 128 hasta +127. Cuando la imagen esta en escala de grises, tiene una profundidad de pxel de 8 bits, es decir que los valores de gris estn entre cero (negro) y 255 (blanco) y la informacin de las imgenes monocromticas se almacena en un vector de tipo byte y para mostrar correctamente el vector se hace una operacin lgica y (AND) con 8 bits 1 (0xFF) para tomar el octavo bit (bit de signo).
import import import import import import import java.awt.Image; java.awt.Toolkit; java.awt.image.PixelGrabber; java.awt.image.ColorModel; java.io.FileOutputStream; java.io.DataOutputStream; java.io.IOException;
public class ImageVector { public static void SetImageVector( String FileName ) { Image image = Toolkit.getDefaultToolkit().getImage(FileName); try { PixelGrabber ImageGrabber = new PixelGrabber(image, 0,0,-1,-1, false); if (ImageGrabber.grabPixels()) { //Imagen a escala de grises int width = ImageGrabber.getWidth(); int height = ImageGrabber.getHeight(); ColorModel model = ImageGrabber.getColorModel(); if (PixelAvailable(ImageGrabber)) { byte pixels[] = new byte[width * height]; pixels = (byte[]) ImageGrabber.getPixels(); SaveImageVector(pixels,width,height,FileName); } else { //Imagen a color int pixels[] = new int[width * height]; pixels = (int[]) ImageGrabber.getPixels(); SaveImageVector(pixels,width,height,FileName,model); } } } catch (InterruptedException e) { e.printStackTrace(); } }
31
public static void SaveImageVector (byte[] pixels,int width,int height,String FileName) { int x,y,GreyValue; try { DataOutputStream VectorFile = new DataOutputStream (new FileOutputStream( FileName +".txt")); for(x=0;x<width;x++) { for(y=0;y<height;y++) { GreyValue = pixels[x * y] & 0xFF; VectorFile.writeChars("("+(x+1)+","+(y+1)+")="+GreyValue+"\n"); } } VectorFile.close(); System.out.println("El vector de "+FileName+ " esta en el archivo "+FileName+".txt"); } catch (IOException e) { System.err.println("ERR. Imposible guardar datos."); }
} public static void SaveImageVector (int[] pixels,int width,int height,String FileName,ColorModel model) { int x,y,RedValue,GreenValue,BlueValue; try { DataOutputStream VectorFile = new DataOutputStream( new FileOutputStream(FileName+".txt")); for(x=0;x<width;x++) { for(y=0;y<height;y++) { RedValue = model.getRed(pixels[x * y]); GreenValue = model.getGreen(pixels[x * y]); BlueValue = model.getBlue(pixels[x * y]); VectorFile.writeChars("("+(x+1)+","+(y+1)+")="+RedValue+"," +GreenValue+"," +BlueValue+"\n"); } } VectorFile.close(); System.out.println("El vector de "+FileName+ " esta en el archivo "+FileName+".txt"); } catch(IOException e) {
32
} public static final boolean PixelAvailable (PixelGrabber ImageGrabber) { return ImageGrabber.getPixels() instanceof byte[]; }
System.err.println("ERR. Imposible guardar datos."); }
public static void main(String[] args) { if (args.length > 0) { SetImageVector(args[0]); System.exit(0); } else { System.err.println("ERR: Java ImageVector <nombrearchivo.ext>"); System.exit(1); } } }
CD 2-2 Programa completo en Java para guardar la informacin de una imagen, ya la imagen a color RVA o escala de grises. Al ejecutar el programa ImageVector.java (CD 2-2)con la una imagen guardada en modelo RVA en la escala de grises s vectoriza la imagen y dicha informacin se guarda en un archivo de texto. Se debe de recordar que la variable del sistema SET CLASSPATH= indique la ruta de acceso a los programas JAVAC.EXE y JAVA.EXE para compilar y ejecutar el cdigo del programa ImageVector.java (CD 2-2). Cuando la imagen que se ingresa no es de escala de grises o RVA, entonces la imagen utiliza un modelo de color diferente, tenndose as un error por el programa. Para aclarar dudas, en la pgina de Internet de Sun Microsystems http://java.sun.com/ esta disponible documentacin sobre el lenguaje Java. El siguiente cdigo permite crear una imagen a partir de un vector haciendo uso de la clase MemoryImageSource.
33
import java.awt.image.MemoryImageSource; : : int w = 100; int h = 100; int[] pix = new int[w * h]; int index = 0; for (int y = 0; y < h; y++) { int red = (y * 255) / (h - 1); for (int x = 0; x < w; x++) { int blue = (x * 255) / (w - 1); pix[index++] = (255 << 24) | (red << 16) | blue; } } Image img = createImage(new MemoryImageSource(w, h, pix, 0, w));
CD 2-3 Ejemplo del uso de la funcin createImage en Java generando (FG 2-7) El cdigo (CD 2-3) al ejecutarse genera la siguiente imagen.
FG 2-7 Salida del programa en Java. (CD 2-3)
2.4.3 Formatos de imgenes

En un grfico de mapa de bits, cada punto tiene un lugar preciso, definido por su fila y su columna, igual que cada casa de una ciudad tiene una direccin concreta. Algunos de los formatos de grficos de mapas de bits ms comunes son el Graphical Interchange Format (GIF), el Joint Photographic Experts Group (JPEG), el Tagged Image File Format (TIFF) y el Windows Bitmap (BMP). Segn el formato en que la imagen este, se tendr un diferente grado de compresin. En la compresin de imgenes, lo que se desea
34
es obtener de la propia imagen, una aproximacin, o una versin mejorada de la imagen original con menos recursos de computo.
2.4.3.1 Formato BMP

BMP (Windows Bitmap) es el formato de imagen de mapa de bits estndar de Microsoft Windows. Al guardar una imagen con este formato, se puede especificar una profundidad de imagen de 1 a 24 bits. En imgenes de 4 y 8 bits, tambin puede escoger compresin Run-Length-Encoding (RLE); este esquema de compresin no produce prdidas, es decir, no elimina ningn detalle de la imagen.
2.4.3.2 Formato GIF

CompuServe Graphics Interchange Format (GIF) es el formato de archivo utilizado normalmente para mostrar grficos de color indexado e imgenes en documentos de Lenguaje Marcado como Hipertexto (HTML) en la World Wide Web y otros servicios electrnicos. GIF es un formato comprimido, diseado para reducir al mnimo los tiempos de transferencia de imgenes por las lneas telefnicas.
2.4.3.3 Formato JPEG

El formato Joint Photographic Experts Group (JPEG) se utiliza normalmente para mostrar fotografas y otras imgenes de tono continuo en documentos de Lenguaje Marcado como Hipertexto (HTML) en World Wide Web y otros servicios electrnicos. A diferencia del formato GIF, JPEG conserva toda la informacin de color de una imagen RVA. JPEG utiliza tambin un esquema de compresin que reduce de manera muy eficaz el tamao del archivo mediante la identificacin y eliminacin de los datos no esenciales para la visualizacin de la imagen. Al abrir una imagen JPEG se descomprime automticamente. El esquema de compresin JPEG se conoce como compresin con prdidas porque elimina datos. Esto significa que cuando la imagen se ha comprimido y descomprimido, la imagen descomprimida no ser idntica a la original. Un nivel elevado de compresin produce una baja calidad de imagen, un nivel bajo, una calidad mejor. En la mayora de los casos, al comprimir una imagen utilizando la opcin de calidad mxima, se obtiene un resultado muy parecido al original. La tcnica de compresin de JPEG puede reducir el tamao de un archivo de grficas hasta en un 96 por ciento. La tcnica de compresin de datos produce un suavizamiento de la imagen y prdida de detalles, lo que puede ser evidente en algunas imgenes.
35
2.4.3.4 Formato TIFF

Tagged-Image File Format (TIFF) de uso particular el sistema Associated Press Picture Desk se utiliza este formato para intercambiar archivos entre aplicaciones y plataformas de ordenadores. El formato TIFF soporta compresin LZW, un mtodo de compresin que no ocasiona prdidas, ya que no elimina detalles de la imagen para que se puedan leer tanto en Macintosh como en una PC compatible con IBM.
2.4.4 Histograma de una imagen

El histograma de una imagen es una funcin discreta que representa el nmero de pxeles en la imagen en funcin de los niveles de intensidad. Un histograma es una representacin grfica del nmero de pxeles que contiene cada nivel de brillo de una imagen. El histograma se puede utilizar para verificar que la imagen contiene detalle suficiente para realizar una buena correccin El histograma tambin proporciona una representacin rpida de la gama de tonos de la imagen, conocida tambin como tipo de color. Una imagen cuyo detalle est concentrado en las sombras se denomina imagen de clave baja; la que concentra el detalle en las luces se conoce como imagen de clave alta. Identificar la gama de tonos de la imagen ayuda a determinar las correcciones de tono adecuadas.
FG 2-8 Histograma de una imagen.

(Imagen cortesa de Olivetti Research Laboratory)
El eje x del histograma representa valores de color desde el ms oscuro (0) a la izquierda, hasta el ms brillante (255) a la derecha; el eje y representa el nmero total de pxeles con ese valor.
36
2.4.5 Distorsin de imgenes digitales

El procesado de imgenes es una herramienta muy potente e importante dentro de los grficos por computadora. Sus tcnicas se emplean en muchas aplicaciones, como detectar bordes de un objeto, realzar la imagen, reducir el ruido, difuminarla, aumentar la nitidez o el brillo. La distorsin de imagen permite al usuario manipular y deformar una imagen a lo largo del tiempo, para extraer la informacin deseada. El empleo ms popular de la distorsin de imagen es la metamorfosis, en la que una imagen se deforma y se convierte en otra. Para extraer la informacin deseada en una imagen se emplean filtros. La teora de filtros tiene una importante relacin con el lgebra lineal. La manipulacin de matrices visualmente es vista como manipulacin de imgenes. Mejorar una imagen trata con la manipulacin de la informacin presente en la imagen para obtener slo lo que visualmente lo que ser significativo.
2.4.5.1 Teora de filtros

Una de las herramientas de las matemticas aplicadas ms conocida es la denominada teora de filtros. Esta teora es muy til para formalizar algunas de las operaciones y transformaciones necesarias para extraer la informacin relevante. En ciertas ocasiones la imagen aparece marcada con un alto contenido de ruido que ser necesario eliminar para que el tratamiento posterior de la misma sea ms efectivo. En otras ocasiones es preciso considerar las estructuras subyacentes, por ejemplo bordes, para su posterior extraccin. Las operaciones anteriores pueden llevarse a cabo mediante la utilizacin de filtros. Por consiguiente, el filtrado de imgenes se presenta como un proceso previo a la segmentacin de las mismas. Bsicamente un filtro es un mecanismo de cambio o transformacin de una cierta seal de entrada para producir una seal de salida diferente. Existen dos clasificaciones de seales [GONZALEZ Y WOODS 2002]: a) respecto a la naturaleza de las variables independientes, que puede ser continua o discreta, y b) respecto a la naturaleza de la propia funcin, que puede ser igualmente continua o discreta. La primera clasificacin obliga a un tratamiento diferenciado de la teora de filtros: continuos y discretos, respectivamente. La segunda clasificacin es menos trascendente, ya que no obliga a ningn tratamiento especfico, limitndose a una cuestin del rango de valores de las funciones o seales. Una frecuencia es el nmero de veces que ocurre un cierto suceso. Las seales de alta frecuencia temporal cambian peridicamente su valor en un corto perodo de tiempo.
37
Imagnese una seal senoidal con perodo 2 y otra con perodo z, esta ltima, con menor perodo cambia su amplitud ms rpidamente que la primera.
FG 2-9 Diferencias de frecuencias senoidal y z Se dir que una imagen con alta frecuencia espacial, cambia peridicamente el valor de los niveles de intensidad o niveles de gris en un intervalo espacial pequeo, o lo que es lo mismo en distancias pequeas de la imagen. Por tanto, los niveles de gris cambian de forma ms o menos abrupta de un nivel de gris a otro. Por el contrario, las bajas frecuencias espaciales corresponden a cambios ms lentos en la variacin de los niveles de gris donde los cambios ocurren gradualmente de una posicin a otra en la imagen. Es decir, que la manipulacin del dominio espacial se basa en la directa manipulacin de los pxeles de una imagen. Pero adems de poder transformar una imagen directamente, existe la manipulacin de la imagen en el dominio de la frecuencia. Al grupo de transformadas en el dominio de la frecuencia pertenecen tres tipos de transformadas muy usuales en el tratamiento de imgenes, que son la transformada de Fourier, la transformada del coseno y la transformada de Walsh-Hadamard. La ms empleada es la transformada de Fourier. El estudio de los conceptos de frecuencia conduce al estudio del filtrado espacial de imgenes y a la consideracin del filtrado de bajas y altas frecuencias, que resulta de vital importancia en el procesamiento de imgenes. Otras transformadas importantes son la transformada en wavelets, (que es til en la compresin de imgenes) la Transformada de Haar, la transformada de Slant y la transformada de Hotelling. En el tratamiento de imgenes digitales, es necesario entender el comportamiento y las propiedades frecuenciales de la imagen en cuestin. Se entiende, que una imagen digital es la periodicidad de la imagen en una determinada dimensin. Como las imgenes digitales son bidimensionales, slo existirn dos frecuencias, cada una de ellas correspondiente a una dimensin espacial. Una de alta frecuencia cuando presenta grandes cambios de valores (es decir, de intensidad luminosa) en una zona espacial
38
reducida. Anlogamente, una imagen digital contiene bajas frecuencias all donde sus intensidades luminosas cambian lentamente. Los filtros de imgenes orientados a realzar las altas frecuencias de una imagen son filtros detectores o amplificadores de los bordes. El motivo de aplicar este tipo de filtros se basa en que los bordes de un objeto delimitan su contorno; es decir, permiten segmentar o aislar ese objeto respecto de su entorno. Los bordes de un objeto dentro de una imagen digital corresponden a los componentes frecuenciales altos, ya que en ellos se producen fuertes cambios de intensidad, localizados en zonas muy reducidas en el espacio bidimensional. No es de extraar que si a una determinada imagen se le aplica un filtro bidimensional de paso alto (slo deja pasar las altas frecuencias), el resultado ser una imagen en donde aparezcan nicamente los componentes espectrales altos; Es decir, los bordes. Al contrario, un filtro de paso bajo, deja pasar nicamente bajas frecuencias, es decir solo aquellas frecuencias que se encuentran por debajo de determinado umbral, que es la frecuencia de corte. Una imagen no solo se puede mejorar dominio de las frecuencias sino tambin puede llevarse a cabo mediante otra serie de tcnicas y operaciones que tienen en cuenta los valores de intensidad dentro de un entorno de vecindad de los pxeles tratados, es decir operaciones espaciales de dominio. Estas operaciones se pueden utilizar para eliminar el ruido en las imgenes digitales considerando pequeos entornos de vecindad en ventanas con dimensiones n x n. En algunos casos la operacin es realmente una convolucin. Una convolucin es una operacin matemtica que permite multiplicar dos matrices de tamaos diferentes pero misma dimensionalidad, para producir una tercera matriz de la misma dimensionalidad. Esto se puede emplear para implementar operadores en el procesamiento de imgenes cuyos valores de pxeles sean simples combinaciones lineales de ciertos valores de pxeles de entrada. Para realizar una convolucin dada una imagen de entrada I que se desea convolucionar con la matriz k llamada como kernel gradiente. El valor de cualquier pxel en la imagen de salida es igual a multiplicar los valores vecinos a un pxel (de la misma imagen de entrada) con su correspondiente valor k del kernel. Para calcular los valores de los pxeles de las orillas de la imagen se generan valores hipotticos.
39
(1,1) (2,1) :
(1,2) (2,2) :
... ... ...
(1,m) (2,m) :
K1 K4 K7
K2 K5 K8
K3 K6 K9
(n,1)
(n,2)
...
(n,m) (5,7) (6,7) (7,7) (5,8) (6,8) (7,8) (1,m) (5,9) (6,9) (7,9)
OUT (1,1) (1,2) ... (2,1) (2,2) (2,m) Out(6,8)=I(5,7)K1+I(5,8)K2+I(5,9)K3+ I(6,7)K4+I(6,8)K5+I(6,9)K6+ : ... : : I(7,7)K7+I(7,8)K8+I(7,9)K9 (n,1) (n,2) ... (n,m)
FG 2-10 Figura que muestra como se realiza una convolucin. Para obtener el valor del pxel Out(6,8) es igual a realizar la ecuacin ejemplo, al multiplicar la ventana con los pixeles vecinos al punto (6,8) de la imagen de entrada conforme a una ventana de 3X3. Para observar la imagen de salida se normalizan los valores dentro del rango de los niveles de color dado el modelo de imagen. Las dos categoras primarias de filtros espaciales para eliminar el ruido son filtros de orden y filtros de medias. Los filtros de orden son implementados de forma que organizan la vecindad en orden de mayor a menor valor del nivel de color de la vecindad y utilizan este orden para seleccionar el valor correcto, mientras los filtros de media determinan en uno u otro sentido un valor medio. Los filtros de la media trabajan muy bien con ruido Gaussiano (ya que se modela el ruido con una distribucin gaussiana) y los filtros de orden trabajan mejor con ruido del tipo sal y pimienta, exponencial negativa o Rayleigh. Los filtros de media tienen la desventaja de desenfocar o desdibujar los bordes de la imagen o los detalles, son esencialmente filtros paso bajo. Los filtros de orden son no lineales por lo que los resultados obtenidos con ellos son a veces impredecibles. En general se debe llegar a un compromiso entre conservar los detalles de la imagen y eliminar el ruido. Considrese el caso extremo donde la imagen entera es reemplazada por el valor medio de la imagen. Con ello se ha eliminado cualquier ruido presente en la imagen pero a la vez tambin se ha perdido toda la informacin en la imagen. Los filtros de media y orden tambin pierden informacin cuando se usan para eliminar el ruido. El objetivo consiste siempre en minimizar esta prdida de informacin mientras se elimina la mayor cantidad de ruido posible. En realidad un filtro que se adapta a los valores de los pxeles existentes puede ser el ms apropiado. Un filtro que cambia su conducta basndose en las caractersticas (o estadstica) de los niveles de gris de una vecindad se
40
denomina filtro adaptativo. Finalmente, si se dispone de un conjunto de imgenes ruidosas con diferentes niveles de ruido, el promediado de esas imgenes produce una imagen resultante de mejor calidad que cualquiera de las imgenes que constituyen el conjunto de imgenes ruidosas. La conducta de la imagen tras el aplicarse un filtro, puede ser observada mejor por medio de un histograma. Es comn normalizar un histograma dividiendo cada uno de sus valores por el nmero total de pxeles en la imagen. Los histogramas son la base de muchas tcnicas de filtrado espaciales de dominio.
2.5 Mejoramiento de imgenes para la identificacin de rostros

Para el reconocimiento de rostros, es necesario la aplicacin de un filtro donde la calidad de la imagen sea mejor sin desdibujar los detalles presentes y esto dificulte la identificacin de rostros. Para no distorsionar los rasgos en los rostros se necesitara aplicar un algoritmo en que de forma aislada se determine el valor de cada pxel por una funcin filtro segn al valor previo del pxel correspondiente en la imagen de entrada. Las imgenes empleadas para el reconocimiento de rostros estn en un formato de ocho bits, es decir tienen 256 niveles de gris. Se presentan tentativamente cuatro filtros: La contraccin del histograma, ste filtro reduce rango de los valores de gris. La igualacin del histograma (tambin llamado ecualizacin del histograma). Esta tcnica mejora el contraste de la imagen al expandir la distribucin de los niveles de gris. Siendo dicha expansin lo ms suave posible en el sentido que idealmente debera de haber el mismo nmero de pxeles por niveles de gris. Es decir el objetivo es distribuir los niveles de gris de manera uniforme a lo largo de todo el rango de valores de niveles de gris. Los operadores logartmicos y exponenciales aumentan la intensidad de los pxeles de baja intensidad. Pero la diferencia de ambos operadores radica en que el compartimiento de los histogramas de las imgenes de salida se asemejan a una curva logartmica exponencial.
41
2.5.1 Contraccin del histograma

Esta tcnica hace una contraccin al histograma.
C MAX C MIN (i, j ) = (i, j )MAX (i, j )MIN [(i, j ) (i, j )MIN ] + C MIN
EC 2-2 Ecuacin para realizar la contraccin del histograma de una imagen. Donde (i,j) es el nivel de gris del pxel en la imagen de entrada ; (i,j)MAX es el mayor valor del nivel del gris en la imagen de entrada ; (i,j)MIN es el menor valor del nivel de gris en la imagen de entrada ; CMAX y CMIN corresponden al mximo y mnimo de los valores deseados de gris a la compresin del histograma. Al aplicar este filtro a la siguiente imagen (FG. 2-11).
FG 2-11 Fotografa e histograma antes antes de la contraccin del histograma.

(Cortesa R. Fisher, S. Perkins, A. Walker and E. Wolfart HIPR2 2003)
Despus de aplicar el filtro de contraccin del histograma se observa un cambio en la imagen siguiente. Comprese ambos histogramas.
42
FG 2-12 Fotografa despus de contraerse el histograma (FG 2-11).

2.5.2 Igualacin del histograma

Se trata de encontrar una funcin () que realce el contraste general en la imagen original expandiendo la distribucin de los niveles de gris. Dicha igualacin debe de ser lo ms suave posible en el sentido de que idealmente debera de haber mismo nmero de pxeles por niveles de gris. Dada una imagen de dimensiones xy por tener x columnas y y renglones, cada pxel tiene 256 niveles de gris. En la imagen est presente un nmero de N pxeles por nivel de gris. Sea la siguiente imagen de dimensiones 252 253 pxeles.
43
FG 2-13 Imagen e histograma antes de la ecualizacin.

El total de pxeles en la imagen es de 63756 y de stos pxeles la cantidad de ellos que son blancos, N(255) es 7314 (11.47%). En contraste, 3917 pxeles (6.14%) son negros N(0). Pese a que la imagen (FG 2-13) hay 3791 pxeles con un nivel de gris de 107 y ningn pxel tiene un valor de gris de 127. Para que exista una mayor distribucin en el histograma se calcula primero la probabilidad por cada nivel de gris g que viene dada por la siguiente ecuacin. p( g ) = N (g) ; g = [0, 255] xy
EC 2-3 Ecuacin para conocer la proporcin por el nivel de gris g en una imagen. Donde N(g) es la cantidad de pxeles por cada nivel de gris, y xy son las dimensiones de la imagen (x columnas, y renglones). Se deduce que:
g = 255 g =0
p( g ) =1
EC 2-4 Ecuacin en donde se aclara que la suma de proporciones es igual a uno.
44
La funcin de densidad de probabilidad resulta que:

p(i , j ) ( X ) p( g )
g =0 X
EC 2-5 Funcin de densidad de probabilidad. Se deben generar todas las densidades de probabilidad en todos los pxeles de la imagen. Por ejemplo, si se quiere saber cual es la densidad de probabilidad del pxel ubicado en la posicin (1, 1), dentro la imagen (FG 2-13)que tiene un valor de gris de 107, se hace:
p(1,1) ( X ) = p (1,1) ( X ) =
g =0
107
N (0) N (1) N (107) 3917 0 3791 + +L+ = + +L xy xy xy 252 253 63756 63756 p (1,1) = 0.7595206
EJ 2-1 Densidad de probabilidad para el nivel de gris 107 en la imagen (FG 2-13)
La funcin () permite conocer los nuevos valores que les corresponden a los pxeles; se multiplican las densidades de probabilidad por 255 para tener as el histograma ecualizado.
(i , j ) ( x) = 255 P( i , j ) ( x)
EC 2-6 Funcin para establecer el valor de pxel de la imagen de salida correspondiente.
Aplicando la funcin () en el pxel ubicado en la posicin (1, 1), dentro la imagen (FG 2-14)se tiene el siguiente resultado. (1,1) = 255 0.7595206 194
EJ 2-2 Valor de la imagen de salida (FG 2-14) para el pxel ubicado en el rengln uno y columna uno.
Entonces el pxel x en la posicin (1, 1) de la imagen ecualizada cambiar del valor 107 al valor de gris 194 (por redondeo). Recurdese que los valores de pxel deben ser entre 0 y 255. Al ecualizar la imagen (FG 2-13) se tendr lo siguiente:
45
FG 2-14 Imagen ecualizada de (FG 2-13) con su histograma.
El siguiente cdigo (CD 2-4) esta escrito en Microsoft Visual Basic versin 6, permite ecualizar (o hacer una igualacin) del histograma de una imagen.
Objeto
CommandButton1 PictureBox1, PictureBox2 Form1 Dim pixels() As Byte Dim ImgWidth, ImgHeight As Integer Private Sub Form_Load() PictureBox1.ScaleMode = vbPixels PictureBox2.ScaleMode = vbPixels PictureBox1.Picture = LoadPicture("C:\IMAGE.JPG") ImgWidth = PictureBox1.ScaleWidth ImgHeight = PictureBox1.ScaleHeight ReDim pixels(ImgWidth, ImgHeight) End Sub Private Function GreyValue(colorvalue As Long) As Byte Dim Blue, Green, Red As Integer 'Hex(16711680) = FF0000 'Hex(65536) = 010000 Blue = CInt((colorvalue And 16711680) / 65536) 'Hex(65280) = 00FF00 'Hex(256) = 000100 Green = CInt((colorvalue And 65280) / 256) 'Hex(255) = 0000FF 'Hex(1) = 000001 Red = CInt((colorvalue And 255) / 1)
Clase
CommandButton PictureBox Form
46
GreyValue = CByte(Round(0.299 * Red + 0.587 * Green + 0.114 * Blue)) End Function Private Sub ReadImage() Dim x As Integer Dim y As Integer Dim RGBval As Long For x = 0 To ImgWidth - 1 For y = 0 To ImgHeight - 1 RGBval = PictureBox1.Point(x, y) pixels(x, y) = GreyValue(RGBval) Next y Next x End Sub Private Sub EQ() Dim nivels(255) As Integer Dim x As Integer Dim y As Integer Dim j As Integer Dim SizeIMG As Long Dim odds As Single Dim EQpix As Long Dim PixelEQ As Integer For x = 0 To 255 nivels(x) = 0 Next x For x = 0 To ImgWidth - 1 For y = 0 To ImgHeight - 1 nivels(pixels(x, y)) = nivels(pixels(x, y)) + 1 Next y Next x SizeIMG = ImgWidth * ImgHeight For x = 0 To ImgWidth - 1 For y = 0 To ImgHeight 1 odds = 0 For j = 0 To pixels(x, y) odds = odds + (nivels(j) / SizeIMG) Next j PixelEQ = CInt(Round(odds * 255)) If PixelEQ < 0 Then PixelEQ = 0 End If If PixelEQ > 255 Then PixelEQ = 255 End If EQpix = RGB(PixelEQ, PixelEQ, PixelEQ) PictureBox2.PSet (x, y), EQpix Next y
47
Next x End Sub Private Sub CommandButton1_Click() Call ReadImage Call EQ End sub
CD 2-4 Cdigo escrito en Microsoft Visual Basic versin 6, para la igualacin del histograma, el cuadro es un compendio de los objetos incluidos en el programa y su clase.
FG 2-15 Desplegado del programa (CD 2-4) y resultado de la ecualizacin.
Para imgenes a color, primero se transforman a escala de grises, al calcular el grado de reflectancia, (EC 2-1) es decir la cantidad de luz percibida. (0.299rojo + 0.587verde + 0.114azul) y los tres canales de color generan un canal de gris (iluminacin) para ser despus su histograma igualado.
48
FG 2-16 Ecualizacin de una imagen a color con el cdigo (CD 2-4) y (EC 2-1).
(Imagen fuente modificada a partir de otra imagen tomada de la galera de Microsoft Office 2000 )
2.5.3 Operador logartmico

El rango dinmico de una imagen puede ser comprimido al remplazar el valor de cada pxel con su logaritmo natural. Esto tiene un efecto para los valores de pxeles que tienen una baja intensidad al ser stos incrementados. Puede ser til aplicar el operador logartmico en una imagen donde el rango dinmico puede ser muy grande para ser mostrado en pantalla. Puesto que el logaritmo de cero no esta definido, se suma un uno al valor de pxel. Se indica una constante de escala con un valor mximo de 255, puesto que es el rango de niveles de intensidad que van del cero (pxeles negros) al de 255 (pxeles blancos) para una imagen con un formato de ocho bits. Se agrega una constante de desplazamiento de histograma. Por lo tanto cada pxel es remplazado por la formula siguiente.
( x, y ) = ln(( x, y ) + 1) +
EC 2-7 Ecuacin para obtener el operador logartmico de una imagen.
49
De manera que si en la imagen de entrada con el pxel en la columna 5 rengln 8 tiene el valor de gris, supngase 130, y tiene las constantes =80 y =-165. El valor que le corresponde a ese pxel (5,8) es el siguiente:
(5,8) = 80 ln(130 + 1) + (165) = 225.0158 225

EJ 2-3 Ejemplo de aplicar el operador logartmico para un pxel en la columna 5 y rengln 8 con un nivel de gris de 130.
Los nuevos valores de pxeles si son menores a cero mayores de 255 se limitan a 0 255 segn sea el caso. El siguiente procedimiento de Visual Basic permite realizar este filtrado.
Private Sub Logarithm(scaleval As Single, offset As Single) Dim result As Single Dim LogVal As Byte For x = 0 To ImgWidth - 1 For y = 0 To ImgHeight 1 result = (scaleval * Log(pixels(x, y) + 1)) + offset If result < 0 Then result = 0 End If If result > 255 Then result = 255 End If LogVal = CByte(Round(result)) PictureBox2.PSet (x, y), RGB(LogVal, LogVal, LogVal) Next y Next x
End Sub CD 2-5 Funcin escrita Visual Basic 6 para calcular el operador logartmico de una imagen.
50
Con la imagen de entrada siguiente (FG 2-17):
FG 2-17 Imagen con su histograma antes de aplicarle el operador logartmico.

Al realizar en la imagen una operacin logartmica se obtiene la siguiente imagen:
FG 2-18 Imagen obtenida despus de aplicarle el operador logaritmo a la imagen (FG 2-17).
51
2.5.4 Operador exponencial

El rango dinmico de una imagen puede ser comprimido de una manera diferente al operador logartmico natural [GONZALO 2002]. Si cada valor de pxel es exponente de una base predeterminada en lugar del nmero trascendente e, se tienen diferentes grados de comprensin dinmica del rango de niveles de gris. Para mejorar la calidad visual de la imagen se sugieren bases ligeramente mayores de 1. A partir de los valores de los pxeles de la imagen de la imagen de entrada , los valores de cada pxel de la imagen de salida (x,y) esta en funcin de la siguiente ecuacin. (x, y ) = ( ( x , y ) +
EC 2-8 Ecuacin para obtener el operador exponencial de una imagen.
Recurdese que es una constante de escala de valores y como tasa de desplazamiento del histograma. Aplicando este operador con =2.3, =1.02 y =14, genera la siguiente efecto.
a)
b)
FG 2-19 Imagen antes a) y despus b) de aplicarse el operador exponencial.

El filtro empleado deber de depender al efecto deseado, generalmente lo ms conveniente es aplicar una igualacin de histograma. Al mejorar las imgenes, estn listas a analizarse para que las personas puedan ser identificadas.
52
2.6 Segmentacin de imgenes

Otra parte del procesamiento de imgenes se encarga del anlisis de imgenes. El anlisis se refiere a detectar determinadas partes de la imagen (regiones u objetos). Para generar tal descripcin es necesario segmentar adecuadamente e identificar la regin deseada. Dicho proceso de segmentacin de una imagen esta centrado en la deteccin de fronteras o bordes. Algunas operaciones de segmentacin se pueden aplicar directamente a cualquier imagen. Otras, slo se pueden aplicar a imgenes que ya hayan sido parcialmente segmentadas, ya que dependen de la geometra de las partes que han sido extradas de la imagen. Los puntos de bordes son pxeles alrededor de los cuales la imagen presenta una brusca variacin en los niveles de gris. En realidad el termino borde se refiere a cadenas conectadas de puntos de borde, esto es, fragmentos de contorno, esto no impide que la imagen tambin pueda contener puntos aislados que presentan un alto contraste en los niveles de gris. La deteccin de bordes es el mtodo ms comn para detectar discontinuidades significativas en el nivel de gris ya que un borde es la frontera entre dos regiones con propiedades de nivel de gris relativamente distintas, cuanto ms rpido se produce el cambio de intensidad, el eje o borde es ms fuerte. El objetivo consiste en dada una imagen, que puede o no estar corrompida por ruido, localizar los bordes ms probables generados por elementos de la escena y no por ruido. Un buen proceso de deteccin de bordes facilita la elaboracin de las fronteras de objetos con lo que, el proceso de reconocimiento de objetos se simplifica. Para poder detectar los bordes de los objetos, se deben detectar aquellos puntos borde que los forman. Pero suponindose una imagen en que las regiones son suficientemente homogneas para que la transicin entre dos de ellas se pueda determinar mediante las discontinuidades de nivel de gris. En este caso, existen distintas definiciones de lo que es un borde, cada una aplicable a distintas circunstancias. Bsicamente, la idea que subyace en la mayor parte de las tcnicas de deteccin de bordes es el clculo de un operador local de derivacin. Una definicin posible es que un pxel pertenece a un borde si se produce un cambio entre niveles de grises con sus vecinos. Mientras ms brusco sea el cambio, ms fcil es detectar el borde. El primer problema que surge usando esta definicin es debido a la digitalizacin. El segundo problema es debido al ruido.
53
FG 2-20 Extraccin de bordes en una imagen de clulas en sangre por el algoritmo de Canny.
(Imagen cortesa de Rafael C. Gonzalez y Richard E. Woods. Digital Image Processing 2ed. Prentice Hall EE.UU. 2002)
Es posible detectar mediante el concepto de primera y segunda derivada las esquinas de los objetos presentes en la imagen. La primera derivada es cero en todas las regiones de intensidad constante y tiene un valor constante en toda la transicin de intensidad. La segunda derivada en cambio, es cero en todos los puntos, excepto en el comienzo y final de una transicin de intensidad. Por tanto, un cambio de intensidad se manifiesta como un cambio brusco en la primera derivada y presenta un paso por cero, es decir se produce un cambio de signo en su valor en la segunda derivada. Este cambio de signo se denomina como zero-crossing. El valor de la primera derivada puede utilizarse para detectar la presencia de un borde as como el signo de la segunda derivada.
Imagen con bordes Perfil de la intensidad de la lnea horizontal Primera derivada Segunda derivada FG 2-21 Distincin entre operadores para la extraccin de bordes basados en primera derivada y segunda derivada.
(Imagen cortesa de Rafael C. Gonzlez y Richard E. Woods. Digital Image Processing 2ed. Prentice Hall EE.UU. 2002)
54
De entre los operadores basados en la primera derivada estn los operadores gradiente; una de las principales aplicaciones se debe al algoritmo de Canny [Canny, J. 1986] en donde se extraen no solo los bordes de la imagen sino que se propone un mtodo para cerrar contornos y derivar a partir de ah la presencia de estructuras. El gradiente de una imagen G en un punto (x,y) es un vector, en donde sus componentes miden la rapidez en que los valores de los pxeles cambian en la distancia y en las direcciones x e y. dx y dy son las distancias en las direcciones x e y respectivamente, en trminos de nmero de pxeles entre dos puntos. Un punto de borde puede ser visto como un punto en una imagen donde se produce una discontinuidad en el gradiente.
d [ f ( x, y )] G x G[ f ( x, y )] = = d [ f dx, y )] (x G y dy
EC 2-9 Definicin de la gradiente.
En orden de detectar la presencia de una discontinuidad en la gradiente, el vector G sealar la direccin de la variacin mxima de f en el punto de la imagen (x,y) y esto permitir hacer una referencia aportando una unidad de distancia son su magnitud de la gradiente con la direccin detectada que pueden tomar cualquier valor entre 0 a 360.
2 G = G x2 + G y G x + G y
( x, y ) = tan 1
Gx Gy
EC 2-10 Definicin del cambio de la discontinuidad en la gradiente.
Para decidir sin un punto es un borde se define segn si la magnitud de la gradiente supere un determinado umbral o no, pues bien slo es cuestin de ajustar dicho umbral para que el resultado de la extraccin de bordes sea el mismo tanto si se calcula la magnitud del gradiente. En imgenes discretas se puede considerar dx y dy en trminos del nmero de pxeles entre dos puntos. As, cuando dx=dy=1 y el punto donde se va a medir el gradiente tiene coordenadas (i,j). En orden de detectar la presencia de una discontinuidad en el gradiente, se debe calcular el cambio en el gradiente en el punto (i,j). Esto se puede hacer haciendo una referencia a la medida aportada por la magnitud del gradiente y su direccin.
55
G x = f (i + 1, j ) f (i, j ) G y = f (i, j + 1) f (i, j )

EC 2-11 Cambio de la gradiente en un punto de una imagen.
Haciendo una derivacin en (EC 2-2)utilizando las diferencias de primer orden entre dos pxeles adyacentes como en (EC 2-5). f ( x + d x ) f ( x, d x ) G x 2dx G = f ( y + d y ) f ( y,d y ) y 2dy
EC 2-12 Obtencin de la gradiente en un punto.
Para la implementacin y computacin del gradiente se utilizan mscaras o filtros que representan o equivalen a dichas ecuaciones. La diferencia entre los operadores de primera derivada y segunda consiste en que los valores obtenidos por los primeros son reales como los proporcionados por la ecuacin (EC 2-9), mientras que los valores obtenidos con los segundos son discretos. Para la binarizacin de se utiliza la siguiente relacin. 1 G[ f ( x, y )] > T G ( x, y ) = 0 G[ f ( x, y )] T
EC 2-13 Binarizacin de la imagen gradiente
Donde T es un valor umbral no negativo donde solo los pxeles de borde cuyo gradiente excedan el valor T se consideran importantes. El computar la gradiente sobre toda una imagen con las condiciones de que dx=dy=1 consiste en la convolucin de la imagen. Para encontrar el borde de una imagen con el filtro de Canny se usan cuatro mascaras diferentes para detectar los bordes horizontales, verticales y diagonales. (0, 45, 90 y 135 con respecto al eje horizontal) Los resultados de aplicar la convolucin con cada una de estas mscaras se guardan, marcndose el pxel ms consistente en ser detectado en la serie de convoluciones y la direccin del borde que produjo la convolucin. Tenindose un mapa de gradientes de intensidad por cada pxel de la imagen y la direccin de los puntos de intensidad en los gradientes.
56
Los gradientes con los valores de intensidad ms altos, son mejores candidatos a ser considerados como bordes. El criterio para considerar dicho gradiente como un borde depende de los valores de umbral de intensidad del gradiente. El umbral requiere dos valores, un valor superior y otro inferior. Suponiendo que los bordes importantes deben ser lneas continuas marcadas (lneas circulares, rectas, etc.) en la imagen. Pudiendo de esta manera identificar lneas principales (bordes) y no pequeas lneas. El resultado de la extraccin de contornos en la imagen no suele presentarse con los contornos cerrados. Esto implica que al momento de determinar si un contorno delimita una regin o no, existe la problemtica de determinar su cierre. Para llevar a cabo el cierre de bordes se buscan los extremos de los contornos abiertos y se sigue la direccin del mximo gradiente hasta cerrarlos con otro extremo abierto. Se fundamenta en el supuesto de que aunque un determinado borde, o tramo del mismo, no haya sido detectado correctamente por problemas de ruido, de atenuacin de su contraste o durante el proceso de eliminacin de pxeles debajo del umbral, el valor de la magnitud de la gradiente a lo largo de la direccin del contorno ser mximo. La extraccin de bordes como el filtro de Canny permite identificar algunas estructuras y en un proceso de deteccin de estructuras se pueden localizar objetos para propsitos diversos.
2.7 Deteccin de objetos

El propsito de la deteccin de objetos es asilar partes de una imagen segn por sus caractersticas (localizacin) como entidades que tienen un significado para desarrollar un conjunto de tcnicas para caracterizar dichas entidades de forma natural. La suposicin ms importante es que algn subconjunto de la imagen llamado genricamente como figura, ha sido extrado ya como resultado de un proceso previo (localizacin). El tratamiento ser aplicable a figuras compuestas de puntos discretos, figuras compuestas de lneas, y figuras compuestas de reas. Desgraciadamente no existe un algoritmo aplicable con carcter general y si existe una variedad de tcnicas que son tiles en situaciones particulares. Se trataran brevemente la transformada de Hough muy til para encontrar segmentos rectos.
2.7.1 Transformada de Hough

Esta es una tcnica que permite descubrir formas en una imagen. Se basa en transformar puntos de la imagen en un espacio de parmetros. La idea es encontrar curvas parametrizabales como rectas, crculos y polinomiales. En teora se pueden encontrar formas ms complejas pero el costo computacional crece rpidamente. Generalmente se realiza una extraccin de bordes a la imagen por medio de filtros como el de Canny y
57
luego se aplica la transformada a esta. De esta forma son menos los puntos que hay que recorrer y por lo tanto ms rpido es el algoritmo. Por ejemplo para detectar rectas con la transformada de Hough. [HOUGH 1962] Para cada punto x,y de la imagen binarizada se pasan infinitas rectas de la forma: y=ax+b. Luego cada punto x,y vota para cada pareja de puntos que satisface b=y-ax. El algoritmo tiene que recorrer todos los puntos x,y, y para cada uno votar en el espacio de parmetros a,b o acumulador. Luego la pareja a,b con mas votos o el mximo del acumulador da la ecuacin de la recta. La ecuacin del circulo tiene tres parmetros (dos para el centro del crculo, uno para el radio). Por lo tanto, el espacio de parmetros esta forma es de dimensin tres. Esto dificulta el algoritmo, recorrer un espacio de dimensin dos, y encontrar mximos en espacio de dimensin tres. Para imgenes binarias se definen operaciones morfolgicas (forma y estructura de un objeto) y con estas se constituye una herramienta de extraccin de componentes de imagen tiles en la representacin y descripcin de la forma de las regiones. Las operaciones bsicas de la morfologa matemtica es la dilatacin, es decir agregar pxeles a un objeto, hacerlo ms grande, y la erosin es hacerlo mas chico. Luego la combinacin de estas operaciones, dan origen a los operadores apertura y clausura. El primero consiste en aplicar una erosin seguida de una dilatacin aplicando la misma forma estructurante, como resultado esta tiende a "abrir pequeos huecos". La clausura es la aplicacin de las operaciones bsicas en el sentido inverso, y resulta en "cerrar los huecos". La transformada de Hough es una tcnica que permite descubrir formas en una imagen. Pero la transformada de Hough clsica es una tcnica til para aislar rasgos de una imagen que tienen cierta forma definida. Pero en los rostros humanos no se puede exigir que los rasgos deseados estn especificados de forma precisa; la transformada de Hough clsica es ms usada en la deteccin de curvas regulares como lneas, elipses, etc. Una transformada de Hough generalizada puede ser empleada en aplicaciones donde una descripcin analtica simple del rasgo(s) no es posible como es en el caso de los rostros humanos.
2.8 Aplicacin de la visin computacional

Si se resume los que se ha explicado con anterioridad, se puede decir que un sistema de computo captura una imagen y realiza un procesamiento para extraer la informacin relevante de esta imagen, para que a su vez, esta informacin pueda interpretarse en algn sentido. La interpretacin de la informacin extrada es la barrera que separa el procesamiento de la imagen (ver) y la visin computacional (observar).
58
El reconocimiento de patrones es la disciplina cientfica cuyo objetivo es la clasificacin de objetos de un cierto nmero de categoras, clases clusters. Dependiendo de la aplicacin esos objetos pueden ser imgenes, formadas de ondas de seales o cualquier tipo de medidas que necesitan que ser clasificadas. Nos referiremos a estos objetos de forma genrica utilizando el trmino de patrones.
1000 500 0 -500 -1000 1000 1000 -1000 2th axis 0 -3000 -2000 1th axis 0
500
FG 2-22 Agrupacin de patrones en clases o clusters
Histricamente los dos enfoques en el reconocimiento de patrones han sido el estadstico (o teora de la decisin) y el sintctico (o estructura). El aumento de la capacidad de almacenamiento ofrecida por los ms modernos sistemas ha proporcionado el reconocimiento basado en la apariencia. Tanto el enfoque estadstico como el basado en redes neuronales utilizan patrones de los que se extraen de ellos propiedades de naturaleza cuantitativa, mientras que el enfoque sintctico se fundamenta en relaciones geomtricas asociadas a la forma de los objetos y el enfoque basado en la apariencia considera distintas formas de vista de los mismos. Dada la extensin de los temas se tratar el enfoque de las redes neuronales. El reconocimiento de patrones es una parte de muchos sistemas inteligentes desarrollados tanto para la toma de datos como de decisiones. La visin por computadora es un rea en la cual el reconocimiento de patrones tienen una gran importancia, como es el reconocimiento ptico de caracteres tambin llamado OCR (Optical Character Recognizer).
59
EL OCR es un proceso que analiza los caracteres impresos y determina su forma utilizando patrones de oscuros y claros. Este procedimiento suele requerir la utilizacin de un escner ptico, con el que se obtiene una imagen del texto. A continuacin, una red neuronal compara los claroscuros de la imagen con patrones de caracteres; cuando se identifica un carcter se convierte en ASCII, lo que permite el posterior tratamiento informtico del texto escaneado.
2.8.1 Redes Neuronales Artificiales (RNA)

Las redes de neuronas artificiales (RNA) forman parte de la Inteligencia Artificial y es un paradigma de aprendizaje y procesamiento automtico inspirado en la forma en que funciona el sistema nervioso de los animales. Consiste en simular las propiedades observadas en los sistemas neuronales biolgicos a travs de modelos matemticos recreados mediante mecanismos artificiales. El objetivo es conseguir que las mquinas den respuestas similares a las que es capaz el cerebro que se caracterizan por su generalizacin y su robustez. Con un paradigma convencional de programacin informtica, el objetivo del programador es modelar matemticamente (con distintos grados de formalismo) el problema en cuestin y formular una solucin mediante un algoritmo que tenga una serie de propiedades que permitan resolver dicho problema. En contraposicin, la aproximacin basada en las RNA parte de un conjunto de datos de entrada suficientemente significativo y el objetivo es conseguir que la red aprenda automticamente las propiedades deseadas. En este sentido, el diseo de la red tiene menos que ver con cuestiones como los flujos de datos y la deteccin de condiciones, y ms que ver con cuestiones tales como la seleccin del modelo de red, la de las variables a incorporar y el preprocesamiento de la informacin que formar el conjunto de entrenamiento. Asimismo, el proceso por el que los parmetros de la red se adecuan a la resolucin. Cada problema no se denomina genricamente programacin sino que se suele denominar entrenamiento.
60
FG 2-23 Red neuronal artificial perceptrn simple con n neuronas de entrada, m neuronas en su capa oculta y una neurona de salida.
(cortesa por Wikipedia )
Por ejemplo, en una red que se va a aplicar al reconocimiento de rostros; durante la fase de entrenamiento el sistema recibe imgenes y sabe quienes forman parte de la base de datos y cuales no lo son. Si el entrenamiento es el adecuado, una vez concluido, el sistema podr recibir imgenes de rostros no clasificados y obtener su clasificacin con un buen grado de seguridad. Las variables de entrada pueden ser desde los puntos individuales de cada imagen hasta un vector de caractersticas de las mismas que se puedan incorporar al sistema (por ejemplo, estructura anatmica del rostro). La mayora de los cientficos coinciden en que una RNA es muy diferente en trminos de estructura de un cerebro animal. Al igual que el cerebro una RNA se compone de un conjunto masivamente paralelo de unidades de proceso muy simples y es en las conexiones entre estas unidades donde reside la inteligencia de la red. Sin embargo, en trminos de escala, un cerebro es mucho mayor que cualquier RNA creada hasta la actualidad, y las neuronas artificiales tambin son ms simples que su contrapartida animal. Biolgicamente, un cerebro aprende mediante la reorganizacin de las conexiones sinpticas entre las neuronas que lo componen. De la misma manera, las RNA tienen un gran nmero de procesadores virtuales interconectados que de forma simplificada simulan la funcionalidad de las neuronas biolgicas. En esta simulacin, la reorganizacin de las conexiones sinpticas biolgicas se modela mediante un mecanismo de pesos, que son ajustados durante la fase de aprendizaje. En una RNA entrenada, el conjunto de los pesos determina el conocimiento de esa RNA y tiene la propiedad de resolver el problema para el que la RNA ha sido entrenada. Por otra parte, en una RNA, adems de los pesos y las conexiones, cada neurona tiene asociada una funcin matemtica denominada funcin de transferencia. Dicha funcin genera la seal de salida de la neurona a partir de las seales de entrada. La entrada de la
61
funcin es la suma de todas las seales de entrada por el peso asociado a la conexin de entrada de la seal. Algunos ejemplos de funciones de transferencia son la funcin escaln, la lineal o mixta, la sigmoidal y la funcin gaussiana. Las Redes de Neuronas Artificiales (RNA) tienen muchas ventajas debido a que estn basadas en la estructura del sistema nervioso, principalmente el cerebro. Aprendizaje: Las RNA tienen la habilidad de aprender mediante una etapa que se llama etapa de aprendizaje. Esta consiste en proporcionar a la RNA datos como entrada a su vez que se le indica cul es la salida (respuesta) esperada. Auto organizacin: Una RNA crea su propia representacin de la informacin en su interior, descargando al usuario de esto. Tolerancia a fallos. Debido a que una RNA almacena la informacin de forma redundante, sta puede seguir respondiendo aceptablemente an si parcialmente se daa. Flexibilidad: Una RNA puede manejar cambios no importantes en la informacin de entrada, como seales con ruido u otros cambios en la entrada (por ejemplo, si la informacin de entrada es la imagen de un objeto, la respuesta correspondiente no sufre cambios si la imagen cambia un poco su brillo o el objeto cambia ligeramente) Tiempo real: La estructura de una RNA es paralela, por lo cul si esto es implementado con computadoras o en dispositivos electrnicos especiales, se pueden obtener respuestas en tiempo real. Existen diferentes tipos de clasificaciones de redes neuronales las redes que se pueden clasificar por su topologa, aprendizaje y tipo de entrada. Una primera clasificacin de las redes de neuronas artificiales que se suele hacer es en funcin del patrn de conexiones que presenta. As se definen tres tipos bsicos de redes: Los tipos de redes de propagacin hacia delante o acclicas en las que todas las seales van desde la capa de entrada hacia la salida sin ciclos. Cuando tienen una sola capa, por ejemplo: perceptrn simple, Adaline. Cuando son multicapa por ejemplo el perceptrn multicapa (backpropagation). Las redes recurrentes que presentan al menos un ciclo cerrado de activacin neuronal. Ejemplos: Elman, Hopfield, mquina de Bolzman. Una segunda clasificacin que se suele hacer es en funcin del tipo de aprendizaje de que es capaz (si necesita o no un conjunto de entrenamiento supervisado). Para cada tipo de aprendizaje se encuentran varios modelos: Aprendizaje supervisado: necesitan un conjunto de datos de entrada previamente clasificado o cuya respuesta objetivo se conoce. Ejemplos de este tipo de redes son: el perceptrn simple, la red Adaline, el perceptrn multicapa y la memoria asociativa bidireccional.
62
Aprendizaje no supervisado o autoorganizado: no necesitan de tal conjunto previo. Ejemplos de este tipo de redes son: las memorias asociativas, las redes de Hopfield, la mquina de Bolzman y la mquina de Cauchy, las redes de aprendizaje competitivo, las redes de Kohonen o mapas autoorganizados y las redes de resonancia adaptativa (ART) Redes hbridas: son un enfoque mixto en el que se utiliza una funcin de mejora para facilitar la convergencia. Un ejemplo de este ltimo tipo son las redes de base radial. Finalmente tambin se pueden clasificar las RNA segn sean capaces de procesar informacin de distinto tipo en: Redes analgicas: procesan datos de entrada con valores continuos y, habitualmente, acotados. Ejemplos de este tipo de redes son: Hopfield, Kohonen y las redes de aprendizaje competitivo, redes de resonancia adaptativa tipo 2 (ART2). Redes discretas: procesan datos de entrada de naturaleza discreta; habitualmente valores lgicos booleanos. Ejemplos de este segundo tipo de redes son: las mquinas de Bolzman y Cauchy, y la red discreta de Hopfield, redes de resonancia adaptativa tipo 1 (ART1) Por no existir modelos matemticos precisos o algoritmos con una complejidad razonable para la deteccin de rostros en imgenes las RNA pueden ser empleadas. Segn el tipo de filtro realizado para la extraccin de bordes, se puede un aplicar una red neuronal para analizar secciones de una imagen y encontrar patrones que permitan determinar si en esa seccin de la imagen pudiera estar presente un rostro humano, localizar el rostro para que sea reconocido. Por la naturaleza del problema de reconocimiento de rostros, las redes neuronales no organizadas son las ms empleadas. Las redes neuronales autoorganizadas fueron inicialmente desarrolladas por Kohonen [KOHONEN 1982]. Este tipo de red puede establecerse para propsitos de clasificacin y extraccin de caractersticas y si se combina con filtros como el de Gabor se tiene una opcin con resultados muy positivos para el reconocimiento de rostros. [WELDON 1996] Las redes neuronales no supervisadas o autoorganizadas se caracterizan porque en su entrenamiento no se presentan las salidas objetivo que se desean asociar a cada patrn de entrada. Estos modelos de redes neuronales no supervisadas, pueden clasificarse en dos grupos. Dentro de este tipo de redes neuronales estn las redes no supervisadas competitivas, en el que solamente una neurona (o grupo de vecinas) puede quedar finalmente activadas. La base de la operacin de estos modelos es la competicin entre las neuronas, materializada en forma de inhibiciones laterales, a travs de las cuales cada una trata de inhibir a las dems. En los modelos competitivos, durante la fase de aprendizaje las neuronas vencedoras obtienen como premio el refuerzo de sus conexiones sinpticas. La competicin es un comportamiento bsico en muchos de los modelos neuronales
63
autoorganizados ms conocidos como el ART [CARPENTER 1988] o mapas de Kohonen. Modelos muy empleados para el reconocimiento de rostros [STOLL 1997]. La idea de que una red neuronal pudiera aprender nuevos patrones, es decir tener cierta plasticidad del aprendizaje y recordar los patrones ya aprendidos hizo que surgieran las redes ART. Sin embargo, estas dos caractersticas de las redes ART, son difciles de implementar juntas, pues al aprender nuevos patrones, se corre el riesgo de perder los ya memorizados, igualmente, si se mantienen firmemente memorizados unos patrones iniciales, se dificulta el aprendizaje de nuevos patrones, comprometiendo su capacidad de adaptarse a condiciones nuevas. Grossberg, Carpenter y un grupo de colaboradores desarrollaron su teora de resonancia adaptativa (ART) para resolver este dilema. Esta se aplica a redes con aprendizaje competitivo, en las cuales solo una neurona o una neurona de un grupo de ellas, despus de competir con otras, reacciona con su mximo nivel de respuesta al presentarse determinado patrn de entrada. Se dice que esta neurona es la vencedora. De esta manera la red busca crear categoras (clusters en ingls), segn los datos que se le introduzca. La red debe decidir a que categora pertenece cada dato que se le presente segn su parecido con alguna categora definida, y si no hay un grado de similitud lo suficientemente grande, la red crear una categora nueva tomando como modelo el nuevo patrn. Se deduce de esto que el aprendizaje en las redes ART es no supervisado. A estas redes se les ha agregado un mecanismo especial de realimentacin entre las neuronas de la capa de salida (las competitivas) y las de la capa de entrada. Esto contribuye a mantener la plasticidad y la estabilidad de la red. Como variante de la red neuronal ART la red ART2 [CARPENTER 1987] puede tener no solo patrones de entrada binarios sino adems analgicos, y as poder trabajar en imgenes en escala de gris. Con redes neuronales ART2 conectada a un Mapa de Memoria se pueden desarrollar sistemas de reconocimiento de rostros con resultados aceptables [SOSSA 1998, et al]
Captulo tres Proceso de identificacin de rostros en imgenes bidimensionales
Hay dos clases de contribuciones matemticas: Las obras que son importante para la historia de las matemticas y las que, sencillamente, constituyen un triunfo del espritu humano. -Paul J. Cohen, 1996
65
Captulo 3. Proceso de identificacin de rostros en imgenes bidimensionales

En este captulo se expone en forma detallada el mtodo para la identificacin de una persona entre un conjunto de imgenes de rostros. Por la complejidad que involucrara un sistema completo de reconocimiento, esta tesis trata bsicamente de la identificacin de rostros que ya fueron detectados y encuadrados. Se menciona en detalle el Anlisis de Componentes Principales. [TURK y PENTLAND 1991] Rigurosamente se describir el proceso con imgenes del ORL [OLIVETTI 2005]. Se ha preferido explicar matemticamente dicho mtodo y no vincular la explicacin con algn lenguaje de programacin para no perder la ilacin del tema. El capitulo omite detallar conceptos de lgebra lineal. Se ha anexado un apndice donde en forma concisa se aclaran conceptos como vector, matriz, autovector, ortonormalizacin, distancia euclidiana, etc. Si el lector desconoce esto se recomienda leer antes ste apndice junto con la bibliografa recomendada. Los resultados del proceso de identificacin fueron obtenidos por el Sistema de Reconocimiento de Rostros codificado para la validacin de la hiptesis.
3.1 Sistema completo para el reconocimiento de rostros

La deteccin y reconocimiento de rostros han sido los campos de la visin computacional ms investigados. Este problema ha atrado investigadores de diferentes disciplinas como la psicologa, ciencias computacionales e ingeniera habiendo significativos avances. Un sistema completo automatizado de reconocimiento cumple con las etapas siguientes:
Captura de la imagen Deteccin del rostro Localizacin Del rostro Identificacin Del rostro
FG 3-1 Etapas forman parte de un completo sistema de reconocimiento de rostros. Cuando existe un conjunto de rostros en una misma fotografa se tiene un problema de deteccin de rostros y una vez detectados se requiere un proceso de localizacin. Un rostro ya detectado en una escena requiere operaciones geomtricas y un proceso de normalizacin fotomtrica para que sea localizado. Si la imagen de un rostro al
66
compararse con otras imgenes existe una correspondencia entonces el rostro es identificado.
Proceso de Deteccin de presencia de rostros Rostro localizado
FG 3-2 Diferencia entre deteccin de rostros y localizacin de rostros.

(imagen cortesa de Microsoft)
3.2 Deteccin de rostros

La idea subyacente de la deteccin de objetos es que los ojos humanos pueden detectar estos objetos sin esfuerzo, mientras las maquinas no pueden hacerlo de forma tan sencilla. Desde la perspectiva de la computacin, es como un hombre en la oscuridad a tientas trata de encontrar un objeto con la ayuda de sus dedos o un palo. El problema de deteccin de objetos puede ser considerado como tareas de segmentacin y localizacin. Entre los mtodos generalmente mas usados para la deteccin son aquellos que buscan rasgos constantes para encontrar cierta afinidad o estructura geomtrica. Al extraer los bordes de una imagen se puede encontrar ciertas afinidades. Existen diferentes filtros para extraer los contornos, como son el filtro Sobel, Prewitt, Roberts, Frei-Chen, Laplaciana de Gaussiana, Canny, etctera.
67
Escala de grises a)
Filtro de Sobel b)
Filtro de Prewitt c)
Filtro de Roberts d)
Filtro de Frei-Chen e)
Filtro Laplaciana f)
Filtro de la Laplaciana Filtro de Cruzamiento Filtro de Canny i) de la Gaussiana g) Cero (Zero Crossing) h)
FG 3-3 Ejemplo de diferentes filtros de extraccin de bordes (las imgenes resultantes de los filtros han sido invertido los colores para una mejor apreciacin).
(cortesa por equipo Pumas de la UNAM)
68
Al ser detectado un rostro, con operaciones geomtricas; un proceso de normalizacin es realizado para que el rostro sea localizado y posteriormente identificado..
FG 3-4 Aplicacin del filtro de Canny en un rostro localizado. En la FIG.3-4 se puede observar la aplicacin del filtro de Canny [CANNY 1986]. El filtro de Canny fue desarrollado en 1986 por John F. Canny y es utilizado para la extraccin de bordes y es considerado generalmente como el mejor filtro para esta tarea al cerrar los contornos evitando posibles rupturas. Pero sin importar el filtro que se emplee, dependiendo de la naturaleza de la imagen, al extraerse sus bordes puede existir una gran incertidumbre para establecer reglas claras y precisas para que un sistema pueda encontrar algn patrn o figura geomtrica que permita detectar un rostro humano. Por ejemplo las siguientes imgenes muestran esta dificultad.
a)
69
b)
FG 3-5 Limitaciones de un mtodo de deteccin de rostros aplicando el filtro de Canny.

(cortesa por Fisher, S. Perkins, A. Walker and E. Wolfart en HIPR2)
An as se buscan encontrar tendencias, se pueden aplicar varios mtodos como la transformada de Hough una red neuronal como la ART en secciones de la imagen.
3.3 Descripcin general del sistema para la identificacin de rostros

Aunque an no se ha encontrado una solucin ptima en el reconocimiento de rostros existen dos marcos tericos que han sido diseados con xito. 1. Las redes neuronales artificiales: Como es sabido, son de uso general para la resolucin de problemas de reconocimiento de patrones. La tcnica ms empleada es la de Anlisis en Componentes Principales, que se tratar con mayor amplitud. 2. Los modelos deformables: Agrupados bajo este nombre estn mtodos muy diversos. Son llamamos as porque se basan en la adaptacin o deformacin de alguna estructura (un grafo que represente a la imagen, un modelo de la misma, etc.) que simplifique el proceso de reconocimiento. En [LANITIS 1997] y [WURTZ 1994] se emplean mtodos de este tipo.
70
La tarea del reconocimiento de rostros es la discriminacin de las seales de entradas (datos de imgenes) en diferentes clases (personas). Estas seales son altamente ruidosas; pero an al capturar estas imgenes la informacin no est completamente al azar y a pesar de las diferencias, existen patrones recurrentes. Tales patrones, que pueden ser observados en todas las seales como (en el dominio del reconocimiento de rostros) la presencia de algunos objetos (ojos, nariz, boca, etc.). Estos rasgos pueden ser extrados de la imagen original por medios de mtodos como el Anlisis de Componentes Principales (ACP). El ACP es una tcnica usada para describir conjuntos de imgenes que se registran espacialmente. Esta herramienta matemtica pretende reducir el nmero de operaciones haciendo para el ordenador abordable el problema de reconocimiento. La idea es aprovechar la redundancia de un conjunto por hallarse constituido por imgenes de naturaleza similar. (puesto que todas son de rostros humanos) El enfoque de ACP comienza con un desglose de un conjunto imgenes no entrenadas que son ingresadas al sistema conocido como Conjunto de Entrenamiento (CE) extrayendo los componentes distintivos para generar un espacio de mltiples dimensiones llamado como Espacio de Rostros, a esta etapa se le conoce como Entrenamiento. Una vez el entrenamiento, cualquier imagen puede ser proyectada a este espacio. Sin embargo, solamente aquellas imgenes que compartan caractersticas similares sern proyectadas de manera exitosa. Las imgenes que no estn en el CE an si llegarn a pertenecer a un individuo; esas imgenes usualmente son detectadas a un grado satisfactorio, siempre y cuando no difirieran mas all de lo permitido con las del CE. En el lenguaje de la teora de informacin, el objetivo del ACP es extraer aquella informacin que sea relevante en la imagen codificada para compararla con respecto a modelos de base de datos codificados de una manera similar. Es decir, se extrae la informacin relevante contenida en la imagen, capturando las variaciones existentes del CE, sin prejuicios sobre las caractersticas presentes, y usar esta informacin para codificarla y compararla con otras imgenes. En trminos matemticos, con el ACP se puede representar grandes dimensiones de datos en un espacio menor con vectores ortogonales significativos. Se tratan a las imgenes como vectores, y forman un espacio de multidimensional y en este espacio se encuentran los principales componentes de la distribucin. El conjunto de caractersticas que definen las variaciones se pueden conocer como autovectores. Cada imagen ubicada contribuye de alguna manera a cada autovector, de tal forma que se pueden mostrar los autovectores como un rostro fantasmal llamado Rostro Caracterstico, autocara eigenface.
71
FG 3-6 Imagen de rostros caractersticos o autocaras. El nmero de posibles autocaras es igual al nmero de imgenes del CE y su uso es motivado por que con el ACP se puede representar estas imgenes a partir de reconstrucciones aproximadas, almacenando una pequea coleccin de pesos relativos para cada rostro del CE y las autocaras correspondientes. Entonces la imagen reconstruida es una aproximacin de la imagen original. La imagen original en un CE puede ser reconstruida, si se suman todas las autocaras en la proporcin correcta. Cada autocara representa solamente ciertos rasgos de un rostro, que pudieran o no ser presentados en la imagen original. Si el rasgo en la imagen original es remarcadamente distinto al resto de las imgenes del CE, en la suma de las autocaras deber tener mayor presencia. Si por el contrario, el rasgo particular no es (o casi no) presentado en la imagen original entonces la autocara correspondiente deber contribuir a una menor (o no del todo) parte de la suma de las autocaras. Entonces en orden de reconstruir la imagen original se debe de construir algo como una suma de pesos de todas las autocaras. Esto es, la imagen reconstruida original es igual a la suma de todas las autocaras, con cada autocara teniendo un peso especfico. Estos pesos indican la cantidad por lo que el rostro en cuestin difiere de los rostros tpicamente representados por las autocaras. Es decir los pesos determinan el grado que un rasgo especfico (autocara) este presente en la imagen original. Si se usan todas las autocaras extradas de las imgenes originales (imgenes que formaron parte del Conjunto de Entrenamiento), se puede reconstruir las imgenes originales de autocaras casi exactamente (puede haber diferencias menores por mtodo empleado para la ortonormalizacin de los autovectores). Es posible tambin usar solamente una parte de las autocaras; los rostros pueden aproximarse usando solamente las mejores autocaras, considerando solamente las autocaras que describan mejor las peculiaridades distintivas de la imagen original. Se puede asegurar que las perdidas debido a la omisin de algunas autocaras pueden ser minimizadas ya que se escogeran solamente los rasgos ms importantes o distintivos.
72
La omisin de autocaras es necesariamente debido a la escasez de recursos computacionales pero puede significar en un decremento en la eficiencia del reconocimiento si los rostros son muy semejantes como son en el caso de los gemelos. Al ser posible no solamente extraer el rostro desde las autocaras dados a un conjunto de pesos, tambin lo es extraer los pesos de autocaras y el rostro a ser reconocido. Por lo tanto, usando estos pesos puede determinar lo siguiente: 1. El determinar si la imagen en cuestin es un rostro del todo. En caso de que los pesos de la imagen difieran demasiado de los pesos de las imgenes de rostros entonces probablemente la imagen no es un rostro. 2. Los rostros similares (imgenes) poseen rasgos similares (autocaras) en grados similares (pesos). Si se extraen pesos de todas las imgenes disponibles, las imgenes podran ser agrupadas. Esto es, todas las imgenes que tienen pesos similares probablemente son rostros similares. Hasta el momento, se puede resumir que en el mtodo de ACP, el reconocimiento de rostros se realiza correlacionando una imagen con respecto a todas las imgenes del Conjunto de Entrenamiento. La imagen del conjunto que proporcione la mayor correlacin ser la correspondiente a la identidad de la persona que se desea averiguar.
3.4 Algoritmo para el reconocimiento de rostros

El algoritmo para el reconocimiento de rostros usando autocaras es bsicamente descrito en la siguiente figura, (FG 3-7) las imgenes originales de rostros del Conjunto de Entrenamiento son adquiridas y transformadas a un conjunto de autocaras E, mismo conjunto que definir el Espacio de Rostros. Despus, los pesos de caractersticas en son calculados para cada imagen del conjunto de entrenamiento y se almacenan dichos pesos en el conjunto W. En la obtencin de una imagen desconocida X, los pesos son calculados para esa imagen particular y almacenados en el vector Wx. Despus, Wx es comparado con los pesos de las imgenes de rostros del conjunto de entrenamiento W, es decir, que se proyectar la nueva imagen en cada una de las autocaras del conjunto E. Una manera de hacer esto, es considerar cada vector de pesos como un punto en un espacio multidimensional y calcular la distancia euclidiana D entre el vector de pesos W y el vector de pesos de la imagen desconocida Wx. Si esta distancia excede un valor umbral predefinido entonces el vector de pesos de la imagen desconocida Wx esta muy alejado de los pesos de las imgenes. En este caso, la imagen no se clasifica. En caso contrario, el vector de pesos Wx es almacenado para una clasificacin. La determinacin del umbral se define empricamente. Existe un paso, que es opcional, que no se muestra en la grfica (FG 3-7), si existe un rostro que no se puede clasificar y es repetitivo, se calcula su peso de sus caractersticas
73
y se incorpora dicho rostro dentro del Conjunto de Entrenamiento, para que mismo conjunto se actualice.
inicio
CE
E=autocaras(ConjuntoEntrenamiento)
W=pesos(E,ConjuntoEntrenamiento)
Entrada de imagen desconocida X
Wx=pesos(E,X)
D=prom(distancia(W,Wx))
D<? X es un rostro X no es un rostro
Almacenar X y Wx
fin
FG 3-7 Algoritmo para el reconocimiento de rostros. La aproximacin de autocaras para el reconocimiento de rostros involucra varas operaciones englobadas en dos fases. En la fase de inicializacin estas operaciones son: 1. Adquirir un conjunto de imgenes para su entrenamiento. 2. Calcular las autocaras del conjunto de entrenamiento, manteniendo solamente las mejores M imgenes con los autovalores ms altos. Estas M imgenes se definir como un Espacio de Rostros. A medida que se experimenta el sistema nuevos rostros las autocaras pueden ser actualizadas.
74
3. Calcular la distribucin correspondiente en un espacio de M dimensiones de pesos para cada individuo conocido (imagen de entrenamiento) proyectando su imagen de rostros en el espacio de rostros. Habiendo inicializando el sistema, los siguientes pasos se hacen para el reconocimiento de nuevas imgenes de rostros. 1. Dada una imagen para ser reconocida, se calculan un conjunto de pesos de las M autocaras al proyectar los pesos a cada una de las autocaras. 2. Determinar si la imagen es un rostro verificando si dicha imagen esta ubicada en un grado suficiente al Espacio de Rostros. 3. Si es un rostro, clasificar el pesos de patrones ya sea como una persona conocida o desconocida. 4. (opcional) Actualizar las autocaras y/o los pesos de los patrones. 5. (opcional) Calcular las caractersticas de los peso de patrones de la nueva imagen, e incorporar a los rostros conocidos.
3.5 Metodologa en el reconocimiento de rostros

Tenindose un CE los vectores 1, 2, ... M, donde cada vector i permite mostrar el rostro de una persona en 256 tonos de gris. Las imgenes con un tamao de x columnas por y renglones generarn vectores de dimensin N (xy). Ser recomendable antes de generar estos vectores aplicar un filtro como una ecualizacin, para mejorar la imagen.
1a.jpg
: 123 124 128 132 134 136 133 128 :
Conjunto de Entrenamiento
FG 3-8 Vectorizacin de imgenes del Conjunto de Entrenamiento.
75
Estos vectores del CE definen un espacio vectorial denominado como Espacio de Rostros. Como el conjunto es de un tipo de imgenes con una configuracin general similar (porque son todas las imgenes rostros humanos), no se distribuirn los vectores de manera aleatoria en este gran espacio, por lo que se pueden describir en un subespacio dimensional menor. La idea principal del ACP es encontrar el vector que mejor explique la distribucin de los rostros dentro de este espacio. Considrese un CE (FG 3-9)con 3 imgenes diferentes de 6 personas (M=18). Cada imagen tiene un tamao de 92 112 pxeles, por lo tanto cada vector i tiene una dimensin de 10.304 (N).
FG 3-9 Conjunto de Entrenamiento (CE).

(Cortesa de la Olivetti Research Laboratory ORL)
Este CE se utilizar para mostrar como el ACP funciona y como operan las ecuaciones. Entonces con este CE se calcula el Rostro Promedio .
=
EC 3-1 Ecuacin para obtener el Rostro Promedio.
1 M
i =1
76
Para el CE (FG 3-9) el vector se muestra as (FG 3-10):
FG 3-10 Rostro Promedio segn el CE (FG 3-9).
Cada rostro del CE difiere en algn grado de ste Rostro Promedio .

i = i EC 3-2 Ecuacin para calcular las diferencias al Rostro Promedio ().
Estos vectores i visualmente se observan de la siguiente manera:
FG 3-11 Imgenes i que son resta del Rostro Promedio (FG 3-10) a cada imagen del CE (FG 3-9).
77
Se buscan los M autovectores uk ortonormales que mejor describan la distribucin de datos, de manera que cualquiera de las imgenes pueda reconstruirse de la siguiente forma (EC 3-3):
j = + u k jk
k =1 M
EC 3-3 Ecuacin para proyectar una imagen j al Espacio de Rostros.
Los coeficientes wjk estn determinados por las proyecciones sobre los autovectores uk:
jk = Tj u k
EC 3-4 Ecuacin para conocer la matriz de pesos W.
Lo que se busca es encontrar las direcciones de los vectores uk donde las desviaciones se encuentren concentradas. En la siguiente ecuacin provee una medida de desviacin en direccin al vector uk.
k =
1 M
(u
M j =1
T k
EC 3-5 Medidas de desviacin de los autovectores uk (autovalores de la matriz de covarianzas).
Ahora, se introduce el concepto de Matriz de Covarianza:

C=
EC 3-6 Calculo de la matriz de covarianza.
1 M

i =1 i
T i
Por lo tanto los vectores uk y los escalares k son los autovectores y autovalores de la matriz de covarianzas C. Pero con (EC 3-6)la matriz C tendra dimensiones de N2 y el clculo de los autovectores uk sera una tarea muy difcil. Considerando que el tamao del CE, es un nmero menor a la dimensin del espacio de las imgenes (M<N) se puede construir una matriz con una menor dimensin. Ahora, considrese la siguiente matriz (EC 3-7):
78
A = [ 1
2 L M ]
EC 3-7 Definicin de la matriz para el clculo de Matriz de Covarianzas reducida (A).
Entonces el calculo de los autovectores vk de ATA sera:

AT Av k = k v k
EC 3-8 Autovectores vk de la matriz ATA.
Premultiplicando ambos lados de la ecuacin (EC 3-8) por A entonces se tienen que Avk son los autovectores de C=AAT. Entonces la ecuacin (EC 3-6) puede reescribirse:
C=
1 AAT M
EC 3-9 Calculo de Matriz de Covarianzas reducida (dimensiones MN).
Por lo anterior, los autovectores uk de la matriz C (EC 3-5) se pueden obtener a partir de los autovectores vk de la matriz reducida AAT de la siguiente forma: u k = Avk
EC 3-10 Calculo de los autovectores uk.
Entonces la matriz C con(EC 3-9) las dimensiones sern menores, obtener los autovectores vk a travs de un proceso iterativo como el mtodo de potencias y la ortonormalizacin de los vk con un mtodo como el de Householder, permitir que se obtengan los autovectores uk (EC 3-10) Para ms informacin vase el apndice. Para observar correctamente los autovectores uk, (EC 3-10) los vectores i (EC 32)y el Rostro Promedio (EC 3-1) se normalizan estos vectores a un rango entre 0 y 255, (solo para propsitos de visualizacin) para que se representen en imgenes de gris (EC 3-11).
79
255 (MAX (V ) V ) V = 255 MAX (V ) MIN (V )

EC 3-11 Procedimiento para representar correctamente un vector V.
MAX(V) es el mayor valor del vector V y MIN(V) es el menor. La longitud del rango de valores del vector V es |MAX(V) MIN(V)|. Cuando se transforman los autovectores uk, en imgenes se obtiene segn en el campo de reconocimiento de rostros autocaras, Rostros Caractersticos eigenfaces. Al transformar en imagenes los autovectores uk del CE son vistos de la siguiente manera:
u1
u2
u3
u4
u5
u6
u7
u8
u9
u10
u11
u12
u13
u14
u15
u16
u17
u18
FG 3-12 Autocaras obtenidas a partir de la conversin de los autovectores uk (EC 3-10) con el CE (FG 39).
Despus los autovectores uk son pesados (EC 3-4) para que se pueda reconstruir las imgenes proyectadas al Espacio de Rostros (EC 3-3) construyendo primero la matriz W en (EC 3-12)
80
T u1 1 T u W = 2 1 M T u M 1
T T u1 2 L u1 M T T u2 2 L u2 M M O M T T uL 2 L uM M
EC 3-12 Definicin de la matriz de pesos W del Espacio de Rostros.
La siguiente grfica 3D (FG 3-13) muestra los pesos W conforme a los autovectores ortonormalizados uk mostrados en (FG 3-12) y los vectores i que se muestran en (FG 3-11)
FG 3-13 Relacin de los autovectores uk (FG 3-12) y los vectores i (FG 3-11) con el CE muestra (FG 39).
Supngase que se quiere proyectar la siguiente imagen a (FG 3-14) al Espacio de Rostros:
81
FG 3-14 Imagen a no pertenece al CE (FG 3-9) y ser proyectada al Espacio de Rostros.
(Cortesa Olivetti Research Laboratory ORL)
Cuando se proyectan los vectores i que pertenecen al CE (FG 3-9) sobre el mismo Espacio de Rostros la reconstruccin de la imagen es casi perfecta. Sin embargo, al hacerlo con la imagen (FG 3-14) diferencias son esperadas. Al vectorizar la imagen a y restarle el Rostro Promedio (FG 3-10)de manera similar a (EC 3-2) se obtiene el vector a. Y si desea ver el resultado se le aplica (EC 3-11) Ahora si se proyecta a al Espacio de Rostros, primero se calculan de las proporciones, (EC 3-10) cada autovector uk aportar en diferente grado para la reconstruccin de la imagen PROY (FG 3-16) y conocer el grado en que se proyecta la imagen a al Espacio de Rostros segn (EC 3-3). Primero se genera el vector a a con (EC 3-4) de la siguiente forma:
1 a = T u1 = a
M
T a
652.37 M
18 a = u18 = 154.22
EJ 3-1 Ejemplo de cmo generar el vector de pesos a segn (EC 3-4). Con el vector a y los autovectores uk mostrados como autocaras en (FG 3-12).
82
u11a
u22 a
u33 a
u44 a
u55 a
u66 a
u77a
u88 a
u99 a
u1010 a
u1111 a
u1212 a
u1313 a
u1414 a
u1515 a
u1616 a
u1717 a
u1818 a
FG 3-15 Proporciones para la reconstruccin de PROY (FG 3-16). Las imgenes son observadas usando la ecuacin (EC 3-11)
Ahora, se aplica la suma en(EC 3-3) comenzando por el Rostro Promedio (FG 310)a las imgenes (FG 3-15).
83
PROY 0=
PROY 1 = PROY 0 + u11 a
PROY 5 = PROY 4 + u55a
PROY 10 = PROY 9 + u1010 a
PROY 11 = PROY 10 + u1111 a
PROY 12 = PROY 11 + u1212 a
PROY 13 = PROY 12 + u1313 a
PROY 14 = PROY 13 + u1414 a
PROY 15 = PROY 14 + u1515 a
PROY 16 = PROY 15 + u1616 a
PROY 17 = PROY 16 + u1717 a
PROY 18 = PROY 17 + u1818 a
PROY 8
FG 3-16 Proyeccin al Espacio de Rostros, por una suma acumulativa de las imgenes en (FG 3-15)
84
Se puede observar en (FG 3-16) que al reconstruir la imagen tiende a semejarse a 8. Para sustentar tal afirmacin se encuentran las distancias euclidianas entre cada vector columna de la matriz W (FG 3-13) y vector wa. La menor distancia euclidiana corresponder a la imagen ms semejante a la imagen reconstruida.
T T T T T u1 1 u1 2 u1 3 u1 M u1 a T T T T T u 2 a W = u 2 1 u 2 2 u 2 3 L u 2 M wa = M M M M M T T T T T u M a u M 1 u M 2 u M 3 u M M L W = [ w1 w2 wM ]
e1 = wa w1 e 2 = wa w2 M
T e1 = e1 e1 T e2 = e2 e2 M
E =[
e1
MIN (E ) = e PROY
e2
e3
eM
e L = wa w M
T eM = eM eM
puntero de la imgen ms semejante
EC 3-13 Procedimiento para encontrar la imagen ms semejante al CE.
Entonces con (EC 3-13) se calculan todas las distancias euclidianas formndose el siguiente vector de distancias euclidianas E.
01 02 03 04 05 06 07 08 09
E
3725 5871 5569 6245 5710 5569 2878 2108 3365
Orden
5 17 14 18 16 15 2 1er 3 10 11 12 13 14 15 16 17 18
E
3442 3743 4433 4531 4421 4590 5055 5299 4042
Orden
4 6 9 10 8 11 16 13 7
TB 3-1 Vector de distancias euclidianas E, estableciendo la imagen 8 (=8) del CE (FG 3-9) ms semejante a PROY (FG 3-16) y 4 como la menos semejante, las cantidades fueron redondeadas.
Por tener la menor distancia euclidiana, la imagen del CE 8 (=8) (FG 3-9) es el ms semejante a a.(FG 3-14) Le siguen en semejanza las imgenes 7 y 9 (8, 7, y 9 son imgenes de la misma persona). Ahora si la distancia euclidiana no excede del valor umbral predefinido entonces la persona se considerar como identificada por el Sistema de Reconocimientos de Rostros.
85
3.6 Definicin de reglas para el reconocimiento

Es complejo definir un umbral, sobre todo viendo que una misma persona puede cambiar tan radicalmente como es en el caso del cantante Michael Jackson. Un maquillaje bien elaborado puede transformar a cualquier mujer.
FG 3-17 Todas las imgenes se tratan de la misma persona y su cambio solo consiste en maquillaje.
Fuente: Internet
86
Si la capacidad de transformacin del aspecto de una persona es sorprendente, no es menos sorprendente el grado de semejanza que pueden alcanzar dos personas, por ejemplo en el caso de los gemelos idnticos (FG 3-18).
FG 3-18 Fotos de gemelos idnticos.

Fuente: http://www.joesnyc.streetnine.com/
Es diferente el esfuerzo que las personas toman para reconocer a las personas. La gente cuando convive con alguien empieza a reconocer a la persona en todas sus facetas y el conocimiento tiene una plasticidad suficiente como para seguir considerando como un mismo individuo a la persona de la imagen (FG 3-17). Tambin con el tiempo se detectan sutilezas para considerar como individuos diferentes a las personas de las imgenes (FG 3-18) En ocasiones estas sutilezas son tan poco obvias para los dems como el tono de voz o hasta el temperamento. As el Sistema de Reconocimiento de Rostros puede solo ofrecer grados de semejanza, ya que estos tienen una problemtica que no se presenta en los sistemas de reconocimiento de huellas digitales o el iris. La probabilidad de que las huellas digitales de dos personas sean idnticas es de 197 segn un estudio encargado 1999 por el Departamento de Justicia de Estados Unidos al FBI y a la empresa Lockheed Martin, inclusive en gemelos idnticos no se presenta tal eventualidad [EPSTEIN 2002]. En Mxico el artculo 1834 del Cdigo Federal Civil, como en otros pases del mundo, las huellas digitales son reconocidas legalmente como sustituto de la firma escrita, indispensable para imponer obligacin en un contrato o documento, en los casos en que la persona involucrada no pueda firmar.
87
Considrese que se desea proyectar imgenes (FG 3-19) al CE (FG 3-9)
4228 4093 4190
3797
3978
3309
2780
3609 4160 3844
4760
3439
FG 3-19 Distancias euclidianas al proyectar imgenes sobre personas que no estn en el CE (FG 3-9).
Fuente: Internet, pginas diversas
Es complejo definir un umbral para no considerar a ninguna de las imgenes (FG 319) como parte del Espacio de Rostros, pero seguir considerando a la persona de la imagen (FG 3-14) como miembro. En lugar de cambiar constantemente el umbral para ajustar al sistema a una decisin correcta sera una mejor estrategia reducir la incertidumbre al disminuyendo las distancias euclidianas de los individuos identificados como parte del CE.
88
3.7 Mejoras al proceso de identificacin

Para poder tener un sistema de reconocimiento de rostros que apoye mejor la determinacin si una imagen es de una persona que es de un grupo, el CE debe ser especialmente rico en contener las diferentes facetas de la persona. Este cometido no cumple el CE (FG 3-9). Por ejemplo las imgenes 7, 8 y 9 persisten en mostrar a la persona con lentes.
FG 3-20 Imgenes del Conjunto de Entrenamiento (FG 3-9) 7, 8 y 9.
Esto es muy rgido, la persona como se ha visto, puede presentarse sin lentes.
FG 3-21 Persona 7, 8 y 9 mostrndose sin lentes.
Aunque al proyectar las imgenes (FG 3-21) al CE (FG 3-9) an las distancias euclidianas son las menores en el vector E pero la incertidumbre es alta. (FG 3-22)
89
2108
2047
2348
2303 FG 3-22 Proyecciones de las imgenes (FG 3-21) al CE (FG 3-9) y sus distancias euclidianas.
Las imgenes 7 y 9 en (FG 3-20) son muy semejantes, se podra sustituir cualquiera de las dos imgenes por alguna imagen en que se muestre a la persona sin lentes (FG 3-21). Al encontrar donde existen las menores desviaciones de direccin de los autovectores ortonormales uk concentrados, se pueden conocer los autovectores uk que se pueden omitir porque su aportacin es poco significativa en la reconstruccin de las imgenes. Estas desviaciones se muestran en los autovalores k; cuando tienen valores muy pequeos es que las imgenes del CE son muy semejantes como en 9.
k 01 02 03 04 05 06 4210275 1907793 2059516 1283921 900012 871418 K 07 08 09 10 11 12 597435 520780 8.02e-010 412369 84179 362404 k 13 14 15 16 17 18 320192 225779 209026 173445 286523 185671
TB 3-2 autovalores de la Matriz de Covarianzas, obsrvese lo anormalmente bajo es el autovalor 9.
90
El autovector u9 puede omitirse en la formacin del vector de pesos W (correspondiente al autovalor 9 y vector 9) ya que su aportacin es mnima. Eliminando del CE a la imagen 9, las imgenes 7 y 8 son ms que suficientes para identificar a, b, c y d.
2075
2042
2337
2296 FG 3-23 Proyecciones de las imgenes (FG 3-21) al Espacio de Rostros sin u9, 9 y a.
Ahora, si se agrega al CE la imgenes a en lugar de a.

a
FG 3-24 Sustitucin de la imagen 9 por a en el CE (FG 3-9).
91
Con esta actualizacin del CE se proyectan b, c y d al nuevo Espacio de Rostros.
1461
1677
2866
895 FG 3-25 Proyeccin de imgenes a b, c y d al Espacio de Rostros. Considrese la sustitucin en (FG 324)
Como se observa detenidamente, salvo en el caso de la proyeccin de c las distancias euclidianas disminuyeron con esta actualizacin, tenindose as una menor incertidumbre. Sustituir las imgenes del CE con los autovalores ms bajos por imgenes que generen desviaciones mayores en la direccin de los autovectores uk tiene una ventaja en computo al liberar recursos pero puede presentar problemas si los individuos son muy semejantes. Aunque tambin es posible aumentar la presencia de una persona en el CE al incorporar ms imgenes, no es algo recomendable ya que se incrementaran los requerimientos de cmputo.
Captulo cuatro Pruebas y Resultados
Todos los matemticos viven en dos mundos distintos: habitan en un mundo cristalino de formas platnicas perfectas, un palacio de hielo, pero tambin en el mundo comn, donde las cosas son transitorias, ambiguas y sujetas de vicisitudes. Los matemticos van arriba y abajo, de un mundo al otro: en el mundo cristalino son adultos; en el real nios. -S. Cappell
93
Capitulo 4. Pruebas y Resultados

Se ha procurado explicar en detalle el mtodo de Anlisis de Componentes Principales (ACP) en su implementacin en un Sistema para el Reconocimiento de Rostros. En lugar de explicar el cdigo en s, por las reglas de sintaxis y semntica propios del lenguaje de programacin se prefiri describir matemticamente el funcionamiento del ACP y se mostr su operacin con ejemplos. Para validar la hiptesis de esta tesis, se implemento el ACP en un programa escrito en el lenguaje de programacin de Visual Basic versin 6. Resultados experimentales se hicieron segn a un conjunto de imgenes que estn ampliamente disponibles en Internet, la base de datos de imgenes tomadas por el Laboratorio de Investigaciones de la Olivetti (Olivetti Research Laboratory). En un ejercicio de sntesis, por los resultados de las pruebas obtenidas se formularn conclusiones para que el lector lo considere en trabajo futuros.
4.1 Microsoft Visual Basic

BASIC, en informtica, acrnimo de Beginners All-purpose Symbolic Instruction Code (Cdigo de Instrucciones Simblicas de Uso General para Principiantes). Se trata de un lenguaje de programacin de alto nivel desarrollado por los estadounidenses John Kemeny y Thomas Kurtz en el Dartmouth College a mediados de la dcada de 1960. BASIC se gan su enorme popularidad gracias sobre todo a dos implementaciones, Tiny BASIC y Microsoft BASIC, que convirtieron a este lenguaje en la primera lengua franca de los microordenadores o microcomputadoras. El lenguaje ha cambiado en el transcurso de los aos. Visual Basic es comercializado por Microsoft para desarrollos de aplicaciones en entornos Windows, como lenguaje de programacin de aplicaciones ofimticas, consultas a bases de datos y creacin de pginas de Internet dinmicas. El lenguaje BASIC se suele ensear a los programadores principiantes porque es fcil de utilizar y de comprender y porque, en sus versiones ms recientes, contienen muchos de los conceptos fundamentales de otros lenguajes considerados ms complejos y tcnicamente ms potentes, como Pascal, C, C++ o JAVA. Visual Basic ha evolucionado a partir del lenguaje BASIC original y ahora contiene centenares de instrucciones, funciones y palabras clave, muchas de las cuales estn directamente relacionadas con la interfaz grfica de Windows. La palabra "Visual" hace referencia al mtodo que se utiliza para crear la interfaz grfica de usuario (GUI). En lugar de escribir numerosas lneas de cdigo para describir la apariencia y la ubicacin de los elementos de la interfaz, simplemente puede agregar objetos prefabricados en su lugar dentro de la pantalla.
94
El lenguaje de programacin Visual Basic no es exclusivo de Visual Basic. La Edicin para aplicaciones del sistema de programacin de Visual Basic, incluida en Microsoft Excel, Microsoft Access y muchas otras aplicaciones Windows, utilizan el mismo lenguaje. El sistema de programacin de Visual Basic, Scripting Edition (VBScript) es un lenguaje de secuencias de comandos ampliamente difundido y un subconjunto del lenguaje Visual Basic. En las aplicaciones por procedimientos, la aplicacin es la que controla qu partes de cdigo y en qu secuencia se ejecutan. Sin embargo las aplicaciones de Visual Basic son controladas por eventos, el cdigo no sigue una ruta predeterminada; se ejecutan distintas secciones de cdigo como respuesta a los eventos. Los eventos pueden desencadenarse por acciones del usuario, por mensajes del sistema o de otras aplicaciones, o incluso por la propia aplicacin. La secuencia de estos eventos determina la secuencia en la que se ejecuta el cdigo, por lo que la ruta a travs del cdigo de la aplicacin es diferente cada vez que se ejecuta el programa. Por ser el lenguaje de programacin ms conocido y empleado y con las facilidades que ofrecen en programacin de aplicaciones de Windows se decidi desarrollar el Sistema de Reconocimiento de Rostros.
4.2 FaceRec.exe Sistema de Reconocimiento de Rostros

El FaceRec.exe (Face Recognition) es la aplicacin resultado de la compilacin del archivo de proyecto de Visual Basic FaceRec.vbp y dems componentes; el Sistema de Reconocimiento de Rostros para validar la hiptesis de la presente tesis. Para comprender el Sistema de Reconocimiento de Rostros es necesario haber entendido lo expuesto en el captulo anterior y comprender los trminos matemticos, explicados en el apndice. La estructura lgica del sistema es muy similar al esquema(FG 3-7). El siguiente diagrama de flujo muestra en grandes rasgos la estructura lgica del Sistema de Reconocimiento de Rostros desarrollado(FG 4-1). El aprendizaje del Sistema de Reconocimiento de Rostros esta contenido en la matriz de pesos W. Si se tiene esta matriz no es necesario leer el Conjunto de Entrenamiento (CE). Salvo en el caso de que el mismo Conjunto tenga cambios que requiera que el sistema los aprenda de nuevo entonces se leern las imgenes y se les har una ecualizacin. Los formatos grficos reconocidos por Visual Basic incluyen archivos de mapas de bits (.bmp), archivos de iconos (.ico), archivos de cursor (.cur), archivos de longitud codificada (.rle), metarchivos (.wmf), metarchivos mejorados (.emf), archivos GIF (.gif) y archivos JPEG (.jpg). Por los propsitos de normatividad el sistema desarrollado requiere que el CE sean imgenes de un mismo formato, (JPG) y de una misma
95
dimensin, 92 X 112 pxeles (mismas dimensiones de las imgenes muestra de la ORL) en escala de grises y con rostros ya localizados. Una vez ledo el CE se calcula el Rostro Promedio. Mismo que servir para formar la Matriz de Covarianza. Con la Matriz de Covarianza se calcularn el Conjunto de autovectores V (en Matriz) por medio del mtodo de potencias, con sus autovalores ortonormalizados por el mtodo de Householder. Los autovalores muy pequeos permitirn decidir si se omiten imgenes muy semejantes y que poco contribuyen al CE, liberando al sistema de recursos. No es necesario hacer esto y esto tiene un riesgo si las personas son fsicamente muy semejantes entre s; para la serie de pruebas realizadas se omiti esta accin. La matriz de pesos W, permitir que cualquier imagen se proyecte al Espacio de Rostros. Es til almacenar dichos valores si se desea que el sistema no necesite volver a aprender. Las imgenes que se quieran proyectar al Espacio de Rostros pueden ser de formatos como BMP, GIF y JPG. La ecualizacin de la imagen no es exigida pero s recomendada si la imgenes del CE es de bajo contraste. Se forma un vector de pesos de la imagen que se desea proyectar o reconocer . Esto es para ubicar esta imagen dentro del espacio multidimensional de rostros y encontrar relaciones. La imagen del CE ms semejante ser aquella que tenga la menor distancia euclidiana con la imagen X. Es complejo definir si una imagen es o no un rostro, empricamente se puede definir un valor umbral para sugerir esto, pero s se puede establecer un grado de tolerancia mxima para considerar a la persona como miembro del CE, este valor umbral es emprico. Lo mejor es indicar solo la distancia euclidiana mnima existente entre la imagen proyectada y el miembro del CE con su grado de semejanza entre las imgenes. Como las personas cambian, lo mismo lo debe hacer el CE y la matriz de pesos W. A medida que el CE aumenta los resultados mejoran (esto se ver despus) pero es recomendable que crezca dicho Conjunto en forma homognea. Es decir que las personas les corresponda el mismo nmero de imgenes del CE (se predetermin en tres imgenes por persona). Por convencionalismo se normaron los nombres de las imgenes del CE en que los primeros dgitos son el nmero de la persona y siguiente carcter como indicativo de la imagen de la persona. Es decir 15c.jpg sera individuo nmero 15, tercera imagen. De forma iterativa proyectar a un conjunto de imgenes al espacio de Rostros es solo una adecuacin si se quiere evaluar al sistema de forma general. El cdigo del sistema no se expone en esta tesis por las complicaciones ya mencionadas y porque el lector puede en realidad implementar su propio sistema en otros lenguajes y plataformas y comparar resultados con los obtenidos en esta tesis.
96
INICIO
APRENDE LEER Wx
CONJUNTO DE ENTRENAMIENTO CE
ECUALIZACION DE HISTOGRAMAS CE
CALCULAR ROSTRO PROMEDIO
FORMAR MATRIZ DE COVARIANZA C
OBTENER AUTOVECTORES U, AUTOVALORES V DE C
ORTONORMALIZAR AUTOVECTORES U
OMITIR AUTOVECTORES CON AUTOVALORES MENORES
FORMAR MATRIZ DE PESOS W
LEER IMAGEN X
97
ECUALIZACION DE HISTOGRAMAS X
FORMAR VECTOR DE PESOS X
CALCULAR DISTANCIAS EUCLIDIANAS D=(W, X )
E=CALCULAR MIN(D)
E<?
X ES DE CE
X NO ES DE CE
ALMACENAR X, ACTUALIZAR CE, WX
FIN
FG 4-1 Diagrama de flujo general para el Sistema de Reconocimiento de Rostros implementado. Por las dimensiones del diagrama se expone en dos partes (observe el conector 1). El Sistema de Reconocimiento de Rostros desarrollado responde a los lineamientos descritos con anterioridad y las imgenes subsecuentes describen el aspecto de la interfaz de dicho sistema (FG 4-2).
98
a)
b)
99
c)
d)
100
e)
FG 4-2 Interfaz del sistema FaceRec. a) Arranque del sistema. b) Configuracin del sistema en nmero de personas y rostros por persona. c) Identificacin del software. d) Etapa de aprendizaje. e) Etapa en la identificacin con un grado de semejanza entre imgenes.
4.3 Imgenes de rostros ORL

Entre Abril de 1992 y Abril de 1994 el Laboratorio de investigaciones de la empresa Olivetti en Cambridge, Reino Unido, [OLIVETTI 2005] tom 400 fotografas de 40 individuos diferentes. A cada individuo se les tomaron 10 fotografas diferentes, en donde se mostraban sus diferentes expresiones faciales, con diferentes condiciones de iluminacin y detalles variados (cambios en lentes, barba, bigote, etc.). Estas imgenes permiten evaluar la eficacia de un sistema de reconocimiento de rostros y estn ampliamente distribuidas en Internet sin costo alguno. Las imgenes estn en formato PGM (Portable Graymap ASCII). El PGM es el formato de imgenes nativo de UNIX pero software como Jasc Paint Shop Pro de JascSoftware permite la conversin a formatos de como BMP , JPG GIF. Cada imagen tienen un tamao de 92 X 112 pxeles con una profundidad de pxel de 8 bits, teniendo as cada imagen 256 niveles de gris y 10.318 bytes de tamao. Las imgenes estn organizadas en 40 directorios o flderes, siendo cada flder asignado a solo una persona. Nombrados como sx donde x indica el nmero de sujeto (entre 1 y 40). En cada directorio estn presentes 10 imgenes diferentes del individuo nombrados como y.pgm,
101
siendo y el nmero de imagen especfica de la persona. Por ejemplo el directorio s1 contiene las siguientes imgenes (FG 4-3).
s1\1.pgm
s1\2.pgm
s1\3.pgm
s1\4.pgm
s1\5.pgm
s1\6.pgm
s1\7.pgm
s1\8.pgm
s1\9.pgm
s1\10.pgm S2
S2\1.pgm 2.pgm, 3.pgm, , 9.pgm, s2\10.pgm
102
S3
s3\1.pgm S4 2.pgm, 3.pgm, , 9.pgm, s3\10.pgm
s5\1.pgm 2.pgm, 3.pgm, , 9.pgm, s5\10.pgm
S6
103
S7
S8
S9
S10
104
S11
S14
105
S15
S16
106
S19
S20
S21
S22
107
S23
S24
S25
S26
108
S27
S28
S29
S30
109
S31
S32
S34
110
S35
S36
S38
111
S39
S40
FG 4-3 Imgenes de los directorios s1 al s40 de la ORL (imgenes cortesa de Olivetti Research Laboratory)
4.4 Pruebas de identificacin de rostros

Para validar el sistema implementado se harn una serie de pruebas. Por ejemplo del conjunto de imgenes de ORL se escogen 3 imgenes de cada persona. Considrese el siguiente CE (TB 4-1).
112
s1\1.pgm s2\5.pgm s3\1.pgm s4\4.pgm s5\2.pgm s6\1.pgm s7\7.pgm s8\2.pgm s9\5.pgm s10\2.pgm s11\3.pgm s12\1.pgm s13\1.pgm s14\3.pgm s15\2.pgm s16\2.pgm s17\2.pgm s18\1.pgm s19\1.pgm s20\3.pgm s21\3.pgm s22\3.pgm s23\1.pgm s24\1.pgm s25\1.pgm s26\1.pgm s27\1.pgm s28\3.pgm s29\4.pgm s30\1.pgm s31\3.pgm s32\1.pgm s33\4.pgm s34\1.pgm s35\1.pgm s36\2.pgm s37\3.pgm s38\6.pgm s39\1.pgm s40\4.pgm
TB 4-1 Conjunto de Entrenamiento escogido para las pruebas (TB 4-2) Ahora considrese que se busca proyectar cada imagen de la ORL al Espacio de Rostros dado el CE (TB 4-1). Es natural que la distancia Euclidiana de las imgenes que son ya miembros del CE ser de cero. Para la siguiente tabla, se muestran los resultados de proyectar las 400 imgenes al Espacio de Rostros, 120 imgenes forman parte del CE (TB 4-1). En la tercera columna, indica la distancia euclidiana de la imagen ms semejante del CE a la imagen de entrada. En las 280 pruebas (descontando aquellas imgenes que son del CE) slo una dio un resultado negativo, la imagen s40\9.pgm. (TB 4-2)
113
Imagen de Entrada s1\1.pgm s1\2.pgm s1\3.pgm s1\4.pgm s1\5.pgm s1\6.pgm s1\7.pgm s1\8.pgm s1\9.pgm s1\10.pgm s2\1.pgm s2\2.pgm s2\3.pgm s2\4.pgm s2\5.pgm s2\6.pgm s2\7.pgm s2\8.pgm s2\9.pgm s2\10.pgm s3\1.pgm s3\2.pgm s3\3.pgm s3\4.pgm s3\5.pgm s3\6.pgm s3\7.pgm s3\8.pgm s3\9.pgm s3\10.pgm s4\1.pgm s4\2.pgm s4\3.pgm s4\4.pgm s4\5.pgm s4\6.pgm s4\7.pgm s4\8.pgm s4\9.pgm s4\10.pgm s5\1.pgm s5\2.pgm s5\3.pgm s5\4.pgm s5\5.pgm s5\6.pgm s5\7.pgm s5\8.pgm s5\9.pgm s5\10.pgm
Imagen mas semejante s1\1.pgm s1\5.pgm s1\1.pgm s1\5.pgm s1\5.pgm s1\7.pgm s1\7.pgm s1\5.pgm s1\5.pgm s1\.pgm s2\5.pgm s2\6.pgm s2\5.pgm s2\6.pgm s2\5.pgm s2\6.pgm s2\5.pgm s2\5.pgm s2\9.pgm s2\5.pgm s3\1.pgm s3\1.pgm s3\1.pgm s3\4.pgm s3\5.pgm s3\1.pgm s3\4.pgm s3\4.pgm s3\1.pgm s3\1.pgm s4\9.pgm s4\9.pgm s4\6.pgm s4\4.pgm s4\4.pgm s4\6.pgm s4\4.pgm s4\6.pgm s4\9.pgm s4\4.pgm s5\7.pgm s5\2.pgm s5\2.pgm s5\7.pgm s5\10.pgm s5\7.pgm s5\7.pgm s5\10.pgm s5\10.pgm s5\10.pgm
Distancia Euclidiana 0 3352 3225 3532 0 3113 0 3565 3172 3206 1958 2111 2271 2372 0 0 2997 2583 0 2603 0 2245 2186 0 0 2623 2748 2834 2280 2578 2827 1739 2782 0 2046 0 1403 2827 0 2815 1279 0 1546 1045 2691 2685 0 3001 2646 0
114
Imagen mas semejante s6\1.pgm s6\1.pgm s6\3.pgm s6\5.pgm s6\5.pgm s6\5.pgm s6\5.pgm s6\5.pgm s6\5.pgm s6\5.pgm s7\9.pgm s7\9.pgm s7\7.pgm s7\9.pgm s7\9.pgm s7\7.pgm s7\7.pgm s7\8.pgm s7\9.pgm s7\9.pgm s8\2.pgm s8\2.pgm s8\8.pgm s8\2.pgm s8\5.pgm s8\5.pgm s8\2.pgm s8\8.pgm s8\2.pgm s8\8.pgm s9\5.pgm s9\5.pgm s9\5.pgm s9\8.pgm s9\5.pgm s9\7.pgm s9\7.pgm s9\8.pgm s9\8.pgm s9\5.pgm s10\2.pgm s10\2.pgm s10\2.pgm s10\2.pgm s10\2.pgm s10\2.pgm s10\2.pgm s10\2.pgm s10\9.pgm s10\10.pgm
115
116
117
118
119
120
Imagen de Entrada s36\1.pgm s36\2.pgm s36\3.pgm s36\4.pgm s36\5.pgm s36\6.pgm s36\7.pgm s36\8.pgm s36\9.pgm s36\10.pgm s37\1.pgm s37\2.pgm s37\3.pgm s37\4.pgm s37\5.pgm s37\6.pgm s37\7.pgm s37\8.pgm s37\9.pgm s37\10.pgm s38\1.pgm s38\2.pgm s38\3.pgm s38\4.pgm s38\5.pgm s38\6.pgm s38\7.pgm s38\8.pgm s38\9.pgm s38\10.pgm s39\1.pgm s39\2.pgm s39\3.pgm s39\4.pgm s39\5.pgm s39\6.pgm s39\7.pgm s39\8.pgm s39\9.pgm s39\10.pgm s40\1.pgm s40\2.pgm s40\3.pgm s40\4.pgm s40\5.pgm s40\6.pgm s40\7.pgm s40\8.pgm
Imagen mas semejante s36\8.pgm s36\2.pgm s36\8.pgm s36\8.pgm s36\8.pgm s36\6.pgm s36\6.pgm s36\8.pgm s36\8.pgm s36\6.pgm s37\3.pgm s37\6.pgm s37\3.pgm s37\6.pgm s37\6.pgm s37\6.pgm s37\3.pgm s37\8.pgm s37\3.pgm s37\3.pgm s38\6.pgm s38\7.pgm s38\7.pgm s38\7.pgm s38\7.pgm s38\6.pgm s38\7.pgm s38\7.pgm s38\9.pgm s38\7.pgm s39\1.pgm s39\1.pgm s39\1.pgm s39\1.pgm s39\9.pgm s39\6.pgm s39\9.pgm s39\9.pgm s39\9.pgm s39\6.pgm s40\8.pgm s40\5.pgm s40\8.pgm s40\4.pgm s40\5.pgm s40\8.pgm s40\5.pgm s40\8.pgm
Distancia Euclidiana 3404 0 1758 2349 3288 0 2224 0 2541 2951 1269 1751 0 2447 1914 0 2831 0 1496 2164 1583 1440 1980 2226 1483 0 0 2513 0 2074 0 2046 2922 2673 1797 0 2779 2800 0 2280 2240 2453 2994 0 0 1869 2266 0
121
s40\9.pgm s40\10.pgm
s5\10.pgm s40\4.pgm
2594 2361
TB 4-2 Resultados de proyectar cada imagen del CE (TB 4-1) al Espacio de Rostros. En la prueba de la imagen s40\9.pgm da un resultado negativo el sistema al determinar que s5 es la ms similar. Sin embargo 2927 unidades de distancia euclidiana el sistema considera a la imagen s40\5.pgm como la segunda imagen ms semejante por tener 333 unidades ms que s5\10.pgm. Resultados son diferentes si se aumenta o disminuyen el nmero de imgenes por persona para el CE.
Eficiencia del sistema segn tamao del Conjunto de Entrenamiento
99.64%
100%
100.00%
85.00%
80%
63.57%
Reconocimiento
60%
40%
20%
0% 1 2 3 4
Nm ero de fotos por persona
FG 4-4 Resultados de identificacin obtenidos por nmero de imgenes seleccionadas por persona de la ORL. Seleccionando solo la primera columna a la izquierda del CE (TB 4-1) se obtuvieron 178 identificaciones correctas de 280 (63.75%). En dos fotografas; las dos primeras columnas del mismo CE se obtuvieron 238 identificaciones correctas. Para seleccionar 4 imgenes de cada individuo adems de tomar el CE anterior, se agregaron 40 imgenes ms, entre ellas s40\9.pgm tenindose as 100% de identificacin. Los resultados anteriores se deben a la seleccin hecha del CE. Pero, si se hicieran una serie de pruebas en donde sea la computadora la que escoja al azar el CE los resultados son ms interesantes.
122
La siguiente grfica (FG 4-5) muestra los resultados de 14000 proyecciones con 60 diferentes CE que tienen 6 tamaos distintos. Por ejemplo, para cada combinacin de CE seleccionado al azar por la computadora se proyectan las imgenes que no son del mismo grupo al Espacio de Rostros. Por ejemplo, si se seleccionan 3 imgenes diferentes de cada individuo al azar, se tendr un CE con un tamao de 120/400 (de 40 individuos) de la ORL. Al reportar los resultados en 280 identificaciones por cada CE distinto se tendrn los resultados de 2800 proyecciones o intentos de identificacin (por 10 combinaciones nicas). Estos resultados se adjuntan en la grfica a lo obtenido con CE de un tamao desde 40/400 hasta 240/400 tenindose as 14000 intentos.
Pruebas con Conjunto de Entrenamiento escogido al azar

100% Eficiencia 60% 70% 80% 90%
10
Com binaciones diferentes
40/400
80/400
120/400
160/400
200/400
240/400
FG 4-5 Resultados de identificacin obtenidos por diferentes tamaos de CE en 10 combinaciones distintas. Seleccionando solamente una imagen por cada uno de los 40 individuos presentes en la base de datos de la ORL se tuvieron resultados de eficiencia mximos de 72.22% y mnimos de 65.56% en 10 CE distintos (con un tamao de 40/400) obteniendo un promedio de 69%. El promedio de eficiencia aumenta hasta 83% con dos imgenes seleccionadas por individuo. En un CE de 120/400 se tiene un promedio de 90% y en adelante la eficiencia crece poco hasta alcanzar un promedio de un 95% por un CE de 240/400. A medida que se incrementa el CE la eficiencia lo hace, pero no en forma proporcional, con un CE de 1/3 se obtienen resultados aceptables.
123
Se ha buscado realizar pruebas con la base de datos de la ORL para que el lector a su vez realice su propio sistema de reconocimiento de rostros y con las mismas imgenes compare los resultados obtenidos. Pero es til realizar pruebas con imgenes con diferentes fondos y gestos a los evaluados. Considrese las siguientes imgenes (FG 4-6):
1a.jpg
1b.jpg
1c.jpg
1d.jpg
1e.jpg
2a.jpg
2b.jpg
2c.jpg
2d.jpg
2e.jpg
3a.jpg
3b.jpg
3c.jpg
3d.jpg
3e.jpg
FG 4-6 Conjunto de imgenes tomadas con una cmara digital y transformadas en escala de grises. Considrese que de las imgenes anteriores, se escoge una imagen por individuo para el CE y se proyecta el resto al Espacio de Rostros:
124
IMG
3111
1b.jpg 1c.jpg 1d.jpg
3338
CE 1a.jpg 2a.jpg 3a.jpg

1651 1840 1197 2266
1e.jpg 2b.jpg 2c.jpg 2d.jpg 2e.jpg
2637 1944
2826
3b.jpg
4183 2957
3c.jpg 3d.jpg 3e.jpg
3976
FG 4-7 Proyecciones de imgenes mostradas en (FG 4-6) teniendo como CE 1a.jpg, 2a.jpg y 3a.jpg. Se conoce que segn las imgenes que formen el CE las imgenes de los rostros podrn o no ser identificados. Si se toma una imagen por cada individuo de (FG 4-6)existirn 125 CE diferentes. Se pueden evaluar estos 125 Conjuntos y observar el comportamiento del sistema. Los siguientes 57 grupos (TB 4-3) permiten identificar plenamente a cada imagen de (FG 4-6)
125
1a 2a 3a 1a 2d 3a 1c 2b 3a 1d 2b 3a 1e 2b 3b
1a 2a 3b 1a 2d 3b 1c 2b 3b 1d 2b 3b 1e 2b 3c
1a 2a 3c 1a 2d 3e 1c 2b 3c 1d 2b 3c 1e 2c 3a
1a 2a 3e 1a 2e 3a 1c 2b 3e 1d 2c 3a 1e 2c 3b
1a 2b 3a 1a 2e 3c 1c 2c 3a 1d 2c 3b 1e 2c 3c
1a 2b 3b 1b 2b 3b 1c 2c 3b 1d 2c 3e 1e 2c 3e
1a 2b 3c 1b 2b 3c 1c 2c 3c 1d 2d 3a 1e 2d 3a
1a 2b 3e 1b 2c 3b 1c 2d 3a 1d 2d 3b 1e 2d 3b
1a 2c 3a 1c 2a 3a 1c 2d 3b 1d 2d 3e 1e 2e 3b
1a 2c 3b 1c 2a 3b 1c 2e 3c 1d 2e 3b
1a 2c 3c 1c 2a 3c 1d 2a 3b 1d 2e 3c
1a 2c 3e 1c 2a 3e 1d 2a 3e 1e 2a 3b
TB 4-3 Los 57 CE que permiten identificar plenamente a cualquiera de las imgenes mostradas en (FG 4-6) se omite la extensin .jpg. En amarillo se remarca el mejor grupo por tener un promedio de distancias euclidianas menor. Para los 68 CE restantes, se tienen proyecciones diferentes.
CE 1a 2a 3d 1a 2b 3d 1a 2c 3d 1a 2d 3c 1a 2d 3d 1a 2e 3b 1a 2e 3d 1a 2e 3e 1b 2a 3a 1b 2a 3b 1b 2a 3c 1b 2a 3d 1b 2a 3e 1b 2b 3a 1b 2b 3d 1b 2b 3e 1b 2c 3a 1b 2c 3c 1b 2c 3d 1b 2c 3e 1a 1a 1a 1a 1a 1a 1a 1a 1a 3a 1b 3c 1b 1b 3a 1b 1b 3a 3c 1b 1b 1b 1a 1a 1a 1a 1a 1a 1a 1a 1b 1b 1b 1b 1b 1b 1b 1b 1b 1b 1b 1b 1c 1a 1a 1a 1a 1a 1a 1a 1a 3a 3b 3c 1b 1b 1b 1b 1b 3a 3c 1b 1b 1d 1a 1a 1a 1a 1a 1a 1a 1a 3a 1b 1b 1b 1b 1b 1b 1b 3a 1b 1b 1b 1e 1a 1a 1a 1a 1a 1a 1a 1a 1b 1b 1b 1b 1b 1b 1b 1b 1b 1b 1b 1b 2a 2a 2b 2c 2d 2d 2e 2e 2e 2a 2a 2a 2a 2a 2b 2b 2b 2c 2c 2c 2c 2b 2a 2b 2c 2d 2d 2e 2e 2e 2a 2a 2a 2a 2a 2b 2b 2b 2c 2c 2c 2c 2c 2a 2b 2c 2d 2d 2e 2e 2e 2a 2a 2a 2a 2a 2b 2b 2b 2c 2c 2c 2c 2d 2a 2b 2c 2d 2d 3b 2e 2e 2a 2a 2a 2a 2a 2b 2b 2b 2c 2c 2c 2c 2e 2a 2b 2c 3c 2d 2e 2e 2e 2a 2a 2a 2a 2a 2b 2b 2b 2c 2c 2c 2c 3a 1a 1a 2c 3c 1a 3b 1a 2e 3a 3b 3c 3d 2a 3a 2b 3e 3a 3c 2c 2c 3b 2a 2b 2c 3c 2d 3b 2e 2e 3a 3b 3c 2a 2a 3a 2b 2b 3a 3c 2c 2c 3c 2a 2b 2c 3c 3d 3b 2e 2e 3a 3b 3c 2a 2a 3a 2b 2b 3a 3c 2c 2c 3d 3d 3d 3d 3c 3d 3b 3d 2e 3a 3b 3c 3d 2a 3a 3d 2b 3a 3c 3d 2c 3e 2a 2b 2c 3c 2d 3b 2e 3e 3a 3b 3c 2a 3e 2b 2b 3e 3a 3c 2c 3e
126
CE 1b 2d 3a 1b 2d 3b 1b 2d 3c 1b 2d 3d 1b 2d 3e 1b 2e 3a 1b 2e 3b 1b 2e 3c 1b 2e 3d 1b 2e 3e 1c 2a 3d 1c 2b 3d 1c 2c 3d 1c 2c 3e 1c 2d 3c 1c 2d 3d 1c 2d 3e 1c 2e 3a 1c 2e 3b 1c 2e 3d 1c 2e 3e 1d 2a 3a 1d 2a 3c 1d 2a 3d 1d 2b 3d 1d 2b 3e 1d 2c 3c 1d 2c 3d 1d 2d 3c 1d 2d 3d 1d 2e 3a 1d 2e 3d 1d 2e 3e 1e 2a 3a 1e 2a 3c 1e 2a 3d 1e 2a 3e 1e 2b 3a 1e 2b 3d 1e 2b 3e 1e 2c 3d 1e 2d 3c 1e 2d 3d 1e 2d 3e 1e 2e 3a
1a 3a 1b 3c 1b 1b 3a 1b 1b 1b 1b 1c 1c 1c 1c 1c 1c 1c 1c 1c 1c 1c 1d 1d 1d 1d 1d 1d 1d 1d 1d 1d 1d 1d 1e 1e 1e 1e 1e 1e 1e 1e 1e 1e 1e 1e
1b 1b 1b 1b 1b 1b 1b 1b 1b 1b 1b 1c 1c 1c 1c 1c 1c 1c 1c 1c 1c 1c 1d 1d 1d 1d 1d 1d 1d 1d 1d 1d 1d 1d 1e 1e 1e 1e 1e 1e 1e 1e 1e 1e 1e 1e
1c 3a 3b 3c 1b 1b 1b 1b 3c 1b 1b 1c 1c 1c 1c 1c 1c 1c 1c 1c 1c 1c 3a 3c 1d 1d 1d 3c 1d 1d 1d 1d 1d 1d 3a 3c 1e 1e 1e 1e 1e 1e 1e 1e 1e 1e
1d 3a 1b 3c 1b 1b 1b 1b 1b 1b 1b 1c 1c 1c 1c 1c 1c 1c 1c 1c 1c 1c 1d 1d 1d 1d 1d 1d 1d 1d 1d 1d 1d 1d 1e 1e 1e 1e 1e 1e 1e 1e 1e 1e 1e 1e
1e 1b 1b 1b 1b 1b 1b 1b 1b 1b 1b 1c 1c 1c 1c 1c 1c 1c 1c 1c 1c 1c 1d 1d 1d 1d 1d 1d 1d 1d 1d 1d 1d 1d 1e 1e 1e 1e 1e 1e 1e 1e 1e 1e 1e 1e
2a 2d 2d 2d 2d 2d 2e 2e 2e 2e 2e 2a 2b 2c 2c 2d 2d 2d 2e 2e 2e 2e 2a 2a 2a 2b 2b 2c 2c 2d 2d 2e 2e 2e 2a 2a 2a 2a 2b 2b 2b 2c 2d 2d 2d 2e
2b 2d 2d 2d 2d 2d 2e 2e 2e 2e 2e 2a 2b 2c 2c 2d 2d 2d 2e 2e 2e 2e 2a 2a 2a 2b 2b 2c 2c 2d 2d 2e 2e 2e 2a 2a 2a 2a 2b 2b 2b 2c 2d 2d 2d 2e
2c 2d 2d 2d 2d 2d 2e 2e 2e 2e 2e 2a 2b 2c 2c 2d 2d 2d 2e 2e 2e 2e 2a 2a 2a 2b 2b 2c 2c 2d 2d 2e 2e 2e 2a 2a 2a 2a 2b 2b 2b 2c 2d 2d 2d 2e
2d 2d 2d 2d 2d 2d 2e 3b 2e 2e 2e 2a 2b 2c 2c 2d 2d 2d 3a 3b 2e 2e 2a 2a 2a 2b 2b 2c 2c 2d 2d 2e 2e 2e 2a 2a 2a 2a 2b 2b 2b 2c 2d 2d 2d 2e
2e 2d 2d 3c 2d 2d 2e 2e 2e 2e 2e 2a 2b 2c 2c 3c 2d 3e 2e 2e 2e 2e 2a 2a 2a 2b 2b 2c 2c 3c 2d 2e 2e 2e 2a 2a 2a 2a 2b 2b 2b 2c 3c 2d 2d 2e
3a 3a 3b 3c 2d 2d 3a 3b 3c 3d 2e 2a 1c 2c 2c 3c 2d 3e 3a 3b 2e 2e 3a 3c 2a 1d 2b 3c 2c 3c 3d 3a 2e 2e 3a 3c 1e 2a 3a 1e 2b 2c 3c 3d 2d 3a
3b 3a 3b 3c 2d 2d 3a 3b 3c 2e 2e 2a 2b 2c 2c 3c 2d 3e 3a 3b 2e 3e 3a 3c 2a 2b 2b 3c 2c 3c 2d 3a 2e 2e 3a 3c 2a 2a 3a 2b 2b 2c 3c 2d 3e 3a
3c 3a 3b 3c 2d 2d 3a 3b 3c 2e 2e 2a 1c 2c 2c 3c 1c 3e 3a 3b 2e 2e 3a 3c 2a 2b 2b 3c 2c 3c 3d 3a 2e 2e 3a 3c 2a 2a 3a 2b 2b 2c 3c 3d 3e 3a
3d 3a 3b 3c 3d 2d 3a 3b 3c 3d 2e 3d 3d 3d 2c 3c 3d 3e 3a 3b 3d 2e 3a 3c 3d 3d 2b 3c 3d 3c 3d 3a 3d 2e 3a 3c 3d 2a 3a 3d 2b 3d 3c 3d 3e 3a
3e 3a 3b 3c 2d 3e 2e 3b 3c 2e 3e 2a 2b 2c 3e 3c 2d 3e 3a 3b 2e 3e 3a 3c 2a 2b 3e 3c 2c 3c 2d 2e 2e 3e 3a 3c 2a 3e 2b 2b 3e 2c 3c 2d 3e 2e
127
CE 1e 2e 3c 1e 2e 3d 1e 2e 3e
1a 1e 1e 1e
1b 1e 1e 1e
1c 1e 1e 1e
1d 1e 1e 1e
1e 1e 1e 1e
2a 2e 2e 2e
2b 2e 2e 2e
2c 2e 2e 2e
2d 3c 2e 2e
2e 2e 2e 2e
3a 3c 1e 2e
3b 3c 2e 2e
3c 3c 2e 2e
3d 3c 3d 2e
3e 3c 2e 3e
TB 4-4 Resultados obtenidos con 68 CE al proyectar las imgenes mostradas en (FG 4-6)se omite la extensin .jpg. Por ejemplo si se opera un Espacio de Rostros con un CE por las imgenes 1e.jpg, 2e.jpg y 3e.jpg (ultimo) y se proyecta la imagen 3b.jpg a ste espacio vectorial la imagen con la menor distancia euclidiana ser con la imagen 2e.jpg del conjunto, obtenindose en este caso una identificacin negativa. La menor distancia euclidiana se logra al proyectar la imagen 2b.jpg con 35 puntos al tener el CE con las imgenes 1c.jpg, 2c.jpg y 3a.jpg. En contraparte, la mayor distancia eucldiana es de 7358 unidades al identificar la imagen 1c.jpg con el CE 1b.jpg, 2a.jpg y 3d.jpg. En los casos que se obtuvo una identificacin negativa, la menor distancia euclidiana es de 3435 unidades al no poder identificar la imagen 3e.jpg y considerndola el sistema como la ms semejante a 2e.jpg, esto trabajando con el CE formado por las imgenes 1c.jpg, 2e.jpg y 3d.jpg. La dispersin es grande en las distancias euclidianas, en 1500 proyecciones de cada imagen al espacio de rostros (que no son ya miembros del CE) esto es observado en la siguiente grfica.
Distancias euclidianas en 1500 proyecciones
6000 >= MIN(E) 3% 4800 >= MIN(E) < 6000 11% 0 > MIN(E) < 1200 4%
1200 >= MIN(E) < 2400 28%
3600 >= MIN(E) < 4800 20% 2400 >= MIN(E) < 3600 34%
FG 4-8 Proporciones de distancias euclidianas en 1500 proyecciones de imgenes al Espacio de Rostros en 125 CE y donde las imgenes no son miembros de stos conjuntos.
128
4.5 Comparacin de resultados con otros estudios

Comparando los resultados con otros estudios, se tiene con [STOLL 1997] la implementacin de un sistema de reconocimiento de rostros aplicando una red neuronal Kohonen. En las pruebas se utilizan las imgenes ORL, pero se reducen su tamao. Con 40 imgenes de CE he aqu los resultados:
Tasa de reconocimiento con imgenes ORL a una reduccin de 25% (82% prom.)
Iteracin a) Tasa de reconocimiento con imgenes ORL a una reduccin de 50% (81.5% prom.)
Iteracin
b)
FG 4-9 Resultados obtenidos en [STOLL 1997] con un reconocimiento de rostros con una red neuronal Kohonen. Reduciendo las dimensiones de las imgenes a un cuarto a) y a la mitad b). Sin embargo, resultados muy pobres de reconocimiento se obtuvieron aplicando el filtro de extraccin de contornos de Gabor [STOLL 1997]. Conclusiones que no son compartidas en [RAJAPAKSE y GUO 2001] al aplicar el mismo filtro pero con una red neuronal backpropagation teniendo un error cuadrtico medio del 4.75%. Otro sistema de reconocimiento con redes neuronales fue con [SOSSA 1998, et al] al aplicar una red neuronal ART 2. Se obtuvo un desempeo promedio del sistema en 87%.
Conclusiones
Felix qui potuit rerum cognoscere causas -Virgilio
130
El sistema de reconocimiento de rostros basados en la herramienta de Anlisis de Componentes Principales (ACP) o tambin llamada transformada de Hotelling implementada en Microsoft Visual Basic versin 6 representa un mtodo para proyectar imgenes de rostros encuadrados a un Espacio de Rostros multidimensional. Un nuevo rostro es comparado a rostros ya conocidos dentro de un grupo llamado como CE calculando la distancia euclidiana entre los autovectores (autocaras Rostros Caractersticos) proyectados en este Espacio de Rostros. Esto fue probado con imgenes de rostros obtenidos del Laboratorio de Investigaciones de la empresa Olivetti. Estos son los resultados obtenidos. Lo que el ACP busca es encontrar las direcciones de los vectores de los Rostros Caractersticos autocaras donde las desviaciones se encuentren concentradas, conociendo la medida de la cantidad de desviacin en direccin a estos vectores y la relacin euclidiana existente a los rostros que se proyecten a ste espacio donde contienen stos vectores. Una de las mayores ventajas del reconocimiento de rostros por el ACP es la facilidad de su implementacin, adems que no requiere conocimientos de geometra de los rasgos fsicos del rostro. A diferencia de otros mtodos, la funcin del ACP depende del conjunto de datos de la imagen con lo que permite determinar estocsticamente el grado de relaciones de imgenes en el Conjunto de Entrenamiento sin involucrar las relaciones geomtricas de los rostros. Se recuerda la hiptesis de esta tesis: con el desarrollo de un algoritmo empleando el modelo de Anlisis de Componentes Principales ser posible, en su aplicacin, discriminar la imagen del rostro de un conjunto, con un error menor del 5% de reconocimiento. Las imgenes sern de rostros claramente detectados. Se concluye que en la primera parte de la hiptesis se logra efectivamente identificar a un individuo, pero definir una tasa de error para cualquier conjunto de entrenamiento, es complejo, por la naturaleza misma del rostro, donde puede ser ampliamente superada esta meta en (ver en TB 4-2) pero en (ver en FG 4-5) se prueba que esto depende del tamao del Conjunto de Entrenamiento y el grado de discrepancia de las imgenes que se quieren detectar con las del conjunto. Las limitaciones del mtodo de ACP son evidentes. En primer lugar el algoritmo es sensible a la escala del rostro y su localizacin en la imagen. Adems, slo demuestra un buen desempeo en fondos controlados. Se verific experimentalmente que una representacin a travs de la ACP resulta eficiente desde el punto de vista de compresin de datos ya que la energa principal de una imagen est concentrada en
131
los primeros coeficientes (asociados a los autovalores de mayor magnitud). Se ha demostrado experimentalmente que el mtodo ACP es muy sensible a variaciones en las condiciones en que las imgenes a clasificar son tomadas. Particularmente se ha analizado el caso de imgenes trasladadas horizontalmente, rotadas, con distintos niveles de contraste. Por lo tanto para la implementacin de sistema efectivo resulta crtico realizar un encuadre inicial (localizacin) y ecualizacin del histograma de las imgenes a reconocer. Tambin se analiz la identificacin de imgenes alternativas, es decir donde las expresiones gestuales de los individuos son diferentes y pudo observarse que el algoritmo detecta dichas personas pero con ciertas limitaciones. El sistema tiene una fuerte dependencia a la naturaleza del CE. Se requiere un CE reducido que muestre la variabilidad de expresiones y detalles para que el grado de proyeccin de imgenes subsecuentes sea alto en recursos de cmputo reducidos. La conclusin principal de este trabajo es que este mtodo es muy sensible a deformaciones en los patrones a reconocer. Si existen importantes diferencias de las imgenes de entrada con las imgenes tomadas por el CE el sistema puede confundirse requiriendo una actualizacin del CE.
Trabajos futuros
Para mejorar el rendimiento del sistema de reconocimiento de rostros por el Anlisis de Componentes Principales (ACP) se requiere lo siguiente: 1. Combinar el sistema con otros sistemas de reconocimiento como huellas digitales de iris y que dichos sistemas sirvan de confirmacin de resultados cuando se tenga un grado de certidumbre alto. Tenindose as sistemas que analicen caractersticas inmutables para confirmar el proceso de identificacin de rostros de manera ms confiable para sistemas de seguridad ms crticos. 2. Sin importar el vector de patrones que represente un individuo, se puede lograr que cada clase de rostro sea consistente a varios patrones de vectores cada uno construido a partir de una imagen de un rostro en una condicin especfica en lugar de representar el promedio de estos vectores en ser representados en la clase de rostros. 3. Implementar herramientas que permitan una aproximacin en menor tiempo a los autovectores y autovalores correspondientes a una Matriz de Covarianza con mayores dimensiones al mtodo de Potencias y el mtodo de Householder, sin que esto exija mayores recursos de cmputo. 4. Incorporar al sistema existente un mdulo de deteccin y localizacin de rostros, para que a partir de una imagen presente varios individuos el sistema logre una identificacin de los mismos sin que requiera un encuadre y alimentacin manual al sistema. 5. Para fortalecer el sistema de reconocimiento, se recomienda que se establezcan controles cuando se de el caso en que autovectores o autovalores
132
tengan valores casi idnticos. Aunque la repeticin de autovectores significara una imagen duplicada en el CE; autovectores casi idnticos podra darse en gemelos, generando una incertidumbre que solo sera resuelta con informacin de sistemas de reconocimiento auxiliares. El ACP no es una herramienta para la identificacin de persona en tiempo real en videos, sin embargo, esto es un limitante presente en todo sistema de reconocimiento. Con el advenimiento de sistemas de cmputo mejores como los sistemas nanotecnolgicos dicha barrera se romper permitiendo un fuerte resurgimiento de stos sistemas. Por lo que nuevo conocimiento ser necesario con estos recursos.
Bibliografa y referencias
134
[CANNY 1986] [CARPENTER 1988] [CARPENTER 1987] [EPSTEIN 2002] [ETEMAD Y CHELLAPPA 1997] [GONZALEZ Y WOODS 2002] [GONZALO 2002] [GROSSMAN 1992] [HOUGH 1962] [HOWARD 2004] [KIRBY Y SIROVICH 1990]
[KOHONEN 1982] [KINDERSLEY 1991] [LANITIS 1997] [MOGHADDAM Y PENTLAND 1997] [OLIVETTI 2005] [PENEY Y ATICK 1996]
Canny, J. "A Computational Approach for Edge Detection," IEEE Trans. Pattern Anal. Machine Intell, vol. 8 no 6, pg. 679-698. G. A. Carpenter and S. Grossberg, The ART of adaptive pattern recognition by a self-organizing neural network, IEEE Computer, 21(3):77-88, 1988. G. A. Carpenter and S. Grossberg, ART 2: Self-organization of stable category recognition codes for analog input signals, Applied Optics, 26(23):4919-4930, 1987. Robert Epstein Fingerprints meet Doubert. The myth of fingerprint science is Revealed Southern California Law Review. Vol .75:605. 4 de Marzo 2002. K. Etemad and R. Chellappa, ``Discriminant analysis for recognition of human face images,'' Journal of the Optical Society of America, vol. 14, pp. 1724-1733, 1997. Gonzlez, C. Rafael Y Woods E. Richard. Digital Image Proccessing,. Prentice Hall. ISBN:0-20-118075-8. United States, 2002. Gonzalo, Pajares Y De La Cruz, M. Jess. Visin por computador,. Alfaomega, ISBN: 970-15-0804-1. Mxico, 2002 Grossman, Stanley I. "lgebra lineal con aplicaciones". Cuarta Edicin. Editorial Mc Graw Hill. ISBN 968-422-984-4. Mxico 1992. Hough, P.V.C. "Methods and Means for Recognizing Complex Patterns" U.S. Patent 3,069,654. HOWARD, ANTON. "Introduccin al lgebra lineal". Tercera edicin. Editorial Limusa Wiley ISBN 968-18-6317-8. Mxico 2004. M. Kirby and L. Sirovich, ``Application of the karhunen-loeve procedure for the characterization of human faces,'' IEEE Pattern Analysis and Machine Intelligence, vol. 12, no. 1, pp. 103-108, 1990. Kohonen, T. "Self-organized formation of topologically correct feature maps," Biological Cybernetics, 43 59-69, 1982. Dorling Kindersley. The visual dictionary of the human body. UK 1991. Lanitis A., Taylor C.J. y Cootes, T.F (1997) "Automatic Interpretation and Coding of Face Images Using Flexible Models", IEEE Trans. on PAMI, pp. 743-756, vol. 19, n 7, julio 1997. B. Moghaddam and A. Pentland, ``Probabalistic visual recognition for object recognition,'' IEEE Pattern Analysis and Machine Intelligence, vol. 19, no. 7, pp. 696-710, 1997. Olivetti Research Laboratories ftp://ftp.uk.research.att.com:pub/data/att_faces.zip 2003. Penev P. and J. Atick, ``Local feature analysis: A general statistical theory for object representation,'' Network: Computation in Neural Systems, vol. 7, pp. 477-500, 1996.
135
[PHILLIPS 1993 et al.]
[POOLE 2004] [RAJAPAKSE Y GUO 2001] [SOSSA 1998, et al.]
[STOLL 1997]
[TURK Y PENTLAND 1991]
[WELDON 1996] [WISKOTT 1997 et al.]
[WALPOLE Y MYERS 1999] [WURTZ 1994] [ZAUNY 2001]
P. Phillips, H. Wechsler, J. Huang, and P. Rauss, ``The FERET database and evaluation procedure for face recognition algorithms,'' Image and Vision Computing, vol. 16, no. 5, pp. 295306, 1993. Poole, David. "lgebra lineal: Una introduccin moderna". Editorial Thomson. ISBN: 970-686-272-2. Mxico 2004. Menaka Rajapakse, Yan Guo. Performance analysis of Gabor responses in face recognition, Kent Ridge Digital Lab. menaka@krdl.org.sg. Singapore 2001. Juan Humberto Sossa Azuela, Patricia Rayn Villela y Jess Figueroa Nazuno "Arquitectura basada en Redes Neuronales para el Reconocimiento de Rostros" Centro de Investigacin en Computacin del IPN. Laboratorio de Sistema Complejos, Soluciones Avanzadas pgs. 67-72. Noviembre 1998. Jacob Stoll. "Face Recognition using Neural Methods" Bachelor Thesis Department of Electrical and Computer Engineering, University of Queensland. En la division de Computer Systems Engineering. Octubre 1997. M.A. Turk, A.P. Pentland, "Face Recognition using Eigenfaces". Vision and Modeling Group. The Media Laboratory Massachusetts Institute of Technology. En proc. de Computer Vision an Pattern Recognition, pgs 586-591. IEEE, junio 1991. Weldon T, Higgins W and Dunn D, Efficient Gabor Filter Design for Texture Segmentation, Pattern Recognition, Vol. 29, No. 12, pg. 2005-2015, 1996. L. Wiskott, J-M. Fellous, N. Kruger, and C. von der Malsburg, ``Face recognition by elastic bunch graph matching,'' IEEE Pattern Analysis and Machine Intelligence, vol. 19, no. 7, pp. 775-779, 1997. WALPOLE, RONALD E., MYERS, RAYMOND H. MYERS SHARON L. "Probabilidad y estadstica para ingenieros" Sexta Edicin. Editorial Prentice Hall. Mxico 1999. Wrtz, R.P., Multilayer Dynamic Link Networks for Establishing Image Point Correspondences and Visual Object Recognition. Ph. D. Thesis, Universidad de Bochum, 1994. Zauny, Fandez Marcos. Tratamiento digital de voz e imagen,. Afaomega, Mxico, 2001.
Apndice A Breve repaso de lgebra lineal
Las matemticas es el puente que une El mundo de las ideas con el mundo de la realidad. -Isaac Newton
137
Apndice A: Breve repaso de lgebra lineal

El propsito de ste apndice es dar un contexto general, que sea suficiente para el entendimiento de los trminos de lgebra lineal que se mencionan en sta tesis. Aunque se recomienda utilizar la bibliografa propuesta para su mejor entendimiento.
A.1 Definiciones generales

El lgebra lineal es una rama de las matemticas que estudia los sistemas de ecuaciones lineales, transformaciones lineales, vectores y espacios vectoriales y temas afines. Un sistema de ecuaciones es un conjunto de ecuaciones cuyas soluciones comunes se pretende hallar. Las ecuaciones de un sistema suelen tener dos o ms incgnitas, por lo que cada una de ellas puede tener infinitas soluciones. Se llama solucin del sistema a una solucin comn a todas las ecuaciones que lo forman. Resolver un sistema de ecuaciones es hallar todas sus soluciones o concluir que no tiene solucin. Si dos sistemas de ecuaciones tienen las mismas soluciones o ambos carecen de solucin, se dice que son sistemas de ecuaciones equivalentes. Los sistemas de ecuaciones sin solucin se llaman incompatibles y los que tienen solucin, compatibles. Una ecuacin con varias incgnitas es lineal si es de la forma ax + by = c, ax + by + cz = d4, es decir, si las incgnitas aparecen sin exponentes. Un sistema de ecuaciones lineales compatible, o bien tiene solucin nica (es determinado), o tiene infinitas soluciones (es indeterminado). Existen varios mtodos elementales para resolver sistemas de ecuaciones: el mtodo de sustitucin, el mtodo de igualacin y el mtodo de reduccin. El mtodo de sustitucin consiste en despejar una de las incgnitas en una de las ecuaciones y sustituir su expresin en la otra, la cual se transformar en una ecuacin con una incgnita que se puede resolver. El mtodo de igualacin consiste en despejar la misma incgnita en las dos ecuaciones e igualar sus expresiones, obteniendo as una ecuacin con una incgnita. Una vez resuelta se obtiene fcilmente el valor de la otra incgnita. El mtodo de reduccin consiste en procurar que una de las incgnitas tenga el mismo coeficiente en las dos ecuaciones para que, al restarlas miembro a miembro, se elimine dicha incgnita, dando lugar a una ecuacin con slo la otra incgnita. Se resuelve dicha ecuacin y el valor de la incgnita se sustituye en una de las ecuaciones primitivas, y con ello se puede obtener el valor de la otra incgnita. Una matriz es una tabla rectangular de nmeros. Una de las principales aplicaciones de las matrices es la representacin de sistemas de ecuaciones de primer grado con varias incgnitas. Cada fila de la matriz representa una ecuacin, siendo los valores de una fila
138
los coeficientes de las distintas variables de la ecuacin, en determinado orden. Por ejemplo, para representar en una matriz un sistema de ecuaciones se hace (EJ A-1):
2 x + 4 y + 6 z = 18 2 4 6 18 4 x + 5 y + 6 z = 24 = 4 5 6 24 3 x + y 2 z = 4 3 1 2 4
EJ A-1 Ejemplo de sistema de ecuaciones lineales. Los elementos de una matriz general, de tamao m n, m renglones, n columnas. Se representan normalmente utilizando un doble subndice; el primer subndice, i, indica el nmero de fila y el segundo, j, el nmero de columna. As pues, el elemento a23 est en la segunda fila, tercera columna. La matriz general se delimita generalmente entre corchetes, aunque tambin puede ser entre parntesis.
a11 a A = 21 a m1
EC A-1 Definicin de una matriz.
a12 a 22 am2
a1n a11 a 2 n a 21 = a mn a m1
a12 a 22 am2
a1n a2n a mn
El tamao de una matriz est dado por el nmero de filas y el de columnas en este orden. Si m = n, es una matriz cuadrada y el nmero de filas (o columnas) es el orden de la matriz. Dos matrices A = (aij) y B = (bij), son matrices iguales, si y slo si son de igual tamao y s para todo i e j, aij = bij. Si A = (aii) es una matriz cuadrada, los elementos a11, a22, ..., aii forman la diagonal principal de la matriz. La matriz transpuesta de una matriz A es otra matriz AT en la cual en cada elemento aij de A, su fila i ser la columna i de AT, y la columna j ser la fila j de AT. Una matriz cuadrada es una matriz simtrica si es igual a su transpuesta. La matriz cero es aqulla en la que todos los elementos son 0. Una matriz diagonal es una matriz cuadrada donde todos los elementos son 0 salvo los elementos de la diagonal principal. La matriz unidad o matriz de identidad Im de orden m, es una matriz cuadrada de orden m en la cual todos los elementos son cero excepto los de la diagonal principal, que son 1. El orden de la matriz de identidad se puede omitir si se sobrentiende con el resto de la expresin, con lo que Im se escribe simplemente I.
139
La adicin y la multiplicacin de matrices estn definidas de manera que ciertos conjuntos de matrices forman sistemas algebraicos. Considrese los elementos de las matrices nmeros reales cualesquiera. La suma de dos matrices slo est definida si ambas tienen el mismo tamao. Si A = (aij) y B = (bij) tienen igual tamao, entonces la suma C = A + B se define como la matriz (cij), en la que cij = aij + bij, es decir, para sumar dos matrices de igual tamao basta con sumar los elementos correspondientes. Para restar dos matrices, C=A-B, la matriz (cij), se define como cij = aij - bij teniendo las matrices A y B tambin el mismo tamao. En el conjunto de todas las matrices de un determinado tamao la adicin tiene las propiedades uniforme, asociativa y conmutativa. Adems hay una matriz nica 0 tal que para cualquier matriz A, se cumple A + 0 = 0 + A = A y una matriz nica B tal que A + B = B + A = 0. En el producto de dos matrices AB, A y B, est definido slo si el nmero de columnas del factor izquierdo, A, es igual al nmero de filas del factor derecho, B; si A = (aij) es de tamao m n y B = (bjk) es de tamao n p, el producto AB = C = (cik) es de tamao m p, y cik est dado por
cik = aij b jk
j =1
EC A-2 Ecuacin para el producto de dos matrices. Es decir, el elemento de la fila i y la columna k del producto es la suma de los productos de cada uno de los elementos de la fila i del factor izquierdo multiplicado por el correspondiente elemento de la columna k del factor derecho. La determinante de una matriz es una funcin det(A) que asocia un escalar denotado como |A| a una matriz cuadrada A. El significado geomtrico de un determinante es un factor escalar para un volumen, cuando A es considerado como una transformacin lineal. Para conocer, por ejemplo, la determinante de una matriz de tamao 2 x 2 es igual a11a22 - a21a12. De forma general, para encontrar el determinante de una matriz de tamao n x n se hace por medio de un desarrollo de cofactores a lo largo del primer rengln.
det( A) = a1 j C1 j
j =1
EC A-3 Determinante de una matriz.
140
Definindose como cofactor:
Cij = (1) i + j det( Aij )

EC A-4 Definicin de un cofactor. Por ejemplo, para calcular la determinante de una matriz de 3 x 3 se hace lo siguiente:
det( A) = A = (1)1+1 a11 A11 a11 A = a 21 a31 a12 a 22 a32 a13 (1)1+ 2 a12 A12 (1)1+3 a13 A13 a a 23 (+1)a13 21 a31 a33 a 22 a32
a a 23 = (+1)a11 22 a32 a33
a a 23 (1)a12 21 a 31 a33
A = a11 (a 22 a33 a 23 a33 ) a12 (a 21 a 33 a 23 a33 ) + a13 (a 21 a32 a 22 a31 )
EJ A-2 Ejemplo para calcular la determinante de una matriz de 3 X 3. Una matriz es inversa de otra matriz, si el producto entre las matrices es la matriz identidad. Es decir, la matriz A-1 es una matriz inversa de la matriz A s A-1A = AA-1 = I. Existiendo un sistema de n ecuaciones lineales con n incgnitas Ax=b y se debe utilizar el lgebra de matrices para resolver el sistema. A modo de analoga, considrese la ecuacin ax=b, donde a y b son nmeros reales y despejando x ser igual a b/a, a0. De manera anloga, se necesita encontrar A-1 (anloga a 1/a) tal que AA-1 = I, para resolver el sistema de ecuaciones lineales Ax=b, se tiene la solucin nica x=A-1b, para cualquier b de orden m. Es decir, el objetivo ser encontrar la matriz inversa A-1 para satisfacer el sistema de ecuaciones Ax=b. Es claro que no toda matriz puede invertirse, como es en el caso de la matriz 0, pero en caso que lo sea, entonces su inversa es nica. Por ejemplo, para la obtencin de la matriz inversa de orden 2 se hace solucionando el siguiente sistema de ecuaciones.
141
a12 x y 1 0 a Ax = 11 = a 21 a 22 z w 0 1 a11 x + a12 z a11 y + a12 w 1 0 a x + a z a y + a w = 0 1 22 21 22 21

a11 x + a12 z 1 a 21 x + a 22 z 0 a11 x + a12 z 1 a 21 x + a 22 z 0 1 0 x 0 1 z a11 y + a12 w 0 a 21 y + a 22 w 1 1 0 x y 0 a11 y + a12 w 1 0 = 1 a 21 y + a 22 w 0 1 0 1 z w 1 0 y 0 1 w
EJ A-3 Ejemplo para la inversa de una matriz de dimensiones de 2 X 2. Para calcular la inversa de una matriz cuadrada A. Primero se escribe la matriz aumentada [A|I]. Utilizando la reduccin de renglones de Gauss-Jordan deber aparecer la matriz inversa a la derecha de la barra vertical. En caso de que se obtenga un rengln de ceros la matriz no es invertible. Una matriz es invertible si su determinante es diferente de cero. Ahora, existen algunas propiedades en las matrices inversas. Tenindose las matrices cuadradas A y B y el escalar las siguientes propiedades. ( A 1 ) 1 = A (A) 1 = 1 A 1
a) b) c) d)
( AB) 1 = A 1 B 1 (A )
T 1
= (A )
1 T
A n = ( A n ) 1 = ( A 1 ) n , n 0 e) A-1A = AA-1 = I f)
EC A-5 Propiedades de una matriz inversa.
142
Para el mejor entender del proceso de invertir una matriz, vase el ejemplo (EJ A-4)
2 4 6 A = 4 5 6 3 1 2 2 4 6 1 0 0 4 5 6 0 1 0 3 1 2 0 0 1 1 0 0 2 0 1 0 0 0 1
1 2 3 R1 1 R1 = 4 5 6 2 3 1 2 1 = 0 R3 R3 3R1 0 1 R 2 1 R 2 = 0 3 0 1 0 R1 R1 2 R2 = 0 1 R3 R3 + 5 R2 0 0 R2 R2 4 R1 2 3
3 1 0 0 2 6 2 1 0 0 1 5 11 3 2 2 3 1 1 2 2 3 5 11 3 2 2 0 0 1 0 3 0 1 0 0 1
1 56 23 1 2 2 3 3 1 11 5 6 3
1 0 1 5 2 6 3 1 0 1 2 2 R3 1R3 = 3 3 5 0 0 1 11 6 3
0 0 1 1 2 1 14 6 22 12 10 6
1 0 0 8 7 3 3 R1 R1 + R3 13 11 = 0 1 0 3 3 R2 R2 2 R3 5 0 0 1 11 6 3 7 8 1 16 3 3 1 11 A = A = 13 2 = 1 26 3 3 6 11 5 11 1 6 3 EJ A-4 Ejemplo para poder invertir una matriz.
143
Cualquier representacin de una matriz como un producto de dos o ms matrices se denomina factorizacin matricial. Una matriz puede ser factorizada como un producto de dos matrices, una matriz triangular inferior y otra matriz triangular superior. A este tipo de factorizacin matricial se conoce como factorizacin LU. Una matriz es triangular superior si todos los elementos situados debajo de la diagonal principal son igual a cero. En forma contraria, una matriz es triangular inferior si todos los elementos situados por arriba de la diagonal principal son cero. En un sistema de ecuaciones lineales Ax=b se puede resolver mediante el producto de dos matrices: Una matriz triangular inferior (L) y otra matriz triangular superior (U). Si se emplea la eliminacin gaussiana, a fin de resolver el sistema Ax=b, lo que se obtiene es una matriz triangular superior. La eliminacin gaussiana concluir cuando la matriz este en la forma escalonada por renglones, y la forma escalonada por renglones de la matriz cuadrada A es la matriz triangular superior U. Entonces A se reduce a U mediante una sucesin de operaciones elementales de rengln, cada una de estas operaciones se puede efectuar multiplicando por una matriz elemental apropiada. As, es posible encontrar matrices elementales E1, E2, ..., En tales que (EC A-6):
U = E n E n 1 E n 2 L E 2 E1 A
EC A-6 Ecuacin para obtener una matriz triangular superior. Las matrices E1, E2, ..., En son matrices elementales porque se pueden obtener a partir de la matriz de identidad al efectuar una sola operacin elemental en uno de sus renglones. Toda matriz elemental es invertible, as como su matriz inversa es elemental. De modo que es posible multiplicar sucesivamente por la izquierda ambos miembros de la ecuacin anterior (EC A-6) por lo siguiente:
E n 1 , L , E 2 1 E11
EC A-7 Definicin de matrices elementales.
144
Para obtener:
A = E11 E 2 1 L E n 1U L = E11 E 2 1 L E n 1
A = LU
EC A-8 Definicin de una matriz triangular superior e inferior. La matriz L es la matriz triangular inferior en el supuesto que para reducir A hacia U, no sea necesario efectuar ningn intercambio de renglones. Suponiendo que es el caso, se obtendr la factorizacin de A en un producto de una matriz triangular inferior y una matriz triangular superior. Por ejemplo para factorizar la siguiente matriz:
6 2 2 A = 3 8 0 4 9 2 y obtener sus correspondientes matrices triangular superior e inferior se realiza lo siguiente:
145
1 0 0 2 E1 = 0 1 0 0 0 1 3 1 R1 1 R1 3 8 2 4 9
2 0 0 1 E1 = 0 1 0 0 0 1 1 0 2 0 0 1 0 0 1
1 3 1 U = 0 1 3 0 0 1 2 0 0 = 0 1 0 0 0 1 1 0 0 = 3 1 0 0 0 1 1 = 0 4 1 = 0 0 0 0 1 0 0 1 0 0 1 0 3 1
1 1
1 0 0 1 3 1 0 E 1 = 3 3 E1 = 1 0 0 1 0 1 3 1 R2 R2 + 3 R11 0 1 3 4 9 2 1 0 0 1 0 1 0 E 1 = 0 E1 = 1 4 0 1 4 1 0 0 1 0 E1 = 0 1 0 3
R3 R3 4 R1
E2 1
1 3
0 0 1 0 0 1
E4 1
3 1 1 3 3 2 0 1 0 0 E 1 = 0 1 0 0 1 0 3 1 1 1 1 3 R3 R3 + 3 R21 0 1 3 0 3 2 1 0 0 1 0 0 1 E1 = 0 1 0 E1 = 0 1 0 0 0 1 0 0 7 7
R3 1 R3 7
1 5
1 0 0 = 0 1 0 0 0 7
L = E11 E 2 1 E31 E 4 1 E51
0 0 2 3 1 0 L= 4 3 7 A = LU = 6 2 2 0 0 1 3 1 2 3 8 0 = 3 1 0 0 1 3 4 9 2 4 3 7 0 0 1
1 3 1 0 1 3 = U 0 0 1
EJ A-5 Ejemplo para factorizar una matriz de 3 X 3.
146
Suponiendo que el sistema de ecuaciones lineales Ax=b sea el siguiente:
6 2 x1 2 2 2 8 0 x = 2 = b Ax = 2 4 9 2 x 3 3
EJ A-6 Ejemplo de un sistema de ecuaciones usando la matriz A del (EJ A-5).
Se puede resolver el sistema mediante el producto de las matrices triangular inferior (L) y la triangular superior (U) obtenidas a partir de (EJ A-5): 0 0 1 3 1 x1 2 2 3 1 0 0 1 3 x = 2 2 4 3 7 0 0 1 x3 3
EJ A-7 Resolucin de un sistema de ecuaciones dada a las matrices superior e inferior de A (EJ A-5).
Se puede definir una nueva matriz y de n x 1 por: 1 3 1 x1 y1 Ux = y, 0 1 3 x 2 = y 2 0 0 1 x3 y 3

EJ A-8 Uso de la matriz triangular superior en un sistema de ecuaciones.
De modo que (EJ A-6) se puede volver escribir como: 0 0 y1 2 2 3 1 0 y = 2 Ly = b, 2 4 3 7 y 3 3

EJ A-9 Uso de la matriz triangular inferior en un sistema de ecuaciones.
El procedimiento para resolver este sistema es semejante a la retrosustitucin, excepto que las ecuaciones se resuelven de arriba hacia abajo, en vez de abajo hacia arriba. Este procedimiento es denominado sustitucin hacia delante produciendo y1=1, y2=5, y3=2.
147
Sustituyendo estos valores en (EJ A-8) se obtiene un sistema lineal que servir para conocer los valores x1, x2, x3 por retrosustitucin, teniendo respectivamente los valores de 2, -1 y 2. Aunque este procedimiento reemplaza el problema de resolver el simple sistema Ax=b por el problema de resolver dos sistemas Ly=b y Ux=y, stos se resuelven fcilmente porque las matrices de coeficientes son triangulares. A diferencia del mtodo de eliminacin gaussiana, el mtodo de Gauss-Jordan reduce la matriz por renglones a la forma escalonada por reglones reducida La diferencia es importante, si se quiere implementar en computadora, se requieren menos operaciones elementales de rengln en la eliminacin gaussiana. El estudio de los vectores y las matrices es el alma del lgebra lineal. En esencia, el estudio comenz con el trabajo del gran matemtico irlands Sir William Rowan Hamilton (1805-1865). Su deseo de hallar una forma de representar ciertos objetos en el plano y en el espacio le llev a descubrir lo que l llam cuaterniones. Este concepto condujo a su vez el desarrollo de lo que ahora se conoce por vectores. El concepto geomtrico de vector como segmento rectilneo de mdulo, direccin y sentido dados. Un n-vector (vector n-dimensional, vector de orden n o vector de dimensin n) es un conjunto ordenado de n elementos de un cuerpo. Al igual que en la teora de matrices, los elementos de un vector pueden ser nmeros reales. Un vector rengln de n-componentes se define como un conjunto ordenado de n nmeros, y se escribe como:
(x1 , x 2 ,...xn )
EC A-9 Definicin de un vector rengln.
Un vector columna de n-componentes se define como un conjunto ordenado de n nmeros, y se escribe como
x1 x2 M x n
EC A-10 Definicin de un vector columna.
148
En vectores, x1 recibe el nombre de primer componente del vector y en general, es el xn n-simo componente del vector. Se refiere a una matriz de tamao n por 1, como un vector. Tal vector asume un significado geomtrico cuando se asocian sus elementos con propiedades geomtricas. Por ejemplo, considrese un espacio bidimensional en donde sus puntos son representados por sus coordenadas ( x, y ) . Mismas coordenadas pueden ser expresadas en trminos de una columna como la siguiente:
x u= y
EJ A-10 Las coordenadas x, y en un vector columna.
Geomtricamente, se representa este vector como una lnea directa desde el origen hasta el punto (x, y). En un espacio tridimensional el vector tendra componentes ( x, y, z ) . En un espacio de n dimensiones se representara de la siguiente forma:
x1 x x = 2 M xn
EC A-11 Definicin de un vector multidimensional.
Los vectores tienen algunas propiedades entre las que se pueden mencionar:

Los vectores tienen componentes reales o complejos. Para propsitos de la presente tesis solamente se considerarn los vectores cuyos componentes con del conjunto de los nmeros reales R. Se emplea el smbolo Rn para denotar los vectores reales de m dimensiones.
La igualdad de dos vectores se da si y solo s en cada vector existen el mismo nmero de componentes y sus componentes correspondientes sean iguales. Las operaciones aritmticas de los vectores siguen las mismas reglas como en el caso de las matrices. El producto en un vector por un escalar se obtiene simplemente multiplicando cada elemento del vector por el escalar. La suma de dos vectores x y y se forma por la adicin de sus elementos correspondientes {x1+y1, x2+y2 + ... + xn+yn} y es similar en la resta de vectores{x1-y1, x2-y2 + ... + xn-yn}. La multiplicacin de dos vectores es al igual como en el caso de las matrices, teniendo que ser ambos factores mismas dimensiones.
149
Sean u, v y w vectores en Rn y es un nmero real, entonces (EC A-12): Por ley de identidad Por ley distributiva Por ley conmutatividad Por transpuesta Ley de distribucin por producto escalar
EC A-12 Propiedades de los vectores.
u+0 = 0+u =u 0u = u 0 = 0
(u + v) wT = u wT + v wT u (v + w) T = u v T + u wT
v u T = (u v T ) T u = u
a) b) c) d) e)
(u T ) T = u (u + v) T = u T + v T
( u ) v T = (u v T ) = u ( v T )
A.2 Espacio de vectores

Informalmente se puede pensar en un espacio vectorial como un conjunto cuyos vectores se pueden sumar, restar, (estructura de grupo) estirar y contraer (multiplicacin por escalar). Ms formalmente, un conjunto V no vaco es un espacio vectorial sobre un cuerpo K, si dadas dos operaciones: suma vectorial definida en V, se denota v + w para todo v y w de V, y producto escalar en V, se denota av para todo v de V y a de K, si cumple las siguientes 10 propiedades (5 propiedades para la suma y 5 para el producto escalar) para todo a, b de K y u, v y w de V: Para la Suma 1. La suma vectorial es una operacin cerrada en V. Es decir, v + w pertenece a V. 2. Asociatividad de la suma vectorial en V, u + (v + w) = (u + v) + w. 3. Existe un elemento 0 en V tal que para todo v de V, v + 0 = v. Existencia del elemento neutro de la suma vectorial en V. 4. Para todo v de V, existe un elemento -v en V, tal que v + (-v) = 0. Existencia del elemento opuesto respecto a la suma vectorial en V. 5. Conmutatividad de la suma vectorial en V como v + w = w + v. Para el Producto Escalar 1. El producto escalar es una operacin cerrada en V. Es decir, av pertenece a V.
150
2. Asociatividad del producto escalar en V, a(bv) = (ab)v. 3. La matriz de identidad 1 como elemento neutro en la multiplicacin del campo escalar K, entonces 1v = v. Neutralidad del uno del campo escalar. 4. Distributividad con respecto a la suma vectorial. a(v + w)=av + aw. 5. Distributividad con respecto a la suma escalar (a + b)v = av + bv. Las propiedades de la 1 a la 5 indican que V es conmutativo o Abeliano bajo la suma vectorial. De las propiedades anteriores, se puede probar inmediatamente las siguientes formulas tiles:
a0 = 0v = 0 -(av) = (-a)v = a(-v) a K , v V . a) b)
EC A-13 Segn las propiedades se puede probar que cualquier vector multiplicado por cero es el origen y la propiedad conmutativa en la resta vectorial.
Ahora, para determinar si un conjunto V es un espacio vectorial se debe especificar el conjunto V, el campo escalar K y definir la suma vectorial y el producto escalar en V. Entonces si V satisface las 10 propiedades anteriores, es un espacio vectorial sobre el cuerpo K. Si en dos espacios de vectores V0 y V, cada elemento de V0 es tambin un elemento en V, se dice que V0 es subespacio de V. Las operaciones de los elementos en V0 sern los mismos como los elementos en V.
A.3 Vectores linealmente independientes

Se dice que dos vectores u y v de un mismo espacio vectorial son vectores independientes si no son proporcionales, es decir si uno de ellos no es un mltiple del otro. Para cualquier escalar k, se tiene u kv. Es equivalente decir que el sistema (u, v) compuesto por los dos vectores es libre. Geomtricamente, dos vectores son independientes si no tienen la misma direccin (con sentidos idnticos u opuestos). Esta definicin supone que el vector nulo tiene todas las direcciones. Tres vectores son independientes si y slo si no estn contenidos en el mismo plano vectorial, o sea si ninguno de ellos es una combinacin lineal de los otros dos (en cuyo caso estara en el plano generado por estos vectores). Esta nocin se generaliza a un nmero cualquiera de vectores. Los n vectores son independientes si ninguno de ellos es una combinacin lineal de los dems, o, de manera equivalente, si no existe una combinacin lineal no nula de los vectores cuyo resultado es el vector nulo. Es decir formalmente, en un conjunto de vectores v1, v2, .., vn, son independientes si no existen n escalares 1, 2, ... n, no siendo todos los escalares cero,
151
tales que 1v1 + 2v2 + ... + nvn 0. Es decir, ninguno de ellos puede ser combinacin de otros, en caso que lo sea, son vectores dependientes. El espacio generado por un sistema de vectores es el conjunto de todas las combinaciones lineales de estos vectores. Es un espacio vectorial. El espacio generado por un vector no nulo es la recta vectorial dirigido por este vector. El espacio generado por dos vectores independientes es el plano que los contiene. Resulta fcil comprobar que el espacio generado por un sistema de vectores es el menor (por la inclusin) espacio vectorial que los contiene a todos. Si n vectores son independientes, el espacio generado es de dimensin n (dimensin en el sentido usual: 0 para un punto, 1 para una recta, 2 para un plano, etctera). Por ejemplo, en el espacio tridimensional usual: Los vectores u y j son dependientes pues tienen la misma direccin. (Aunque sentidos opuestos). Los vectores u y v son independientes y generan el plano P. Los vectores u, v y w son dependientes, pues son tres vectores en el mismo plano. Los vectores u, v y k son independientes pues u y v lo son y k no es una combinacin lineal de u y v generando el espacio tridimensional. Los vectores 0 y k son dependientes puesto que 0=0k
FG A-1 Ejemplos del comportamiento de vectores en un espacio tridimensional.
Un conjunto S con vectores v1, v2, v3, ..., vn, dentro del espacio vectorial V se dice que se extiende sobre el subespacio V0 de V si y solamente si S es un subconjunto de V0 y cada vector v en V0 es linealmente dependiente a los vectores en S. El conjunto S se dice que es una extensin del subespacio V0. Teniendo un conjunto de vectores v1, v2, ..., vn estando los n vectores dentro del espacio vectorial V. El conjunto de combinaciones lineales de {v1, v2, ..., vn} generar un espacio, mismo que seguir estando dentro del espacio vectorial V. Es decir el espacio vectorial V se habr extendido. El conjunto de n vectores linealmente independientes que generen un espacio vectorial ser la base de dicho espacio. Es decir todo conjunto de n vectores linealmente independientes en Rn es una base de Rn. Los n vectores base de un espacio vectorial ser la dimensin del espacio vectorial.
152
A.4 Norma de vectores y propiedades

En un sistema coordenado, la distancia entre dos puntos se define como el valor numrico o valor absoluto de la longitud del segmento rectilneo que uno esos dos puntos. Sea la distancia entre dos puntos dados. Sean P1(x1, y1) y P2(x2, y2) dos puntos cualquiera.
5 4 3 2 1 0 -1 -2 -3 -4 -5 -5 -3 -1 1 3 5
P1 (x1 , y1 )
C D E P2 (x2 , y2 )
FG A-2 Recta entre los puntos P1 y P2.
Para determinar la distancia d entre los puntos P1 y P2. Por la recta P1P2 se trazan las rectas perpendiculares P1A y P2D a ambos ejes coordenados, con el punto E como interseccin. Considerando P1EP2 como triangulo rectngulo, con el teorema de Pitgoras, se establece:
d 2 = P1 P2 = P2 E 2 + EP1
EJ A-11 Distancia entre los puntos P1 y P2 de (FG A-1).
2 2
Como coordenadas se tiene que A(x1, 0), B(0, y1), C(x2, 0), y D(0,y2). Restando la coordenada de origen y la coordenada externa se obtiene su longitud.
P2 E = CA = x1 x 2 , EP1 = DB = y1 y 2
EJ A-12 Reexpresin de (EJ A-11) en trminos de diferencia de coordenadas.
153
Sustituyendo (EJ A-11)en los valores de (EJ A-12), se obtiene:
d=
(x1 x2 )2 + ( y1 y 2 )2
EC A-14 Longitud de una recta en un espacio de dos dimensiones.
La norma de un vector en un espacio vectorial V es una funcin que asigna a cada vector v en el espacio vectorial V un nmero real positivo, llamado norma de v denotado como |v|. La norma de un vector satisface las siguientes condiciones: 1. |v|> 0 para v0; |0|=0. 2. |cv|=|c||v| para todos los escalares c y los vectores v, y 3. |u + v||u|+|v|. La norma ms frecuente es la segunda norma, que para un vector x en espacio vectorial Rm, es decir es de orden m. Esto se define como:
x =
x
i =1
2 i
EC A-15 Norma de un vector de mltiples dimensiones obtenido por sus componentes.
Al igual que en la geometra, sobre la longitud de una recta, la norma de un vector es la distancia de ste vector con su origen.. Se reconoce esta expresin como distancia Euclidiana del origen al vector x, dando a esta expresin comnmente como Norma Euclidiana. La expresin tambin es reconocida como la longitud del vector x y de forma similar a los valores absolutos, la longitud del vector se denota como |x|. Basndose en la multiplicacin de dos vectores columna se puede indicar tambin la norma del vector x como:
x = xT x
EC A-16 Reinterpretacin de (EC A-15) para obtener la norma de un vector de mltiples dimensiones.
Un vector de longitud 1 se le conoce como vector unitario. En R2, el conjunto de todos los vectores unitarios puede ser identificado como un circulo unitario. Dado cualquier vector x distinto de cero, se puede encontrar un vector en la misma direccin y sentido, normalizando el vector a uno, es decir, dividiendo el vector entre su propia longitud. A
154
esto se le llama normalizacin estndar, logrndose a travs de la siguiente formula (EC A-17).
x=
1 x x
EC A-17 Normalizacin estndar de un vector.

y 1 1 1 x 1 x
FG A-3 Vectores en un espacio bidimensional que tienen una longitud de 1.
La desigualdad de Cauchy Schwartz establece que:

xT y x y
EC A-18 Desigualdad Cauchy - Schwartz.
En palabras, esto establece que el valor absoluto del producto interno de dos vectores nunca excede al producto de normas de los vectores. Otra expresin indica que: cos =
xT y T x y = x y cos x y
EC A-19 Definicin del ngulo de dos vectores .
Donde es el ngulo entre los vectores x y y As el producto interno de dos vectores puede representarse como una funcin del producto de las normas de estos vectores y el ngulo entre ellos. Si se tiene que el producto interno de dos vectores Rn es cero, pero cada vector es tambin diferente de cero, entonces se dice que los vectores son ortogonales. Si adems
155
de que los dos vectores son ortogonales, si el mltiplo del vector s mismo es uno, entonces adems son vectores ortonormales. Un conjunto de vectores es un conjunto ortogonal si cada par de vectores del conjunto dado es ortogonal. As mismo, un conjunto de vectores es un conjunto ortonormal si cada par de vectores dados son ortonormales.
A.5 Aspectos importantes de la ortogonalidad

Puesto que se tiene un cero en el producto interno entre vectores ortogonales, estos vectores tendrn un ngulo entre ellos de 90. Empleando la ecuacin (EC A-19) dado los siguientes hipotticos vectores se demuestra el ngulo entre ellos es de 90.
2 [2 4] 1 x y 2 2 x = , y = , = a cos x y = a cos 2 2 2 2 4 1 2 + 4 2 1 2 rad = 360
T
360 2 = 90
EJ A-13 Ejemplo de obtener el ngulo de dos vectores segn (EC A-19).
Por lo que los vectores x y y son ortogonales. Sin embargo, una matriz cuadrada ser una matriz ortogonal si y solo si su inversa es igual a su transpuesta. Sea la matriz A
1 5 A =A = 2 5
T 1
5 1 5 2
EJ A-14 Ejemplo de una matriz ortogonal.
La matriz A es ortogonal. Para que los vectores x y y de (EJ A-13) conformen una matriz ortogonal, deber ser ortonormalizada a travs de un proceso como el de Gram Schmidt Householder. En realidad, la matriz (EJ A-14) es el resultado de ortonormalizar la matriz cuyas columnas son los vectores x y y de (EJ A-13), por medio del proceso de Gram Schmidt est proceso se explicar despus.
156
Sea B={v1, v2, ..., vn}tenga una base ortogonal u ortonormal, pudindose cualquier vector v puede ser representado con respecto a una base B ortogonal como: v = 1v1 + 2 v 2 + L + n v n
EC A-20 Espacio vectorial B contenidos los vectores v con una base ortogonal.
Obtenindose los coeficientes de la siguiente manera:
i =
v T vi v T v i = 2 viT vi vi
EC A-21 Obtencin de los coeficientes en (EC A-20).
Si se representa un vector como una combinacin lineal de base de vectores ortogonales u ortonormales, se puede determinar directamente los coeficientes a partir calculo de los productos internos. Todo conjunto ortogonal finito de vectores no nulos es linealmente independiente. Es posible convertir un conjunto linealmente independiente de vectores de una dimensin a una base ortonormal a travs del proceso como de Gram-Schmidt o Householder. Aunque cuando se realiza el proceso de ortogonalizacin la transformacin de Householder usualmente es preferido al proceso de Gram-Shmidt, porque los errores de redondeo tienen efectos menores.
A.6 Procesos estocsticos

Un Proceso estocstico es un conjunto de operaciones matemticas en el que un sistema cambia de forma aleatoria entre diferentes estados, a intervalos regulares o irregulares. La teora matemtica de los procesos estocsticos intenta definir clases de procesos para el cual una teora unificada pueda ser desarrollada. Las clases ms importantes de procesos son los procesos estacionarios y los procesos de Markov. Se centrar la discusin en los procesos de Markov. Un proceso estocstico discreto es llamado un proceso de Markov (por el matemtico Andrey Andreyevich Markov) si en cualquier tiempo t la probabilidad condicional de un evento arbitrario futuro es dada por el pasado del mismo proceso. Es decir, si se conoce la historia del sistema hasta su instante actual, su estado presente resume toda la informacin relevante para describir en probabilidad su estado futuro.
157
Una cadena de Markov (finita) es una serie de eventos, en la cual la probabilidad de que ocurra un evento determinado depende del evento inmediatamente anterior. En efecto, las cadenas de este tipo tienen memoria. Se registra el ltimo evento y esto condiciona las posibilidades de los eventos futuros. Esta dependencia del evento anterior, distingue a las cadenas de Markov de las series de eventos independientes, como lanzar dados. En una cadena de Markov, dada una secuencia de variables o eventos aleatorios x1, x2, , xn dentro de un rango llamado como espacio estado, el valor del proceso x(t) es el estado del proceso en el tiempo t definido ste valor por un proceso en un evento pasado inmediato x(s) para todo s t. As, para conocer acerca el comportamiento futuro del proceso de Markov, no es muy til conocer toda la historia del proceso sino solo el estado actual. La distribucin condicional de x(t) dado x(s) es llamado probabilidad de transicin del proceso. Si esta distribucin condicional no depende de s, el proceso es llamado como una probabilidad de transicin estacionaria. Se aclarar mejor esta explicacin con un ejemplo. Un equipo de investigacin de mercado est realizando una investigacin controlada para determinar las preferencias de la poblacin con respecto a pastas dentales. La muestra consta de 200 personas, a cada una de las cuales se le solicita probar dos marcas de dentfricos durante un periodo de varios meses. Basados en respuestas, el equipo de investigacin compila las estadsticas siguientes acerca de las preferencias detectadas. De los que utilizan la marca A en cualquier mes, 70% continan utilizndola al mes siguiente, mientras que el 30% cambian a la marca B; de los que utilizaban la marca B en cualquier mes, 80% continan hacindolo mientras que 20% cambiaban a la marca A. Estos datos se resumen en la siguiente figura.
30%
70%
A
20%
80%
FG A-4 Fluctuacin entre compradores de las marcas de pasta de dientes A y B en un mes.
La figura (FG A-4) es un ejemplo simple de una cadena de Markov. Representa un proceso desarrollado compuesto por un nmero finito de estados. En cada paso o punto del tiempo, el proceso puede estar en cualquiera de los estados; en el siguiente paso, el proceso puede permanecer en un estado presente o cambiar a uno de los otros estados. El estado al que el proceso se mueve en el siguiente paso y la probabilidad de hacerlo as dependen solamente del estado presente y no de la historia del proceso. Estas probabilidades se conocen como probabilidades de transicin y se supone que son constantes (es decir, la probabilidad de moverse de el estado i hasta el estado j es siempre la misma).
158
En la investigacin sobre las pastas dentales existen slo dos estados: utilizar la marca A o la marca B, y las probabilidades de transicin son las indicadas en (FG A-4). Supngase que cuando la investigacin comienza, 120 personas emplean la marca A mientras que 80 prefieren la marca B. Para saber cuantas personas utilizan cada marca un mes despus se hace lo siguiente: El nmero de clientes que preferirn Marca A un mes despus se calcula sumando los clientes que son leales con la marca ms los clientes de la marca B que cambiarn sus preferencias por la marca A. 70 120 + 20 80 = 100 clientes 100 100
EJ A-15 Cantidad de clientes que prefieren la marca A en cualquier mes.
De manera semejante, el nmero de los clientes de la marca B despus de un mes ser una combinacin de aquellos de se cambian a ella y quienes continan usndola: 30 120 + 80 80 = 100 clientes 100 100
EJ A-16 Cantidad de clientes que prefieren la marca B en cualquier mes.
Se puede resumir estas dos ecuaciones en una sola ecuacin matricial: 0.70 0.20 120 100 P= x0 = 80 x1 = 100 0.30 0.80 Px0 = x1
EJ A-17 Fluctuacin de clientes entre las marcas expresados en una ecuacin matricial.
Si se extiende la notacin para que xk sea el vector cuyas componentes registren la distribucin de los clientes de pasta dental despus de k meses. Para determinar el nmero de clientes de cada marca despus de haber transcurrido dos meses, simplemente se aplica el mismo razonamiento, comenzando x1 en lugar de x0 se obtiene lo siguiente (EJ A-18):
159
0.70 0.20 100 90 Px1 = = = x2 0.30 0.80 100 110

EJ A-18 Cantidad de clientes que prefieren las marcas A y B despus de dos meses.
Tenindose despus de dos meses 90 clientes de la marca A y 110 de la marca B. El proceso para poder calcular las cantidades de clientes que preferirn las marcas A y B despus de medio ao (k=6) es el siguiente: 0.70 Px 2 = 0.30 0.70 Px 4 = 0.30
0.20 90 85 = = x3 0.80 110 115
0.70 0.20 85 82.5 Px3 = = = x4 0.30 0.80 115 117.5 0.20 82.5 81.25 0.70 0.20 81.25 80.625 117.5 = 118.75 = x5 Px5 = 0.30 0.80 118.75 = 119.375 = x6 0.80
EJ A-19 Cantidad de clientes que prefieren las marcas A y B en medio ao.
En medio ao, 81 clientes (redondeando) preferirn la marca A y 119 la marca B. Los vectores xk son conocidos como vectores de estado de la cadena de Markov, mientras que la matriz P se conoce como matriz de transicin. Como se pudo ver en el ejemplo anterior, la cadena de Markov satisface la siguiente relacin:
x k +1 = Px k para k = 0, 1, 2, L
EC A-22 Definicin de una cadena de Markov.
De este resultado se sigue se puede calcular un vector de estado arbitrario de manera iterativa una vez que se conoce x0 y P. En otras palabras, una cadena de Markov se encuentra completamente determinada por sus probabilidades de transicin y su estado inicial. En caso de querer los vectores de probabilidad, los datos se dividen entre el total de clientes (200 clientes). Por ejemplo, despus de medio ao se 40.3% de los clientes usaran la marca A y 59.7% la marca B (EJ A-20).
160
80.625 200 = 0.4031 x6 = 0.5969 119.375 200
EJ A-20 Porcentaje de participacin del mercado para las marcas A y B.
Las columnas de la matriz P son vectores de probabilidades, cualquier matriz cuadrada con esta propiedad se llama matriz estocstica, (deriva del adjetivo griego stokhastikos que quiere decir capaz de predecir o adivinar) puesto que sus columnas suman 1, es decir los vectores columnas tienen una norma unitaria. Se puede comprender la naturaleza determinstica de las cadenas de Markov de otra manera.
x 2 = Px1 = P ( Px 0 ) = P 2 x 0
EC A-23 Transicin entre un periodo 0 y 2 en la determinacin del valor de una matriz x2.
y en general:
x k = P k x 0 para k = 0, 1, 2, L
EC A-24 Ecuacin de Markov para calcular la matriz xk en k periodos.
Por lo que en siete meses se tendr:
0.70 0.20 80.625 0.4047 0.3969 120 80.3125 7 Px6 = 119.375 = P x0 = 0.5953 0.6031 80 = x7 = 119.6875 0.30 0.80
EJ A-21 Clientes para la marcas A y B despus de medio ao aplicando (EC A-24).
Su correspondiente vector de probabilidad ser el siguiente (EJ A-22):
161
80.3125 200 = 0.4016 x7 = 0.5984 119.6875 200
EJ A-22 La determinacin de la cantidad de clientes de la marca A y B en siete meses, con (EJ A-21).
Si se quiere saber la distribucin de los clientes en las pastas dentales a largo plazo, como veinte meses se muestra el comportamiento en (FG A-5).
Distribucin de clientes en 20 meses
0.7
0.6
0.5 vectores de probabilidad
Sin cambio
0.4
0.3
0.2
0.1
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 meses A B
FG A-5 Participacin del mercado para las marcas de pasta de dientes A y B en 20 meses.
Parece que los vectores de probabilidad de estado se aproximan convergen al vector.
0.4 0.6
EJ A-23 Vector estacionario en participacin de mercado de las marcas A (40%) y B (60%).
162
Lo que implica que finalmente 40% de los clientes de pastas dentales sujetos de la investigacin utilizarn la marca A mientras que 60% emplear la marca B. En realidad, se puede verificar que, esta distribucin es alcanzada a los quince meses, no habiendo cambios despus de ste mes. Cuando se tiene una probabilidad semejante de moverse de un estado i a otro estado j en k transacciones se alcanza un vector estacionario, es decir se tiene la propiedad Pk(x)i= Pk+n(x)j, como es el vector (EC A-24).
P
Para encontrar un vector estacionario sin hacer una iteracin se comienza a rescribir la ecuacin matricial Px=x como Px=Ix. y (I-P)x=0. Ahora esto es un sistema homogneo de ecuaciones lineales como matriz de coeficientes I-P, de modo que la matriz aumentada es [I-P|0]. Para el ejemplo de pastas dentales, se tiene la distribucin relativa siguiente (EJ A-24):
1 0 0.70 0.20 0 0.30 0.20 0 310 210 0 [I P 0] = 0 1 0.30 0.80 0 = 0.30 0.20 0 = 3 2 0 10 10 3 2 0 1 2 0 2 0 10 R 3 R 1 3 R2 R2 + 3 R1 3 10 1 1 10 0.30 0.20 0 10 0 2 0 3 0 0 10 10 x1 = 2 t , x 2 = t 3 1 = x1 + x 2 = 2 t + t = 2 t + 3 t = 5 t 3 3 3 3 t = x 2 = 3 y x1 = 1 3 = 2 5 5 5 x1 = 2 = 0, x 2 = 3 5 5 x 2 0.40 x = 1 = 5 = x 2 3 5 0.60
EJ A-24 Calculo del vector estacionario en la distribucin de las marcas de pasta dentales A y B.
Si se quiere que x contenga la distribucin real en lugar de la distribucin relativa se deber tener x1+x2=200 en lugar de x1+x2=1. Tenindose entonces como distribucin real de clientes que usarn las pastas de dientes A y B el siguiente vector estacionario:
80 x= 120
EJ A-25 Vector estocstico que indicad el nmero de clientes que usarn las marcas dentales A y B.
163
Ahora, en este ejemplo se considera un mercado que no crece. Siempre se tendr siempre doscientos clientes. Cuando se tiene un incremento poblacional se utiliza una ligera variante de las cadenas de Markov que es un modelo basado en matrices propuesto en 1945 por P. H. Leslie.
A.6.1 Modelo de Leslie

El modelo de Leslie describe el crecimiento de la parte femenina de una poblacin, que se supone tiene una vida mxima. Las hembras se dividen en clases por edad, todas las cuales abarcan un nmero igual de aos. Si se emplean datos acerca de las tasas de nacimiento promedio y probabilidades de supervivencia de cada clase, el modelo es capaz de determinar el crecimiento de la poblacin en el transcurso del tiempo. Se propone el siguiente ejemplo para explicar mejor el modelo. Cierta especie de escarabajo alemn Vollmar-Wasserman (o escarabajo VW, para abreviar), vive hasta tres aos. Se divide las hembras de los escarabajos VW en tres clases de una duracin de un ao cada clase. Los VW menores (del nacimiento a un ao), jvenes (de uno a dos aos) y adultas (de dos a tres aos). Las menores no depositan huevos; cada joven produce un promedio de cuatro hembras escarabajo y cada adulta produce un promedio de tres hembras. La tasa de supervivencia de las menores es de la mitad, mientras que la tasa de supervivencia para las jvenes es del 25%. Supngase que comienza con una poblacin de cien escarabajos VW hembra: 40 menores, 40 jvenes y 20 adultas. Para predecir la poblacin de escarabajos de cada clase para los siguientes cinco aos. Despus de un ao, el nmero de menores ser el nmero producido durante ese ao de 220 porque 40 4 + 20 3 = 220. El nmero de jvenes ser simplemente el nmero de jvenes que hayan sobrevivido 40 0.5 = 20. Del mismo modo, el nmero de adultas ser el nmero de adultas que hayan sobrevivido 40 0.25 = 10. Se pueden combinar los resultados en una sola ecuacin matricial.
4 3 40 220 0 0.5 Lx0 = 0 0 40 = 20 = x1 0 0.25 0 20 10

EJ A-26 Prediccin de las poblaciones de escarabajos en un ao.
La matriz L se denomina como matriz de Leslie. La estructura de la ecuacin es exactamente la misma que la que presentan las cadenas de Markov (EC A-24) aunque su interpretacin es diferente. Se puede calcular de manera iterativa los vectores
164
sucesivos de distribucin de poblacin como las cadenas de Markov, tenindose la siguiente serie:
110 455 4320 4570 301860 110, x = 55 , L, x = 950 , x = 2160, L, x = 110040 x2 = 3 9 20 10 5 27.5 250 240 16540
EJ A-27 Poblaciones de escarabajos en 2, 3 9, 10 y 20 aos.
Tenindose el siguiente crecimiento de la poblacin en veinte aos en(FG A-6).

Poblacin
Millares 350 300 250 200 150 100 50 0 0 5 10 Tiempo (en aos) Menores Jvenes Adultas 15 20
FG A-6 Grfica que indica el aumento la poblacin de escarabajos en 20 aos.
Si en lugar de graficar la poblacin futura, s grafica la poblacin relativa de cada clase, surge un patrn diferente. Para hacerlo as se necesita calcular la fraccin de la poblacin de cada clase de edad por cada ao; es decir, se necesita dividir cada vector de
Poblacin
165
distribucin entre la suma de los componentes. Por ejemplo para x1 (despus de un ao) se tiene: 22 220 25 0.88 1 1 20 = 2 = 0.08 x1 = 25 220 + 20 + 10 250 10 1 0.04 25
EJ A-28 Poblacin relativa de escarabajos en un ao.
Lo que dice que el 88% de la poblacin despus de un ao, esta compuesta por 88% de menores, 8% de jvenes y 4% de adultas. Al proyectar de crecimiento relativo en veinte aos se obtiene la siguiente grafica (FG A-7).
Poblacin relativa en veinte aos
100%
80%
Porcentaje de poblacin
60%
40%
20%
0% 0 2 4 6 8 10 Tiempo (en aos) Menores Jvenes Adultas 12 14 16 18 20
FG A-7 Poblacin relativa de escarabajos en una proyeccin de 20 aos.
La proporcin de la poblacin de cada clase se aproxima a un estado estacionario. Resultando el vector estacionario del ejemplo el siguiente:
166
0.72 0.24 0.04

EJ A-29 Vector estacionario que indica la poblacin relativa que tendern las poblaciones de escarabajos.
Aunque existen fluctuaciones en las poblaciones de escarabajos, despus de un tiempo ests tendern a crecer a una tasa fija. A diferencia de las cadenas de Markov, donde el vector estacionario tiene la propiedad de Px=x. En el modelo de Leslie, el vector estacionario va a satisfacer la relacin Lx=rx, donde r representa la tasa de crecimiento en estado estacionario. Al graficar las razones en que fluctan stas poblaciones se observar la tendencia en (FG A-8).
Tasa de crecim iento 6.00 5.50 5.00 4.50 4.00 3.50 3.00 2.50 2.00 1.50 1.00 0.50 0.00 1 4 7 10 13 16 Aos menores jovenes adultas 19 22 25 28
FG A-8 Tasa de crecimiento de las poblaciones en 30 aos. Obsrvese que tendern al 150% por ao.
A medida que pasa el tiempo, la tasa crecimiento de las poblaciones tender a una razn de 1.5 veces al ao. Por ejemplo, en 85 aos se tendr las siguientes poblaciones (EJ A-30).
Veces
167
Lx85 = 1.5 x85 = x86

8.7959e + 016 1.3194e + 017 4 3 8.7959e + 016 0 0.5 2.9319e + 016 = 1.5 2.9319e + 016 = 4.3979e + 016 0 0 0 0.25 0 4.8866e + 015 4.8866e + 015 7.3298e + 015
EJ A-30 Poblacin de escarabajos en 86 aos, alcanzando un crecimiento constante de crecimiento.
Aunque claro, una cantidad as de escarabajos no es realista. Como el modelo de Leslie tendr siempre una matriz L esttica, la prediccin de poblacin tiende a ser errnea porque no existen recursos ilimitados para soportar tal poblacin. El problema central del modelo de Leslie es que para una matriz cuadrada A, se buscar si existen vectores distintos de cero tales de Ax sea justamente un mltiplo escalar del vector x. ste es el problema de los autovalores y autovectores.
A.7 Clculo de los autovectores y autovalores de la matriz

Se aclararan los conceptos de autovectores y autovalores de una matriz. Sea una matriz A de n x n con elementos reales complejos. El nmero (real o complejo) recibe el nombre de autovalor de A s existe algn vector diferente de cero x tal que:
Ax = x , x 0
EC A-25 Concepto de autovectores y autovalores de una matriz A.
Se dice que el vector x es un autovector de A correspondiente al autovalor . Los autovectores tambin suele llamrseles como vectores propios, vectores caractersticos eigenvectores. Los autovalores tambin se les conocen tambin como valores propios, valores caractersticos, valores latentes o eigenvalores. La palabra eigen significa en alemn propio y se pronuncia como aygn. Los autovalores de A sern s y solo s.
p( ) = det( A I ) = 0
EC A-26 Ecuacin caracterstica de A, donde los autovalores tendrn la determinante (A - I)=0.
168
A esta ecuacin se le conoce como ecuacin caracterstica de A. Adems a p() se le llama polinomio caracterstico de A. Cuando se desarrolla la ecuacin caracterstica se obtiene el polinomio caracterstico.
p( ) = det( A I ) = 0 a11 a p( ) = 21 M a n1 a12 a 22 M a n2

L a1n 11 L a2n 0 O M M L a nn 0 0
22
M 0
L 0 L 0 =0 O M L nn
a11 a 21 p( ) = M a n1
a12 a 22 M a n2
L a1n L a2n =0 O M L a nn
EC A-27 Desarrollo de la ecuacin caracterstica (EC A-26).
Ahora, el concepto de polinomio caracterstico en una matriz de 2 x 2.
a b b 1 0 a a b A I = A= = c d c b 0 1 c d p( ) = det( A I ) = (a )(b ) bc = 2 (a + b ) + (ad bc )

EC A-28 Polinomio caracterstico (EC A-26) para una matriz de 2 X 2.
Si A es de n x n, su polinomio caracterstico ser de grado n. Un polinomio de grado n con coeficientes reales o complejos tiene como mximo n races distintas. Si se aplica este hecho al polinomio caracterstico, se ve que una matriz de n x n con entradas reales o complejas tiene a lo ms n distintos autovalores. Por ejemplo, para calcular los autovectores y autovalores de la siguiente matriz (EJ A-31):
169
1 1 4 A = 3 2 1 2 1 1 1 det ( A I ) = 3 2
1 2 1
1 = ( 1)( + 2 )( 3) = 0 1 = 1; 2 = 2; 3 = 3 1 4
EJ A-31 Desarrollo de un polinomio caracterstico A.
Con los autovalores ya conocidos se obtendr sus autovectores correspondientes.

0 1 4 x1 0 ( A I )v = 3 1 1 x2 = 0 2 1 2 x 0 3 1 v1 = 4 1
3 1 4 x1 0 1 ( A ( 2 I ))v = 3 4 1 x2 = 0 v 2 = 1 2 1 1 1 x3 0 2 1 4 x1 0 1 ( A 3I )v = 3 1 1 x 2 = 0 v3 = 2 2 1 1 4 x3 0
EJ A-32 Obtencin de los autovectores de A por sus autovalores (EJ A-31).
Si en sus n autovectores son todos ellos distintos entonces estos vectores son linealmente independientes. Las matrices pueden descomponerse en productos de otras matrices como matrices triangulares, diagonales u ortogonales. Estas matrices que forman parte de la matriz original, pueden ser usadas para resolver sistemas de ecuaciones lineales. La eleccin del mtodo para encontrar los autovalores elegido se descompondr la matriz dependiendo de las caractersticas de la misma, como sus dimensiones, rango determinante. Una problemtica especial existe para encontrar los autovectores y autovalores de una matriz de grandes dimensiones, esto se tratara en el siguiente punto.
170
A.7.1 Clculo de los autovectores y autovalores de una matriz de n x n

Las siguientes propiedades son esenciales en los autovectores y autovalores de una matriz A real A de un tamao de n x n. 1. Si {1, 2, ... q}, q n, es un conjunto de autovalores distintos de A y xi es un autovector de A con sus autovalores correspondientes i, i=1, 2, ..., q, entonces {x1, x2, ..., xq} es un conjunto de vectores linealmente independientes. Si una matriz de n x n tiene n autovalores distintos, sus autovectores constituirn un conjunto ortogonal (ortonormal), que significa que cualquier vector de n dimensiones puede ser expresado como una combinacin lineal de autovectores de A. 2. Los componentes de la diagonal principal de la matriz diagonal son iguales a sus autovalores. Usando la definicin de Ax=x los autovectores pueden ser escritos inspeccionando cuando A es diagonal. 3. La matriz real simtrica A con n x n elementos, tiene un conjunto de m autovectores linealmente independientes que pueden ser escogidos del conjunto ortonormal. Esta propiedad es de importancia cuando se tratan matrices de covarianzas que son matrices reales y simtricas. 4. Los autovalores de una matriz real simtrica de n x n son reales, y los autovectores asociados pueden ser escogidos para formar un conjunto de m vectores ortonormales. 5. Suponiendo que la matriz A de n x n es real y simtrica, y que se forma una matriz A cuyos renglones son los n autovectores ortonormales de A. Entonces, el producto XXT=I porque los renglones de X son vectores ortonormales (los renglones de A y las columnas de XT son ortonormales, sus productos internos sern ya sea 1 0). As, X-1=XT cuando la matriz X se forma como se indic. 6. Considerando las matrices A y X definidas en el punto anterior. Entonces, el producto =_X-1AX = XTAX es una matriz diagonal cuyos elementos a lo largo de la diagonal principal son los autovalores de A. Los autovectores de son los mismos a los autovectores de A. El encontrar del polinomio caracterstico por medio del clculo de la determinante necesita muchos recursos computacionales si la matriz es grande. Existen mtodos iterativos diferentes que darn una solucin en procesos ms reducidos. Entre los mtodos existentes se explicar el mtodo de potencias.
171
A.7.2 Mtodo de potencias

El mtodo de potencias se aplica a una matriz de n x n que tiene un autovalor dominante 1, es decir, un autovalor que es ms grande en valor absoluto que todos los otros autovalores. Por ejemplo, si una matriz tiene los autovalores -4, -3, 1 y 3, entonces -4 ser el autovalor dominante, puesto que 4 = |-4| > |-3| |3| |1|. Por otra parte, una matriz con autovalores -4, -3, 3 y 4 no tienen un autovalor dominante. El mtodo de potencias procede de manera iterativa para producir una sucesin de escalares que converge hacia 1 y una sucesin de vectores que converge hacia el vector correspondiente x1, el autovector dominante. Por simplicidad, se supondr que la matriz A es diagonalizable. Esto es definido por: Sea A una matriz de n x n diagonalizable por:
= x 1 Ax
EC A-29 Diagonalizacin de autovalores (EC A-25).
Con un autovalor dominante 1. Entonces existe un vector distinto de cero x0 tal que la secuencia de vectores de xk definida por:
x1 = Ax0 , x 2 = Ax1 , x3 = Ax 2 , L, x k Ax k 1 , L
EC A-30 Definicin de una secuencia de autovectores (EC A-23).
Se aproxima a un autovector dominate x1 de A. Se puede suponer que los autovalores de A se hayan etiquetado de modo que
1 > 2 L n
EC A-31 Orden de los autovalores como el 1 el mayor.
172
Ahora considrese los autovectores v1, v2, , vn con sus correspondientes autovalores distintos 1, 2, ..., n y son linealmente independientes, puesto que constituyen una misma base Rn. Pudindose escribir x0 como una combinacin lineal de estos autovectores.
x0 = c1v1 + c 2 v 2 + L + c n v n
EC A-32 Combinacin lineal de x0 y formacin de un espacio con base ortogonal Rn (EC A-20).
De forma similar para encontrar el vector estacionario en las cadenas de Markov, el autovector dominante se puede expresar como:
x1 = Ax 0 , x 2 = Ax1 = A( Ax 0 ) = A 2 x 0 , x3 = Ax 2 = A( A 2 x 0 ) = A 3 x 0
EC A-33 Definicin del autovector dominante (EC A-23).
y, generalmente
x k = Ax k 1 = A 2 x k 2 = L = A k x 0 , k 1
EC A-34 Definicin general del autovector dominante (EC A-22).
Por lo que es fcil probar, por induccin, que

A k xi = ik xi , i = 1,2,..., n .
EC A-35 Definicin de un autovalor dominante en k periodos de transicin (EC A-25).
173
Y entonces para cualquier entero k (EC A-36)

x k = A k x0 x k = A k (c1v 2 + c 2 v2 + L + c n v n ) = c1 A k v1 + c2 A k v2 + L + c n A k v n = c11 v1 + c2 2 v2 + L + c n n v n =
k k k k k c v + c 2 v + L + c n v n = 1 1 2 2 n 1 1 k n i k ci vi = 1 c1v1 + i = 2 1 1 0, v1 0 k 1
2 3 , , L, i < 1 1 1 1
1 > i lim i = 0 i = 2,3,L , n. k 1 x lim k = c1v1 k k 1
k
EC A-36 Obtencin del autovector dominante en k periodos.
Donde se verifica que c1v1 es un autovector de A asociado al autovalor de 1. Si k es suficientemente grande, se tiene:
k k Axk = x k +1 1 +1c1v1 = 1 1 c1v1 = 1 x k , k
x k = A x0 c v
k
k 1 1 1
EC A-37 Obtencin del autovalor dominante en k periodos.
174
Por lo que la sucesin xk proporciona un mtodo para aproximar el autovalor 1. Por ejemplo, aproxmese el autovector dominate A mediante x k = Ax k 1 . Sea la matriz A:
1 1 A= 2 0
EJ A-33 Matriz que se utilizar para calcular los autovectores y autovalores segn mtodo de potencias.
1 1 1 A= , x0 = 2 0 0
K xk x k = Ax k 1 rk lk 0 1 0
Autovector del autovector dominante xk y el autovalor dominante rk 1 1 2 1 2 1 1 2 3 2 3 2 3 1 3 5 6 5 5 6 3 4 11 10 11 10 11 5
TB A-1 Obtencin del autovector xk y el autovalor dominante rk.
Se sabe que el espacio de autovectores del autovector dominate tendr una dimensin de 1. Porque las iteraciones convergen sobre la recta cuyo vector de direccin es [1 1]T , Es decir la recta que pasa a travs del origen en R2 tiene una ecuacin de f(x)=x. Para confirmar que se es el autovector dominate buscado, slo se necesita observar que la razn rk del primero al segundo componente de xk, se aproxima a 1, a medida que k se incrementa. Por lo que se deduce que el autovector dominante de A es: Lim 1 xk = x 1
EJ A-34 Autovector dominante de A.
175
9 10 11
x4
x3
x1
x0
0 1 2 3
x2
4 5 6 7 8 9 10 11 12
FG A-9 Modo grfico para la obtencin del autovector dominante (TB A-1).
De la tabla anterior (TB A-1), se desprende que la razn lk se aproximar al autovalor dominante 1 con un valor de 2, a medida que se incremente k. El principal problema de este mtodo es que los componentes xk iterados se hacen muy grandes con mucha rapidez y pueden causar errores de redondeo significativos. Para evitar este problema, se pueden multiplicar cada iteracin por algn escalar que reduzca la magnitud de sus componentes. Debido a que los mltiplos escalares de los xk iterados todava convergern hacia un autovector dominante, este enfoque es aceptable. Existen varias maneras para conseguirlo; una es normalizar cada xk por el vector unitario |xk|. Al dividir cada xk entre el componete con el mximo valor absoluto, de modo que el componente ms grande sea de 1. Otro mtodo es dividir cada xk entre la componente con el mximo valor absoluto, de modo que la componente ms grande sea de uno. Este mtodo se denomina escalamiento. De este modo, si mk denota la componente de xk con el mximo valor absoluto, reemplazando xk por yk = (1/mk)xk. Se Ilustrar este enfoque con los clculos de la tabla anterior (TB A-1). Para x0, no es necesario hacer algo puesto que m0=1. Por lo tanto
1 y 0 = x0 = 0
EJ A-35 Valores iniciales de y0 y x0.
176
Entonces se calcula x1 como antes, pero ahora se escala con m1=2.
1 1 1 1 1 x1 = Ay 0 = = 2 0 0 2 2
1< 2
m1 = 2
EJ A-36 Calculo de x1 y m1 como el mayor valor absoluto de los componentes del vector x1.
Para obtener lo siguiente:

y1 =
EJ A-37 Obtencin de y1.
1 0.5 1 x1 = 1 = 2 2 1 m1
( )
Ahora, los clculos cambian, tomando:

1 1 0.5 1.5 x 2 = Ay1 = = 2 0 1 1
EJ A-38 Calculo de x2 a partir de y1.
y al escalar con m2=1.5 se obtiene:

1.5 1 y 2 = 1 x2 = 1 = m 1.5 1 0.67 2 1.5 1.5 1 1 1 < 1.5 m2 = 1.5
( )
EJ A-39 Calculo de y2 y m2 (EJ A-36).
177
Los siguientes clculos se resumen en la tabla siguiente:

K xk yk mk
0 1 0
1 0 1
1 1 2
0.5 1 2
2 1.5 1
1 0.67 1.5
3 1.67 2 0.83 1 2
4 1.83 1.67
1 0.91 1.83
5 1.91 2 0.95 1 2
6 1.95 1.91
1 0.98 1.95
7 1.98 2 0.99 1 2
8 1.99 1.98
1 0.99 1.99
TB A-2 Calculo del autovector dominante yk y el autovalor dominante mk (EJ A-33).
Alcanzando el vector yk como estado estacionario en 18 iteraciones. Se puede observar que la sucesin de vectores yk est convergiendo hacia el vector [1 1]T como en (FG A9)tambin lo hace como autovector dominante. Adems la sucesin de escalares mx converge hacia el autovalor dominante de 1 a 2 como lo hace lk en la tabla(TB A1).Al graficar xk y yk en (FG A-10)se observan que se convergen al mismo autovector [1 1]T como se observa en (FG A-9), Pero el problema en que el vector xk tiende al infinito y su consecuente susceptibilidad de errores por redondeo no se tiene en yk. Teniendo un proceso ms estable y factible para matrices mayores.
FG A-10 Modo grfico para determinar el autovector dominante yk (TB A-2).
178
Ahora, para conocer el segundo autovalor se toma en cuenta de que si 1 es el autovalor dominante de A, los autovalores de A- 1I sern 0, 2- 1, 3- 1, ..., n- 1. Esto es porque si es un autovalor de A, entonces -c es un autovalor de A-cI para cualquier escalar c. Puesto el autovalor dominante 1=2 para hallar 2 se hace lo siguiente:
1 1 1 0 1 1 2 0 1 1 A2 = A1 1 I = 2 0 1 = 2 0 0 2 = 2 2 2 0
EJ A-40 Calculo de A2 para calcular el segundo autovector yk y autovalor mk.
Se realizaran las mismas operaciones que se hicieron para obtener xk, yk y mk, tomando los mismos vectores de inicio x0 y y0. Solo la nica diferencia ser la sustitucin de la matriz original de A por la de A2.
k xk yk mk
0 1 0
1 0 1
1 1 2
2 1.5 3
3 1.5 3
4 1.5 3
5 1.5 3
6 1.5 3
7 1.5 3
8 1.5 3
0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 1 1 1 1 1 1 1 1 2 -3 -3 -3 -3 -3 -3 -3
TB A-3 Calculo del segundo autovector yk y autovalor mk (TB A-2).
Ahora mx converge a 3 pero el segundo autovalor ser de 1, porque 2- 1 (-3)-(2)=-1. Entonces los autovalores sern 1=2 y 2=-1. Con sus autovectores correspondientes x1=[1 1]T y x2=[-0.5 1]T. Por lo anterior, se puede decir que la matriz A, ser una matriz de transicin para la obtencin de los dems autovalores. Los valores mx que convergern a los autovalores de A, que sern correspondientes a sus autovectores obtenidos a partir de sus vectores estacionarios yk. Buscando los autovalores y autovectores segn la matriz A, a travs de su ecuacin caracterstica definida en (EC A-26) se obtienen de la siguiente manera (EJ A-41) y (EJ A-42):
179
1 1 A= 2 0 det( A I ) = 1 1 2 1 = (1 1 )(0 2 ) 2 = (1 2)( 2 + 1) 0 2
1 = 2, 2 = 1
EJ A-41 Calculo de los autovalores (EJ A-33) segn (EC A-26).
Con los autovalores obtenidos se buscar encontrar sus autovectores que satisfagan la ecuacin caracterstica.
1 1 1 0 v1 1 1 v1 ( A 1 I ) x1 = 0 = 2 0 (2) 0 1 v = 2 2 v 2 2 v1 1 1 1 v1 v1 + v 2 0 2 2 v = 2v 2v 0, x1 = v = 1 2 2 1 2 1 1 1 0 v1 2 1 v1 ( A 2 I ) x1 = 0 = 2 0 (1) 0 1 v = 2 1 v 2 2 v1 0.5 2 1 v1 2v1 + v 2 0 2 1 v = 2v + v 0, x 2 = v = 1 2 1 2 2
EJ A-42 Calculo de los autovectores (EJ A-33) segn (EJ A-32).
Los autovectores obtenidos x1 y x2 satisfacen la igualdad en su mltiplo con su autovalor y la matriz original (EC A-25).
2 1 1 1 1 Ax1 = x11 = 1 = 1 (2) = 2 2 0 0.5 1 1 0.5 0.5 Ax 2 = x 2 2 = 1 = 1 (1) = 1 2 0 1 1 1 0.5 1 0.5 2 0 2 0.5 Ax = x = = = 1 1 1 0 1 2 1 2 0 1
EJ A-43 Igualdad de los autovectores y autovalores con (EJ A-42) segn (EC A-25).
180
Como se observa se han obtenido los mismos autovalores y autovectores a travs de un mtodo iterativo sin necesidad de buscar el polinomio caracterstico. Esto es especialmente til cuando se tienen matrices de grandes dimensiones y se quieren procesos menos tardados como lo sera la bsqueda de la determinante. El cociente de Rayleigh fue propuesto por John William Strutt (1842-1919) Barn de Rayleigh, en su artculo publicado 1873 utiliz los cocientes de Rayleigh para explicar los sistemas oscilatorios. Para estimar algn autovalor k se hace uso de ste cociente: Ax k = k x k k =
T x k Ax k T xk xk
EC A-38 Definicin del cociente de Rayleigh para la obtencin del autovalor dominante 1.
Con el cociente de Rayleigh, se obtiene el autovalor dominante de A y autovector x1.
Ax1 = 1 x1 1 =
x Ax1 = x x1
T 1 T 1
[1 1]
1 1 1 2 0 1 = 4 = 2 1 2 [1 1] 1
EJ A-44 Aplicacin del autovalor dominante segn (EC A-38) como A con (EJ A-33).
En caso de las matrices inversas, los autovalores de una matriz inversa -1 sern los autovalores de la matriz A divididos entre uno. Para la matriz inversa de A los siguientes son sus autovalores.
1 1 2 A= = 1 2 0 0 1 1 2 1 = 2 A 1 = 1 1 2 1 1
EJ A-45 Ejemplo para obtener los autovalores de la matriz inversa (EJ A-3).
En el sistema de ecuaciones anterior (EJ A-43), el autovector dominante x1 pudo haber tenido como valores [5000 5000]T y an satisfacer que el mltiplo de su autovalor fuera igual al producto de la matriz y mismo autovector. Aunque siempre se tendr los mismos autovalores, sus autovectores pudieran para la matriz A variar segn el mtodo empleado. Pero no todos los autovectores son tiles, ya que es importante determinar mejor las relaciones entre los mismos. Esto se logra que ortonormalizando estos
181
autovectores. Ejemplos de autovectores que pudieron haber satisfecho el sistema de ecuaciones (EJ A-43) se observa en la tabla (TB A-4).
x
0 0 0 0 5 - 0.3077 5 0.6154
1 2 1 2 2
1 2 1 2
1 0 0 0 1 5 0 5
Ax=x 0 0 0 2 0 0 0 = = 0 0 0 0 1 0 0 - 0.3077 5 - 0.3077 2 0 10 0.3077 = = 0.6154 5 0.6154 0 1 10 - 0.6154

2 1 10 2 =1 8 10 2 2 10 2 0 2 = 8 0 1 2 10 10 8 10 2
1 10 1 1 2 2 0 1 8 10 2
TB A-4 Ejemplo para obtener demostrar la igualdad (EJ A-43) con diferentes autovectores.
A.8 Diagonalizacin ortogonal

La matriz de autovalores y la matriz A son matrices similares porque:
= x 1 Ax = 3
2 3
1 1 1 1 1 2 0 3 2 = 2 2 0 1 1 0 1 3
EJ A-46 Aplicacin de (EC A-29) con (EJ A-45).
Por lo que la matriz A es diagonalizable por (EC A-29) y la matriz de autovectores x es invertible. Por lo tanto, los autovectores sern linealmente independientes porque forman una misma base. En resumen, si la matriz A de n x n tiene n autovalores distintos, entonces A es diagonalizable. En cuanto a matrices simtricas, siempre existir una matriz ortogonal tal que:
= x 1 Ax = x T Ax; si AT = A
EC A-39 Aplicacin de matrices simtricas en (EC A-29).
182
Donde la matriz x es ortogonal, es decir, xxT=xTx=I y como es diagonal, = T, de modo que: AT = ( xx T ) T = ( x T ) T T x T = xx T = A

EC A-40 Aplicacin de (EC A-12) en (EC A-39).
Por lo que la matriz A debe ser simtrica y diagonalizable ortogonalmente para tener un conjunto ortonormal de n autovectores. Esto asegura que los autovectores de autoespacios diferentes sean ortogonales. Para la ortogonalizar la matriz A se puede emplear el proceso de Gram-Schmidt.
A.8 Proyecciones ortogonales

El conjunto de vectores W={ w1,w2, ..., wk } en Rn se llama conjunto ortonormal si: wi w j = 0 si i j (a ) wi wi = 1
EC A-41 Definicin de un vector ortonormal.
(b)
Si slo satisface la ecuacin (EC A-41a), se dice que el conjunto es ortogonal. En R2 con el producto interior euclidiano, geomtricamente resulta que si W es una recta que pasa por el origen, entonces todo vector u en el espacio se puede expresar como:
u = w1 + w2
EC A-42 Un vector de W que pasa por el origen se puede expresar con la suma de vectores ortonormales.
u
0
FG A-11 Demostracin grfica de (EC A-42).
w2 w
1
183
Si W es un subespacio de dimensin finita en un espacio V con producto interior, entonces todo vector u en V se puede expresar de manera nica como (EC A-42). Donde w1 est en W y w2 es perpendicular a W. El vector w1 se denomina proyeccin ortogonal de u sobre W y se denota como proywu. El vector w2 se denomina componente de u ortogonal a W y se denota como proyw u. La formula (EC A-42) se puede expresar: u = proyW u + proyW u
EC A-43 Ecuacin (EC A-42) escrita en trminos de la proyeccin y componente ortogonal.
Como w2=u-w1, se concluye que: proyW u = u proyW u

EC A-44 Ecuacin del componente u ortogonal a W.
De modo que la ecuacin (EC A-44) tambin se puede escribir como: u = proyW u + (u proyW u )
EC A-45 Ecuacin (EC A-44) escrita en trminos del componente ortonormal u.
u
0
u - proyW u
W
proyw u
FG A-12 Proyeccin mostrada en trminos de (EC A-45).
184
Ahora, sea W un subespacio de dimensin finita en un espacio V con producto interior. a) Si {v1, v2, ..., vr}es una base ortonormal para W y u es cualquier vector en V, entonces: proyW u = (u, v1 )v1 + (u , v 2 )v 2 + L + (u, v r )v r
EC A-46 Proyeccin de u en una base ortonormal para W en una combinacin lineal.
b) Si {v1, v2, ..., vr} es una base ortogonal para W y u es cualquier vector en V, entonces:
proyW u =
(u, v1 ) v
v1
2
(u, v1 ) v
v2
2
+L+
(u, v1 ) v
vr
2
EC A-47 Proyeccin de u de una base ortogonal para W en una combinacin lineal (EC A-21).
Sea R3 con el producto interior euclidiano, y sea W el subespacio generado por los vectores ortonormales v1=(0,1,0) y v2=(-0.8, 0, 0.6). Por (EC A-46), la proyeccin ortogonal de u=(1, 1, 1) sobre W es:
proyW u = (u , v1 )v1 + (u , v 2 )v 2 = (1)(0, 1, 0 ) + 1 = 4
25
, 1, 3
25
)( 4 5
EJ A-47 Ejemplo de una proyeccin ortogonal de u sobre W (EC A-46).
La componente de u ortogonal a W es: proyW u = u proyW u = (1, 1, 1) 4
25
, 1 3
25
) = (21 25 ,
0, 28
25
EJ A-48 Ejemplo del componente de u ortogonal a W (EC A-44).
185
Obsrvese que proy w u es ortogonal tanto a v1 como a v2, de modo que este vector es ortogonal a todo vector en el espacio W generado por v1 y v2, como debe ser.
A.9 Proceso de Gram-Schmidt

El proceso de Gram-Schmidt es un mtodo para ortogonalizar un conjunto de vectores en un subespacio de vectores, ms comnmente el espacio Euclidiano Rn. La ortogonalizacin en este contexto significa que con vectores v1, v1, ..., vk son linealmente independientes y se desea encontrar vectores mutuamente ortogonales u1, u1, ..., uk que se generan en un subespacio como vectores v1, v1, ..., vk. El mtodo fue nombrado por Jrgen Pedersem Gram y Erhard Schmidt y se encuentra el mtodo en los trabajos de Laplace y Cauchy. Adems en la teora de descomposicin de grupos de Lie y es generalizado por la descomposicin Iwasawa. El proceso de Gram-Schmidt es numricamente inestable. Cuando se implementa en la computadora, los vectores Uk no son del todo ortogonales por los errores de redondeo de ah que se prefiera el uso de las transformaciones de Householder o las rotaciones de Givens. Ahora se explicar el proceso de Gram-Schmidt:
u1 = v1
e1 =
u1 u1 u2 u2 u3 u3 M ek = uk uk
u 2 = v 2 PROYe1v 2 , e2 = u 3 = v3 PROYe 2 v3 , e3 = M u k = v k PROYe j v k ,

j =1 k 1
EC A-48 Proceso de ortonormalizacin de Gram-Schmidt.
La secuencia u1, u2, ..., uk es el sistema requerido de vectores ortogonales, y los vectores normalizados e1, e2, ..., ek para un sistema ortonormal. Para verificar que (EC A-48) proporciona una secuencia ortogonal, primero se calcula <u1, u2> sustituyendo la formula por u2, tenindose cero. Entonces, se usa ste mtodo para calcular <u1,u3> de nuevo se sustituye la formula por u3, tenindose una vez ms cero. La prueba general procede por induccin matemtica.
186
Geomtricamente, con este mtodo se calcula ui, como (EC A-48)y proyecta vi ortogonalmente en un subespacio U generado por u1, u2, ..., ui+1, que es el mismo al subespacio generado por v1, v2, ..., vi+1. Por lo tanto, es la diferencia entre vi y su proyeccin, garantizando as que todos los vectores en el subespacio U sean ortogonales. El proceso de Gram Shmidt tambin se aplica como una secuencia infinita de vectores linealmente independientes {vi}i . El resultado es una secuencia de vectores {ui}i ortogonales u ortonormales de tal forma que los vectores v1, v2, ..., vn abarcan el mismo espacio que los vectores u1, u2, ..., un. Para explicar mejor el proceso vase el ejemplo: 3 2 A = 2 4 1 3 3 x1 = 2, 1 x1 = x1 3 3 3 14 1 1 2 = 1 2 = 2 e1 = x1 = 14 e1 = 1 2 2 2 x'1 (3) + (2) + (1) 1 14 1 1 14 3 3 14 14 2 5114 2314 2 2 34 22 T x = x 2 x 2 e1e1 = 4 [2 4 3] 2 = 4 = 2 14 14 14 14 1 3 17 1 3 14 2514 14 14 Contina en 187 1 3 = [x1 5 x3 ]
x2
A = 8.3485
2 1 4, x = 3 x2 = 3 3 5
x1 = 3.7417 x 2 = 5.3852 x3 = 5.9161
187
e2 =
1 x = 2 x' 2
( 2314) + (2214) + (2514)

2 2
23 14 1 2214 = 117 25 14 14
23 - 0.5683 14 2214 = 0.5436 25 14 0.6177
e2 = 1 3 3 - 0.5683 - 0.5683 1 14 14 3 [1 3 5] 2 [1 3 5] 0.5436 0.5436 2 T T x3 = x3 x3 e1e1 x3 e 2 e2 = 14 14 0.6177 0.6177 5 1 1 14 14 1 3 - 2.35897 0.3590 x3 = 3 2 2.25641 = - 1.2564 5 1 2.56410 1.4359 0.3590 0.3590 1 1 1 - 1.2564 = e3 = x3 = 1.94145 - 1.2564 2 2 2 x'3 (0.3590) + (- 1.2564) + (1.4359) 1.4359 1.4359 0.1849 e3 = - 0.64715 e3 = 1 0.7396 Q = [e1 e2 e3 ] 0.80178 - 0.56829 0.18490 Q = 0.53452 0.54358 - 0.64715 0.26726 0.61770 0.73960 Q =1
EJ A-49 Ejemplo del componente de u ortogonal a W (EC A-44).
Con Q se tiene la matriz ortonormalizada de la matriz A. Ahora, si A es una matriz m x n son columnas linealmente independiente. (para lo cual se requiere m n), entonces la aplicacin del proceso de Gram-Schmidt a estas columnas conduce a la til factorizacin de A como el producto de una matriz Q con columnas ortonormales, con una matriz triangular superior R. Este procedimiento se conoce como factorizacin QR, (EC A49) y tiene aplicaciones en la aproximacin numrica de autovalores.
188
A = QR QT Q = I Q T A = Q T QR = IR = R
EC A-49 Factorizacin QR.
0.80178 - 0.56829 R = Q T A = 0.53452 0.54358 0.26726 0.61770 4.54344 3.74165 R = - 5.551e - 016 2.89087 4.440e - 016 1.776e - 015
0.18490 - 0.64715 0.73960 3.74165 4.15099 1.94145
3 2 1 2 4 3 1 3 5
EJ A-50 Ejemplo de factorizacin (EJ A-5) QR (EC A-49) usando Q de (EJ-49).
Entonces A puede ser factorizada como A=QR, donde Q es una matriz con columnas ortonormales y R es una matriz triangular superior invertible. Por lo que con R se diagonaliza ortogonalmente. Para observar geomtricamente lo que ocurre cuando se ortonormaliza una matriz considrese la siguiente matriz A, con su respectiva matriz ortonormalizada Q. 3 1 3 2 A= Q= 1 13 2 3 2 2
EJ A-51 Considrese A y Q y grafquese en (FG A-13).
189
2.5
3, 2
1.5
13
,2
13
0.5
90
-0.5
-1
13
, 3
13
-1.5
1, 2
-2
-2.5
-3 -3 -2.5 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 2.5 3
FG A-13 Ortonormalizacin mostrada segn los valores definidos en (EJ A-51).
El conjunto de vectores son ortonormalizados porque tendrn como producto interno el valor de cero, es decir son perpendiculares (son ortogonales) y mismos vectores tienen una norma de 1 (son ortonormales). Por lo mencionado anteriormente, ste mtodo contiene algunas contrariedades cuando se tratan de matrices de grandes dimensiones, por ser numricamente inestable. Por lo que se propone un mtodo diferente. El mtodo de factorizacin QR por la transformacin de Householder.
190
A.10 Ortonormalizacin de Householder

Un mtodo alternativo al de Gram Schmidt busca desarrollar una factorizacin QR generalizada de A. As, se convierte la matriz A en una forma triangular superior Ai, una columna a la vez, mediante la utilizacin de una sucesin de matrices ortogonales Qi, construyendo la matriz ortogonal Q. El mtodo es anlogo de la factorizacin LU, en el cual la matriz L, es transformada en base en una sucesin de matrices elementales. Sea u el vector de forma que vTv = I, entonces Q = I 2vv T
EC A-50 Matriz Householder vTv=I.
A Q se denomina matriz de Householder (por el matemtico A. S. Householder). La matriz Q ser una matriz simtrica, ortogonal. L a1N L a1N i = 1,2,3L M 1 O M mi = ((i 1) M ) L a MN a11 1 a 0 e1 = 1 mi xi = 21 i = xi ei = M M a mi 1 0 u u = x i i ei v = Qi = I mi 2vv T u a12 a 22 M aM 2
EC A-51 Propiedades de la matriz de Householder (EC A-50).
a11 a A = 21 M a M 1
191
Lo que se requiere es saber cmo construir la matriz ortogonal Q, que transformar una columna dada de A en su columna correspondiente de QiA. i * L * 0 Qi A = A i M 0
EC A-52 Matriz Householder ortogonal Q.
Ntese que Ai+1 (EC A-52) es de menor dimensin que Ai para operar la matriz QiA se expande la matriz Ai la esquina superior izquierda superior con 0s excepto los elementos de la diagonal principal con unos. Todo este proceso se repite para cada Ai resultando en una matriz de Householder Qi Despus de i=m-1 iteraciones en el proceso se tiene R. R = Q1Q2 LQi A
EC A-53 Proceso para el calculo de la matriz R (EC A-6).
De forma que R es una matriz triangular, por lo que Q = Q1Q2 L Qi

EC A-54 Obtencin de la matriz Q. Para la factorizacin de Householder QR.
Es la factorizacin de la matriz A, en el producto de las matrices Q y R. Analcese el siguiente ejemplo:
192
4 12 51 6 167 68 A= 4 41 24
A = A1 = 14
1 = x2 =
(12)2 + (6)2 + ( 4)2
12 1 2 6 140 = 6 u = ( 2 )2 + (6 )2 + ( 4 )2 = 56 u = x1 1e1 = 4 0 4 2 2 56 u 6 = 6 v= = 1 56 56 u 4 4 56 2 1 0 0 56 2 6 4 Q1 = I 2vv T = 0 1 0 2 6 56 56 56 56 4 0 0 1 56 3 2 6 3 2 6 Q1 = 1 7 2 6 3 3 6 2 12 51 4 14 855 7 14 7 7 7 6 6 167 68 = 0 325 14 2 Q1 A1 = 3 7 7 7 7 6 3 4 2 41 0 828 24 77 7 7 7 7 325 14 2 2 7 2 = x 2 = 325 + 828 = 1 791209 A2 = 7 7 7 828 77 7 325 7 791209 1 = 80.6428 u = x1 1e1 = 0 118.2857 7 828 7
) (
u = v=
( 80.6428)2 + ( 118.2857 )2
= 143.1599
80.6428 - 0.5633 u 1 = = 143.1599 118.2857 - 0.8262 u continua 193
193
1 Q2 = I 2vv T = 0 0 1 Q2 = 0 0.3654 0 - 0.3654
0 - 0.5633 0.3654 - 0.9309 2- 0.8262[- 0.5633 - 0.8262] = - 0.9309 - 0.3654 1 0 0.9309 - 0.3654 2 1 0 0 7 0 0.3654 0.9309 6 7 3 0 - 0.3654 - 0.3654 7 - 0.2945 - 0.0472 - 0.9545 0.2945 X 3 = 0.0472 0.9545
3 6 7 7 Q = Q1Q2 = 3 2 7 7 6 2 7 7 0.8571 0.4225 Q = 0.4286 - 0.9023 - 0.2857 - 0.0858 0.8571 X 1 = 0.4286 0.2857
0.4225 X 2 = 0.9023 0.0858
X1 = X 2 = X 3 = 1 X1 X 2 = X1 X 3 = X 2 X 3 = 0 Q = [X 1 X2 X3]
T T T
Q =Q
T
0.8571 0.4286 - 0.2857 = 0.4225 - 0.9023 - 0.0858 - 0.2945 - 0.0472 - 0.9545
14 14 122.1429 0 127.0713 66.5610 R=Q A= 0 0 41.1659

T
EJ A-52 Ejemplo de ortonormalizacin Householder Q.
194
A.11 Resultados de los procesos de Householder, GramSchmidt y la funciones Matlab orth, qr, inv y eig
El software Matlab, desarrollado por MathWorks Inc. permite manipular matrices y hacer clculos vectoriales con facilidad. La palabra Matlab viene de Matriz Laboratory. Con el programa Matlab se puede comprobar con facilidad si los ejemplos comentados son correctos. A es la matriz.
Q1, Q2, Q3 y Q4 son las matrices de Householder con su resultante Qh. La transpuesta de Qh es Qh y su inversa inv(Qh). Rh es la matriz triangular superior de factorizacin de la matriz A segn el mtodo de Householder. G es la matriz ortonormalizada de A segn el proceso de Gram Schmidt. Rg es la matriz triangular superior en la factorizacin de la matriz segn el mtodo de Gram Schmidt. G es la transpuesta de la matriz G. La inversa de la matriz G es inv(G). Orth(A). Es la funcin para ortogonalizar la matriz A segn Matlab. [Qm, Rm]=qr(A, 0). Es la funcin de Matlab genera la descomposicin de la matriz A en una ortonormal Qm y la matriz triangular superior Rm. [V, D]=eig(A). Es la funcin para obtener la matriz diagonal de autovalores D con sus respectivos autovectores ortotormalizados V de la matriz A.
A 17 23 4 10 11 Q1 0.5234 0.7081 0.1231 0.3079 0.3387 Q2 1.0000 0 0 0 0 0 0.0548 0.2674 0.5178 0.8108 0 0.2674 0.9243 -0.1465 -0.2294 0 0.5178 -0.1465 0.7164 -0.4442 0 0.8108 -0.2294 -0.4442 0.3045 0.7081 -0.0521 -0.1830 -0.4574 -0.5032 0.1231 -0.1830 0.9682 -0.0796 -0.0875 0.3079 -0.4574 -0.0796 0.8011 -0.2188 0.3387 -0.5032 -0.0875 -0.2188 0.7594 24 5 6 12 18 1 7 13 19 25 8 14 20 21 2 15 16 22 3 9
195
Q3 1.0000 0 0 0 0 Q4 1.0000 0 0 0 0 0 1.0000 0 0 0 0 0 1.0000 0 0 0 0 0 0.2041 -0.9789 0 0 0 -0.9789 -0.2041 0 1.0000 0 0 0 0 0 -0.0963 -0.5612 -0.8220 0 0 -0.5612 0.7127 -0.4208 0 0 -0.8220 -0.4208 0.3836
Qh=Q1*Q2*Q3*Q4 0.5234 0.5058 0.7081 -0.6966 0.1231 0.1367 0.3079 0.1911 0.3387 0.4514 Rh=Q*A 32.4808 0.0000 0 -0.0000 0.0000 Qh' 0.5234 0.5058 -0.6735 0.1215 0.0441 inv(Qh) 0.5234 0.5058 -0.6735 0.1215 0.0441 G 0.5234 0.7081 0.1231 0.3079 0.3387 Rg 32.4808 -0.0000 0.0000 -0.0000 -0.0000 26.6311 19.8943 0.0000 -0.0000 0.0000 0.5058 -0.6966 0.1367 0.1911 0.4514 0.7081 -0.6966 0.0177 -0.0815 0.0800
-0.6735 0.0177 0.3558 0.4122 0.4996
0.1215 -0.0815 0.6307 0.4247 -0.6328
0.0441 0.0800 0.6646 -0.7200 0.1774
26.6311 19.8943 0.0000 -0.0000 0.0000
21.3973 12.3234 24.3985 0.0000 0
23.7063 1.9439 11.6316 20.0982 -0.0000
25.8615 4.0856 3.7415 9.9739 16.0005
0.1231 0.1367 0.3558 0.6307 0.6646
0.3079 0.1911 0.4122 0.4247 -0.7200
0.3387 0.4514 0.4996 -0.6328 0.1774
0.7081 -0.6966 0.0177 -0.0815 0.0800
0.1231 0.1367 0.3558 0.6307 0.6646
0.3079 0.1911 0.4122 0.4247 -0.7200
0.3387 0.4514 0.4996 -0.6328 0.1774
-0.6735 0.0177 0.3558 0.4122 0.4996
0.1215 -0.0815 0.6307 0.4247 -0.6328
0.0441 0.0800 0.6646 -0.7200 0.1774
21.3973 12.3234 24.3985 -0.0000 -0.0000
23.7063 1.9439 11.6316 20.0982 0.0000
25.8615 4.0856 3.7415 9.9739 16.0005
196
G' 0.5234 0.5058 -0.6735 0.1215 0.0441 inv(G) 0.5234 0.5058 -0.6735 0.1215 0.0441 orth(A) 0.4472 0.4472 0.4472 0.4472 0.4472 0.7081 -0.6966 0.0177 -0.0815 0.0800 0.1231 0.1367 0.3558 0.6307 0.6646 0.3079 0.1911 0.4122 0.4247 -0.7200 0.3387 0.4514 0.4996 -0.6328 0.1774
0.7081 -0.6966 0.0177 -0.0815 0.0800
0.1231 0.1367 0.3558 0.6307 0.6646
0.3079 0.1911 0.4122 0.4247 -0.7200
0.3387 0.4514 0.4996 -0.6328 0.1774
0.5456 0.4498 -0.0000 -0.4498 -0.5456
0.5117 -0.1954 -0.6325 -0.1954 0.5117
0.1954 -0.5117 0.6325 -0.5117 0.1954
-0.4498 0.5456 -0.0000 -0.5456 0.4498
[Qm,Rm]=qr(A,0) -0.5234 0.5058 -0.7081 -0.6966 -0.1231 0.1367 -0.3079 0.1911 -0.3387 0.4514 Rm -32.4808 0 0 0 0
0.6735 -0.0177 -0.3558 -0.4122 -0.4996
-0.1215 0.0815 -0.6307 -0.4247 0.6328
-0.0441 -0.0800 -0.6646 0.7200 -0.1774
-26.6311 19.8943 0 0 0
-21.3973 12.3234 -24.3985 0 0
-23.7063 1.9439 -11.6316 -20.0982 0
-25.8615 4.0856 -3.7415 -9.9739 -16.0005
[V,D]=eig(A) V 0.4472 0.4472 0.4472 0.4472 0.4472 D 65.0000 0 0 0 0 0 21.2768 0 0 0 0 0 -13.1263 0 0 0 0 0 -21.2768 0 0 0 0 0 13.1263 -0.6780 -0.3223 0.5501 0.3525 0.0976 -0.6330 0.5895 -0.3915 0.1732 0.2619 0.0976 0.3525 0.5501 -0.3223 -0.6780 0.2619 0.1732 -0.3915 0.5895 -0.6330
EJ A-53 Uso de Matlab en lgebra lineal.
Listado de figuras, ecuaciones, ejemplos, tablas y cdigos de programas
198
Listado de figuras
Captulo 1 FG 1-1 Visin lateral de los rasgos externos de la cabeza. FG 1-2 Visin frontal de los elementos exteriores de la cabeza. FG 1-3 Msculos de la cabeza y del cuello. FG 1-4 Principales msculos de la expresin facial (FG 1-3)... FG 1-5 Gemelos separados al nacer y se reencontraron a los 31 aos... FG 1-6 Diferencias de percepcin sobre una misma imagen... Captulo 2 FG 2-1 Visin estereoscpica. FG 2-2 Formacin de imgenes con pxeles. 19 23 3 4 5 6 7 8
FG 2-3 Imagen de la mariposa isabelina espaola en diferentes resoluciones. 1 bit, a) 8 24 bits a escala de grises, b) 8 bits a escala de color c) y 24 bits a escala de color d). FG 2-4 Formato de un pxel usando Visual Basic con los alfa, azul, verde y rojo y sus 26 posiciones de inicio. FG 2-5 Salida del programa en Visual Basic. (CD 2-1) 29
FG 2-6 Formato de un pxel codificando en el lenguaje de programacin Java para 29 imgenes en gris (tipo de dato byte) e imgenes a color (tipo de dato int). FG 2-7 Salida del programa en Java. (CD 2-3) FG 2-8 Histograma de una imagen. FG 2-9 Diferencias de frecuencias senoidal y z FG 2-10 Figura que muestra como se realiza una convolucin FG 2-11 Fotografa e histograma antes de la contraccin del histograma. FG 2-12 Fotografa despus de contraerse el histograma (FG 2-11). 33 35 37 39 41 42
199
FG 2-13 Imagen e histograma antes de la ecualizacin. FG 2-14 Imagen ecualizada de (FG 2-13) con su histograma. FG 2-15 Desplegado del programa (CD 2-4) y resultado de la ecualizacin. FG 2-16 Ecualizacin de una imagen a color con el cdigo (CD 2-4) y (EC 2-1) FG 2-17 Imagen con su histograma antes de aplicarle el operador logartmico.
43 45 47 48 50
FG 2-18 Imagen obtenida despus de aplicarle el operador logaritmo a la imagen (FG 250 17). FG 2-19 Imagen antes a) y despus b) de aplicarse el operador exponencial. 51
FG 2-20 Extraccin de bordes en una imagen de clulas en sangre por el algoritmo de 53 Canny. FG 2-21 Distincin entre operadores para la extraccin de bordes basados en primera 53 derivada y segunda derivada. FG 2-22 Agrupacin de patrones en clases o clusters 58
FG 2-23 Red neuronal artificial perceptrn simple con n neuronas de entrada, m neuronas 60 en su capa oculta y una neurona de salida. Captulo 3 FG 3-1 Etapas que forman parte de un completo sistema de reconocimiento de rostros. FG 3-2 Diferencia entre deteccin de rostros y localizacin de rostros. 65 66
FG 3-3 Ejemplo de diferentes filtros de extraccin de bordes (las imgenes resultantes de 67 los filtros han sido invertido los colores para una mejor apreciacin). FG 3-4 Aplicacin del filtro de Canny en un rostro localizado. FG 3-5 Limitaciones de un mtodo de deteccin de rostros aplicando el filtro de Canny. FG 3-6 Imagen de rostros caractersticos o autocaras. FG 3-7 Algoritmo para el reconocimiento de rostros. FG 3-8 Vectorizacin de imgenes del Conjunto de Entrenamiento FG 3-9 Conjunto de Entrenamiento (CE) 68 69 71 73 74 75
200
FG 3-10 Rostro Promedio segn el CE (FG 3-9)
76
FG 3-11 Conjunto de imgenes i que son resta del Rostro Promedio (FG 3-10) a cada 76 imagen del CE (FG 3-9) FG 3-12 Autocaras obtenidas a partir de la conversin de los autovectores uk (EC 3-10) 79 con el CE (FG 3-9). FG 3-13 Relacin de los autovectores uk (FG 3-12) y los vectores i (FG 3-11) conforme 80 al CE muestra (FG 3-9) FG 3-14 Imagen a no pertenece al CE (FG 3-9) y ser proyectada al Espacio de 81 Rostros. FG 3-15 Proporciones para la reconstruccin de PROY (FG 3-16). Las imgenes son 82 observadas usando la ecuacin (EC 3-11) FG 3-16 Proyeccin de PROY al Espacio de Rostros, haciendo una suma acumulativa de 83 las proporciones de pesos en las imgenes de (FG 3-15) FG 3-17 Todas las imgenes se tratan de la misma persona y su cambio solo consiste en 85 maquillaje. FG 3-18 Fotos de gemelos idnticos 86
FG 3-19 Distancias euclidianas al proyectar imgenes sobre personas que no estn en el 87 CE (FG 3-9). FG 3-20 Imgenes del Conjunto de Entrenamiento 7, 8 y 9 (FG 3-9) FG 3-21 Persona 7, 8 y 9 mostrndose sin lentes. 88 88
FG 3-22 Proyecciones de las imgenes (FG 3-21) al Espacio de Rostros con un CE (FG 89 3-9) y sus distancias euclidianas. FG 3-23 Proyecciones de las imgenes (FG 3-21) al Espacio de Rostros sin u9, 9 y a. FG 3-24 Sustitucin de la imagen 9 por a en el CE (FG 3-9). 90 90
FG 3-25 Proyeccin de imgenes a b, c y d al Espacio de Rostros. Considrese la 91 sustitucin en (FG 3-24)
201
Captulo 4 FG 4-1 Diagrama de flujo general para el Sistema de Reconocimiento de Rostros implementado. Por las dimensiones del diagrama se expone en dos partes (observe el 97 conector 1). FG 4-2 Interfaz del sistema FaceRec. a) Arranque del sistema. b) Configuracin del sistema en nmero de personas y rostros por persona. c) Identificacin del software. d) 100 Etapa de aprendizaje. e) Etapa en la identificacin con un grado de semejanza entre imgenes. FG 4-3 Imgenes de los directorios s1 al s40 de la ORL 101
FG 4-4 Resultados de identificacin obtenidos por nmero de imgenes seleccionadas 121 por persona de la ORL. FG 4-5 Resultados de identificacin obtenidos por diferentes tamaos de CE en 10 122 combinaciones distintas. FG 4-6 Conjunto de imgenes tomadas con una cmara digital y transformadas en escala 123 de grises. FG 4-7 Proyecciones de imgenes mostradas en (FG 4-6) teniendo como CE 1a.jpg, 124 2a.jpg y 3a.jpg. FG 4-8 Proporciones de distancias euclidianas en 1500 proyecciones de imgenes al Espacio de Rostros en 125 CE y donde las imgenes no son miembros de stos 127 conjuntos. FG 4-9 Resultados obtenidos en [STOLL 1997] con un reconocimiento de rostros con una red neuronal Kohonen. Reduciendo las dimensiones de las imgenes a un cuarto a) y a la 128 mitad b). Apndice A FG A-1 Ejemplos del comportamiento de vectores en un espacio tridimensional. FG A-2 Recta entre los puntos P1 y P2. FG A-3 Vectores en un espacio bidimensional que tienen una longitud de 1. 151 152 154
FG A-4 Fluctuacin entre compradores de las marcas de pasta de dientes A y B en un 157 mes. FG A-5 Participacin del mercado para las marcas de pasta de dientes A y B en 20 161 meses.
202
FG A-6 Grfica que indica el aumento la poblacin de escarabajos en 20 aos. FG A-7 Poblacin relativa de escarabajos en una proyeccin de 20 aos.
164 165
FG A-8 Tasa de crecimiento de las poblaciones en 30 aos. Obsrvese que tendern al 166 150% por ao. FG A-9 Modo grfico para la obtencin del autovector dominante (TB A-1). FG A-10 Modo grfico para determinar el autovector dominante yk (TB A-2). FG A-11 Demostracin grfica de (EC A-42). FG A-12 Proyeccin mostrada en trminos de (EC A-45). FG A-13 Ortonormalizacin mostrada segn los valores definidos en (EJ A-51). 175 177 182 183 189
203
Listado de ecuaciones
Capitulo 2 EC 2-1 Ecuacin para la conversin entre modelo RVA a YIQ. Con 0.299R + 0.587V + 0.114A se obtiene la reflectancia, til si se quiere mostrar solo la iluminacin (escala de 26 grises). EC 2-2 Ecuacin para realizar la contraccin del histograma de una imagen. EC 2-3 Ecuacin para conocer la proporcin por el nivel de gris g en una imagen. EC 2-4 Ecuacin en donde se aclara que la suma de proporciones es igual a uno. EC 2-5 Funcin de densidad de probabilidad. EC 2-6 Funcin para establecer el valor de pxel de la imagen de salida correspondiente. EC 2-7 Ecuacin para obtener el operador logartmico de una imagen. EC 2-8 Ecuacin para obtener el operador exponencial de una imagen. EC 2-9 Definicin de la gradiente. EC 2-10 Definicin del cambio de la discontinuidad en la gradiente. EC 2-11 Cambio de la gradiente en un punto de una imagen. EC 2-12 Obtencin de la gradiente en un punto. EC 2-13 Binarizacin de la imagen gradiente. Captulo 3 EC 3-1 Ecuacin para obtener el Rostro Promedio EC 3-2 Ecuacin para calcular las diferencias al Rostro Promedio () EC 3-3 Ecuacin para proyectar una imagen j al Espacio de Rostros. EC 3-4 Ecuacin para conocer la matriz de pesos W. 75 76 77 77 41 43 43 44 44 48 51 54 54 55 55 55
EC 3-5 Medidas de desviacin de los autovectores uk (autovalores de la matriz de 77 covarianzas)
204
EC 3-6 Calculo de la matriz de covarianza. EC 3-7 Definicin de la matriz para el clculo de Matriz de Covarianzas reducida (A) EC 3-8 Autovectores vk de la matriz ATA. EC 3-9 Calculo de Matriz de Covarianzas reducida (dimensiones MN). EC 3-10 Calculo de los autovectores uk. EC 3-11 Procedimiento para representar correctamente un vector V. EC 3-12 Definicin de la matriz de pesos W del Espacio de Rostros. EC 3-13 Procedimiento para encontrar la imagen ms semejante al CE. Apndice EC A-1 Definicin de una matriz. EC A-2 Ecuacin para el producto de dos matrices. EC A-3 Determinante de una matriz. EC A-4 Definicin de un cofactor. EC A-5 Propiedades de una matriz inversa. EC A-6 Ecuacin para obtener una matriz triangular superior. EC A-7 Definicin de matrices elementales. EC A-8 Definicin de una matriz triangular superior e inferior. EC A-9 Definicin de un vector rengln. EC A-10 Definicin de un vector columna. EC A-11 Definicin de un vector multidimensional. EC A-12 Propiedades de los vectores.
77 78 78 78 78 79 80 84
138 139 139 140 141 143 143 144 147 147 148 149
EC A-13 Segn las propiedades se puede probar que cualquier vector multiplicado por 150 cero es el origen y la propiedad conmutativa en la resta vectorial. EC A-14 Longitud de una recta en un espacio de dos dimensiones. 153
205
EC A-15 Norma de un vector de mltiples dimensiones obtenido por sus componentes.
153
EC A-16 Reinterpretacin de (EC A-15) para obtener la norma de un vector de mltiples 153 dimensiones. EC A-17 Normalizacin estndar de un vector. EC A-18 Desigualdad Cauchy - Schwartz. EC A-19 Definicin del ngulo de dos vectores . EC A-20 Espacio vectorial B contenidos los vectores v con una base ortogonal. EC A-21 Obtencin de los coeficientes en (EC A-20). EC A-22 Definicin de una cadena de Markov. 154 154 154 156 156 159
EC A-23 Transicin entre un periodo 0 y 2 en la determinacin del valor de una matriz x2. 160 EC A-24 Ecuacin de Markov para calcular la matriz xk en k periodos. EC A-25 Concepto de autovectores y autovalores de una matriz A. 160 167
EC A-26 Ecuacin caracterstica de A, donde los autovalores tendrn la determinante 167 (A - I)=0. EC A-27 Desarrollo de la ecuacin caracterstica (EC A-26). EC A-28 Polinomio caracterstico (EC A-26) para una matriz de 2 X 2. EC A-29 Diagonalizacin de autovalores (EC A-25). EC A-30 Definicin de una secuencia de autovectores (EC A-23). EC A-31 Orden de los autovalores como el 1 el mayor. 168 168 171 171 171
EC A-32 Combinacin lineal de x0 y formacin de un espacio con base ortogonal Rn (EC 172 A-20). EC A-33 Definicin del autovector dominante (EC A-23). EC A-34 Definicin general del autovector dominante (EC A-22). EC A-35 Definicin de un autovalor dominante en k periodos de transicin (EC A-25). 172 172 172
206
EC A-36 Obtencin del autovector dominante en k periodos. EC A-37 Obtencin del autovalor dominante en k periodos.
173 173
EC A-38 Definicin del cociente de Rayleigh para la obtencin del autovalor dominante 1. 180 EC A-39 Aplicacin de matrices simtricas en (EC A-29). EC A-40 Aplicacin de (EC A-12) en (EC A-39). EC A-41 Definicin de un vector ortonormal. 181 182 182
EC A-42 Un vector de W que pasa por el origen se puede expresar con la suma de 182 vectores ortonormales. EC A-43 Ecuacin (EC A-42) escrita en trminos de la proyeccin y componente 183 ortogonal. EC A-44 Ecuacin del componente u ortogonal a W. EC A-45 Ecuacin (EC A-44) escrita en trminos del componente ortonormal u. EC A-46 Proyeccin de u en una base ortonormal para W en una combinacin lineal. 184 183 184
EC A-47 Proyeccin de u de una base ortogonal para W en una combinacin lineal (EC A184 21) EC A-48 Proceso de ortonormalizacin de Gram-Schmidt. EC A-49 Factorizacin QR. EC A-50 Matriz Householder vTv=I. EC A-51 Propiedades de la matriz de Householder (EC A-50). EC A-52 Matriz Householder ortogonal Q. EC A-53 Proceso para el calculo de la matriz R (EC A-6). EC A-54 Obtencin de la matriz Q. Para la factorizacin de Householder QR. 185 188 190 190 191 191 191
207
Listado de ejemplos
Captulo 2 EJ 2-1 Densidad de probabilidad para el nivel de gris 107 en la imagen (FG 2-13). 44
EJ 2-2 Valor de la imagen de salida (FG 2-14) para el pxel ubicado en el rengln uno y 44 columna uno. EJ 2-3 Ejemplo de aplicar el operador logartmico para un pxel en la columna 5 y rengln 49 8 con un nivel de gris de 130. Captulo 3 EJ 3-1 Ejemplo de cmo generar el vector de pesos a segn (EC 3-4). Con el vector a y 81 los autovectores uk mostrados como autocaras en (FG 3-12). Apndice EJ A-1 Ejemplo de sistema de ecuaciones lineales. EJ A-2 Ejemplo para calcular la determinante de una matriz de 3 X 3. EJ A-3 Ejemplo para la inversa de una matriz de dimensiones de 2 X 2. EJ A-4 Ejemplo para poder invertir una matriz. EJ A-5 Ejemplo para factorizar una matriz de 3 X 3. EJ A-6 Ejemplo de un sistema de ecuaciones usando la matriz A del (EJ A-5). 138 140 141 142 145 146
EJ A-7 Resolucin de un sistema de ecuaciones dada a las matrices superior e inferior de 146 A (EJ A-5). EJ A-8 Uso de la matriz triangular superior en un sistema de ecuaciones. EJ A-9 Uso de la matriz triangular inferior en un sistema de ecuaciones. EJ A-10 Las coordenadas x, y en un vector columna. EJ A-11 Distancia entre los puntos P1 y P2 de (FG A-1). EJ A-12 Reexpresin de (EJ A-11) en trminos de diferencia de coordenadas. EJ A-13 Ejemplo de obtener el ngulo de dos vectores segn (EC A-19). 146 146 148 152 152 155
208
EJ A-14 Ejemplo de una matriz ortogonal. EJ A-15 Cantidad de clientes que prefieren la marca A en cualquier mes. EJ A-16 Cantidad de clientes que prefieren la marca B en cualquier mes. EJ A-17 Fluctuacin de clientes entre las marcas expresados en una ecuacin matricial. EJ A-18 Cantidad de clientes que prefieren las marcas A y B despus de dos meses. EJ A-19 Cantidad de clientes que prefieren las marcas A y B en medio ao. EJ A-20 Porcentaje de participacin del mercado para las marcas A y B. EJ A-21 Clientes para la marcas A y B despus de medio ao aplicando (EC A-24).
155 158 158 158 159 159 160 160
EJ A-22 La determinacin de la cantidad de clientes de la marca A y B en siete meses. 161 con (EJ A-21). EJ A-23 Vector estacionario en participacin de mercado de las marcas A (40%) y B 161 (60%). EJ A-24 Calculo del vector estacionario en la distribucin de las marcas de pasta dentales 162 A y B. EJ A-25 Vector estocstico que indicad el nmero de clientes que usarn las marcas 162 dentales A y B. EJ A-26 Prediccin de las poblaciones de escarabajos en un ao. EJ A-27 Poblaciones de escarabajos en 2, 3 9, 10 y 20 aos. EJ A-28 Poblacin relativa de escarabajos en un ao. 163 164 165
EJ A-29 Vector estacionario que indica la poblacin relativa que tendern las poblaciones 166 de escarabajos. EJ A-30 Poblacin de escarabajos en 86 aos, alcanzando un crecimiento constante de 167 crecimiento. EJ A-31 Desarrollo de un polinomio caracterstico A. EJ A-32 Obtencin de los autovectores de A por sus autovalores (EC A-34). 169 169
209
EJ A-33 Matriz que se utilizar para calcular los autovectores y autovalores segn mtodo 174 de potencias. EJ A-34 Autovector dominante de A. EJ A-35 Valores iniciales de y0 y x0. 174 175
EJ A-36 Calculo de x1 y m1 como el mayor valor absoluto de los componentes del vector 176 x1. EJ A-37 Obtencin de y1. EJ A-38 Calculo de x2 a partir de y1. EJ A-39 Calculo de y2 y m2 (EJ A-36). EJ A-40 Calculo de A2 para calcular el segundo autovector yk y autovalor mk. EJ A-41 Calculo de los autovalores (EJ A-33) segn (EC A-26). EJ A-42 Calculo de los autovectores (EJ A-33) segn (EJ A-32). EJ A-43 Igualdad de los autovectores y autovalores con (EJ A-42) segn (EC A-25). EJ A-44 Aplicacin del autovalor dominante segn (EC A-38). EJ A-45 Ejemplo para obtener los autovalores de la matriz inversa (EJ A-3). EJ A-46 Aplicacin de (EC A-29) con (EJ A-45). EJ A-47 Ejemplo de una proyeccin ortogonal de u sobre W (EC A-46). EJ A-48 Ejemplo del componente de u ortogonal a W (EC A-44). EJ A-49 Ejemplo del componente de u ortogonal a W (EC A-44). EJ A-50 Ejemplo de factorizacin (EJ A-5) QR (EC A-49) usando Q de (EJ-49). EJ A-51 Considrese A y Q y grafquese en (FG A-13). EJ A-52 Ejemplo de ortonormalizacin Householder Q. EJ A-53 Uso de Matlab en lgebra lineal. 176 176 176 178 179 179 179 180 180 181 184 184 187 188 188 192 194
210
Listado de tablas
Captulo 2 TB 2-1 Diferencias entre visin humana y visin computacional Captulo 3 TB 3-1Vector de distancias euclidianas E, estableciendo la imagen 8 (=8) del CE (FG 39) ms semejante a PROY (FG 3-16) y 4 como la menos semejante, las cantidades 84 fueron redondeadas. TB 3-2 Autovalores de la Matriz de Covarianzas, obsrvese lo anormalmente bajo es el 89 autovalor 9. Captulo 4 TB 4-1 Conjunto de Entrenamiento escogido para las pruebas (TB 4-2) 112 21
TB 4-2 Resultados de proyectar cada imagen de la ORL al Espacio de Rostros segn el 121 CE (TB 4-1) TB 4-3 Los 57 CE que permiten identificar plenamente a cualquiera de las imgenes mostradas en (FG 4-6) se omite la extensin .jpg. En amarillo se remarca el mejor grupo 125 por tener un promedio de distancias euclidianas menor. TB 4-4 Resultados obtenidos con 68 CE al proyectar las imgenes mostradas en (FG 4127 6)se omite la extensin .jpg... Apndice TB A-1 Obtencin del autovector xk y el autovalor dominante rk. TB A-2 Calculo del autovector dominante yk y el autovalor dominante mk (EJ A-33). TB A-3 Calculo del segundo autovector yk y autovalor mk (TB A-2). 174 177 178
TB A-4 Ejemplo para obtener demostrar la igualdad (EJ A-43) con diferentes autovectores. 181
211
Listado de cdigo de programas

Captulo 2 CD 2-1 Programa en Visual Basic para convertir una imagen a color en modelo RVA a escala de grises. Para la conversin entre se utiliza la ecuacin (EC 2-1) para obtener la 28 reflectancia Y= 0.299*R + 0.587*V + 0.114*A y as mostrar la imagen en escala de grises. CD 2-2 Programa completo en Java para guardar la informacin de una imagen, ya sea la 32 imagen a color en RVA o escala de grises. CD 2-3 Ejemplo del uso de la funcin createImage en Java generando (FG 2-7) 33
CD 2-4 Cdigo escrito en Microsoft Visual Basic versin 6, para la igualacin del 47 histograma, el cuadro es un compendio de los objetos incluidos en el programa y su clase. CD 2-5 Funcin escrita Visual Basic 6 para calcular el operador logartmico de una 49 imagen.
Glosario de acrnimos
213
ACP El Anlisis de Componentes Principales (ACP) es una tcnica estadstica de sntesis de la informacin, o reduccin de la dimensin (nmero de variables). Es decir, ante un banco de datos con muchas variables, el objetivo ser reducirlas a un menor nmero perdiendo la menor cantidad de informacin posible. ART Redes de Resonancia Adaptativa (ART). Es una red neuronal de aprendizaje competitivo, denominado teora de la resonancia adaptativa, desarrollado por Carpenter y Grossberg en 1986. Esta red realiza un prototipado de las informaciones que recibe a la entrada, generando como salida un ejemplar o prototipo que representa a todas las informaciones que podran considerarse pertenecientes a la misma categora. BMP Los archivos con extensin .BMP, en los sistemas operativos Windows, representan la sigla BitMaP, o sea mapa de bits. Los archivos de mapas de bits se componen de direcciones asociadas a cdigos de color, uno para cada cuadro en una matriz de pxeles. CD Es para enumerar el cdigo de programas en la tesis. CE Conjunto de Entrenamiento. Conjunto de Aprendizaje. EC Es para referenciar una ecuacin en la tesis. EJ Es para enumerar un ejemplo en la tesis o la aplicacin de una ecuacin. FG Se esta indicando que el elemento en la tesis es una imagen o figura. GIF Graphics Interchange Format, es un formato grfico utilizado ampliamente en la World Wide Web, tanto para imgenes como para animaciones. JPEG Joint Photographic Experts Group. Es un algoritmo diseado para comprimir imgenes con 24 bits de profundidad o en escala de grises. OCR El software de reconocimiento ptico de caracteres, abreviado habitualmente como OCR (Optical Character Recognition), extrae de una imagen los caracteres que componen un texto para almacenarlos en un formato con el cual puedan interactuar programas de edicin de texto.
214
ORL Base de datos de Olivetti Reasearch Lab, la cual contiene 10 imgenes diferentes de 40 sujetos distintos. PXEL El pxel (del ingls picture element, o sea, "elemento de la imagen") es la menor unidad en la que se descompone una imagen digital, ya sea una fotografa, un fotograma de video o un grfico. RNA En inteligencia artificial, referidas habitualmente de forma ms sencilla como redes de neuronas o redes neuronales, las redes de neuronas artificiales (RNA) son un paradigma de aprendizaje y procesamiento automtico inspirado en la forma en que funciona el sistema nervioso de los animales. TB Es para enumerar tablas de datos en la tesis. TIFF La denominacin en ingls "Tagged Image File Format" (formato de archivo de imgenes con etiquetas) se debe a que los ficheros TIFF contienen, adems de los datos de la imagen propiamente dicha, "etiquetas" en las que se archiva informacin sobre las caractersticas de la imagen, que sirve para su tratamiento posterior.

Instituto Tecnológico de León

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Instituto Tecnológico de León

Transféré par

Droits d'auteur :

Formats disponibles

INSTITUTO TECNOLGICO de LEN

Jalil Gibrn - Rostros

92 93 94 100 111 128 129 131 133

197 198 203 207 210 211 212

Captulo uno Introduccin

1.1 Antecedentes del reconocimiento de rostros

FG 1-1 Visin lateral de los rasgos externos de la cabeza.

FG 1-2 Visin frontal de los elementos exteriores de la cabeza.

FG 1-3 Msculos de la cabeza y del cuello.

FG 1-6 Diferencias de percepcin sobre una misma imagen.

1.2 Definicin del problema

1.3 Objetivo general de la investigacin

1.4 Objetivos especficos de la investigacin

1.5 Hiptesis de la tesis

1.6 Justificacin del proyecto

1.7 Producto final y delimitacin de la investigacin

1.8 Historia del reconocimiento de rostros

1.9 Organizacin del documento

Captulo dos Fundamentos de la visin computacional

Capitulo 2. Fundamentos de la visin computacional

FG 2-1 Visin estereoscpica.

2.2 La visin artificial

2.3 Diferencias entre la visin humana y la visin artificial

TB 2-1 Diferencias entre visin humana y visin computacional

2.4 Procesamiento digital de imgenes

2.4.1 Imgenes digitales

2.4.1.1 Modelos de colores de imgenes digitales

0.114 R Y 0.299 0.587 I = 0.596 0.275 0.321 V Q 0.212 0.523 0.311 A

2.4.2 Relacin entre matrices, vectores e imgenes en lenguajes de programacin

System.err.println("ERR. Imposible guardar datos."); }

FG 2-7 Salida del programa en Java. (CD 2-3)

2.4.3 Formatos de imgenes

2.4.3.1 Formato BMP

2.4.3.2 Formato GIF

2.4.3.3 Formato JPEG

2.4.3.4 Formato TIFF

2.4.4 Histograma de una imagen

FG 2-8 Histograma de una imagen.

2.4.5 Distorsin de imgenes digitales

2.4.5.1 Teora de filtros

... ... ...

2.5 Mejoramiento de imgenes para la identificacin de rostros

2.5.1 Contraccin del histograma

FG 2-11 Fotografa e histograma antes antes de la contraccin del histograma.

FG 2-12 Fotografa despus de contraerse el histograma (FG 2-11).

2.5.2 Igualacin del histograma

FG 2-13 Imagen e histograma antes de la ecualizacin.

EC 2-4 Ecuacin en donde se aclara que la suma de proporciones es igual a uno.

La funcin de densidad de probabilidad resulta que:

FG 2-14 Imagen ecualizada de (FG 2-13) con su histograma.

FG 2-15 Desplegado del programa (CD 2-4) y resultado de la ecualizacin.

2.5.3 Operador logartmico

EC 2-7 Ecuacin para obtener el operador logartmico de una imagen.

(5,8) = 80 ln(130 + 1) + (165) = 225.0158 225

Con la imagen de entrada siguiente (FG 2-17):

FG 2-17 Imagen con su histograma antes de aplicarle el operador logartmico.

Al realizar en la imagen una operacin logartmica se obtiene la siguiente imagen:

2.5.4 Operador exponencial

FG 2-19 Imagen antes a) y despus b) de aplicarse el operador exponencial.

2.6 Segmentacin de imgenes

EC 2-10 Definicin del cambio de la discontinuidad en la gradiente.

G x = f (i + 1, j ) f (i, j ) G y = f (i, j + 1) f (i, j )

2.7 Deteccin de objetos