Académique Documents
Professionnel Documents
Culture Documents
Trabajo de Tesis
DESARROLLO DE UN SISTEMA DE RECONOCIMIENTO ÓPTICO DE
MARCAS PARA MEJORAR EL PROCESAMIENTO DE ENCUESTAS
AUTORES:
▪ Guevara Honores, Sara
sarix92@gmail.com
ASESOR:
Ing. Orlando Salazar Campos
salazarcjo@gmail.com
Trujillo – Perú
2014
Desarrollo de un Sistema de Reconocimiento Óptico de Marcas
para mejorar el Procesamiento de Encuestas
UNT
INDICE GENERAL
INDICE DE FIGURAS
INDICE DE TABLAS
1.1. Título:
Desarrollo de un Sistema de Reconocimiento Óptico de Marcas para mejorar el
procesamiento de encuestas.
Con el uso de la tecnología e internet, las encuestas online son muy útiles, sin
embargo la gran limitación de este procedimiento es la dificultad que tienen
determinados colectivos para acceder a esta tecnología, como por ejemplo,
existen empresas que aplican encuestas directamente a campo, a sus
trabajadores o a un conjunto de individuos que en el momento prescinden de
un computador (Díaz R. V, Flavián C. & Guinalíu M., 2012). Las encuestas
online son un medio relativamente económico pero sólo generan índices de
captación de datos entre 3% y 15%; a diferencia de éstas, las encuestas físicas
pueden llegar a generar índices de captación de datos más del 90% (Sucar, L.
E. 2008). Por tal motivo las empresas optan por realizar encuestas físicas,
obteniendo así, un gran volumen de datos en papeles y documentos. Para un
análisis posterior de la información recopilada, se necesita digitalizar y
almacenar los datos de las encuestas.
Cabe resaltar que, se tiene que contratar personal para pasar los datos de las
encuestas en físico hacia el computador, lo cual demanda costo, además el
personal contratado puede cometer errores y por consiguiente no podemos
asegurar que la información procesada sea la correcta. Por otro lado, la
digitalización de los datos de las encuestas puede demorar días o semanas.
Frente a éste problema, se plantea desarrollar un Sistema OMR para mejorar el
procesamiento de Encuestas, el cual pueda automatizar el proceso de
digitalización y almacenamiento de los datos de encuestas físicas, reduciendo
el tiempo y los errores que puedan tener en el procesamiento de éstas de
forma manual.
1.3. Hipótesis:
El Desarrollo de un Sistema de Reconocimiento Óptico de Marcas permite
mejorar el procesamiento de encuestas
1.5. Objetivos:
1.6. Justificación:
2.1.1. Población:
La población está constituida por todas las encuestas proporcionadas
por la “Cámara de Comercio y Producciones La Libertad”.
2.1.2. Muestra:
Dado que la cantidad de la población es indefinida, aplicamos la
siguiente fórmula, para calcular el tamaño de la muestra:
𝑍𝑛2 ∗ 𝑃 ∗ 𝑄
𝑛 =
𝐸2
Donde:
𝑛: muestra.
𝑍𝑛2 : es el grado de confiabilidad deseado para la muestra.
𝑃 : Proporción de la población que tienen las características de interés.
𝑄 : (1- 𝑃), proporción de la población que no tienen las características.
𝐸 2 : Error permitido.
Aplicando la fórmula:
1.962 ∗ 0.5 ∗ 0.5
𝑛 =
0.052
2.3. Fuentes:
Las encuestas proporcionadas por la empresa “Cámara de Comercio”.
𝐗 𝐎𝟏
𝐎𝟐
Donde:
X: Sistema de Reconocimiento óptico de marcas.
O1: Observación del resultado aplicando X.
O2: Observación del resultado sin aplicación de X.
2.4.2. Indicadores.
Sensibilidad
Eficacia
Tiempo de procesamiento de las encuestas.
La encuesta personal
Ventajas Desventajas
Elevado índice de respuestas. Es caro y lento
Facilidad de cooperación de las El entrevistador puede ejercer
personas entrevistadas debido a la influencia y debe estar entrenado a
presencia del entrevistador, a la vez la vez que controlado
que permite resolver dudas.
Permite evitar influencia de otras Difícil acceso a ciertas poblaciones.
personas.
Posibilita la realización de entrevistas
largas
Pueden mostrarse materiales.
Pueden obtenerse datos secundarios
(presencia, ambiente. etc.)
La encuesta Telefónica
Ventajas Desventajas
Económico con reservas Presenta problemas de muestreo
pues excluye a las personas que no
tienen teléfono.
Técnica muy rápida tanto contactando Existe un nivel de no respuesta no
como recogiendo la información. asociado al muestreo por el hecho
de marcar números telefónicos al
azar.
Puede utilizarse como medio único, No pueden exhibirse materiales
como auxiliar o combinado con otras
técnicas o modalidades de encuesta.
Permite entrevistar a determinadas Brevedad de la entrevista.
poblaciones (personas importantes,
muy ocupadas, de zonas mal
comunicadas. etc.).
Mejor inclinación a responder por No es apropiado para tratar temas
teléfono. delicados ni preguntas complejas.
Se necesitan menos entrevistadores y
la supervisión es adecuada.
La encuesta Postal
Ventajas Desventajas
Económico Bajos índices de respuesta.
Se precisa escaso personal para Inconvenientes formales: pueden
realizar la encuesta darse errores en la cumplimentación,
no se controla el orden de las
preguntas y el cuestionario ha de ser
corto
Accesibilidad Impersonal
Flexibilidad de tiempo para el Pueden influir otras persona
entrevistado que ofrece mayor calidad
a la información
Favorece el anonimato No es apropiado para tratar temas
delicados ni preguntas complejas.
Poco útil para encuestas de
respuesta inmediata. Ciertos grupos
quedan excluidos (analfabetos
absolutos y funcionales).
Ventajas Desventajas
La falta de intermediario entre el No todo el mundo tiene ese
cuestionario y el entrevistado hace que acceso y a lo mejor los que si
los sondeos sean más objetivos. tiene no forman parte de la
muestra.
Se evita que el entrevistador condicione Se pueden mentir muy fácilmente
al entrevistado. datos nulos.
Rapidez en la recogida y análisis de Si no se garantiza el anonimato
datos. pueden darse bajas tasas de
respuesta.
Amplia cobertura La dificultad en controlar la
selección informantes (por
ejemplo, evitar que la misma
persona contesta varias veces a
la encuesta, asegura que la
persona que respondió la
adecuada, y que se.).
El ahorro de tiempo
Los bajos costos
La utilización de medios audiovisuales
durante la encuesta.
Preguntas Cerradas:
Preguntas Abiertas:
Donde:
𝑘 = 1,2,3, … 𝐿 − 1
𝐿−1
∑ ℎ𝐼 (𝑘) = 𝑁𝑥𝑀
𝑘=0
𝐿−1 𝐿−1
ℎ𝐼 (𝑘)
∑ = ∑ 𝑝𝐼 (𝑘) = 1
𝑁𝑥𝑀
𝑘=0 𝑘=0
B. Binarización de imágenes:
La binarización, es una operación puntual, la cual consiste en
transformar una imagen de entrada a una imagen de salida, de
forma que cada pixel de la imagen de salida sólo depende del
correspondiente pixel de la imagen de entrada. Para obtener una
imagen binaria se hace una transformación no-lineal de la imagen de
entrada, obteniéndose una imagen de salida en la cual cada pixel
puede tomar alguno de dos valores: 0 y 1, 0 y 255, etc. Para esto, se
toma un valor de umbral T (Sucar, L. & Gómez G., 2008).
C. Umbralización:
Umbral global
𝑡0 , 𝑠𝑖 𝐼(𝑟, 𝑐) < 𝑇
𝑏(𝑟, 𝑐) = {
𝑡1 , 𝑠𝑖 𝐼(𝑟, 𝑐) ≥ 𝑇
A. Definición:
B. Historia:
Los inicios del OMR se remontan a los años 1930, en ese entonces
y hasta en la actualidad, se emplearon y se emplean dispositivos
dedicados para procesar los formatos, tales dispositivos son
conocidos como optical mark reader (lector óptico de marcas, en
español). Con el OMR moderno, donde la presencia de una pequeña
marca de tinta es reconocida, el reconocimiento se hace mediante
un escáner óptico. Algunos de los dispositivos iluminan el papel con
un haz de luz, y con una reflexión contrastante se detectan las áreas
marcadas, ya que estas reflejan menos luz que las áreas blancas del
papel. Otros lectores usan formas pre-impresas sobre papel
transparente y miden la cantidad de luz que pasa a través del papel,
así pues, una marca en cualquier cara del papel reducirá la cantidad
de luz que pasa a través del mismo (Granados C. H., 2012).
C. Ventajas:
La tecnología OMR es muy útil y eficiente para recabar
información simple y predeterminada.
La tecnología OMR puede proporcionar una eficacia del 99,9%
de precisión en la lectura de datos en un documento impreso con
calidad.
D. Desventajas:
La tecnología OMR no es capaz de reconocer caracteres en letra
manuscrita o a máquina.
Gran dependencia del formato de formulario empleado.
Cámara Digital:
Resolución: La mayoría de cámaras comerciales generan
imágenes de 640x480 píxeles que son adecuadas para muchas
aplicaciones.
Memoria: Se interesa alojar en la memoria tantas fotografías
como sea posible antes de proceder a su descarga en la
computadora. Las cámaras pueden incluir memoria interna fija,
así como tarjetas de memoria intercambiables.
Sistema de Transferencia: Para el traspaso de imágenes a la
PC, la mayoría cuentan con conexión USB.
Velocidad: Cabe mencionar que depende del Hardware de la
cámara digital.
Escáner:
Es un dispositivo que le permite realizar una copia digital de una
fotografía u otro tipo de documento.
Resolución: Depende la precisión del motor que impulsa
pausadamente al CCD (Charge Coupled Device - dispositivo de
carga acoplado) a lo largo del documento. Algunas resoluciones
de escáner son: 300, 600, 1200, 2400, 4800, 9600 dpi (dots per
inch – puntos por pulgada).
Memoria: No necesita memoria externa.
Sistema de Transferencia: Cuenta con un CCD con una sola
fila de píxeles fotosensibles. Este CCD líneal registra el valor
lumínico de cada una de las líneas o filas de una imagen. Al
terminar una línea remite la información de inmediato a la PC
para poder proceder la lectura de la línea siguiente. Además
requiere de una conexión USB.
Velocidad: Depende del motor que impulsa pausadamente al
CCD y también del usuario quien coloca los documentos a
escanear.
Fotocopiadora digital:
Resolución: Desde 300 dpi hasta 9600 dpi.
Memoria: Usa una memoria RAM, la cual hace que las copias
antes de pasar a la impresión se almacenan en la memoria
B. Pre procesamiento:
Esta etapa Incluye técnicas para la binarización, reducción del ruido,
realce del contraste, realce de ciertos detalles, o características de la
imagen, entre otros.
𝐼(𝑥, 𝑦) − 𝑚𝑖𝑛
𝐶(𝑥, 𝑦) = ( ∗ 255)
𝑚𝑎𝑥 − 𝑚𝑖𝑛
𝑆 = 𝐴(𝑟) 0 ≤ 𝑟 ≤ 1
Algoritmo de Niblack
Filtro de Mediana:
Es un método de alisamiento que reduce el
emborronamiento de las fronteras. La idea es reemplazar el
valor de la imagen en un punto por la mediana de los niveles
de brillo vecinos. Es obvio que los puntos aislados de ruido
son eliminados (Molina R., 1998).
Filtro Gaussiano:
1 − 𝑥 2 +𝑦2 2
𝐺 (𝑥, 𝑦) = 2 𝑒 2𝜎
𝜎
Donde 𝜎 es la desviación estándar de la distribución (Aguilar
M., 2007).
C. Segmentación:
Proceso de separar la imagen en unidades significativas para llegar
al reconocimiento de marcas.
D. Descripción:
Es la obtención de características convenientes para diferenciar un
tipo de marca, como: la forma, el tamaño, área, etc.
E. Reconocimiento:
𝐻𝐷 (ℎ1, ℎ2) = 2
ANÁLISIS DE TÉCNICAS
1 2 3 4 5
Malo Regular Normal Bueno Excelente
DISPOSITIVOS
CRITERIOS
Cámara Escáner Fotocopiadora
Digital Digital
Resolución 2 4 4
Memoria 2 2 5
Sistema de Transferencia 3 3 3
Velocidad de Captura 3 1 5
TOTAL 10 10 17
Aumento Ecualización
ALGORITMOS lineal del por
CRITERIOS Contraste histograma
Coste computacional 2 3
TOTAL 7 10
4.2.2. Binarización:
4.3. Segmentación:
Tiempo de Ejecución 4 2 2
4.4. Descripción:
Dependencia de cantidad de 3 4
pixeles para la región de interés
Probabilidad de Acierto en el 3 3
objeto
Confiabilidad al describir el objeto 1 2
TOTAL 10 13
4.5. Reconocimiento:
Comparación de descriptores de 3 3
objetos
Búsqueda por exactitud 1 3
Detección de errores 2 3
TOTAL 6 9
Algoritmo de Hamming:
Transformar las áreas calculadas a
Paso 5: Realce de valores binarios
Características Almacenar resultados en forma
matricial
Comparar fila a fila los resultados
obtenidos con los valores esperados.
Filtro Gaussiano:
Paso 6: Segmentación Definir mascara de Convolución
Aplicar mascara a Imagen Binarizada
Almacenar Imagen sin ruido
REFERENCIAS BIBLIOGRÁFICAS:
[9]. Alelú M., Cantín S., López N. & Rodríguez M. (2009, Octubre, 03). Estudio de
Encuestas. Área de Métodos de investigación de Educación Especial
Universidad Autónoma de Madrid.
[13]. Autor Anónimo, (2012) Reconocimiento óptico de marca, Fondo OMR, Software
OMR, Historia, General. Recuperado el 01 de septiembre del 2014 en:
http://centrodeartigo.com/articulos-utiles/article_122553.html
[16]. Cortés J, Muriel A & Mondoza J. (2012, Agosto, 30) Comparación cuantitativa y
cualitativa de las Técnicas básicas de umbralización local para el
procesamiento digital de imágenes. Universidad Tecnológica de Pereira.
Colombia.
[20]. Mauricio Durán G., 2009. Reconocimiento de caracteres ópticos OCR por
medio de correlación y redes neuronales. Universidad Pontifica Bolivariana.
Floridablanca, Bolivia.
[22]. Cisneros Rosero A., & Sepúlveda Núñez D., 2012. Código de Hamming para
detección y corrección de errores. Universidad Distrital Francisco José de
Caldas, Bogotá, Colombia.
ANEXOS: