Académique Documents
Professionnel Documents
Culture Documents
INTRODUCCIN
RASTER Y VECTOR
Los sistemas de CAD y GIS proporcionan un medio eficiente para crear, almacenar y
actualizar dibujos de ingeniera y mapas, pero estos beneficios todava no se encuentran
disponibles para la multitud de dibujos existentes en papel debido a la ausencia de un
puente apropiado entre el mundo manual y el de los ordenadores. La introduccin
manual de dibujos en una base de datos computerizada es un proceso lento, caro y
tedioso, por lo tanto se siente necesidad de un sistema automtico que escanee un dibujo
y lo convierta en un formato adecuado para su posterior procesamiento en un ordenador.
No obstante, el reconocimiento y comprensin de dibujos de ingeniera es con mucho
una tarea ms complicada que requiere de la capacidad de percepcin visual y de la
interpretacin inteligente.
Rster y vectorial son las dos estructuras bsicas para almacenar y manipular datos
espaciales en un ordenador. Los paquetes de CAD, GIS o de Diseo Grfico ms
importantes disponibles hoy en da estn basados de manera primordial en una de las
dos estructuras, o basados en rster o basados en vectores, aunque pueden tener algunas
funciones para soportar el otro extremo de algn modo.
Los datos rster vienen en forma de pixeles individuales y cada posicin espacial o
elemento de resolucin tiene un pixel asociado donde el valor del pixel indica un
atributo, como color, elevacin, o nmero de identificacin. Los datos de un rster se
adquieren normalmente mediante un escner ptico, una cmara CCD digital u otros
dispositivos de entrada. Su resolucin viene determinada principalmente por la
resolucin del dispositivo de entrada y la fuente de datos como puede ser un mapa, un
plano o un diagrama e papel. Puesto que los ficheros rster de datos deben tener pixeles
para todas las posiciones, estn limitados por el tamao del rea que representan.
Incrementando la resolucin espacial dos veces, el tamao total de un conjunto de datos
rster bidimensional se incrementar 4 veces porque el nmero de pixeles se duplica en
las dimensiones X e Y. Esto mismo sucede cuando se pretende cubrir un rea de mayor
tamao.
Los datos vectoriales tienen la forma de puntos y lneas que estn geomtricamente y
matemticamente asociados. Los puntos estn almacenados usando coordenadas, por
ejemplo, un punto bidimensional se almacena como (x,y). Las lneas se almacenan
como series de puntos. Mientras que la forma rster tiende a ser ms cercana a las
fuentes del mundo real, la forma vectorial es una pura abstraccin del mundo y se
obtiene normalmente a travs de un proceso de digitalizacin. Ya que la forma vectorial
es flexible y eficiente para representar datos espaciales, especialmente mapas y dibujos
CAD y necesitan menos recursos del sistema para su manipulacin y almacenamiento,
histricamente la mayora de los programas de GIS y CAD trabajan basndose en
informacin en formato vectorial.
La siguiente compaa en escena era Scitex-Israel cuyo fundador haba trabajado para
un contratista de la defensa de los Estados Unidos realizando procesamiento de
imgenes. Scitex originariamente aplic tcnicas de escaneo sobre patrones dibujados a
mano para programar y controlar tejedoras para la industria textil. Ms tarde, Scitex se
interes por la cartografa. Estableci un cuartel general estadounidense para obtener
negocios de algunas de las agencias de cartografa estadounidenses. Scitex tambin
desarroll algunas de las primitivas tcnicas de edicin de rasters, las cuales se
aplicaron a mapas escaneados. La edicin de rasters tambin fue usada para crear y
cambiar diseos en operaciones de preimpresin en color en la industria de impresin.
Ms tarde Scitex encontr ms lucrativo el mercado de preimpresin y virtualmente
dirigi todos sus esfuerzos hacia este negocio.
Las agencias cartogrficas del gobierno fueron el principal objetivo de las primitivas
empresas de escaneado-vectorizacin. Scangraphics, produjo sistemas para la Agencia
Cartogrfica de la Defensa que fueron usados para la captura de informacin de mapas
de curvas de nivel para generar modelos digitales del terreno para el programa del misil
Cruise.
Durante la ltima mitad de los 80, varias nuevas compaas comenzaron en los Estados
Unidos incluyendo a GTX Corporation, Information and Graphic Systems, Image
Systems Technology (la cual ha sido adquirida recientemente por Softdesk Inc.) y Arbor
Image. M.O.S.S. GmbH y Softelec GmbH comenzaron en Alemania.
Mientras que muchas pequeas compaas con paquetes basados en PCs ofrecieron
capacidades de conversin de rster a vectores, la mayora no se convirti en un factor
significativo en el mercado. La nica otra compaa en ser mencionada es Coherent
Radiation, un contratista de la defensa que ha aplicado tcnicas de inteligencia artificial
para capturar mapas para compaas de servicios pblicos. Otro contratista de la
defensa, TASC, tambin ha aplicado su tecnologa de inteligencia artificial a la captura
de mapas de servicios pblicos y tambin pudiera estar haciendo algunos negocios con
compaas elctricas.
Los primeros escaners de rster fueron del tipo tambor, en los que el documento estaba
montado en un rodillo giratorio y la informacin era registrada mediante un tubo
fotoelctrico. Ms tarde, evolucionaron para incorporar el uso de fotodiodos y con el
tiempo dispositivos de acoplamiento de carga (CCD). Aunque los escaners de tambor ya
no son tan comunes como lo fueron, la tecnologa todava se usa en reas como la
cartografa, donde se requiere precisin y resoluciones extremadamente altas.
La mayora de los modernos escaners de gran formato usan una tcnica en la cual el
documento se desplaza a travs del campo focal de una cmara (o cmaras) que
contiene mltiples elementos CCD. Estas matrices CCD tienen normalmente dos
pulgadas de longitud y contienen 5000 elementos CCD. De este modo, si un escner
contiene una cmara con 5000 elementos que cubre una anchura de escaneado de 36
pulgadas, la resolucin ptica del escner se puede calcular dividiendo 5000 pixeles por
36 pulgadas, lo que es aproximadamente igual a 140 pixeles por pulgada, o 140 dpi. Un
modelo de dos cmaras tendra una resolucin ptica alrededor de 270 dpi, un modelo
de tres cmaras sobre 400 dpi, y as sucesivamente. En las unidades de cmara mltiple,
las cmaras deben solapar sus reas de cobertura unos pocos pixeles con el fin de evitar
perder datos. Esta rea de solapamiento es conocida como punto de cosido. Los puntos
de cosido de cmara en un escner de gran formato son un ajuste crtico, y cualquier
desalineamiento - de las cmaras entre s o entre las cmaras y la ventana de escaneado
puede terminar en una perdida de datos, dobles imgenes, escalado incorrecto o
distorsin de formas.
La tecnologa que usa matrices de CCD junto con lentes de cmara ha sido incorporada
por los mayores fabricantes de escaners, incluyendo ANATech, Scangraphics, Vidar y
Contex (comercializados por Ideal, Vemco, Calcomp y Oc Bruning). Tambin est
siendo usada otra tcnica en la cual una nica barra de CCDs alineados de hasta 36
pulgadas reemplazan a las cmaras. El documento se mueve a travs de la barra CCD
iluminada en la que se detecta la informacin. Una de las ventajas de usar esta
aproximacin es que no hay puntos de cosido que puedan llegar a desalinearse. Estas
barras CCD iluminadas normalmente tienen 200 o 400 elementos por pulgada,
resultando una resolucin ptica real de 200 o 400 dpi. Dos fabricantes que ofrecen
escaners que usan esta tecnologa son Xerox y Widecom.
Podemos darnos cuenta de que la mayora de los fabricantes de escaners anuncian la
capacidad de sacar una resolucin que puede ser el doble de la cantidad de la resolucin
ptica real de la unidad. Pueden hacer esto de verdad? Bueno, s y no.
Mientras que las cmaras slo pueden ver imgenes a cierta dpi, la resolucin puede ser
incrementada en una direccin de la imagen simplemente con solo mover el documento
a travs del escner en incrementos ms pequeos de tamao. Esto se conoce como
interpolacin. Las tcnicas de interpolacin pueden permitir a un escner de 200 dpi
producir un fichero de 400 dpi. De cualquier modo, ya que las imgenes slo pueden ser
vistas por las cmaras a 200 dpi, en los detalles el fichero interpolado de 400 dpi nunca
puede ser tan preciso como la imagen creada por un escner con una resolucin ptica
real de 400 dpi. Para las aplicaciones tratadas en este artculo, una regla aproximada es
usar 200 dpi para almacenar imgenes rster y digitalizar con las cabezas levantadas
(heads-up digitizing) y usar 400 dpi para las tcnicas de vectorizacin automtica. Las
aplicaciones cartogrficas pueden requerir resoluciones ms altas.
Una vez que la informacin ha sido detectada por los CCDs, las seales analgicas
alimentan un conversor analgico-digital. En este punto, los grados de variacin de luz
y oscuridad de la seal analgica son convertidos a niveles de gris en la salida digital o
seal de escala de grises. La mayora de escners modernos usan escalas de grises de 8
bits, con lo que resultan 256 niveles del blanco al negro. Esta seal de escala de grises
de 256 niveles de gris puede ser extrada por un ordenador a ficheros de formato
estndar. Esto resulta ptimo para fotografas monocromas ya que contienen los
diversos niveles de gris requeridos para construir la imagen. Un escner en color trabaja
de modo parecido, usando los tres colores primarios rojo, verde y azul. Puesto que ahora
tenemos tres colores bsicos en lugar de uno, la mayora de formatos de fichero para
imgenes en color soportan 24 bits. Los ficheros de escala de grises y los ficheros en
color tienden a ser bastante grandes y pueden fcilmente ser de 10 veces el tamao de la
imagen que nicamente contiene informacin en blanco y negro, conocido como fichero
binario.
1. Imagen rster mantenida como un rster puro o fichero de pixeles. Normalmente, esas
imgenes son almacenadas como ficheros rster comprimidos para reducir los tamaos
de los ficheros aproximadamente a un treintavo de la informacin originalmente
escaneada.
2. Imgenes rster escaneadas junto con informacin textual y vectorial asociada
(hbrido). Este nivel de inteligencia puede ser creado escaneando un documento, usando
la informacin rster como fondo para situar vectores y/o textos asociados a los
vectores. Un fichero hbrido puede contener alguna informacin de rster y alguna
vectorial para producir el resultado deseado.
3. Dibujos hechos de vectores conectados para formar una imagen bidimensional.
Aunque este nivel de inteligencia puede proporcionar una imagen ms comprimida que
la imagen rster escaneada, este tipo de fichero raramente se usa en aplicaciones CAD.
Con ficheros rster comprimidos a veces ms pequeos que los ficheros vectoriales, hay
poco que ganar con la conversin.
4. Vectores conectados con valores etiquetados. Ese tipo de fichero se usa por algunas
aplicaciones de cartografa, particularmente en curvas de nivel con valores de elevacin
marcados, hidrologa y clasificacin de tierras con identificadores.
5. Vectores con smbolos conectados y atributos asociados. Este es el ltimo objetivo
para la mayora de los sistemas CAD: una base de datos asociada. Este es tambin el
nivel de base de datos ms difcil de lograr a partir de datos escaneados.
De estos 5 niveles, los 4 primeros son relativamente fciles de obtener con la actual
tecnologa de vectorizacin a partir de datos escaneados. Aunque existe tecnologa para
obtener el nivel cinco para algunos tipos de dibujos, este nivel de informacin es muy
difcil de obtener en la mayora de los casos. La mayor parte del resto de este capitulo se
centra en los problemas asociados con este nivel.
El mundo de los dibujos posee varios problemas para la conversin en una base de datos
inteligente. Muchos dibujos tienen informacin desaparecida o errnea. En algunos
tipos de dibujos, la informacin no est en la forma que se necesita para el escaneado.
Por ejemplo, un detalle de un dibujo mecnico podra incluir una descripcin grfica de
una parte a mayor tamao, pero tambin podra incluir una tabla de valores de diferentes
dimensiones relativas a diferentes partes numeradas. Esta informacin no puede ser
manejada directamente desde un dibujo escaneado y necesitara interpretacin OCR y
asociarse automticamente al grfico a extraer.
Adems de los problemas que acabamos de indicar, el mundo de los dibujos de mala
calidad tambin ha ralentizado el proceso de conversin. Los dibujos muy usados
tienden a tener pliegues, arrugas y manchas, y a veces son cianotipos de poca calidad,
reproducidos para ser distribuidos. Los colores sepia (p.e. por la accin de la luz y el
paso del tiempo sobre el papel) representan uno de los mayores desafos, en particular
aquellos que han sufrido cambios varias veces, causando amplias variaciones de
sombras en el fondo en diferentes reas del dibujo. Estas circunstancias requieren
tcnicas de umbralizacin dinmica, disponibles en la mayora de los mejores escaners,
para detectar y ajustarse a las diversas sombras del fondo.
En un estudio entre una serie de compaas privadas, el acuerdo general alcanzado en
cuanto a la calidad de los dibujos fue que:
Las dificultades de convertir dibujos por medio de escaneado y conversin tanto para
uso en CAD o GIS han engendrado una industria de agencias que prestan este servicio.
Las agencias de conversin han creado un nicho de mercado, realizando un servicio que
requiere un largo entrenamiento y la adquisicin de cierto equipamiento especializado.
Muchas compaas con grandes cantidades de dibujos a ser convertidos para CAD o
GIS han encontrado el coste de equipos, personal y formacin poco rentable. Si
aadimos el actual clima en la industria de reduccin de tamao y concentracin en el
ncleo de negocio de la compaa, probablemente no tiene sentido realizar las
conversiones en la propia empresa.
Para crear automticamente una base de datos inteligente asociada se requiere usar el
cuarto mtodo de vectorizacin anteriormente mencionado. Esto es, escanear en un
rster el dibujo, conectar los puntos, adelgazar las lneas, segmentarlas, interpretar
formas (reconocimiento de smbolos), reconocimiento de atributos y asociacin de
atributos a los smbolos. El reconocimiento de smbolos requiere crear conjuntos de
reglas de smbolos que definen smbolos especficos. La mayora de la tecnologa de
hoy requiere de la programacin de inteligencia artificial para crear las reglas de
smbolos. La situacin ideal, todava no disponible comercialmente, es tener esa
programacin con una interface de herramientas grficas que permitiran la localizacin
en pantalla de un smbolo y la creacin de la base de reglas del smbolo
automticamente a partir de la descripcin grfica. (Tal interface est disponible para
emparejamiento de patrones - pattern matching -, pero los patrones reconocidos estn
limitados por las tallas y orientaciones de los smbolos que se almacenan como
smbolos maestros para el emparejamiento. Las bases de reglas pueden ser ms
generalizadas para manejar variaciones en tamao y orientacin).
El uso de reglas basadas en la inteligencia artificial para emparejar smbolos requiere
lgica difusa para incrementar la fiabilidad del reconocimiento en dibujos reales. La
tecnologa de redes neuronales est proveyendo de sistemas entrenables para un mayor
xito en el reconocimiento de smbolos y caracteres. Esta tecnologa encabeza las
soluciones para la automatizacin de la conversin en bases de datos inteligentes.
1.6 Aplicaciones.
La informacin de nivel 5 que comprende una base de datos inteligente asociada, parece
trabajar mejor con esquemas y otros diagramas de una sola lnea tales como mapas,
tuberas y diagramas de instrumentacin.
Este es un esquema de los formatos grficos de imgenes de ordenador ms comunes:
Algunos formatos, como por ejemplo el PDF o el SWF, permiten ambos tipos de
grficos, rasterizados y vectoriales.