Vous êtes sur la page 1sur 30

Caractersticas de Calidad de Datos de los Almacenes de Datos

Asignatura: Calidad y Medicin de Sistemas de Informacin Autor: Arnulfo Napolen Hernndez Gonzlez arnulfohernandez@gmail com Tutor: Manuel !ngel Serrano Martin

1. Introduccin
"os almacenes de datos se definen #$% como su&etos orientados' integrados' (ariantes en el tiempo' coleccin de datos no (oltiles' )ue su uso primario en las organizaciones es para la toma de decisiones *azn por la cual' #+,-% se espera )ue presenten informacin correcta en el lugar correcto en un tiempo e.acto y un costo adecuado para un fcil' rpida y correcta decisin "os almacenes de datos han llegado a ser una estrategia importante de negocios donde se integra informacin heterog/nea de las diferentes fuentes de la organizacin' lo cual permite realizar un proceso anal0tico en l0nea 12"A34' so5re la informacin )ue realmente necesitan los tomadores de decisiones "os almacenes de datos han incursionado en (arios m5itos industriales incluso en la medicina #6,$$% donde la calidad de los datos en todos sus componentes de5e ser alta' por el impacto de la decisin )ue se toma en 5ase a esta' ya )ue la falta de calidad puede lle(a a )ue los usuarios finales tomen un decisin incorrecta )ue puede lle(ar a consecuencias fatales' especialmente en el m5ito del cuidado del corazn 7s por esto )ue la calidad de los datos en los almacenes de datos es importante' #$+% ya )ue el potencial de los negocios depende de la calidad de las decisiones )ue giran alrededor de la calidad de los datos utilizados para la toma de ests 3or su parte la IS2 +-8$+ #$-% define la calidad de datos 9como el grado en )ue las caracter0sticas de los datos guardan las condiciones y sugiere las necesidades cuando es usado 5a&o condiciones espec0ficas:

Indica tam5i/n )ue las caracter0sticas de calidad de datos$ 9son las categor0as de los atri5utos de calidad de datos )ue lle(an a la calidad de datos:; y )ue el modelo de calidad de datos 9es el con&unto de caracter0sticas de calidad )ue pro(een un marco de tra5a&o con re)uerimientos espec0ficos de calidad de datos y su e(aluacin: "a calidad de los datos es definida por <ang y Strong #$=% como 9datos )ue son aptos para el uso de los consumidores de datos: y adicionalmente definen las caracter0sticas de calidad 9como un con&unto de atri5utos de calidad de datos )ue representan un aspecto simple o constructor de calidad de datos9 7s por ello' )ue este tra5a&o presenta un estado del arte de las caracter0stica de calidad de datos en almacenes de datos' adicionalmente toma las caracter0sticas de calidad de datos del estndar IS2 +-8$+ del modelo de calidad de datos' tam5i/n las caracter0sticas )ue proporciona marco conceptual de calidad de datos de <ang y Strong 7l con&unto de caracter0sticas resultantes' sern analizadas para identificar definiciones similares y reunirlas en un concepto )ue a5ar)ue todas las dems Con el producto de este anlisis se agruparan en las dimensiones de calidad )ue propone el modelo conceptual de <ang y Strong

2. Estado del arte


7.isten (arias in(estigaciones acerca de caracter0sticas de calidad de datos para los almacenes de datos' de5ido a las decisiones )ue se toman con 5ase a la informacin )ue se almacena en estos 7l 3royecto de Calidad de Almacenes de datos 1><? 3ro&ect4#+%' )ue ten0a como o5&eti(os@ enri)uecer semnticamente las meta data5ases con modelos formales de calidad de informacin; enri)uecer semnticamente los modelos de las fuentes de informacin; enri)uecer semnticamente los modelos de es)uemas de almacenes de datos ofreciendo (enta&as de calidad en la implementacin de estos almacenes 7l personal de este proyecto realiz (arias pu5licaciones donde definieron (arias caracter0sticas de calidad de datos' en la pu5licacin de Architecture And Quality In Data

7n este tra5a&o se denominaran caracter0sticas de calidad por)ue as0 la denomina la IS2 +-8$+'

aun)ue (arios autores las denominan como dimensiones' atri5utos' factores

Warehouses: An Extended Repository Approach calidad de datos en uso' as0

#A%definen (arias caracter0sticas de

Accesibilidad (Accesibility): est relacionada con la posi5ilidad de acceder a los datos por medio de consultas eguridad ( ecurity): descri5e las pol0ticas de autorizacin y pri(ilegios )ue cada usuario tiene para consultar los datos Dis!onibilidad del sistema ( ystem A"ailability): descri5e el porcenta&e de tiempo )ue la fuente o el sistema de almac/n de datos est disponi5le Dis!onibilidad transaccional (Transactional A"ailability)@ descri5e el porcenta&e de tiempo )ue la informacin en los almacenes de datos o fuentes est disponi5le de5ido a la ausencia de procesos de actualizacin de datos' los cuales 5lo)uean la escritura en estos #tilidad (#se$ulness): descri5e la caracter0stica temporal 1oportunidad4 de los datos as0 como la recepti(idad del sistema Actualidad (Currency): descri5e cuando la informacin fue ingresada en la fuente oBy en el almac/n de datos %olatilidad (%olatility): descri5e el per0odo de tiempo en )ue la informacin es (alidad en el mundo real Inter!retabilidad del modelo (Inter!retatibility o$ model)@ descri5e el grado para el )ue el almac/n de datos es eficientemente modelado para ser repositorio de informacin 7s decir' lo ms fcil en )ue se pueden realizar las consultas 17sta interpreta5ilidad no se orienta tanto a los datos como al es)uema4 7n esta pu5licacin tam5i/n definieron caracter0sticas de calidad de datos )ue se encuentran almacenados directamente en los almacenes de datos' los cuales se (en influenciados por todo el entorno pero )ue no cu5re todo el proceso de creacin de los almacenes de datos Com!letitud (Com!leteness): descri5e el porcenta&e en el )ue la informacin ingresada a las fuentes yBo almacenes representa al mundo real 3or e&emplo' la completitud podr0a

ser el 0ndice de e.tensin el cual una cadena descri5e una direccin y )ue actualmente enca&a en el tamaCo del atri5uto )ue representa la direccin Credibilidad (Credibility): descri5e la credi5ilidad de la fuente )ue proporciona la informacin En este caso se refiere explcitamente a la fuente por lo cual se podra denominar reputacin. E&actitud (Accuracy): descri5e la precisin yBo e.actitud de los datos de entrada despu/s de ha5er realizado el proceso de ingreso en las fuentes Consistencia (Consistency): descri5e la coherencia lgica de la informacin Inter!retabilidad de los datos (Data inter!retability): concierne con la descripcin de los datos 1es decir' disponer de datos de los sistemas heredados y datos e.ternos' ta5las de descripcin de las 5ases de datos relacionales' lla(es primarias y forneas' alias' predefinidas' dominios' e.plicacin de cdigos de (alores' etc4 7n otra pu5licacin realizada por este grupo' Towards quality-oriented data warehouse usa e and e!olution"#D% donde el o5&eti(o de la pu5licacin era definir los componentes estticos de la ar)uitectura los almacenes de datos' y el (inculo de diferentes caracter0sticas de calidad adems de los componentes' )ue complementen la metodolog0a operacional con el uso de los factores de calidad para lograr los o5&eti(os de calidad de los usuarios; en esta definieron nue(as caracter0sticas de calidad' redefinieron algunas otras )ue fueron descritas anteriormente y en algunos casos solo hicieron mencin de estas caracter0sticas' as0@ >efinieron la caracter0stica de Co'erencia (Co'erence): *especto a 1e.pl0cito o impl0cito4 de las condiciones de integridad de los datos 3or e&emplo' la con(ersin de (alores para tener las mismas unidades de medidas permitidas' tam5i/n hacer computacin coherente *edefinieron las siguientes caracter0sticas@ (rescura ((res'ness): "a edad de los datos 1con respecto al (alor del mundo real' o la fecha cuando fue realizado el ingreso del dato4 7n este caso adicionaron la caracter0stica de calidad de actualidad 1currency4 definida en la pu5licacin anterior Com!letitud (Com!leteness): 7l porcenta&e de datos encontrados en el almac/n de datos' con respecto al monto necesario de datos )ue de5er0a confiar

Mencionan

otras

caracter0sticas

tales

como@

e&actitud

(accuracy))

rele"ancia

(rele"ance)) accesibilidad (accessibility)) dis!onibilidad (a"ailability) 7n otra pu5licacin de este mismo proyecto' Data Warehouse #rocess $ana %ent" #-% cuyo o5&eti(o fue definir un modelo )ue capture los componentes estticos a lo largo de la ar)uitectura los almacenes de datos' con informacin de diferentes caracter0sticas de calidad adems de los componentes' en esta pu5licacin adoptaron el estndar IS2 6$+= #=% de la calidad del producto softEare por las caracter0sticas y su5caracter0sticas de la calidad interna y e.terna; sin em5argo' como no todas las caracter0sticas y su5caracter0sticas se acoplan a las caracter0sticas propias de la calidad de datos' se consideraron Fnicamente las siguientes@ 7n la caracter0stica de funcionalidad' las su5caracter0sticas@ E&actitud (Accuracy): )ue tiene relacin con com!letitud (com!leteness)) e&actitud (accuracy)) consistencia (consistency) de los datos 1(istos estos como producto final4 Con$ormidad (Com!liance): "os datos son conformes con la aplicacin de estndares o con(enios o regulaciones en ley y prescripciones similares eguridad ( ecurity): "os datos son disponi5les con una autorizacin de acceso' por s0 accidentalmente o deli5eradamente alguien no autorizado )uisiera hacer uso de ellos 7n la caracter0stica de fia5ilidad' la su5caracter0stica de recu!erabilidad

(reco"erability): "as ocasiones en )ue los datos estn inha5ilitados para ser recuperados y el ni(el de desempeCo se (e afectado en caso de fallo 7n la caracter0stica de usa5ilidad' la su5caracter0stica de entendibilidad

(understandibility): 3orcenta&e en )ue los datos son entendidos y aceptados por los usuarios Amit *udra y 7milie Geo pu5licaron el art0culo &ey Issues in Achie!in Data Quality and 'onsistency in Data Warehousin a%on (ar e )r anisations in Australia' #H% cuyo o5&eti(o fue definir los temas cla(es )ue logran la calidad de datos en los am5ientes de almacenes de datos' relacionando la consistencia con la calidad de datos Indica )ue la calidad de datos se refiere a lo rele"ante (rele"ant)) !recisa (!recise)) *til (use$ul)) entendible (understandable) y datos o!ortunos (timely data)) e&acto

(accuracy)) salidas o!ortunas (out!ut timeliness)) $iabilidad (reliability)) com!letitud (com!leteness)) rele"ancia (rele"ance)) !recisin (!recision). >efine a su (ez el pro5lema de la inconsistencia de los datos' como la ocurrencia de estos cuando e.isten diferentes (ersiones en la misma 5ase de datos' esto puede ser causado por (arias estados de actualizacin o cuando se cam5ia algo )ue ha sido tratado en un archi(o "a inconsistencia de los datos almacenados son unos de los ms comunes de los errores de las fuentes en los sistemas de cmputo Se puede llegar a o5tener la consistencia de los datos controlando o eliminando la redundancia' con&untamente con la 5uena administracin )ue puede llegar a promo(er un alto ni(el de integridad de los datos 7n otra pu5licacin escrito por Amit *udra y 7milie Geo Issues in user perceptions o* data quality and satis*action in usin a data warehouse-an Australian experience" #I% en el )ue su o5&eti(o fue identificar la percepcin de la calidad de datos entre los usuarios de los almacenes de datos' y las tasas de satisfaccin de los usuarios de los almacenes de datos 7n esta pu5licacin definen nue(amente las mismas caracter0sticas de calidad de datos en la pu5licacin pasada Jam5i/n comentan el pro5lema de la inconsistencia de datos tal como lo hicieron en el anterior Adems comentan de un mini estudio en )ue realizaron donde por medio de un cuestionario )ue en(iaron a $= personas (0a correo' de los cuales solo $8 contestaron y as0 lograron identificar (arios factores de la percepcin de la calidad de los datos a su (ez indican la media y des(iacin estndar' as0@ Des"iaci n Est-ndar $ D= $ ++ $ =I + $D + A$= $ H+ $D $ =6

+reguntas Ksted piensa )ue las salidas son de utilidad L"a informacin es claraM L"a informacin contiene lo )ue usted necesitaM LKsted o5tiene la informacin )ue necesita en tiempoM L7l sistema le proporciona informacin al d0aM L7l sistema es e.actoM L7l sistema le proporciona la informacin precisa )ue usted necesitaM L7l sistema le proporciona informacin suficienteM L7st usted satisfecho con la e.actitud del sistemaM

,edia D I= D AA A I= A IA A =H A =A A -H A DA A AI

>onde se puede identificar )ue estas preguntas se orientan hacia las caracter0sticas de calidad definidas@ rele"ante (rele"ant)) !recisa (!recise)) *til (use$ul)) en conte&to (in conte&t)) entendible (understandable) y datos o!ortunos (timely data)) e&acto (accuracy)) salidas o!ortunas (out!ut timeliness)) $iabilidad (reliability)) com!letitud (com!leteness)) rele"ancia (rele"ance)) !recisin (!recision). *o5ert " "eitheiser en su pu5licacin Data quality in health care data warehouse en!iron%ents #6% donde su o5&eti(o es definir un modelo conceptual gen/rico para almacenes de datos en el m5ito de la medicina' )ue tenga en cuenta un apro.imacin de un modelo de calidad' pero no as0 la definicin de un modelo de calidad como tal' sino )ue utiliza las caracter0sticas de calidad del modelo de <ang y Strong' sin em5argo no se realiz 5a&o ningFn m/todo de in(estigacin sino por pura especulacin >efini el termin de calidad como apto para el uso' lo cual sugiere )ue el concepto de calidad de datos es relati(o Adems )ue la calidad de datos es considerada para cada uno de los usuarios' puede tratarse como una necesidad )ue est direccionada a las necesidades de cada uno de estos' con las caracter0sticas de calidad de datos siguientes@ Intr0nsecas 1Intrinsic4 7.actitud 1Accuracy4 25&eti(idad 125ecti(ity4 Credi5ilidad 1Nelie(a5ility4 *eputacin 1*eputation4 Acceso 1Access4 Seguridad 1Security4 *ele(ancia 1*ele(ancy4 Oalor aCadido 1Oalue,added4 2portunidad 1Jimeliness4 Completitud 1Completeness4 Cantidad de datos 1Amount of data4 Interpreta5ilidad 1Interpreta5ility4 Pcil entendimiento 17ase of understanding4 *epresentacin concisa 1Concise *epresentation4 *epresentacin consistente 1Consistent

Accesi5ilidad 1Accessi5ility4 Conte.tual 1Conte.tual4

*epresentacional 1*epresentational4

*epresentation4 "as cuales se definirn en el apartado del marco conceptual de calidad de datos de <ang y Strong 7n la pu5licacin $edical Dia nostic and Data Quality #$8% definen la calidad de los datos como la limitacin los componentes sintcticos y semnticos' y de la disponi5ilidad

es e.tremadamente de alto impacto en el proceso de diagnostico y de toma de decisiones correctas' la cuales puede tener consecuencias fatales' especialmente en el cuidado del corazn >efinen las siguientes caracter0sticas de calidad como los criterios )ue de5en de (alidarse antes de gra5ar los datos en los almacenes de datos .ele"ancia (.ele"ance): datos )ue son necesarios para la aplicacin de5en ser incluidos en el almac/n de datos Claridad de de$inicin (Clarity o$ de$inition): Jodos los t/rminos usados para los atri5utos de5en ser claramente definidos /omogeneidad) consistencia estructural (/omogeneity) structural consistency): Ha5ilitar a ni(el de uniformidad de conceptos gra5ados .edundancia necesarios Consistencia sem-ntica ( emantic consistency): "os datos son claros y organizados acorde al dominio de la aplicacin .obuste0) (le&ibilidad (.obustness) $le&ibility)): Son cumplidas am5as caracter0sticas a tra(/s de reutilizar los datos Siempre en el m5ito de la medicina en la pu5licacin 9+ealthcare data warehousin and quality assurance #$$% donde indica el reto )ue es para la amplia industria m/dica' ya )ue al utilizar es)uemas )ue no son compati5les con la codificacin y los estndares m/dicos' puede producir la muerte de un paciente por una toma de decisin realizada con los datos incorrectos' es por ello )ue es importante la calidad de datos )ue son en(iados a los di(ersos staQeholders' incluyendo reguladores de cuidados del corazn' administradores de hospitales' consumidores' acti(istas comunitarios "a calidad de datos la define como 9los datos son adecuados para el uso de los consumidores de datos: "a idoneidad del uso o calidad de datos en los almacenes de datos' se refiere a la fidelidad )ue se o5ser(a en los patrones de comportamientos en /stos' del comportamiento actual en el mundo real mnima (,inimun redundancy): Incluidos solamente los datos

7sta pu5licacin en general trata la calidad de datos desde el punto de (ista del tratamiento de los errores en los almacenes de datos' tales como la incompati5ilidad de unidades' mezclar la granularidad de los datos' precisin' m5ito' profundidad' coherencia 2tros pro5lemas de datos son por la adecuacin de los datos en las otras fuentes )ue inicialmente capturan y guardan la informacin *egistros de (alores incorrectos' registros mezclados' datos de campos de 5a&a' e(idenciando errores >e estos errores se pueden deducir las caracter0sticas de calidad de e&actitud (accuracy)) inter!retabilidad (inter!retability)) co'erencia (co'erence)) !recisin (!recision)) consistencia (consistency). 7n la pu5licacin de Enhacin Data Quality in Data Wharehouse En!iro%ents"#$+% )ue tiene como o5&eti(o definir la importancia de aumentar la calidad de los datos en los am5ientes de almacenes de datos' e.plorando los factores )ue de5en ser considerados para o5tener un ni(el necesario de decisin rele(ante en los procesos o un 5eneficio potencial para el aumentar la calidad de los datos 7n esta pu5licacin mencionan Fnicamente las caracter0sticas de e&actitud (accuracy)) com!letitud (com!leteness)) consistencia (consistency) y o!ortunidad (timeliness); sin em5argo no las define "a pu5licacin A Data Quality $eta%odel Extension to 'W$ #$A% cuyo o5&eti(o es crear una e.tensin al meta modelo de C<M para aCadir caracter0sticas de calidad a los datos )ue son almacenados' a partir de este meta modelo Indican )ue la calidad de datos se logra siempre y cuando los datos sean e.actos y se consideran e.actos si cumplen con las propiedades@ correctitud' sin am5igRedad' consistencia' completitud y oportunidad )ue se definen a continuacin Correctitud (Correctness): "os datos son correctos si transmiten declaraciones l/.icamente' sintcticamente y semnticamente correctas in ambig1edad (#nambiguity): "os datos no son am5iguos si permiten una sola interpretacin unidades incorrectas' estndares incorrectos' prcticas prematuras de coleccin de datos )ue pueden contaminar los datos

Consistencia

(Consistency):

"os

datos

son

consistentes

si

no

transmiten

heterogeneidad' en el contenido ni en la forma Com!letitud (Com!leteness): "os datos son completos si no les falta una pieza o parte de informacin 2!ortunidad (Timeliness): "os datos son e.actos si estn a la fecha Adicionalmente se encontraron caracter0sticas de datos generales para sistemas de informacin en la pu5licacin 9>ata ?uality Assessment: #$D%' en donde se definen la calidad como un concepto multidimensional )ue depende fundamentalmente de los principios necesarios )ue definen cada uno de las empresas "a su5&eti(idad de la e(aluacin de la calidad de los datos refle&a la necesidad y e.periencia de los staQeholders@ colectores' administradores y consumidores de datos siguientes caracter0sticas de calidad@ Accesibilidad (Accessibility): 7l grado en )ue los datos estn disponi5les' o son fcil y rpido recupera5les Cantidad a!ro!iada de datos (A!!ro!riate Amount o$ Data): 7l grado )ue el (olumen de datos es apropiado para la tarea a mano Credibilidad (3elie"ability): 7l grado en )ue los datos se consideran como (erdaderos o cre05les Com!letitud (Com!leteness): 7l grado en )ue los datos no son faltantes y son suficiente amplios y profundos para la tarea a mano .e!resentacin Concisa (Concise .e!resentation): 7l grado en )ue los datos son representados concisamente .e!resentacin Consistente (Consistent .e!resentation): 7l grado en )ue el dato es representado en el mismo formato (acilidad de mani!ulacin (Ease o$ ,ani!ulation): 7l grado en )ue el dato es fcil de manipular y aCadir a tareas diferentes 4ibre de error ((ree5o$5error): 7l grado en )ue el dato es correcto y fia5le Identifica las

Inter!retabilidad (Inter!retability): 7l grado en )ue el datos esta en un lengua&e apropiado' s0m5olos' y unidades' y una clara definicin 2b6eti"idad (2b6ecti"ity): 7l grado en )ue el dato es o5&eti(o' sin per&uicios e imparcial .ele"ancia (.ele"ancy): 7l grado )ue el dato se aplica y es Ftil a la tarea a mano .e!utacin (.e!utation): 7l grado en )ue el dato es muy 5ien considerado en t/rminos del contenido de la fuente eguridad ( ecurity): 7l grado en )ue el acceso al dato es apropiadamente restringido para mantener su seguridad 2!ortunidad (Timeliness): 7l grado en )ue el dato est lo suficientemente al d0a para la tarea a mano Entendibilidad (#nderstandability): 7l grado en )ue el dato es fcil de comprender %alor a7adido (%alue5added): 7l grado en )ue el dato es 5eneficioso y proporciona (enta&as para su uso Jam5i/n se tom en cuenta el estndar IS2 +-8$+@ Ingeniera del calidad de datos I 2;IEC (DI 2<=12 #$-% 7ste es un estndar internacional )ue define un modelo general de calidad de datos para mantener un formato estructurado dentro de los sistemas de cmputo 7ste estndar se enfoca en la calidad de los datos como parte de los sistemas de cmputo y define caracter0sticas de calidad con o5&eti(o en el uso de los datos por humanos y por sistemas 7ste estndar toma en cuenta todos los tipos de datos' para asignar (alores y relaciones entre los datos' no est definido para una organizacin espec0fica de los datos' todos los procesos y en(0os de datos relacionados cuentan con los 5eneficios al aplicar el estndar 7l estndar define la calidad de datos' como el grado en )ue las caracter0sticas de los datos guardan las condiciones y sugiere las necesidades cuando es usado 5a&o condiciones espec0ficas Indica tam5i/n )ue las caracter0sticas de calidad de datos son las categor0as de los atri5utos de calidad de datos )ue lle(an a la calidad de datos; y )ue el modelo de calidad o$t8are 9

.e:uerimientos y e"aluacin de la calidad del !roducto so$t8are 9 ,odelo de

de datos es el con&unto de caracter0sticas de calidad )ue pro(een un marco de tra5a&o con re)uerimientos espec0ficos de calidad de datos y su e(aluacin 7ste modelo define un con&unto de caracter0sticas de calidad )ue son consideradas desde dos puntos de (ista@ inherente y dependiente del sistema "a calidad de datos inherente se refiere al grado en el cual las caracter0sticas de calidad de datos tienen el potencial intr0nseco para satisfacer las necesidades implicadas cuando el dato es usado 5a&o condiciones espec0ficas 3or otra parte' la calidad de datos dependiente del sistema se refiere al grado en el cual la calidad de los datos es enri)uecida y preser(ada dentro de un sistema de cmputo cuando el dato es usado 5a&o condiciones espec0ficas Caracter0sticas de calidad 7.actitud 1Accuracy4 Completitud 1Completeness4 Consistencia 1Consistency4 Credi5ilidad 1Credi5ility4 Actualidad 1Currentness4 Accesi5ilidad 1Accesi5ility4 Conformidad 1Compliace4 Confidencialidad 1Confidentiality4 7ficiencia 17fficiency4 3recisin 13recision4 Jraza5ilidad 1Jracea5ility4 7ntendi5ilidad 1Knderstanda5ility4 >isponi5ilidad 1A(aila5ility4 3orta5ilidad 13orta5ility4 *ecupera5ilidad 1*eco(era5ility4 Inherente S S S S S S S S S S S S >ependiente del sistema

S S S S S S S S S S

E&actitud (Accuracy)@ 7l grado en el )ue el dato tiene atri5utos )ue representan correctamente el (alor (erdadero del atri5uto instanciado en un concepto o e(ento en un conte.to espec0fico de uso Com!letitud (Com!leteness): 7l grado en el )ue el dato asociado a un su&eto con una entidad tiene todos los (alores esperados para el atri5uto y para las instancias de la entidad relacionadas en un conte.to espec0fico de uso

Consistencia (Consistency): 7l grado en el )ue el dato tiene atri5utos )ue son li5res de contradiccin y son coherente con otros datos en un conte.to espec0fico de uso Credibilidad (Credibility): 7l grado en el )ue el dato tiene atri5utos )ue son considerados como (erdaderos y cre05les por usuarios en un conte.to espec0fico de uso Actualidad (Currentness): 7l grado en el )ue el dato tiene atri5utos )ue son de la edad correcta en un conte.to espec0fico de uso Accesibilidad (Accessibility): 7l grado en el )ue el dato puede ser accesados en un conte.to espec0fico de uso' particularmente por la gente )ue necesita el soporte de tecnolog0a o una configuracin especial por)ue tiene alguna indisponi5ilidad Con$ormidad (Com!liace): 7l grado en el )ue el dato tiene atri5utos )ue se adhieren a las normas' con(enciones o regulaciones (igentes y reglas similares relacionadas con la calidad de datos en un conte.to espec0fico de uso Con$idencialidad (Con$identiality): 7l grado en el )ue el dato tiene atri5utos )ue aseguran )ue /ste es slo accesi5le e interpreta5le por usuarios autorizados en un conte.to espec0fico de uso E$iciencia (E$$iciency): 7l grado en el )ue el dato tiene atri5utos )ue pueden ser procesados y proporciona los ni(eles esperados de desempeCo al utilizar las cantidades y los tipos de recursos apropiados en un conte.to espec0fico de uso +recisin (+recision): 7l grado en el )ue el dato tiene atri5utos )ue son e.actos o )ue proporcionan la discriminacin en un conte.to espec0fico de uso Tra0abilidad (Traceability): 7l grado en el )ue el dato tiene atri5utos )ue proporcionan un rastro de auditor0a al acceso a los datos y de cual)uier cam5io realizado a los datos en un conte.to espec0fico de uso Entendibilidad (#nderstandability): 7l grado en el )ue el dato tiene atri5utos )ue le permiten ser le0do e interpretado por usuarios' y es e.presado en lengua&es apropiados' s0m5olos y unidades en un conte.to espec0fico de uso Dis!onibilidad (A"ailability): 7l grado en el )ue el dato tiene atri5utos )ue le permiten ser recuperados por usuarios autorizados yBo aplicaciones en un conte.to espec0fico de uso

+ortabilidad (+ortability): 7l grado en el )ue el dato tiene los atri5utos )ue le permiten ser instalado' su5stituido o mo(ido de un sistema a otro conser(ando la calidad e.istente en un conte.to espec0fico de uso .ecu!erabilidad (.eco"erability): 7l grado en el )ue el dato tiene atri5utos )ue le permiten mantener y conser(ar un ni(el especificado de operaciones y calidad' aFn en caso de falla' en un conte.to espec0fico de uso 3ara complementar el tra5a&o de las caracter0sticas de calidad de datos' se analiz el marco de <ang y Strong' )ue ser de utilidad para agrupar las caracter0sticas de calidad )ue se encontraron' en este estado del arte Marco conceptual de calidad de datos de <ang y Strong'#$=% para la definicin de este marco de calidad se analizaron (arios atri5utos de calidad de datos desde la perspecti(a de las personas )ue utilizan los datos 7llos identificaron un con&unto completo de caracter0sticas de calidad de datos' se adicionaron (arias caracter0sticas tales como credi5ilidad' (alor aCadido' interpreta5ilidad' accesi5ilidad' y otras ms 7stas caracter0sticas fueron agrupadas en cuatro ampl0as categor0as@ intr0nsecas' conte.tuales' representacionales y accesi5ilidad; esto dio como resultado dicho marco de calidad de datos

>efiniendo la calidad de datos intr0nseca como la )ue denota )ue los datos tienen calidad por ellos mismo' es decir' calidad inherente a ellos mismos

"a calidad de datos conte.tual como los re)uerimientos destacados de la calidad de datos )ue de5en ser considerados dentro del conte.to de la tarea actual' es decir' los datos de5en ser rele(antes' oportunos' completos y apropiados en t/rminos de cantidad as0 como de (alor aCadido "a calidad de datos representacional y de accesi5ilidad hacen /nfasis en la importancia del rol del sistema' es decir' el sistema de5e ser accesi5le pero seguro' y el sistema de5e presentar los datos de una manera )ue sean interpreta5les' fcil de entender' representarlos concisos y consistentemente CALIDA DE DATOS INT !NSECAS" Credibilidad (3elie"ability): 7l hecho )ue los datos sean aceptados por considerarse como (erdaderos' reales y cre05les E&actitud (Accuracy): 7l hecho )ue los datos son correctos' fia5les y certificados li5res de errores 2b6eti"idad (2b6ecti"ity): 7l hecho )ue los datos no tiene sesgos 1sin pre&uicios4 e imparcialidades .e!utacin (.e!utation): 7l hecho )ue los datos son (erdaderos o considerados altamente cre05les en t/rminos de las fuentes o contenidos de origen CALIDAD DE DATOS CONTE#T$AL" %alor a7adido (%alue5added): 7l hecho )ue los datos son 5eneficiados y proporcionan (enta&as en su propio uso .ele"ancia (.ele"ancy): 7l hecho )ue los datos son aplica5le y Ftiles para la tarea actual 2!ortunidad (Timeliness): 7l hecho )ue la edad de los datos es apropiada para la tarea actual Com!letitud (Com!leteness): 7l hecho )ue los datos son suficientemente amplios' profundos y estn en el m5ito para la tarea actual Cantidad a!ro!iada de datos (A!!ro!riate amount o$ data): 7l hecho en )ue la calidad y el (olumen ha5ilitado para los datos es apropiado CALIDAD DE DATOS E% ESENTACIONAL"

Inter!retabilidad (Inter!retability)@ 7l hecho )ue los datos son e.pandi5les' adapta5les y fcil adicin para otras necesidades (-cil entendimiento (Ease o$ understanding): 7l hecho )ue los datos son limpios sin am5igRedad y fcil comprensin Consistencia re!resentacional (.e!resentational consistency): 7l hecho )ue los datos son siempre presentados en el mismo formato y son compati5les con los datos pre(ios .e!resentacin concisa (Concise re!resentation): 7l hecho )ue los datos son representados compactamente sin ser imprecisos 1es decir' 5re(e en la representacin' completa y al punto4 CALIDAD DE DATOS DE ACCESI&ILIDAD" Accesibilidad (Accessibility): 7l hecho )ue los datos son disponi5les o fcil y rpido recupera5les Acceso seguro (Access security): 7l hecho )ue el acceso a los datos pueda ser restringido y adems mantenga la seguridad

>. Crtica y %aloracin


A pesar de la escasez de estudios encontrados referentes a caracter0sticas de calidad de datos para los almacenes de datos se realiz un cuadro resumen con las caracter0sticas encontradas' as0@ Leo L. Pipino, et. al Pedro &o'e" et. al.

#rendt D. $, et. al.

)redi*ilidad +)redi*ility, #elie,a*ility-

#allou y (u'ar

Wang y Strong

%atja W.,et. al.

DWQ Project

Leit!ei"er R.

Rudra y eo

ISO 25012

Leo L. Pipino, et. al

Pedro &o'e" et. al.

#rendt D. $, et. al.

./actitud +0ccuracyO*jeti,idad +O*jecti,ityReputaci1n +Reputation2alor a3adido +2alue4addedRele,ancia +Rele,ancy, rele,anceOportunidad +%i'eline"")o'pletitud +)o'pletene"")antidad apropiada de dato" +0ppropriate a'ount o5 data)on"i"tencia +)on"i"tency0ctualidad +)urrentne"")on5idencialidad +)on5identiality)on5or'idad +)o'pliace.5iciencia +.55iciencyInterpreta*ilidad +Interpreta*ility67cil entendi'iento +.a"e o5 under"tanding)on"i"tencia repre"entacional +Repre"entational con"i"tencyRepre"entaci1n conci"a +)onci"e repre"entation0cce"i*ilidad +0cce""i*ility-

#allou y (u'ar

Wang y Strong

%atja W.,et. al.

DWQ Project

Leit!ei"er R.

Rudra y eo

ISO 25012

Leo L. Pipino, et. al

Pedro &o'e" et. al.

#rendt D. $, et. al.

Preci"i1n +Preci"ion%ra8a*ilidad +%racea*ilityDi"poni*ilidad +0,aila*ilityPorta*ilidad +Porta*ilityRecupera*ilidad +Reco,era*ility0cce"o "eguro +0cce"" "ecurityRepre"entaci1n )on"i"tente +)on"i"tent Repre"entationSeguridad +Security.ntendi*ilidad +9nder"tanda*ility67cil :anipulaci1n +.a"e o5 :anipulationLi*re de errore" +6ree4o54.rrorDi"poni*ilidad del "i"te'a +Sy"te' 0,aila*ilityDi"poni*ilidad tran"accional +%ran"actional 0,aila*ility9tilidad +9"e5ulne""0ctualidad +currency2olatilidad +2olatilityInterpreta*ilidad del 'odelo +Interpretati*ility o5 'odelInterpreta*ilidad de dato" +Data Interpreta*ility-

#allou y (u'ar

Wang y Strong

%atja W.,et. al.

DWQ Project

Leit!ei"er R.

Rudra y eo

ISO 25012

Leo L. Pipino, et. al

Pedro &o'e" et. al.

#rendt D. $, et. al.

)o!erencia +)o!erence6re"!ne"" +6re"curaDato" oportuno" +%i'ely DataSalida" oportuna" +Output ti'eline""6ia*ilidad +Relia*ility)laridad de de5inici1n +)larity o5 de5initionRedundancia ';ni'a +:ini'un redundancy)on"i"tencia Se'7ntica +Se'antic )on"i"tencyRo*u"te8, 6le/i*ilidad +Ro*u"tne"", 5le/i*ility<o'ogeneidad, )on"i"tencia ."tructural +<o'ogeneity, "tructural con"i"tency)orrectitud +)orretne""Sin a'*ig=edad +9na'*iguity-

Seguidamente se analizaron las distintas definiciones de los conceptos de caracter0sticas de calidad de datos )ue mencionan cada uno de los autores en sus pu5licaciones' a efecto de identificar los conceptos similares y tomar la definicin ms adecuada o redefinir el concepto para ro5ustecer la definicin del mismo' el )ue ser utilizado para este marco de tra5a&o del modelo conceptual de calidad de datos

#allou y (u'ar

Wang y Strong

%atja W.,et. al.

DWQ Project

Leit!ei"er R.

Rudra y eo

ISO 25012

3ara de la definicin del concepto de credi5ilidad 1credi5ility' 5elie(a5ilitiy4' se analiz la definicin el concepto de credi5ilidad 1credi5ility4 de la IS2 +-8$+ con el de credi5ilidad 1credi5ility4 del modelo de <ang y Strong' el de credi5ilidad 15elie(a5ility4 de 3ipino et al ' en cuyo caso todos se orientaron a considerar (erdaderos y cre05les los datos; sin em5argo el concepto )ue e.puso el personal del proyecto ><? credi5ilidad 1credi5ility4 se orienta a la credi5ilidad de la fuente el )ue se analizar en la caracter0stica de reputacin' en este caso se utilizar la definicin de la IS2 +-8$+ por ser un estndar Credibilidad (Credibility): 7l grado en el )ue el dato tiene atri5utos )ue son considerados como (erdaderos y cre05les por usuarios en un conte.to espec0fico de uso 3ara la definicin del concepto de e.actitud 1accuracy4 se analiz la definicin el concepto de e.actitud 1accuracy4 de la IS2 +-8$+#$-% con el de e.actitud 1accuracy4 de <ang y Strong' el de li5re de errores 1free,of,error4 de 3ipino et al #$D%' e.actitud 1accuracy4 del personal del proyecto ><? y se (e influenciado por el concepto de correctitud 1corretness4 )ue menciona 3edro Gomes et al #$A%' en este caso se utilizar la definicin )ue da la IS2 +-8$+ por ser un estndar E&actitud (Accuracy)@ 7l grado en el )ue el dato tiene atri5utos )ue representan correctamente el (alor (erdadero del atri5uto instanciado en un concepto o e(ento en un conte.to espec0fico de uso 3ara de la definicin del concepto de o5&eti(idad 1o5&ecti(ity4 se analiz la definicin del concepto de o5&eti(idad 1o5&ecti(ity4 de <ang y Strong con el concepto de o5&eti(idad 1o5&ecti(ity4 de 3ipino et al ' siendo am5os similares' para este caso se utilizar el concepto de <ang y Strong por la forma como fue (alidado el mismo 2b6eti"idad (2b6ecti"ity): 7l hecho )ue los datos no tiene sesgos 1sin pre&uicios4 e imparcialidades 3ara de la definicin del concepto de reputacin 1reputation4' se analizaron las definiciones de reputacin 1reputation4 de <ang y Strong con el de reputacin 1reputation4 de 3ipino et al ' )ue son similares al de credi5ilidad 1credi5ility4 del personal del proyecto ><?' sin em5argo *udra y Geo mencionan el t/rmino de fia5ilidad 1relia5ility4 no e.istiendo definicin por lo cual se toma como la fia5ilidad de la fuente; por lo anterior para este concepto utilizaremos la definicin de <ang y Strong por la forma como fue (alidada

.e!utacin (.e!utation): 7l hecho )ue los datos son (erdaderos o considerados altamente cre05les en t/rminos de las fuentes o contenidos de origen 7n el caso de la definicin del concepto de (alor aCadido 1(alue,added4' se analizaron las definiciones de (alor aCadido 1(alue,added4 de <ang y Strong con el de (alor aCadido 1(alue,added4 de 3ipino et al ' siendo la misma razn por la cual se utilizar la definicin de <ang y Strong por la forma como fue (alidada %alor a7adido (%alue5added): 7l hecho )ue los datos son 5eneficiados y proporcionan (enta&as en su propio uso 3ara la definicin del concepto de rele(ancia 1rele(ancy' rele(ance4' se analiz la definicin del concepto rele(ancia 1rele(ancy4 de <ang y Strong con el de rele(ancia 1rele(ance4 de 3ipino et al ' y el de rele(ancia 1rele(ance4 de Jat&ana et al ' los cuales se orientan al mismo sentido' razn por la cual se tomar el de <ang y Strong por la forma como fue (alidada .ele"ancia (.ele"ancy): 7l hecho )ue los datos son aplica5le y Ftiles para la tarea actual 3ara la definicin del concepto de oportunidad 1timeliness4 se analiz con las definiciones de actualidad 1currentness4 de la IS2 +-8$+ con el de oportunidad 1timeliness4 de <ang y Strong' el de oportunidad 1timeliness4 de 3ipino et al ' el de oportunidad 1timeliness4 de 3edro Gomes et al ' y las de frescura 1freshness4 y utilidad 1usefulness4 del personal del proyecto de ><? identificando )ue son las mismas definiciones aun)ue el nom5re de algunos conceptos es distinto A su (ez *udra y Geo mencionan Fnicamente las caracter0sticas de datos oportunos 1timely data4 y salidas oportunas 1output timeliness4 no dan definicin por lo )ue se consideran 5a&o este concepto Sin em5argo los conceptos de actualidad 1currency4 y (olatilidad 1(olatility4 )ue definen el personal del proyecto ><? se (en como su5caracter0sticas de esta caracter0stica 7n resumen' se utilizar la definicin de <ang y Strong para el concepto oportunidad por su forma de (alidacin ya )ue a5arca el concepto de todos los dems autores' adicionalmente se utilizaran las definiciones de las su5caracter0sticas como las propone el personal del proyecto ><?' as0@ 2!ortunidad (Timeliness): 7l hecho )ue la edad de los datos es apropiada para la tarea actual

Actualidad (Currency): descri5e cuando la informacin fue ingresada en la fuente oBy en el almac/n de datos %olatilidad (%olatility): descri5e el per0odo de tiempo en )ue la informacin es (alidad en el mundo real 3ara la definicin del concepto de completitud 1completeness4 se analiz la definicin de completitud 1completeness4 de la IS2 +-8$+' con la de completitud 1completeness4 de <ang y Strong' la de completitud 1completeness4 de 3ipino et al ' tam5i/n la de completitud 1completeness4 del personal del proyecto de ><?' finalmente con la de completitud 1completeness4 de 3edro Gomes et al ' y el significado es el mismo' razn por la cual se tomar la definicin de <ang y Strong para el concepto de completitud por su forma de (alidacin y a su (ez a5arca el concepto de todos los dems autores Com!letitud (Com!leteness): 7l hecho )ue los datos son suficientemente amplios' profundos y estn en el m5ito para la tarea actual 7n el caso de la definicin del concepto de cantidad apropiada de datos 1appropriate amount of data4' se analiz la definicin de cantidad apropiada de datos 1appropriate amount of data4 de <ang y Strong y la definicin de cantidad apropiada de datos 1appropriate amount of data4 de 3ipino et al ' en este caso las definiciones son similares' razn por la cual se utilizar la definicin )ue da <ang y Strong por la forma como fue (alidada Cantidad a!ro!iada de datos (A!!ro!riate amount o$ data): 7l hecho en )ue la calidad y el (olumen ha5ilitado para los datos es apropiado para la tarea actual 3ara la definicin del concepto de consistencia 1consistency4' se analiz las definiciones de los conceptos de consistencia 1consistency4 de las IS2 +-8$+' la de consistencia 1consistency4 del personal del proyecto ><?' la de consistencia 1consistency4 de 3edro Gomes et al ' se identific ) todas eran similares y menciona5an como fundamental la coherencia' razn por la cual se analiz la definicin de coherencia 1coherence4 del personal del proyecto ><? como est la e.puso en diferente pu5licacin a la de consistencia 1consistency4' se (erific )ue la coherencia se refer0a a la integridad de los datos 3ara este concepto utilizaremos la definicin de la IS2 +-8$+ por ser un estndar

Consistencia (Consistency): 7l grado en el )ue el dato tiene atri5utos )ue son li5res de contradiccin y son coherente con otros datos en un conte.to espec0fico de uso 7n el caso de accesi5ilidad 1accessi5ility4 se analiz la definicin de accesi5ilidad 1accessi5ility4 de la IS2 +-8$+' con el de accesi5ilidad 1accessi5ility4 del personal del proyecto de ><?' estas son muy similares' sin em5argo' la definicin de accesi5ilidad 1accessi5ility4 de <ang y Strong y la de accesi5ilidad 1accessi5ility4 de 3ipino et al ' se orientan hacia la definicin del concepto de disponi5ilidad 1a(aila5ility4 de la IS2 +-8$+ 3or lo anterior se toma la definicin de la IS2 +-8$+ por ser un estndar Accesibilidad (Accessibility): 7l grado en el )ue el dato puede ser accesados en un conte.to espec0fico de uso' particularmente por la gente )ue necesita el soporte de tecnolog0a o una configuracin especial por)ue tiene alguna indisponi5ilidad 7n el caso de la definicin del concepto de confidencialidad 1confidentiality4 solo se encontr la )ue define la IS2 +-8$+ Con$idencialidad (Con$identiality): 7l grado en el )ue el dato tiene atri5utos )ue aseguran )ue /ste es slo accesi5le e interpreta5le por usuarios autorizados en un conte.to espec0fico de uso 3ara la definicin del concepto de disponi5ilidad 1a(aila5ility4 se tiene Fnicamente la definicin de la IS2 +-8$+' sin em5argo' como se mencion en la caracter0stica de calidad de datos de accesi5ilidad' esta definicin es similar a la de accesi5ilidad 1accessi5ility4 de <ang y Strong y la de accesi5ilidad 1accessi5ility4 de 3ipino et al ' razn por la cual se tomar para este concepto la definicin de la IS2 +-8$+ Adems a este concepto se (e influenciado por dos su5caracter0sticas )ue fueron definidas por el personal del proyecto ><? )ue son disponi5ilidad del sistema 1system a(aila5ility4 y disponi5ilidad transaccional 1transactional a(aila5ility4 Dis!onibilidad (A"ailability): 7l grado en el )ue el dato tiene atri5utos )ue le permiten ser recuperados por usuarios autorizados yBo aplicaciones en un conte.to espec0fico de uso Dis!onibilidad del sistema ( ystem A"ailability): descri5e el porcenta&e de tiempo )ue la fuente o el sistema de almac/n de datos est disponi5le

Dis!onibilidad transaccional (Transactional A"ailability)@ descri5e el porcenta&e de tiempo )ue la informacin en los almacenes de datos o fuentes est disponi5le de5ido a la ausencia de procesos de actualizacin de datos' los cuales 5lo)uean la escritura en estos 3ara la definicin de conformidad 1compliace4 se analiz la definicin de conformidad 1compliace4 de las IS2 +-8$+ y la de conformidad 1compliace4 del personal del proyecto ><?' siendo similares' razn por la cual se utilizar la de la IS2 +-8$+ por ser un estndar Con$ormidad (Com!liace): 7l grado en el )ue el dato tiene atri5utos )ue se adhieren a las normas' con(enciones o regulaciones (igentes y reglas similares relacionadas con la calidad de datos en un conte.to espec0fico de uso 3ara la definicin de eficiencia 1efficiency4 utilizaremos la de las IS2 +-8$+ por ser la Fnica )ue defini el concepto' as0@ E$iciencia (E$$iciency): 7l grado en el )ue el dato tiene atri5utos )ue pueden ser procesados y proporciona los ni(eles esperados de desempeCo al utilizar las cantidades y los tipos de recursos apropiados en un conte.to espec0fico de uso 7n el caso de la definicin de interpreta5ilidad 1interpreta5ility4 se analiz la definicin de interpreta5ilidad 1interpreta5ility4 de <ang y Strong' con la definicin de ro5ustez' fle.i5ilidad 1ro5ustness' fle.i5ility4 de Jat&ana et al ' son similares' pero con la de interpreta5ilidad 1interpreta5ility4 de 3ipino et al ' las definiciones eran distintas' sin em5argo la definicin de 3ipino et al ' concuerda con la definicin de entendi5ilidad 1understanda5ility4 de la IS2 +-8$+ Adems el personal del proyecto ><? defini dos su5caracter0sticas para este concepto la interpreta5ilidad de los datos 1data interpreta5ility4 y la interpreta5ilidad del modelo 1interpreta5ility of model4 3ara este caso se utilizar la definicin de interpreta5ilidad de <ang y Strong por la forma como fue (alidad y para las su5caracter0sticas la definicin del personal del proyecto ><?' as0@ Inter!retabilidad (Inter!retability)@ 7l hecho )ue los datos son e.pandi5les' adapta5les y fcil adicin para otras necesidades Inter!retabilidad de los datos (Data inter!retability): concierne con la descripcin de los datos 1es decir' disponer de datos de los sistemas heredados y datos e.ternos' ta5las

de descripcin de las 5ases de datos relacionales' lla(es primarias y forneas' alias' predefinidas' dominios' e.plicacin de cdigos de (alores' etc4 Inter!retabilidad del modelo (Inter!retatibility o$ model)@ descri5e el grado para el )ue el almac/n de datos es eficientemente modelado para ser repositorio de informacin 7s decir' lo ms fcil en )ue se pueden realizar las consultas 17sta interpreta5ilidad no se orienta tanto a los datos como al es)uema4 3ara el caso de la definicin de entendi5ilidad 1understanda5ility4 se analiz la definicin de entendi5ilidad 1understanda5ility4 IS2 +-8$+' la de fcil entendimiento 1ease of understanding4 de <ang y Strong' a su (ez las definiciones de entendi5ilidad 1understanda5ility4 e interpreta5ilidad 1interpreta5ility4 de 3ipino et al ' 1ya )ue la unin de am5as se (e cu5ierta por las definiciones de entendi5ilidad de los otros autores4' as0 mismo la de entendi5ilidad 1understanda5ility4 del personal del proyecto de ><?' tam5i/n la definicin de sin am5igRedad 1unam5iguity4 de 3edro Gomes et al ' como la de clara definicin 1clarity of definition4 de Jat&ana et al ' y todas estas son similares' razn por la cual se utilizar la definicin de la IS2 +-8$+ por ser un estndar Entendibilidad (#nderstandability): 7l grado en el )ue el dato tiene atri5utos )ue le permiten ser le0do e interpretado por usuarios' y es e.presado en lengua&es apropiados' s0m5olos y unidades en un conte.to espec0fico de uso 3ara la definicin de consistencia representacin 1representational concistency4 se analiz la definicin de consistencia representacin 1representational concistency4 de <ang y Strong y la de coherencia 1coherence4 del personal del proyecto ><?' a su (ez la de la homogeneidad' consistencia estructural 1Homogeneity' structural consistency4 de Jat&ana et al ' y la de representacin consistente 1consistent representation4 de 3ipino et al ' siendo todas las definiciones similares y )ue se ampliamente cu5iertas por la de <ang y Strong )ue por la forma como fue (alidada es la )ue se utilizar para este concepto Consistencia re!resentacional (.e!resentational consistency): 7l hecho )ue los datos son siempre presentados en el mismo formato y son compati5les con los datos pre(ios 7n el caso 3ara el caso de la definicin representacin concisa 1concise representation4 se analiz la definicin de representacin concisa 1concise representation4 de <ang y Strong con la de representacin concisa 1concise representation4 de 3ipino et al ' y la de redundancia

m0nima 1minimun redundancy4 de Jat&ana et al ' y las definiciones eran similares 3or lo cual se utilizar la definicin de <ang y Strong por la forma como fue (alidada .e!resentacin concisa (Concise re!resentation): 7l hecho )ue los datos son representados compactamente sin ser imprecisos 1es decir' 5re(e en la representacin' completa y al punto4 7n el caso de la definicin del concepto de precisin 1precision4 solo se encontr la )ue define la IS2 +-8$+ +recisin (+recision): 7l grado en el )ue el dato tiene atri5utos )ue son e.actos o )ue proporcionan la discriminacin en un conte.to espec0fico de uso 7n el caso de la definicin del concepto de traza5ilidad 1tracea5ility4 solo se encontr la )ue define la IS2 +-8$+ Tra0abilidad (Traceability): 7l grado en el )ue el dato tiene atri5utos )ue proporcionan un rastro de auditor0a al acceso a los datos y de cual)uier cam5io realizado a los datos en un conte.to espec0fico de uso 7n el caso de la definicin del concepto de facilidad manipulacin 1ease of manipulation4 solo se encontr la )ue define 3ipino et al (acilidad de mani!ulacin (Ease o$ ,ani!ulation): 7l grado en )ue el dato es fcil de manipular y aCadir a tareas diferentes 7n el caso de la definicin del concepto de acceso seguro 1access security4 se analiz con las definiciones de acceso seguro 1access security4 de <ang y Strong' la de seguridad 1security4 de 3ipino et al ' y la de seguridad 1security4 del personal del proyecto de ><?' siendo similares' por lo cual se toma la de <ang y Strong por la forma como fue (alidada Acceso seguro (Access security): 7l hecho )ue el acceso a los datos pueda ser restringido y adems mantenga la seguridad *especto a la definicin del concepto de recupera5ilidad 1reco(era5ility4 se analiz la definicin de recupera5ilidad 1reco(era5ility4 la IS2 +-8$+ y la de recupera5ilidad 1reco(era5ility4 del personal del proyecto ><?' siendo similares' por lo cual se utiliza la de la IS2 +-8$+ por ser un estndar

.ecu!erabilidad (.eco"erability): 7l grado en el )ue el dato tiene atri5utos )ue le permiten mantener y conser(ar un ni(el especificado de operaciones y calidad' aFn en caso de falla' en un conte.to espec0fico de uso 7n el caso de la definicin del concepto de precisin 1precision4 solo se encontr la )ue define la IS2 +-8$+ +ortabilidad (+ortability): 7l grado en el )ue el dato tiene los atri5utos )ue le permiten ser instalado' su5stituido o mo(ido de un sistema a otro conser(ando la calidad e.istente en un conte.to espec0fico de uso 7n el caso de la definicin de consistencia semntica 1semantic consistency4 Fnicamente se encontr la de Jat&ana et al Consistencia sem-ntica ( emantic consistency): "os datos son claros y organizados acorde al dominio de la aplicacin Con estas caracter0sticas ya analizadas y depuradas' se agrupan en las cuatro categor0as del modelo de <ang y Strong de la siguiente manera@ Credi5ilidad 1Credi5ility4 7.actitud 1Accuracy4 Intr0nsecas 25&eti(idad 1o5&ecti(ity4 1Intrinsic4 *eputacin 1*eputation4 3recisin 1precision4 Oalor aCadido 1Oalue,added4 *ele(ancia 1*ele(ancy4 2portunidad 1Jimeliness4 Actualidad 1Currency4 Oolatilidad 1Oolatility4 Conte.tual Completitud 1Completeness4 1Conte.tual4 Cantidad apropiada de datos 1Appropriate amount of data4 Conformidad 1compliace4 7ficiencia 17fficiency4 Jraza5ilidad 1Jracea5ility4 3orta5ilidad 13orta5ility4 *epresentacional Consistencia 1Consistency4 1*epresentational4 Interpreta5ilidad 1Interpreta5ility4 Interpreta5ilidad de los datos 1>ata interpreta5ility4 Interpreta5ilidad del modelo 1Interpreta5ility of model4 7ntendi5ilidad 1Knderstanda5ility4

Accesi5ilidad 1Accesi5ility4

Consistencia representacional 1*epresentational consistency4 *epresentacin concisa 1Concise representation4 Pacilidad de manipulacin 17ase of manipulation4 Consistencia semntica 1Semantic consistency4 Accesi5ilidad 1Accesi5ility4 Confidencialidad 1Confidentiality4 >isponi5ilidad 1A(aila5ility4 >isponi5ilidad del sistema 1System a(aila5ility4 >isponi5ilidad transaccional 1Jransactional a(aila5ility4 Acceso seguro 1Access security4 *ecupera5ilidad 1*eco(era5ility4

?. Conclusiones
"os almacenes de datos se han con(ertido en una de las principales estrategias e in(ersiones de negocios para la toma de decisiones Ga )ue estos centralizan y organizan la informacin )ue pro(ienen de las 5ases de datos transaccionales )ue soportan la operatoria de las empresas "a medicina tam5i/n hace uso de los almacenes de datos' por lo )ue la calidad de los datos en este m5ito es muy importante' ya )ue las decisiones tomadas con datos errneos pueden lle(ar a desenlaces fatales "a calidad de datos ha sido definida por (arios autores' y la mayor0a de estos concuerda en la definicin )ue proporciona el estndar IS2 +-8$+' como el grado en )ue las caracter0sticas de los datos guardan las condiciones y sugiere las necesidades cuando es usado 5a&o condiciones espec0ficas' y )ue las caracter0sticas de calidad de datos son las categor0as de los atri5utos de calidad de datos )ue lle(an a la calidad de datos 7n este tra5a&o se analizaron las diferentes pu5licaciones encontradas )ue ten0an relacin con caracter0sticas de calidad de datos' se identificaron $$$ caracter0sticas' a las cuales se les realiz un proceso de anlisis para identificar definiciones similares; luego de realizar este proceso dio como resultado A+ caracter0sticas "as caracter0sticas de calidad de datos ms rele(antes para la mayor0a de los autores fueron@ credi5ilidad 1credi5ility4' e.actitud 1accuracy4' completitud 1completeness4' oportunidad 1timeliness4' accesi5ilidad 1accessi5ility4' (alor aCadido 1(alue,added4'

interpreta5ilidad

1interpreta5ility4'

reputacin

1reputation4'

o5&eti(idad

1o5&ecti(ity4'

rele(ancia 1rele(ance4' consistencia 1consistency4' entendi5ilidad 1understandi5ility4' acceso seguro 1access security4' disponi5ilidad 1a(aila5ility4' representacin concisa 1concise representation4' consistencia representacional 1representational consistent4 "a agrupacin de las A+ caracter0sticas de calidad de datos en las dimensiones 1intr0nsecas' conte.tual' representacional' accesi5ilidad4 )ue propone el modelo de calidad de datos de <ang y Strong' proporciona un nue(o modelo conceptual de calidad de datos orientado a los almacenes de datos

<. Tendencias (uturas


Como ya se ha mencionado con anterioridad' las caracter0sticas de calidad de datos para los almacenes de datos es un tema poco estudiado' por lo cual este anlisis de5e ser complementado con otras caracter0sticas de calidad )ue se orienten a 5ases de datos o sistemas de informacin' para ro5ustecer el modelo conceptual de calidad o5tenido >e5en definirse medidas para cada una de las caracter0sticas de calidad de datos en el entorno de los almacenes de datos Con las caracter0sticas encontradas identificar las relaciones y la implicacin de una caracter0stica con otra' para definir una red 5ayesiana )ue con&untamente con las medidas definidas' de cmo resultados la calidad de datos )ue tienen un almac/n de datos

@. .e$erencias
$ + A D = Oassiliadis' 3 ' Data Warehouse $odelin and Quality Issues' in Depart%ent o* Electrical and 'o%puter En ineerin +888' National Jechnical Kni(ersity of Athens@ Athens' G*77C7 Matthias TarQe' G O ' Data Warehouse Quality: A re!iew o* the DWQ #ro,ect' in 'on*erence o* In*or%ation Quality $66H@ Massachusetts Institute of Jechnology' Cam5ridge Matthias TarQe' M a T ' Christoph ?ui.' and 3anos Oassiliadis' Architecture and quality in Data Warehouses: an extended repository approach' in -cience Direct $666 p ++6,+-A 3anos Oassiliadis' M N ' Christoph ?ui.' Towards quality-oriented data warehouse usa e and e!olution. Information Systems' +888 2<1+4@ p I6,$$3anos Oassiliadis' C ? ' Gannis Oassiliou' Matthias TarQe' Data warehouse process %ana e%ent' in -cience Direct In*or%ation -yste%s +88$ p +8-,+A= IS2' I 2 o S ' I-)/IE' 0123:1001 Inor%ation Technolo y - -o*tware #roduct Quality $66$

6 $8 $$ $+ $A $D $$=

*udra' A G ' 7 ' &ey Issues in Achie!in Data Quality and 'onsistency in Data Warehousin a%on (ar e )r anisations in Australia' in #roceedin s o* the 42nd Annual +awaii International 'on*erence on $666' System Sciences' $666 HICSS,A+ @ HaEaii' 77KK *udra' A G ' 7 ;' Issues in user perceptions o* data quality and satis*action in usin a data warehouse-an Australian experience' in -yste% -ciences" 2555. #roceedin s o* the 44rd Annual +awaii International 'on*erence on +888@ HaEaii Knited State "eitheiser' * " ' Data Quality in +ealth 'are Data Warehouse En!iron%ents ' in #roceedin s o* the 46th +awaii International 'on*erence on -yste% -ciences 2551 +88$ Jat&ana <elzer' N N ' Izidor Golo5' Mar&an >ruzo(ec' $edical Dia nostic and Data Quality' in IEEE 'o%puter -ociety +88+ Nerndt >onald T ' P T < ' He(ner Alan * ' StudnicQi Tames' +ealthcare data warehousin and quality assurance. Computer' +88+ >?1$+4@ p -=,=>onald 3 Nallou' G U J ' Enhancin DataQuality in DataWarehouse En!iron%ents' in ')$$78I'ATI)8- )9 T+E A'$ $666 p HA,HI 3edro Gomes' T P ' Maria Tos/ Jrigueiros' A Data Quality $eta%odel Extension to 'W$' in 6th Asia-#aci*ic 'on*erence on 'onceptual $odellin :A#''$ 255;< +88H@ Australian "eo " 3ipino' G < " ' and *ichard G <ang' Data Quality Assess%ent' in ')$$78I'ATI)8- )9 T+E A'$ +88+ p +$$ , +$I IS2' I 2 o S ' I-)/IE' 9DI- 2=512 -o*tware en ineerin - -o*tware #roduct Quality Require%ents and E!aluation :-QuaRE< - Data quality %odel +88I *ichard G <ang' > M S ' >eyond accuracy: what data quality %eans to data consu%ers. Tournal of Management Information Systems' $66= 121D4@ p -,AA

Vous aimerez peut-être aussi