Vous êtes sur la page 1sur 13

Gestionar la Calidad de

Datos

Data Management

Calidad de Datos.

Contenido
Acerca de este Documento ........................................................................................... 3
Fundamentos ................................................................................................................ 4
Usando las Dimensiones de la Calidad de Datos .......................................................... 5
Completitud .................................................................................................................. 7
Consistencia ................................................................................................................. 7
Unicidad........................................................................................................................ 7
Validez .......................................................................................................................... 8
Precisin ....................................................................................................................... 8
Oportunidad (Timeliness) .............................................................................................. 9
Gestin de la Calidad de los Datos (DQM) ................................................................... 9
Bibliografa .................................................................................................................. 13

Data Management

Calidad de Datos.

Acerca de este Documento


El presente documento est basado en la definicin de las Seis Dimensiones de
la Calidad de los Datos establecidas por el Captulo del Reino Unido de la Asociacin
Internacional de Data Management (http://www.damauk.org/). Las seis dimensiones de
la Calidad de los Datos propuestas por DAMA UK representan un punto de vista de sus
autores y no de alguna organizacin en particular.
Fundamentalmente traduce y complementa el enfoque propuesto por DAMA UK
sobre la definicin de dichas dimensiones.
.

Data Management

Calidad de Datos.

Fundamentos
Como Dimensin de la Calidad de los Datos nos referimos al trmino o concepto
reconocido y utilizado por profesionales de la gestin de datos para describir una
caracterstica o atributo que deben tener los datos para poder ser medidos o evaluados
con los estndares definidos con el fin de determinar el grado de calidad de los mismos.
La Calidad de Datos no compete a una solo entidad o departamento dentro de
una organizacin, se consigue y mantiene a travs del trabajo en conjunto de muchos
actores dentro de la empresa. Lo que significa que la responsabilidad en la calidad de
los datos es compartida y visualizada de manera transversal dentro de la estructura
organizativa, procesos de negocio y tcnicos.
No debemos confundir pobre calidad de datos con pobre gestin de la calidad
de los datos, la idea de realizar una eficiente gestin de la calidad de los datos es
precisamente aumentar su utilidad orientada al ptimo funcionamiento de las
operaciones de negocio y la toma de decisiones, aumentando como consecuencia la
rentabilidad de la organizacin y el retorno de sus inversiones. Una mala calidad de
datos provoca errores en el Business Intelligence.
Una dimensin DQ (Data Quallity) no debe ser confundida dentro de otros
enunciados del Data Management donde se mencione el trmino Dimensin, como por
ejemplo: una dimensin de almacenamiento de datos o una dimensin de cubo de datos.
Las Seis Dimensiones definidas por DAMA UK, ayudar a reducir la
incertidumbre y la confusin que puede surgir cuando se considera la calidad de datos.
Se sugiere que estas dimensiones y definiciones deben ser adoptadas por los
practicantes del Data Management como el mtodo estndar para evaluar y describir la
calidad de los datos. Sin embargo, en algunas situaciones eventualmente una o ms
dimensin podran no aplicar o no ser relevante.
La intencin es que las organizaciones
utilizan estas dimensiones para medir el impacto de
la mala calidad de los datos en trminos de costo,
reputacin,

el

cumplimiento

de

normativas,

procesos de negocio, etc.


Antes de intentar utilizar dimensiones de calidad de datos, una organizacin
necesita acordar las normas de calidad contra el cual los datos deben evaluarse. Estas
reglas deben ser desarrolladas con base a los datos a las seis dimensiones, requisitos

Data Management

Calidad de Datos.

de organizacin sobre los datos y el impacto sobre la organizacin de los datos que no
cumplan con estas reglas. Estos impactos organizacionales podran incluir por ejemplo:

Incorrecta o falta de direcciones de correo electrnico ocasionara un impacto


negativo y significativo sobre las campaas de marketing, lo que se traduce en
costos y prdidas de clientes.

Datos personales inexactos pueden dar lugar a prdidas de oportunidades de


ventas o un aumento de quejas por parte de los clientes.

Entregas enviadas a lugares equivocados

Incorrectas medidas de productos pueden dar lugar a problemas de transporte


por ejemplo, el producto no se ajusta a un camin, alternativamente demasiados
camiones pueden haber sido ordenados por el tamao de la carga real
Los datos en general, tienen valor cuando se apoyan a procesos de negocio o la

toma de decisiones de la organizacin. Las normas de calidad de datos acordados


deben tener en cuenta el valor que los datos pueden proporcionar a una organizacin.
Si se identifica que los datos tiene un valor muy alto en un contexto determinado,
entonces esto puede indicar que se requieren normas de calidad de datos ms rigurosos
en este contexto.

Usando las Dimensiones de la Calidad de Datos


Las Organizaciones deben seleccionar las dimensiones de calidad de datos y
sus umbrales de aceptacin asociados con base a su contexto de negocios, los
requisitos, los niveles de riesgo, entre otros. Debemos tener en cuenta que cada
dimensin es probable que tenga una ponderacin diferente con el fin de obtener una
medida exacta de la calidad de datos que se espera. La organizacin tendr que
determinar en qu proporcin cada dimensin contribuye a la totalidad en calidad de
sus datos, es decir, el peso de cada dimensin para establecer el grado de calidad de
sus datos visto como un conjunto general.
Un enfoque tpico Evaluacin de la Calidad de Datos puede ser:
1. Identificar qu elementos de datos deben ser evaluados por la calidad de datos,
normalmente sern elementos de datos considerados como crticos para las
operaciones de negocio y asociados a informes de gestin.
2. Evaluar cul de las dimensiones DQ se utilizarn y su ponderacin asociada
para determinar la calidad en su conjunto total.

Data Management

Calidad de Datos.

3. Para cada dimensin DQ, defina los valores o intervalos que representan datos
de buena y de mala calidad. Debemos considerar que como un conjunto de datos
puede soportar mltiples requisitos, puede ser necesario realizarles una serie de
evaluaciones.
4. Aplicar los criterios de evaluacin a los elementos de datos
5. Revise los resultados y determinar si la calidad de los datos es aceptable o no
6. En caso de tomar las acciones correctivas apropiadas, por ejemplo, limpiar los
datos y mejorar sus procesos de gestin para prevenir recurrencias futuras.
7. Repetir lo anterior en forma peridica para vigilar las tendencias en Calidad de
Datos.
Las salidas de los diferentes controles de calidad de datos pueden ser
necesarios para determinar qu tan bien estos apoyan una necesidad de negocio en
particular. Los controles de calidad de datos no proporcionarn una evaluacin efectiva
para el uso de estos, si en cada una de las necesidades de negocio no se reflejan
adecuadamente las reglas de calidad de datos. Del mismo modo, al llevar a cabo las
evaluaciones continuas, es decir, cuando repetimos la evaluacin, debemos comprobar
para si los requisitos del negocio para la calidad de los datos han cambiado desde la
ltima evaluacin.

Ejemplo de aplicacin de las Dimensiones DQ a un conjunto de datos (Data Set)

Data Management

Calidad de Datos.

Completitud
Lo ms importante para identificar la completitud de los datos es conocer la relga
de negocio que define este trmino dentro de una organizacin. Es decir, qu es
completitud de los datos para el Negocio?, por lo general, representa el 100% de los
datos que el negocio ingresa dentro de los sistema.
La unidad de medicin de la Completitud es el porcentaje. Debemos considerar
que si un dato es mandatorio dentro de una base de datos, sta forzar a que el atributo
est completo, sin embargo, tendr que tener Validez y Precisin.
Por ejemplo, supongamos que un atributo que est presente en 300 registros,
nicamente est poblado en 294 de los registros, por lo tanto, 294/300 x 100 = 98% de
completitud ha sido alcanzado para este conjunto de datos.

Consistencia
Se define como ausencia de Diferencia, esto se refiere a que los datos tienen
que ser los mismos a lo largo de todos los almacenamientos de los sistemas que
componen la plataforma TI de una organizacin.
Los datos se comparan contra s mismos, en diferentes estructuras de datos.
Puede darse el caso que estos datos se encuentren transformados por lo que debern
tener su correcta equivalencia.
La Consistencia de los datos se mide en Porcentajes, aun cuando esta
Dimensin se relaciona ntimamente con: Validez, Precisin y Unicidad, es posible que
exista Consistencia sin Validez o Precisin.
Por ejemplo: La fecha de alta de un cliente debe ser la misma en todos los
sistemas de almacenamiento aun cuando el formato vare.

Unicidad
La Unicidad va relacionada con la regla de negocio que la exige, as por ejemplo
los identificadores tales como: cdigos de clientes, de productos, etc, por definicin de
negocio deben ser nicos, esto es, no deben haber 2 cdigos iguales para diferentes
clientes. Por lo tanto, este identificado define un ente como nico dentro del sistema.

Data Management

Calidad de Datos.

La Unicidad de los atributos se mide contra s mismo o contra su contraparte en


otro conjunto de datos. Fundamentalmente esta dimensin est relacionada
directamente con la Consistencia.
Por ejemplo, una empresa tiene 190 clientes activos y 10 inactivos. Es posible
que la base de datos muestre 205 clientes, porque se encuentran con cdigos diferentes
clientes con una pequea variacin en su descripcin pero que son el mismo, digamos
Acme, S.L. y Acme SL. As, 200/205 x 100 = 97,5% de Unicidad.

Validez
Por definicin los datos son vlidos si
adems de ofrecer el sentido semntico cumple
con las reglas sintcticas en trminos por ejemplo
de formato, tipo, rango, etc. De esta forma, un
dato es vlido si est almacenado en la correcta
forma de acuerdo a la regla de negocio que lo
describe, si es entero, decimal, string, mximos y
mnimos valores permitidos, entre otros.
La medicin de la validez se centra en la comparacin del dato con su metadata
o con la documentacin que soporta su definicin. La dimensin de Validez se mide en
porcentaje y est directamente relacionada con la Precisin, Completitud, Consistencia
y Unicidad.
Por ejemplo, si el nmero de un documento de identificacin de un cliente es
introducido con un error, inmediatamente este dato pasa a ser invlido, por lo tanto, la
bsqueda de este cliente en las bases de datos no podr ser a travs de su nmero de
identificacin.

Precisin
Precisin ser el grado en el cual los datos describen correctamente una
situacin en evento real. Esta dimensin hace referencia a la confianza sobre la
informacin que se genera a partir de un conjunto de datos, por ejemplo en trminos
numricos, tiempo, etc.

Data Management

Calidad de Datos.

Mediremos la precisin sobre el porcentaje de datos que pasan las reglas que
definen qu se espera como preciso. Est ntimamente relacionada con la dimensin de
Validez, un dato no puede ser preciso si no es primero vlido. Cuando un dato es
impreciso aun cuando sea consistente no puede ser utilizado en la toma de decisiones.
Como ejemplos de precisin tenemos las definiciones de formatos de fecha, aun
cuando el formato establecido como regla es mm/dd/aaaa y as est configurado en la
base de datos, no obstante, un usuario puede ingresar la siguiente fecha: 04/05/2015
refirindose a 04 de Mayo de 2015, siendo para el sistema 05 de Abril de 2015, por lo
que se genera un dato impreciso.

Oportunidad (Timeliness)
Esta dimensin representa el grado en el cual los datos representan la realidad
desde el punto en el cual son requeridos. Cundo requerimos los datos y de cundo son
dichos datos.
Se mide por la diferencia de tiempo, das, meses, aos, etc. Oportunidad est
ntimamente relacionada con Precisin, as, datos muy antiguos en un contexto
determinado pueden ser imprecisos para la toma de decisiones.
Un ejemplo de Oportunidad es la captura de datos fuera del tiempo requerido,
obtenemos informacin de ventas con 5 das de retraso ya cuando la campaa de
Marketing est por terminar.

Gestin de la Calidad de los Datos (DQM)


Se centra en la Planificacin, Implementacin y Control de actividades
orientadas a garantizar la calidad en los datos, las cuales se aplican sobre tcnicas de
medicin, valoracin y mejoramiento de los datos.
El marco de referencia de DAMA 4 grandes grupos de actividades: Planificacin,
Control, Desarrollo y Operacionales. Veamos a continuacin como se clasifican las
actividades de la Gestin de la Calidad dentro de estos 4 grupos:
Planificacin

Definir las mtricas de calidad: estas mtricas deben estar relacionadas a


indicadores de calidad (DQI), los cuales a su vez estarn con base a las
Dimensiones de la calidad, como por ejemplo, porcentajes de duplicados,
porcentajes de nulos, cantidades de errores, entre otros.

Data Management

Calidad de Datos.

Definir las reglas de negocio de la calidad: Qu esperan las reas


funcionales de negocio sobre la calidad de los datos y el comportamiento de
los sistemas ante esta?, Es la pregunta que pretende responder esta activad.
Tener las reglas de negocio definidas permitir establecer controles en los
sistemas, bien por configuracin o desarrollo. Esta actividad junto con la
definicin de las mtricas, permite establecer los rangos para el control de
los indicadores de calidad, as como establecer notificaciones y
procedimientos antes situaciones de error en los datos.

Establecer y evaluar los niveles de servicio de la calidad de los datos:


Una vez identificados los rangos de control sobre las mtricas de la calidad
y las reglas de negocio, debemos establecer los tiempos de resolucin de
problemas con los datos si la calidad de estos superan los umbrales definidos
en los controles.

Desarrollo

Definir los requerimientos de calidad de datos: Para poder realizar esta


actividad debemos tener claridad sobre el contexto sobre el cual los datos
sern utilizados. En tal sentido el paso previo ser identificar el uso de los
datos desde el punto de vista de negocio y tcnico. Es necesario entender
cmo los errores en los datos pueden impactar al negocio. Teniendo
definidos estos requerimientos tendremos visibilidad sobre los criterios de
aceptacin y mrgenes de tolerancia.

Identificar el perfil de la calidad de datos, analizar y valorar: Perfilar la


calidad de los datos (Data Quality Profiling), es un proceso que persigue
obtener una valoracin de los datos a travs de un anlisis completo de
estos, lo que conlleva por ejemplo un conteo de todos los registros de una
tabla, los tipos de datos, porcentaje de nulos, relaciones de integridad a
travs de claves primarias y secundarias (integridad referencial), registros
duplicados, etc.

Probar y Validar los requerimientos de Calidad de Datos: Aun cuando se


hayan definido los requerimientos de negocio de la calidad, tendremos que
probar y validar en qu medida los datos cumplen con estos. Una vez
validado el estado de los datos contra los requerimientos podramos
establecer una lnea base sobre la calidad de los datos dentro de una
organizacin.

10

Data Management

Calidad de Datos.

Disear e implementar procedimientos operacionales para realizar la


gestin de la calidad de datos: esta actividad sugiere una mejora continua
en la calidad de los datos, por lo que se recomienda se centre en tareas
cclicas, orientadas a la inspeccin y monitoreo, diagnstico y evaluacin,
resolucin y reporte.

Operacionales

Desarrollar y promover la conciencia de la calidad de datos: consiste en


divulgar constantemente la importancia y beneficios en tener una buena
calidad en los datos. Se recomienda ejercer un liderazgo de arriba hacia
abajo (top-down), esto es, desde los jefes y directores hacia los mandos
medios y llegar a los colaboradores operacionales.

Limpiar y corregir los defectos de la calidad de los datos: Una vez que
se han identificado incidentes y defectos en los datos estos deben ser
corregidos principalmente a travs de los siguientes 3 mecanismos: 1)
Correccin Automatizada: cuando el defecto es evidente y aplica a conjunto
de datos, estos se modifican aplicando el mismo criterio de correccin de
manera masiva y de forma automatizada. 2) Correccin Directa: aplica en
defectos que son menos evidentes que pueden ser corregidos de forma
automtica pero no masivamente. 3) Correccin Manual: defectos muy
particulares cuya correccin automatizada no merece la pena de acuerdo a
una relacin costo/beneficio y cuyo grado de complejidad en la
automatizacin es elevado, por lo que se requiere de una correccin de forma
manual.

Control

Medicin y monitoreo continuo: la calidad de los datos no es un proceso


puntual, por el contrario, se trata de un proceso continuo que garantice la
operacin de la organizacin y su rentabilidad. Se deben establecer procesos
de mejora continua basados en las reglas de negocio, sus requerimientos y
los perfiles de los datos. Esta actividad es transversal, incluye la participacin
de los usuarios de negocio, tomando su respectiva responsabilidad en el
mantenimiento actualizado de las reglas de negocio, mtricas y entrada de
datos.

Gestionar los incidentes (issues) de la calidad de datos: Una vez


identificado una incidencia sobre los datos, se debe gestionar integralmente
su resolucin. Esto incluye: la clasificacin y priorizacin de los incidentes

11

Data Management

Calidad de Datos.

por parte de los usuarios, notificar a los Data Stewards sobre los incidentes
y sus impactos, diagnosticar la causa raz, resolver los incidentes en los
tiempos establecidos en los acuerdos de servicios y hacer seguimiento y
control sobre la correcta resolucin.

12

Data Management

Calidad de Datos.

Bibliografa.

Varios Autores, DAMA United Kingdom (Octubre 2013) THE SIX PRIMARY
DIMENSIONS FOR DATA QUALITY ASSESSMENT Defining Data Quality
Dimensions.
http://www.damauk.org/rw/CatViewLeafPublic.php?&cat=403&dx=1&ob=3&rpn
=catviewnotleaf179&&frompage=catviewnotleaf179&sid=f33776594ae43284ec
3fb8504ead8236
Consultado el: 15/03/2015.

Donna Burbank, DAMA Sydney (2014) DATA QUALITY & THE DMBOK.
http://www.dama.org.au/wp-content/uploads/2014/08/Donna-Burbank-DM-BOKand-Data-Quality.pdf
Consultado el: 15/03/2015

13

Vous aimerez peut-être aussi