Académique Documents
Professionnel Documents
Culture Documents
Modelo de Calidad
Medicin y Diagnstico
Correccin
Prevencin
Metadatos de calidad
SE EVITA A TRAVES DE
Errores de digitacin
! "
Data Profiling
Estimacin Limpieza
Medicin de calidad
de Calidad
Modelo de Calidad
Re-estructuracin
Anlisis de del sistema
procesos de
negocio
involucrados
Anlisis de causas
de mala calidad
Monitoreo de la
calidad
# " $ "
En gral. corresponde a la etapa de pre-procesamiento
para luego poder comparar valores y corregir errores.
" "
Si existe una medicin de calidad hecha previamente a
la limpieza, localizacin consistir en recorrer e
interpretar los metadatos de calidad
Veremos
Localizar y corregir inconsistencias
Localizar y corregir datos incompletos
Localizar outliers (visto anteriormente)
%
Data editing
Cuando no estamos con una bd relacional. Se detectan
inconsistencias mediante la formulacin de reglas (edits) que
deben ser respetadas por los datos (viene del rea estadstica).
Los edits denotan condiciones de error.
Los edits deben ser consistentes y no redundantes.
Ejemplo de edits inconsistentes:
Salary = FALSE
Has a desk = FALSE
(Salary = TRUE) AND (Has a desk = TRUE)
Ejemplo de edits redundantes:
Role = professor AnnualIncome < 100000
AnnualIncome < 100000
%
Con el conjunto de edits vlidos se procede a la
localizacin de errores.
&
Ejemplo
(Edad, EstadoCivil, TipodeTrabajo)
<68, casado, jubilado> <6, casado, jubilado>
error
%
Localizacin
Anlisis bsico
Cantidad de valores nulos, promedios, etc.
Comparar con valores esperados
Analizar informacin:
No hay informacin de ventas durante 3/1 .. 3/4 ?
No hay productos con precio > 20 ?
Datos truncados y censurados
Ventas de menos de $100 no se guardan en la base
Ventas de ms de $100000 se guardan como $100000
Deteccin
Siempre se necesita conocimiento del dominio
%
Correccin
'% (
Potters wheel
Estandarizacin, profiling, limpieza para SID (sistemas de integracin de
datos)
Telcordias tool
Estandarizacin, limpieza para SID
Dominio: direcciones, impuestos
Ajax
Normalizacin, limpieza para SID
Dominio: referencias bibliogrficas
Arktos
Estandarizacin, localizacin de errores, limpieza para SID
Dominio: ETL, aplicaciones de salud
Choice Maker
limpieza para SID
Dominio: nombres, direcciones, negocios, datos mdicos, datos financieros
Intelliclean
Normalizacin, limpieza para SID
Referencias en el texto del curso (8.2)
'% (
Empresa Productos
"
Localizacin (o deteccin) y correccin de errores no
previenen errores futuros.
Ej.: Suponer que un proceso crea o reemplaza 1000 registros
nuevos o existentes cada da, cada registro tiene 20 campos y la
tasa de errores del proceso es 2%. 400 nuevos errores se
producen por da. A fin de ao se habrn producido 140000
errores. Enorme tarea de limpieza.
Se busca
identificar causas (root-causes) de los errores
eliminar esas causas
asegurar que se mantendr esa ganancia
" )
"
Los edits pueden ser utilizados para
Correccin (en general son usados solo para esto)
Mejora de procesos
Diseo de procesos menos propensos a errores
Mejora de procesos
Aplicando edits dentro del proceso o de la cadena de procesos, se
pueden detectar ciertos tipos de errores antes de que sean
commiteados en la base.
Se corrigen los errores antes de que produzcan problemas
Ej.: se le podra dar al operador que ingresa las rdenes la oportunidad
de ingresar el nro de stock.
Log de failed edits
Para determinar patrones de errores y eliminar las causas.
" ) *
+
Crear una lista ordenada por prioridad de datos a
mejorar
Consideraciones posibles
Dar ms importancia a la estrategia de negocio de la empresa
Ej.: empresa que est apuntando al marketing directo, debera
priorizar datos de clientes.
Ej.: empresa que est enfocada a mejorar eficiencia de
operaciones, debera priorizar datos logsticos
Asociacin con problemas del negocio ya conocidos
Ej.: reuniones perdidas con clientes: direcciones incorrectas, etc.
Tasas de errores reales vs. requerimientos de nivel de calidad
Econmicas
Hay errores que tienen consecuencias ms costosas que otros.
, (
Para mejorar la calidad se debera aplicar
-
Utilizamos modelos de datos para representar datos
-
Modelos de datos
Modelado conceptual
Extensin del MER
Modelado lgico
Extensiones del Modelo Relacional
Extensin del modelo XML
Modelo de proceso
Modelo para el proceso de la produccin de informacin
IP-MAP
. " ,
Una posible solucin
Desventajas?
Otra solucin
Agregamos 2 nuevas entidades:
Data quality dimension
Representa cada dimension y todos sus posibles valores
Data quality measure
Representa las mediciones
. " ,
. ,
Basado en atributos
. ,
Polygen
Modelo para manipulacin de datos orientado a datos provenientes
de mltiples fuentes
Representacin explcita del origen de los datos y tambin de las
fuentes intermedias (data lineage)
Un valor de un atributo en este modelo es una terna:
Un dato (dominio simple de MR)
Un conjunto de bds origen
Un conjunto de bds intermedias
Se usan annotations para los metadatos en cada atributo
Definen un lgebra que permite la propagacin de las annotations
Primera aproximacin a data provenance
. " /
Data and Data Quality (D2Q)
0+ &
& '
Para modelar la construccion (manufacture) de un
producto informacin.
& '
(IP-Map, 2000)
& '
Existen diversas extensiones del modelo
Diagramas de eventos, diagramas de interaccin, modelos de
datos, etc.