Vous êtes sur la page 1sur 10

Cap 6 Fundamentos de la inteligencia de negocios: administracin de bases de datos e informacin 6.1.

Organizacin de datos en un entorno tradicional de archivos Un s istema efectivo de informacin da a los usuarios informacin exacta, oportuna y rele vante. La informacin exacta est libre de errores. La informacin es oportuna cuando est disponible en el momento que la requieren los encargados de la toma de decisi ones. La informacin es relevante cuando es til y adecuada para los tipos de trabaj o y decisiones que la necesitan. * Conceptos de organizacin de archivos Un sistem a de cmputos organiza los datos en una jerarqua que empieza con bits y bytes y ava nza a campos, registros archivos y bases de datos. (Ver grfico pg 236) Un Bit repr esenta la unidad ms pequea de datos que puede manejar una computadora. Un grupo de bits, llamado un Byte, representa un carcter, el cual puede ser una letra, un nme ro u otro smbolo. Una agrupacin de caracteres en una palabra, un grupo de palabras o un nmero completo se llama Campo. Un grupo de campos relacionados, conforma un Registro. Un grupo de registros del mismo tipo se llama Archivo. Un grupo de ar chivos relacionados forma una Base de datos. Un registro describe una entidad. U na entidad es una persona, lugar cosa o evento sobre el cual se almacena y conse rva informacin. Cada caracterstica o cualidad que describe a una entidad en partic ular se llama Atributo. * Problemas con el entorno tradicional de archivos En la mayora de las organizaciones, los archivos de datos y los sistemas marcaban una tendencia a crecer de manera independiente sin ajustarse a un plan a nivel de to da la empresa. Cada sector desarrollaba sus propios sistemas y archivos de datos . Desde luego, para operar, cada aplicacin requera sus propios archivos y su propi o programa de cmputo. Al considerar a la compaa en su conjunto, este proceso conduca a mltiples archivos maestros creados, conservados y operados por divisiones o de partamentos separados. Al cabo de 5 o 10 aos, la organizacin se encuentra con una carga de cientos de programas y aplicaciones muy difciles de mantener y manejar. Los problemas resultantes son redundancia e inconsistencia de datos, dependencia entre los programas y los datos, inflexibilidad, una escasa seguridad de datos y la incapacidad de compartir datos entre aplicaciones. Redundancia de datos es la presencia de datos duplicados en mltiples archivos de datos, de tal manera que los mismos datos estn almacenados en ms de un lugar. La redundancia de datos desp erdicia recursos de almacenamiento y tambin conduce a la Inconsistencia de datos, en el cual el mismo atributo podra tener valores diferentes. Al utilizar diferen tes sistemas de codificacin para representar los valores de un atributo se podra g enerar confusin adicional (ejemplo ropa extra grande vs XL). La confusin resultant e dificultara que las Compaas crearan sistemas de administracin de las relaciones co n el cliente, de administracin de la cadena de suministro o empresariales, que in tegraran los datos desde fuentes diferentes. 1

Dependencia entre los programas y los datos: se refiere a la estrecha relacin ent re los datos almacenados en archivos y los programas especficos que se requieren para actualizar y mantener esos archivos, de tal manera que los cambios en los p rogramas requieren cambios a los datos. Carencia de flexibilidad: Un sistema tra dicional de archivos puede enviar informes programados de rutina, despus de exten sos esfuerzos de programacin, pero no pueden transmitir informes con fines especfi cos o responder de manera oportuna a requerimientos imprevistos de informacin. Se guridad escasa: Dado que hay poco control o administracin de datos, el acceso y d ifusin de la informacin podran salirse de control. Es posible que la administracin n o tenga forma de saber quin est teniendo acceso a los datos de la organizacin, o in cluso modificndolos. Carencia de comparticin y disponibilidad de los datos: Debido a que la informacin est fragmentada en diferentes archivos y en distintas partes de la organizacin no se pueden relacionar entre s, es prcticamente imposible que la informacin se comparta o se acceda de manera oportuna. La informacin no puede flu ir libremente a travs de las diferentes reas funcionales o distintas partes de la organizacin. 6.2. Enfoque de las bases de datos para la administracin de datos Una Base de Datos es un conjunto de datos organizados para servir eficientemente a muchas aplicaciones al centralizar los datos y controlar su redundancia. Los dat os se guardan fsicamente para que se presenten a los usuarios como si estuvieran almacenados en un solo lugar. Una sala base de datos da servicios a mltiples apli caciones. Sistemas de administracin de Base de Datos (DBMS) Un sistema de adminis tracin de base de datos (DBMS) es el software que permite a una organizacin centra lizar los datos, administrarlos eficientemente y proporcionar, mediante los prog ramas de aplicacin, el acceso a los datos almacenados. El DBMS acta como una inter faz entre los programas de aplicacin y los archivos de datos fsicos. Cuando el pro grama de aplicacin solicita un elemento de datos, el DBMS encuentra este elemento en la base de datos y lo presenta al programa de aplicacin. Al separar las vista s lgicas y fsica de los datos, el DBMS libera al programador o al usuario final de la tarea de comprender dnde y cmo se almacenan realmente los datos. La vista lgica presenta los datos como los deberan percibir los usuarios finales o los especial istas de la empresa. La vista fsica muestra cmo estn organizados y estructurados re almente los datos en un medio de almacenamiento fsico. El software de administrac in de bases de datos hace disponibles las diferentes vistas lgicas de la base de d Cmo resuelve un DBMS los problemas del ento atos fsica requerida por los usuarios. rno de archivo tradicional Un DBMS reduce la redundancia y la inconsistencia de datos al minimizar la canti dad de archivos aislados en los cuales se repiten los mismos datos. El DBMS ayud a a la organizacin a controlar la redundancia de datos. Un DBMS elimina la incons istencia de los datos porque puede ayudar a la organizacin a asegurarse de que to das las ocurrencias de los datos redundantes tengan los mismos valores. El DBMS elimina la dependencia entre los programas y los datos, permitiendo a estos ltimo s ser 2

autosuficientes. El acceso y la disponibilidad de la informacin se incrementarn y los costos del desarrollo y el mantenimiento de los programas se reducirn porque los usuarios y los programadores pueden realizar consultas con fines especficos d e la informacin que contiene la base de datos. El DBMS da a la organizacin la posi bilidad de centralizar la administracin de datos, su uso y seguridad. DBMS relaci onal Las Bases de datos relacionales representan los datos como tablas bidimensionale s (llamadas relaciones). Las tablas podran considerarse como archivos. Cada tabla contiene datos acerca de una entidad y sus atributos. Ej (Ver Figura 6.4 pg 231) : La base da datos tiene una tabla independiente para la entidad Proveedor y otr a para la entidad Parte. Ambas tablas constan de una cuadrcula de columnas y fila s de datos. Los elementos de datos individuales para cada entidad se almacenan c omo campos independientes, y cada campo representa un atributo para esa entidad. Los campos de una base de datos relacional tambin se denominan Columnas. Para la entidad Proveedor, el nmero, nombre, calle, del proveedor se almacenan como camp os separados dentro de la tabla Proveedor y cada campo representa un atributo pa ra la entidad Proveedor. La informacin real sobre un solo proveedor que se encuen tra en una tabla se denomina Fila. Por lo general se les llama Registros, o en tr minos muy tcnicos tuplas. Los datos de la entidad Parte tienen su propia tabla se parada. El campo para el N Proveedor de la tabla Proveedor identifica de manera ni ca cada registro con la finalidad de que se pueda recuperar, actualizar o clasif icar, y se denomina Campo clave. Cada tabla de una base de datos relacional tien e un campo designado como Clave principal. Este campo clave es el identificador n ico para toda la informacin en cualquier fila de la tabla y su clave principal no se puede duplicar. Cuando la clave principal de una tabla aparece en otra tabla , se denomina Clave externa y en esencia es un campo para buscar datos sobre el proveedor de una parte especfica. Operaciones de un DBMS relacional Las tablas de una base de datos relacional se pueden combinar fcilmente para entr egar los datos requeridos por los usuarios, siempre y cuando dos tablas comparta n un elemento de datos comn. En una base de datos relacional se utilizan tres ope raciones bsicas para generar conjuntos de datos tiles: seleccionar, proyectar y un ir. La operacin seleccionar crea un subconjunto que consta de todos los registros (filas) de la tabla que cumplen los criterios establecidos. La operacin unir com bina tablas relacionales para dar al usuario ms informacin de la que est disponible en las tablas individuales. La operacin proyectar crea un subconjunto que consis te en las columnas de una tabla, lo cual permite al usuario crear nuevas tablas que contengan solamente la informacin que se requiere. DBMS jerrquico y de red Un DBMS jerrquico modela relaciones uno a muchos, en tanto que uno de red modela relaciones muchos a muchos. Ya no se utilizan porque son mucho menos flexibles q ue los DBMS relacionales y no soportan consultas con fines especficos, como las c onsultas de informacin en lenguaje natural. Estos sistemas se vuelven lentos si s e requieren acceder una gran cantidad de veces a los datos almacenados en el dis co para ejecutar los comandos seleccionar, unir y proyectar. 3

Sin embargo, es posible afinar la base de datos para acelerar las consultas pred eterminadas. DBMS orientados a objetos Un DBMS orientado a objetos almacena los datos y los procedimientos que realizan operaciones sobre estos datos como objetos que se pueden recuperar y compartir de manera automtica. Los sistemas de administracin de bases de datos orientadas a objetos (OODBMS) se pueden emplear para manejar los diversos componentes multime dia o subprogramas de Java que se utilizan en las aplicaciones para la Web, las cuales comnmente integran la informacin fragmentada de diversas fuentes. Aunque la s bases de datos orientados a objetos pueden almacenar tipos de informacin ms comp lejos que los DBMS relacionales, son relativamente lentas comparadas con los DBM S relacionales para procesar grandes cantidades de transacciones. Existen sistem as hbridos DBMS relacional-orientado a objetos, para proporcionar capacidades de DBMS orientados a objetos y relacional. Capacidades de los sistemas de administr acin de bases de datos Un DBMS incluye capacidades y herramientas para organizar, manejar y acceder a la informacin de una base de datos. Las ms importantes son su capacidad de definicin de datos, su diccionario y su lenguaje de manipulacin de d atos. Un DBMS tiene una capacidad de definicin de datos para especificar la estru ctura del contenido de la base de datos. Esta se podra utilizar para crear tablas de bases de datos y para definir las caractersticas de los campos de cada tabla. Esta informacin acerca de la base de datos podra documentarse en un diccionario d e datos, que es un archivo automatizado o manual que almacena definiciones de el ementos de datos y sus caractersticas. Los diccionarios de datos para grandes bas es de datos corporativas podran captar informacin adicional, como la propiedad (qu ien es el responsable de dar mantenimiento a los datos en la organizacin), autori zacin, seguridad, y los individuos, funciones de negocios, programas e informes q ue utiliza cada elemento de datos. Elaboracin de consultas e informes Un DBMS incluye herramientas para acceder y manipular la informacin de una base d e datos. La mayora de los DBMS tiene un lenguaje especializado llamado lenguaje d e manipulacin de datos, el cual se utiliza para agregar, cambiar, eliminar y recu perar la informacin de la base de datos. Este lenguaje contiene comandos que perm iten que los usuarios finales y los especialistas en programacin extraigan los da tos de la base de datos para satisfacer requerimientos de informacin y desarrolla r aplicaciones. El lenguaje actual de manipulacin de datos ms sobresaliente es el Lenguaje de Consulta Estructurado o SQL. Los usuarios de un DBMS para computador as grandes o de rango medio, podran utilizar SQL para recuperar la informacin que necesitaran de la base de datos. Los DBMS incluyen caractersticas para generar in formes que permitan desplegar los datos de inters en un formato ms estructurado y refinado del que sera posible con la sola consulta. Diseo de Bases de Datos Para c rear una base de datos se debe entender las relaciones entre los datos, el tipo de datos que se conservarn en la base de datos, cmo se utilizarn y cmo tendr que camb iar la organizacin para 4

manejar los datos desde una perspectiva de la empresa como un todo. La base de d atos requiere de un diseo conceptual o lgico tanto como de un diseo fsico. El diseo c onceptual o lgico, de una base de datos es un modelo abstracto de la base de dato s desde una perspectiva de negocios, en tanto que, el diseo fsico muestra la maner a real en que la base de datos est organizada en dispositivos de almacenamiento d e acceso directo. Normalizacin y diagramas entidad-relacin El diseo conceptual de la base de datos describe la manera en que se agruparn los elementos en la base de datos. El proceso de diseo identifica las relaciones entr e los elementos de datos y la manera ms eficiente de agruparlos para que cumplan los requerimientos de informacin de la empresa. El proceso tambin identifica los e lementos de datos redundantes y las agrupaciones de elementos de datos requerido s por programas de aplicacin especficos. Los grupos de datos se organizan, refinan y simplifican hasta que surge una vista lgica general de las relaciones entre to dos los elementos de datos en la base de datos. Para utilizar de manera efectiva un modelo de base de datos relacional, es necesario simplificar las agrupacione s complejas de datos para minimizar elementos de datos redundantes y complicadas relaciones de muchos a muchos. El proceso para crear estructuras de datos pequea s, estables, aunque flexibles y adaptables a partir de grupos complejos de datos se denomina normalizacin. Los diseadores de bases de datos documentan sus modelos de datos con un diagrama entidadrelacin. Los cuadros representan entidades. Las lneas que conectan los cuadros representan relaciones. Una lnea que conecta dos en tidades y termina con dos marcas cortas designa una relacin uno a uno. Una lnea qu e conecta dos entidades y termina con una pata de cuervo y una marca corta indic a una relacin uno a muchos. Si la empresa no implementa su modelo de datos correcto, el sistema ser incapaz d e servir bien a la empresa. Distribucin de Bases de Datos El diseo de bases de datos tambin abarca la manera en que se distribuyen los datos . Se pueden disear sistemas de informacin con una base de datos centralizada que s ea utilizada por un procesador central nico o por mltiples procesadores en una red cliente/servidor. La base de datos tambin puede ser distribuida, que es aquella que se almacena en ms de un lugar fsico. Hay dos formas principales de distribuir una base de datos: Base de datos particionada, unas partes se almacenan y mantie nen en otros lugares de manera que cada procesador remoto tenga los datos necesa rios para abastecer su rea local. Los cambios en los archivos locales se pueden j ustificar con la base de datos central a partir 5

de lotes, con frecuencia por la noche. Otra estrategia es replicar la base de da tos central en todas las ubicaciones remotas. Esta estrategia tambin requiere que la actualizacin de la base de datos central se haga en horas de menos carga. Los sistemas distribuidos reducen la vulnerabilidad de un solo sitio central masivo . Incrementan el servicio y el nivel de respuesta para los usuarios locales y co n frecuencia pueden correr en computadoras ms pequeas y menos caras. Sin embargo, las bases de datos locales en ocasiones pueden desviarse de los estndares y defin iciones centrales de datos y plantear problemas de seguridad por la amplia distr ibucin del acceso a datos delicados. 6.3. Uso de bases de datos para mejorar el desempeo empresarial y la toma de deci siones Las empresas utilizan sus bases de datos para dar seguimiento a las trans acciones bsicas. Pero tambin, se las necesitan para suministrar informacin que ayud ar a la empresa a manejar los negocios de manera ms eficiente, y que ayudar a los g erentes y a los empleados a tomar mejores decisiones. En una empresa grande, con robustas bases de datos o enormes sistemas para cada funcin (ventas, contabilida d, etc.) se requieren capacidades y herramientas especiales para analizar extens as cantidades de datos y para acceder datos desde mltiples sistemas. Estas incluy en: el almacenamiento de datos, la minera de datos y herramientas para acceder a las bases de datos a travs de la Web. Almacenes de datos Un almacn de datos es una base de datos que almacena datos actuales e histricos de potencial inters para los encargados de la toma de decisiones de toda la empresa . Los datos se originan en muchos sistemas de transacciones operativas esenciale s, y podran incluir datos derivados de transacciones en sitios Web. El almacn de d atos consolida y estandariza informacin de diferentes bases de datos operativas c on el propsito de que la informacin se pueda utilizar a travs de la empresa para el anlisis y la toma de decisiones por parte de la administracin. El almacn de datos pone los datos a disposicin de quien los necesite, pero no se pueden modificar. T ambin proporciona una variedad de herramientas de consulta con fines especficos y estandarizadas, herramientas analticas y caractersticas grficas para la elaboracin d e informes. Algunas empresas utilizan portales de intranets para poner la inform acin de almacenes de datos a disposicin de toda la empresa. 6

Mercado de Datos Un mercado de datos es un subconjunto de un almacn de datos en el que una parte r esumida o altamente enfocada de los datos de la organizacin se coloca en una base de datos separada para una poblacin especfica de usuarios. Por lo comn, un mercado de datos se enfoca en una sola rea objetivo o lnea de negocios, por lo que usualm ente se puede construir ms rpido y a un costo ms bajo que un almacn de datos a nivel de toda la empresa. Inteligencia de negocios, anlisis de datos multidimensionale s y minera de datos Una serie de herramientas permite a los usuarios analizar est os datos para descubrir nuevos patrones, relaciones y conocimientos profundos pa ra orientar la toma de decisiones. Estas herramientas para consolidar, analizar y dar acceso a extensas cantidades de datos para ayudar a los usuarios a tomar m ejores decisiones de negocios con frecuencia se denominan Inteligencia de Negoci os (BI). Las principales herramientas incluyen software para consultas e informe s de bases de datos, herramientas para anlisis de datos multidimensionales (proce samiento analtico en lnea) y minera de datos. La inteligencia de negocios da a las empresas la capacidad de acumular informacin; desarrollar conocimiento sobre clie ntes, competidores y operaciones internas, y cambiar la manera de tomar decision es, para lograr una rentabilidad ms alta y otras metas de negocios. Las bases de datos operativas de la empresa dan seguimiento a las transacciones que se generan por 7

el manejo del negocio. Estas bases de datos alimentan informacin al almacn de dato s. Los gerentes utilizan las herramientas de inteligencia de negocios para encon trar patrones y significados en los datos. A continuacin, los gerentes aprovechan lo que han aprendido del anlisis de los datos tomando decisiones de inteligencia de negocios ms informadas. Procesamiento analtico en lnea (OLAP) El procesamiento analtico en lnea soporta el anlisis de datos multidimensionales, e l cual permite a los usuarios ver los mismos datos en diferentes formas utilizan do mltiples dimensiones. Cada aspecto de la informacin -producto, precio, etc- rep resenta una dimensin diferente. OLAP permite a los usuarios obtener respuestas en lnea a preguntas especficas en un lapso de tiempo sumamente rpido, aun cuando los datos estn almacenados en bases de datos bastante grandes, como las cifras de ven tas de varios aos. (Ver Gfico pg 242) Minera de Datos Con OLAP y el anlisis de datos orientado a consultas, los usuarios necesitan tene r una buena idea sobre la informacin que estn buscando. La minera de datos est ms ori entada al descubrimiento de informacin. La minera de datos proporciona conocimient os acerca de los datos corporativos que no se podran obtener con OLAP, al encontr ar patrones y relaciones ocultas en robustas bases de datos en infiriendo reglas a partir de ellos para predecir el comportamiento futuro. Los patrones y las re glas se utilizan para orientar la toma de decisiones y predecir el efecto de tal es decisiones. Los tipos de informacin que se pueden obtener a partir de la minera de datos incluyen asociaciones, secuencias, clasificaciones, agrupaciones y pro nsticos. Las asociaciones son ocurrencias enlazadas a un solo evento. Cuando se c ompra...tambin se compra...., pero cuando hay una promocin de ...se compra este el ..% de las veces. En las secuencias los eventos se enlazan con el paso del tiem po. Ej, si se compra una casa el ...% de las veces se comprar un artculo del hogar dentro de las siguientes 2 semanas. La clasificacin reconoce patrones que descri ben el grupo al cual pertenece un elemento por medio del anlisis de los elementos existentes que se han clasificado y por medio de la inferencia de un conjunto d e reglas. La clasificacin ayuda a descubrir las caractersticas de los clientes que se podran perder y as se pueden idear campaas especiales para retenerlos. El agrup amiento funciona de una manera semejante a la clasificacin cuando an no se han def inido grupos. La generacin de pronsticos emplea una serie de valores existentes pa ra pronosticar qu otros valores habr. Uno de los usos populares de la minera de dat os es ofrecer anlisis detallado de patrones existentes en los datos de clientes p ara realizar campaas de MKT o para identificar clientes rentables. El anlisis pred ictivo utiliza tcnicas de minera de datos, datos histricos y suposiciones sobre con diciones futuras para predecir resultados de eventos, como la probabilidad de qu e un cliente responder a una oferta o comprar un producto especfico. La minera de da tos plantea riesgos para la proteccin de la privacidad individual. La tecnologa de 8

minera de datos puede combinar informacin de muchas fuentes diversas para crear un a imagen de datos detallada sobre cada uno de nosotros. Bases de datos y la Web Mu chas empresas utilizan ahora la Web para poner parte de la informacin de sus base s de datos internas a disposicin de sus clientes y socios de negocios. El usuario accede al sitio Web del detallista por medio de Internet, utilizando un navegad or Web instalado en su Pc del cliente. El navegador Web del usuario solicita dat os a la base de la organizacin, utilizando comandos HTML para comunicarse con el servidor Web. El servidor Web pasa las solicitudes de datos a software que tradu ce los comandos HTML a SQL para que los pueda procesar el DBMS que trabaja con l a base de datos. En un entorno cliente/servidor, el DBMS reside en una computado ra dedicada denominada servidor de base de datos. El DBMS recibe las solicitudes de SQL y suministra los datos requeridos. El middleware transfiere informacin de sde la base de datos interna de la organizacin de regreso al servidor Web para qu e se entregue en forma de pgina Web al usuario. Las ventajas de utilizar la Web para acceder a las bases de datos internas de un a organizacin: 1. Un navegador es ms sencillo de utilizar que las herramientas de consulta propietarias. 2. La interfaz Web requiere pocos cambios o ninguno a la base de datos interna. Cuesta mucho menos agregar una interfaz Web a un sistema heredado que redisear y volver a construir el sistema para mejorar el acceso a lo s usuarios. El acceso a bases de datos corporativas a travs de la Web est creando nuevas eficiencias, oportunidades y modelos de negocios. 6.4. Administracin de lo s recursos de datos * Establecimiento de una poltica de informacin Una poltica de i nformacin especifica las reglas de la organizacin para compartir, distribuir, adqu irir, estandarizar, clasificar e inventariar la informacin. Esta establece proced imiento y responsabilidades especficos, que identifican cules usuarios y unidades de la organizacin pueden compartir informacin, dnde se puede distribuir la informac in y quin es responsable de actualizar y mantener la informacin. La administracin de datos es responsable de las polticas y procedimientos especficos por medio de los cuales se pueden manejar los datos como un recurso organizacional. Estas respon sabilidades incluyen desarrollar la poltica de informacin, planificar los datos, s upervisar el diseo lgico de la base de datos y el desarrollo del diccionario de da tos, y vigilar la manera en que los especialistas en sistemas de informacin y los grupos de usuarios finales utilizan los datos. 9

El gobierno de informacin se encarga de las polticas y procesos para manejar la di sponibilidad, usabilidad, integridad y seguridad de los datos empleados en una e mpresa, con un nfasis especial en promover la privacidad, la seguridad, la calida d de los datos, y el cumplimiento de las regulaciones gubernamentales. Una organ izacin grande tendr un grupo de diseo y administracin de bases de datos dentro de la divisin de sistemas de informacin corporativa, responsable de definir y organizar la estructura y contenido de la base de datos, as como su mantenimiento. El grup o de diseo establece la base de datos fsica, las relaciones lgicas entre los elemen tos y las reglas de acceso y los procedimientos de seguridad. Las funciones que desempean se conocen como Administracin de la base de datos. Aseguramiento de la c alidad de datos Una base de datos y una poltica de informacin bien diseadas contrib uirn a garantizar que la empresa tenga la informacin que necesita. Sin embargo, se deben emprender acciones adicionales para asegurar que la informacin de las base s de datos de la organizacin sea exacta y confiable. Si una base de datos est debi damente diseada y se han establecido estndares de datos para toda la empresa, los elementos de datos duplicados o inconsistentes debern ser mnimos. Sin embargo, la mayora de los problemas de calidad de datos, como nombres, se derivan de errores durante la captura de datos. La incidencia de tales errores se est incrementando a medida que las empresas desplazan sus negocios a la Web y permiten a los clien tes y proveedores introducir datos en sus sitios Web que actualizan directamente sus sistemas internos. Antes de que una nueva base entre en funcionamiento, las organizaciones tienen que identificar y corregir los datos errneos y establecer mejores rutinas para editar datos una vez que sus bases de datos estn operando. E l anlisis de la calidad de los datos, que es un sondeo estructurado de la exactit ud y nivel de completitud de los datos que hay en un sistema de informacin. Las a uditoras de la calidad de los datos se pueden realizar sondeando archivos de dato s completos, sondeando muestras de los archivos de datos o sondeando a los usuar ios finales acerca de su percepcin de la calidad de los datos. La depuracin de dat os conocida como limpieza de datos consiste en actividades para detectar y corre gir datos de una base de datos que sean incorrectos o incompletos, tengan un for mato inadecuado o sean redundantes. La depuracin de datos no slo corrige errores s ino que tambin impone la consistencia entre diferentes conjuntos de datos origina dos en sistemas de informacin separados. Existe software de depuracin de datos esp ecializado para sondear automticamente archivos de datos, corregir errores en los datos e integrar los datos en un formato consistente para toda la empresa.