Vous êtes sur la page 1sur 57

Data Warehousing

Indice de contenidos

Introduccin Introduccin al Concepto Data Warehousing Sistemas de Informacin Caractersticas de un Data Warehouse o Orientado a Temas o Integracin o De Tiempo Variante o De Tiempo Variante Estructura del Data Warehouse Arquitectura de un Data Warehouse o Elementos constitu entes de una Arquitectura Data Warehouse !ase de datos operacional " #i$el de %ase de datos e&terno #i$el de acceso a la informacin #i$el de acceso a los datos #i$el de Directorio de Datos '(etadata) #i$el de *estin de +rocesos #i$el de (ensa,e de la Aplicacin #i$el Data Warehouse '-sico) #i$el de Organi.acin de Datos o Operaciones en un Data Warehouse Sistemas Operacionales E&traccin/ Transformacin Carga de los Datos (etadata Acceso de usuario final +lataforma del data 0arehouse Datos E&ternos o E$olucin del Depsito Transformacion de Datos (etadata o Transformacin de Datos o (etadata -lu,o de Datos (edios de Almacenamiento para Informacion Antigua 1sos del Data Warehouse Consideraciones Adicionales E,emplo de un Data Warehouse E&cepciones en el Data Warehouse Organi.acin de un pro ecto o -actores en la +lanificacion de un Data Warehouse o Estrategias para el Desarrollo de un Data Warehouse o Estrategias para el Dise2o de un Data Warehouse o Estrategias para el *estion de un Data Warehouse Desarrollo de un pro ecto o 3+orque Construir !loques de Data Warehouse4 o Consideraciones +re$ias al Desarrollo de un Data Warehouse Alcance de un Data Warehouse

5edundancia de Datos Tipo de 1suario -inal Elementos Cla$es para el Desarrollo de un Data Warehouse Dise2o de la Arquitectura Sistemas de *estin de !ases de Datos #ue$as Dimensiones Com%inacion de la Arquitectura con el Sistema de *estion de !ases de Datos +lanes de E&pansion Confia%ilidad de los Datos

Autor: Claudio Casares

Introduccin Desde que se inici la era de la computadora/ las organi.aciones han usado los datos desde sus sistemas operacionales para atender sus necesidades de informacin6 Algunas proporcionan acceso directo a la informacin contenida dentro de las aplicaciones operacionales6 Otras/ han e&trado los datos desde sus %ases de datos operacionales para com%inarlos de $arias formas no estructuradas/ en su intento por atender a los usuarios en sus necesidades de informacin6 Am%os m7todos han e$olucionado a tra$7s del tiempo ahora las organi.aciones mane,an una data no limpia e inconsistente/ so%re las cuales/ en la ma ora de las $eces/ se toman decisiones importantes6 8a gestin administrati$a reconoce que una manera de ele$ar su eficiencia est9 en hacer el me,or uso de los recursos de informacin que a e&isten dentro de la organi.acin6 Sin em%argo/ a pesar de que esto se $iene intentando desde hace muchos a2os/ no se tiene toda$a un uso efecti$o de los mismos6 8a ra.n principal es la manera en que han e$olucionado las computadoras/ %asadas en las tecnologas de informacin sistemas6 8a ma ora de las organi.aciones hacen lo posi%le por conseguir %uena informacin/ pero el logro de ese o%,eti$o depende fundamentalmente de su arquitectura actual/ tanto de hard0are como de soft0are6 El data 0arehouse/ es actualmente/ el centro de atencin de las grandes instituciones/ porque pro$ee un am%iente para que las organi.aciones hagan un me,or uso de la informacin que est9 siendo administrada por di$ersas aplicaciones operacionales6 1n data 0arehouse es una coleccin de datos en la cual se encuentra integrada la informacin de la Institucin que se usa como soporte para el

proceso de toma de decisiones gerenciales6 Aunque di$ersas organi.aciones personas indi$iduales logran comprender el enfoque de un Warehouse/ la e&periencia ha demostrado que e&isten muchas dificultades potenciales6 5eunir los elementos de datos apropiados desde di$ersas fuentes de aplicacin en un am%iente integral centrali.ado/ simplifica el pro%lema de acceso a la informacin en consecuencia/ acelera el proceso de an9lisis/ consultas el menor tiempo de uso de la informacin6 8as aplicaciones para soporte de decisiones %asadas en un data 0arehousing/ pueden hacer m9s pr9ctica f9cil la e&plotacin de datos para una ma or eficacia del negocio/ que no se logra cuando se usan slo los datos que pro$ienen de las aplicaciones operacionales 'que a udan en la operacin de la empresa en sus operaciones cotidianas)/ en los que la informacin se o%tiene reali.ando procesos independientes muchas $eces comple,os6 1n data 0arehouse se crea al e&traer datos desde una o m9s %ases de datos de aplicaciones operacionales6 8a data e&trada es transformada para eliminar inconsistencias resumir si es necesario luego/ cargadas en el data 0arehouse6 El proceso de transformar/ crear el detalle de tiempo $ariante/ resumir com%inar los e&tractos de datos/ a udan a crear el am%iente para el acceso a la informacin Institucional6 Este nue$o enfoque a uda a las personas indi$iduales/ en todos los ni$eles de la empresa/ a efectuar su toma de decisiones con m9s responsa%ilidad6 8a inno$acin de la Tecnologa de Informacin dentro de un am%iente data 0arehousing/ puede permitir a cualquier organi.acin hacer un uso m9s ptimo de los datos/ como un ingrediente cla$e para un proceso de toma de decisiones m9s efecti$o6 8as organi.aciones tienen que apro$echar sus recursos de informacin para crear la informacin de la operacin del negocio/ pero de%en considerarse las estrategias tecnolgicas necesarias para la implementacin de una arquitectura completa de data 0arehouse6

Introduccin al Concepto Data Warehousing Data 0arehousing es el centro de la arquitectura para los sistemas de informacin en la d7cada de los :;<6 Soporta el procesamiento inform9tico al pro$eer una plataforma slida/ a partir de los datos histricos para hacer el an9lisis6 -acilita la integracin de sistemas de aplicacin no integrados6 Organi.a almacena los datos que se necesitan para el procesamiento analtico/ inform9tico so%re una amplia perspecti$a de tiempo6 1n Data Warehouse o Depsito de Datos es una coleccin de datos orientado a temas/ integrado/ no $ol9til/ de tiempo $ariante/ que se usa para el soporte del proceso de toma de decisiones gerenciales6 Se puede caracteri.ar un data 0arehouse haciendo un contraste de cmo los datos de un negocio almacenados en un data 0arehouse/ difieren de los datos operacionales usados por las aplicaciones de produccin6

Base de Datos Operacional Datos Operacionales Orientado a la aplicacin Actual Detallada Cam%ia continuamente

Data Warehouse Datos del negocio para Informacin Orientado al su,eto Actual = histrico Detallada = m9s resumida Esta%le

El ingreso de datos en el data 0arehouse $iene desde el am%iente operacional en casi todos los casos6 El data 0arehouse es siempre un almac7n de datos transformados separados fsicamente de la aplicacin donde se encontraron los datos en el am%iente operacional6 Sistemas de Informacin 8os sistemas de informacin se han di$idido de acuerdo al siguiente esquema>

Sistemas Estratgicos/ orientados a soportar la toma de decisiones/ facilitan la la%or de la direccin/ proporcion9ndole un soporte %9sico/ en forma de me,or informacin/ para la toma de decisiones6 Se caracteri.an porque son sistemas sin carga peridica de tra%a,o/ es decir/ su utili.acin no es predeci%le/ al contrario de los casos anteriores/ cu a utili.acin es peridica6 Destacan entre estos sistemas> los Sistemas de Informacin *erencial '(IS)/ Sistemas de Informacin E,ecuti$os 'EIS)/ Sistemas de Informacin *eoreferencial '*IS)/ Sistemas de Simulacin de #egocios '!IS que en la pr9ctica son sistemas e&pertos o de Inteligencia Artificial ? AI)6

Sistemas T cticos/ dise2ados para soportar las acti$idades de coordinacin de acti$idades mane,o de documentacin/ definidos para facilitar consultas so%re informacin almacenada en el sistema/ proporcionar informes / en resumen/ facilitar la gestin independiente de la informacin por parte de los ni$eles intermedios de la organi.acin6

Destacan entre ellos> los Sistemas Ofim9ticos 'OA)/ Sistemas de Transmisin de (ensa,era 'Correo electrnico Ser$idor de fa&)/ coordinacin control de tareas 'Wor@ -lo0) tratamiento de documentos 'Imagen/ Tr9mite !ases de Datos Documentales)6

Sistemas Tcnico ! Operati"os/ que cu%ren el nAcleo de operaciones tradicionales de captura masi$a de datos 'Data Entr ) ser$icios %9sicos de tratamiento de datos/ con tareas predefinidas 'conta%ilidad/ facturacin/ almac7n/ presupuesto/ personal otros sistemas administrati$os)6 Estos sistemas est9n e$olucionando con la irrupcin de censores/ autmatas/ sistemas multimedia/ %ases de datos relacionales m9s a$an.adas data 0arehousing6 Sistemas Interinstitucionales/ este Altimo ni$el de sistemas de informacin reci7n est9 surgiendo/ es consecuencia del desarrollo organi.acional orientado a un mercado de car9cter glo%al/ el cual o%liga a pensar e implementar estructuras de comunicacin m9s estrechas entre la organi.acin el mercado 'Empresa E&tendida/ Organi.acin Inteligente e Integracin Organi.acional)/ todo esto a partir de la generali.acin de las redes inform9ticas de alcance nacional glo%al 'I#TE5#ET)/ que se con$ierten en $ehculo de comunicacin entre la organi.acin el mercado/ no importa dnde est7 la organi.acin 'I#T5A#ET)/ el mercado de la institucin 'EBT5A#ET) el mercado '5ed *lo%al)6

Sin em%argo/ la tecnologa data 0arehousing %asa sus conceptos diferencias entre dos tipos fundamentales de sistemas de informacin en todas las organi.aciones> los sistemas t7cnico ? operacionales los sistemas de soporte de decisiones6 Este Altimo es la %ase de un data 0arehouse6

Caractersticas de un Data Warehouse o Orientado a Temas o Integracin o De Tiempo Variante


o

De Tiempo Variante

Caractersticas de un Data Warehouse Entre las principales se tiene>


Orientado al tema Integrado De tiempo $ariante #o $ol9til

Orientado a Temas 1na primera caracterstica del data 0arehouse es que la informacin se clasifica en %ase a los aspectos que son de inter7s para la empresa6 Siendo

as/ los datos tomados est9n en contraste con los cl9sicos procesos orientados a las aplicaciones6 En la -igura #C D se muestra el contraste entre los dos tipos de orientaciones6 El am%iente operacional se dise2a alrededor de las aplicaciones funciones tales como pr7stamos/ ahorros/ tar,eta %ancaria depsitos para una institucin financiera6 +or e,emplo/ una aplicacin de ingreso de rdenes puede acceder a los datos so%re clientes/ productos cuentas6 8a %ase de datos com%ina estos elementos en una estructura que acomoda las necesidades de la aplicacin6 En el am%iente data 0arehousing se organi.a alrededor de su,etos tales como cliente/ $endedor/ producto acti$idad6 +or e,emplo/ para un fa%ricante/ 7stos pueden ser clientes/ productos/ pro$eedores $endedores6 +ara una uni$ersidad pueden ser estudiantes/ clases profesores6 +ara un hospital pueden ser pacientes/ personal m7dico/ medicamentos/ etc6 8a alineacin alrededor de las 9reas de los temas afecta el dise2o la implementacin de los datos encontrados en el data 0arehouse6 8as principales 9reas de los temas influ en en la parte m9s importante de la estructura cla$e6

8as aplicaciones est9n relacionadas con el dise2o de la %ase de datos del proceso6 En data 0arehousing se enfoca el modelamiento de datos el dise2o de la %ase de datos6 El dise2o del proceso 'en su forma cl9sica) no es separado de este am%iente6 8as diferencias entre la orientacin de procesos funciones de las aplicaciones la orientacin a temas/ radican en el contenido de la data a escala detallada6 En el data 0arehouse se e&clu e la informacin que no ser9 usada por el proceso de sistemas de soporte de decisiones/ mientras que la informacin de las orientadas a las aplicaciones/ contiene datos para satisfacer de inmediato los requerimientos funcionales de proceso/ que pueden ser usados o no por el analista de soporte de decisiones6

Otra diferencia importante est9 en la interrelacin de la informacin6 8os datos operacionales mantienen una relacin continua entre dos o m9s ta%las %asadas en una regla comercial que est9 $igente6 8as del data 0arehouse miden un espectro de tiempo las relaciones encontradas en el data 0arehouse son muchas6 (uchas de las reglas comerciales ' sus correspondientes relaciones de datos) se representan en el data 0arehouse/ entre dos o m9s ta%las6 Integracin El aspecto m9s importante del am%iente data 0arehousing es que la informacin encontrada al interior est9 siempre integrada6 8a integracin de datos se muestra de muchas maneras> en con$enciones de nom%res consistentes/ en la medida uniforme de $aria%les/ en la codificacin de estructuras consistentes/ en atri%utos fsicos de los datos consistentes/ fuentes mAltiples otros6 El contraste de la integracin encontrada en el data 0arehouse con la carencia de integracin del am%iente de aplicaciones/ se muestran en la -igura #C E/ con diferencias %ien marcadas6 A tra$7s de los a2os/ los dise2adores de las diferentes aplicaciones han tomado sus propias decisiones so%re cmo se de%era construir una aplicacin6 8os estilos dise2os personali.ados se muestran de muchas maneras6 Se diferencian en la codificacin/ en las estructuras cla$es/ en sus caractersticas fsicas/ en las con$enciones de nom%ramiento otros6 8a capacidad colecti$a de muchos de los dise2adores de aplicaciones/ para crear aplicaciones inconsistentes/ es fa%ulosa6 8a -igura #C E mencionada/ muestra algunas de las diferencias m9s importantes en las formas en que se dise2an las aplicaciones6 Codificacin 8os dise2adores de aplicaciones codifican el campo *E#E5O en $arias formas6 1n dise2ador representa *E#E5O como una F(F una F-F/ otros como un FDF un F<F/ otros como una FBF una FGF e inclusi$e/ como FmasculinoF FfemeninoF6 #o importa mucho cmo el *E#E5O llega al data 0arehouse6 +ro%a%lemente F(F F-F sean tan %uenas como cualquier otra representacin6 8o importante es que sea de cualquier fuente de donde $enga/ el *E#E5O de%e llegar al data 0arehouse en un estado integrado uniforme6 +or lo tanto/ cuando el *E#E5O se carga en el data 0arehouse desde una aplicacin/ donde ha sido representado en formato F(F F-F/ los datos de%en con$ertirse al formato del data 0arehouse6

#edida de atri$utos 8os dise2adores de aplicaciones miden las unidades de medida de las tu%eras en una $ariedad de formas6 1n dise2ador almacena los datos de tu%eras en centmetros/ otros en pulgadas/ otros en millones de pies cA%icos por segundo otros en ardas6 Al dar medidas a los atri%utos/ la transformacin traduce las di$ersas unidades de medida usadas en las diferentes %ases de datos para transformarlas en una medida est9ndar comAn6 Cualquiera que sea la fuente/ cuando la informacin de la tu%era llegue al data 0arehouse necesitar9 ser medida de la misma manera6 Con"enciones de %om$ramiento El mismo elemento es frecuentemente referido por nom%res diferentes en las di$ersas aplicaciones6 El proceso de transformacin asegura que se use preferentemente el nom%re de usuario6 &uentes #'ltiples El mismo elemento puede deri$arse desde fuentes mAltiples6 En este caso/ el proceso de transformacin de%e asegurar que la fuente apropiada sea usada/ documentada mo$ida al depsito6 Tal como se muestra en la figura/ los puntos de integracin afectan casi todos los aspectos de dise2o ? las caractersticas fsicas de los datos/ la dis unti$a de tener m9s de una de fuente de datos/ el pro%lema de est9ndares de denominacin inconsistentes/ formatos de fecha inconsistentes otros6 Cualquiera que sea la forma del dise2o/ el resultado es el mismo ? la informacin necesita ser almacenada en el data 0arehouse en un modelo glo%almente acepta%le singular/ aun cuando los sistemas operacionales su% acentes almacenen los datos de manera diferente6 Cuando el analista de sistema de soporte de decisiones o%ser$e el data 0arehouse/ su enfoque de%er9 estar en el uso de los datos que se encuentre en el depsito/ antes que preguntarse so%re la confia%ilidad o consistencia de los datos6

De Tiempo Variante Toda la informacin del data 0arehouse es requerida en algAn momento6 Esta caracterstica %9sica de los datos en un depsito/ es mu diferente de la informacin encontrada en el am%iente operacional6 En 7stos/ la informacin se requiere al momento de acceder6 En otras pala%ras/ en el

am%iente operacional/ cuando usted accede a una unidad de informacin/ usted espera que los $alores requeridos se o%tengan a partir del momento de acceso6 Como la informacin en el data 0arehouse es solicitada en cualquier momento 'es decir/ no Fahora mismoF)/ los datos encontrados en el depsito se llaman de Ftiempo $arianteF6 8os datos histricos son de poco uso en el procesamiento operacional6 8a informacin del depsito por el contraste/ de%e incluir los datos histricos para usarse en la identificacin e$aluacin de tendencias6 'Ver -igura #C H)6

El tiempo $ariante se muestra de $arias maneras>

1. 8a m9s simple es que la informacin representa los datos so%re un

hori.onte largo de tiempo ? desde cinco a die. a2os6 El hori.onte de tiempo representado para el am%iente operacional es mucho m9s corto ? desde $alores actuales hasta sesenta a no$enta das6 8as aplicaciones que tienen un %uen rendimiento est9n disponi%les para el procesamiento de transacciones/ de%en lle$ar una cantidad mnima de datos si tienen cualquier grado de fle&i%ilidad6 +or ello/ las aplicaciones operacionales tienen un corto hori.onte de tiempo/ de%ido al dise2o de aplicaciones rgidas6

2. 8a segunda manera en la que se muestra el tiempo $ariante en el

data 0arehouse est9 en la estructura cla$e6 Cada estructura cla$e en el data 0arehouse contiene/ implcita o e&plcitamente/ un elemento de tiempo como da/ semana/ mes/ etc6 El elemento de tiempo est9 casi siempre al pie de la cla$e concatenada/ encontrada en el data 0arehouse6 En ocasiones/ el elemento de tiempo e&istir9 implcitamente/ como el caso en que un archi$o completo se duplica al final del mes/ o al cuarto6

3. 8a tercera manera en que aparece el tiempo $ariante es cuando la

informacin del data 0arehouse/ una $e. registrada correctamente/ no puede ser actuali.ada6 8a informacin del data 0arehouse es/ para todos los propsitos pr9cticos/ una serie larga de FsnapshotsF '$istas instant9neas)6 +or supuesto/ si los snapshots de los datos se han tomado incorrectamente/ entonces pueden ser cam%iados6 Asumiendo que los snapshots se han tomado adecuadamente/ ellos no son alterados una $e. hechos6 En algunos casos puede ser no 7tico/ e incluso ilegal/ alterar los snapshots en el data 0arehouse6 8os datos operacionales/ siendo requeridos a partir del momento de acceso/ pueden actuali.arse de acuerdo a la necesidad6

De Tiempo Variante 8a informacin es Atil slo cuando es esta%le6 8os datos operacionales cam%ian so%re una %ase momento a momento6 8a perspecti$a m9s grande/ esencial para el an9lisis la toma de decisiones/ requiere una %ase de datos esta%le6 En la -igura #C I se muestra que la actuali.acin 'insertar/ %orrar modificar)/ se hace regularmente en el am%iente operacional so%re una %ase de registro por registro6 +ero la manipulacin %9sica de los datos que ocurre en el data 0arehouse es mucho m9s simple6 Ja dos Anicos tipos de operaciones> la carga inicial de datos el acceso a los mismos6 #o ha actuali.acin de datos 'en el sentido general de actuali.acin) en el depsito/ como una parte normal de procesamiento6 Ja algunas consecuencias mu importantes de esta diferencia %9sica/ entre el procesamiento operacional del data 0arehouse6 En el ni$el de dise2o/ la necesidad de ser preca$ido para actuali.ar las anomalas no es un factor en el data 0arehouse/ a que no se hace la actuali.acin de datos6 Esto significa que en el ni$el fsico de dise2o/ se pueden tomar li%ertades para optimi.ar el acceso a los datos/ particularmente al usar la normali.acin desnormali.acin fsica6 Otra consecuencia de la simplicidad de la operacin del data 0arehouse est9 en la tecnologa su% acente/ utili.ada para correr los datos en el depsito6 Teniendo que soportar la actuali.acin de registro por registro en modo on? line 'como es frecuente en el caso del procesamiento operacional) requiere que la tecnologa tenga un fundamento mu comple,o de%a,o de una fachada de simplicidad6

8a tecnologa permite reali.ar copias de seguridad recuperacin/ transacciones e integridad de los datos la deteccin solucin al estancamiento que es m9s comple,o6 En el data 0arehouse no es necesario el procesamiento6 8a fuente de casi toda la informacin del data 0arehouse es el am%iente operacional6 A simple $ista/ se puede pensar que ha redundancia masi$a de datos entre los dos am%ientes6 Desde luego/ la primera impresin de muchas personas se centra en la gran redundancia de datos/ entre el am%iente operacional el am%iente de data 0arehouse6 Dicho ra.onamiento es superficial demuestra una carencia de entendimiento con respecto a qu7 ocurre en el data 0arehouse6 De hecho/ ha una mnima redundancia de datos entre am%os am%ientes6 Se de%e considerar lo siguiente>

8os datos se filtran cuando pasan desde el am%iente operacional al de depsito6 E&iste mucha data que nunca sale del am%iente operacional6 Slo los datos que realmente se necesitan ingresar9n al am%iente de data 0arehouse6 El hori.onte de tiempo de los datos es mu diferente de un am%iente al otro6 8a informacin en el am%iente operacional es m9s reciente con respecto a la del data 0arehouse6 Desde la perspecti$a de los hori.ontes de tiempo Anicos/ ha poca superposicin entre los am%ientes operacional de data 0arehouse6 El data 0arehouse contiene un resumen de la informacin que no se encuentra en el am%iente operacional6 8os datos e&perimentan una transformacin fundamental cuando pasa al data 0arehouse6 8a ma or parte de los datos se alteran significati$amente al ser seleccionados mo$idos al data 0arehouse6 Dicho de otra manera/ la ma ora de los datos se alteran fsica radicalmente cuando se mue$en al depsito6 #o es la misma data que reside en el am%iente operacional desde el punto de $ista de integracin6

En $ista de estos factores/ la redundancia de datos entre los dos am%ientes es una ocurrencia rara/ que resulta en menos de DK6

Estructura del Data Warehouse 8os data 0arehouses tienen una estructura distinta6 Ja ni$eles diferentes de esquemati.acin detalle que delimitan el data 0arehouse6 8a estructura de un data 0arehouse se muestra en la -igura #C L6 Detalle de datos actuales En gran parte/ el inter7s m9s importante radica en el detalle de los datos actuales/ de%ido a que> 5efle,a las ocurrencias m9s recientes/ las cuales son de gran inter7s Es $oluminoso/ a que se almacena al m9s %a,o ni$el de granularidad6 Casi siempre se almacena en disco/ el cual es de f9cil acceso/ aunque su administracin sea costosa comple,a6 Detalle de datos antiguos 8a data antigua es aquella que se almacena so%re alguna forma de almacenamiento masi$o6 #o es frecuentemente su acceso se almacena a un ni$el de detalle/ consistente con los datos detallados actuales6 (ientras no sea prioritario el almacenamiento en un medio de almacena,e alterno/ a causa del gran $olumen de datos unido al acceso no frecuente de los mismos/ es poco usual utili.ar el disco como medio de almacenamiento6 Datos ligeramente resumidos 8a data ligeramente resumida es aquella que pro$iene desde un %a,o ni$el de detalle encontrado al ni$el de detalle actual6 Este ni$el del data 0arehouse casi siempre se almacena en disco6 8os puntos en los que se %asa el dise2ador para construirlo son> Mue la unidad de tiempo se encuentre so%re la esquemati.acin hecha6 Mu7 contenidos 'atri%utos) tendr9 la data ligeramente resumida6

A $eces se encuentra en el am%iente de data 0arehouse en otros/ fuera del lmite de la tecnologa que ampara al data 0arehouse6 'De todos modos/ los datos completamente resumidos son parte del data 0arehouse sin considerar donde se alo,an los datos fsicamente6) #etadata

8a data antigua es aquella que se almacena so%re alguna forma de almacenamiento masi$o6 #o es frecuentemente su acceso se almacena a un ni$el de detalle/ consistente con los datos detallados actuales6 (ientras no sea prioritario el almacenamiento en un medio de almacena,e alterno/ a causa del gran $olumen de datos unido al acceso no frecuente de los mismos/ es poco usual utili.ar el disco como medio de almacenamiento6 El componente final del data 0arehouse es el de la metadata6 De muchas maneras la metadata se sitAa en una dimensin diferente al de otros datos del data 0arehouse/ de%ido a que su contenido no es tomado directamente desde el am%iente operacional6 8a metadata ,uega un rol especial 0arehouse es usada como>

mu importante en el data

1n directorio para a udar al analista a u%icar los contenidos del data 0arehouse6 1na gua para la tra.a%ilidad de los datos/ de cmo se transforma/ del am%iente operacional al de data 0arehouse6 1na gua de los algoritmos usados para la esquemati.acin entre el detalle de datos actual/ con los datos ligeramente resumidos 7stos/ con los datos completamente resumidos/ etc6

8a metadata ,uega un papel mucho m9s importante en un am%iente data 0arehousing que en un operacional cl9sico6 A fin de recordar los diferentes ni$eles de los datos encontrados en el data 0arehouse/ considere el e,emplo mostrado en la -igura #C N6 El detalle de $entas antiguas son las que se encuentran antes de D;;E6 Todos los detalles de $entas desde D;OE 'o cuando el dise2ador inici la coleccin de los archi$os) son almacenados en el ni$el de detalle de datos m9s antiguo6 El detalle actual contiene informacin desde D;;E a D;;H 'suponiendo que D;;H es el a2o actual)6 En general/ el detalle de $entas no se u%ica en el ni$el de detalle actual hasta que ha a pasado/ por lo menos/ $einticuatro horas desde que la informacin de $entas llegue a estar disponi%le en el am%iente operacional6

En otras pala%ras/ ha%ra un retraso de tiempo de por lo menos $einticuatro horas/ entre el tiempo en que en el am%iente operacional se ha a hecho un nue$o ingreso de la $enta el momento cuando la informacin de la $enta ha a ingresado al data 0arehouse6

El detalle de las $entas son resumidas semanalmente por lnea de su%producto por regin/ para producir un almacenamiento de datos ligeramente resumidos6 El detalle de $entas semanal es adicionalmente resumido en forma mensual/ segAn una gama de lneas/ para producir los datos completamente resumidos6 8a metadata contiene 'al menos)>

8a estructura de los datos 8os algoritmos usados para la esquemati.acin 8a tra.a%ilidad desde el am%iente operacional al data 0arehouse

8a informacin adicional que no se esquemati.a es almacenada en el data 0arehouse6 En muchas ocasiones/ all se har9 el an9lisis se producir9 un tipo u otro de resumen6 El Anico tipo de esquemati.acin que se almacena permanentemente en el data 0arehouse/ es el de los datos que son usados frecuentemente6 En otras pala%ras/ si un analista produce un resumen que tiene una pro%a%ilidad mu %a,a de ser usado nue$amente/ entonces la esquemati.acin no es almacenada en el data 0arehouse6

Arquitectura de un Data Warehouse o Elementos constitu entes de una Arquitectura Data Warehouse !ase de datos operacional " #i$el de %ase de datos e&terno #i$el de acceso a la informacin #i$el de acceso a los datos #i$el de Directorio de Datos '(etadata) #i$el de *estin de +rocesos #i$el de (ensa,e de la Aplicacin #i$el Data Warehouse '-sico) #i$el de Organi.acin de Datos o Operaciones en un Data Warehouse Sistemas Operacionales E&traccin/ Transformacin Carga de los Datos (etadata Acceso de usuario final +lataforma del data 0arehouse Datos E&ternos
o

E$olucin del Depsito

Arquitectura de un Data Warehouse 1na de las ra.ones por las que el desarrollo de un data 0arehouse crece r9pidamente/ es que realmente es una tecnologa mu entendi%le6 De hecho/ data 0arehousing puede representar me,or la estructura amplia de una empresa para administrar los datos informacionales dentro de la organi.acin6 A fin de comprender cmo se relacionan todos los componentes in$olucrados en una estrategia data 0arehousing/ es esencial tener una Arquitectura Data Warehouse6

Elementos constitu entes de una Arquitectura Data Warehouse1na Arquitectura Data Warehouse 'Data Warehouse Architecture ? DWA) es una forma de representar la estructura total de datos/ comunicacin/ procesamiento presentacin/ que e&iste para los usuarios finales que disponen de una computadora dentro de la empresa6 8a arquitectura se constitu e de un nAmero de partes interconectadas>

!ase de datos operacional " #i$el de %ase de datos e&terno #i$el de acceso a la informacin #i$el de acceso a los datos #i$el de directorio de datos '(etadata) #i$el de gestin de proceso #i$el de mensa,e de la aplicacin #i$el de data 0arehouse #i$el de organi.acin de datos

Base de datos operacional ( %i"el de $ase de datos e)terno 8os sistemas operacionales procesan datos para apo ar las necesidades operacionales crticas6 +ara hacer eso/ se han creado las %ases de datos operacionales histricas que pro$een una estructura de procesamiento eficiente/ para un nAmero relati$amente peque2o de transacciones comerciales %ien definidas6

Sin em%argo/ a causa del enfoque limitado de los sistemas operacionales/ las %ases de datos dise2adas para soportar estos sistemas/ tienen dificultad al acceder a los datos para otra gestin o propsitos inform9ticos6 Esta dificultad en acceder a los datos operacionales es amplificada por el hecho que muchos de estos sistemas tienen de D< a DL a2os de antigPedad6 El tiempo de algunos de estos sistemas significa que la tecnologa de acceso a los datos disponi%le para o%tener los datos operacionales/ es as mismo antigua6 Ciertamente/ la meta del data 0arehousing es li%erar la informacin que es almacenada en %ases de datos operacionales com%inarla con la informacin desde otra fuente de datos/ generalmente e&terna6 Cada $e. m9s/ las organi.aciones grandes adquieren datos adicionales desde %ases de datos e&ternas6 Esta informacin inclu e tendencias demogr9ficas/ econom7tricas/ adquisiti$as competiti$as 'que pueden ser proporcionadas por Instituciones Oficiales ? I#EI)6 Internet o tam%i7n llamada Finformation superhigh0a F 'supercarretera de la informacin) pro$ee el acceso a m9s recursos de datos todos los das6 %i"el de acceso a la informacin El ni$el de acceso a la informacin de la arquitectura data 0arehouse/ es el ni$el del que el usuario final se encarga directamente6 En particular/ representa las herramientas que el usuario final normalmente usa da a da6 +or e,emplo> EBCE8/ 8OT1S D?E?H/ -OC1S/ ACCESS/ SAS/ etc6 Este ni$el tam%i7n inclu e el hard0are soft0are in$olucrados en mostrar informacin en pantalla emitir reportes de impresin/ ho,as de c9lculo/ gr9ficos diagramas para el an9lisis presentacin6 Jace dos d7cadas que el ni$el de acceso a la informacin se ha e&pandido enormemente/ especialmente a los usuarios finales quienes se han $olcado a los +CS monousuarios los +CS en redes6 Actualmente/ e&isten herramientas m9s m9s sofisticadas para manipular/ anali.ar presentar los datos/ sin em%argo/ ha pro%lemas significati$os al tratar de con$ertir los datos tal como han sido recolectados que se encuentran contenidos en los sistemas operacionales en informacin f9cil transparente para las herramientas de los usuarios finales6 1na de las cla$es para esto es encontrar un lengua,e de datos comAn que puede usarse a tra$7s de toda la empresa6 %i"el de acceso a los datos El ni$el de acceso a los datos de la arquitectura data 0arehouse est9 in$olucrado con el ni$el de acceso a la informacin para con$ersar en el ni$el operacional6 En la red mundial de ho / el lengua,e de datos comAn que ha surgido es SM86 Originalmente/ SM8 fue desarrollado por I!( como un lengua,e de consulta/ pero en los Altimos $einte a2os ha llegado a ser el est9ndar para el intercam%io de datos6

1no de los adelantos cla$es de los Altimos a2os ha sido el desarrollo de una serie de FfiltrosF de acceso a datos/ tales como EDA"SM8 para acceder a casi todo los Sistemas de *estin de !ase de Datos 'Data !ase (anagement S stems ? D!(Ss) sistemas de archi$os de datos/ relacionales o no6 Estos filtros permiten a las herramientas de acceso a la informacin/ acceder tam%i7n a la data almacenada en sistemas de gestin de %ase de datos que tienen $einte a2os de antigPedad6 El ni$el de acceso a los datos no solamente conecta D!(SS diferentes sistemas de archi$os so%re el mismo hard0are/ sino tam%i7n a los fa%ricantes protocolos de red6 1na de las cla$es de una estrategia data 0arehousing es pro$eer a los usuarios finales con Facceso a datos uni$ersalesF6 El acceso a los datos uni$ersales significa que/ tericamente por lo menos/ los usuarios finales sin tener en cuenta la herramienta de acceso a la informacin o u%icacin/ de%eran ser capaces de acceder a cualquier o todos los datos en la empresa que es necesaria para ellos/ para hacer su tra%a,o6 El ni$el de acceso a los datos entonces es responsa%le de la interfaces entre las herramientas de acceso a la informacin las %ases de datos operacionales6 En algunos casos/ esto es todo lo que un usuario final necesita6 Sin em%argo/ en general/ las organi.aciones desarrollan un plan mucho m9s sofisticado para el soporte del data 0arehousing6 %i"el de Directorio de Datos *#etadata+ A fin de pro$eer el acceso a los datos uni$ersales/ es a%solutamente necesario mantener alguna forma de directorio de datos o repositorio de la informacin metadata6 8a metadata es la informacin alrededor de los datos dentro de la empresa6 8as descripciones de registro en un programa CO!O8 son metadata6 Tam%i7n lo son las sentencias DI(E#SIO# en un programa -O5T5A# o las sentencias a crear en SM86 A fin de tener un depsito totalmente funcional/ es necesario tener una $ariedad de metadata disponi%les/ informacin so%re las $istas de datos de los usuarios finales e informacin so%re las %ases de datos operacionales6 Idealmente/ los usuarios finales de%eran de acceder a los datos desde el data 0arehouse 'o desde las %ases de datos operacionales)/ sin tener que conocer dnde residen los datos o la forma en que se han almacenados6 %i"el de ,estin de -rocesos El ni$el de gestin de procesos tiene que $er con la programacin de di$ersas tareas que de%en reali.arse para construir mantener el data 0arehouse la informacin del directorio de datos6 Este ni$el puede depender del alto ni$el de control de tra%a,o para muchos procesos 'procedimientos) que de%en ocurrir para mantener el data 0arehouse actuali.ado6

%i"el de #ensa.e de la Aplicacin El ni$el de mensa,e de la aplicacin tiene que $er con el transporte de informacin alrededor de la red de la empresa6 El mensa,e de aplicacin se refiere tam%i7n como Fsu%productoF/ pero puede in$olucrar slo protocolos de red6 +uede usarse por e,emplo/ para aislar aplicaciones operacionales o estrat7gicas a partir del formato de datos e&acto/ recolectar transacciones o los mensa,es entregarlos a una u%icacin segura en un tiempo seguro6 %i"el Data Warehouse *&/sico+ En el data 0arehouse 'nAcleo) es donde ocurre la data actual/ usada principalmente para usos estrat7gicos6 En algunos casos/ uno puede pensar del data 0arehouse simplemente como una $ista lgica o $irtual de datos6 En muchos e,emplos/ el data 0arehouse puede no in$olucrar almacenamiento de datos6 En un data 0arehouse fsico/ copias/ en algunos casos/ muchas copias de datos operacionales "o e&ternos/ son almacenados realmente en una forma que es f9cil de acceder es altamente fle&i%le6 Cada $e. m9s/ los data 0arehouses son almacenados so%re plataformas cliente"ser$idor/ pero por lo general se almacenan so%re mainframes6 %i"el de Organi0acin de Datos El componente final de la arquitectura data 0arehouse es la organi.acin de los datos6 Se llama tam%i7n gestin de copia o r7plica/ pero de hecho/ inclu e todos los procesos necesarios como seleccionar/ editar/ resumir/ com%inar cargar datos en el depsito acceder a la informacin desde %ases de datos operacionales "o e&ternas6 8a organi.acin de datos in$olucra con frecuencia una programacin comple,a/ pero cada $e. m9s/ est9n cre9ndose las herramientas data 0arehousing para a udar en este proceso6 In$olucra tam%i7n programas de an9lisis de calidad de datos filtros que identifican modelos estructura de datos dentro de la data operacional e&istente6

Operaciones en un Data Warehouse

En la -igura #C O se muestra algunos de los tipos de operaciones que se efectAan dentro de un am%iente data 0arehousing6

Sistemas Operacionales 8os datos administrados por los sistemas de aplicacin operacionales son la fuente principal de datos para el data 0arehouse6 8as %ases de datos operacionales se organi.an como archi$os inde&ados '1-AS/ VSA()/ %ases de datos de redes",er9rquicas 'I?D?S"II/ I(S/ ID(S) o sistemas de %ase de datos relacionales 'D!E/ O5AC8E/ I#-O5(IB/ etc6)6 SegAn las encuestas/ apro&imadamente del Q<K a O<K de las %ases de datos de las empresas se organi.an usando D!(SS no relacional6 E&traccin/ Transformacin Carga de los Datos

Se requieren herramientas de gestin de datos para e&traer datos desde %ases de datos "o archi$os operacionales/ luego es necesario manipular o transformar los datos antes de cargar los resultados en el data 0arehouse6 Tomar los datos desde $arias %ases de datos operacionales transformarlos en datos requeridos para el depsito/ se refiere a la transformacin o a la integracin de datos6 8as %ases de datos operacionales/ dise2adas para el soporte de $arias aplicaciones de produccin/ frecuentemente difieren en el formato6 8os mismos elementos de datos/ si son usados por aplicaciones diferentes o administrados por diferentes soft0are D!(S/ pueden definirse al usar nom%res de elementos inconsistentes/ que tienen formatos inconsistentes "o ser codificados de manera diferente6 Todas estas inconsistencias de%en

resol$erse antes que los elementos de datos sean almacenados en el data 0arehouse6 (etadata Otro paso necesario es crear la metadata6 8a metadata 'es decir/ datos acerca de datos) descri%e los contenidos del data 0arehouse6 8a metadata consiste de definiciones de los elementos de datos en el depsito/ sistema's) del 'os) elemento's) fuente6 Como la data/ se integra transforma antes de ser almacenada en informacin similar6 Acceso de usuario final 8os usuarios acceden al data 0arehouse por medio de herramientas de producti$idad %asadas en *1I '*raphical 1ser Interface ? Interface gr9fica de usuario)6 +ueden pro$eerse a los usuarios del data 0arehouse muchos de estos tipos de herramientas6 Estos pueden incluir soft0are de consultas/ generadores de reportes/ procesamiento analtico en lnea/ herramientas data"$isual mining/ etc6/ dependiendo de los tipos de usuarios sus requerimientos particulares6 Sin em%argo/ una sola herramienta no satisface todos los requerimientos/ por lo que es necesaria la integracin de una serie de herramientas6 +lataforma del data 0arehouse 8a plataforma para el data 0arehouse es casi siempre un ser$idor de %ase de datos relacional6 Cuando se manipulan $olAmenes mu grandes de datos puede requerirse una configuracin en %loque de ser$idores 1#IB con multiprocesador sim7trico 'S(+) o un ser$idor con procesador paralelo masi$o '(++) especiali.ado6 8os e&tractos de la data integrada"transformada se cargan en el data 0arehouse6 1no de los m9s populares 5D!(Ss disponi%les para data 0arehousing so%re la plataforma 1#IB 'S(+ (++) generalmente es Teradata6 8a eleccin de la plataforma es crtica6 El depsito crecer9 ha que comprender los requerimientos despu7s de H o L a2os6 (uchas de las organi.aciones quieran o no escogen una plataforma por di$ersas ra.ones> el Sistema B es nuestro sistema elegido o el Sistema G est9 a disponi%le so%re un sistema 1#IB que nosotros a tenemos6 1no de los errores m9s grandes que las organi.aciones cometen al seleccionar la plataforma/ es que ellos presumen que el sistema 'hard0are "o D!(S) escalar9 con los datos6 El sistema de depsito e,ecuta las consultas que se pasa a los datos por el soft0are de acceso a los datos del usuario6 Aunque un usuario $isuali.a las consultas desde el punto de $ista de un *1I/ las consultas tpicamente se formulan como pedidos SM8/ porque SM8 es un lengua,e uni$ersal el est9ndar de hecho para el acceso a datos6

Datos E&ternos Dependiendo de la aplicacin/ el alcance del data 0arehouse puede e&tenderse por la capacidad de acceder a la data e&terna6 +or e,emplo/ los datos accesi%les por medio de ser$icios de computadora en lnea 'tales como CompuSer$e America On 8ine) "o $a Internet/ pueden estar disponi%les a los usuarios del data 0arehouse6 E$olucin del Depsito Construir un data 0arehouse es una tarea grande6 #o es recomenda%le emprender el desarrollo del data 0arehouse de la empresa como un pro ecto cualquiera6 (9s %ien/ se recomienda que los requerimientos de una serie de fases se desarrollen e implementen en modelos consecuti$os que permitan un proceso de implementacin m9s gradual e iterati$o6 #o e&iste ninguna organi.acin que ha a triunfado en el desarrollo del data 0arehouse de la empresa/ en un slo paso6 (uchas/ sin em%argo/ lo han logrado luego de un desarrollo paso a paso6 8os pasos pre$ios e$olucionan con,untamente con la materia que est9 siendo agregada6 8os datos en el data 0arehouse no son $ol9tiles es un repositorio de datos de slo lectura 'en general)6 Sin em%argo/ pueden a2adirse nue$os elementos so%re una %ase regular para que el contenido siga la e$olucin de los datos en la %ase de datos fuente/ tanto en los contenidos como en el tiempo6 1no de los desafos de mantener un data 0arehouse/ es idear m7todos para identificar datos nue$os o modificados en las %ases de datos operacionales6 Algunas maneras para identificar estos datos inclu en insertar fecha"tiempo en los registros de %ase de datos entonces crear copias de registros actuali.ados copiar informacin de los registros de transaccin "o %ase de datos diarias6 Estos elementos de datos nue$os "o modificados son e&trados/ integrados/ transformados agregados al data 0arehouse en pasos peridicos programados6 Como se a2aden las nue$as ocurrencias de datos/ los datos antiguos son eliminados6 +or e,emplo/ si los detalles de un su,eto particular se mantienen por L a2os/ como se agreg la Altima semana/ la semana anterior es eliminada6

Transformacion de Datos (etadata o Transformacin de Datos


o

(etadata

Transformacion de Datos Transformacin de Datos

(etadata

1no de los desafos de cualquier implementacin de data 0arehouse/ es el pro%lema de transformar los datos6 8a transformacin se encarga de las inconsistencias en los formatos de datos la codificacin/ que pueden e&istir dentro de una %ase de datos Anica que casi siempre e&isten cuando mAltiples %ases de datos contri%u en al data 0arehouse6 En la -igura #C ; se ilustra una forma de inconsistencia/ en la cual el g7nero se codifica de manera diferente en tres %ases de datos diferentes6 8os procesos de transformacin de datos se desarrollan para direccionar estas inconsistencias6

8a transformacin de datos tam%i7n se encarga de las inconsistencias en el contenido de datos6 1na $e. que se toma la decisin so%re que reglas de transformacin ser9n esta%lecidas/ de%en crearse e incluirse las definiciones en las rutinas de transformacin6 Se requiere una planificacin cuidadosa detallada para transformar datos inconsistentes en con,untos de datos concilia%les consistentes para cargarlos en el data 0arehouse6 (etadata Otro aspecto de la arquitectura de data 0arehouse es crear soporte a la metadata6 (etadata es la informacin so%re los datos que se alimenta/ se transforma e&iste en el data 0arehouse6 (etadata es un concepto gen7rico/ pero cada implementacin de la metadata usa t7cnicas m7todos especficos6

Estos m7todos t7cnicas son dependientes de los requerimientos de cada organi.acin/ de las capacidades e&istentes de los requerimientos de interfaces de usuario6 Jasta ahora/ no ha normas para la metadata/ por lo que la metadata de%e definirse desde el punto de $ista del soft0are data 0arehousing/ seleccionado para una implementacin especfica6 Tpicamente/ la metadata inclu e los siguientes tems>

8as estructuras de datos que dan una $isin de los datos al administrador de datos6 8as definiciones del sistema de registro desde el cual se constru e el data 0arehouse6 8as especificaciones de transformaciones de datos que ocurren tal como la fuente de datos se replica al data 0arehouse6

El modelo de datos del data 0arehouse 'es decir/ los elementos de datos sus relaciones)6 1n registro de cuando los nue$os elementos de datos se agregan al data 0arehouse cuando los elementos de datos antiguos se eliminan o se resumen6 8os ni$eles de sumari.acin/ el m7todo de sumari.acin registros de su data 0arehouse6 las ta%las de

Algunas implementaciones de la metadata tam%i7n inclu en definiciones de la's) $ista's) presentada's) a los usuarios del data 0arehouse6 Tpicamente/ se definen $istas mAltiples para fa$orecer las preferencias $ariadas de di$ersos grupos de usuarios6 En otras implementaciones/ estas descripciones se almacenan en un Cat9logo de Informacin6 8os esquemas su%esquemas para %ases de datos operacionales/ forman una fuente ptima de entrada cuando se crea la metadata6 Jacer uso de la documentacin e&istente/ especialmente cuando est9 disponi%le en forma electrnica/ puede acelerar el proceso de definicin de la metadata del am%iente data 0arehousing6 8a metadata sir$e/ en un sentido/ como el cora.n del am%iente data 0arehousing6 Crear definiciones de metadata completa efecti$a puede ser un proceso que consuma tiempo/ pero lo me,or de las definiciones si usted usa herramientas de gestin de soft0are integrado/ son los esfuer.os que dar9n como resultado el mantenimiento del data 0arehouse6 &lu.o de Datos E&iste un flu,o de datos normal -igura #C D< muestra ese flu,o6 predeci%le dentro del data 0arehouse6 8a

8os datos ingresan al data 0arehouse desde el am%iente operacional6 'Ja pocas e&cepciones a esta regla)6

Al ingresar al data 0arehouse/ la informacin $a al ni$el de detalle actual/ tal como se muestra6 Se queda all se usa hasta que ocurra uno de los tres e$entos siguientes>

Sea eliminado Sea resumido Sea archi$ado

Con el proceso de desactuali.acin en un data 0arehouse se mue$e el detalle de la data actual a data antigua/ %asado en el tiempo de los datos6 El proceso de esquemati.acin usa el detalle de los datos para calcular los datos en forma ligera completamente resumidos6 Ja pocas e&cepciones al flu,o mostrado6 Sin em%argo/ en general/ para la ma ora de datos encontrados en un data 0arehouse/ el flu,o de la informacin es como se ha e&plicado6

(edios de Almacenamiento para Informacion Antigua El sm%olo mostrado en la -igura #C DD para medios de almacenamiento de informacin antigua es la cinta magn7tica/ que puede usarse para almacenar este tipo de informacin6 De hecho ha una amplia $ariedad de medios de almacenamiento que de%en considerarse para almacenar datos m9s antiguos6 En la figura se muestra algunos de esos medios6

Dependiendo del $olumen de informacin/ la frecuencia de acceso/ el costo de los medios el tipo de acceso/ es pro%a%le que otros medios de almacenamiento sir$an a las necesidades del ni$el de detalle m9s antiguo en el data 0arehouse6

1sos del Data Warehouse 8os datos operacionales los datos del data 0arehouse son accedidos por usuarios que usan los datos de maneras diferentes6 1so de Base de Datos Operacionales (uchos usuarios concurrentes Consultas predefinidas actuali.a%les Cantidades peque2as de datos detallados 5equerimientos de respuesta inmediata #aneras diferentes de uso de 1so de Data Warehouse +ocos usuarios concurrentes Consultas comple,as/ frecuentemente no anticipadas6 Cantidades grandes de datos detallados 5equerimientos de respuesta no crticos datos

8os usuarios de un data 0arehouse necesitan acceder a los datos comple,os/ frecuentemente desde fuentes mAltiples de formas no predeci%les6 8os usuarios que accedan a los datos operacionales/ comAnmente efectAan tareas predefinidas que/ generalmente requieren acceso a una sola %ase de datos de una aplicacin6 +or el contrario/ los usuarios que accedan al data 0arehouse/ efectAan tareas que requieren acceso a un con,unto de datos desde fuentes mAltiples frecuentemente no son predeci%les6 8o Anico que se conoce 'si es

modelada correctamente) es el con,unto inicial de datos que se han esta%lecido en el depsito6 +or e,emplo/ un especialista en el cuidado de la salud podra necesitar acceder a los datos actuales e histricos para anali.ar las tendencias de costos/ usando un con,unto de consultas predefinidas6 +or el contrario/ un representante de $entas podra necesitar acceder a los datos de cliente producto para e$aluar la eficacia de una campa2a de mar@eting/ creando consultas %ase o ad?hoc para encontrar nue$amente necesidades definidas6 #aneras diferentes de uso de datos Slo pocos usuarios acceden a los datos concurrentemente 2os usuarios generan un procesamiento no predeci$le comple.o 8os usuarios del data 0arehouse generan consultas comple,as6 A $eces la respuesta a una consulta conduce a la formulacin de otras preguntas m9s detalladas/ en un proceso llamado drilling do0n6 El data 0arehouse puede incluir ni$eles de resAmenes mAltiples/ deri$ado de un con,unto principal/ Anico/ de datos detallados/ para soportar este tipo de uso6 En efecto/ los usuarios frecuentemente comien.an %uscando en los datos resumidos como identifican 9reas de inter7s/ comien.an a acceder al con,unto de datos detallado6 8os con,untos de datos resumidos representan el FMu7F de una situacin los con,untos de datos detallados permiten a los usuarios construir un cuadro so%re FCmoF se ha deri$ado esa situacin6 2as consultas de los usuarios accedan a cantidades grandes de datos De%ido a la necesidad de in$estigar tendencias e$aluar las relaciones entre muchas clases de datos/ las consultas al data 0arehouse permiten acceder a $olAmenes mu grandes tanto de data detallada como resumida6 De%ido a los requerimientos de datos histricos/ los data 0arehouses e$olucionan para llegar a un tama2o m9s grande que sus orgenes operacionales 'de D< a D<< $eces m9s grande)6 2as consultas de los usuarios no tienen tiempos de respuesta cr/ticos 8as transacciones operacionales necesitan una respuesta inmediata porque un cliente puede estar esperando una respuesta6 En el data 0arehouse/ por el contrario/ tiene un requerimiento de respuesta no crtico porque el resultado frecuentemente se usa en un proceso de an9lisis toma de decisiones6 Aunque los tiempos de respuesta no

son crticos/ los usuarios esperan una respuesta dentro del mismo da en que es hecha la consulta6 +or lo general/ los diferentes ni$eles de datos dentro del data 0arehouse reci%en diferentes usos6 A m9s alto ni$el de esquemati.acin/ se tiene ma or uso de los datos6 En la -igura #C DE se muestra que ha ma or uso de los datos completamente resumidos/ a diferencia de la informacin antigua que apenas es usada6 Ja una %uena ra.n para mo$er una organi.acin al paradigma sugerido en la figura/ la utili.acin del recurso6 8a data m9s resumida/ permite capturar los datos en forma m9s r9pida eficiente6 Si en una tarea se encuentra que se hace mucho procesamiento a ni$eles de detalle del data 0arehouse/ entonces se consumir9 muchos recursos de m9quina6 Es me,or hacer el procesamiento a ni$eles m9s altos de esquemati.acin como sea posi%le6 +ara muchas tareas/ el analista de sistemas de soporte de decisiones usa la informacin detallada en un pre data 0arehouse6 8a seguridad de la informacin de detalle se consigue de muchas maneras/ aun cuando est7n disponi%les otros ni$eles de esquemati.acin6 1na de las acti$idades del dise2ador de datos es el de desconectar al usuario del sistema de soporte de decisiones del uso constante de datos con un detalle m9s %a,o6 El dise2ador de datos tiene dos predisposiciones>

1. Instalar un sistema charge%ac@/ donde el usuario final pague


por los recursos consumidos

2. Se2alar el me,or tiempo de respuesta que puede o%tenerse


cuando se tra%a,a con la data a un ni$el alto de esquemati.acin/ a diferencia de un po%re tiempo de respuesta que resulta de tra%a,ar con los datos a un ni$el %a,o de detalle6 +ara ilustrar cmo un data 0arehouse puede a udar a una organi.acin a me,orar sus operaciones/ se muestra un e,emplo de lo que es el desarrollo de acti$idades sin tener un data 0arehouse6

E.emplo: -reparacin de un reporte comple.o Considere un pro%lema %astante tpico en una compa2a de fa%ricacin grande en el que se pide una informacin 'un reporte) que no est9 disponi%le6 El informe inclu e las finan.as actuales/ el in$entario la condicin de personal/ acompa2ado de comparaciones del mes actual con el anterior el mismo mes del a2o anterior/ con una comparacin adicional de los H a2os precedentes6 Se de%e e&plicar cada des$iacin de la tendencia que cae fuera de un rango predefinido6

Sin un data 0arehouse/ el informe es preparado de la manera siguiente> 8a informacin financiera actual se o%tiene desde una %ase de datos mediante un programa de e&traccin de datos/ el in$entario actual de otro programa de e&traccin de otra %ase de datos/ la condicin actual de personal de un tercer programa de e&traccin la informacin histrica desde una copia de seguridad de cinta magn7tica o CD?5O(6 8o m9s interesante es que se ha pedido otro informe que continAe al primer informe 'de%ido a que las preguntas se originaron a partir del anterior)6 El hecho es/ que ninguno de los tra%a,os reali.ados hasta aqu 'por e,emplo/ di$ersos programas de e&traccin) se pueden usar para los pr&imos o para cualquier reporte su%siguiente6 Imagine el tiempo el esfuer.o que se ha desperdiciado por un enfoque anticuado6 'Ver -igura #C DH)6 8as inconsistencias de%en identificarse en cada con,unto de datos e&trados resol$erse/ por lo general/ manualmente6 Cuando se completa todo este procesamiento/ el reporte puede ser formateado/ impreso/ re$isado transmitido6 #ue$amente/ el punto importante aqu es que todo el tra%a,o desempe2ado para hacer este informe no afecta a otros reportes que pueden solicitarse es decir/ todos ellos son independientes caros/ desde el punto de $ista de recursos producti$idad6 Al crear un data 0arehouse com%inar todos los datos requeridos/ se o%tienen los siguientes %eneficios> 8as inconsistencias de los datos se resuel$en autom9ticamente cuando los elementos de datos se cargan en el data 0arehouse/ no manualmente/ cada $e. que se prepara un reporte6 8os errores que ocurrieron durante el proceso comple,o de la preparacin del informe/ se minimi.an porque el proceso es ahora mucho m9s simple6 8os elementos de datos son f9cilmente accesi%les para otros usos/ no slo para un reporte particular6 Se crea una sola fuente6

Consideraciones Adicionales Ja algunas consideraciones adicionales que de%en tenerse en cuenta al construir administrar el data 0arehouse6 8a primera consideracin es respecto al ndice6 8a informacin de los ni$eles de esquemati.acin m9s altos pueden ser li%remente inde&ados/ mientras que las de los ni$eles m9s %a,os de detalle/ por ser tan $oluminosa/ pueden ser inde&ados moderadamente6 +or lo mismo/ los datos en los ni$eles m9s altos de detalle pueden ser reestructurados f9cilmente/ mientras que el $olumen de datos en los ni$eles m9s inferiores es tan grande/ que los datos no pueden ser f9cilmente reestructurados6 +or consiguiente/ el modelo de datos el dise2o cl9sico fundamentan que el data 0arehouse se aplique casi e&clusi$amente al ni$el actual de detalle6 En

otras pala%ras/ las acti$idades de modelamiento de datos no se aplican a los ni$eles de esquemati.acin/ en casi todos los casos6 Otra consideracin estructural es la particin de la informacin en el data 0arehouse6 El ni$el de detalle actual es casi siempre particionado6 8a particin puede hacerse de dos maneras> al ni$el de D!(S al ni$el de la aplicacin6 En la particin D!(S/ se conoce las particiones se administra por consiguiente6 En el caso de la particin de las aplicaciones/ slo los programadores de las mismas conocen las particiones la responsa%ilidad de su administracin es asignada a ellos6 Al interior de las particiones D!(S/ mucho de los tra%a,os de infraestructura se hacen autom9ticamente6 +ero e&iste un ele$ado grado de rigide. asociada con la gestin autom9tica de las particiones6 En el caso de las particiones de las aplicaciones del data 0arehouse/ la ma or parte del tra%a,o recae so%re el programador/ pero el resultado final es que la gestin de datos es m9s fle&i%le6

E,emplo de un Data Warehouse En la -igura #C DI se muestra un e,emplo hipot7tico de un data 0arehouse estructurado para un centro de produccin industrial6

Se muestra slo el detalle actual/ no as los ni$eles de esquemati.acin ni los archi$os de detalle m9s antiguos6 Adem9s/ se o%ser$a que ha ta%las del mismo tipo di$ididas a tra$7s del tiempo6 +or e,emplo/ para el histrico de la fa%ricacin de las pie.as/ ha muchas ta%las separadas fsicamente/ representando cada una un trimestre diferente6 8a estructura de los datos es consistente con la ta%la de la ela%oracin de las pie.as/ aunque fsicamente ha muchas ta%las que lgicamente inclu en el histrico6

+ara los diferentes tipos de ta%las ha diferentes unidades de tiempo que fsicamente di$iden las unidades de informacin6 El histrico de fa%ricacin est9 di$idido por trimestres/ el histrico de la orden de pie.as est9 di$idido por a2os el histrico de cliente es un archi$o Anico/ no di$idido por el tiempo6 As tam%i7n/ las diferentes ta%las son $inculadas por medio de un identificador comAn/ pie.as u rdenes de pie.as 'la representacin de la interrelacin en el am%iente de depsito toma una forma mu diferente al de otros am%ientes/ tal como el am%iente operacional)6

E&cepciones en el Data Warehouse (ientras que los componentes del data 0arehouse tra%a,an de acuerdo al modelo descrito para casi todos los datos/ ha pocas e&cepciones Atiles que necesitan ser discutidas6 1na de ellas es la data resumida pA%lica/ que es la data que ha sido calculada fuera del data 0arehouse pero es usada a tra$7s de la corporacin6 8a data resumida pA%lica se almacena administra en el data 0arehouse/ aunque su c9lculo se ha a hecho fuera de 7l6 1n e,emplo cl9sico de data resumida pA%lica es el archi$amiento trimestral hecho por cada compa2a pA%lica6 8os contadores tra%a,an para producir cantidades como rentas trimestrales/ gastos trimestrales/ ganancias trimestrales otros6 El tra%a,o hecho por los contadores est9 fuera del data 0arehouse6 Sin em%argo/ esas cantidades referenciales producidas por ellos se usan ampliamente dentro de la corporacin para mar@eting/ $entas/ etc6 1na $e. que se ha a hecho el archi$o/ los datos se almacenan en el data 0arehouse6 Otra e&cepcin no considerada en este documento es la data e&terna6 Otro e&cepcional tipo de datos a $eces encontrados en un data 0arehouse es el detalle de los datos permanentes/ que resulta de la necesidad de una corporacin para almacenar la data a un ni$el detallado permanentemente por ra.ones 7ticas o legales6 Si una corporacin e&pone a sus tra%a,adores a sustancias peligrosas ha una necesidad de detalle de datos permanente6 Si una corporacin produce un producto que in$olucra la seguridad pA%lica/ tal como la construccin de las partes de a$iones/ ha una necesidad de datos permanentes6 Si una corporacin se compromete con contratos peligrosos/ ha una necesidad de detalle de datos permanentes6 8a organi.acin simplemente no puede de,ar los detalles porque en futuros a2os/ en el caso de una demanda/ una notificacin/ un edificio en disputa/ etc6/ se incrementara la e&posicin de la compa2a6 +or lo tanto ha un

Anico tipo de datos en el data 0arehouse conocido como detalle de datos permanentes6 El detalle de datos permanentes comparte muchas de las mismas consideraciones como otro data 0arehouse/ e&cepto que>

El medio donde se almacena la data de%e ser tan seguro como sea posi%le6 8os datos de%en permitir ser restaurados6 8os datos necesitan un tratamiento especial en su inde&acin/ a que de otra manera los datos pueden no ser accesi%les aunque se ha a almacenado con mucha seguridad6 Organi.acin de un pro ecto o -actores en la +lanificacion de un Data Warehouse o Estrategias para el Desarrollo de un Data Warehouse o Estrategias para el Dise2o de un Data Warehouse
o

Estrategias para el *estion de un Data Warehouse

Organi.acin de un pro ecto 8a planificacin es el proceso m9s importante que determina la clase de tipo de estrategias data 0arehousing que una organi.acin iniciar96 -actores en la +lanificacion de un Data Warehouse #o e&iste una frmula de garanta real para el 7&ito de la construccin de un data 0arehouse/ pero ha muchos puntos que contri%u en a ese o%,eti$o6 A continuacin/ se indican algunos puntos cla$es que de%en considerarse en la planificacin de un data 0arehouse> Esta$lecer una asociacin de usuarios3 gestin 4 grupos Es esencial in$olucrar tanto a los usuarios como a la gestin para asegurar que el data 0arehouse contenga informacin que satisfaga los requerimientos de la empresa6 8a gestin puede a udar a priori.ar la fase de la implementacin del data 0arehouse/ as como tam%i7n la seleccin de herramientas del usuario6 8os usuarios la gestin ,ustifican los costos del data 0arehouse so%re cmo ser9 Fsu am%ienteF est9 %asado primero en lo esperado segundo/ en el $alor comercial real6 Seleccionar una aplicacin piloto con una alta pro$a$ilidad de )ito 1na aplicacin piloto de alcance limitado/ con un reem%olso medi%le para los usuarios la gestin/ esta%lecer9 el data 0arehouse como

una tecnologa cla$e para la empresa6 Estos mismos criterios 'alcance limitado/ reem%olso medi%le %eneficios claros para la empresa) se aplican a cada fase de la implementacin de un data 0arehouse6 Construir prototipos r pida 4 frecuentemente 8a Anica manera para asegurar que el data 0arehouse reAna las necesidades de los usuarios/ es hacer el prototipo a lo largo del proceso de implementacin aAn m9s all9/ as como agregar los nue$os datos "o los modelos en forma permanente6 El tra%a,o continuo con los usuarios la gestin es/ nue$amente/ la cla$e6 Implementacin incremental 8a implementacin incremental reduce riesgos asegura que el tama2o del pro ecto permane.ca mane,a%le en cada fase6 5eportar acti"amente 4 pu$licar los casos e)itosos 8a retroalimentacin de los usuarios ofrece una e&celente oportunidad para pu%licar los hechos e&itosos dentro de una organi.acin6 8a pu%licidad interna so%re cmo el data 0arehouse ha a udado a los usuarios a operar m9s efecti$amente puede apo ar la construccin del data 0arehouse a lo largo de una empresa6 8a retroalimentacin del usuario tam%i7n a uda a comprender cmo e$oluciona la implementacin del data 0arehouse a tra$7s del tiempo para reunir requerimientos de usuario nue$amente identificados6 Estrategias para el Desarrollo de un Data Warehouse Antes de desarrollar un data 0arehouse/ es crtico el desarrollo de una estrategia equili%rada que sea apropiada para sus necesidades sus usuarios6 8as preguntas que de%en tenerse en cuenta son>

3Mui7n es el auditorio4 3Cu9l es el alcance4 3Mu7 tipo de data 0arehouse de%era construirse4

E&iste un nAmero de estrategias mediante las cuales las organi.aciones pueden conseguir sus data 0arehouses6 -rimera Esta%lecer un am%iente Fdata 0arehouse $irtualF/ el cual puede ser creado por>

Instalacin de un con,unto de facilidades para acceso a datos/ directorio de datos gestin de proceso6

Entrenamiento de usuarios finales6 Control de cmo se usan realmente las instalaciones del data 0arehouse6 !asados en el uso actual/ crear un data 0arehouse fsico para soportar los pedidos de alta frecuencia6

Segunda Construir una copia de los datos operacionales desde un sistema operacional Anico posi%ilitar al data 0arehouse de una serie de herramientas de acceso a la informacin6 Esta estrategia tiene la $enta,a de ser simple r9pida6 Desafortunadamente/ si los datos e&istentes son de mala calidad "o el acceso a los datos no ha sido pre$iamente e$aluado/ entonces se puede crear una serie de pro%lemas6 Tercera -inalmente/ la estrategia data 0arehousing ptima es seleccionar el nAmero de usuarios %asados en el $alor de la empresa hacer un an9lisis de sus puntos/ preguntas necesidades de acceso a datos6 De acuerdo a estas necesidades/ se constru en los prototipos data 0arehousing se prue%an para que los usuarios finales puedan e&perimentar modificar sus requerimientos6 1na $e. se tenga un consenso general so%re las necesidades/ entonces se consiguen los datos pro$enientes de los sistemas operacionales e&istentes a tra$7s de la empresa "o desde fuentes e&ternas de datos se cargan al data 0arehouse6 Si se requieren herramientas de acceso a la informacin/ se puede tam%i7n permitir a los usuarios finales tener acceso a los datos requeridos usando sus herramientas fa$oritas propias/ o facilitar la creacin de sistemas de acceso a la informacin multidimensional de alta performance/ usando el nAcleo del data 0arehouse como %ase6 En conclusin #o se tiene un enfoque Anico para construir un data 0arehouse que se adapte a las necesidades de las empresas/ de%ido a que las necesidades de cada una de ellas son diferentes/ al igual que su conte&to6 Adem9s/ como la tecnologa data 0arehousing $a e$olucionando/ se aprende cada $e. m9s m9s so%re el desarrollo de data 0arehouses/ que resulta en que el Anico enfoque pr9ctico para al almacenamiento de datos es la e$olucin de uno mismo6 Estrategias para el Dise2o de un Data Warehouse

El dise2o de los data 0arehouses es mu diferente al dise2o de los sistemas operacionales tradicionales6 Se pueden considerar los siguientes puntos>

1. 8os usuarios de los data 0arehouses usualmente no conocen mucho

so%re sus requerimientos necesidades como los usuarios operacionales6 2. El dise2o de un data 0arehouse/ con frecuencia in$olucra lo que se piensa en t7rminos m9s amplios con conceptos del negocio m9s difciles de definir que en el dise2o de un sistema operacional6 Al respecto/ un data 0arehouse est9 %astante cerca a 5eingeniera de los +rocesos del #egocio '!usiness +rocess 5eengineering)6 3. -inalmente/ la estrategia de dise2o ideal para un data 0arehousing es generalmente de afuera hacia adentro 'outside?in) a diferencia de arri%a hacia a%a,o 'top?do0n)6 A pesar que el dise2o del data 0arehouse es diferente al usado en los dise2os tradicionales/ no es menos importante6 El hecho que los usuarios finales tengan dificultad en definir lo que ellos necesitan/ no lo hace menos necesario6 En la pr9ctica/ los dise2adores de data 0arehouses tienen que usar muchos FtrucosF para a udar a sus usuarios a F$isuali.arF sus requerimientos6 +or ello/ son esenciales los prototipos de tra%a,o6 Estrategias para el *estion de un Data Warehouse 8os data 0arehouses requieren una comerciali.acin cuidadosa6 De%e considerarse lo siguiente> gestin mu

1. 1n data 0arehouse es una in$ersin %uena slo si los usuarios finales


realmente pueden conseguir informacin $ital m9s r9pida %arata de lo que o%tienen con la tecnologa actual6 m9s

Como consecuencia/ la gestin tiene que pensarse seriamente so%re cmo quieren sus depsitos para su efica. desempe2o cmo conseguir9n llegar a los usuarios finales6

2. 8a administracin de%e reconocer que el mantenimiento de la

estructura del data 0arehouse es tan crtico como el mantenimiento de cualquier otra aplicacin de misin crtica6 De hecho/ la e&periencia ha demostrado que los data 0arehouses llegar9n a ser r9pidamente uno de los sistemas m9s usados en cualquier organi.acin6

3. 8a gestin de%e comprender tam%i7n que si se em%arcan so%re un


programa data 0arehousing/ se crear9n nue$as demandas so%re sus sistemas operacionales/ que son> o Demandas para me,orar datos o Demandas para una data consistente o Demandas para diferentes tipos de datos/ etc6

Desarrollo de un pro ecto o 3+orque Construir !loques de Data Warehouse4 o Consideraciones +re$ias al Desarrollo de un Data Warehouse Alcance de un Data Warehouse 5edundancia de Datos Tipo de 1suario -inal o Elementos Cla$es para el Desarrollo de un Data Warehouse Dise2o de la Arquitectura Sistemas de *estin de !ases de Datos #ue$as Dimensiones Com%inacion de la Arquitectura con el Sistema de *estion de !ases de Datos +lanes de E&pansion
o

Confia%ilidad de los Datos

Desarrollo de un pro ecto 3+orque Construir !loques de Data Warehouse4 +ara ampliar un negocio/ se necesita que la informacin sea comprensi%le6 +ara muchas compa2as/ esto significa un gran data 0arehouse que muestre/ ,unto a los datos no filtrados dispersos/ nue$as formas creati$as de presentacin6 8as herramientas para capturar e&plorar los datos al detalle e$olucionan/ as como nuestra capacidad para encontrar las formas de e&plotar los datos recolectados6 En los Altimos D< a2os se han com%inado dos factores para a udar a la difusin de los data 0arehouses6 Ellos son>

1. Se ha reconocido los %eneficios del procesamiento analtico en lnea


'On 8ine Anal tical +rocessing ? O8A+)/ m9s all9 de las 9reas tradicionales de mar@eting finan.as6 8as organi.aciones sa%en que los conocimientos inmersos en las masas de datos que rutinariamente recogen so%re sus clientes/ productos/ operaciones acti$idades comerciales/ contri%u en a reducir los costos de operacin aumentar las rentas/ por no mencionar que es m9s f9cil la toma de decisiones estrat7gicas6

2. El crecimiento de la computacin cliente"ser$idor/ ha creado

ser$idores de hard0are soft0are m9s poderosos sofisticados que nunca6 8os ser$idores de ho compiten con las mainframes de a er ofrecen arquitecturas de memoria tecnolgicamente superiores/

procesadores de alta $elocidad masi$as6

capacidades de almacenamiento

Al mismo tiempo/ los Sistemas de *estin de !ase de Datos 'Data !ase (anagement S stems ? D!(S's)) modernos/ proporcionan ma or soporte para las estructuras de datos comple,as6 De esta reno$acin de hard0are soft0are surgen los data 0arehouses multitera% te que ahora se $e en am%ientes de cliente"ser$idor6 Consideraciones +re$ias al Desarrollo de un Data Warehouse Ja muchas maneras para desarrollar data 0arehouses como tantas organi.aciones e&isten6 Sin em%argo/ ha un nAmero de dimensiones diferentes que necesitan ser consideradas>

Alcance de un data 0arehouse 5edundancia de datos Tipo de usuario final

8a -igura #C DL muestra un esquema %idimensional para anali.ar las opciones %9sicas6 8a dimensin hori.ontal indica el alcance del depsito la $ertical muestra la cantidad de datos redundantes que de%en almacenarse mantenerse6

Alcance de un Data Warehouse El alcance de un data 0arehouse puede ser tan amplio como toda la informacin estrat7gica de la empresa desde su inicio/ o puede ser tan limitado como un data 0arehouse personal para un solo gerente durante un a2o6

En la pr9ctica/ en la amplitud del alcance/ el ma or $alor del data 0arehouse es para la empresa lo m9s caro consumidor de tiempo es crear mantenerlo6 Como consecuencia de ello/ la ma ora de las organi.aciones comien.an con data 0arehouses funcionales/ departamentales o di$isionales luego los e&panden como usuarios que pro$een retroalimentacin6 5edundancia de Datos Ja tres ni$eles esenciales de redundancia de datos que las empresas de%eran considerar en sus opciones de data 0arehouse>

Data 0arehouses F$irtualF o F+oint to +ointF Data 0arehouses FcentralesF Data 0arehouses Fdistri%uidosF

#o se puede pensar en un Anico enfoque6 Cada opcin adapta un con,unto especfico de requerimientos una %uena estrategia de almacenamiento de datos/ lo constitu e la inclusin de las tres opciones6 Data Warehouses 67irtual6 o 6-oint to -oint6 1na estrategia de data 0arehouses $irtual/ significa que los usuarios finales pueden acceder a %ases de datos operacionales directamente/ usando cualquier herramienta que posi%ilite Fla red de acceso de datosF6 Este enfoque pro$ee fle&i%ilidad as como tam%i7n la cantidad mnima de datos redundantes que de%en cargarse mantenerse6 Adem9s/ se pueden colocar las cargas de consulta no planificadas m9s grandes/ so%re sistemas operacionales6 Como se $er9/ el almacenamiento $irtual es/ frecuentemente/ una estrategia inicial/ en organi.aciones donde ha una amplia 'pero en su ma or parte indefinida) necesidad de conseguir la data operacional/ desde una clase relati$amente grande de usuarios finales donde la frecuencia pro%a%le de pedidos es %a,a6 8os depsitos $irtuales de datos pro$een un punto de partida para que las organi.aciones determinen qu7 usuarios finales est9n %uscando realmente6 Data Warehouses 6Centrales6 El concepto de data 0arehouses centrales es el concepto inicial que se tiene del data 0arehouse6 Es una Anica %ase de datos fsica/ que contiene todos los datos para un 9rea funcional especfica/ departamento/ di$isin o empresa6 8os data 0arehouses centrales se seleccionan por lo general donde ha una necesidad comAn de los datos inform9ticos un nAmero

grande de usuarios finales a conectados a una red o computadora central6 +ueden contener datos para cualquier perodo especfico de tiempo6 ComAnmente/ contienen datos de sistemas operacionales mAltiples6 8os data 0arehouses centrales son reales6 8os datos almacenados en el data 0arehouse son accesi%les desde un lugar de%en cargarse mantenerse so%re una %ase regular6 #ormalmente se constru en alrededor de 5D!(S a$an.ados o/ en alguna forma/ de ser$idor de %ase de datos inform9tico multidimensional6 Data Warehouses Distri$uidos 8os data 0arehouses distri%uidos son aquellos en los cuales ciertos componentes del depsito se distri%u en a tra$7s de un nAmero de %ases de datos fsicas diferentes6 Cada $e. m9s/ las organi.aciones grandes est9n tomando decisiones a ni$eles m9s inferiores de la organi.acin a la $e./ lle$ando los datos que se necesitan para la toma de decisiones a la red de 9rea local '8ocal Area #et0or@ ? 8A#) o computadora local que sir$e al que toma decisiones6 8os data 0arehouses distri%uidos comAnmente in$olucran la ma ora de los datos redundantes como consecuencia de ello/ se tienen procesos de actuali.acin carga m9s comple,os6 Tipo de 1suario -inal De la misma forma que ha una gran cantidad de maneras para organi.ar un data 0arehouse/ es importante notar que tam%i7n ha una gama cada $e. m9s amplia de usuarios finales6 En general/ se puede considerar tres grandes categoras>

E,ecuti$os gerentes F+o0er usersF o F!u.o de InformacinF 'analistas financieros negocios/ ingenieros/ etc6) 1suarios de soporte 'de oficina/ administrati$os/ etc6)6

de

Cada una de estas categoras diferentes de usuario tienen su propio con,unto de requerimientos para los datos/ acceso/ fle&i%ilidad facilidad de uso6 Elementos Cla$es para el Desarrollo de un Data Warehouse 8os data 0arehouses e&itosos comien.an cuando se escogen e integran satisfactoriamente tres elementos cla$es6 1n data 0arehouse est9 integrado por un ser$idor de hard0are los D!(S que conforman el depsito6 Del lado del hard0are/ se de%e com%inar la

configuracin de plataformas de los ser$idores/ mientras se decide cmo apro$echar los saltos casi constantes de la potencia del procesador6 Del lado del soft0are/ la comple,idad el alto costo de los D!(Ses fuer.an a tomar decisiones dr9sticas %alances comparati$os ine$ita%les/ con respecto a la integracin/ requerimientos de soporte/ desempe2o/ eficiencia confia%ilidad6 Si se escoge incorrectamente/ el data 0arehouse se con$ierte en una gran empresa con pro%lemas difciles de tra%a,ar en su entorno/ costoso para arreglar difcil de ,ustificar6 +ara conseguir que la implementacin del depsito tenga un inicio e&itoso/ se necesita enfocar hacia tres %loques cla$es de construccin>

Arquitectura total del depsito Arquitecturas del ser$idor Sistemas de *estin de !ase de Datos

A continuacin se presentan algunas recomendaciones para tomar las correctas elecciones para su empresa6 Dise2o de la Arquitectura Ar8uitectura del Depsito El desarrollo del data 0arehouse comien.a con la estructura lgica fsica de la %ase de datos del depsito m9s los ser$icios requeridos para operar mantenerlo6 Esta eleccin conduce a la seleccin de otros dos tems fundamentales> el ser$idor de hard0are el D!(S6 8a plataforma fsica puede centrali.arse en una sola u%icacin o distri%uirse regional/ nacional o internacionalmente6 A continuacin se dan las siguientes alternati$as de arquitectura>

1. 1n plan para almacenar los datos de su compa2a/ que podra

o%tenerse desde fuentes mAltiples internas e&ternas/ es consolidar la %ase de datos en un data 0arehouse integrado6 El enfoque consolidado proporciona eficiencia tanto en la potencia de procesamiento como en los costos de soporte6 'Ver -igura #C DN)6

2. 8a arquitectura glo%al distri%u e informacin por funcin/ con datos


financieros so%re un ser$idor en un sitio/ los datos de comerciali.acin en otro los datos de fa%ricacin en un tercer lugar6 'Ver -igura #C DQ)

3. 1na arquitectura por ni$eles almacena datos altamente resumidos


so%re una estacin de tra%a,o del usuario/ con resAmenes m9s detallados en un segundo ser$idor la informacin m9s detallada en un tercero6 8a estacin de tra%a,o del primer ni$el mane,a la ma ora de los pedidos para los datos/ con pocos pedidos que pasan sucesi$amente a los ni$eles E H para la resolucin6 8as computadoras en el primer ni$el pueden optimi.arse para usuarios de carga pesada $olumen %a,o de datos/ mientras que los ser$idores de los otros ni$eles son m9s adecuados para procesar los $olAmenes pesados de datos/ pero cargas m9s li$ianas de usuario6 'Ver figura #C DO)6

Ar8uitectura del ser"idor Al decidir so%re una estructura de depsito distri%uida o centrali.ada/ tam%i7n se necesita considerar los ser$idores que retendr9n entregar9n los datos6 El tama2o de su implementacin ' las necesidades de su empresa para escala%ilidad/ disponi%ilidad gestin de sistemas) influir9 en la eleccin de la arquitectura del ser$idor6

1. Ser$idores de un solo procesador


8os ser$idores de un slo procesador son los m9s f9ciles de administrar/ pero ofrecen limitada potencia de procesamiento escala%ilidad6 Adem9s/ un ser$idor slo presenta un Anico punto de falla/ limitando la disponi%ilidad garanti.ada del depsito6 Se puede ampliar un solo ser$idor de redes mediante arquitecturas distri%uidas que hacen uso de su%productos/ tales como Am%ientes de Computacin Distri%uida 'Distri%uted Computing En$ironment ? DCE) o Arquitectura !ro@er de O%,eto ComAn 'Common O%,ects 5equest !ro@er Architecture ? CO5!A)/ para distri%uir el tr9fico a tra$7s de ser$idores mAltiples6

Estas arquitecturas aumentan tam%i7n la disponi%ilidad/ de%ido a que las operaciones pueden cam%iarse al ser$idor de copia de seguridad si un ser$idor falla/ pero la gestin de sistemas es m9s comple,a6

2. (ultiprocesamiento sim7trico
8as m9quinas de multiprocesamiento sim7trico 'S mmetric (ulti+rocessing ? S(+) aumentan mediante la adicin de procesadores que comparten la memoria interna de los ser$idores los dispositi$os de almacenamiento de disco6 Se puede adquirir la ma ora de S(+ en configuraciones mnimas 'es decir/ con dos procesadores) le$antar cuando es necesario/ ,ustificando el crecimiento con las necesidades de procesamiento6 8a escala%ilidad de una m9quina S(+ alcan.a su lmite en el nAmero m9&imo de procesadores soportados por los mecanismos de cone&in 'es decir/ el %ac@plane %us compartido)6

3. +rocesamiento en paralelo masi$o


1na m9quina de procesamiento en paralelo masi$o '(assi$el +arallel +rocessing ? (++)/ conecta un con,unto de procesadores por medio de un enlace de %anda ancha de alta $elocidad6 Cada nodo es un ser$idor/ completo con su propio procesador 'posi%lemente S(+) memoria interna6 +ara optimi.ar una arquitectura (++/ las aplicaciones de%en ser Fparaleli.adasF es decir/ dise2adas para operar por separado/ en partes paralelas6 Esta arquitectura es ideal para la %Asqueda de grandes %ases de datos6 Sin em%argo/ el D!(S que se selecciona de%e ser uno que ofre.ca una $ersin paralela6 G aAn entonces/ se requiere un dise2o afinamiento esenciales para o%tener una ptima distri%ucin de los datos pre$enir Fhot spotsF o Fdata s@e0F 'donde una cantidad desproporcionada del procesamiento es cam%iada a un nodo de procesamiento/ de%ido a la particin de los datos %a,o su control)6

4. Acceso de memoria no uniforme


8a dificultad de mo$er aplicaciones los D!(S a agrupaciones o am%ientes realmente paralelos ha conducido a nue$as recientes arquitecturas/ tales como el acceso de memoria no uniforme '#on 1niform (emor Access ? #1(A)6 #1(A crea una sola gran m9quina S(+ al conectar mAltiples nodos S(+ en un solo 'aunque fsicamente distri%uida) %anco de memoria un e,emplo Anico de OS6 #1(A facilita el enfoque S(+ para o%tener los %eneficios de performance de las grandes m9quinas (++ 'con HE o m9s procesadores)/ mientras se mantiene las $enta,as de gestin simplicidad de un am%iente S(+ est9ndar6

8o m9s importante de todo/ es que e&isten D!(S aplicaciones que pueden mo$erse desde un solo procesador o plataforma S(+ a #1(A/ sin modificaciones6 Sistemas de *estin de !ases de Datos 8os data 0arehouses 'con,untamente con los sistemas de soporte de decisin RDecision Support S stems ? DSSS las aplicaciones cliente"ser$idor)/ fueron los primeros 7&itos para el D!(S relacional '5elational Data !ase (anagement S stems ? 5D!(S)6 (ientras la gran parte de los sistemas operacionales fueron resultados de aplicaciones %asadas en antiguas estructuras de datos/ los depsitos sistemas de soporte de decisiones apro$echaron el 5D!(S por su fle&i%ilidad capacidad para efectuar consultas con un Anico o%,eti$o concreto6 8os 5D!(S son mu fle&i%les cuando se usan con una estructura de datos normali.ada6 En una %ase de datos normali.ada/ las estructuras de datos son no redundantes representan las entidades %9sicas las relaciones descritas por los datos 'por e,emplo productos/ comercio transaccin de $entas)6 +ero un procesamiento analtico en lnea 'O8A+) tpico de consultas que in$olucra $arias estructuras/ requiere $arias operaciones de unin para colocar los datos ,untos6 8a performance de los 5D!(S tradicionales es me,or para consultas %asadas en cla$es 'FEncuentre cuenta de cliente TE<DIF) que para consultas %asadas en el contenido 'FEncuentre a todos los clientes con un ingreso so%re U D</<<< que ha an comprado un autom$il en los Altimos seis mesesF)6 +ara el soporte de depsitos a gran escala para me,orar el inter7s hacia las aplicaciones O8A+/ los pro$eedores han a2adido nue$as caractersticas al 5D!(S tradicional6 Estas/ tam%i7n llamadas caractersticas super relacionales/ inclu en el soporte para hard0are de %ase de datos especiali.ada/ tales como la m9quina de %ase de datos Teradata6 8os modelos super relacionales tam%i7n soportan e&tensiones para almacenar formatos operaciones relacionales 'ofrecidas por pro$eedores como 5ED!5ICV) diagramas de inde&acin especiali.ados/ tales como aquellos usados por SG!ASE IM6 Estas t7cnicas pueden me,orar el rendimiento para las recuperaciones %asadas en el contenido/ al pre ,untar ta%las usando ndices o mediante el uso de listas de ndice totalmente in$ertidos6 (uchas de las herramientas de acceso a los data 0arehouses e&plotan la naturale.a multidimensional del data 0arehouse6 +or e,emplo/ los analistas de mar@eting necesitan %uscar en los $olAmenes de $entas por producto/ por mercado/ por perodo de tiempo/ por promociones ni$eles anunciados por com%inaciones de estos diferentes aspectos6

8a estructura de los datos en una %ase de datos relacional tradicional/ facilita consultas an9lisis a lo largo de dimensiones diferentes que han llegado a ser comunes6 Estos esquemas podran usar ta%las mAltiples e indicadores para simular una estructura multidimensional6 Algunos productos D!(S/ tales como ESS!ASE *E#TI1(/ implementan t7cnicas de almacenamiento operadores que soportan estructuras de datos multidimensionales6 (ientras las %ases de datos multidimensionales '(ultiDimensional Data%ases ? (DD!s) a udan directamente a manipular los o%,etos de datos multidimensionales 'por e,emplo/ la rotacin f9cil de los datos para $erlos entre dimensiones diferentes/ o las operaciones de drill do0n que sucesi$amente e&ponen los ni$eles de datos m9s detallados)/ se de%e identificar estas dimensiones cuando se constru a la estructura de la %ase de datos6 As/ agregar una nue$a dimensin o cam%iar las $istas deseadas/ puede ser engorroso costoso6 Algunos (DD!S requieren un recargue completo de la %ase de datos cuando ocurre una reestructuracin6 #ue$as Dimensiones 1na limitacin de un 5D!(S un (DD!/ es la carencia de soporte para tipos de datos no tradicionales como im9genes/ documentos clips de $deo " audio6 Si usted necesita estos tipos de o%,etos en su data 0arehouse/ %usque un D!(S relacional ? o%,eto 'E,emplo> I881ST5A de I#-O5(IB)6 +or su enfoque en los $alores de datos codificados/ la ma or parte de los sistemas de %ase de datos pueden acomodar estos tipos de datos/ slo con e&tensiones %asadas en cierta referencias/ tales como indicadores de archi$os que contienen los o%,etos6 (uchos 5D!(S almacenan los datos comple,os como o%,etos grandes %inarios '!inar 8arge O%,ects ? !8O!s)6 En este formato/ los o%,etos no pueden ser inde&ados/ clasificados/ o %uscados por el ser$idor6 8os D!(S relacional ? o%,eto/ de otro lado/ almacenan los datos comple,os como o%,etos nati$os pueden soportar las grandes estructuras de datos encontradas en un am%iente orientado a o%,etos6 Estos sistemas de %ase de datos naturalmente acomodan no slo tipos de datos especiales sino tam%i7n los m7todos de procesamiento que son Anicos para cada uno de ellos6 +ero una des$enta,a del enfoque relacional ? o%,eto/ es que la encapsulacin de los datos dentro de los tipos especiales de datos 'una serie de precios de stoc@ a tra$7s del tiempo en cada registro de una ta%la de stoc@/ por e,emplo)/ requiere de operadores especiali.ados para que hagan %Asquedas simples pre$iamente 'por e,emplo/ FEncontrar todas las e&istencias que han mostrado una disminucin en el precio de A%ril a (a o D;;NF)6 8a seleccin del D!(S est9 tam%i7n su,eta al ser$idor de hard0are que se usa6 Algunos 5D!(S/ como el D!E +aralelo/ I#-O5(IB B+S el O5AC8E +aralelo/ ofrecen $ersiones que soportan operaciones paralelas6 El soft0are

paralelo di$ide consultas/ uniones a tra$7s de procesadores mAltiples corre estas operaciones simult9neamente para me,orar la performance6 Se requiere el paralelismo para el me,or desempe2o en los ser$idores (++ grandes S(+ agrupados6 #o es aAn una opcin con (DD!S o D!(S relacional ? o%,eto6 En la ta%la FCmo comparar D!(SF se resume los pro los contra de los diferentes tipos de D!(S para operaciones de data 0arehouse6 8a ta%la F(atri. de Decisin del Data WarehouseF contiene algunos e,emplos de cmo afectan estos criterios de decisin en la eleccin de una arquitectura de ser$idor" data 0arehouse6 9Cmo comparar DB#SES: Super #ultidimensional #ultidimensional O$.eto 5elacional 5elacional *2gico+ *&/sico+ 5elacional

Caracter/sticas ( &uncin Estructuras %ormali0adas Tipos de datos a$stractos -aralelismo Estructuras #ultidimensionales Drill!Do;n 5otacin Operaciones dependientes de datos

#atri0 de Decisin para el Data Warehouse -ara estos am$ientes<<< 5e8uerimientos comerciales 1suarios Eli.a<<< Soporte de Ar8uitectura Ser"idor Sistemas DB#S

Alcance> departamental +eque2a ? 1sos> an9lisis de u%icacin Anica datos Alcance> departamental 1sos> an9lisis m9s inform9tico Alcance> empresa *randes Analistas en una sola u%icacinW usuarios inform9ticos dispersos *randeW geogr9ficamente disperso

8ocal +rocesador mnimo ? Consolidado ? Anico o (DD! central paquete S(+ promedio Seccionado ? 8ocal detalle en mnimo ? central ? central resumen en promedio local Central fuerte Centrali.ado *rupos de S(+ para centralW S+ o S(+ para local 5D!(S para central ? (DD! para local

*rupos de O%,eto? S(+ relacional? soporte

1sos> an9lisis m9s inform9tico Alcance> departamental 1sos> in$estigacin +eque2a ? pocas Central u%icaciones fuerte

We% 5D!(S con soporte paralelo

Centrali.ado

(++

Com%inacion de la Arquitectura con el Sistema de *estion de !ases de Datos +ara seleccionar la com%inacin correcta de la arquitectura del ser$idor el D!(S/ primero es necesario comprender los requerimientos comerciales de su compa2a/ su po%lacin de usuarios las ha%ilidades del personal de soporte6 8as implementaciones de los data 0arehouses $aran aprecia%lemente de acuerdo al 9rea6 Algunos son dise2ados para soportar las necesidades de an9lisis especfico para un solo departamento o 9rea funcional de una organi.acin/ tales como finan.as/ $entas o mar@eting6 8as otras implementaciones reAnen datos a tra$7s de toda la empresa para soportar una $ariedad de grupos de usuarios funciones6 +or regla general/ a ma or 9rea del depsito/ se requiere ma or potencia funcionalidad del ser$idor el D!(S6 8os modelos de uso de los data 0arehouses son tam%i7n un factor6 8as consultas $istas de reportes preestructuradas frecuentemente satisfacen a los usuarios inform9ticos/ mientras que ha menos demandas so%re el D!(S la potencia de procesamiento del ser$idor6 El an9lisis comple,o/ que es tpico de los am%ientes de decisin ? soporte/ requiere m9s poder fle&i%ilidad de todos los componentes del ser$idor6 8as %Asquedas masi$as de grandes data 0arehouses fa$orecen el paralelismo en el D!(S el ser$idor6 8os am%ientes din9micos/ con sus requerimientos siempre cam%iantes/ se adaptan me,or a una arquitectura de datos simple/ f9cilmente cam%ia%le 'por e,emplo/ una estructura relacional altamente normali.ada)/ antes que una estructura intrincada que requiere una reconstruccin despu7s de cada cam%io 'por e,emplo/ una estructura multidimensional)6 El $alor de la data fresca requerida indica cu9n importante es para el data 0arehouse reno$ar cam%iar los datos6 8os grandes $olAmenes de datos que se refrescan a inter$alos frecuentes/ fa$orecen una arquitectura fsicamente centrali.ada para soportar una captura de datos eficiente minimi.ar el tiempo de transporte de los datos6 1n perfil de usuario de%era identificar qui7nes son los usuarios de su data 0arehouse/ dnde se u%ican cu9ntos necesita soportar6 8a informacin so%re cmo cada grupo espera usar los data 0arehouses/ a udar9 a anali.ar los di$ersos estilos de uso6

Conocer la u%icacin fsica de sus usuarios a udar9 a determinar cmo a qu7 9rea necesita distri%uir el data 0arehouse6 1na arquitectura por ni$eles podra usar ser$idores en el lugar de las redes de 9rea local6 O puede necesitar un enfoque centrali.ado para soportar a los tra%a,adores que se mo$ili.an que tra%a,an en el depsito desde sus laptops6 El nAmero total de usuarios sus modelos de cone&in determinan el tama2o de sus ser$idores de depsito6 8os tama2os de memoria los canales de I"O de%en soportar el nAmero pre$isto de usuarios concurrentes %a,o condiciones normales/ as como tam%i7n en las horas punta de su organi.acin6 -inalmente/ se de%e factori.ar la sofisticacin del personal de soporte6 8os recursos de los sistemas de informacin 'Information S stem ? IS) que est9n disponi%les dentro de su organi.acin/ pueden limitar la comple,idad o sofisticacin de la arquitectura del ser$idor6 Sin el personal especiali.ado interno o consultores e&ternos/ es difcil de crear mantener satisfactoriamente una arquitectura que requiere paralelismo en la plataforma del ser$idor '(++ o S(+ agrupado/ por e,emplo)6 +lanes de E&pansion Como su depsito e$oluciona los datos que contiene llegan a ser m9s accesi%le/ los empleados e&ternos al depsito podran descu%rir tam%i7n el $alor de sus datos6 Al enla.ar su data 0arehouse a otros sistemas 'tanto internos como e&ternos a la organi.acin)/ se puede compartir informacin con otras entidades comerciales con poco o sin desarrollo6 8os mensa,es de correo electrnico/ ser$idores WE! cone&iones Intranet"Internet/ pueden entregar listas por ni$eles a sus pro$eedores o segAn su condicin/ a sus socios de negocio6 Como los data 0arehouses continAan creciendo en sofisticacin uso/ los datos acumulados dentro de una empresa llegar9n a ser m9s organi.ados/ m9s interconectados/ m9s accesi%les / en general/ m9s disponi%les a m9s empleados6 El resultado ser9 la o%tencin de me,ores decisiones en el negocio/ m9s oportunidades m9s claridad de tra%a,o6 Confia%ilidad de los Datos 8a data FsuciaF es peligrosa6 8as herramientas de limpie.a especiali.adas las formas de programar de los clientes proporcionan redes de seguridad6 #o importa cmo est7 dise2ado un programa o cu9n h9%ilmente se use6 Si se alimenta mala informacin/ se o%tendr9 resultados incorrectos o falsos6 Desafortunadamente/ los datos que se usan satisfactoriamente en las aplicaciones de lnea comercial operacionales pueden ser %asura en lo que concierne a la aplicacin data 0arehousing6

8os datos FsuciosF pueden presentarse al ingresar informacin en una entrada de datos 'por e,emplo/ FSistemas S6 A6F en lugar de FSistemas S6 A6F) o de otras causas6 Cualquiera que sea/ la data sucia da2a la credi%ilidad de la implementacin del depsito completo6 A continuacin/ en la -igura #C D; se muestra un e,emplo de formato de $entas en el que se pueden presentar errores6 Afortunadamente/ las herramientas de limpie.a de datos pueden ser de gran a uda6 En algunos casos/ puede crearse un programa de limpie.a efecti$o6 En el caso de %ases de datos grandes/ imprecisas e inconsistentes/ el uso de las herramientas comerciales puede ser casi o%ligatorio6

Decidir qu7 herramienta usar es importante no solamente para la integridad de los datos6 Si se equi$oca/ se podra malgastar semanas en recursos de programacin o cientos de miles de dlares en costos de herramientas6 8a limpie.a de una data FsuciaF es un proceso multifac7tico pasos a seguir son los siguientes> comple,o6 8os

1. Anali.ar sus datos corporati$os para descu%rir ine&actitudes/

anomalas otros pro%lemas6 2. Transformar los datos para asegurar que sean precisos coherentes6 3. Asegurar la integridad referencial/ que es la capacidad del data 0arehouse/ para identificar correctamente al instante cada o%,eto del negocio/ tales como un producto/ un cliente o un empleado6 4. Validar los datos que usa la aplicacin del data 0arehouse

X D;;O?E<<H/ +rogramacin en castellano/ s6l6 (antenida por> Claudio Daniel6 +J+ en castellano6

Vous aimerez peut-être aussi