Ing. Mario R. Morales, MBA Universidad Central del Ecuador Abril 2014 Captulo V Componentes del Business Intelligence 31/05/2014 Ing. Mario R. Morales, MBA 2 Ing. Mario R. Morales, MBA Contenido del captulo Componentes de BI: Fuentes de informacin !rocesos E"# $ata%are&ouse 'erramientas de Business Intelligence( Ing. Mario R. Morales, MBA Componentes del BI Fuentes de informacin $e los cuales se parte para alimentar al datawarehouse. Proceso ETL $e e)traccin* transformacin + carga de los datos en el data%are&ouse( Antes de almacenarlos* ,stos debe ser transformados* limpiados* filtrados + redefinidos( #a informacin transaccional usualmente no est- preparada para la toma de decisiones( 31/05/2014 Ing. Mario R. Morales, MBA 3 Ing. Mario R. Morales, MBA Componentes del BI Datawareouse !almac"n de datos#. Inclu+e el .etadata o diccionario de datos( /e debe buscar en ,l la m-)ima fle)ibilidad* facilidad de acceso + administracin( Motor $LAP !$nline Anal%tical Processing# !rovee capacidad de c-lculo* consultas* funciones de planeamiento* pronstico + an-lisis de escenarios en grandes vol0menes de datos( En la actualidad e)isten otras alternativas tecnolgicas al 1#A! 2ue se ver-n m-s adelante( &erramientas de 'isuali(acin !ermiten el an-lisis + navegacin En un pro+ecto real se debe definir primero cu-les son los ob3etivos + el alcance de la solucin* 2u, modelos de negocio se 2uiere anali4ar( Con esta informacin es muc&o m-s f-cil tomar las decisiones necesarias en cada uno de los componentes(( Ing. Mario R. Morales, MBA Fuentes de Informacin #as fuentes de informacin a las 2ue se puede acceder son: B-sicamente* de los sistemas operacionales o transaccionales* 2ue inclu+en aplicaciones desarrolladas a medida* E5!* C5.* /C.* etc( /istemas de informacin departamentales: previsiones* presupuestos* &o3as de c-lculo* etc,tera( Fuentes de informacin e)terna* en algunos casos compradas a terceros )om*onentes del BI 31/05/2014 Ing. Mario R. Morales, MBA 4 Ing. Mario R. Morales, MBA Fuentes de Informacin Factores cr6ticos al cargar informacin en un $7: 80mero de fuentes de informacin distintas En grandes corporaciones se estima en una media de 9 B$ + en algunos casos puede llegar a :0( $istintas B$ re2uieren m0ltiples &abilidades t,cnicas( !otencialmente* las definiciones + codificaciones pueden ser diferentes( Es probable 2ue los componentes del sistema de informacin no sean consistentes a trav,s de las distintas aplicaciones* e incluso 2ue no est,n integradas( Usualmente la informacin 2ue se carga a un $7 es estructurada ;se puede almacenar en tablas<= sin embargo cada ve4 + con ma+or frecuencia se re2uiere traba3ar con informacin no estructurada ;correos* cartas* informes* videos* redes sociales< +a 2ue son cr6ticas para la creacin de nuevas oportunidades de negocio( Ing. Mario R. Morales, MBA Fuentes de Informacin Es clave identificar las fuentes apropiadas de informacin: en ,stas se debe anali4ar los formatos, la dis*oni+ilidad % la calidad de informacin( En ocasiones* la falta de alguna de estas caracter6sticas obliga a modificar las aplicaciones transaccionales( 31/05/2014 Ing. Mario R. Morales, MBA 5 Ing. Mario R. Morales, MBA Fuentes de Informacin Calidad de datos /i en el $7 &a+ errores* ,stos se propagar-n a lo largo de la organi4acin ;+ ser- mu+ dif6cil locali4arlos<( !ueden ocasionar 2ue se tomen decisiones errneas + afecten el resultado de la organi4acin( #os costes por mala calidad de datos pueden llegar a ser mu+ elevados( #os errores en los datos pueden provenir de los sistemas transaccionales de los 2ue se recuperan los datos* del proceso E"#* o del propio data%are&ouse( El pro+ecto de BI puede desprestigiarse + de3ar de ser confiable para los usuarios( >#as organi4aciones act0an ba3o la suposicin de 2ue la informacin de la 2ue disponen es precisa + v-lida( /i la informacin no es v-lida* entonces no pueden responder de las decisiones basadas en ella(? Business Intelligence Network Ing. Mario R. Morales, MBA Fuentes de Informacin Calidad de datos /e deben establecer procesos de control o con3unto de controles ;manuales o automati4ados< 2ue localice los errores en datos + no permita la carga en el $7( .uc&os errores pueden &aberse originado en los mismos sistemas transaccionales( 8o es una buena opcin corregirlos en el proceso E"# + no modificar las aplicaciones origen( Esta alternativa es muc&o m-s r-pida inicialmente* pero muc&o m-s costosa a largo pla4o( "ambi,n se pueden producir errores en el proceso de E"# o al integrarlos en el $7( >A lo largo de 200@* m-s del :0A de los pro+ectos de data%are&ouse e)perimentar-n una aprobacin limitada* si no un pleno fracaso* +a 2ue no &abr-n actuado proactivamente sobre la calidad de los datos(? Ted Friedman, Gartner Group 31/05/2014 Ing. Mario R. Morales, MBA 6 Ing. Mario R. Morales, MBA ETL Contenido: 5esumen de !rocesos del E"# Actuali4acin E)traccin #impie4a Factores incidentes Eapas para la limpie4a "ransformacin Integracin Actuali4acin Caracter6sticas de las 'erramientas E"# Ing. Mario R. Morales, MBA Fuentes de Informacin Calidad de datos !untos de control: en la carga* la auditor6a + reconciliacin* + por los usuarios de BI( Este proceso nos puede a+udar a me3orar nuestros sistemas transaccionales* corregir errores en el $7* me3orar el proceso E"# o incluso me3orar los modelos de negocio por parte de los usuarios de BI( /e debe entender 2ue la problem-tica de la calidad de datos no es un problema de los departamentos de "I* sino uno estrat,gico al 2ue se debe asignar ob3etivos* recursos + planificacin( 31/05/2014 Ing. Mario R. Morales, MBA 7 Ing. Mario R. Morales, MBA Fuentes de Informacin Calidad de datos Bu, problemas puede generar la mala calidad de datosC: "iempo e)tra para reconciliar los datos ;9@A<( !erdida de credibilidad en el sistema ;91A<( Costes e)tra* por e3emplo duplicidades en mailing ;@2A<( Insatisfaccin de clientes ;D@A<( 5etrasos en el desarrollo de nuevos sistemas ;D4A<( !,rdidas de ingresos ;:4A<( !roblemas de conformidad ;E9A<( 1tros ;:A<( Bu, beneficios puede aportar la calidad de datosC /imple versin de la verdad ;1FA<( Incrementos en la satisfaccin de los clientes ;1FA<( .a+or confian4a en los sistemas de an-lisis ;1@A<( 5educcin de costes ;1EA<( .enor tiempo para reconciliar los datos ;12A<( Incremento de ingresos ;FA<( 1tros ;12A<( "$7I* 5eport /eries: >$ata Bualit+ and t&e Bottom #ine?* por 7a+ne 7( EcGerson* 2002( Ing. Mario R. Morales, MBA Fuentes de Informacin Calidad de datos Caracter6sticas 2ue deber6an tener los datos para cumplir una buena calidad: ,. Precisin: H5epresentan los datos con precisin una realidad o una fuente de datos 2ue se pueda verificarC -. Integridad: H/e mantienen constantemente la estructura de los datos + las relaciones a trav,s de las entidades + los atributosC .. )oerencia: H/on los elementos de datos constantemente definidos + comprendidosC /. Totalidad: HEst-n todos los datos necesariosC 0. 1alide(: H/on los valores aceptables en los rangos definidos por el negocioC 2. Dis*oni+ilidad: HEst-n los datos disponibles cuando se necesitanC 3. Accesi+ilidad: H/e puede acceder a los datos f-cil + comprensiblementeC 31/05/2014 Ing. Mario R. Morales, MBA 8 Ing. Mario R. Morales, MBA Fuentes de Informacin Calidad de datos #os problemas de calidad de datos son un problema de negocio* no de "I( #as recomendaciones 2ue se deber6an seguir para me3orar la calidad de los datos son: Conocer los datos es la clave para el ,)ito en muc&os negocios e iniciativas de tecnolog6a: 5eali4ar una auditor6a inclu+endo una evaluacin de la calidad( Conocer dnde est-n los datos + su nivel de calidad( Incluir la calidad de los datos en la estrategia de metadata( Establecer un programa formal de calidad de datos: Construir el acuerdo para aplicarla en toda la gestin de las fuentes de datos( Establecer acciones de calidad de datos en la gestin de la informacin de la organi4acin( $esarrollar las &abilidades necesarias + organi4ar un e2uipo* tanto a nivel de los usuarios de negocio como de los de tecnolog6a( >!oorIBualit+ $ata: "&e /ure 7a+ to #ose Business and Attract Auditors?* Andreas Bitterer* Jartner* 200D( Ing. Mario R. Morales, MBA Fuentes de Informacin Calidad de datos ;((< $efinir las pol6ticas + las m,tricas de la calidad de datos: $efinir los est-ndares de direcciones* como calcular el beneficio* los ingresos* etc( Establecer + usar m,tricas para alcan4ar la calidad de los datos( Implementar tecnolog6as de calidad de datos* reconociendo 2ue tan slo son una parte de la solucin( 31/05/2014 Ing. Mario R. Morales, MBA 9 Ing. Mario R. Morales, MBA Proceso de extraccin, transformacin y cara !ETL" Este proceso trata de recuperar los datos de las fuentes de informacin + alimentar el $7( Usualmente este proceso puede consumir entre el D0A + 90A del tiempo de un pro+ecto BIK( Esta parte del proceso es costosa + consume significativos recursos* estrategia* &abilidades especiali4adas + tecnolog6as( E"# es necesario para acceder a los datos de las fuentes de informacin al $7( E"# K >Evaluating E"# and $ata Integration !latforms?* por 7a+ne EcGerson + Colin 7&ite* "$7I 5eport /eries* 200E Ing. Mario R. Morales, MBA Proceso ETL El proceso E"# se divide en : subprocesos: ,. E4traccin: Este proceso recupera los datos f6sicamente de las distintas fuentes de informacin( En este momento se dispone de los datos en bruto( -. Lim*ie(a: Este proceso recupera los datos en bruto + comprueba su calidad* elimina los duplicados +* cuando es posible* corrige los valores errneos + completa los valores vac6os* es decir se transforman los datos Isiempre 2ue sea posibleI para reducir los errores de carga( En este momento se dispone de datos limpios + de alta calidad( .. Transformacin: Este proceso recupera los datos limpios + de alta calidad + los estructura + sumari4a en los distintos modelos de an-lisis( El resultado de este proceso es la obtencin de datos limpios* consistentes* sumari4ados + 0tiles( 31/05/2014 Ing. Mario R. Morales, MBA 10 Ing. Mario R. Morales, MBA Proceso ETL ;L< /. Integracin: Este proceso valida 2ue los datos 2ue se cargan en el $7 son consistentes con las definiciones + formatos del mismo= los integra en los distintos modelos de las distintas -reas de negocio 2ue se &an definido en el $7( Estos procesos pueden ser comple3os( 0. Actuali(acin: Este proceso es el 2ue permite aMadir los nuevos datos al $7( Ing. Mario R. Morales, MBA Proceso ETL #etalles E4traccin( /e puede reali4ar de forma manual o utili4ando &erramientas automati4adas de E"#( .anual: programar rutinas utili4ando lengua3es de programacin( Automati4adas: a trav,s de &erramientas especiali4adas E"# diseMadas para esta funcin( !ermiten visuali4ar el proceso + detectar errores durante la carga( Cada ve4 m-s los motores de B$ tienen funcionalidades E"#( !rincipales problemas 2ue podemos encontrar al e)traer los datos 31/05/2014 Ing. Mario R. Morales, MBA 11 Ing. Mario R. Morales, MBA Proceso ETL #etalles E4traccin ;((<: El principal ob3etivo de la e)traccin es e)traer tan slo a2uellos datos de los sistemas transaccionales 2ue son necesarios + prepararlos para el resto de los subprocesos de E"#( !ara ello es necesario determinar las me3ores fuentes de informacin con la me3or calidad de datos( 8ormalmente se &abla de almacenes de datos intermedios ;$ata staging< mientras se est- en el proceso de limpie4a de los datos( /e trata de un paso intermedio entre la e)traccin + las etapas posteriores: se acumula datos de distintas fuentes* en un momento determinado todos estos datos se cargar-n en el $7( #os usuarios finales nunca acceden a este entorno( Ing. Mario R. Morales, MBA Proceso ETL #etalles Lim*ie(a: Usualmente los sistemas transaccionales contienen datos 2ue no &an sido depurados + 2ue deben ser limpiados( #as &erramientas E"# traen funcionalidades para limpie4a de datos* aun2ue en la actualidad e)isten aplicaciones especiali4adas( Un $7 2ue tiene informacin >sucia? puede generar desconfian4a en los usuarios* a tal punto 2ue puede cuestionarse la valide4 del modelo( 31/05/2014 Ing. Mario R. Morales, MBA 12 Ing. Mario R. Morales, MBA Proceso ETL #etalles $ Limpie%a Factores 2ue inciden para 2ue los datos no est,n limpios: Nalores por defecto: en la ca3a no saben la referencia de un producto e introducen el cdigo FFF + el precio a mano( Ausencia de valor( Campos 2ue tienen distintas utilidades: para algunos clientes ponemos una informacin + para otros* otra distinta( Nalores cr6pticos( Nalores contradictorios( ;((< Uso inapropiado de los campos* por e3emplo en las direcciones de los clientes( Nulneracin de las reglas de negocio( 5eutili4acin de claves primarias con valores 2ue se &ab6an utili4ado en el pasado( Identificadores 2ue no son 0nicos( !roblemas de carga de antiguos sistemas o de integracin entre sistemas( /eleccin del primer valor de una lista por defecto( Ing. Mario R. Morales, MBA Proceso ETL #etalles $ Limpie%a Eta*as *ara Lim*ie(a de Datos5 $epurar los valores ;!arsing<: Este proceso locali4a e identifica los elementos individuales de informacin en las fuentes de datos + los a6sla en los fic&eros destino( !or e3emplo: separar el nombre completo en nombre* primer apellido* segundo apellido* o la direccin en: calle* numero* piso* etc,tera( Corregir ;Correcting<: Este proceso corrige los valores individuales de los atributos usando algoritmos de correccin + fuentes de datos e)ternas( !or e3emplo: comprueba una direccin + el cdigo postal correspondiente( Estandari4ar ;/tandardi4ing<: Este proceso aplica rutinas de conversin para transformar valores en formatos definidos ;+ consistentes< aplicando procedimientos de estandari4acin + definidos por las reglas del negocio( !or e3emplo: trato de /r(* /ra(* etc( o sustitu+endo los diminutivos de nombres por los nombres correspondientes( E3emplo: clasificar en rangos et-reos 31/05/2014 Ing. Mario R. Morales, MBA 13 Ing. Mario R. Morales, MBA Proceso ETL #etalles $ Limpie%a Eta*as *ara Lim*ie(a de Datos5 5elacionar ;.atc&ing<: Este proceso busca + relaciona los valores de los registros* corrigi,ndolos + estandari4-ndolos* bas-ndose en reglas de negocio para eliminar duplicados( !or e3emplo: identificando nombres + direcciones similares Consolidar ;Consolidating<: Este proceso anali4a e identifica relaciones entre registros relacionados + los 3unta en una sola representacin( Ing. Mario R. Morales, MBA Proceso ETL #etalles Transformacin: /e lo &ace partiendo de los datos una ve4 >limpios?( /e transforma los datos de acuerdo con las reglas de negocio + los est-ndares establecidos por la organi4acin( #a transformacin inclu+e: cambios de formato* sustitucin de cdigos* valores derivados + agregados( #os agregados* como por e3emplo la suma de las ventas* normalmente se precalculan + se almacenan para conseguir ma+ores rendimientos cuando se lan4a las consultas 2ue re2uieren el c-lculo de totales al $7( En este proceso tambi,n se a3usta el nivel de granularidad o detalle( /e puede tener detalle a nivel de l6neas de factura en los datos e)tra6dos* pero en el $7 lo 2ue se almacena son las ventas semanales o mensuales( 31/05/2014 Ing. Mario R. Morales, MBA 14 Ing. Mario R. Morales, MBA Proceso ETL #etalles Integracin: #a 0ltima etapa es la de integracin en el $7: es el momento en el 2ue se carga los datos + se debe comprobar si* por e3emplo* los totales de ventas 2ue se &an cargado coinciden con la informacin 2ue resid6a en el sistema transaccional* as6 como si los valores 2ue tienen los registros cargados corresponden a los definidos en el $7( Es fundamental comprobar 2ue se &a desarrollado correctamente* +a 2ue en caso contrario pueden llevar a decisiones errneas a los usuarios( Actuali(acin5 Este proceso determina la periodicidad con el 2ue se &ar- nuevas cargas de datos al $7( Ing. Mario R. Morales, MBA Proceso ETL &erramientas #as &erramientas E"# son claves en los pro+ectos de BI( El mercado demanda &erramientas E"# m-s completas + con m-s funcionalidades* 2ue aceleren la e)traccin + carga de datos* 2ue puedan acceder a diversos formatos + fuentes de datos* 2ue soporten ma+or comple3idad + 2ue se acer2uen a cargas en tiempo realK( /eg0n el estudio de "$7I* las &erramientas E"# deber6an contar con: Dise6o gr7fico: Entorno 2ue permite a los desarrolladores establecer la relacin entre las fuentes de datos* las transformaciones* los procesos + las tareas para desarrollar la carga( #os diseMos se deben almacenar en un repositorio .etadata( K Evaluating E"# and $ata Integration !latforms?* por 7a+ne EcGerson + Colin 7&ite* "$7I 5eport /eries* 200E 31/05/2014 Ing. Mario R. Morales, MBA 15 Ing. Mario R. Morales, MBA Proceso ETL &erramientas ;((< 8estin del Metadata: !roveer un repositorio donde definir* documentar + gestionar la informacin del proceso E"# + su e3ecucin( El .etadata deber6a ser accesible tambi,n desde otras aplicaciones( E4traccin: E)traccin de la informacin mediante conectores* como 1$BC* /B# nativos de los distintos motores de bases de datos o fic&eros planos( #os conectores deber6an acceder al .etadata para determinar 2u, informacin e)traer + cmo( Transformacin: $eber6an proveer de librer6as de transformacin 2ue permitan a los desarrolladores transformar los datos origen en los destino con las nuevas estructuras + crear las tablas de agregacin para me3orar el rendimiento( )arga: Utili4ar adaptadores para poder insertar o modificar los datos en el $7( 9er'icios de trans*orte: #as &erramientas E"# utili4an las redes + sus protocolos ;por e3emplo: F"!< para mover los datos entre las distintas fuentes + los sistemas destino( Ing. Mario R. Morales, MBA Proceso ETL &erramientas ;((< Administracin % o*eracin: #as &erramientas E"# deben permitir a los administradores programar* e3ecutar + monitori4ar los traba3os de E"#* los resultados* gestionar los errores* recuperar los fallos + reconciliar los resultados con los sistemas originales( 31/05/2014 Ing. Mario R. Morales, MBA 16 Ing. Mario R. Morales, MBA Proceso ETL &erramientas Algunas de las m-s populares &erramientas + aplicaciones E"# del mercado: IB. 7ebsp&ere $ata/tage ;anteriormente Ascential $ata/tage + Ardent $ata/tage< Informatica !o%erCenter /A/ E"# /tudio Business1b3ects $ata Integrator ;B1$I< Cognos $ecisionstream !enta&o $ata Integration ;Oettle E"#< P ;1pen /ource< BliGNie% E)pressor 1racle 7are&ouse Builder Ab Initio .icrosoft /B# /erver Integration /ervices ;//I/< Ing. Mario R. Morales, MBA Proceso ETL &erramientas 31/05/2014 Ing. Mario R. Morales, MBA 17 Ing. Mario R. Morales, MBA #ata'are(ouse Contenido: $efinicin Errores comunes al e)traer informacin !rincipales caracter6sticas 1b3etivos de un $7 $atamarts Construccin de un $7 Factores de evaluacin Jestin del $7 Beneficios Ing. Mario R. Morales, MBA #ata)are(ouse o *lmac+n de datos Cuando se 2uiere anali4ar un problema empresarial* normalmente la informacin proviene de diferentes sistemas= pero se re2uiere 2ue est, en un mismo entorno para facilitar su an-lisis( #os sistemas transaccionales no suelen tener la data preparada para ob3etivos de an-lisis( 31/05/2014 Ing. Mario R. Morales, MBA 18 Ing. Mario R. Morales, MBA #ata)are(ouse o *lmac+n de datos Bu, esC Es un gran almac,n de datos espec6ficamente estructurada para consultas( Es un repositorio de datos de mu+ f-cil acceso* alimentado de numerosas fuentes* transformadas en grupos de informacin sobre temas espec6ficos de negocios* para permitir nuevas consultas* an-lisis* toma de decisiones( "iene gran capacidad de almacenamiento* pues los datos pueden ser de grandes periodos de tiempo( #os datos contenidos son menos detallados + de m-s larga vida 2ue en sistemas 1#"!( Usualmente los datos son totali4ados + tienen larga vida( Ing. Mario R. Morales, MBA #ata)are(ouse o *lmac+n de datos Uno de los errores m-s comunes es el de e)traer la informacin de los sistemas transaccionales + llevarlos &acia &o3as de c-lculo( /in embargo* esto trae una serie de desventa3as tales como: Al introducir la informacin proveniente de distintos sistemas se puede cometer errores( /e debe invertir una cantidad de tiempo considerable en la introduccin de la informacin( Cada ve4 2ue se 2uiera &acer el an-lisis ;por e3( de ventas< se debe repetir el proceso( /i se necesita m-s detalle de las ventas* probablemente no se dispone del mismo + 2ui4-s se responda 2ue llevar6a muc&o tiempo introducir toda la informacin a nivel de detalle( #os usuarios finales no siempre saben dnde reside la informacin 2ue necesitan Cuando se &aga las consultas para e)traer la informacin del entorno transaccional* se penali4a el rendimiento de las aplicaciones( Cuando se produ4can modificaciones en el sistema transaccional* se debe actuali4ar la &o3a de c-lculo( Cada uno de los usuarios de informacin 2uerr- los informes con un diseMo determinado: !ueden aparecer >entornos paralelos? de informacin( /i no &a+ un acuerdo com0n* es posible 2ue se tenga distintas versiones de una misma realidad ;e3( #a cifra de ventas de uno de los informes igual no coincide con la de otro( 31/05/2014 Ing. Mario R. Morales, MBA 19 Ing. Mario R. Morales, MBA #ata)are(ouse o *lmac+n de datos #os $7 deben almacenar la informacin consistente* integrada* &istrica + preparada para ser anali4ada para la toma de decisiones( Una definicin de datawarehouse es la proporcionada por 'ug& Q( 7atsonK: >Un data%are&ouse es una coleccin de informacin creada para soportar las aplicaciones de toma de decisiones? "ambi,n define al concepto de data%are&ousing* es decir* la accin de construir dat%are&ouses + utili4ar su informacin: >$ata%are&ousing es el proceso completo de e)traer informacin* transformarla + cargarla en un data%are&ouse + el acceso a esta informacin por los usuarios finales + las aplicaciones? /eg0n Bill InmonKK* defini las siguientes como caracter6sticas 2ue debe cumplir un $7: 1rientado sobre un -rea* integrado* inde)ado al tiempo* es un con3unto no vol-til de informacin 2ue soporta la toma de decisiones K 5ecent $evelopments in datawarehousing: A "utorial?* disponible en la %eb: &ttp:RR%%%(terr+(uga(eduRS&%atsonRd%Ttutorial(ppt* agosto 200D( KK Building t&e datawarehouse? ;1U edicin<* Inmon* 7('(* BE$ !ress* 8e% VorG* 1FF2 Ing. Mario R. Morales, MBA #ata)are(ouse caractersticas An-lisis de cada una de las caracter6sticas: >1rientado a un -rea? significa 2ue cada parte del $7 est- construida para resolver un problema de negocio* 2ue &a sido definido por los tomadores de decisiones( !or e3emplo: Entender los &-bitos de compra de los clientes* anali4ar la calidad de los productos* anali4ar la productividad de una l6nea de fabricacin* etc( !ara poder anali4ar un problema de negocio se necesita informacin 2ue proviene de distintos sistemas + se la organi4a entorno a -reas: ventas* clientes* elementos de transporte* etc( !rovee a los tomadores de decisiones de una visin completa + concisa sobre una problem-tica de negocio* obviando toda a2uella informacin 2ue no necesitan para la toma de decisiones( 31/05/2014 Ing. Mario R. Morales, MBA 20 Ing. Mario R. Morales, MBA #ata)are(ouse caractersticas An-lisis de cada una de las caracter6sticas: >Integrado?: #a informacin debe ser transformada en medidas comunes* cdigos comunes + formatos comunes para 2ue pueda ser 0til( Integra todos los sistemas operacionales en un sistema de informacin( #a integracin permite a las organi4aciones implementar la estandari4acin de sus definiciones* por e3emplo: #a moneda en la 2ue est-n e)presados los importes es com0n( Inde)ado en el tiempo significa 2ue se mantiene la informacin &istrica + se almacena referida a determinadas unidades de tiempo tales como &oras* d6as* semanas* meses* trimestres o aMos( Ello permitir- anali4ar* por e3emplo* la evolucin de las ventas en los periodos 2ue se re2uiera( !ermite an-lisis comparativos de estados actuales + de periodos anteriores( Ing. Mario R. Morales, MBA #ata)are(ouse caractersticas An-lisis de cada una de las caracter6sticas: >8o vol-til?: significa 2ue los usuarios no la mantienen* como lo &ar6an en los entornos transaccionales( #a informacin se almacena para la toma de decisiones( 8o se va actuali4ando continuamente* sino peridicamente* de forma preestablecida( 31/05/2014 Ing. Mario R. Morales, MBA 21 Ing. Mario R. Morales, MBA #ata)are(ouse o,-eti.os /eg0n 5alp Oimbal* define a los siguientes como ob3etivos 2ue deber6a cumplir un $7K: El $7 da acceso a la informacin de la corporacin o del -rea funcional( El alcance del $7 puede ser bien un departamento o bien corporativo( #a informacin del $7 es consistente( #a informacin en el $7 puede ser separada + combinada para anali4ar cada una de las posibles medidas del negocio( El $7 no es slo informacin sino tambi,n las &erramientas de consulta* an-lisis + presentacin de la informacin( Es el lugar donde se publica la informacin( #a calidad de la informacin en el $7 es el motor del business reengineering. K >"&e datawarehouse "oolGit(? 5alp& Oimball( 7ile+* 1FFD( Ing. Mario R. Morales, MBA #ata)are(ouse #ata /art #os $7 se representan &abitualmente como una gran base de datos* pero pueden estar distribuidos en distintas bases de datos( El traba3o de construir un $7 corporativo puede generar infle)ibilidades* o ser costoso + re2uerir pla4os de tiempo 2ue las organi4aciones no est-n dispuestos a aceptar( >$escubres el valor real de un data%are&ouse cuando alguien puede encontrar los detalles importantes en la informacin* + te dice algo 2ue puede generar la diferencia(? The Foundations of Wisdom: !tud" of the Financial Impact of datawarehousing#, B" I$%, &''( 31/05/2014 Ing. Mario R. Morales, MBA 22 Ing. Mario R. Morales, MBA #ata)are(ouse #ata /art Algunas de estas ra4ones &an originado la aparicin de los $ata .art( #os $ata .art est-n dirigidos a una comunidad de usuarios dentro de la organi4acin* 2ue puede estar formada por los miembros de un departamento* o por los usuarios de un determinado nivel organi4ativo* o por un grupo de traba3o multidisciplinario con ob3etivos comunes( #os $ata .art almacenan informacin de un n0mero limitado de -reas= por e3emplo* pueden ser de marGeting + ventas o de produccin( 8ormalmente se definen para responder a usos mu+ concretos( 8ormalmente* los $ata .art son m-s pe2ueMos 2ue los $7( "ienen menos cantidad de informacin* menos modelos de negocio + son utili4ados por un n0mero inferior de usuarios( Ing. Mario R. Morales, MBA #ata)are(ouse #ata /art #os $ata .art pueden ser independientes o dependientes( #os primeros son alimentados directamente de los or6genes de informacin( #os segundos se alimentan desde el $7 corporativo( #os $ata .art independientes pueden perpetuar el problema de los >silos de informacin? + en su evolucin pueden llegar a generar inconsistencias con otros $ata .art( En los dependientes* sus $7 de origen poseen dimensiones predefinidas a ser usadas por m0ltiples $.= esto crea dependencia entre ellos + facilita la integracin( 31/05/2014 Ing. Mario R. Morales, MBA 23 Ing. Mario R. Morales, MBA #ata)are(ouse #ata /art $. independientes: .0ltiples -reas o departamentos constru+en sus $. para satisfacer necesidades aisladas( Esta opcin puede ser apropiada si no se interact0a entre a2uellas -reas( Jenera dificultad en la posterior integracin Incrementa costos si se re2uiere integracin #os $. creados en forma independiente generalmente deben ser reconstruidos con una gu6a de diseMo dimensional antes de ser integrados en un $ata7are&ouse( Ing. Mario R. Morales, MBA #ata)are(ouse Construccin /e &an definido dos estrategias b-sicas: #a defendida por 7('( Inmon* 2ue propone definir un $7 corporativo + a partir de ,l ir constru+endo los modelos de an-lisis para los distintos niveles + departamentos de la organi4acin= es decir* una estrategia de arriba aba3o* desde la estrategia a lo m-s operativo( #a defendida por 5( Oimball es la de construir distintos $ata .arts 2ue cubran las distintas necesidades de la organi4acin* sin la necesidad de construir un $7( Como afirma el !rofesor 'ug& Q( 7atson* cuando se desarrollan correctamente* las dos estrategias son v-lidas( 31/05/2014 Ing. Mario R. Morales, MBA 24 Ing. Mario R. Morales, MBA #ata)are(ouse Construccin Estrategia del $7 corporativoK: El $7 es desarrollado en fases + cada una de las mismas debe ser diseMada para generar valor para el negocio( /e constru+e un $7 corporativo* del 2ue se cuelga un $ata .art dependiente con una parte de la informacin del $7( En fases posteriores se van desarrollando $ata .arts usando subcon3untos del $7( Igual 2ue los pro+ectos comple3os* es caro* necesita muc&o tiempo + es propenso al fracaso( Cuando tenemos ,)ito conseguimos un $7 integrado + escalable( >Four 7a+s to Build a datawarehouse?* por 7a+ne EcGerson* $irector de investigacin de "&e datawarehouse Institute( Ing. Mario R. Morales, MBA #ata)are(ouse Construccin Estrategia del $ata.art: Es la m-s com0n( El pro+ecto comien4a con un $ata .art 0nico al 2ue posteriormente se ir-n aMadiendo otros $ata .arts 2ue cubrir-n otras -reas de negocio( 8ormalmente no re2uiere de grandes inversiones + es m-s f-cil de implementar* aun2ue conlleva algunos riesgos= de entre ellos* cabe destacar fundamentalmente dos: puede perpetuar la e)istencia del problema de >silos de informacin? + posponer la toma de decisiones 2ue conciernen a la definicin de criterios + modelos de negocio( /i se sigue esta estrategia se debe tener claro el plan de accin* es decir* 2u, -reas se cubrir-n + la integracin de los distintos modelos( Esta estrategia se utili4a a veces como un paso previo al desarrollo de un $7 corporativo( 31/05/2014 Ing. Mario R. Morales, MBA 25 Ing. Mario R. Morales, MBA #ata)are(ouse Construccin $ Etapas Considerar las siguientes etapas en su construccin: 1( Captura de datos( !rovienen de fuentes seleccionadas ;pueden ser estructuradas como B$ o no estructuradas como fuentes e)cel* documentos* otros<( 2( "ratamiento* conversin + transformacin de los datos( #os denominados procesos E"#( Implican operaciones de limpie4a* &omogeni4acin* etc( /e debe considerar lo siguiente: $etectar + corregir errores ;duplicados* eliminar valores sin sentido<( Consistencia del uso de valores ;codificacin similar para valores e2uivalente* e3emplo ddRmmRaaaa<( "ratamiento de la ausencia de valores ;default<( Codificar campos ;e3( de fec&as de nacimiento a rangos et-reos< 5eestructurar + aMadir nuevos campos ;enri2uecer al sistema< Ing. Mario R. Morales, MBA #ata)are(ouse Construccin Un componente cr6tico del $7 es el .etadata ;datos 2ue describen otros datos<: El .etadata es el repositorio central de informacin de la informacin( $a el significado de cada uno de los componentes + sus atributos 2ue residen en el $7 ;o $ata .art<( #a informacin 2ue contiene el .etadata es 0til para los departamentos de tecnolog6a + los propios usuarios( !uede incluir definiciones de negocio* descripciones detalladas de los tipos de datos* formatos + otras caracter6sticas( El personal de los departamentos de "ecnolog6a necesita saber los or6genes de la informacin: bases de datos de las 2ue se obtienen los datos* 2u, transformaciones se reali4an* criterios de filtros de informacin* nombre de las columnas + de las tablas* pla4os de carga* utili4acin* etc,tera( #os usuarios necesitan saber las entidades + sus atributos* cmo &an sido calculados* 2ui,nes son los responsables de los datos* los informes disponibles* los flu3os de distribucin de la informacin* etc,tera( 31/05/2014 Ing. Mario R. Morales, MBA 26 Ing. Mario R. Morales, MBA #ata)are(ouse Construccin ;((< #a construccin del .etadata supone 2ue se defina el significado de cada una de las tablas + cada uno de los atributos 2ue se cargan en el $7( Este es un punto comple3o de todo pro+ecto* +a 2ue obliga a 2ue se definan los conceptos de negocio + se &omogenicen entre los distintos departamentos* filiales* etc( 1bliga a 2ue todos los componentes de la organi4acin &ablen utili4ando la misma terminolog6a + con el mismo significado* lo cual no siempre es sencillo( !or e3( Cuando alguien &able de >margen bruto? o >margen de contribucin? deber- estar absolutamente definido para la organi4acin( Evidentemente* organi4aciones distintas tendr-n normalmente definiciones distintas( 1tro e3emplo es en una biblioteca donde se usan fic&as 2ue especifican autores* t6tulos* casas editoriales + lugares para buscar libros( As6* los metadatos a+udan a ubicar datos( Ing. Mario R. Morales, MBA #ata)are(ouse Factores de e.aluacin #os factoresK 2ue se deber6an tener en cuenta cuando se est- evaluando una alternativa tecnolgica para la construccin de un $7 son: "amaMo del $7 : es el volumen de datos 2ue contiene el $7( Comple3idad de los es2uemas de datos: si el modelo de datos es comple3o* puede dificultar la optimi4acin + el rendimiento de las consultas( 80mero de usuarios concurrente: ,ste es un factor determinante( /i distintos usuarios pueden lan4ar consultas concurrentes ;a la ve4<* el $7 debe gestionar sus recursos para poder dar respuesta a las distintas consultas( Comple3idad de las consultas: si las consultas necesitan acceder a un n0mero elevado de tablas + los c-lculos a reali4ar son comple3os* se puede poner en dificultades al motor de la base de datos del $7( >"&e C&allenges of Implementing a datawarehouse to Ac&ieve Business Agilit+?* de Oevin /trange* Jartner*2001( 31/05/2014 Ing. Mario R. Morales, MBA 27 Ing. Mario R. Morales, MBA #ata)are(ouse 0estin Jestin del $7: #os usuarios de negocio necesitan tomar decisiones basadas en la informacin de los $7* por lo 2ue debemos asegurar: Alta disponibilidad( 5endimiento( Copias de seguridad + recuperacin( 5ecuperacin f6sica en caliente( Ing. Mario R. Morales, MBA #ata)are(ouse Beneficios !ermiten mane3ar tendencias* construir patrones + descubrir relaciones( !osibilitan situar a la organi4acin con venta3as estrat,gicas respecto de sus competidores( !osibilita el acceso a datos e informacin a todos los niveles de la empresa( Entrega informacin consistente( !ermite reali4ar an-lisis en forma -gil + r-pida( !osibilita descubrir problemas en la organi4acin o en sus procesos( !uede detectar ausencia de informacin para procesos clave( !rovee al nivel directivo de la informacin necesaria para la toma de decisiones( 31/05/2014 Ing. Mario R. Morales, MBA 28 Ing. Mario R. Morales, MBA 'erramientas de Business Intelligence Ing. Mario R. Morales, MBA &erramientas de BI En este componente se debe anali4ar las tecnolog6as 2ue permitir-n tratar + visuali4ar la informacin 2ue reside en un $7( #os usuarios necesitan anali4ar informacin a distintos niveles de agregacin + sobre m0ltiples dimensiones( !or e3(* ventas de productos por 4ona de ventas* por tiempo* por clientes o tipo de cliente + por regin geogr-fica( #os usuarios pueden &acer este an-lisis al m-)imo nivel de agregacin o al m-)imo nivel de detalle( 1#A! provee de estas funcionalidades + algunas m-s( A estos tipos de an-lisis se les llama multidimensionales* por2ue facilitan el an-lisis de un &ec&o desde distintas perspectivas o dimensiones( Esta es la forma natural 2ue se aplica para anali4ar la informacin por parte de los tomadores de decisiones* +a 2ue los modelos de negocio normalmente son multidimensionales( 31/05/2014 Ing. Mario R. Morales, MBA 29 Ing. Mario R. Morales, MBA &erramientas de BI #a visuali4acin de la informacin es independiente respecto de cmo se &a+a almacenado( El 1#A! deber6a cumplir con las siguientes caracter6sticas: Fast ;r-pido<: las consultas deben resolverse de inmediato Anal+sis ;an-lisis<: $ebe soportar la lgica de negocio + an-lisis estad6sticos 2ue sean necesarios para los usuarios( /&ared ;compartido<: "iene 2ue mane3ar m0ltiples actuali4aciones de forma segura + r-pida( .ultidimensional ;multidimensional<: "iene 2ue proveer de una visin conceptual de la informacin a trav,s de distintas dimensiones( Information ;informacin<: $ebe poder mane3ar toda la informacin relevante + la informacin derivada( Ing. Mario R. Morales, MBA &erramientas de BI #a representacin gr-fica del 1#A! son los cubos( E3( Cmo puedo ver las Ud( NendidasC .ultidimensionalidad 'ec&os 31/05/2014 Ing. Mario R. Morales, MBA 30 Ing. Mario R. Morales, MBA &erramientas de BI 1Slice and dice #as &erramientas 1#A! permiten >rotar + rebanar?( Esto significa cambiar el orden de las dimensiones Cambio dimensin: cliente ) libro /eleccionamos solo algunas celdas( E3( Nentas Cliente 2* del libro 1 + 2* en el aMo 1 Ing. Mario R. Morales, MBA &erramientas de BI 1roll-up and drill-down Agregaciones + 3erar2u6as "otal de libros* m-)imo nivel de agregacin ;>rollIup?< E3( libros de dos materias distintas: El libro 1 + el libro 2 son de la materia A + el libro E de la materia B( !artiendo del cubo anterior de las ventas agregadas* ba3amos a m-s detalle ;>drillIdo%n?< a trav,s de la 3erar2u6a >materias?( 31/05/2014 Ing. Mario R. Morales, MBA 31 Ing. Mario R. Morales, MBA &erramientas de BI Tipos de 2L*P E)isten distintos tipos de &erramientas 1#A!( #a diferencia entra ellas* b-sicamente* depende de cmo acceden a los datos: R$LAP5 Relational $LAP #as capacidades 1#A! acceden directamente a la base de datos relacional( /e accede por tanto a una base de datos relacional ;5$B./<( Accede &abitualmente sobre un modelo >estrella?( #a principal venta3a es 2ue no tiene limitaciones en cuanto al tamaMo* pero es m-s lento 2ue el .1#A!* aun2ue algunos productos comerciales permiten cargar cubos virtuales para acelerar los tiempos de acceso( Ing. Mario R. Morales, MBA &erramientas de BI Tipos de 2L*P M$LAP5 Multidimensional $LAP #a implementacin 1#A! accede directamente sobre una base de datos multidimensional ;.$$B<( #a venta3a principal de esta alternativa es 2ue es mu+ r-pida en los tiempos de respuesta + la principal desventa3a es 2ue* si se 2uiere cambiar las dimensiones* se debe cargar de nuevo el cubo( &$LAP5 &%+rid $LAP Accede a los datos de alto nivel en una base de datos multidimensional + a los atmicos directamente sobre la base de datos relacional( En esencia utili4a las venta3as del 51#A! + del .1#A!( 31/05/2014 Ing. Mario R. Morales, MBA 32 Ing. Mario R. Morales, MBA &erramientas de BI 3ue.as tendencias Una alternativa al 1#A! son las &erramientas 2ue utili4an consultas de lgica asociativaK: >Cuando se carga la informacin* se comprime + se normali4a al m-)imo para 2ue no &a+a informacin redundante( Cada valor 0nico para todos los datos se almacena una sola ve4 + se referencia a trav,s de punteros( !or e3emplo* si el primer registro de una fuente de datos inclu+e el campo >coc&e ro3o? + la segunda inclu+e el valor >coc&e negro? slo se almacena >coc&e? una sola ve4( En lugar de almacenar dos veces >coc&e?* un contador asociado a un puntero referencia el incremento de ese valor(? Cuando se reali4a una consulta* se accede directamente de los datos al visor* se accede al m-)imo detalle de la informacin sin dimensiones + 3erar2u6as predefinidas + sin restricciones en cuanto al volumen de informacin( Como se describe en: >BliG"ec&Ws Approac& to Business Intelligence: Oeep It /imple and Fle)ible?* $( Nesset + B( .c$onoug& I$C* 3ulio 200D( Uno de los productos 2ue utili4a esta tecnolog6a es BliGvie%de BliG"ec&* 2ue patent el Associative Buer+ #ogic ;AB#<( Ing. Mario R. Morales, MBA &erramientas de BI 3ue.as tendencias #gica asociativa ;((<: #as consultas son altamente eficientes por el nuevo modelo de almacenamiento + el con3unto de operaciones utili4ados para resolver las consultas( /e inde)an autom-ticamente el 100A de los datos + se eliminan autom-ticamente los datos redundantes + los valores nulos* lo 2ue significa un menor uso de espacio de disco + menores tiempos de escritura + lectura( 31/05/2014 Ing. Mario R. Morales, MBA 33 Ing. Mario R. Morales, MBA Principales (erramientas de BI4 Jeneradores de informes: Utili4adas por desarrolladores profesionales para crear informes est-ndar ;predefinidos a partir de campos calculados< para grupos* departamentos o la organi4acin( 'erramientas de usuario final de consultas e informes: Empleadas por usuarios finales para crear informes para ellos mismos o para otros= no re2uieren programacin( 'erramientas 1#A!: !ermiten a los usuarios finales tratar la informacin de forma multidimensional para e)plorarla desde distintas perspectivas + periodos de tiempo( 'erramientas de $as&board + /corecard: !ermiten a los usuarios finales ver informacin cr6tica para el rendimiento con un simple vista4o utili4ando iconos gr-ficos + con la posibilidad de ver m-s detalle para anali4ar informacin detallada e informes* si lo desean( Ing. Mario R. Morales, MBA Principales (erramientas de BI4 'erramientas de planificacin* modeli4acin + consolidacin: !ermite a los analistas + a los usuarios finales crear planes de negocio + simulaciones con la informacin de Business Intelligence( !ueden ser para elaborar la planificacin* los presupuestos* las previsiones( Estas &erramientas proveen a los das&boards + los scorecards con los ob3etivos + los umbrales de las m,tricas( 'erramientas datamining: !ermiten a estad6sticos o analistas de negocio crear modelos estad6sticos de las actividades de los negocios( $atamining es el proceso para descubrir e interpretar patrones desconocidos en la informacin mediante los cuales resolver problemas de negocio( #os usos m-s &abituales del datamining son: segmentacin* venta cru4ada* sendas de consumo* clasificacin* previsiones* optimi4aciones* etc( )er e*emplos de +isuali,aci-n de aplicaciones BI