Vous êtes sur la page 1sur 33

31/05/2014

Ing. Mario R. Morales, MBA 1


Ing. Mario R. Morales, MBA
Universidad Central del Ecuador
Abril 2014
Captulo V
Componentes del
Business
Intelligence
31/05/2014
Ing. Mario R. Morales, MBA 2
Ing. Mario R. Morales, MBA
Contenido del captulo
Componentes de BI:
Fuentes de informacin
!rocesos E"#
$ata%are&ouse
'erramientas de Business Intelligence(
Ing. Mario R. Morales, MBA
Componentes del BI
Fuentes de informacin
$e los cuales se parte
para alimentar al
datawarehouse.
Proceso ETL
$e e)traccin*
transformacin + carga
de los datos en el
data%are&ouse(
Antes de almacenarlos*
,stos debe ser
transformados*
limpiados* filtrados +
redefinidos(
#a informacin
transaccional
usualmente no est-
preparada para la toma
de decisiones(
31/05/2014
Ing. Mario R. Morales, MBA 3
Ing. Mario R. Morales, MBA
Componentes del BI
Datawareouse !almac"n de datos#.
Inclu+e el .etadata o diccionario de datos(
/e debe buscar en ,l la m-)ima fle)ibilidad* facilidad de acceso +
administracin(
Motor $LAP !$nline Anal%tical Processing#
!rovee capacidad de c-lculo* consultas* funciones de planeamiento*
pronstico + an-lisis de escenarios en grandes vol0menes de datos(
En la actualidad e)isten otras alternativas tecnolgicas al 1#A! 2ue
se ver-n m-s adelante(
&erramientas de 'isuali(acin
!ermiten el an-lisis + navegacin
En un pro+ecto real se debe definir primero cu-les son los ob3etivos + el alcance de la
solucin* 2u, modelos de negocio se 2uiere anali4ar(
Con esta informacin es muc&o m-s f-cil tomar las decisiones necesarias en cada uno de
los componentes((
Ing. Mario R. Morales, MBA
Fuentes de Informacin
#as fuentes de informacin a las
2ue se puede acceder son:
B-sicamente* de los sistemas
operacionales o transaccionales*
2ue inclu+en aplicaciones
desarrolladas a medida* E5!*
C5.* /C.* etc(
/istemas de informacin
departamentales: previsiones*
presupuestos* &o3as de c-lculo*
etc,tera(
Fuentes de informacin
e)terna* en algunos casos
compradas a terceros
)om*onentes del BI
31/05/2014
Ing. Mario R. Morales, MBA 4
Ing. Mario R. Morales, MBA
Fuentes de Informacin
Factores cr6ticos al cargar informacin en un $7:
80mero de fuentes de informacin distintas
En grandes corporaciones se estima en una media de 9 B$ + en
algunos casos puede llegar a :0(
$istintas B$ re2uieren m0ltiples &abilidades t,cnicas(
!otencialmente* las definiciones + codificaciones pueden ser
diferentes(
Es probable 2ue los componentes del sistema de informacin
no sean consistentes a trav,s de las distintas aplicaciones* e
incluso 2ue no est,n integradas(
Usualmente la informacin 2ue se carga a un $7 es
estructurada ;se puede almacenar en tablas<= sin embargo
cada ve4 + con ma+or frecuencia se re2uiere traba3ar con
informacin no estructurada ;correos* cartas* informes*
videos* redes sociales< +a 2ue son cr6ticas para la creacin de
nuevas oportunidades de negocio(
Ing. Mario R. Morales, MBA
Fuentes de Informacin
Es clave identificar las fuentes apropiadas de
informacin: en ,stas se debe anali4ar los formatos,
la dis*oni+ilidad % la calidad de informacin(
En ocasiones* la falta de alguna de estas caracter6sticas
obliga a modificar las aplicaciones transaccionales(
31/05/2014
Ing. Mario R. Morales, MBA 5
Ing. Mario R. Morales, MBA
Fuentes de Informacin Calidad de datos
/i en el $7 &a+ errores* ,stos se propagar-n a lo largo de la
organi4acin ;+ ser- mu+ dif6cil locali4arlos<(
!ueden ocasionar 2ue se tomen decisiones errneas + afecten el
resultado de la organi4acin(
#os costes por mala calidad de datos pueden llegar a ser mu+
elevados(
#os errores en los datos pueden provenir de los sistemas
transaccionales de los 2ue se recuperan los datos* del proceso
E"#* o del propio data%are&ouse(
El pro+ecto de BI puede desprestigiarse + de3ar de ser confiable
para los usuarios(
>#as organi4aciones act0an ba3o la suposicin de 2ue la informacin de la
2ue disponen es precisa + v-lida( /i la informacin no es v-lida* entonces no
pueden responder de las decisiones basadas en ella(?
Business Intelligence Network
Ing. Mario R. Morales, MBA
Fuentes de Informacin Calidad de datos
/e deben establecer procesos de control o con3unto de controles
;manuales o automati4ados< 2ue localice los errores en datos +
no permita la carga en el $7(
.uc&os errores pueden &aberse originado en los mismos
sistemas transaccionales( 8o es una buena opcin corregirlos en
el proceso E"# + no modificar las aplicaciones origen( Esta
alternativa es muc&o m-s r-pida inicialmente* pero muc&o m-s
costosa a largo pla4o(
"ambi,n se pueden producir errores en el proceso de E"# o al
integrarlos en el $7(
>A lo largo de 200@* m-s del :0A de los pro+ectos de data%are&ouse
e)perimentar-n una aprobacin limitada* si no un pleno fracaso* +a 2ue no
&abr-n actuado proactivamente sobre la calidad de los datos(?
Ted Friedman, Gartner Group
31/05/2014
Ing. Mario R. Morales, MBA 6
Ing. Mario R. Morales, MBA
ETL
Contenido:
5esumen de !rocesos del E"#
Actuali4acin
E)traccin
#impie4a
Factores incidentes
Eapas para la limpie4a
"ransformacin
Integracin
Actuali4acin
Caracter6sticas de las 'erramientas E"#
Ing. Mario R. Morales, MBA
Fuentes de Informacin Calidad de datos
!untos de control: en la
carga* la auditor6a +
reconciliacin* + por los
usuarios de BI(
Este proceso nos puede
a+udar a me3orar nuestros
sistemas transaccionales*
corregir errores en el $7*
me3orar el proceso E"# o
incluso me3orar los modelos
de negocio por parte de los
usuarios de BI(
/e debe entender 2ue la
problem-tica de la calidad de
datos no es un problema de
los departamentos de "I* sino
uno estrat,gico al 2ue se debe
asignar ob3etivos* recursos +
planificacin(
31/05/2014
Ing. Mario R. Morales, MBA 7
Ing. Mario R. Morales, MBA
Fuentes de Informacin Calidad de datos
Bu, problemas puede
generar la mala calidad de
datosC:
"iempo e)tra para reconciliar
los datos ;9@A<(
!erdida de credibilidad en el
sistema ;91A<(
Costes e)tra* por e3emplo
duplicidades en mailing
;@2A<(
Insatisfaccin de clientes
;D@A<(
5etrasos en el desarrollo de
nuevos sistemas ;D4A<(
!,rdidas de ingresos ;:4A<(
!roblemas de conformidad
;E9A<(
1tros ;:A<(
Bu, beneficios puede aportar
la calidad de datosC
/imple versin de la verdad
;1FA<(
Incrementos en la
satisfaccin de los clientes
;1FA<(
.a+or confian4a en los
sistemas de an-lisis ;1@A<(
5educcin de costes ;1EA<(
.enor tiempo para
reconciliar los datos ;12A<(
Incremento de ingresos
;FA<(
1tros ;12A<(
"$7I* 5eport /eries: >$ata Bualit+ and t&e Bottom #ine?* por 7a+ne 7( EcGerson* 2002(
Ing. Mario R. Morales, MBA
Fuentes de Informacin Calidad de datos
Caracter6sticas 2ue deber6an tener los datos para cumplir
una buena calidad:
,. Precisin: H5epresentan los datos con precisin una
realidad o una fuente de datos 2ue se pueda verificarC
-. Integridad: H/e mantienen constantemente la estructura
de los datos + las relaciones a trav,s de las entidades + los
atributosC
.. )oerencia: H/on los elementos de datos constantemente
definidos + comprendidosC
/. Totalidad: HEst-n todos los datos necesariosC
0. 1alide(: H/on los valores aceptables en los rangos definidos
por el negocioC
2. Dis*oni+ilidad: HEst-n los datos disponibles cuando se
necesitanC
3. Accesi+ilidad: H/e puede acceder a los datos f-cil +
comprensiblementeC
31/05/2014
Ing. Mario R. Morales, MBA 8
Ing. Mario R. Morales, MBA
Fuentes de Informacin Calidad de datos
#os problemas de calidad de datos son un problema de negocio*
no de "I( #as recomendaciones 2ue se deber6an seguir para
me3orar la calidad de los datos son:
Conocer los datos es la clave para el ,)ito en muc&os negocios e
iniciativas de tecnolog6a:
5eali4ar una auditor6a inclu+endo una evaluacin de la calidad(
Conocer dnde est-n los datos + su nivel de calidad(
Incluir la calidad de los datos en la estrategia de metadata(
Establecer un programa formal de calidad de datos:
Construir el acuerdo para aplicarla en toda la gestin de las fuentes de
datos(
Establecer acciones de calidad de datos en la gestin de la informacin
de la organi4acin(
$esarrollar las &abilidades necesarias + organi4ar un e2uipo* tanto a
nivel de los usuarios de negocio como de los de tecnolog6a(
>!oorIBualit+ $ata: "&e /ure 7a+ to #ose Business and Attract Auditors?* Andreas Bitterer* Jartner* 200D(
Ing. Mario R. Morales, MBA
Fuentes de Informacin Calidad de datos
;((<
$efinir las pol6ticas + las m,tricas de la calidad de datos:
$efinir los est-ndares de direcciones* como calcular el
beneficio* los ingresos* etc(
Establecer + usar m,tricas para alcan4ar la calidad de los
datos(
Implementar tecnolog6as de calidad de datos*
reconociendo 2ue tan slo son una parte de la solucin(
31/05/2014
Ing. Mario R. Morales, MBA 9
Ing. Mario R. Morales, MBA
Proceso de extraccin, transformacin y
cara !ETL"
Este proceso trata de recuperar
los datos de las fuentes de
informacin + alimentar el $7(
Usualmente este proceso puede
consumir entre el D0A + 90A del
tiempo de un pro+ecto BIK(
Esta parte del proceso es costosa
+ consume significativos
recursos* estrategia* &abilidades
especiali4adas + tecnolog6as(
E"# es necesario para acceder a
los datos de las fuentes de
informacin al $7(
E"#
K >Evaluating E"# and $ata Integration !latforms?* por 7a+ne EcGerson + Colin 7&ite* "$7I 5eport /eries* 200E
Ing. Mario R. Morales, MBA
Proceso ETL
El proceso E"# se divide en : subprocesos:
,. E4traccin: Este proceso recupera los datos f6sicamente de
las distintas fuentes de informacin( En este momento se
dispone de los datos en bruto(
-. Lim*ie(a: Este proceso recupera los datos en bruto +
comprueba su calidad* elimina los duplicados +* cuando es
posible* corrige los valores errneos + completa los valores
vac6os* es decir se transforman los datos Isiempre 2ue sea
posibleI para reducir los errores de carga( En este momento
se dispone de datos limpios + de alta calidad(
.. Transformacin: Este proceso recupera los datos limpios +
de alta calidad + los estructura + sumari4a en los distintos
modelos de an-lisis( El resultado de este proceso es la
obtencin de datos limpios* consistentes* sumari4ados +
0tiles(
31/05/2014
Ing. Mario R. Morales, MBA 10
Ing. Mario R. Morales, MBA
Proceso ETL
;L<
/. Integracin: Este proceso valida 2ue los datos 2ue se
cargan en el $7 son consistentes con las definiciones
+ formatos del mismo= los integra en los distintos
modelos de las distintas -reas de negocio 2ue se &an
definido en el $7( Estos procesos pueden ser
comple3os(
0. Actuali(acin: Este proceso es el 2ue permite aMadir
los nuevos datos al $7(
Ing. Mario R. Morales, MBA
Proceso ETL #etalles
E4traccin(
/e puede reali4ar de forma manual o utili4ando &erramientas
automati4adas de E"#(
.anual: programar rutinas utili4ando lengua3es de
programacin(
Automati4adas: a trav,s de &erramientas especiali4adas E"#
diseMadas para esta funcin( !ermiten visuali4ar el proceso +
detectar errores durante la carga( Cada ve4 m-s los motores de
B$ tienen funcionalidades E"#(
!rincipales problemas
2ue podemos encontrar
al e)traer los datos
31/05/2014
Ing. Mario R. Morales, MBA 11
Ing. Mario R. Morales, MBA
Proceso ETL #etalles
E4traccin ;((<:
El principal ob3etivo de la e)traccin es e)traer tan slo
a2uellos datos de los sistemas transaccionales 2ue son
necesarios + prepararlos para el resto de los subprocesos
de E"#(
!ara ello es necesario determinar las me3ores fuentes de
informacin con la me3or calidad de datos(
8ormalmente se &abla de almacenes de datos
intermedios ;$ata staging< mientras se est- en el
proceso de limpie4a de los datos( /e trata de un paso
intermedio entre la e)traccin + las etapas posteriores:
se acumula datos de distintas fuentes* en un momento
determinado todos estos datos se cargar-n en el $7( #os
usuarios finales nunca acceden a este entorno(
Ing. Mario R. Morales, MBA
Proceso ETL #etalles
Lim*ie(a:
Usualmente los sistemas transaccionales contienen
datos 2ue no &an sido depurados + 2ue deben ser
limpiados(
#as &erramientas E"# traen funcionalidades para
limpie4a de datos* aun2ue en la actualidad e)isten
aplicaciones especiali4adas(
Un $7 2ue tiene informacin >sucia? puede generar
desconfian4a en los usuarios* a tal punto 2ue puede
cuestionarse la valide4 del modelo(
31/05/2014
Ing. Mario R. Morales, MBA 12
Ing. Mario R. Morales, MBA
Proceso ETL #etalles $ Limpie%a
Factores 2ue inciden para 2ue
los datos no est,n limpios:
Nalores por defecto: en la ca3a
no saben la referencia de un
producto e introducen el
cdigo FFF + el precio a
mano(
Ausencia de valor(
Campos 2ue tienen distintas
utilidades: para algunos
clientes ponemos una
informacin + para otros*
otra distinta(
Nalores cr6pticos(
Nalores contradictorios(
;((<
Uso inapropiado de los
campos* por e3emplo en las
direcciones de los clientes(
Nulneracin de las reglas de
negocio(
5eutili4acin de claves
primarias con valores 2ue se
&ab6an utili4ado en el
pasado(
Identificadores 2ue no son
0nicos(
!roblemas de carga de
antiguos sistemas o de
integracin entre sistemas(
/eleccin del primer valor de
una lista por defecto(
Ing. Mario R. Morales, MBA
Proceso ETL #etalles $ Limpie%a
Eta*as *ara Lim*ie(a de Datos5
$epurar los valores ;!arsing<:
Este proceso locali4a e identifica
los elementos individuales de
informacin en las fuentes de
datos + los a6sla en los fic&eros
destino(
!or e3emplo: separar el nombre
completo en nombre* primer
apellido* segundo apellido* o la
direccin en: calle* numero* piso*
etc,tera(
Corregir ;Correcting<:
Este proceso corrige los valores
individuales de los atributos
usando algoritmos de correccin +
fuentes de datos e)ternas(
!or e3emplo: comprueba una
direccin + el cdigo postal
correspondiente(
Estandari4ar ;/tandardi4ing<:
Este proceso aplica rutinas de
conversin para transformar
valores en formatos definidos
;+ consistentes< aplicando
procedimientos de
estandari4acin + definidos
por las reglas del negocio(
!or e3emplo: trato de /r(* /ra(*
etc( o sustitu+endo los
diminutivos de nombres por
los nombres
correspondientes(
E3emplo: clasificar en rangos
et-reos
31/05/2014
Ing. Mario R. Morales, MBA 13
Ing. Mario R. Morales, MBA
Proceso ETL #etalles $ Limpie%a
Eta*as *ara Lim*ie(a de Datos5
5elacionar ;.atc&ing<:
Este proceso busca +
relaciona los valores de los
registros* corrigi,ndolos +
estandari4-ndolos*
bas-ndose en reglas de
negocio para eliminar
duplicados(
!or e3emplo: identificando
nombres + direcciones
similares
Consolidar ;Consolidating<:
Este proceso anali4a e
identifica relaciones entre
registros relacionados + los
3unta en una sola
representacin(
Ing. Mario R. Morales, MBA
Proceso ETL #etalles
Transformacin:
/e lo &ace partiendo de los datos una ve4 >limpios?( /e
transforma los datos de acuerdo con las reglas de negocio + los
est-ndares establecidos por la organi4acin(
#a transformacin inclu+e: cambios de formato* sustitucin
de cdigos* valores derivados + agregados(
#os agregados* como por e3emplo la suma de las ventas*
normalmente se precalculan + se almacenan para conseguir
ma+ores rendimientos cuando se lan4a las consultas 2ue
re2uieren el c-lculo de totales al $7(
En este proceso tambi,n se a3usta el nivel de granularidad o
detalle( /e puede tener detalle a nivel de l6neas de factura en
los datos e)tra6dos* pero en el $7 lo 2ue se almacena son las
ventas semanales o mensuales(
31/05/2014
Ing. Mario R. Morales, MBA 14
Ing. Mario R. Morales, MBA
Proceso ETL #etalles
Integracin:
#a 0ltima etapa es la de integracin en el $7: es el
momento en el 2ue se carga los datos + se debe
comprobar si* por e3emplo* los totales de ventas 2ue se
&an cargado coinciden con la informacin 2ue resid6a en
el sistema transaccional* as6 como si los valores 2ue
tienen los registros cargados corresponden a los
definidos en el $7(
Es fundamental comprobar 2ue se &a desarrollado
correctamente* +a 2ue en caso contrario pueden llevar a
decisiones errneas a los usuarios(
Actuali(acin5
Este proceso determina la periodicidad con el 2ue se
&ar- nuevas cargas de datos al $7(
Ing. Mario R. Morales, MBA
Proceso ETL &erramientas
#as &erramientas E"# son claves en los pro+ectos de BI(
El mercado demanda &erramientas E"# m-s completas +
con m-s funcionalidades* 2ue aceleren la e)traccin + carga
de datos* 2ue puedan acceder a diversos formatos + fuentes
de datos* 2ue soporten ma+or comple3idad + 2ue se acer2uen
a cargas en tiempo realK(
/eg0n el estudio de "$7I* las &erramientas E"# deber6an
contar con:
Dise6o gr7fico: Entorno 2ue permite a los desarrolladores
establecer la relacin entre las fuentes de datos* las
transformaciones* los procesos + las tareas para desarrollar la
carga( #os diseMos se deben almacenar en un repositorio
.etadata(
K Evaluating E"# and $ata Integration !latforms?* por 7a+ne EcGerson + Colin 7&ite* "$7I 5eport /eries* 200E
31/05/2014
Ing. Mario R. Morales, MBA 15
Ing. Mario R. Morales, MBA
Proceso ETL &erramientas
;((<
8estin del Metadata:
!roveer un repositorio donde
definir* documentar +
gestionar la informacin del
proceso E"# + su e3ecucin(
El .etadata deber6a ser
accesible tambi,n desde
otras aplicaciones(
E4traccin: E)traccin de la
informacin mediante
conectores* como 1$BC*
/B# nativos de los distintos
motores de bases de datos o
fic&eros planos( #os
conectores deber6an acceder
al .etadata para determinar
2u, informacin e)traer +
cmo(
Transformacin: $eber6an
proveer de librer6as de
transformacin 2ue permitan
a los desarrolladores
transformar los datos origen
en los destino con las nuevas
estructuras + crear las tablas
de agregacin para me3orar el
rendimiento(
)arga: Utili4ar adaptadores
para poder insertar o
modificar los datos en el $7(
9er'icios de trans*orte:
#as &erramientas E"#
utili4an las redes + sus
protocolos ;por e3emplo:
F"!< para mover los datos
entre las distintas fuentes +
los sistemas destino(
Ing. Mario R. Morales, MBA
Proceso ETL &erramientas
;((<
Administracin %
o*eracin: #as
&erramientas E"#
deben permitir a los
administradores
programar* e3ecutar +
monitori4ar los traba3os
de E"#* los resultados*
gestionar los errores*
recuperar los fallos +
reconciliar los
resultados con los
sistemas originales(
31/05/2014
Ing. Mario R. Morales, MBA 16
Ing. Mario R. Morales, MBA
Proceso ETL &erramientas
Algunas de las m-s populares &erramientas +
aplicaciones E"# del mercado:
IB. 7ebsp&ere $ata/tage ;anteriormente Ascential
$ata/tage + Ardent $ata/tage<
Informatica !o%erCenter
/A/ E"# /tudio
Business1b3ects $ata Integrator ;B1$I<
Cognos $ecisionstream
!enta&o $ata Integration ;Oettle E"#< P ;1pen /ource<
BliGNie% E)pressor
1racle 7are&ouse Builder
Ab Initio
.icrosoft /B# /erver Integration /ervices ;//I/<
Ing. Mario R. Morales, MBA
Proceso ETL &erramientas
31/05/2014
Ing. Mario R. Morales, MBA 17
Ing. Mario R. Morales, MBA
#ata'are(ouse
Contenido:
$efinicin
Errores comunes al e)traer informacin
!rincipales caracter6sticas
1b3etivos de un $7
$atamarts
Construccin de un $7
Factores de evaluacin
Jestin del $7
Beneficios
Ing. Mario R. Morales, MBA
#ata)are(ouse o *lmac+n de datos
Cuando se 2uiere anali4ar
un problema empresarial*
normalmente la
informacin proviene de
diferentes sistemas= pero se
re2uiere 2ue est, en un
mismo entorno para facilitar
su an-lisis(
#os sistemas transaccionales
no suelen tener la data
preparada para ob3etivos de
an-lisis(
31/05/2014
Ing. Mario R. Morales, MBA 18
Ing. Mario R. Morales, MBA
#ata)are(ouse o *lmac+n de datos
Bu, esC
Es un gran almac,n de datos espec6ficamente estructurada para
consultas(
Es un repositorio de datos de mu+ f-cil acceso* alimentado de
numerosas fuentes* transformadas en grupos de informacin sobre
temas espec6ficos de negocios* para permitir nuevas consultas*
an-lisis* toma de decisiones(
"iene gran capacidad de
almacenamiento* pues los datos
pueden ser de grandes periodos de
tiempo(
#os datos contenidos son menos
detallados + de m-s larga vida 2ue
en sistemas 1#"!(
Usualmente los datos son
totali4ados + tienen larga vida(
Ing. Mario R. Morales, MBA
#ata)are(ouse o *lmac+n de datos
Uno de los errores m-s comunes es el de e)traer la informacin de los
sistemas transaccionales + llevarlos &acia &o3as de c-lculo( /in
embargo* esto trae una serie de desventa3as tales como:
Al introducir la informacin proveniente
de distintos sistemas se puede cometer
errores(
/e debe invertir una cantidad de tiempo
considerable en la introduccin de la
informacin(
Cada ve4 2ue se 2uiera &acer el an-lisis
;por e3( de ventas< se debe repetir el
proceso(
/i se necesita m-s detalle de las ventas*
probablemente no se dispone del mismo +
2ui4-s se responda 2ue llevar6a muc&o
tiempo introducir toda la informacin a
nivel de detalle(
#os usuarios finales no siempre saben
dnde reside la informacin 2ue necesitan
Cuando se &aga las consultas para e)traer
la informacin del entorno transaccional*
se penali4a el rendimiento de las
aplicaciones(
Cuando se produ4can modificaciones en el
sistema transaccional* se debe actuali4ar la
&o3a de c-lculo(
Cada uno de los usuarios de informacin
2uerr- los informes con un diseMo
determinado: !ueden aparecer >entornos
paralelos? de informacin(
/i no &a+ un acuerdo com0n* es posible
2ue se tenga distintas versiones de una
misma realidad ;e3( #a cifra de ventas de
uno de los informes igual no coincide con
la de otro(
31/05/2014
Ing. Mario R. Morales, MBA 19
Ing. Mario R. Morales, MBA
#ata)are(ouse o *lmac+n de datos
#os $7 deben almacenar la informacin consistente* integrada*
&istrica + preparada para ser anali4ada para la toma de
decisiones(
Una definicin de datawarehouse es la proporcionada por 'ug&
Q( 7atsonK:
>Un data%are&ouse es una coleccin de informacin creada para
soportar las aplicaciones de toma de decisiones?
"ambi,n define al concepto de data%are&ousing* es decir* la accin de
construir dat%are&ouses + utili4ar su informacin:
>$ata%are&ousing es el proceso completo de e)traer informacin*
transformarla + cargarla en un data%are&ouse + el acceso a esta
informacin por los usuarios finales + las aplicaciones?
/eg0n Bill InmonKK* defini las siguientes como caracter6sticas
2ue debe cumplir un $7:
1rientado sobre un -rea* integrado* inde)ado al tiempo* es un con3unto
no vol-til de informacin 2ue soporta la toma de decisiones
K 5ecent $evelopments in datawarehousing: A "utorial?* disponible en la %eb:
&ttp:RR%%%(terr+(uga(eduRS&%atsonRd%Ttutorial(ppt* agosto 200D(
KK Building t&e datawarehouse? ;1U edicin<* Inmon* 7('(* BE$ !ress* 8e% VorG* 1FF2
Ing. Mario R. Morales, MBA
#ata)are(ouse caractersticas
An-lisis de cada una de las caracter6sticas:
>1rientado a un -rea? significa 2ue cada parte del $7 est-
construida para resolver un problema de negocio* 2ue &a sido
definido por los tomadores de decisiones(
!or e3emplo: Entender los &-bitos de compra de los clientes* anali4ar
la calidad de los productos* anali4ar la productividad de una l6nea de
fabricacin* etc(
!ara poder anali4ar un problema de negocio se necesita
informacin 2ue proviene de distintos sistemas + se la
organi4a entorno a -reas: ventas* clientes* elementos de
transporte* etc(
!rovee a los tomadores de decisiones de una visin completa +
concisa sobre una problem-tica de negocio* obviando toda
a2uella informacin 2ue no necesitan para la toma de
decisiones(
31/05/2014
Ing. Mario R. Morales, MBA 20
Ing. Mario R. Morales, MBA
#ata)are(ouse caractersticas
An-lisis de cada una de las caracter6sticas:
>Integrado?: #a informacin debe ser transformada en
medidas comunes* cdigos comunes + formatos comunes para
2ue pueda ser 0til( Integra todos los sistemas operacionales
en un sistema de informacin(
#a integracin permite a las organi4aciones implementar la
estandari4acin de sus definiciones* por e3emplo: #a moneda
en la 2ue est-n e)presados los importes es com0n(
Inde)ado en el tiempo significa 2ue se mantiene la
informacin &istrica + se almacena referida a determinadas
unidades de tiempo tales como &oras* d6as* semanas* meses*
trimestres o aMos(
Ello permitir- anali4ar* por e3emplo* la evolucin de las ventas
en los periodos 2ue se re2uiera(
!ermite an-lisis comparativos de estados actuales + de
periodos anteriores(
Ing. Mario R. Morales, MBA
#ata)are(ouse caractersticas
An-lisis de cada una de las caracter6sticas:
>8o vol-til?: significa 2ue los usuarios no la mantienen*
como lo &ar6an en los entornos transaccionales( #a
informacin se almacena para la toma de decisiones( 8o
se va actuali4ando continuamente* sino peridicamente*
de forma preestablecida(
31/05/2014
Ing. Mario R. Morales, MBA 21
Ing. Mario R. Morales, MBA
#ata)are(ouse o,-eti.os
/eg0n 5alp Oimbal* define a los siguientes como ob3etivos
2ue deber6a cumplir un $7K:
El $7 da acceso a la informacin de la corporacin o del -rea
funcional( El alcance del $7 puede ser bien un departamento
o bien corporativo(
#a informacin del $7 es consistente(
#a informacin en el $7 puede ser separada + combinada
para anali4ar cada una de las posibles medidas del negocio(
El $7 no es slo informacin sino tambi,n las &erramientas
de consulta* an-lisis + presentacin de la informacin(
Es el lugar donde se publica la informacin(
#a calidad de la informacin en el $7 es el motor del
business reengineering.
K >"&e datawarehouse "oolGit(? 5alp& Oimball( 7ile+* 1FFD(
Ing. Mario R. Morales, MBA
#ata)are(ouse #ata /art
#os $7 se representan &abitualmente como una gran base
de datos* pero pueden estar distribuidos en distintas bases
de datos(
El traba3o de construir un $7 corporativo puede generar
infle)ibilidades* o ser costoso + re2uerir pla4os de tiempo
2ue las organi4aciones no est-n dispuestos a aceptar(
>$escubres el valor real de un data%are&ouse cuando alguien puede
encontrar los detalles importantes en la informacin* + te dice algo 2ue
puede generar la diferencia(?
The Foundations of Wisdom: !tud" of the Financial Impact of
datawarehousing#, B" I$%, &''(
31/05/2014
Ing. Mario R. Morales, MBA 22
Ing. Mario R. Morales, MBA
#ata)are(ouse #ata /art
Algunas de estas ra4ones &an originado la aparicin de los
$ata .art(
#os $ata .art est-n dirigidos a una comunidad de usuarios
dentro de la organi4acin* 2ue puede estar formada por los
miembros de un departamento* o por los usuarios de un
determinado nivel organi4ativo* o por un grupo de traba3o
multidisciplinario con ob3etivos comunes(
#os $ata .art almacenan informacin de un n0mero
limitado de -reas= por e3emplo* pueden ser de marGeting +
ventas o de produccin( 8ormalmente se definen para
responder a usos mu+ concretos(
8ormalmente* los $ata .art son m-s pe2ueMos 2ue los $7(
"ienen menos cantidad de informacin* menos modelos de
negocio + son utili4ados por un n0mero inferior de usuarios(
Ing. Mario R. Morales, MBA
#ata)are(ouse #ata /art
#os $ata .art pueden ser independientes o dependientes(
#os primeros son alimentados directamente de los or6genes de
informacin(
#os segundos se alimentan desde el $7 corporativo(
#os $ata .art independientes pueden perpetuar el problema de los
>silos de informacin? + en su evolucin pueden llegar a generar
inconsistencias con otros $ata .art(
En los dependientes* sus $7 de origen poseen dimensiones
predefinidas a ser usadas por m0ltiples $.= esto crea dependencia
entre ellos + facilita la integracin(
31/05/2014
Ing. Mario R. Morales, MBA 23
Ing. Mario R. Morales, MBA
#ata)are(ouse #ata /art
$. independientes:
.0ltiples -reas o departamentos constru+en sus $. para satisfacer
necesidades aisladas(
Esta opcin puede ser apropiada si no se interact0a entre a2uellas
-reas(
Jenera dificultad en la posterior integracin
Incrementa costos si se re2uiere integracin
#os $. creados en forma independiente generalmente deben ser
reconstruidos con una gu6a de diseMo dimensional antes de ser
integrados en un $ata7are&ouse(
Ing. Mario R. Morales, MBA
#ata)are(ouse Construccin
/e &an definido dos estrategias b-sicas:
#a defendida por 7('( Inmon* 2ue propone definir un
$7 corporativo + a partir de ,l ir constru+endo los
modelos de an-lisis para los distintos niveles +
departamentos de la organi4acin= es decir* una
estrategia de arriba aba3o* desde la estrategia a lo m-s
operativo(
#a defendida por 5( Oimball es la de construir distintos
$ata .arts 2ue cubran las distintas necesidades de la
organi4acin* sin la necesidad de construir un $7(
Como afirma el !rofesor 'ug& Q( 7atson* cuando se
desarrollan correctamente* las dos estrategias son
v-lidas(
31/05/2014
Ing. Mario R. Morales, MBA 24
Ing. Mario R. Morales, MBA
#ata)are(ouse Construccin
Estrategia del $7 corporativoK:
El $7 es desarrollado en fases + cada una de las mismas
debe ser diseMada para generar valor para el negocio( /e
constru+e un $7 corporativo* del 2ue se cuelga un $ata
.art dependiente con una parte de la informacin del
$7( En fases posteriores se van desarrollando $ata
.arts usando subcon3untos del $7(
Igual 2ue los pro+ectos comple3os* es caro* necesita
muc&o tiempo + es propenso al fracaso( Cuando
tenemos ,)ito conseguimos un $7 integrado +
escalable(
>Four 7a+s to Build a datawarehouse?* por 7a+ne EcGerson* $irector de investigacin de "&e datawarehouse Institute(
Ing. Mario R. Morales, MBA
#ata)are(ouse Construccin
Estrategia del $ata.art:
Es la m-s com0n( El pro+ecto comien4a con un $ata .art
0nico al 2ue posteriormente se ir-n aMadiendo otros $ata
.arts 2ue cubrir-n otras -reas de negocio(
8ormalmente no re2uiere de grandes inversiones + es m-s
f-cil de implementar* aun2ue conlleva algunos riesgos= de
entre ellos* cabe destacar fundamentalmente dos: puede
perpetuar la e)istencia del problema de >silos de informacin?
+ posponer la toma de decisiones 2ue conciernen a la
definicin de criterios + modelos de negocio(
/i se sigue esta estrategia se debe tener claro el plan de accin*
es decir* 2u, -reas se cubrir-n + la integracin de los distintos
modelos(
Esta estrategia se utili4a a veces como un paso previo al
desarrollo de un $7 corporativo(
31/05/2014
Ing. Mario R. Morales, MBA 25
Ing. Mario R. Morales, MBA
#ata)are(ouse Construccin $ Etapas
Considerar las siguientes etapas en su construccin:
1( Captura de datos(
!rovienen de fuentes seleccionadas ;pueden ser estructuradas como
B$ o no estructuradas como fuentes e)cel* documentos* otros<(
2( "ratamiento* conversin + transformacin de los datos(
#os denominados procesos E"#( Implican operaciones de limpie4a*
&omogeni4acin* etc( /e debe considerar lo siguiente:
$etectar + corregir errores ;duplicados* eliminar valores sin
sentido<(
Consistencia del uso de valores ;codificacin similar para valores
e2uivalente* e3emplo ddRmmRaaaa<(
"ratamiento de la ausencia de valores ;default<(
Codificar campos ;e3( de fec&as de nacimiento a rangos et-reos<
5eestructurar + aMadir nuevos campos ;enri2uecer al sistema<
Ing. Mario R. Morales, MBA
#ata)are(ouse Construccin
Un componente cr6tico del $7 es el .etadata ;datos 2ue
describen otros datos<:
El .etadata es el repositorio central de informacin de la
informacin( $a el significado de cada uno de los componentes +
sus atributos 2ue residen en el $7 ;o $ata .art<(
#a informacin 2ue contiene el .etadata es 0til para los
departamentos de tecnolog6a + los propios usuarios(
!uede incluir definiciones de negocio* descripciones detalladas de
los tipos de datos* formatos + otras caracter6sticas(
El personal de los departamentos de "ecnolog6a necesita saber los
or6genes de la informacin: bases de datos de las 2ue se obtienen los
datos* 2u, transformaciones se reali4an* criterios de filtros de
informacin* nombre de las columnas + de las tablas* pla4os de
carga* utili4acin* etc,tera(
#os usuarios necesitan saber las entidades + sus atributos* cmo &an
sido calculados* 2ui,nes son los responsables de los datos* los
informes disponibles* los flu3os de distribucin de la informacin*
etc,tera(
31/05/2014
Ing. Mario R. Morales, MBA 26
Ing. Mario R. Morales, MBA
#ata)are(ouse Construccin
;((<
#a construccin del .etadata supone 2ue se defina el
significado de cada una de las tablas + cada uno de los
atributos 2ue se cargan en el $7(
Este es un punto comple3o de todo pro+ecto* +a 2ue obliga a
2ue se definan los conceptos de negocio + se &omogenicen
entre los distintos departamentos* filiales* etc( 1bliga a 2ue
todos los componentes de la organi4acin &ablen utili4ando
la misma terminolog6a + con el mismo significado* lo cual no
siempre es sencillo(
!or e3( Cuando alguien &able de >margen bruto? o >margen de
contribucin? deber- estar absolutamente definido para la
organi4acin( Evidentemente* organi4aciones distintas
tendr-n normalmente definiciones distintas(
1tro e3emplo es en una biblioteca donde se usan fic&as 2ue
especifican autores* t6tulos* casas editoriales + lugares para
buscar libros( As6* los metadatos a+udan a ubicar datos(
Ing. Mario R. Morales, MBA
#ata)are(ouse Factores de e.aluacin
#os factoresK 2ue se deber6an tener en cuenta cuando se
est- evaluando una alternativa tecnolgica para la
construccin de un $7 son:
"amaMo del $7 : es el volumen de datos 2ue contiene el $7(
Comple3idad de los es2uemas de datos: si el modelo de datos
es comple3o* puede dificultar la optimi4acin + el rendimiento
de las consultas(
80mero de usuarios concurrente: ,ste es un factor
determinante( /i distintos usuarios pueden lan4ar consultas
concurrentes ;a la ve4<* el $7 debe gestionar sus recursos
para poder dar respuesta a las distintas consultas(
Comple3idad de las consultas: si las consultas necesitan
acceder a un n0mero elevado de tablas + los c-lculos a reali4ar
son comple3os* se puede poner en dificultades al motor de la
base de datos del $7(
>"&e C&allenges of Implementing a datawarehouse to Ac&ieve Business Agilit+?* de Oevin /trange* Jartner*2001(
31/05/2014
Ing. Mario R. Morales, MBA 27
Ing. Mario R. Morales, MBA
#ata)are(ouse 0estin
Jestin del $7:
#os usuarios de negocio necesitan tomar decisiones
basadas en la informacin de los $7* por lo 2ue
debemos asegurar:
Alta disponibilidad(
5endimiento(
Copias de seguridad
+ recuperacin(
5ecuperacin f6sica
en caliente(
Ing. Mario R. Morales, MBA
#ata)are(ouse Beneficios
!ermiten mane3ar tendencias* construir patrones +
descubrir relaciones(
!osibilitan situar a la organi4acin con venta3as estrat,gicas
respecto de sus competidores(
!osibilita el acceso a datos e informacin a todos los niveles
de la empresa(
Entrega informacin consistente(
!ermite reali4ar an-lisis en forma -gil + r-pida(
!osibilita descubrir problemas en la organi4acin o en sus
procesos(
!uede detectar ausencia de informacin para procesos
clave(
!rovee al nivel directivo de la informacin necesaria para la
toma de decisiones(
31/05/2014
Ing. Mario R. Morales, MBA 28
Ing. Mario R. Morales, MBA
'erramientas de Business Intelligence
Ing. Mario R. Morales, MBA
&erramientas de BI
En este componente se debe anali4ar las tecnolog6as 2ue
permitir-n tratar + visuali4ar la informacin 2ue reside en
un $7(
#os usuarios necesitan anali4ar
informacin a distintos niveles de
agregacin + sobre m0ltiples
dimensiones(
!or e3(* ventas de productos por 4ona de
ventas* por tiempo* por clientes o tipo de
cliente + por regin geogr-fica(
#os usuarios pueden &acer este an-lisis al
m-)imo nivel de agregacin o al m-)imo
nivel de detalle(
1#A! provee de estas funcionalidades + algunas m-s(
A estos tipos de an-lisis se les llama multidimensionales* por2ue facilitan el an-lisis
de un &ec&o desde distintas perspectivas o dimensiones(
Esta es la forma natural 2ue se aplica para anali4ar la informacin por parte de los
tomadores de decisiones* +a 2ue los modelos de negocio normalmente son
multidimensionales(
31/05/2014
Ing. Mario R. Morales, MBA 29
Ing. Mario R. Morales, MBA
&erramientas de BI
#a visuali4acin de la informacin es independiente
respecto de cmo se &a+a almacenado(
El 1#A! deber6a cumplir con las siguientes caracter6sticas:
Fast ;r-pido<: las consultas deben resolverse de inmediato
Anal+sis ;an-lisis<: $ebe soportar la lgica de negocio +
an-lisis estad6sticos 2ue sean necesarios para los usuarios(
/&ared ;compartido<: "iene 2ue mane3ar m0ltiples
actuali4aciones de forma segura + r-pida(
.ultidimensional ;multidimensional<: "iene 2ue proveer de
una visin conceptual de la informacin a trav,s de distintas
dimensiones(
Information ;informacin<: $ebe poder mane3ar toda la
informacin relevante + la informacin derivada(
Ing. Mario R. Morales, MBA
&erramientas de BI
#a representacin gr-fica del 1#A! son los cubos( E3(
Cmo puedo
ver las Ud(
NendidasC
.ultidimensionalidad
'ec&os
31/05/2014
Ing. Mario R. Morales, MBA 30
Ing. Mario R. Morales, MBA
&erramientas de BI 1Slice and dice
#as &erramientas 1#A! permiten >rotar + rebanar?(
Esto significa cambiar el orden de las dimensiones
Cambio
dimensin:
cliente ) libro
/eleccionamos solo algunas
celdas( E3( Nentas Cliente 2* del
libro 1 + 2* en el aMo 1
Ing. Mario R. Morales, MBA
&erramientas de BI 1roll-up and drill-down
Agregaciones + 3erar2u6as
"otal de libros* m-)imo nivel
de agregacin ;>rollIup?<
E3( libros de dos materias distintas: El
libro 1 + el libro 2 son de la materia A +
el libro E de la materia B(
!artiendo del cubo anterior de las
ventas agregadas* ba3amos a m-s
detalle ;>drillIdo%n?< a trav,s de la
3erar2u6a >materias?(
31/05/2014
Ing. Mario R. Morales, MBA 31
Ing. Mario R. Morales, MBA
&erramientas de BI Tipos de 2L*P
E)isten distintos tipos de &erramientas 1#A!( #a
diferencia entra ellas* b-sicamente* depende de cmo
acceden a los datos:
R$LAP5 Relational $LAP
#as capacidades 1#A! acceden directamente a la base
de datos relacional( /e accede por tanto a una base de
datos relacional ;5$B./<(
Accede &abitualmente sobre un modelo >estrella?( #a
principal venta3a es 2ue no tiene limitaciones en cuanto
al tamaMo* pero es m-s lento 2ue el .1#A!* aun2ue
algunos productos comerciales permiten cargar cubos
virtuales para acelerar los tiempos de acceso(
Ing. Mario R. Morales, MBA
&erramientas de BI Tipos de 2L*P
M$LAP5 Multidimensional $LAP
#a implementacin 1#A! accede directamente sobre
una base de datos multidimensional ;.$$B<(
#a venta3a principal de esta alternativa es 2ue es mu+
r-pida en los tiempos de respuesta + la principal
desventa3a es 2ue* si se 2uiere cambiar las dimensiones*
se debe cargar de nuevo el cubo(
&$LAP5 &%+rid $LAP
Accede a los datos de alto nivel en una base de datos
multidimensional + a los atmicos directamente sobre la
base de datos relacional(
En esencia utili4a las venta3as del 51#A! + del .1#A!(
31/05/2014
Ing. Mario R. Morales, MBA 32
Ing. Mario R. Morales, MBA
&erramientas de BI 3ue.as tendencias
Una alternativa al 1#A! son las &erramientas 2ue utili4an
consultas de lgica asociativaK:
>Cuando se carga la informacin* se comprime + se normali4a
al m-)imo para 2ue no &a+a informacin redundante( Cada
valor 0nico para todos los datos se almacena una sola ve4 + se
referencia a trav,s de punteros( !or e3emplo* si el primer
registro de una fuente de datos inclu+e el campo >coc&e ro3o?
+ la segunda inclu+e el valor >coc&e negro? slo se almacena
>coc&e? una sola ve4(
En lugar de almacenar dos veces >coc&e?* un contador
asociado a un puntero referencia el incremento de ese valor(?
Cuando se reali4a una consulta* se accede directamente de los
datos al visor* se accede al m-)imo detalle de la informacin
sin dimensiones + 3erar2u6as predefinidas + sin restricciones
en cuanto al volumen de informacin(
Como se describe en: >BliG"ec&Ws Approac& to Business Intelligence: Oeep It /imple and Fle)ible?* $( Nesset + B( .c$onoug& I$C*
3ulio 200D( Uno de los productos 2ue utili4a esta tecnolog6a es BliGvie%de BliG"ec&* 2ue patent el Associative Buer+ #ogic ;AB#<(
Ing. Mario R. Morales, MBA
&erramientas de BI 3ue.as tendencias
#gica asociativa ;((<:
#as consultas son altamente eficientes por el nuevo
modelo de almacenamiento + el con3unto de operaciones
utili4ados para resolver las consultas(
/e inde)an autom-ticamente el 100A de los datos + se
eliminan autom-ticamente los datos redundantes + los
valores nulos* lo 2ue significa un menor uso de espacio
de disco + menores tiempos de escritura + lectura(
31/05/2014
Ing. Mario R. Morales, MBA 33
Ing. Mario R. Morales, MBA
Principales (erramientas de BI4
Jeneradores de informes: Utili4adas por desarrolladores
profesionales para crear informes est-ndar ;predefinidos a
partir de campos calculados< para grupos* departamentos o
la organi4acin(
'erramientas de usuario final de consultas e informes:
Empleadas por usuarios finales para crear informes para
ellos mismos o para otros= no re2uieren programacin(
'erramientas 1#A!: !ermiten a los usuarios finales tratar
la informacin de forma multidimensional para e)plorarla
desde distintas perspectivas + periodos de tiempo(
'erramientas de $as&board + /corecard: !ermiten a los
usuarios finales ver informacin cr6tica para el rendimiento
con un simple vista4o utili4ando iconos gr-ficos + con la
posibilidad de ver m-s detalle para anali4ar informacin
detallada e informes* si lo desean(
Ing. Mario R. Morales, MBA
Principales (erramientas de BI4
'erramientas de planificacin* modeli4acin +
consolidacin: !ermite a los analistas + a los usuarios
finales crear planes de negocio + simulaciones con la
informacin de Business Intelligence( !ueden ser para
elaborar la planificacin* los presupuestos* las previsiones(
Estas &erramientas proveen a los das&boards + los
scorecards con los ob3etivos + los umbrales de las m,tricas(
'erramientas datamining: !ermiten a estad6sticos o
analistas de negocio crear modelos estad6sticos de las
actividades de los negocios( $atamining es el proceso para
descubrir e interpretar patrones desconocidos en la
informacin mediante los cuales resolver problemas de
negocio( #os usos m-s &abituales del datamining son:
segmentacin* venta cru4ada* sendas de consumo*
clasificacin* previsiones* optimi4aciones* etc(
)er e*emplos de +isuali,aci-n de aplicaciones BI

Vous aimerez peut-être aussi