Vous êtes sur la page 1sur 66

Business

Intelligence
Xenia Andaur Estica
Ingeniero Civil en Computacin e Informatica
Xenia.andaur@gmail.com

Business Intelligence
Disponen de ms informacin y de menos tiempo para
analizarla?

Cada vez tenemos ms


informacin y menos tiempo para
Los responsables deanalizarla
generar informacin directiva estn
desbordados por las peticiones de informacin urgente,
Los sistemas de informacin de los que disponen les ayudan
a tomar decisiones rpidamente?

continua y no coordinada?

Business Intelligence
Calidad
de
product
os

Nivel de
Ventas

Permanencia en el mercado

Sin Garanta

Business Intelligence
Atencin a la
informacin y
como es
suministrada

el que
posee la
informacin
posee el
poder

Esto
actualmente
no es del
todo
correcto,
puesto que
no importa
quien la

Business Intelligence
El tener mucha informacin no es
suficiente para tomar decisiones, pues lo
mas seguro que no se alcance a conocer
toda por el factor tiempo.

Actualizar con nueva


tecnologa

Business Intelligence
Los ambientes competitivos en los que se desenvuelven las
organizaciones en la actualidad, obliga a los directores a buscar
soluciones y estrategias que generen ventajas competitivas.
La globalizacin es un factor que se presenta como impulsor de
esta dinmica donde los mercados cambian rpidamente y las
empresas necesitan alternativas para tomar las decisiones correctas.
Es aqu donde la tecnologa juega un rol vital y los avances en esta
rea permiten que las empresas puedan hacer frente a sus problemas
de contingencia de manera ms fcil gracias a la llamada
Inteligencia de Negocios.

Business Intelligence
BI es un proceso interactivo para
explorar y analizar informacin
estructurada sobre un rea, para
descubrir tendencias o patrones, a partir
de los cuales derivar ideas y extraer
conclusiones

Business Intelligence
Los beneficios potenciales

Una mayor capacidad de acceder y analizar los datos sin la

intervencin de TI
La toma de decisiones ms rpida y de mayor colaboracin
Seguimiento mtrica de rendimiento mejorado
Ms responsabilidad, con visibilidad de los indicadores clave de
rendimiento por lnea de negocio
Tiempos de respuesta ms rpidos, cuando se producen
excepciones y eventos

Ejemplo
Imaginemos un supermercado, la informacin del cual
disponemos son los tickets de venta. Supongamos un sistema
de informacin simple que est basado en la informacin que
recogemos de las cajas registradoras.
La informacin que contiene un ticket de venta es: Su nmero,
la fecha, la hora, el cdigo de cajero/a, el cdigo de
supermercado, los cdigos de los artculos vendidos, la
descripcin de los artculos, las unidades, el precio unitario, el
total por artculo, el total del ticket y la forma de pago.

Ejemplo

Ejemplo
A partir de la informacin de los tickets podemos saber:
Importe total de las ventas del da.
Nmero de tickets por hora o fraccin de tiempo.
Nmero de tickets atendidos por un cajero/a.
Ventas por artculo en unidades e importe.
Nmero de tickets por da.
Importe cobrado mediante efectivo o tarjetas de crdito.
Importe del ticket medio.
Nmero medio de tickets por da, hora, cajero/a.

Ejemplo
Toda esta informacin es de tipo operativo pero a este nivel
nos facilita la toma de decisiones tales como:
Reponer las existencias, acumulando la cantidad de ventas
por artculo.
Asignar los turnos de los cajeros/as, en funcin del
nmero de tickets vendidos por hora.
Ver cules han sido los productos ms vendidos.
Ver cul es el medio de pago utilizado por nuestros
clientes.

Ejemplo
Si se produce una disminucin
de las ventas, y previamente
habamos presupuestado el
nmero de tickets y el importe del
ticket medio, podremos analizar
qu ha sucedido:
1. Disminucin del nmero de
tickets.
2. Disminucin del ticket medio.
3. Una combinacin de ambas.

Las respuestas nos dirn si tenemos un


problema de afluencia a nuestro
supermercado, o si es que los clientes
nos estn comprando menos de lo
esperado cada vez que vienen. Las
acciones a tomar son absolutamente
distintas en cada caso: en el primero,
debern
estar
relacionadas
con
la
promocin de nuestro supermercado para
atraer clientes y en el segundo,
deberemos intentar que nos compren ms
productos. Esta informacin tiene mucho
ms valor, ya que nos permite tomar
decisiones estratgicas.

Inteligencia de Negocio en el
ejemplo
Si este proceso lo realizamos durante
un periodo de tiempo podremos ver
cul es la evolucin de nuestras
ventas. Al explorar la informacin
discriminndola por das de la
semana, nos damos cuenta de que
hay diferencias entre los distintos
das: los sbados son los das de
mayor venta, mientras que los
mircoles las ventas son las ms
bajas.

Si hacemos un anlisis
por producto, podemos
descubrir que estn
bajando sus ventas y, en
el supuesto de que
tengamos
existencias
con
caducidad,
debemos
decidir
rpidamente
qu
haremos con ellas.

Inteligencia de Negocio en el
ejemplo
Si analizamos los tickets, quizs
descubramos que hay relaciones
entre productos: cuando un
cliente compra un paquete de
espaguetis,
cul
es
la
probabilidad de que compre un
bote de tomate frito? Esta
informacin es muy til para las
promociones o para la ubicacin
de
los
productos
en
las
estanteras de los lineales.

Sigamos con nuestro ejemplo


supongamos ahora que, en lugar
de tener un supermercado,
tenemos dos. En este caso,
podemos comparar la
informacin obtenida del
primer centro con la del
segundo, lo que nos facilitar
todava ms la comprensin de
qu est sucediendo en los
distintos centros.

Inteligencia de Negocio en el
ejemplo
Imaginemos que se producen diferencias
significativas de ventas de un producto
en los dos centros. Para analizar que est
sucediendo, deberemos averiguar, por
ejemplo:
Si los clientes son distintos.
Si la ubicacin del producto es distinta.
Si tenemos problemas de
aprovisionamiento en uno de los
centros.

Inteligencia de Negocio en el
ejemplo
Toda esta informacin es de tipo operativo
pero a este nivel nos facilita la toma de
decisiones tales como:

Responsables de compras, para ver qu artculos se estn vendiendo ms y


cules son sus tendencias de venta.

Responsables de ventas, que deciden la colocacin de los productos, para ver


qu productos tienen mayor rotacin para situarlos en las zonas preferenciales,
o bien para poner aquellos de los que, an teniendo rotaciones inferiores,
tenemos existencias y que queremos reducir.

Responsables de la negociacin con las entidades financieras, que conocen


cules son los flujos de efectivo, tarjetas de crdito o dbito.

Responsables de marketing, para ver la efectividad de las promociones.


Responsables de personal, para asignar los turnos correctamente en funcin de
la afluencia de clientes y el calendario.

Business Intelligence

Business Intelligence

Limpieza de datos
Actualmente,la limpieza de datos se considera una
etapa previa y separada de losprocesos ETL, lo que
NO significa que su importancia sea menor.

Fuentes de datos

Limpieza de datos

Limpieza de datos
Importancia de la etapa de limpieza
Asegura lacalidad de los datosque vamos a procesar.
Evita la informacin no veraz o errnea.
Ahorra costes de espacio en disco al eliminarse la
informacin duplicada.
Agiliza las consultas por la ausencia de datos repetidos o
inservibles.
Ayuda a tomar decisiones estratgicas correctas.

Limpieza de datos
Principios del proceso de limpieza
Aplicar reglas de unificacin de datos. Por ejemplo, poner en la fila
correspondiente al sexo la misma letra identificativa, como podra ser M para
masculino y F para femenino. En este caso, tambin se tendran que identificar o
corregir posibles errores, como que algn usuario haya puesto la M como mujer.
Validaciones de completitud. Como por ejemplo, comprobar que en todos los
registros de datos de los clientes de un banco est introducida la direccin postal
completa, saltando una alarma si falta alguno.
Estandarizacin de datos. El objetivo es que todos los datos del mismo tipo
estn introducidos de idntica forma. Un ejemplo sera el DNI con la letra finalde
identificacin fiscal junto a los nmeros y sin guin de separacin.

Limpieza de datos
De una buena limpieza depender el ptimo resultado de un
proceso ETL
No es posible lograr unbuen resultado final en un proceso ETL,
acorde a los objetos marcados, sino se realiza previamente una buena
limpieza de los datos. Sin esta etapa previa no es posible disponer de
una base de datos de calidad que permite la toma de decisiones
acertadas a nivel estratgico o ejecutivo. Esto da una idea de la
enorme necesidad de tomarse muy en serio esta etapa, realizndola
acorde a unos parmetros correctos y teniendo en cuenta las
recomendaciones de los expertos.

Proceso de limpieza de datos

ETL
El trmino ETL corresponde a las siglas en ingls de:
Extract: extraer.
Transform: transformar.
Load: cargar.

ETL
Fases de un proceso ETL
Las distintas fases o secuencias de un proceso
ETL son las siguientes:
Extraccinde los datos desde uno o varios
sistemas fuente.
Transformacinde dichos datos, es decir,
posibilidad de reformatear y limpiar estos
datos cuando sea necesario.
Cargade dichos datos en otro lugar o base de
datos, undata marto undata warehouse, con
el objeto de analizarlos o apoyar un proceso de
negocio.

ETL

Datamart
Un Data mart es una base de datos departamental,
especializada en el almacenamiento de los datos de un rea
de negocio especfica.
Se caracteriza por disponer la estructura ptima de datos
para analizar la informacin al detalle desde todas las
perspectivas que afecten a los procesos de dicho
departamento.

Datamart

Datamart

Datawarehouse

Datamart: Modelo
Conceptos:
Tabla hecho: Denominamos hechos a los
indicadores de negocio. Por ejemplo, son
hechos las ventas, los pedidos, los envos, las
reclamaciones, las compras, etc. Es decir, son
todas
aquellas
medidas
numricas
que
incluiremos en nuestro sistema Business
Intelligence.
Tcnicamente, una tabla de hecho es la tabla
central de un modelo

Datamart: Modelo
Conceptos:
Tabla dimensin: Cada dimensin puede referirse a
conceptos como 'tiempo', 'productos', 'clientes', 'zona
geogrfica', etc. Ahora bien, cada dimensin puede
estarmedida de diferentes maneras segn lagranularidad
deseada, por ejemplo, para la dimensin "zona geogrfica"
podramos considerar 'localidades', 'provincias', 'regiones',
'pases' o 'continentes'.
La unidad de medida (por localidades, provincias, etc.)
determinar esa granularidad, cuanto ms pequea sea esta
unidad de medida ms fina ser esta granularidad (grano
fino); si las unidades de medida son mayores, entonces
hablaremos de granularidad gruesa (grano grueso).

Datamart: Modelo
Esquema
estrella

Esquema Copo de Nieve

Datamart: Esquema estrella


El modelo estrella es el ms
sencillo en estructura. Consta
de una tabla central de
"Hechos" y varias
"dimensiones", incluida una
dimensin de "Tiempo".Lo
caracterstico de la
arquitectura de estrella es
que slo existe una tabla de
dimensiones para cada
dimensin.
Esto quiere decir que la nica
tabla que tiene relacin con otra
es la de hechos, lo que significa
que toda la informacin
relacionada con una dimensin

Datamart: Esquema Copo de Nieve


El modelo copo de nieve es una
variacin o derivacin del modelo
estrella. En este modelo la tabla de
hechos deja de ser la nica relacionada
con otras tablas ya que existen otras
tablas que se relacionan con las
dimensiones y que no tienen relacin
directa con la tabla de hechos. El
modelo fue concebido para facilitar el
mantenimiento de las dimensiones, sin
embargo esto hace que se vinculen
ms tablas a las secuencias SQL,
haciendo la extraccin de datos ms
difcil as como vuelve compleja la
tarea de mantener el modelo.

Implementacin
Modelo entidad relacin. Su utilidad para analizar
el negocio y mejorar su gestin. Ejemplo: anlisis de
los tickets medios de caja.
Esquemas estrella.
Esquema copo de nieve.
Granularidad.

Ejemplo
Segn el
ejemplo
anterior .
El modelo
entidad
relacin es el
siguiente:

Ejemplo
Partiendo del esquema entidad relacin anterior, vamos a
construir el esquema estrella que nos permita analizar la
informacin de manera que podamos responder a las preguntas
anteriormente planteadas relacionadas con los tickets de venta.
Para la construccin del esquema estrella debemos distinguir
entre las tablas de hechos (aquello que queremos medir o analizar) y
las tablas de dimensiones (cmo lo queremos medir), en nuestro
caso, la tabla de hechos ser la de los tickets y los queremos
analizar por las dimensiones siguientes: tiempo, franja horaria,
centro, empleado y forma de pago. El esquema estrella sera:

Si lotablas
analizamos
Las
de
detenidamente,
dimensiones
nos
observaremos
quelos
en
permiten
agrupar
la tabla en funcin
hechos
hechos
tickets
de los
valores
de la
tenemos, enpor
nuestro
dimensin:
caso, el Total
ticket
ejemplo,
si queremos
y los identificadores
saber
el
de lasde
dimensiones
total
tickets de
por lasde
que
lozona en
venta
una
queremos
la
tabla deanalizar:
dimensin
fecha, hora, id
centro,
empleado,
centro,
tenemos
el id
atributo
id pago. Tambin
Descripcin
zona
aparecen
dos
que
nos permitir
dimensiones
agrupar
los que
llamamos
tickets
segn ese
degeneradas: El n de
criterio.
ticket y el id caja, que

Ejemplo
El esquema estrella no est totalmente normalizado, ya
que en la tabla de la dimensin Centro tenemos una
redundancia que es Descripcin zona: Se repetir tantas
veces la zona como centros existan en la misma. El
esquema copo de nieve soluciona este problema. El
esquema copo de nieve del ejemplo del supermercado
sera el siguiente:

Como vemos, en el
esquema copo de
nieve aparecen
relaciones
entre las tablas de
dimensiones, mientras
que en el esquema
estrella
slo hay relaciones
entre la tabla de
hechos y las de
dimensiones.
En este caso, las tablas
de dimensiones estn
totalmente
normalizadas,
lo que reduce el
espacio que ocupan,
aunque en algunos
casos esta
diferencia no es
significativa.

Granularidad
Con la construccin del modelo anterior slo analizamos
los tickets de venta; sin embargo, podemos hacer lo
mismo para analizar los artculos vendidos en cada uno de
los tickets de venta. La diferencia del nivel de detalle en el
anlisis es lo que denominamos granularidad.

Granularidad
Si analizamos con
detenimiento la
dimensin
tiempo, veremos
que en esta
dimensin
aparece una
jerarqua de
tiempo.

Granularidad
En nuestro
modelo existen
otras jerarquas:
la de familia,
subfamilia y
artculo, la de las
zonas y los
centros, y la de
las categoras y
los empleados.

Ejemplos de distintos sectores

Datamart: Cubo OLAP


Sedes

Autor

Cliente
Libros

Editorial Tipo

Datamart: Modelo
Autor

Sedes

1
1

2
2

77

99

Clientes

1
5
4
8

3
6
9

7
Libr
os

Data Mining
Data

Mining,
tambin
referenciado
como
Descubrimiento del Conocimiento en Bases de Datos
(Knowledge Discovery in Databases o KDD), ha sido
definida como el proceso de extraccin no trivial de
informacin implcita, previamente desconocida y
potencialmente til.

Data Mining
El crecimiento explosivo de las bases de datos, de
Internet y el empleo de tcnicas y herramientas (que en
forma automtica y eficiente, generan informacin a partir
de los datos almacenados), permiten descubrir
patrones, relaciones y formular modelos. En
particular, estas tcnicas han adquirido enorme
importancia en reas tales como estrategias de marketing,
soporte de decisiones, planeamiento financiero, anlisis de
datos cientficos, bioinformtica, anlisis de textos y de
datos de la web.

Data Mining
Data Mining incluye reas del conocimiento tales como
Estadstica, Inteligencia Artificial (Machine Learning)
y Bases de Datos. Se estima que del anlisis de esos
datos pueden surgir ventajas competitivas o novedosas
soluciones a antiguos problemas. Data mining es un rea
de gran actividad a nivel acadmico, como lo demuestran
el gran nmero de eventos cientficos relacionados, como
as tambin laborales.

Data Mining

Frases para definir Data Mining

Alcance Data Mining


Prediccin automatizada de tendencias y comportamientos.
Data Mining automatiza el proceso de encontrar informacin
predecible en grandes bases de datos. Preguntas que
tradicionalmente requeran un intenso anlisis manual, ahora
pueden ser contestadas directa y rpidamente desde los datos.
Un tpico ejemplo de problema predecible incluyenpronsticosde
problemas financieros futuros y otras formas de incumplimiento, e
identificar segmentos depoblacinque probablemente respondan
similarmente
a
eventos
dados.

Alcance Data Mining


Descubrimiento

automatizado
de
modelospreviamente desconocidos.Las herramientas
de Data Mining barren las bases de datos e identifican
modelos previamente escondidos en un slo paso.

Las bases de datos pueden ser grandes


tanto en profundidad como en ancho
Ms columnas. Los analistas muchas veces deben limitar el nmero de
variablesa examinar cuando realizan anlisis manualesdebido a
limitaciones de tiempo. Un Data Mining de alto rendimiento permite a los
usuarios explorar toda la base de datos, sin preseleccionar un subconjunto
de variables.
Ms filas.Muestras mayores producen menos errores de estimacin y
desvos, y permite a los usuarios hacer inferencias acerca de pequeos pero
importantes segmentos de poblacin.

Lo que se puede hacer con el DM


(i) Clases: las observaciones se asignan a
grupos predeterminados. El proceso de
clasificacin consiste en asignar un conjunto
de datos a grupos fijados de manera que se
minimice la probabilidad de una clasificacin
errnea. Por ejemplo, un problema tpico de
clasificacin es el de dividir una base de datos
de bancos en grupos que sean lo ms
homogneos posibles con respecto a variables
como posibilidades de crdito en trminos de
valores tales como bueno o malo.

Lo que se puede hacer con el DM


Clusters: se construyen grupos de observaciones similares segn
un criterio prefijado. El proceso de clustering (agrupamiento)
consiste en subdividir un conjunto de datos en grupos
mutuamente excluyentes de tal manera que cada miembro de un
grupo est lo ms cercano posible a otro elemento, y grupos
diferentes estn lo ms lejos posible entre s, de modo que la
distancia est medida respecto a todas las variables disponibles.
Un tpico ejemplo de aplicacin de clustering es la clasificacin de
segmentos de mercado. Por ejemplo, una empresa quiere
introducirse en el mercado de bebidas alcohlicas, pero antes
hace una encuesta de mercado para averiguar si existen grupos
de clientes con costumbres particulares en el consumo de
bebidas. La empresa quiere introducirse en el grupo (si existe)
que est menos servido por la competencia. En este ejemplo no
existen grupos de clientes predeterminados

Lo que se puede hacer con el


DM
Asociaciones: las observaciones son usadas
para identificar asociaciones entre variables.
La bsqueda de asociaciones es diferente a
la bsqueda de relaciones causales. Las
relaciones causales son mucho ms difciles
de encontrar que las asociaciones, debido a
la presencia de variables no observadas. Las
relaciones causales y asociaciones no son
equivalentes: si hay asociaciones no tiene
por qu haber causalidad.

Tcnicas de DM
Redes neuronales Se trata de una herramienta de
anlisis estadstico que permite la construccin de
un modelo de comportamiento a partir de una
determinada cantidad de ejemplos (constituidos por
una determinada cantidad de variables descriptivas
de dicho comportamiento. La red neuronal,
completamente ignorante al principio, efecta un
aprendizaje partiendo de los ejemplos, para luego
transformarse, a travs de modificaciones sucesivas,
en un modelo susceptible de rendir cuenta del
comportamiento observado en funcin de las
variables descriptivas.

Tcnicas de DM
rboles de decisin Son modelos que tienen
estructuras de forma de rbol que representan
conjuntos de decisiones. Estas decisiones generan
reglas para la clasificacin de un conjunto de datos.
Mtodos especficos de rboles de decisin incluyen
rboles
de
Clasificacin
y
Regresin
(CART:
Classification And Regression Tree). Bsicamente, los
rboles de decisin, son representaciones grficas de la
lgica de las probabilidades aplicada a las alternativas
de decisin. El tronco del rbol es el punto de partida
de la decisin. Las ramas de ste comienzan con la
probabilidad del primer acontecimiento.