Vous êtes sur la page 1sur 48

Proyecto de implementacin

de un Data Warehouse para


Universidades Nacionales

TFG Del Giudice Della


Mea

Alcance del Proyecto


Alcance

Se toman 2 (dos) cubos de alumnos y


reconstruyen utilizando la tecnologa Pentaho.
Dichos cubos son:

02 Rendimiento Acadmico
05 - Alumnos Araucano

TFG Del Giudice Della


Mea

se

Etapas para el desarrollo de los cubos

En esta seccin se lleva a cabo una descripcin


de los procesos que se efectan:
Modelo
Dimensional
Modelo Fsico

ETL

Reconstruccin
TFG Del Giudice Della
Mea

Cubo 05 Alumnos
Araucano

TFG Del Giudice Della


Mea

Modelo Dimensional

Tema de anlisis Matrcula histrica. Nuevos Inscriptos,


Reinscriptos y Egresados, segn definiciones de SIUAraucano.

(*) Definidas solo para medidas: nuevos inscriptos, reinscriptos


y total alumnos
(**) Definida solo para la medida nuevos inscriptos
(***) Definidas solo para medida reinscriptos
En el caso de las dimensiones que no estn definidas aparece la
leyenda No se aplica

TFG Del Giudice Della


Mea

Modelo dimensional Original

TFG Del Giudice Della


Mea

Recomendaciones Modelado Dimensional


No usar dimensiones degeneradas

Cuando:

La dimensin posee pocos datos que se repiten reiteradamente en la FT.


Es la dimensin Tiempo.
Es una dimensin compartida.

Extraer los datos de la FT y crear una tabla de


dimensin propia (durante el proceso de
ETL).
Uso de tablas en lnea

Cuando:

La tabla no es compartida por varios cubos.


La tabla contiene pocos valores.
La tabla no sufre cambios regularmente.
Mantener los datos en tabla siempre es ms
performante.

TFG Del Giudice Della


Mea

Recomendaciones Modelado Dimensional


Agregar medidas calculadas
directamente en el DW (durante el
proceso de ETL), as se ahorra
tiempo al no realizase esta
operacin durante el diseo.
No utilizar claves primarias de tipo
texto (tanto en las LT como en la FT).
FT contenga solo valores numricos
(tanto en las claves como en los
valores de las medidas).
TFG Del Giudice Della
Mea

Modelo dimensional Propuesto

TFG Del Giudice Della


Mea

Modelo Fsico
Mondrian
v
s.
Motor OLAP de
arquitectura ROLAP, con
cach.
Los datos que alimentan
a los cubos residen en
una base de datos
MySQL, denominada
dw_consolidado

Porque
MySQL?
TFG Del Giudice Della
Mea

Es ms rpida al
resolver consultas

Garantiza mayor
integridad en los
datos

Tiene mejor

Presenta mejor
escalabilidad en
grandes trabajos

documentacin y
mejores
herramientas de
administracin.

El Proyecto Pentaho Mondrian OLAP proporciona


acceso OLAP de alto rendimiento sobre la base de
MySQL. Donde se prioriza:
Velocidad
Rendimiento
Particionado y gestin de BD

Tablas correspondientes al Cubo 05 en


Pentaho

TFG Del Giudice Della


Mea

Estructura de la Tabla de Hechos FT_AlumnosArau


Campos

Tipo
dato

anio_academico
cod_unidad
cod_carrera
cod_titulo
cod_genero
cod_cohorte
cod_colegio
mat_rendidas
mat_aprobadas

Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico

tot_rendidas

Numrico

tot_aprobadas

Numrico

cod_horasTrab
tipo_ingreso

Numrico
Numrico

edad
cod_procesado
cant_NI
cant_RI
cant_EG
cant_TA

Numrico
Numrico
Numrico
Numrico
Numrico
Numrico

de

TFG Del Giudice Della


Mea

FT contiene slo valores


numricos

Se agrega la medida
calculada cantidad Total
de Alumnos en el DW

Se utilizan claves
subrogadas

Claves Subrogadas
Ventaja
s
El DW no depende de la codificacin interna del OLTP.
Ocupan menos espacio y brindan mayor performance
que las claves naturales, ms an si estas ltimas son
de tipo texto.
Permiten que la construccin y mantenimiento de
ndices sea una tarea sencilla.
Si se modifica el valor de una clave en el OLTP, el DW
lo tomar como un nuevo elemento, permitiendo
almacenar diferentes versiones del mismo dato.

TFG Del Giudice Della


Mea

ETL
Durante el
proceso de ETL

Se implementa Claves
subrogadas

Mantenindose
tablas
que
contienen la clave primaria de la
OLTP
y
la
clave
subrogada
correspondiente a cada dimensin
del DW.

Se utiliza una base de datos


intermedia denominada
intermedio_consolidado
A fin de almacenar:
Las tablas antes mencionadas
Aquellos datos que necesitamos
manipular
TFG Del Giudice Della
Mea

ETL

Transformacin DW_LT_UNIDADESACADEMICAS LOAD

Llenar primero la BD intermedia y luego


cargar el DW para manipular los datos sin
interrumpir ni paralizar los OLTP, ni tampoco
el DW.
Los datos de aquellos .txt que no sufren
transformaciones (excepto por sus claves),
se los carga directamente al DW.
TFG Del Giudice Della
Mea

ETL
Transformacin DW_LT_RANGOS LOAD

TFG Del Giudice Della


Mea

ETL
Rango de Edades

TFG Del Giudice Della


Mea

ETL
Transformacin DW_FT_ALUMNOS_ARAU_INTERMEDIO PASO 1

Transformacin DW_FT_ALUMNOS_ARAU
PASO 2

TFG Del Giudice Della


Mea

ETL
Consulta ejecutada en la Transformacin
DW_FT_ALUMNOS_ARAU PASO 2:
SELECT a.anio_academico, n.idNuevo as cod_unidad, b.idNuevo as cod_carrera,
g.idNuevo as cod_titulo, p.idNuevo as cod_genero, m.idNuevo as cod_cohorte,
c.idNuevo as cod_colegio, i.idNuevo as mat_rendidas, j.idNuevo as
mat_aprobadas, k.idNuevo as tot_rendidas, l.idNuevo as tot_aprobadas,
d.idNuevo as cod_horasTrab, f.idNuevo as tipo_ingreso, h.idNuevo as edad,
o.idNuevo as cod_proceso, a.cant_NI, a.cant_RI, a.cant_EG, (a.cant_NI +
a.cant_RI) as cant_TA
FROM ft_alumnos_intermedio a
inner join ids_carreras b on a.cod_carrera = b.cod_carrera
inner join ids_colegios c on a.cod_colegio = c.cod_colegio
inner join ids_horastrabajadas d on a.cod_horasTrab = d.cod_catHorasTrab
inner join ids_tipoingreso f on a.tipo_ingreso = f.cod_tipoIngreso
inner join ids_titulosaraucano g on a.cod_titulo = g.cod_titulo
inner join ids_edades h on a.edad = h.edad
inner join ids_matrendidas i on a.mat_rendidas = i.mat_rendidas
inner join ids_mataprobadas j on a.mat_aprobadas = j.mat_aprobadas
inner join ids_totrendidas k on a.tot_rendidas = k.tot_rendidas
inner join ids_totaprobadas l on a.tot_aprobadas = l.tot_aprobadas
inner join ids_cohorte m on m.cohorte = a.cohorte
inner join ids_unidadesacademicas n on a.cod_unidadAcademica =
n.cod_unidad
inner
join Giudice
ids_procesadosok
TFG
Del
Della o on a.procesado_ok = o.procesado_ok
inner join ids_generos p on a.cod_sexo = p.cod_sexo;
Mea

Reconstruccin
Se cre el esquema AlumnosAraucano
Se agreg el cubo 05_AlumnosAraucano
Se indic que ser ft_alumnosarau la tabla de hechos que corresponder
al cubo

Dimensiones:
Ao Acadmico (dimensin tiempo):
Unidad Acadmica

TFG Del Giudice Della


Mea

Reconstruccin
Dimensin Carreras

TFG Del Giudice Della


Mea

Reconstruccin
Dimensiones con Rangos:
Ejemplo Rango Edades

- Para el resto de las Dimensiones con rangos se lleva a cabo


el mismo procedimiento TFG Del Giudice Della
Mea

Reconstruccin - Medidas
Se crearon la medida NI, ReI, Egr y TA
Las cuales sumarizan la cantidad de
alumnos pertinente. Mondrian soporta este
Medidas Semi
Aditivas

Medidas Semi
aditivas en el
cubo:
TFG Del Giudice Della
Mea

tipo de medidas (que no


pueden ser aplicadas a lo
largo
de
todas
las
dimensiones) a travs de
Miembros calculados
(CM).
Nuevos
Inscriptos
Reinscripto
s
Egresad
os
Total
Alumnos

Reconstruccin Miembros Calculados

Se cre un CM por cada medida definida, los cuales utilizan un


case when en su frmula para determinar en qu casos se
mostrara la medida.

Ejemplos:
Nuevos Inscriptos
(Lo mismo se realizo para los
otros tres CM)

case when
[Materias Rendidas].CurrentMember.Level IS [Materias Rendidas].
[Rango Mat Rend] or
[Materias Rendidas].CurrentMember.Level IS [Materias Rendidas].
[Materias Rendidas] or
[Materias Aprobadas].CurrentMember.Level IS [Materias Aprobadas].
[Rango Mat Aprob] or
[Materias Aprobadas].CurrentMember.Level IS [Materias Aprobadas].
[Materias Aprobadas] or
[Total Mat Rendidas].CurrentMember.Level IS [Total Mat Rendidas].
[Rango Tot Rendidas] or
[Total Mat Rendidas].CurrentMember.Level IS [Total Mat Rendidas].
TFG [Total
Del Giudice

Mat Rendidas]
or
Della Mea
[Total Mat Aprobadas].CurrentMember.Level IS [Total Mat

Estructura final del cubo

TFG Del Giudice Della


Mea

Cubo 02 Rendimiento
Acadmico

TFG Del Giudice Della


Mea

Modelo dimensional Cubo 02 Rendimiento Acadmico


Tema de anlisis : Rendim. Acadmico (evaluado desde
materias-ctedras).

TFG Del Giudice Della


Mea

Modelo dimensional Original

TFG Del Giudice Della


Mea

Modelo dimensional Propuesto

TFG Del Giudice Della


Mea

Modelo Fsico
Tablas correspondientes al Cubo 02 en
Pentaho

TFG Del Giudice Della


Mea

Estructura de la Tabla de Hechos FT_ResultMaterias


Campos
anio_academico
cod_unidad
cod_periodo
cod_carrera
cod_materia
cod_dpto
cod_cohorte
curaprobados
curdesaprobado
s
curpromovidos

Tipo de dato
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico
Numrico

curausentes

Numrico

exaprobados
exdesaprobados

Numrico
Numrico

exausentes
equiexternas
equiparciales
Totcursantes (*)
Totexamenes
(**)
Totaprobados
(***)

Numrico
Numrico
Numrico
Numrico
Numrico

Numrico

Numrico

TFG Del Giudice Della


Mea

FT contiene slo valores


numricos

Se agregan medidas
calculadas al DW

(*) Suma de cursadas promovidas, aprobadas, reprobada


y ausentes
(**) Suma de exmenes aprobados, reprobados y
ausentes
(***) Suma de cursadas promovidas, exmenes
aprobados y equivalencias externas otorgadas

Se utilizan claves
subrogadas

ETL

Transformacin DW_LT_DEPARTAMENTOS LOAD

TFG Del Giudice Della


Mea

ETL

Transformacin DW_LT_PERIODOS LOAD

En el paso Formula se
conforma
el
campo
Nombre del Periodo, el
cual es una cadena de
caracteres
combinada,
integrada
por:
Ao
acadmico + Tipo de
periodo
+
Periodo
(Ejemplo: 2008 TE Agosto)

TFG Del Giudice Della


Mea

ETL
Transformacin DW_FT_INGR_EGRE_INTERMEDIO PASO 1

Transformacin DW_FT_INGR_EGRE PASO


2

TFG Del Giudice Della


Mea

SELECT
f.anio_academico,
g.idNuevo
as
cod_unidad,
c.idNuevo
as
cod_carrera,
d.idNuevo as cod_dpto,
e.idNuevo
as
cod_cohorte,
f.egresados,
f.ingresantes
FROM ft_ingr_egre_intermedio f
inner join ids_carreras c on f.cod_carrera =
c.cod_carrera
Inner join ids_departamentos d on f.cod_dpto
=d.cod_dpto
inner join ids_cohorte e on e.cohorte =
f.cohorte
inner join ids_unidadesacademicas g on

ETL

Trabajo LOAD DATAWAREHOUSE

TFG Del Giudice Della


Mea

Reconstruccin
Se cre el esquema RendimientoAcademico.
Se agreg el cubo 02_Result_Materias.
Se indic que ser ft_result_materias la tabla de hechos del
cubo.
Se agreg un segundo cubo 02_Ingre_Egre.
Se indic que ser ft_ingr_egre la tabla de hechos del cubo.
Dimensiones compartidas:
Se crean cinco dimensiones compartidas:

1. Ao Acadmico
2. Unidad Acadmica
3. Departamento
4. Carrera Plan
5. Cohorte

TFG Del Giudice Della


Mea

Reconstruccin
Caractersticas de Dimensiones compartidas:
Unidad Acadmica
Carrera - Plan
(Relacionada con Carreras, Departamento y Materia)

TFG Del Giudice Della


Mea

Reconstruccin
Caractersticas de Dimensiones:
Departamento Dimensin compartida y relacionada con Unidad Acadmica.

- Para las otras dimensiones compartidas se realiza


el mismo proceso TFG Del Giudice Della
Mea

Reconstruccin
Luego de crear las dimensiones compartidas, se define la
estructura de cada cubo:

TFG Del Giudice Della


Mea

Reconstruccin
Al tener los cubos finalizados, lo que se realiz para poder unirlos y visualizarlos
en un solo esquema es crear un Cubo Virtual, el cual contiene todos los
elementos de ambos:

TFG Del Giudice Della


Mea

Requerimientos DW
En el proyecto
actual se
utilizaron como
muestra dos
unidades
acadmicas

Ciencias de la
Informacin
Escuela de
Nutricin

Se requiere que cada facultad, al acceder al cubo


consolidado, vea solo la informacin pertinente a
sta
Para cumplir los requisitos
se utilizan

Roles de
Mondrian
TFG Del Giudice Della
Mea

Roles de Mondrian
Se establecieron dos Roles:
cs_de_informacion

TFG Del Giudice Della


Mea

nutricin

Roles de Mondrian - Permisos


A los usuarios cs_de_informacion y nutricin se les ha
ocultado la dimensin Unidad Acadmica del cubo, ya
que solo nos interesa que puedan ver la informacin de su
facultad.

Para
que
estos
puedan
visualizar
los
datos
correspondientes, lo que se hizo fue dar acceso
personalizado (custom acces) a la Jerarqua y niveles
que contienen las unidades acadmicas.

TFG Del Giudice Della


Mea

Roles de Mondrian - Permisos


Ejemplo Rol cs_de_informacion :
Segn el usuario se asignaran, mediante miembros, sus
permisos de acceso.
cs_de_informacion

TFG Del Giudice Della


Mea

Solo el miembro Escuela de Ciencias de la


Informacin ser totalmente accesible (acces
all), negando el acceso (acces none) al resto
de los otros miembros (Escuela de Nutricin y
Sin Unidad Acadmica).

Crecimiento del DW

a
Nuev a de
uest aci
p
o
r
p
nt
e me
Impl DW
n

TFG Del Giudice Della


Mea

Propuesta de implementacin ante el


crecimiento del DW
Que los usuarios accedan a las soluciones
desarrolladas mediante la opcin New
Analysis View de Jpivot, y no mediante
vistas de anlisis predefinidas.
Para ello se deber utilizar una xaction que se
ejecute cuando el usuario ingresa a la aplicacin
(system action).
La xaction tendr como "input" el valor del rol
actual de quien se haya logueado, y como output
el rol de Mondrian.
Mondrian recibir el rol activo y en
base a ste mostrar la informacin
pertinente.
TFG Del Giudice Della
Mea

Fin de la presentacin

?
TFG Del Giudice Della
Mea

Fin de la presentacin

Muchas
gracias por
su atencin!

TFG Del Giudice Della


Mea

Vous aimerez peut-être aussi