Vous êtes sur la page 1sur 43

Vision General de la Integracion de Datos

Ing. Vctor Saquicela


Universidad de Cuenca
Departamento de Ciencias de la Computaci
on
victor.saquicela@ucuenca.edu.ec

April 5, 2016

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

1 / 43

Contenido
1

Integraci
on de Datos
Motivacion
Tipos de Integracion
Evolucion
Porque es Dura la Integraci
on
Resumen

Fundamentos Teoricos
Formalizacion
Mapping

Recomendaciones

Lecturas

Referencias
Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

2 / 43

Definicion del Problema

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

3 / 43

Justificacion

Es importante resolver este problema para que:


Las empresas alcancen eficientemente la integracion de sus sistemas
Porque se esta viviendo en un mundo heterogeneo
La solucion puede ser adoptada por otras empresas
Va a permitir integraci
on de nuevos sistemas

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

4 / 43

Base de Datos: Tenemos todo el control

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

5 / 43

Integracion de Datos: Abstraccion a muy alto nivel

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

6 / 43

Ejemplo de Aplicacion

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

7 / 43

Ejemplo de Aplicacion

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

8 / 43

Ejemplo de Aplicacion

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

9 / 43

Tipos de Integracion

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

10 / 43

Que es integracion de datos: evolucion


Sistemas Centralizados con arquitectura de 3 capas
Integracion implcita: integraci
on soportada por la base de datos

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

11 / 43

Que es integracion de datos: evolucion


Sistemas Centralizados con arquitectura de 3 capas y multiples
almacenamientos
Integracion oculta: integraci
on embebida dentro de la aplicacion

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

12 / 43

Que es integracion de datos: evolucion


Sistemas Centralizados con arquitectura de 4 capas y multiples
almacenamientos distribuidos.
Integracion centralizada: el esquema global es mapeado a diferentes
fuentes de datos heterogeneas, distribuidas y aut
onomas

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

13 / 43

Que es integracion de datos: enfoques de integracion


Sistemas decentralizados
Integracion Peer-to-peer: integraci
on de datos distribuidos sin un
esquema global centralizado

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

14 / 43

Variantes de la Integracion de Datos

Centralizado, integraci
on virtual
Data warehousing
Integracion de datos P2P

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

15 / 43

Integracion de Datos Centralizada


Provee una vista unificada y transparente de una coleccion de datos
almacenados en multiples, aut
onomos y heterogeneas fuentes de
datos.
La vista unificada se logra a traves de un global schema, enlazando
las fuentes de datos por medio de mapeos.

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

16 / 43

Data warehousing
Materializacion de la base de datos global
Permite acceso OLAP sin acceder a la fuente de datos

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

17 / 43

Warehousing Vs. Virtual

Warehousing
Tipicamente mas eficiente
No necesita manipular las fuentes en tiempo de ejecucion
El procesamiento de consultas es tradicional
Virtual
Datos Up-to-date
Facilidad de configuraci
on (esto es incremental)
Aplicable en contextos mas amplios
En la practica soluciones hbridas.

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

18 / 43

Integracion de Datos Peer-to-peer

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

19 / 43

Integracion de Informacion

Combinar informacion de multiples fuentes de informacion autonomas y


responder consultas combinando la informaci
on de las fuentes (acceso
uniforme a un conjunto de fuentes de datos).
Muchas aplicaciones
Multiples dominios
Heterogeneidad
Autonoma
Semi-estructurados
La integracion de datos empresariales supone (aprox.) un 50% de
inversion de TI

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

20 / 43

Porque es Dura la Integracion


Razones de nivel de sistemas
Manejan diferentes plataformas
Acceso a m
ultiples sistemas de base de datos a traves de SQL no es
facil
Procesamiento de consultas distribuido
Razones logicas
Heterogeneidad de datos y esquemas
Razones sociales
Localizacion y captura de datos relevantes en la empresa
Convencer a la gente a que comparta los datos
Implicaciones de seguridad, privacidad y performance

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

21 / 43

Problemas de la Integracion de Datos

Nivel de estructuracion: informaci


on estructurada, informacion no
estructurada y semi-estructurada, informaci
on en formatos legibles
para humanos pero no para maquinas (ejemplo: html)
Modelo de datos: relacional, jerarquico, objetos, etc.
Plataforma software: DB2, mysql, java, .net, php,etc.
Plataforma hardware
Convenciones de sintaxis: Calle Quito, no 23 ? C/Quito, 23
Convenciones semanticas
Diferencia de granularidad
Heterogeneidad de esquema
etc.

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

22 / 43

Problemas de la Integracion de Datos

Extraccion de datos, limpieza y reconciliaci


on
Como descubrir y especificar los mappings entre las fuentes y el
esquema global
Como modelar y especificar el esquema global
Como responder consultas expresadas en el esquema global
Como tratar las limitaciones en los mecanismo de acceso a las fuentes
de datos
Como automatizar las preguntas y las respuestas
.......

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

23 / 43

Integracion de Datos: Antes

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

24 / 43

Integracion de Datos: Despues

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

25 / 43

Sintaxis y Semantica en los Sistemas de Integracion de


Datos

Definicion
Un sistema de integracion de datos I es una tripleta < G , S, M >, donde
G es un esquema global
S es el esquema de la fuente
M es el mapping entre S y G

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

26 / 43

Sintaxis y Semantica en los Sistemas de Integracion de


Datos

Las fuentes a ser integradas son modeladas como un conjunto finito C


La semantica de I relativo a C es que existe una base de datos global
que satisface G y que satisface M sobre C

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

27 / 43

Consultas a los Sistemas de Integracion de Datos

Cuando se eval
ua q sobre I =< G , S, M >, se considera que existe un
conjunto de fuentes C .
Existen respuestas a q dentro de C

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

28 / 43

Tipos de Mappings

Como se especifica el mapping M entre S y G ?


Las fuentes esta definidas en terminos de un esquema global? En este
caso el enfoque se llama source-centric o local-as-view (LAV)
El esquema global esta definido en terminos de las fuentes? En este
caso el enfoque se llama global-schema-centric o global-as-view (GAV)
El enfoque es combinado? En este caso se llama GLAV

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

29 / 43

Ejemplo: GAV vs. LAV

Esquema global
movie(Title, Year , Director )
european(Director )
review (Title, Critique)
Fuente 1
r 1(Title, Year , Director ) since 1960, european directors
Fuente 2
r 2(Title, Critique) since 1990
Consulta: Title y Critique de pelculas en 1998
{(t, r )}|movie(t, 1998, d), review (t, r )

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

30 / 43

GAV

Dado una fuente C , M provee informaci


on directa acerca de los
cuales los datos en C satisfacen los elementos del esquema global.
Elementos en el esquema global G son consideradas como vistas sobre
las fuentes, razon por la cual este enfoque es llamado global as view

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

31 / 43

GAV - Ejemplo

Esquema global
movie(Title, Year , Director )
european(Director )
review (Title, Critique)
GAV: para cada relacion en el esquema global, M asocia una vista sobre
las fuentes:
t, y , d r 1(t, y , d) movie(t, y , d)
t, y , d r 1(t, y , d) european(d)
t, r r 2(t, r ) review (t, r )

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

32 / 43

GAV - Ejemplo de procesamiento de una consulta

La consulta {(t, r )}|movie(t, 1998, d), review (t, r )


es procesada mediante la expansi
on de cada atomo de acuerdo a la
asociaciones definidas en en M.
Especificamente:
{(t, r )}|movie(t, 1998, d), review (t, r )

{(t, r )}|r 1(t, 1998, d), r 2(t, r )

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

33 / 43

LAV

El mapping M y la fuente C no proveen informacion directa acerca de


los datos que satisfacen el esquema global
Elementos en S son considerados como vistas sobre el esquema
global, razon por la cual este enfoque es llamado local as view

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

34 / 43

LAV - Ejemplo

Esquema global
movie(Title, Year , Director )
european(Director )
review (Title, Critique)
LAV: para cada relacion en la fuente, M asocia una vista sobre el esquema
global:
r 1(t, y , d) {(t, y , d)|movie(t, y , d), european(d), y 1960}
r 2(t, r ) {(t, r )|movie(t, y , d), review (t, r ), y 1990}

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

35 / 43

LAV - Ejemplo de procesamiento de una consulta

La consulta {(t, r )}|movie(t, 1998, d), review (t, r )


es procesada por medio de mecanismos de inferencia que re-expresan los
atomos del esquema global en terminos de los atomos de las fuentes.
Especificamente:
{(t, r )}|r 2(t, r ), r 1(t, 1998, d)

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

36 / 43

GAV y LAV: comparacion

GAV
La calidad depende de lo bien que esten compiladas las fuentes dentro
del esquema global a traves de los mappings.
Si una fuente cambia o es agregada una nueva, el esquema global
necesita ser reconsiderado.
LAV
La calidad depende de lo bien que esten caracterizadas las fuentes
Alta modularidad y extensibilidad, si el esquema global esta bien
dise
nado, cuando cambia una fuente, solo la esta definicion es
afectada.

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

37 / 43

Integracion: Datawarehouse

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

38 / 43

Integracion: Adhoc

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

39 / 43

Integracion: ESB + Tecnologas Semanticas

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

40 / 43

Lecturas

Captulos 1 y 3 del libro: Principles of Data Integration

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

41 / 43

References

Doan, Halevy, Ives (2012). Principles of Data Integration


...........

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

42 / 43

The End

Ing. Vctor Saquicela (DCC)

Visi
on General de la Integraci
on

April 5, 2016

43 / 43

Vous aimerez peut-être aussi