Vous êtes sur la page 1sur 17

Manipulacin de datos con

Kettle
Ing. Marcos Pierri
SIU-Datawarehouse
dw@siu.edu.ar

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilag - 15 y 16 de septiembre 2011 UNCOR

Contenido

Qu es Kettle?

Para qu sirve?

Principales caractersticas

Instalacin

Ejemplos de uso - DEMO

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilag - 15 y 16 de septiembre 2011 UNCOR

Qu es Kettle?
Herramienta de ETL (extraccin, transformacin y
carga) Open Source.

Creado por Matt Casters - @mattcasters

Adquirido por Pentaho en 2006. Actualmente se


llama Pentaho Data Integration (PDI).

Desarrollado integramente en Java.

Licencia GNU LGPL.

ltima versin estable 4.1.0 (30-11-2010).

Versin en desarrollo 4.2.0-RC1 (01-07-2011).

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilag - 15 y 16 de septiembre 2011 UNCOR

Para qu sirve?

Integracin de datos

Carga de datawarehouses y datamarts

Limpieza de datos (data cleansing)

Anlisis y perfilado de datos (data profiling)

Migracin de datos entre Bases de datos

Exportar datos de Bases de datos a


archivos planos

Etc, etc ...

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilag - 15 y 16 de septiembre 2011 UNCOR

Principales
caractersticas

GUI muy avanzada.

Soporte para gran cantidad de fuentes de informacin.

Basado en dos tipos de objetos diferentes:


Transformaciones
Trabajos

Las T&T utilizan un lenguaje descriptivo (XML).

Cuenta con herramientas y utilidades para crear,

administrar y ejecutar T&T.

Permite extender las funcionalidad mediante el desarrollo

de Plugins propios.
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilag - 15 y 16 de septiembre 2011 UNCOR

GUI muy avanzada

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilag - 15 y 16 de septiembre 2011 UNCOR

Fuentes de informacin

Bases de datos (+40):


Excel
- PostgreSQL
- MySql
- Informix
- dBase III, IV o 5
- Firebird SQL
Salesforce
- IBM DB2
- MS SQL Server
- MS Access
- Oracle
- SAP ERP System
- Teradata
- LucidDB
- Hypersonic
- Apache Derby
- etc, etc ...

Xml

Txt / CSV

Google
Analytics

RSS

Web services

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilag - 15 y 16 de septiembre 2011 UNCOR

Transformaciones

Orientacin a los Datos. Representa una tarea ETL.

Es una coleccin de pasos. Cada paso es una operacin


particular sobre datos.

Los pasos se conectan entre s a travs de saltos,


que indica cual ser el flujo de los datos.

Los pasos trabajan de manera simultnea y

asincrnica.

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilag - 15 y 16 de septiembre 2011 UNCOR

Trabajos

Orientacin a la Tarea y a los Datos.

Usualmente un Trabajo se compone de una o ms


Transformaciones/Trabajos, que sern ejecutadas
secuencialmente.

La ejecucin de cada Entrada de Trabajo presenta una


salida de status, que puede ser analizada para la realizaci
de diferentes acciones.

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilag - 15 y 16 de septiembre 2011 UNCOR

Herramientas y utilidades para


crear,
administrar y ejecutar T&T

Spoon: IDE grfico para crear T&T.

Kitchen: herramienta de lnea de comandos


para ejecutar Trabajos.

Pan: herramienta de lnea de comandos para ejecutar


Transformaciones.

Carte: servidor liviano para ejecutar T&T en host


remotos.

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilag - 15 y 16 de septiembre 2011 UNCOR

10

Instalacin

Pre-requisitos
- JRE (o JDK) 5.x o superior.

Descarga
- http://sourceforge.net/projects/pentaho/files/
- Carpeta Data Integration
- Versin 4.1.0 106.5 MB
- Versin 4.2.0-RC1 225.3 MB

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilag - 15 y 16 de septiembre 2011 UNCOR

11

Despus de descomprimir el archivo


- Ejecutar spoon.sh (Linux) o spoon.bat (Windows)

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilag - 15 y 16 de septiembre 2011 UNCOR

12

Pantalla de Bienvenida

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilag - 15 y 16 de septiembre 2011 UNCOR

13

Ejemplos de uso - DEMO


Los ejemplos fueron extraidos del libro Pentaho Data Integration 4
Cookbook Mara C. Roldn.
(http://www.packtpub.com/support)

01 - leer un archivo txt.


02 - escribir un archivo txt.
03 - leyendo un archivo simple XML.
04 - leyendo un archivo excel.
05 - generando datos de ejemplo para testeo.
06 - cargando datos desde txt en una base postgresql.
07 - leyendo datos desde una base postgresql y exportarlos a
un txt.
08 - programando una funcionalidad a medida.
09 - enviando e-mails con archivos adjuntos.
10 - copiando o moviendo uno a ms archivos.

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilag - 15 y 16 de septiembre 2011 UNCOR

14

Libros - Informacin

Pentaho Solutions - Roland Bouman, Jos van Dongen Wiley - ISBN:978-0-470-48432-6


Pentaho 3.2 Data Integration: Beginner's Guide - Mara Carina Roldn - Packt Publishing ISBN:1847199542
Pentaho Kettle Solutions - Matt Casters, Roland Bouman, Jos van Dongen Wiley - ISBN:978-0-47063517-9
Pentaho Data Integration 4 Cookbook - Adrin Sergio Pulvirenti, Mara Carina Roldn - Pack Publishing
- ISBN: 978-1-84951-524-5

Wiki SIU Pentaho: http://repositorio.siu.edu.ar/trac/dw_pentaho/wiki/WikiStart


Foro SIU Comunidad: http://comunidad.siu.edu.ar/index.php?board=49.0
--------------------------------------------------------------------------------------------------------------Sitio de PDI - Kettle: http://kettle.pentaho.com/
Foros Pentaho: http://forums.pentaho.com/
Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilag - 15 y 16 de septiembre 2011 UNCOR

15

Preguntas?

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilag - 15 y 16 de septiembre 2011 UNCOR

16

Muchas Gracias!!!
Ms informacin:
www.siu.edu.ar
dw@siu.edu.ar

Taller Anual de los sistemas SIU-Diaguita, SIU-Mapuche y SIU-Pilag - 15 y 16 de septiembre 2011 UNCOR

17

Vous aimerez peut-être aussi