Vous êtes sur la page 1sur 8

Aot 2006

PRESENTATION DE PENTAHO DATA INTEGRATION


(PDI)

Aot 2006 Version: 1.0

Auteur: Samatar HASSAN

PDI 2.3
http://www.pentaho.org/

Prsentation Pentaho Data Integration 2.3

Page 1 sur 8

Aot 2006

PLAN

I Prsentation........................................................................................................................3
1.1 Dfinition.....................................................................................................................3
1.2 La petite histoire.........................................................................................................3
1.3 Les composants PDI....................................................................................................3
1. SPOON....................................................................................................................4
2. PAN..........................................................................................................................5
3. CHEF.......................................................................................................................6
4. KITCHEN...............................................................................................................7
II Installation........................................................................................................................8
2.1 Prrequis......................................................................................................................8
2.2 Documentation............................................................................................................8
2.3 Participez laventure................................................................................................8

Prsentation Pentaho Data Integration 2.3

Page 2 sur 8

Aot 2006

I Prsentation
Dans ce document, nous allons prsenter trs brivement loutil ETL Open Source Pentaho Data
Extraction (PDI).

1.1 Dfinition
Pentaho Data Integration (anciennement K.E.T.T.L.E Kettle ETTL Environment) est un E.T.T.L,
c'est--dire quil permet :

LExtraction des donnes depuis divers source (fichiers, bases de donnes)


Le Transport des donnes dune unit de stockage une autre
La Transformation des donnes
Le chargement (Loading en anglais) des donnes dans un entrept

PDI
Extraction, transport,
transformation et
chargement

Divers sources (Bases de


donnes, Fichiers)

Divers sources (Bases de


donnes, Fichiers)

Ce produit Open Source fournit une interface graphique pour la manipulation des donnes et cela contrairement
la pluparts des autres produits non commerciaux.

1.2 La petite histoire


KETTLE a t dvelopp il y a 5 ans par Matt CASTERS, un consultant en Business Intelligence (BI) indpendant,
dans un premier temps pour ses propres besoins.
Le projet a t rendu open Source lanne dernire et PENTAHO la acquis au dbut de lanne 2006.
Cest ainsi que KETTLE est devenu Pentaho Data Integration (PDI).
Matt conserve le leadership sur le projet en tant que Chief Data Integration chez PENTAHO.
Intressons nous maintenant au produit lui-mme.

1.3 Les composants PDI


Comme nous lavons vu plus haut, PDI est un environnement qui permet dune part de dfinir des transformations
sur les donnes, de les excuter et dautre part de les sauvegarder dans des fichiers ou dans un rfrentiel base
de donnes.
De plus, PDI permet de connecter un grand nombre de bases de donnes commerciaux ou non.

Prsentation Pentaho Data Integration 2.3

Page 3 sur 8

Aot 2006

Ainsi plusieurs outils composent cet environnement :


1.

SPOON est loutil qui permet grce son interface graphique de crer des transformations, les excuter
et les sauvegarder.
Les composants permettant la manipulation des donnes sont nomms tapes (steps en anglais).
Par exemple il existe une tape permettant dextraire des donnes de diverses bases de donnes, une
autre aidant lextraction depuis des fichiers.
SPOON comprend un grand nombre dtapes.

Lexemple ci-dessus a t cre grce SPOON. La ligne verte entre les tapes est un lien (Hop en anglais).
Cest lui qui indique vers quelle tape est dirig le flux (matrialis par le sens de la flche).
Notons ce stade que SPOON manipule des enregistrements (ou lignes) sous la forme suivante :
Colonne 1 Colonne 2 .. Colonne n
VC10
VC20
VCN0
VC11
VC21
VCN1

Grce SPOON, vous pourrez donc crer vos transformations, les tester et les sauvegarder soit dans un fichier,
soit dans un rfrentiel dune base de donnes que vous aurez pralablement cre.
Lcran suivant donne un aperu de linterface de SPOON. Les diffrentes tapes sont visibles dans la partie
gauche de linterface.
Le schma de la transformation est dans la partie droite de linterface.
Les tapes sont simplement dposes sur la partie droite (drag & drop) partir de la partie gauche.

Prsentation Pentaho Data Integration 2.3

Page 4 sur 8

Aot 2006

Mais vous voulez certainement pouvoir automatiser lexcution de votre transformation des horaires de votre
choix.

Cest ce niveau quintervient


2.

PAN.

PAN et outil, trs simple dutilisation,

permet dexcuter une transformation en ligne de commande.


Ensuite on pourra planifier lexcution grce par exemple au planificateur de Microsoft Windows ou un Cron
dans lenvironnement Unix.

Lorsque vous devez alimenter un entrept de donnes, vous avez excuter plusieurs transformations (extraction
des dimensions, alimentation des faits,). Ces transformations ne sont pas indpendantes les unes des autres.
En effet, lalimentation des tables de faits ne doit tre ralis que si les donnes de dimension ont t insres avec
succs dans lentrept, or SPOON na pas pour vocation de grer ni la squencialit des transformations, ni le fait
quune transformation seffectue avec succs.

Prsentation Pentaho Data Integration 2.3

Page 5 sur 8

Aot 2006

Nous introduiront un autre outil : CHEF.


3.

CHEF introduit une autre notion : La tche (ou Task en anglais).


Une tche est une organisation qui permet dautomatiser des tches complexes de transformations.
En effet, lexcution de chaque entre ne dmarre que si lentre prcdente a t termine. De plus, on
peut tre le rsultat de chaque entre. A-t-elle t excute avec succs ?
Une entre peut tre une transformation ou des transformations spciales comme la rcupration de
fichiers par FTP ou lexcution de fichier shell

Commentons lexemple ci-dessus.


Listons toutes les entres de la tche :
- Lentre Start indique le dmarrage de la tche (on nen trouve quune seule par tche).
- Lentre Get source files permet de rcuprer des fichiers depuis un serveur FTP. Les fichiers ainsi
obtenus sont stocks dans un rpertoire.
- Les entres Load source files , Update dimensions , Update fact tables , Update aggregates
excutent des tches (sous-tches)
- Lentre Remove source files permet de supprimer les fichiers rcuprs.
Observez maintenant les flches vertes entre les entres. Cela indique que ltape suivante ne va tre excute qui
si lentre prcdente sest bien droul (elle na pas gnr derreur).
La dernire entre en Send error mail . Un courriel est envoy si une entre est en chec (flche rouge).
CHEF fournit une interface graphique permettant la cration, lexcution et la sauvegarde des tches.
Ainsi chef vous permettra par exemple de surveiller lexcution de vos transformations. Vous pouvez dcider
denvoyer un courriel une personne si la transformation a gnr des erreurs.
Limage suivante montre un aperu de linterface de CHEF.

Prsentation Pentaho Data Integration 2.3

Page 6 sur 8

Aot 2006

A linstar de SPOON, un outil en ligne de commande est disponible pour CHEF.

4.

KITCHEN

KITCHEN permet dexcuter une tche en ligne de commande.

Prsentation Pentaho Data Integration 2.3

Page 7 sur 8

Aot 2006

II Installation
2.1 Prrequis
Pour fonctionner, PDI a besoin de lenvironnement dexcution JAVA.
Vous devez donc si ce nest pas encore le cas, installer la machine vituel Java 1.4 ou au dessus.
Cet outil est tlchargeable gratuitement sur le site http://www.javasoft.com.
Une fois cette tape effectue avec succs, il suffit de se procurer la dernire version de PDI : 2.3 sur le site
De PENTAHO
http://prdownloads.sourceforge.net/pentaho/Kettle-2.3.0.zip?download
Les dernires mises jour sont disponibles sur le site : http://www.javaforge.com/proj/doc.do?proj_id=318
Une fois le prcieux fichier zip rcupr, il suffit de le dzipper dans le rpertoire de votre choix.
Selon votre environnement (Windows ou Unix) lacer le fichier SPOON.bat (windows) ou SPOON.sh (Unix) pour
dmarrer SPOON et CHEF.bat (ou CHEF.sh) pour dmarrer CHEF.

2.2 Documentation
La documentation est galement fournie (dans le rpertoire docs) certes pour linstant en anglais : La traduction en
franais suivra.
Nhsitez pas la consulter car elle est trs bien faite. Si toutefois vous recherchez de laide, rendez-vous sur le
forum :
http://www.javaforge.com/proj/forum/browseForum.do?forum_id=1274

2.3 Participez laventure


PDI est en perptuelle amlioration. Vous avez la possibilit de signaler des bugs ventuels ladresse
suivante :
http://www.javaforge.com/proj/tracker/browseTracker.do?tracker_id=1273
Vous avez une ide, nhsitez pas la partager avec les utilisateurs de loutil et postez une amlioration
ladresse suivante :
http://www.javaforge.com/proj/tracker/browseTracker.do?tracker_id=1274

Prsentation Pentaho Data Integration 2.3

Page 8 sur 8