PDI 2.3
http://www.pentaho.org/
Page 1 sur 8
Aot 2006
PLAN
I Prsentation........................................................................................................................3
1.1 Dfinition.....................................................................................................................3
1.2 La petite histoire.........................................................................................................3
1.3 Les composants PDI....................................................................................................3
1. SPOON....................................................................................................................4
2. PAN..........................................................................................................................5
3. CHEF.......................................................................................................................6
4. KITCHEN...............................................................................................................7
II Installation........................................................................................................................8
2.1 Prrequis......................................................................................................................8
2.2 Documentation............................................................................................................8
2.3 Participez laventure................................................................................................8
Page 2 sur 8
Aot 2006
I Prsentation
Dans ce document, nous allons prsenter trs brivement loutil ETL Open Source Pentaho Data
Extraction (PDI).
1.1 Dfinition
Pentaho Data Integration (anciennement K.E.T.T.L.E Kettle ETTL Environment) est un E.T.T.L,
c'est--dire quil permet :
PDI
Extraction, transport,
transformation et
chargement
Ce produit Open Source fournit une interface graphique pour la manipulation des donnes et cela contrairement
la pluparts des autres produits non commerciaux.
Page 3 sur 8
Aot 2006
SPOON est loutil qui permet grce son interface graphique de crer des transformations, les excuter
et les sauvegarder.
Les composants permettant la manipulation des donnes sont nomms tapes (steps en anglais).
Par exemple il existe une tape permettant dextraire des donnes de diverses bases de donnes, une
autre aidant lextraction depuis des fichiers.
SPOON comprend un grand nombre dtapes.
Lexemple ci-dessus a t cre grce SPOON. La ligne verte entre les tapes est un lien (Hop en anglais).
Cest lui qui indique vers quelle tape est dirig le flux (matrialis par le sens de la flche).
Notons ce stade que SPOON manipule des enregistrements (ou lignes) sous la forme suivante :
Colonne 1 Colonne 2 .. Colonne n
VC10
VC20
VCN0
VC11
VC21
VCN1
Grce SPOON, vous pourrez donc crer vos transformations, les tester et les sauvegarder soit dans un fichier,
soit dans un rfrentiel dune base de donnes que vous aurez pralablement cre.
Lcran suivant donne un aperu de linterface de SPOON. Les diffrentes tapes sont visibles dans la partie
gauche de linterface.
Le schma de la transformation est dans la partie droite de linterface.
Les tapes sont simplement dposes sur la partie droite (drag & drop) partir de la partie gauche.
Page 4 sur 8
Aot 2006
Mais vous voulez certainement pouvoir automatiser lexcution de votre transformation des horaires de votre
choix.
PAN.
Lorsque vous devez alimenter un entrept de donnes, vous avez excuter plusieurs transformations (extraction
des dimensions, alimentation des faits,). Ces transformations ne sont pas indpendantes les unes des autres.
En effet, lalimentation des tables de faits ne doit tre ralis que si les donnes de dimension ont t insres avec
succs dans lentrept, or SPOON na pas pour vocation de grer ni la squencialit des transformations, ni le fait
quune transformation seffectue avec succs.
Page 5 sur 8
Aot 2006
Page 6 sur 8
Aot 2006
4.
KITCHEN
Page 7 sur 8
Aot 2006
II Installation
2.1 Prrequis
Pour fonctionner, PDI a besoin de lenvironnement dexcution JAVA.
Vous devez donc si ce nest pas encore le cas, installer la machine vituel Java 1.4 ou au dessus.
Cet outil est tlchargeable gratuitement sur le site http://www.javasoft.com.
Une fois cette tape effectue avec succs, il suffit de se procurer la dernire version de PDI : 2.3 sur le site
De PENTAHO
http://prdownloads.sourceforge.net/pentaho/Kettle-2.3.0.zip?download
Les dernires mises jour sont disponibles sur le site : http://www.javaforge.com/proj/doc.do?proj_id=318
Une fois le prcieux fichier zip rcupr, il suffit de le dzipper dans le rpertoire de votre choix.
Selon votre environnement (Windows ou Unix) lacer le fichier SPOON.bat (windows) ou SPOON.sh (Unix) pour
dmarrer SPOON et CHEF.bat (ou CHEF.sh) pour dmarrer CHEF.
2.2 Documentation
La documentation est galement fournie (dans le rpertoire docs) certes pour linstant en anglais : La traduction en
franais suivra.
Nhsitez pas la consulter car elle est trs bien faite. Si toutefois vous recherchez de laide, rendez-vous sur le
forum :
http://www.javaforge.com/proj/forum/browseForum.do?forum_id=1274
Page 8 sur 8