Académique Documents
Professionnel Documents
Culture Documents
R.R.
1 Objectif
DescriptionsuccinctedePentahoDataIntegrationCommunityEdition(Kettle).
Linformatique dcisionnelle (Business Intelligence BI en anglais, a fait tout de suite plus
glamour)faitrfrencelexploitationdesdonnesdelentreprisedanslebutdefaciliterlaprise
de dcision. Des suites logicielles se proposent de prendre en charge le processus complet. Jai
choisi de mettre en avant la suite Open Source Pentaho, mais les principes noncs sont valables
pourlagrandemajoritdeslogicielsdudomaine.
La suite Pentaho est compose dune srie doutils associs chaque tape de la BI. Loutil
dintgration des donnes se charge de puiser les informations dans les diffrentes sources de
lentreprise, de les fusionner (intgrer), de les nettoyer. Lobjectif est de nourrir lentrept de
donnes de lentreprise. On parle doutil ETL (Extraction, Transformation and Loading). Pentaho
Analysis est un outil OLAP (Online Analytical Processing). Son rle est dexplorer les donnes en
utilisant des croisements plusieurs niveaux afin de mettre en avant les informations les plus
pertinentes(jesimplifie lextrmel).PentahoDashboardsetPentahoReportingsontdesoutils
quipermettentdeproduire,respectivement,destableauxdebordsetdesrapportsdestinsrendre
compte de lactivit de lentreprise. Ils ont tout deux singulirement contribu au succs de
linformatiquedcisionnelleenmontrantauxdcideursquiltaitpossible,partirdinformationsde
toutemaniredjdisponiblesdanslesystmesdinformationexistants,deproduiredesindicateurs
simples et pertinents pour suivre les performances de lentreprise dans le temps. Pentaho Data
Mining (bas sur Weka) enfin permet dapprofondir lanalyse exploratoire en sappuyant sur les
techniquesdefouillededonnes.
Il existe deux versions de Pentaho. Ldition entreprise est payante, elle donne accs une
assistance. Je ne lai pas teste. La Community Edition (Pentaho CE) est tlchargeable
librement.Elleestdveloppeetmaintenueparunecommunautdedveloppeurs.Jenesituepas
bien les diffrences entre les deux versions. Pour ma part, je me suis focalis sur la version non
payante,pourquetoutunchacunpuissereproduirelesoprationsquejedcris.
CedocumentprsentelamiseenuvredePentahoDataIntegrationCommunityEdition(PDICE,
appele galement Kettle), loutil ETL de la suite Pentaho CE. Je me contente dune description
succincte pour deux raisons: ce type doutil nentre pas directement dans mon champ de
comptences(qui est le data mining); jen parle surtout pour prparer un prochain tutoriel dans
lequeljemontreledploiementdemodleslaborslaidedeKnime,SipinaouWekaviaPDICE.
Cetutorielestbassurlaversionstable4.0.1dePDICE(cetteprcisionestimportante!).
2 Donnes
Nous utilisons une version duplique 32 fois (titanic32x.csv.zip) du fichier TITANIC qui recense les
caractristiquesdespassagersayantparticipausinistrevoyage.Sontdisponiblesdanslabase:la
classe(1reclasse,2nde,3me,membredquipage);lge(adulte,enfant);lesexe(homme,femme)et
le fait davoir survcu ou pas (yes, no). Nous poursuivons un double objectif: (1) numrer les
diffrentescombinaisons(items)des4variablescomposantlabaseet,pourchacunedentreelles,
comptabiliserlenombre dobservations;(2)numrerlesdiffrentescombinaisonspossiblesavec
11septembre2010
Page1sur12
Didacticieltudesdecas
R.R.
les 3 premires variables (classe, ge et sexe) et, pour chaque item, calculer le pourcentage de
survivants(SURVIVANT =YES). Danslesdeux cas, nous exportons les rsultatsdansunfichierau
formatExcel.
Pour pimenter la chose, nous avons dupliqu la base 32 fois, nous disposons donc de 70.432
observations. Nous aurons ainsi un meilleur aperu des capacits de traitements de loutil 1,
rechercherdesdoublonsdansunetablededonnesestloindtreuneoprationanodine.
Pour installer le logiciel, il suffit de dsarchiver les fichiers dans le rpertoire de votre choix.
SPOON.BATpermetdedmarrerlelogiciel.
Ilfaudraitdestestssystmatiquesgrandechelle,avecdesconfigurationsdiversifies(nombredelignes,
nombredecolonnes,typedescolonnes,)poursefaireuneideplusprcisedesperformancesdeloutil.
11septembre2010
Page2sur12
Didacticieltudesdecas
R.R.
Nous obtenons la fentre principale suivante. La bote A PROPOS permet de vrifier la version
rellementutilise.
11septembre2010
Page3sur12
Didacticieltudesdecas
R.R.
permettant de dfinir les squences doprations sous forme de diagramme de traitements: les
icnescorrespondentdesoprateurs,lesflchesquilerelientsymbolisentlesfluxdedonnes.
4.1
Enumrationdesvaleursetcomptage
Nousconstatonsparexemplequelacombinaison(CLASSE=1ST;AGE=ADULT;SEXE=FEMALE;
SURVIVANT=NO)atobserve128foisdanslefichierdedonnes;etc.
4.1.1
Accsaufichierdedonnes
Les traitements commencent ncessairement par laccs aux donnes source. Il nous faut lire le
fichiertitanic32x.csvauformatCSV(fichiertexte,;estlecaractresparateurdecolonnes).
11septembre2010
Page4sur12
Didacticieltudesdecas
R.R.
Nous introduisons le composant Extraction depuis le fichier CSV (branche Extraction) dans
lespacedetravail.NousleparamtronsenactionnantlemenucontextuelEditertape.
Nousspcifionslenomdufichierdedonnesetlesparateurdechamps.Pourvrifierlintgritdu
fichier, nous cliquons sur le bouton Rcuprer Champs. Loutil reconnat automatiquement le
type de chaque colonne. Il sappuie sur les 100 premires lignes (paramtre modifiable) du fichier
pourcela.Dansnotrecas,lesmodalitsdesvariablescatgoriellessontdcriteslaidedechanes
decaractres(STRING).
4.1.2
Agrgationdesvaleurs
Pour comptabiliser les combinaisons des 4 variables prsentes dans le fichier, puis compter leurs
occurrences, il nous faut tout dabord trier le fichier. Cela ne semble pas ncessaire au premier
abord. Mais en lisant la documentation, on comprend que PDICE cherche les doublons en
comparant litem courant avec celui qui le prcde. Trier les donnes est donc une opration
absolument indispensable. Nous insrons le composant Tri Lignes (branche Transformation).
NousralisonslaconnexionentrelesdeuxoutilsenfaisantSHIFT+Clicsurlepremiericne,eten
traantlaflchejusquausecond.Ilssontmaintenantrelis.Attention,ilfautconfirmerlaconnexion
encliquantsurlemenusurgissantMainoutputofstep.
11septembre2010
Page5sur12
Didacticieltudesdecas
R.R.
Nousditonslesecondcomposant(menucontextuelEditertapes).Nouscliquonssurlebouton
Rcuprerleschampspourdfinirleschamps(tousdansnotrecas)servantautri.
11septembre2010
Page6sur12
Didacticieltudesdecas
R.R.
(1)
(2)
4.1.3
Exportationdesrsultats
Il ne reste plus qu exporter les rsultats dans un fichier au format Excel. Nous introduisons le
composant Alimentation fichier Excel (branche Alimentation). Aprs lui avoir connect le
prcdent,nousleparamtronsenspcifiantlenom dufichier (ongletFichier) etenprcisant les
champsquidoiventtreexports(ongletChamps).
11septembre2010
Page7sur12
Didacticieltudesdecas
4.1.4
R.R.
Lancementdescalculs
Tout est prt maintenant. Aprs avoir sauvegard le projet (Fichier / Enregistrer), nous pouvons
lancersonexcutionencliquantsurleboutonXouenactionnantlemenuAction/Excuter(F9).
Unebotedecontrleapparat.
Nous cliquons sur Dmarrer. Une fentre relatant les statistiques dexcution apparat dans la
partiebassedelespacedetravail.
Le fichier contient 70.432 lignes. Aprs agrgation, nous observons 24 combinaisons de valeurs
distinctes.Nousconsultonslefichiertitanic_count.xlspourobtenirledtaildesrsultats.
11septembre2010
Page8sur12
Didacticieltudesdecas
R.R.
Lorsque nous effectuons la somme des valeurs de COUNT_SURV, nous retrouvons 70.432, soit le
nombredobservationsdanslabase.
Cestabsolumentcharmant.Surtoutsilonconsidreletempsdecalcul,trsrapideauregarddes
oprationsralises(chargementdesdonnes,tri,comptage,crituredufichierdesortie).
4.2
Enumrationdesvaleursetcalculdesfrquences
Danscettedeuximepartie,noussouhaitonscomptabiliserlaproportiondeSURVIVANT=YESpour
chaque combinaison des variables CLASSE, AGE et SEXE. Reprenons le rsultat cidessus. Nous
observonsquilya(128+4480)=4608individus(CLASSE=1ST,AGE=ADULT,SEXE=FEMALE);
97.22%(128/4608)dentreeuxontsurvcuaunaufrage(SURVIVANT=YES).Nousobtiendronsun
tableauressemblantceci:
Nousobservonsdanslesdeuxdernirescolonnes:lenombredobservationspourchaqueitemetla
proportiondeSURVIVANT=YES.
4.2.1
RecodagedelavariableSURVIVANT
Pour calculer les proportions, nous devons recoder la variable SURVIVANT en variable binaire
SURV_YES:1lorsqueSURVIVANT=YES,0autrement.Ainsi,encalculantlamoyennedelavariable
recode,nousobtenonsnaturellementlaproportiondeYES.
11septembre2010
Page9sur12
Didacticieltudesdecas
R.R.
4.2.2
Agrgationdesvaleurs
Nous pouvons dfinir les calculs via le composant Agrgation valeurs (branche Statistiques).
Deuxoprationssontncessaires pourchaquecombinaisondeCLASSE,AGEetSEXE(champsde
regroupement) : comptage des observations (Comptage = Nombre de valeurs de SURVIVANT);
calcul de la proportion de SURVIVANT = YES (Proportion = Moyenne sur SURV_YES). Nous
adoptonsleparamtragesuivant:
11septembre2010
Page10sur12
Didacticieltudesdecas
4.2.3
R.R.
Exportationdesrsultats
Il ne nous reste plus qu exporter le rsultat laide du composant Alimentation fichier Excel.
Nouscronslefichiertitanic_freq.xls.NousyintgronsleschampsCLASSE,AGEetSEXE,ainsi
queleschampscalculsComptageetProportion.
4.2.4
Lancementdescalculs
NousactionnonsleboutonXpourlancerlescalculs.Danslafentredesuivi,PDICEnousindique
que14lignesdevaleursonttgnresdanslefichierdesortie.
11septembre2010
Page11sur12
Didacticieltudesdecas
R.R.
EnouvrantlefichierdansExcel,nousobtenonsletableaudersultatsdsir.Nouslavonstriselon
une proportion dcroissante de SURVIVANT = YES. Nous aurions pu galement spcifier cette
oprationdirectementdansPDICE.
5 Conclusion
Ce document donne un aperu trs succinct des capacits de PDICE en matire de management
desdonnes.Ilestpossiblededfinirdestravauxdechargement,demanipulationetdenettoyage
dedonnes,sansavoircrireuneseulelignedeprogramme.
Laquestiondelavolumtrierestecependantpose.Jenelaipasvraimentexplore.Jyreviendrai
vraisemblablementdansunprochaindidacticiel.CetaspectestessentielpourunoutilETL.
11septembre2010
Page12sur12