Vous êtes sur la page 1sur 12

Didacticieltudesdecas

R.R.

1 Objectif
DescriptionsuccinctedePentahoDataIntegrationCommunityEdition(Kettle).
Linformatique dcisionnelle (Business Intelligence BI en anglais, a fait tout de suite plus
glamour)faitrfrencelexploitationdesdonnesdelentreprisedanslebutdefaciliterlaprise
de dcision. Des suites logicielles se proposent de prendre en charge le processus complet. Jai
choisi de mettre en avant la suite Open Source Pentaho, mais les principes noncs sont valables
pourlagrandemajoritdeslogicielsdudomaine.
La suite Pentaho est compose dune srie doutils associs chaque tape de la BI. Loutil
dintgration des donnes se charge de puiser les informations dans les diffrentes sources de
lentreprise, de les fusionner (intgrer), de les nettoyer. Lobjectif est de nourrir lentrept de
donnes de lentreprise. On parle doutil ETL (Extraction, Transformation and Loading). Pentaho
Analysis est un outil OLAP (Online Analytical Processing). Son rle est dexplorer les donnes en
utilisant des croisements plusieurs niveaux afin de mettre en avant les informations les plus
pertinentes(jesimplifie lextrmel).PentahoDashboardsetPentahoReportingsontdesoutils
quipermettentdeproduire,respectivement,destableauxdebordsetdesrapportsdestinsrendre
compte de lactivit de lentreprise. Ils ont tout deux singulirement contribu au succs de
linformatiquedcisionnelleenmontrantauxdcideursquiltaitpossible,partirdinformationsde
toutemaniredjdisponiblesdanslesystmesdinformationexistants,deproduiredesindicateurs
simples et pertinents pour suivre les performances de lentreprise dans le temps. Pentaho Data
Mining (bas sur Weka) enfin permet dapprofondir lanalyse exploratoire en sappuyant sur les
techniquesdefouillededonnes.
Il existe deux versions de Pentaho. Ldition entreprise est payante, elle donne accs une
assistance. Je ne lai pas teste. La Community Edition (Pentaho CE) est tlchargeable
librement.Elleestdveloppeetmaintenueparunecommunautdedveloppeurs.Jenesituepas
bien les diffrences entre les deux versions. Pour ma part, je me suis focalis sur la version non
payante,pourquetoutunchacunpuissereproduirelesoprationsquejedcris.
CedocumentprsentelamiseenuvredePentahoDataIntegrationCommunityEdition(PDICE,
appele galement Kettle), loutil ETL de la suite Pentaho CE. Je me contente dune description
succincte pour deux raisons: ce type doutil nentre pas directement dans mon champ de
comptences(qui est le data mining); jen parle surtout pour prparer un prochain tutoriel dans
lequeljemontreledploiementdemodleslaborslaidedeKnime,SipinaouWekaviaPDICE.
Cetutorielestbassurlaversionstable4.0.1dePDICE(cetteprcisionestimportante!).

2 Donnes
Nous utilisons une version duplique 32 fois (titanic32x.csv.zip) du fichier TITANIC qui recense les
caractristiquesdespassagersayantparticipausinistrevoyage.Sontdisponiblesdanslabase:la
classe(1reclasse,2nde,3me,membredquipage);lge(adulte,enfant);lesexe(homme,femme)et
le fait davoir survcu ou pas (yes, no). Nous poursuivons un double objectif: (1) numrer les
diffrentescombinaisons(items)des4variablescomposantlabaseet,pourchacunedentreelles,
comptabiliserlenombre dobservations;(2)numrerlesdiffrentescombinaisonspossiblesavec
11septembre2010

Page1sur12

Didacticieltudesdecas

R.R.

les 3 premires variables (classe, ge et sexe) et, pour chaque item, calculer le pourcentage de
survivants(SURVIVANT =YES). Danslesdeux cas, nous exportons les rsultatsdansunfichierau
formatExcel.
Pour pimenter la chose, nous avons dupliqu la base 32 fois, nous disposons donc de 70.432
observations. Nous aurons ainsi un meilleur aperu des capacits de traitements de loutil 1,
rechercherdesdoublonsdansunetablededonnesestloindtreuneoprationanodine.

3 Chargement et installation de PDI-CE


NousrcupronslefichierdinstallationdePDICE4.0.1surlesitedePentaho.

Pour installer le logiciel, il suffit de dsarchiver les fichiers dans le rpertoire de votre choix.
SPOON.BATpermetdedmarrerlelogiciel.

Ilfaudraitdestestssystmatiquesgrandechelle,avecdesconfigurationsdiversifies(nombredelignes,
nombredecolonnes,typedescolonnes,)poursefaireuneideplusprcisedesperformancesdeloutil.

11septembre2010

Page2sur12

Didacticieltudesdecas

R.R.

Nous obtenons la fentre principale suivante. La bote A PROPOS permet de vrifier la version
rellementutilise.

4 Cration dun projet de transformation


Pour raliser les oprations dcrites dans la section 2, nous crons un nouveau projet de
transformation.NousactionnonslemenuFICHIER/NOUVEAU/TRANSFORMATION.
La fentre principale prend un nouvel aspect. Sur la gauche, dans la palette de cration (A), nous
disposons des outils de manipulation de donnes; sur la droite (B) un espace de travail nous

11septembre2010

Page3sur12

Didacticieltudesdecas

R.R.

permettant de dfinir les squences doprations sous forme de diagramme de traitements: les
icnescorrespondentdesoprateurs,lesflchesquilerelientsymbolisentlesfluxdedonnes.

4.1

Enumrationdesvaleursetcomptage

Nous disposons de 4 variables catgorielles, portant respectivement 4, 2, 2 et 2 modalits. Le


nombredecombinaisons de valeurs possibles est 4x2 x 2 x 2 =32.Il est videntquenousneles
aurontpastoutes,certainesnontpasdesens.Parexemple,unenfantnepeutpastreunmembre
dquipage.Notrepremierobjectifdanscetutorielestdnumrerlescombinaisonsprsentesdans
le fichier, puis de compter loccurrence de chacune dentres elles. Notre fichier comporte 70.432
observations.Noussouhaitonslasortieobteniruntableauaveclesinformationssuivantes:

Nousconstatonsparexemplequelacombinaison(CLASSE=1ST;AGE=ADULT;SEXE=FEMALE;
SURVIVANT=NO)atobserve128foisdanslefichierdedonnes;etc.
4.1.1

Accsaufichierdedonnes

Les traitements commencent ncessairement par laccs aux donnes source. Il nous faut lire le
fichiertitanic32x.csvauformatCSV(fichiertexte,;estlecaractresparateurdecolonnes).

11septembre2010

Page4sur12

Didacticieltudesdecas

R.R.

Nous introduisons le composant Extraction depuis le fichier CSV (branche Extraction) dans
lespacedetravail.NousleparamtronsenactionnantlemenucontextuelEditertape.

Nousspcifionslenomdufichierdedonnesetlesparateurdechamps.Pourvrifierlintgritdu
fichier, nous cliquons sur le bouton Rcuprer Champs. Loutil reconnat automatiquement le
type de chaque colonne. Il sappuie sur les 100 premires lignes (paramtre modifiable) du fichier
pourcela.Dansnotrecas,lesmodalitsdesvariablescatgoriellessontdcriteslaidedechanes
decaractres(STRING).
4.1.2

Agrgationdesvaleurs

Pour comptabiliser les combinaisons des 4 variables prsentes dans le fichier, puis compter leurs
occurrences, il nous faut tout dabord trier le fichier. Cela ne semble pas ncessaire au premier
abord. Mais en lisant la documentation, on comprend que PDICE cherche les doublons en
comparant litem courant avec celui qui le prcde. Trier les donnes est donc une opration
absolument indispensable. Nous insrons le composant Tri Lignes (branche Transformation).
NousralisonslaconnexionentrelesdeuxoutilsenfaisantSHIFT+Clicsurlepremiericne,eten
traantlaflchejusquausecond.Ilssontmaintenantrelis.Attention,ilfautconfirmerlaconnexion
encliquantsurlemenusurgissantMainoutputofstep.

11septembre2010

Page5sur12

Didacticieltudesdecas

R.R.

Nousditonslesecondcomposant(menucontextuelEditertapes).Nouscliquonssurlebouton
Rcuprerleschampspourdfinirleschamps(tousdansnotrecas)servantautri.

Nous pouvons passer en comptage avec le composant Agrgation valeurs (branche


Statistiques).Aprsavoirralislaconnexionavecleprcdent,nousleparamtronscommesuit:
(1) tous les champs doivent tre pris en compte dans le regroupement; (2) le calcul porte sur le
comptagedesvaleursduchampSURVIVANT(nimportechampconvenaitenralit).

11septembre2010

Page6sur12

Didacticieltudesdecas

R.R.

(1)

(2)

4.1.3

Exportationdesrsultats

Il ne reste plus qu exporter les rsultats dans un fichier au format Excel. Nous introduisons le
composant Alimentation fichier Excel (branche Alimentation). Aprs lui avoir connect le
prcdent,nousleparamtronsenspcifiantlenom dufichier (ongletFichier) etenprcisant les
champsquidoiventtreexports(ongletChamps).

11septembre2010

Page7sur12

Didacticieltudesdecas
4.1.4

R.R.

Lancementdescalculs

Tout est prt maintenant. Aprs avoir sauvegard le projet (Fichier / Enregistrer), nous pouvons
lancersonexcutionencliquantsurleboutonXouenactionnantlemenuAction/Excuter(F9).
Unebotedecontrleapparat.

Nous cliquons sur Dmarrer. Une fentre relatant les statistiques dexcution apparat dans la
partiebassedelespacedetravail.

Le fichier contient 70.432 lignes. Aprs agrgation, nous observons 24 combinaisons de valeurs
distinctes.Nousconsultonslefichiertitanic_count.xlspourobtenirledtaildesrsultats.

11septembre2010

Page8sur12

Didacticieltudesdecas

R.R.

Lorsque nous effectuons la somme des valeurs de COUNT_SURV, nous retrouvons 70.432, soit le
nombredobservationsdanslabase.
Cestabsolumentcharmant.Surtoutsilonconsidreletempsdecalcul,trsrapideauregarddes
oprationsralises(chargementdesdonnes,tri,comptage,crituredufichierdesortie).

4.2

Enumrationdesvaleursetcalculdesfrquences

Danscettedeuximepartie,noussouhaitonscomptabiliserlaproportiondeSURVIVANT=YESpour
chaque combinaison des variables CLASSE, AGE et SEXE. Reprenons le rsultat cidessus. Nous
observonsquilya(128+4480)=4608individus(CLASSE=1ST,AGE=ADULT,SEXE=FEMALE);
97.22%(128/4608)dentreeuxontsurvcuaunaufrage(SURVIVANT=YES).Nousobtiendronsun
tableauressemblantceci:

Nousobservonsdanslesdeuxdernirescolonnes:lenombredobservationspourchaqueitemetla
proportiondeSURVIVANT=YES.
4.2.1

RecodagedelavariableSURVIVANT

Pour calculer les proportions, nous devons recoder la variable SURVIVANT en variable binaire
SURV_YES:1lorsqueSURVIVANT=YES,0autrement.Ainsi,encalculantlamoyennedelavariable
recode,nousobtenonsnaturellementlaproportiondeYES.
11septembre2010

Page9sur12

Didacticieltudesdecas

R.R.

Pour cela, nous utilisons le composant Tableau de correspondance (branche Transformation).


Nousluiconnectionsletableaudjtri(cenestpasindispensable,maiscelavitedavoirrefaire
unesecondefoisletriparlasuite),nousleparamtronsdelamaniresuivante.

4.2.2

Agrgationdesvaleurs

Nous pouvons dfinir les calculs via le composant Agrgation valeurs (branche Statistiques).
Deuxoprationssontncessaires pourchaquecombinaisondeCLASSE,AGEetSEXE(champsde
regroupement) : comptage des observations (Comptage = Nombre de valeurs de SURVIVANT);
calcul de la proportion de SURVIVANT = YES (Proportion = Moyenne sur SURV_YES). Nous
adoptonsleparamtragesuivant:

11septembre2010

Page10sur12

Didacticieltudesdecas
4.2.3

R.R.

Exportationdesrsultats

Il ne nous reste plus qu exporter le rsultat laide du composant Alimentation fichier Excel.
Nouscronslefichiertitanic_freq.xls.NousyintgronsleschampsCLASSE,AGEetSEXE,ainsi
queleschampscalculsComptageetProportion.

4.2.4

Lancementdescalculs

NousactionnonsleboutonXpourlancerlescalculs.Danslafentredesuivi,PDICEnousindique
que14lignesdevaleursonttgnresdanslefichierdesortie.

11septembre2010

Page11sur12

Didacticieltudesdecas

R.R.

EnouvrantlefichierdansExcel,nousobtenonsletableaudersultatsdsir.Nouslavonstriselon
une proportion dcroissante de SURVIVANT = YES. Nous aurions pu galement spcifier cette
oprationdirectementdansPDICE.

5 Conclusion
Ce document donne un aperu trs succinct des capacits de PDICE en matire de management
desdonnes.Ilestpossiblededfinirdestravauxdechargement,demanipulationetdenettoyage
dedonnes,sansavoircrireuneseulelignedeprogramme.
Laquestiondelavolumtrierestecependantpose.Jenelaipasvraimentexplore.Jyreviendrai
vraisemblablementdansunprochaindidacticiel.CetaspectestessentielpourunoutilETL.

11septembre2010

Page12sur12

Vous aimerez peut-être aussi