Matre de stage :
Monsieur Thierry STUNAULT
Je tiens remercier tout le personnel de lquipe dont jai fait partie pendant
cinq mois, savoir lUnit de Recherche et Dveloppement ISA, Information
System Integration validation for Access network dOrange Labs Belfort.
Introduction .............................................................................................................. 6
1. Prsentation............................................................................................................. 7
7. L'unit Information System, integration & validation for Access network (ISA) 14
1. Prsentation........................................................................................................... 28
2. Objectifs ................................................................................................................ 28
3. Description ............................................................................................................ 28
1. Prsentation........................................................................................................... 30
1. Reverse engineering.............................................................................................. 36
Bilan Personnel........................................................................................................... 52
Conclusion ............................................................................................................... 53
Glossaire ................................................................................................................... 55
Bibliographie .......................................................................................................... 57
Figure1:LOCALISATIONDESR&DATRAVERSLEMONDE.........................................................................10
Figure2:ORGANIGRAMMEETSTRUCTUREDELADIVISIONR&D..........................................................12
Figure3:ORGANISATIONDUCRDRESA................................................................................................................13
Figure4:ORGANISATIONDELUNITEISA............................................................................................................14
Figure5:ARCHITECTUREGENERALEDUNENTREPOTDEDONNEES..................................................20
Figure6:SCHEMADEFONCTIONNEMENTDUNETL.....................................................................................22
Figure7:SCHEMAREPRESENTANTLACHANEDECISIONNELLE............................................................23
Figure8:COUTSENFONCTIONDUTEMPSPOURLESDIFFERENTESSOLUTIONS...........................24
Figure9:ZONEDETRAVAILDULOGICIELTALEND........................................................................................25
Figure10:EXEMPLEDETRANSFORMATIONSOUSTALEND5.0...............................................................26
Figure11:EXEMPLEDETRANSFORMATIONSOUSDATASTAGE..............................................................27
Figure12:ARCHITECTUREFONCTIONNELLEDUDATAMARTTRAFICADSL.....................................32
Figure13:LARCHITECTURETECHNIQUEDESSERVEURSDATAMART................................................33
Figure14:MODELEPHYSIQUEDESDONNEESSIDOBREDELABASEORACLETRAFIC................34
Figure15:APPELDESJOBSVIAUNSEQUENCEUR...........................................................................................35
Figure16:CHANEDETRAITEMENTGLOBALE.................................................................................................38
Figure17:SCHEMACIBLEDELANOUVELLECHANEDETRAITEMENT..............................................41
Figure18:COMPOSANTD'UNDATAMARTTRAFICADSL.............................................................................44
Figure19:GENERATIONDUFLUXPRINCIPAL...................................................................................................47
Figure20:GENERATIONDUFICHIERDEPARCCLIENT................................................................................49
Le pilotage de lentreprise est primordial dans le sens o il ncessite des choix qui
consistent dgager un profit durable. Il est important pour les performances de la
socit que ces prises de dcisions soient bases sur ltat global de celle-ci. Cest
ainsi quintervient le dcisionnel, qui fournit une reprsentation intelligente des
informations provenant des bases de donnes au travers doutils spcialiss.
Orange
1. Prsentation
Orange est lun des principaux oprateurs europens du mobile et de laccs internet
ADSL, et lun des leaders mondiaux des services de tlcommunications aux
entreprises multinationales, sous la marque Orange Business Services.
Depuis 2006, Orange est la marque unique du groupe Orange pour lInternet, la
tlvision et le mobile en France et dans la majorit des pays o le groupe est prsent.
Orange Business Services est la marque des services offerts aux entreprises dans le
monde.
Orange est le 3me oprateur mobile et 1er fournisseur daccs Internet ADSL en
Europe, il compte parmi les leaders mondiaux des services de tlcommunications
aux entreprises multinationales. Oprateur intgr, le groupe se donne les moyens
dtre loprateur de rfrence des nouveaux services de tlcommunications en
Europe.
Orange sadresse simultanment ses salaris, ses clients, ses actionnaires et plus
largement la socit dans laquelle lentreprise volue en sengageant concrtement
2. Legrandprojet:conqutes2015
Le comit de direction dOrange a rcemment chang. Ce changement, initialement
prvu en 2012, a t prcipit pour rpondre la crise sociale tant mdiatise dont le
principal moteur est le stress vcu par ses salaris.
La simplicit et la fiabilit des produits et des services : cest lun des piliers de la
qualit de service, avec la relation client. Simplicit et fiabilit constituent des leviers
dcisifs pour distinguer le groupe de ses concurrents et faire prfrer Orange
lensemble des parties prenantes.
Les nouveaux services : le cur de mtier dOrange est de crer du lien. Sa mission
consiste faciliter la vie numrique de ses clients. Pour cela, le groupe va leur
proposer des nouvelles gnrations de services fiables et accessibles partout et quand
ils le souhaitent.
Pays et entits ont adapt chaque plan daction la ralit de leurs marchs et de leurs
mtiers. Lors de ce travail de rflexion et de contribution, ils ont galement fait
merger quatre principes communs lensemble des salaris, des fondations sur
lesquelles repose lensemble des transformations mises en uvre.
Enfin, tre fier d'appartenir Orange : toutes les entits se sont mobilises pour
proposer des initiatives replaant lhumain au cur de la dmarche du groupe. Ces
initiatives sont multiples, comme le renouvellement des mthodes de management, la
motivation et la responsabilisation des quipes, la reconnaissance des talents et de la
performance, louverture de nouvelles opportunits de carrire Il sen dgage un
vritable lan commun, une envie de travailler ensemble, rassembls avec fiert sous
la bannire Orange. Le groupe a lambition de runir toutes les conditions de la
russite pour chaque salari(e) dans chacune de ses entits.
Figure1:LOCALISATIONDESR&DATRAVERSLEMONDE
La division Orange Labs est au cur de la stratgie actuelle du groupe. A l'origine des
produits proposs aux clients, elle doit mettre en avant la simplicit dans ces produits.
Elle doit galement s'approprier l'agilit ncessaire l'volution des technologies et
des besoins. Dans le cadre de la performance durable, elle s'implique dans la
mutualisation des rseaux, des plateformes et systmes d'exploitation et dans la
diffusion des innovations.
Le CRD RSeaux d'Accs (RESA) est celui dans lequel jeffectue mon stage.
Figure2:ORGANIGRAMMEETSTRUCTUREDELADIVISIONR&D
5. LeCRDRseauxd'Accs
Le CRD RESA runit plus de 500 personnes (CDI + CDD) sur cinq sites diffrents.
Le laboratoire PEAK est celui dans lequel jai effectu mon stage.
Figure3:ORGANISATIONDUCRDRESA
Ses comptences sont diverses. En termes de production de logiciels, elle est qualifie
en dveloppement, en validation et en mise en place de processus qualit. A cela
s'ajoute sa connaissance du Systme d'Information rseau, le datamining (capacit
extraire des informations partir de donnes), la cartographie et la conception
darchitectures techniques.
Figure4:ORGANISATIONDELUNITEISA
8. Organisationdesprojets
Les projets au sein dOrange Labs sont organiss de faon hirarchique et thmatique.
La cohrence, la performance et la mise en visibilit des activits de recherche et de
dveloppement sont garanties par deux entits diffrentes.
La rpartition des projets est faite au travers de programmes pour les projets de
dveloppement, et dobjets de recherche pour les projets de recherche.
Chapitre2Descriptif gnral
& contexte du
projet
Gnralits
Un DataMart permet dintgrer des sources de donnes htrognes des fins
danalyse. Un des points cl de la russite du processus dentreposage de donnes
rside dans la dfinition du modle de lentrept en fonction des sources de donnes
et des besoins danalyse. Une fois lentrept conu, le contenu et la structure des
sources de donnes, tout comme les besoins danalyse, sont amens voluer et
ncessitent ainsi une volution du modle de lentrept (schma et donnes).
1. ConceptdunDataMartouentreptdedonnes
1.1 Prsentation
Le concept d'entrept de donnes a t formalis pour la premire fois en 1990. L'ide
de constituer une base de donnes oriente sujet, intgre, contenant des informations
dates, non volatiles et exclusivement destines aux processus d'aide la dcision fut
dans un premier temps accueillie avec une certaine hsitation. Beaucoup n'y voyaient
qu'une autre forme du concept dj ancien : l'infocentre.
L'entreprise doit anticiper pour faire face aux nouveaux enjeux conomiques. Pour
tre efficace, l'anticipation peut s'appuyer sur de l'information pertinente qui est la
porte de toute entreprise qui dispose d'un capital de donnes gres par ses systmes
oprationnels et qui peut en acqurir d'autres auprs de fournisseurs externes. Mais
ces donnes ne sont pas organises dans une perspective dcisionnelle et sont
parpilles dans plusieurs systmes htrognes. Il est ncessaire de rassembler et
d'homogniser les donnes afin de permettre des analyses des indicateurs pertinents
et de faciliter les prises de dcisions.
Pour rpondre ces besoins, il a t dfini et intgr une architecture qui va servir de
fondation aux applications dcisionnelles : l'entrept de donnes.
Depuis plusieurs dizaines d'annes, une importante masse d'informations est stocke
sous forme informatique dans les entreprises. Les systmes d'informations sont
destins garder la trace d'vnements de manire fiable et intgre. Ils automatisent
de plus en plus les processus oprationnels.
1.3 Laralitdessystmesd'information
Les donnes contenues dans les systmes dinformations sont :
Eparpilles :
Il existe souvent de multiples systmes, conus pour tre efficaces pour les
fonctions sur lesquelles ils sont spcialiss.
La majorit des systmes existants est conue dans le but unique de rpondre
aux besoins avec des temps de traitement corrects.
1.4 Lesobjectifs
2.1 Lesapplicationsoprationnellessources
2.2 Laprparationdedonnes
La zone de prparation des donnes de l'entrept est la fois une zone de stockage et
un ensemble de processus couramment appels ETL (Extract/Transform/Load).
L'extraction est la premire tape du processus d'apport de donnes l'entrept qui se
traduit par la lecture, l'interprtation et la copie des donnes sources dans la zone de
prparation. Ensuite, on passe la transformation en vue du chargement. Il faut
interdire aux utilisateurs l'accs la zone de prparation des donnes. La dernire
tape s'occupe de charger les donnes, pralablement extraites puis transformes, dans
des cibles htrognes (le plus souvent des entrepts de donnes).
2.3 Laprsentationdedonnes
La zone de prsentation des donnes est le lieu o les donnes sont organises,
stockes et offertes aux requtes directes des utilisateurs, aux programmes de
reporting et aux autres applications d'analyse. La zone de prsentation des donnes est
l'entrept de donnes tel quil est vu par les utilisateurs.
2.4 Lesoutilsd'accsauxdonnes
L'ensemble des outils d'accs aux donnes constitue le dernier composant majeur d'un
environnement d'entrept de donnes. Les outils d'accs aux donnes constituent
l'ensemble des moyens fournis aux utilisateurs pour exploiter la zone de prsentation
en vue de prendre des dcisions bases sur des analyses.
Figure5:ARCHITECTUREGENERALEDUNENTREPOTDEDONNEES
3. Ledcisionneletleslogicielslibres
Les projets dcisionnels sont diviss, le plus souvent, en deux phases. La premire
consiste en extraction, la transformation et lalimentation des donnes et elle ncessite
lutilisation doutils de type ETL (DataStage ou Talend). Les outils dalimentation
prsents sur le march sont multiples et varis. Ils se prsentent sous formes libres ou
propritaires et ncessitent donc une tude pralable afin de dterminer, en fonction
du travail raliser, loutil adquat.
La seconde phase est celle du reporting. Elle va produire les rapports de synthse
finaux qui vont permettre doffrir une vue globale de lactivit. Il existe peu de
logiciels de reporting libres sur le march (Jasper Soft). Au sein dOrange Labs, on
trouve loutil propritaire Business Object.
Pour mieux comprendre le droulement dun projet dcisionnel intgrant des outils
libres (open source), je vais commencer par une brve introduction sur les logiciels
libres et expliquer le fonctionnement des ETL avant de terminer par une prsentation
des 2 outils dcisionnels utiliss par lURD ISA dOrange Labs Belfort.
Une question importante se pose sur la redistribution de ces logiciels par ces
entreprises car au final peu sont celles qui suivent la logique du libre, qui est avant
tout de partager toute amlioration d'un logiciel libre.
Certaines entreprises sont rticentes face aux logiciels libres malgr leur notorit et
leurs cots abordables. Les principaux facteurs de blocage qui ralentissent encore la
diffusion des solutions libres sont entre autres :
Figure6:SCHEMADEFONCTIONNEMENTDUNETL
Rapports et tats
Tableaux de bords
Indicateurs de performance
Analyse multidimensionnelle
Analyse exploratoire
Les volumes de donnes traits sont plus ou moins importants. Ainsi, les critres de
performance sont primordiaux dans le choix d'un ETL.
Figure7:SCHEMAREPRESENTANTLACHANEDECISIONNELLE
La premire solution semble intressante, car elle permet de rester au plus prs des
spcificits mtiers des donnes traiter, tout en s'affranchissant des contraintes lies
l'achat et l'utilisation d'un ETL propritaire. Cependant, cette solution peut s'avrer
coteuse long terme, tout simplement car l'volutivit constante des donnes mtier
entrane une ncessaire adaptation des traitements d'intgration. Celle-ci n'est pas
toujours facile grer, surtout si les quipes projets voluent au cours du temps.
On bnficie ainsi des avantages d'un ETL tout en gardant une matrise lisse des
cots.
Ces derniers sont en effet rduits aux cots de formation initiale de l'outil et d'une
ventuelle souscription une hotline technique. Aucune licence n'est payer dans ce
modle conomique.
Les ETL libres qui paraissent l'heure actuelle comme les plus intressants en termes
de fonctionnalits proposes, de maturit et de prennit sont entre autre Pentaho Data
Figure8:COUTSENFONCTIONDUTEMPSPOURLESDIFFERENTESSOLUTIONS
3.3 LesoutilsETL
Cette partie permet de mieux comprendre le fonctionnement de lETL libre Talend
Open Studio et lETL propritaire DataStage de la socit IBM.
3.3.1 TalendOpenStudio(TOS)
Talend Open Studio est dvelopp par Talend, une socit franaise dynamique et
relativement jeune. La premire version de Talend Open Studio a vu le jour au
2me semestre 2006, et la version actuelle est la 5.1.0
Talend Open Studio est un ETL du type gnrateur de code . Pour chaque
traitement d'intgration de donnes, un code spcifique est gnr en Java. Les
donnes traites et les traitements effectus sont donc intimement lis.
Talend Open Studio utilise une interface graphique, le Job Designer (base sur
Eclipse RCP) qui permet la cration des processus de manipulation de donnes.
Figure9:ZONEDETRAVAILDULOGICIELTALEND
Un rfrentiel permet de stocker les mtadonnes afin de pouvoir les exploiter dans
diffrents jobs. Par exemple, on peut sauvegarder le type et le format des donnes
d'entre d'un fichier CSV afin de pouvoir les exploiter ultrieurement dans un ou
plusieurs composants, facilitant ainsi toute volution ventuelle du schma.
Figure10:EXEMPLEDETRANSFORMATIONSOUSTALEND5.0
3.3.2 IBMInfoSphereDataStage
IBM InfoSphere DataStage permet de collecter, d'intgrer et de transformer de gros
volumes de donnes, quelle que soit la complexit des structures. Il permet d'intgrer
toutes les informations de l'entreprise, quels que soient le nombre de sources/cibles et
les dlais. Qu'il s'agisse de crer un entrept de donnes rpondant aux besoins
informationnels de l'entreprise et ce ventuellement en temps rel - ou d'intgrer
plusieurs dizaines de systmes source prenant en charge les applications d'entreprise,
telles que les applications de gestion de la relation client et de gestion de la chane
logistique globale ou les applications ERP (Enterprise Resource Planning), IBM
InfoSphere DataStage garantit des informations fiables.
Fichiers texte
Structures de donnes XML complexes
Systmes d'applications d'entreprise tels que SAP, Siebel, Oracle et PeopleSoft
Quasiment toutes les bases de donnes, y compris les bases de donnes
partitionnes, telles quOracle, IBM DB2 Universal Database, IBM Informix,
Sybase, Teradata et Microsoft SQL Server
Services Web
SAS
Produits d'intgration d'applications d'entreprise et de messagerie, tels que
WebSphere MQ et SeeBeyond, etc.
Figure11:EXEMPLEDETRANSFORMATIONSOUSDATASTAGE
1. Prsentation
2. Objectifs
Lobjectif de cette tude est de fournir dans un premier temps un prototype sur la base
de solutions dcisionnelles pour tester lETL open source Talend sur un cas rel afin
den dgager le potentiel et den dfinir ventuellement les cots de migration.
Ensuite, partir des donnes dOrange obtenues de diffrentes sources (SI, sondes),
on effectue un ensemble doprations. Cela consiste combiner, agrger et croiser ces
donnes pour obtenir une collection de donnes cohrente et structure, base sur des
contraintes techniques, fonctionnelles et conomiques, en vue de rpondre aux
besoins de la MOA.
3. Description
Analyser et prvoir les diffrents types de trafics des clients dOrange est essentiel
afin dlaborer des offres adaptes au mieux leur demande et afin danticiper les
volutions des rseaux ncessaires pour supporter ces nouvelles offres et garantir
leurs qualits. Cest pourquoi RESA/PEAK/ISA dveloppe un DataMart permettant
un meilleur suivi des trajectoires des trafics ADSL par la production dindicateurs cls
facilitant la ralisation des tudes de trafics et alimentant diffrentes entits rseau et
marketing du groupe.
Durant les 5 mois passs au sein dOrange Labs avec lquipe ISA, javais pour
premire mission dtudier et danalyser la chane de traitement qui fonctionne avec
lETL DataStage. Lobjectif tait la monte en comptence sur le domaine dtude et
Chapitre3Description
synthtique du projet
Dans ce chapitre, je donnerai un aperu sur les diffrents volets du projet, en dtaillant
plus amplement les exigences et les besoins du groupe Orange au niveau de chaque
partie du projet.
ProjetNetworkMiningdugroupeOrange
1. Prsentation
Les clients dOrange se voient aujourdhui proposer des offres de trs haut dbit, que
ce soit sur leur mobile ou sur internet, leur permettant ainsi dapprcier des services
multiples comme la visiophonie, la tlvision et la vido la demande avec une haute
dfinition. On tend galement vers une convergence des moyens daccder au rseau
Orange qui est aujourdhui un oprateur intgr, proposant des offres spcifiques.
Dans ce contexte, observer, analyser et prvoir les diffrents trafics des clients fixes et
mobiles, voix et data, est essentiel, pour proposer des offres de qualit et adaptes aux
besoins des clients, tout en mesurant limpact de ces nouvelles offres au niveau du
rseau. Cest pourquoi FT/OLNC/RD/RESA/PEAK/ISA dveloppe un DataMart pour
aider lanalyse des trafics de ses clients. Ce DataMart est aliment par des donnes
provenant du systme dinformation dOrange et par des donnes de trafic provenant
de lapplication OTARIE dveloppe par lunit Recherche & Dveloppement qui
rcolte les informations des sondes disposes sur le rseau.
2. Cahierdescharges
2.1 Objectifs
3. Prsentationduprojet:
Dans cette partie, je prsente le DataMart mis en uvre
FT/OLNC/RD/RESA/PEAK/ISA afin de collecter les informations issues du trafic
des clients ADSL dOrange pour pouvoir les analyser et fournir des informations la
MOA. Tous les traitements sont effectus par l'ETL DataStage (IBM), que ce soit pour
alimenter les diffrentes tables de la base de donnes, ou pour fournir des
informations sous forme de fichiers texte. Tous ces traitements sont effectus par des
jobssuccessifs, pouvant tre excuts par un squenceur.
Le lancement de ces Jobs peut tre effectu au moyen de scripts bash. Les formats
dentre et de sortie de cet outil sont trs varis :
Base de donnes
Fichiers texte
FichiersHash Files(fichiersPick Universe)
Une base de diffusion est ensuite obtenue partir de la base dintgration. Cette base
de diffusion contiendra des donnes agrges, croises et historises permettant aux
statisticiens davoir immdiatement les informations dont ils ont besoin. Cette base est
organise de telle sorte quelle soit accessible par plusieurs utilisateurs.
Lobjectif est de permettre une rponse rapide toutes les problmatiques poses par
le dimensionnement et la qualit de service des rseaux de collecte ADSL.
3.2 Sourcesdesdonnes
Figure12:ARCHITECTUREFONCTIONNELLEDUDATAMARTTRAFICADSL
Le DataMart trafic utilise dune part les donnes internes, journalires, issues de
lapplication SIDOBRE, contenant les caractristiques techniques des clients qui ont
gnr du trafic ADSL et leur offre associe, et dautre part celles externes issues de
lapplication OTARIE qui collecte les donnes de trafic.
Les donnes SIDOBRE sont mises disposition 7j/7 via un portail web. Quant aux
donnes OTARIE, elles sont accessibles sur un serveur situ Lannion.
Data:585Go
WindowsServer
PNSOISE IssylesMoulineaux
2003
Data2:683Go
Data:817Go
WindowsServer
BDIBUS Belfort
2003
Data2:817Go
/data/data1:2,0To
LinuxRedHatRHEL
BTRAFIC Belfort
4x8632bits
/data/data2:1,8To
B LinuxRedHatRHEL
Belfort /srv/nas:2,2To
NTWMINING 4x8632bits
Larchitecturetechniqueestlasuivante:
Figure13:LARCHITECTURETECHNIQUEDESSERVEURSDATAMART
Figure14:MODELEPHYSIQUEDESDONNEESSIDOBREDELABASEORACLETRAFIC
Les fichiers SIDOBRE sont mis disposition sur un portail Web. Ceux rcuprs
dans le cadre du DataMart le sont tous les jours (sauf le dimanche), en fin de matine :
Les informations issues des 5 fichiers de plaque contenant la liste des clients ayant
gnr du trafic sont insres dans le schma SIDOBRE de la base TRAFIC.
La chane de traitement doit fonctionner 6 jours sur 7. Elle est donc excute
automatiquement sur le serveur B-TRAFIC, 13H30, laide dun script lanc depuis
la crontab.
Figure15:APPELDESJOBSVIAUNSEQUENCEUR
Chapitre4Prsentation
du travail ralis
Analysedelexistant
Durant mon stage, jai ralis un reverse engineering du DataMart existant dvelopp
sous lETL Data Stage de la socit IBM. Cela a consist dcrire la chane de
traitement dans le but davoir une vue globale de son fonctionnement, de comprendre
la philosophie dun ETL, et de voir les donnes manipules. Par consquent, cela ma
permis de monter en comptences sur le domaine de couverture de mon stage.
1. Reverseengineering
Depuis la premire version du DataMart trafic ADSL dveloppe il y a plusieurs
annes, de nombreuses modifications ou volutions ont t effectues, avec une mise
jour partielle de la documentation. Par consquent, jai ralis un reverse
engineering afin de dcrire la chane de traitement dans un document.
Lintrt de cette opration tait triple. Cela ma permis de prendre en main lETL
DataStage, de monter en comptence sur les donnes manipules et de faire une
description de la chane existante. Il sagira dans un premier temps de slectionner les
informations en adquation avec les objectifs fixs et dans un second temps de
dterminer les donnes regrouper. Les donnes issues des sondes existent sous
plusieurs formes. Il va donc falloir les intgrer afin de les homogniser et de leur
donner un sens unique et comprhensible. Il faut avoir une vue globale sur le
droulement du traitement qui sarticule comme suit :
Les traitements sont effectus par des jobs successifs, pouvant tre excuts
par un squenceur. Le lancement de ces jobs peut tre effectu au moyen dun
script.
1.1 Schmadescriptif
Le schma global de la chane de traitement permet de faire ressortir les lments
permettant de cibler les amliorations possibles sur le DataMart, en vue dobtenir des
gains au niveau du temps de traitement et de la structure des donnes.
Ce schma prsente le traitement global des donnes. Les entres sont les 5 fichiers de
plaques, et une table de rfrence de la base de donnes Oracle.
Figure16:CHANEDETRAITEMENTGLOBALE
Cot lev : pour la ralisation de ces traitements, on se base sur un outil ETL
propritaire avec un cot de maintenance annuel lev.
1. Conceptiondelachanedetraitement
Figure17:SCHEMACIBLEDELANOUVELLECHANEDETRAITEMENT
2. DveloppementduDataMartTraficADSL
Je vais montrer en dtail les diffrentes phases de ralisation dun DataMart
dcisionnel avec lETL Talend Open Studio, de la modlisation de la chane de
traitement la construction du fichier du PARC_Client.txt.
2.1 Descriptiondutraitement
Ce projet consiste construire une chane de traitement des donnes du trafic ADSL
des clients dOrange. Il est compos de deux jobs, chacun traitant une partie du
traitement dont le rsultat dexcution sera utilis comme entre dans ltape suivante.
Etant une solution open source, Talend prsente plusieurs avantages par rapport aux
autres ETL :
2.3 ComposantsTalendutiliss
dextraire les donnes depuis des fichiers textes ou dune base de donnes
Oracle en spcifiant les champs dsirs
de transformer certains champs
de filtrer selon diffrentes conditions
de trier
de joindre les donnes entre elles, ce qui facilite le chargement des tables du
DataMart
de slectionner et/ou renommer des champs
dinsrer et/ou de mettre jour des tables
Figure18:COMPOSANTD'UNDATAMARTTRAFICADSL
3.1.1 Donnessourcedetraitement
Fichiers de plaques :
U1 : plaque Ile-de-France
OU : plaque Ouest
NE : plaque Nord-Est
SE : plaque Sud-Est
SO : plaque Sud-Ouest
Les fichiers de plaques contiennent les informations techniques des clients (numro
de tlphone) pour un jour donn.
DR CodeDR(DirectionRgionale) VarChar(2)
NomduNRA(Nomdelaboucle
NOMNRA locale) VarChar
NumrodeDsignation(numrode
ND tlphone) VarChar(9)
VP CodeVP(canauxvirtuelATM) VarChar(4)
VC CodeVC(canauxvirtuelATM) VarChar(6)
3.1.2 LaBasedeDonnesOTARIE
Afin de tester lETL Talend, dtudier la faisabilit du portage du projet sous Talend
et faciliter la prsentation du travail ralis sous forme de prototype, jai utilis une
base de donnes MySQL qui reprend la mme structure que celle de la base de
donnes Oracle utilise par Orange Labs.
Pour la cration de ma base de donnes MySQL, jai utilis loutil WAMP qui permet
la cration de bases de donnes avec PHP. Jai donc cr la table ncessaire au
fonctionnement de la chane de traitement afin de ne pas interfrer sur la base de
production.
Cette table contient les informations de type doffres des clients dans le rfrentiel
OTARIE.
Pour des raisons dinsuffisance de mmoire, jai d scinder le traitement en deux jobs
pour obtenir la fin le fichier PARC_Client.txt contenant les informations sur les
clients ainsi que leur liste de services associs.
3.2.1 JOB_1:GnrationduFlux_Principal
Ce job consiste gnrer un flux correspondant au parc national des clients ADSL et
de complter ce flux avec les informations de type offre (DATA, TOIP, MLT, MLV)
provenant de la base de donnes.
Figure19:GENERATIONDUFLUXPRINCIPAL
3.2.1.1 Leslmentsdetraitement
En entre de ce job, on utilise 5 fichiers de plaques de structure identique. Le
traitement seffectue comme suit :
Tous les clients ont une offre DATA. Pour ne garder quune ligne par client,
on filtre sur les offres (DATA, TOIP, MLT, MLV) laide du composant
tMap partir du flux venant du composant tUnit.
Chaque offre est reconnaissable par son libell. Le filtrage effectu au niveau
du composant tMap Filtre_OFFRES gnre quatre flux correspondant aux 4
types doffre possibles (MLV, MLT, TOIP, DATA).
Un fichier de plaque peut contenir plusieurs lignes par client. Afin dviter les
doublons, jai utilis une cl de filtrage reprsentative avec moins de critres
que dans le traitement actuel (2 critres au lieu de 11). Jai galement constat
que Talend gre mal la multitude de critres. Par consquent, le choix de cette
cl de filtrage tait appropri.
9 ND
9 DATEMES
En sortie de ce composant, les flux TOIP, MLV et MLT seront envoys dans
des composants tFileOutputDelimited afin de gnrer des fichiers au format
CSV pour les utiliser comme entre du JOB_2.
Le flux DATA est envoy vers un composant tMap afin de lenrichir des
donnes de lapplication OTARIE. Celles-ci viennent du composant
tMysqlInput qui permet de complter le flux DATA par les informations de
type OFFRE issues de lapplication OTARIE. La requte est la suivante :
Ensuite, une jointure est faite sur la colonne OFFRE venant du Flux_Principal
et la colonne LIB_OFFRE venant de la base de donnes laide du composant
tMap, afin dajouter le libell de loffre OTARIE au Flux Principal.
3.2.2 JOB_2:Constructiondelalistedesservices
Le job est compos des rsultats dexcution du JOB_1, avec en entre le fichier
contenant les donnes du Flux_Principal ainsi que les fichiers TOIP,MLTetMLV.
Figure20:GENERATIONDUFICHIERDEPARCCLIENT
3.2.2.1 Leslmentsdetraitement
Le mme traitement est effectu pour les OFFRE_3 contenant les offres MLT
et OFFRE4 contenant les offres MLV dans les composants tMap
correspondants (JOINTURE_2 et JOINTURE_3).
A la fin de ce traitement, on obtient un flux contenant toutes les informations sur les
clients ainsi que les 4 offres auxquelles ils ont souscrit. Ensuite, on passe la
construction de la liste des services.
"#"+OFFRES.OFFRE_1+"#"+OFFRES.OFFRE_2+"#"+OFFRES.OFFRE_3+"#"
+OFFRES.OFFRE_4+"#
3.3 Chargement
L'objectif principal de cette tape dalimentation du fichier PARC_Client.txt est de
rassembler les donnes collectes dune manire cohrente, simple utiliser pour les
mettre disposition des utilisateurs internes du groupe Orange.
VP Code VP VarChar(4)
VC Code VC VarChar(6)
Les difficults techniques sont lies toute reprise dune chane existante. Le modle
de dveloppement, les contraintes du schma de la base de donnes ainsi que lETL
utilis sont les principaux points que lon peut citer :
Une autre solution aurait t dutiliser une machine plus puissante et avec une
capacit de mmoire plus importante.
Jai amlior aussi ma capacit dcoute pour savoir en dduire les besoins des clients
et ma capacit danalyse et de synthse. Jai d travailler sur mon expression orale
afin de savoir mexprimer de faon claire et directe et jai appris savoir prioriser les
diffrents moyens de communication (oraux et crits) qui existent dans lentreprise.
Jai appris prioriser les tches, bien organiser mon temps tout en restant flexible et
madapter aux rythmes de travail et aux exigences des personnes avec qui je
travaillais.
Je me suis sentie trs bien accueillie par les personnes du secteur car il y a une
ambiance de travail la fois trs professionnelle et trs humaine. Je me suis rendu
compte de limportance dtre laise dans son environnement de travail et
dapprcier la compagnie des collgues en dehors des contextes strictement
professionnels. Ce stage ma permis de mpanouir aussi bien sur le plan
professionnel que personnel.
ATM AsynchronousTransferMode
BAS BroadbandAccessServer
BI BusinessIntelligence
DATEMES DateMiseenService
DSLAM DigitalSubscriberLineAccessMultiplexer
ERP EnterpriseResourcePlanning
ETL Extraction,Transformation&Chargement
FAI Fournisseurd'AccsInternet
GE GigabitsEthernet
MLT MaLigneTV
MLV MaLigneVisio
MOA MaitredOuvrage
ND NumrodeDsignation
SAS StatisticalAnalysisSystem
SGBD SystmedeGestiondeBasedeDonnes
TOIP TlphoniesurIP
VC VirtualChannel
VoIP VoixsurIP
VP VirtualPath
WAMP Windows,Apache,MySQL,PHP
Alimentation
Insertion de donnes dune source vers une cible. Dans un projet dcisionnel, on
observe en gnral plusieurs bases de donnes source et une base cible (Datamart).
Ces informations peuvent subir des transformations avant leur chargement.
Base de donnes
Ensemble de donnes structur, enregistr sur un systme de fichier. Ces informations
sont gres laide dun Systme de Gestion de Base de Donnes.
Business Intelligence
Dnomination anglophone de dcisionnel . Cest un domaine dont lobjectif est
dobtenir une vue densemble dune activit, par le biais de rapports, tableaux de
bord Cela consiste en la collection, la consolidation, la modlisation et la restitution
des donnes.
Composant
Connecteur pr-configur excutant une opration spcifique dintgration de
donnes, quel que soit le type de donnes (bases de donnes, applications, fichiers
plats, services Web, etc.).
Datamart
Aussi appel Magasin de donnes , le Datamart est un ensemble de donnes
cibles (qui concernent un mtier ou domaine spcifique), organises, regroupes et
agrges (catgorises).
Elment
Unit technique constituant un projet. Les lments sont regroups en fonction de leur
type : Job Design, Business Model, Context, Code, Metadata, etc.
ETL
Permet lExtraction, la Transformation et le Chargement de donnes depuis des
sources diverses (bases de donnes, fichiers) vers des cibles.
Job
Concept graphique, compos dun ou plusieurs composants relis entre eux. Il permet
de mettre en place des processus oprationnels de gestion des flux.
OTARIE
Application dveloppe par Orange Labs pour collecter les donnes de trafic issues
des sondes positionnes sur le rseau.
Projet
Ensemble structur dlments techniques et de leurs mtadonnes associes.
PHP
Langage de programmation qui embarque des fonctionnalits objet depuis sa version 5.
Principalement utilis pour les sites internet, il est galement rpandu parmi les
applications web dentreprise.
Rapport
Document dit par un logiciel. C'est une prsentation priodique des bilans
analytiques sur les activits et rsultats d'une organisation. Ces donnes sont
gnralement issues dun Datamart, dun Datawarehouse ou dune base de donnes en
vue de fournir des rsultats d'analyse.
Rfrentiel
Espace de stockage (repository en anglais) utilis par Talend pour regrouper les
donnes lies aux lments techniques utiliss soit pour dcrire les Business Models,
soit pour crer les jobs.
Schma
Dfinit le nom des champs, leur type et leur taille qui sont utiliss par un composant.
Le schma est soit local au composant (Built-in), soit commun plusieurs composants
(dans le Repository).
Squenceur
Ordonnanceur dcoup en une suite ordonne d'oprations ou d'lments pour le
lancement des jobs partir d'un script.
Stage
Elment dun job sous DataStage (appel galement composant sous Talend Open
Studio).
Sites Internet :
Site officiel d'Orange :
http://www.orange.com/fr_FR/groupe/
SiteofficielTalend:
http://www.talend.com
http://www.talendforge.org
http://fr.wikipedia.org/wiki/Entreposage
http://fr.wikipedia.org/wiki/Datamart
Forums et tutoriels :
http://www.developpez.net/forums/d1050064/logiciels/solutions-
dentreprise/business-intelligence/etl/talend/alimentation-datamart/
http://business-intelligence.developpez.com/faq/talend/?page=II
http://www.labdecisionnel.com
http://www.decideo.fr/
http://www.informatiquedecisionnelle.com/
Ouvrage :
"Le Datawarehouse, le Data Mining" - Jean-Michel Franco et EDS-Institut
Promthus - Eyrolles, 1996
Rsum
Afin de valider un Master 2 Informatique en Systmes Distribus et Rseaux
lUniversit de Franche Comt, jai ralis un projet dcisionnel au sein dOrange
Labs Belfort, lun des centres de Recherche et Dveloppement dOrange.
Le sujet propos consistait dans un premier temps raliser une tude de linfocentre
existant et deffectuer un reverse engineering sur une chane de traitement. Cela ma
permis de mimprgner du sujet, de prendre en main lETL DataStage et de produire
un document dcrivant la chane de traitement.
Le travail accompli dans la premire partie a port sur lETL DataStage utilis par
Orange Labs pour grer cet infocentre. Il a consist, aprs le recueil et lanalyse des
besoins client, cibler les axes damlioration possibles pour prsenter la chane de
traitement dune manire plus structure et facile grer. La conclusion de ce travail a
t la rdaction dun document analytique complet qui sera utilis dans la suite du
stage. La structure de la chane du traitement a t modifie pour prendre en compte
les amliorations et faciliter ensuite le travail de la phase suivante de conception du
DataMart trafic.
OrangeLabsRechercheetDveloppement
1rueMauriceetLouisdeBroglie
CS20382
90007BELFORTCedex