Rapport Stage HASSANI PDF

Universit de Franche Comt Besanon
Facult des Sciences et Techniques

Dpartement Informatique des Systmes Complexes
Tuteur : Monsieur Bruno TATIBOUET
RALISATION DUN DATAMART

DCISIONNEL INTGRANT UN
ETL OPEN SOURCE
Loubna HASSANI
Orange Labs Recherche et Dveloppement

1 rue Maurice et Louis de Broglie
CS 20382
90007 BELFORT Cedex
Matre de stage :
Monsieur Thierry STUNAULT
Soutenu le 11 juin 2012

Loubna HASSANI Ralisation dun DataMart dcisionnel avec un ETL Open Source

Remerciements
Un stage nest jamais un travail individuel. Il sinscrit dans une dmarche

globale de recherche qui bnficie des travaux dj raliss, est en relation avec les
travaux en cours et sera peut tre repris par la suite.
Ce rapport doit donc normment M. Thierry STUNAULT qui ma encadre

tout au long de cette priode, car une bonne stagiaire nest rien sans un bon matre de
stage, ainsi que Mme Catherine CHEVANET, responsable de lURD, grce qui
cette opportunit de stage sest prsente.
Je remercie mon encadrant de luniversit M. Bruno TATIBOUET pour son

encadrement constant et ses nombreux conseils.
Je remercie galement M. Michel USCLADE et Mme Sandrine LOVISA pour

leur part active dans cette initiative, et leurs conseils qui ont particips lavancement
du projet.
Je tiens remercier tout le personnel de lquipe dont jai fait partie pendant
cinq mois, savoir lUnit de Recherche et Dveloppement ISA, Information
System Integration validation for Access network dOrange Labs Belfort.
Toutes ces personnes ont su rendre ce stage intressant, dabord au niveau

professionnel, me permettant de dcouvrir des aspects techniques ou organisationnels
que je ne connaissais pas, mais aussi humains, grce un accueil chaleureux et une
ambiance agrable.
Ce stage aura vritablement t un passage mmorable de ma formation, avant

tout grce eux, et je les en remercie.
Juin 2012 MASTER 2 SDR Orange Labs Page2


Tabledesmatires
Introduction .............................................................................................................. 6
Chapitre 1 Cadre de stage .................................................................................. 7

Orange........................................................................................................................... 7
1. Prsentation............................................................................................................. 7
2. Le grand projet : conqutes 2015 ............................................................................ 8
3. Orange Labs, la Recherche et Dveloppement dOrange ..................................... 10
4. Organisation de la direction Recherche et Dveloppement .................................. 11
5. Le CRD Rseaux d'Accs ..................................................................................... 12
6. Le laboratoire Performance & Engineering of the Access network (PEAK) ....... 13
7. L'unit Information System, integration & validation for Access network (ISA) 14
8. Organisation des projets........................................................................................ 14
Chapitre 2 Descriptif gnral & contexte du projet ................................. 16

Gnralits .................................................................................................................. 16
1. Concept dun DataMart ou entrept de donnes .................................................. 16
2. Composants d'un entrept de donnes .................................................................. 19
3. Le dcisionnel et les logiciels libres ..................................................................... 20
Contexte du stage ....................................................................................................... 28
1. Prsentation........................................................................................................... 28
2. Objectifs ................................................................................................................ 28
3. Description ............................................................................................................ 28
Chapitre 3 Description synthtique du projet ............................................ 30

Projet Network Mining du groupe Orange ............................................................. 30
1. Prsentation........................................................................................................... 30
2. Cahier des charges ................................................................................................ 30


3. Prsentation du projet ........................................................................................... 31
4. La chane de traitement du DataMart Trafic ADSL ............................................. 34
Chapitre 4 Prsentation du travail ralis ................................................. 36

Analyse de lexistant .................................................................................................. 36
1. Reverse engineering.............................................................................................. 36
2. Constat suite au reverse engineering .................................................................... 39
Mise en uvre dun ETL open source ..................................................................... 41
1. Conception de la chane de traitement .................................................................. 41
2. Dveloppement du DataMart Trafic ADSL.......................................................... 42
3. Scnario de mise en uvre ................................................................................... 44
Difficults techniques ................................................................................................. 51
Bilan Personnel........................................................................................................... 52
Conclusion ............................................................................................................... 53
Abrviations et acronymes ................................................................................ 54
Glossaire ................................................................................................................... 55
Bibliographie .......................................................................................................... 57


Tabledesillustrations
Figure1:LOCALISATIONDESR&DATRAVERSLEMONDE.........................................................................10
Figure2:ORGANIGRAMMEETSTRUCTUREDELADIVISIONR&D..........................................................12
Figure3:ORGANISATIONDUCRDRESA................................................................................................................13
Figure4:ORGANISATIONDELUNITEISA............................................................................................................14
Figure5:ARCHITECTUREGENERALEDUNENTREPOTDEDONNEES..................................................20
Figure6:SCHEMADEFONCTIONNEMENTDUNETL.....................................................................................22
Figure7:SCHEMAREPRESENTANTLACHANEDECISIONNELLE............................................................23
Figure8:COUTSENFONCTIONDUTEMPSPOURLESDIFFERENTESSOLUTIONS...........................24
Figure9:ZONEDETRAVAILDULOGICIELTALEND........................................................................................25
Figure10:EXEMPLEDETRANSFORMATIONSOUSTALEND5.0...............................................................26
Figure11:EXEMPLEDETRANSFORMATIONSOUSDATASTAGE..............................................................27
Figure12:ARCHITECTUREFONCTIONNELLEDUDATAMARTTRAFICADSL.....................................32
Figure13:LARCHITECTURETECHNIQUEDESSERVEURSDATAMART................................................33
Figure14:MODELEPHYSIQUEDESDONNEESSIDOBREDELABASEORACLETRAFIC................34
Figure15:APPELDESJOBSVIAUNSEQUENCEUR...........................................................................................35
Figure16:CHANEDETRAITEMENTGLOBALE.................................................................................................38
Figure17:SCHEMACIBLEDELANOUVELLECHANEDETRAITEMENT..............................................41
Figure18:COMPOSANTD'UNDATAMARTTRAFICADSL.............................................................................44
Figure19:GENERATIONDUFLUXPRINCIPAL...................................................................................................47
Figure20:GENERATIONDUFICHIERDEPARCCLIENT................................................................................49


Introduction
Ce stage de fin dtudes sinscrit dans le cadre du Master Informatique professionnel

Systmes Distribus et Rseaux (SDR) de lUniversit de Franche Comt. Il sest
droul au sein de lunit de Recherche et Dveloppement Orange Labs sur une
priode de cinq mois.
Le pilotage de lentreprise est primordial dans le sens o il ncessite des choix qui
consistent dgager un profit durable. Il est important pour les performances de la
socit que ces prises de dcisions soient bases sur ltat global de celle-ci. Cest
ainsi quintervient le dcisionnel, qui fournit une reprsentation intelligente des
informations provenant des bases de donnes au travers doutils spcialiss.
Dans un premier temps, je prsenterai l'environnement professionnel dans lequel

j'volue. Je commencerai par une brve description des objectifs du groupe Orange,
qui traduiront la ncessit d'une branche de Recherche & Dveloppement efficace,
innovante et proche des besoins du client. Je situerai ensuite l'unit dans laquelle je
travaille par des descriptions successives de chaque niveau de l'organisation
fonctionnelle de la branche Recherche & Dveloppement.
Dans un deuxime temps je prsenterais le projet DataMart qui ma t confi, il

est constitu de deux parties principales. La premire partie consistait faire une
analyse pousse du DataMart existant. Des modifications de plusieurs natures taient
attendues, afin de rationaliser le traitement actuel (suppression des donnes inutiles et
simplification des traitements).
Lvolution de la chane de traitement poursuivait plusieurs objectifs : permettre un

gain au niveau du temps dexcution afin de fournir plus rapidement des informations
cohrentes aux clients internes dOrange, permettre ventuellement de raliser une
analyse plus fine de lactivit et enfin optimiser la base de donnes en ce qui concerne
son contenu.
La seconde partie consistait, partir de lanalyse effectue dans la premire partie,

raliser un DataMart pour le suivi et lanalyse des donnes trafic ADSL des clients
partir des informations techniques ainsi que commerciales. Pour ce faire, loutil open
source Talend a t utilis en remplacement de DataStage afin de le tester en grandeur
nature. Le DataMart devait permettre dobtenir une vision globale des activits des
clients, et den assurer plus facilement le suivi et lanalyse.
Ce projet ma permis en particulier dtre confront aux problmatiques de

modlisation tudies cette anne. Il ma offert galement la possibilit de concevoir
un DataMart dans sa totalit, de la phase dtude celle de lalimentation en passant
par lanalyse et la conception.


Chapitre 1Cadre de stage
Dans le prsent chapitre, jintroduis une prsentation gnrale de lentreprise o jai

pass mon stage de fin dtude.
Orange

1. Prsentation
Orange est lun des principaux oprateurs europens du mobile et de laccs internet
ADSL, et lun des leaders mondiaux des services de tlcommunications aux
entreprises multinationales, sous la marque Orange Business Services.
Depuis 2006, Orange est la marque unique du groupe Orange pour lInternet, la
tlvision et le mobile en France et dans la majorit des pays o le groupe est prsent.
Orange Business Services est la marque des services offerts aux entreprises dans le
monde.
Orange est le 3me oprateur mobile et 1er fournisseur daccs Internet ADSL en
Europe, il compte parmi les leaders mondiaux des services de tlcommunications
aux entreprises multinationales. Oprateur intgr, le groupe se donne les moyens
dtre loprateur de rfrence des nouveaux services de tlcommunications en
Europe.
Chiffres cls dOrange en France
100 000 salaris

7,4 millions de Livebox
9 millions de clients quips haut dbit, soit 46,3% de part de march Grand
Public
26,2 millions de clients mobiles dont 14,6 clients haut dbit mobile
7,2 millions de clients VOIP
1200 boutiques Orange
736 000 clients Orange TV
48 000 clients ont signs pour la Fibre (644 000 foyers connectables)
Orange sadresse simultanment ses salaris, ses clients, ses actionnaires et plus
largement la socit dans laquelle lentreprise volue en sengageant concrtement


sur des plans dactions. Ceux-ci concernent les salaris du groupe grce une
nouvelle vision des Ressources Humaines ; les rseaux, avec le dploiement des
infrastructures du futur sur lesquelles le groupe btira sa croissance ; les clients, avec
lambition de leur offrir la meilleure exprience parmi les oprateurs grce,
notamment, lamlioration de la qualit de service ; et lacclration du
dveloppement international.
Le groupe a chang aussi sa stratgie : il ne se contente plus uniquement de s'adapter

aux technologies. La priorit identifie aujourdhui est de rpondre au besoin des
clients. Cette stratgie est la fois une stratgie d'oprateur intgr, une stratgie de
convergence et une stratgie d'innovation. Elle s'articule autour de trois modes
d'actions :
La simplicit, ou comment simplifier la vie des clients
L'agilit, ou comment dvelopper l'agilit du groupe dans l'exercice de ses

mtiers
La performance durable, dont l'objectif est d'inscrire la performance dans la

dure
2. Legrandprojet:conqutes2015
Le comit de direction dOrange a rcemment chang. Ce changement, initialement
prvu en 2012, a t prcipit pour rpondre la crise sociale tant mdiatise dont le
principal moteur est le stress vcu par ses salaris.
Le plus important changement concerne la nomination de Stphane Richard au poste

de Directeur Gnral. Le nouveau comit a dcid quil tait ncessaire pour Orange
de se remobiliser et davancer vers de nouveaux objectifs sociaux, financiers et
organisationnels.
Cinq plans dactions sont identifis pour ce projet.
Les salaris au cur du dveloppement de lentreprise : pour raliser lambition

dOrange, elle doit raliser ses engagements vis--vis de ses salaris, cela pour aboutir
une nouvelle vision des relations et des ressources humaines dans lentreprise.
La monte en dbit et la transformation des infrastructures du groupe : au

bureau, la maison ou en dplacement, les clients recherchent de plus en plus de
contenus numriques et de communications interpersonnelles enrichies. Le groupe
propose des moyens techniques pour assurer dans la dure lacheminement de ces
nouveaux services.
La simplicit et la fiabilit des produits et des services : cest lun des piliers de la
qualit de service, avec la relation client. Simplicit et fiabilit constituent des leviers
dcisifs pour distinguer le groupe de ses concurrents et faire prfrer Orange
lensemble des parties prenantes.
Lexcellence dans la relation client : prospects, acheteurs, utilisateurs... Tous les

clients doivent bnficier dune coute et dune relation irrprochables. Laction


dOrange se fonde sur des principes simples, comme le respect des commandes et des
dlais de livraison par exemple. A lentreprise denrichir la relation de moments
privilgis, adapts au profil du client.
Les nouveaux services : le cur de mtier dOrange est de crer du lien. Sa mission
consiste faciliter la vie numrique de ses clients. Pour cela, le groupe va leur
proposer des nouvelles gnrations de services fiables et accessibles partout et quand
ils le souhaitent.
Pays et entits ont adapt chaque plan daction la ralit de leurs marchs et de leurs
mtiers. Lors de ce travail de rflexion et de contribution, ils ont galement fait
merger quatre principes communs lensemble des salaris, des fondations sur
lesquelles repose lensemble des transformations mises en uvre.
Lengagement de tenir la promesse du groupe : monte en puissance des rseaux et

des dbits, accessibilit des offres, fiabilit et simplicit des services Dans tous les
plans daction figure lengagement des quipes offrir le meilleur service au meilleur
prix. Mais cela ne se traduit pas partout de la mme faon : les mtiers, les cultures et
les quipes sont diffrents dun pays et dun march lautre. Par consquent, le
groupe ne va pas formuler la mme promesse tous ses clients.
La volont dtre un oprateur de confiance : Orange a lanc ou va lancer de

nombreuses actions dans le domaine de la responsabilit sociale dentreprise, la
qualit de service de bout en bout, la connaissance de ses clients, la scurit de leurs
donnes et de leurs usages... Le sens de ces actions est tout simplement de dvelopper
la fidlit de ses clients non seulement sur la base davantages tarifaires immdiats
mais, dans la dure, en nouant une relation de confiance avec eux. Les clients sont le
premier atout. A Orange de le valoriser, en facilitant et en protgeant la foisonnante
vie numrique, en devenant leur oprateur de confiance.
Linnovation au bnfice des clients : Orange est lun des oprateurs de

tlcommunications les plus innovants au monde. Ses plans daction et feuilles de
route fourmillent dinitiatives pionnires pour mettre au point de nouvelles plates-
formes de services, dvelopper le Cloud Computing , inventer de nouveaux usages
dans les domaines de lducation, de la sant, de lconomie au quotidien Ce qui
intresse le groupe, ce nest pas la premire marche du podium mondial des nouvelles
technologies mais que, dans chaque pays o il est prsent, ses clients le reconnaissent
comme linnovateur le plus actif dans leur environnement. Une entreprise qui,
concrtement, amliore leur vie au quotidien.
Enfin, tre fier d'appartenir Orange : toutes les entits se sont mobilises pour
proposer des initiatives replaant lhumain au cur de la dmarche du groupe. Ces
initiatives sont multiples, comme le renouvellement des mthodes de management, la
motivation et la responsabilisation des quipes, la reconnaissance des talents et de la
performance, louverture de nouvelles opportunits de carrire Il sen dgage un
vritable lan commun, une envie de travailler ensemble, rassembls avec fiert sous
la bannire Orange. Le groupe a lambition de runir toutes les conditions de la
russite pour chaque salari(e) dans chacune de ses entits.


3. Orange Labs, la Recherche et Dveloppement
dOrange
Orange Labs est, limage du groupe Orange, international. Il compte prs de 3600
chercheurs et ingnieurs sur 17 sites rpartis sur 4 continents.
Figure1:LOCALISATIONDESR&DATRAVERSLEMONDE
La Division "Recherche et Dveloppement" a pour principales missions :
De dvelopper des produits et services pour le groupe, en respectant la

qualit de service
De dgager de nouvelles sources de croissance
Danticiper les rvolutions technologiques et dusage
Dimaginer ds maintenant les solutions du futur.
En contribuant la convergence des technologies et lenrichissement des services

dOrange, la capacit de R&D constitue pour le Groupe un avantage stratgique
majeur pour anticiper les grandes ruptures technologiques, orienter linnovation du
secteur des tlcommunications et inventer la nouvelle gnration de services : des
services de communication intgrs, innovants et simples dutilisation. Orange Labs
prsente deux dimensions, la recherche et le dveloppement.


Ses activits de recherche permettent de dtecter les ruptures technologiques, et
acqurir un savoir-faire. Elles permettent galement dexceller en protection et
valorisation de la proprit intellectuelle du groupe. Enfin, ce sont ces activits qui
conduisent lexploration de nouvelles technologies, services et usages.
En termes de dveloppement, Orange Labs doit concevoir les services du futur et

amliorer les offres existantes, en rduisant les dlais de mise sur le march afin de
rpondre aux besoins du march au plus tt. Elle intervient galement dans le
dveloppement de partenariats stratgiques avec les industriels. Elle reprsente le
groupe dans les instances de normalisation des diffrentes normes technologiques.
La division Orange Labs est au cur de la stratgie actuelle du groupe. A l'origine des
produits proposs aux clients, elle doit mettre en avant la simplicit dans ces produits.
Elle doit galement s'approprier l'agilit ncessaire l'volution des technologies et
des besoins. Dans le cadre de la performance durable, elle s'implique dans la
mutualisation des rseaux, des plateformes et systmes d'exploitation et dans la
diffusion des innovations.
4. Organisation de la direction Recherche et

Dveloppement
La Division Recherche & Dveloppement est compose en France, pour sa partie
ingnierie technique, de six CRD (Centres de Recherche & Dveloppement)
structurs autour des types de services et de rseaux existants, comme le montre la
Figure 3 :
Le CRD Services Intgrs, Rsidentiels et Personnels

Le CRD Service aux Entreprises
Le CRD Middleware et Plates-formes avances
Le CRD Rseaux d'accs
Le CRD Technologies
Le CRD Cur de Rseau
Le CRD RSeaux d'Accs (RESA) est celui dans lequel jeffectue mon stage.


Figure2:ORGANIGRAMMEETSTRUCTUREDELADIVISIONR&D
5. LeCRDRseauxd'Accs
Le CRD RESA runit plus de 500 personnes (CDI + CDD) sur cinq sites diffrents.
Ce CRD a pour mission de :
Dvelopper les comptences cls pour intervenir efficacement sur les

projets de dveloppement et de recherche
Identifier et construire les comptences de demain
Conduire les projets et assurer la tenue des dlais et la qualit des livrables
Il rpartit, comme le prsente la Figure 4, ces objectifs travers quatre laboratoires :
Fixed Access Network Architecture (ANA)

Design and Evaluation of multiservices fixed Access Networks (DEAN)
Performance & Engineering of the Access network (PEAK)
Wireless Access Systems & Architecture (WASA)
Le laboratoire PEAK est celui dans lequel jai effectu mon stage.


Figure3:ORGANISATIONDUCRDRESA
6. Le laboratoire Performance & Engineering of the

Accessnetwork(PEAK)
Le laboratoire PEAK a pour mission de dfinir des mthodes de planification et de
dvelopper des outils dingnierie du rseau daccs mobile et fixe. Il intervient
galement sur les diffrentes phases du processus dingnierie : le dimensionnement,
le dploiement et loptimisation. Les mthodes et outils dvelopps par le laboratoire
PEAK permettent de caractriser le trafic, de dimensionner les quipements,
damliorer la qualit de service et doptimiser lutilisation des ressources fixes et
radio.
Enfin, ce laboratoire doit valuer les cots conomiques de dploiement et

dexploitation du rseau pour aider au choix des meilleures solutions daccs. Le
laboratoire dveloppe et diffuse ses outils dans le groupe Orange et les valorise auprs
dditeurs de logiciels et de constructeurs dinfrastructure.
Le laboratoire PEAK est compos de cinq Units de Recherche et Dveloppement

(URD) rparties sur les sites de Belfort et Issy-les-Moulineaux. C'est au sein de l'URD
ISA (Information System, integration & validation for Access network), compose de
19 personnes et dirige par Catherine CHEVANET que j'effectue mon stage.


7. L'unitInformationSystem,integration&
validationforAccessnetwork(ISA)
Cette URD effectue les tudes d'introduction des nouvelles technologies d'accs dans
le Systme dInformation (SI) dOrange. D'autre part, elle contribue la qualit des
logiciels produits par le laboratoire PEAK en accompagnant le dploiement des
processus qualit. Ces processus permettent de valider la qualit des outils
dvelopps.
Ses comptences sont diverses. En termes de production de logiciels, elle est qualifie
en dveloppement, en validation et en mise en place de processus qualit. A cela
s'ajoute sa connaissance du Systme d'Information rseau, le datamining (capacit
extraire des informations partir de donnes), la cartographie et la conception
darchitectures techniques.
Figure4:ORGANISATIONDELUNITEISA
8. Organisationdesprojets
Les projets au sein dOrange Labs sont organiss de faon hirarchique et thmatique.
La cohrence, la performance et la mise en visibilit des activits de recherche et de
dveloppement sont garanties par deux entits diffrentes.
La premire, la Direction Recherche et Stratgie, supervise le contenu, le budget et la

rpartition des projets ct recherche. La seconde, la Direction du Dveloppement,
occupe les mmes responsabilits ct dveloppement. Le budget des projets de
recherche est gr en interne, alors que les budgets des projets de dveloppements
sont couverts par les financements des clients des projets dvelopps.
La rpartition des projets est faite au travers de programmes pour les projets de
dveloppement, et dobjets de recherche pour les projets de recherche.


Les programmes/objets de recherche regroupent des projets et des travaux courants
selon leur domaine, par exemple les outils dingnierie rseau, et sont composs de
tches. Les travaux courants sont diffrents des projets, qui sont dfinis par un budget,
un primtre, un dlai et ventuellement une qualit. Il ny a pas dengagement de
livrable pour les travaux courants, qui spcifient uniquement un besoin de moyens
pour une dure donne. Les travaux courants couvrent typiquement les activits de
maintenance et de support.
La gestion de ces diffrents lments se fait chaque niveau : il y a des responsables

de programme et dobjet de recherche, des chefs de projets de dveloppement et de
recherche, des responsables de travaux courants et des responsables de tches.


Chapitre2Descriptif gnral
& contexte du
projet
Dans ce chapitre, je donnerai un aperu des diffrentes technologies utilises dans ce

projet, et je ferai une prsentation du contexte du projet.
Gnralits
Un DataMart permet dintgrer des sources de donnes htrognes des fins
danalyse. Un des points cl de la russite du processus dentreposage de donnes
rside dans la dfinition du modle de lentrept en fonction des sources de donnes
et des besoins danalyse. Une fois lentrept conu, le contenu et la structure des
sources de donnes, tout comme les besoins danalyse, sont amens voluer et
ncessitent ainsi une volution du modle de lentrept (schma et donnes).
1. ConceptdunDataMartouentreptdedonnes
1.1 Prsentation

Le concept d'entrept de donnes a t formalis pour la premire fois en 1990. L'ide
de constituer une base de donnes oriente sujet, intgre, contenant des informations
dates, non volatiles et exclusivement destines aux processus d'aide la dcision fut
dans un premier temps accueillie avec une certaine hsitation. Beaucoup n'y voyaient
qu'une autre forme du concept dj ancien : l'infocentre.
L'entreprise doit anticiper pour faire face aux nouveaux enjeux conomiques. Pour
tre efficace, l'anticipation peut s'appuyer sur de l'information pertinente qui est la
porte de toute entreprise qui dispose d'un capital de donnes gres par ses systmes
oprationnels et qui peut en acqurir d'autres auprs de fournisseurs externes. Mais
ces donnes ne sont pas organises dans une perspective dcisionnelle et sont
parpilles dans plusieurs systmes htrognes. Il est ncessaire de rassembler et
d'homogniser les donnes afin de permettre des analyses des indicateurs pertinents
et de faciliter les prises de dcisions.
Pour rpondre ces besoins, il a t dfini et intgr une architecture qui va servir de
fondation aux applications dcisionnelles : l'entrept de donnes.


1.2 Pourquoiunentreptdedonne

L'entreprise construit un systme dcisionnel pour amliorer sa performance. Elle doit
dcider et anticiper en fonction de l'information disponible et capitaliser sur ses
expriences.
Depuis plusieurs dizaines d'annes, une importante masse d'informations est stocke
sous forme informatique dans les entreprises. Les systmes d'informations sont
destins garder la trace d'vnements de manire fiable et intgre. Ils automatisent
de plus en plus les processus oprationnels.
L'informatique a un rle jouer, en permettant l'entreprise de devenir plus

entreprenante et d'avoir une meilleure connaissance de ses clients, de sa comptitivit
ou de son environnement.
1.3 Laralitdessystmesd'information

Les donnes contenues dans les systmes dinformations sont :
Eparpilles :
Il existe souvent de multiples systmes, conus pour tre efficaces pour les
fonctions sur lesquelles ils sont spcialiss.
Peu structures pour lanalyse :
La plupart des systmes informatiques actuels ont pour objet de conserver en

mmoire linformation, et sont structurs dans ce but.
Focalises pour amliorer le quotidien :
Toutes les amliorations technologiques se sont focalises pour amliorer cette

capacit en termes de volume, qualit, rapidit daccs. Il manque trs souvent
la capacit donner les moyens de tirer parti de cette mmoire pour prendre
des dcisions.
Utilises pour des fonctions critiques :
La majorit des systmes existants est conue dans le but unique de rpondre
aux besoins avec des temps de traitement corrects.
Le tableau suivant prsente les diffrences entre les donnes oprationnelles et

dcisionnelles.


1.4 Lesobjectifs
Toutes les donnes, qu'elles proviennent du systme de production de l'entreprise ou

qu'elles soient achetes, vont devoir tre organises, coordonnes, intgres et
stockes, pour donner l'utilisateur une vue intgre et oriente mtier. L'entrept de
donnes doit viser les objectifs suivants :
Rendre les donnes de l'organisation facilement accessibles.

Le contenu de l'entrept de donnes doit tre facile comprendre. Les donnes
doivent tre parlantes et leur signification vidente pour l'utilisateur et pas
seulement pour le dveloppeur.
Prsenter l'information de l'organisation de manire cohrente.

Les donnes de l'entrept doivent tre crdibles.
Etre adaptable et rsistant aux changements.

Les donnes de l'entrept doivent tre conues pour traiter les changements.
De ce fait, les changements ne doivent pas invalider les donnes existantes ou
les applications.
Etre le socle sur lequel repose l'amlioration des prises de dcision.
Etre accept par les utilisateurs pour pouvoir russir


2. Composantsd'unentreptdedonnes

2.1 Lesapplicationsoprationnellessources
Ce sont les applications oprationnelles qui capturent les transactions de

l'organisation. Les applications sources ne conservent que trs peu de donnes
historises. Un bon entrept de donnes peut librer les applications sources d'une
bonne partie de leurs responsabilits concernant la reprsentation du pass.
2.2 Laprparationdedonnes
La zone de prparation des donnes de l'entrept est la fois une zone de stockage et
un ensemble de processus couramment appels ETL (Extract/Transform/Load).
L'extraction est la premire tape du processus d'apport de donnes l'entrept qui se
traduit par la lecture, l'interprtation et la copie des donnes sources dans la zone de
prparation. Ensuite, on passe la transformation en vue du chargement. Il faut
interdire aux utilisateurs l'accs la zone de prparation des donnes. La dernire
tape s'occupe de charger les donnes, pralablement extraites puis transformes, dans
des cibles htrognes (le plus souvent des entrepts de donnes).
2.3 Laprsentationdedonnes
La zone de prsentation des donnes est le lieu o les donnes sont organises,
stockes et offertes aux requtes directes des utilisateurs, aux programmes de
reporting et aux autres applications d'analyse. La zone de prsentation des donnes est
l'entrept de donnes tel quil est vu par les utilisateurs.
2.4 Lesoutilsd'accsauxdonnes
L'ensemble des outils d'accs aux donnes constitue le dernier composant majeur d'un
environnement d'entrept de donnes. Les outils d'accs aux donnes constituent
l'ensemble des moyens fournis aux utilisateurs pour exploiter la zone de prsentation
en vue de prendre des dcisions bases sur des analyses.


Figure5:ARCHITECTUREGENERALEDUNENTREPOTDEDONNEES
3. Ledcisionneletleslogicielslibres
Les projets dcisionnels sont diviss, le plus souvent, en deux phases. La premire
consiste en extraction, la transformation et lalimentation des donnes et elle ncessite
lutilisation doutils de type ETL (DataStage ou Talend). Les outils dalimentation
prsents sur le march sont multiples et varis. Ils se prsentent sous formes libres ou
propritaires et ncessitent donc une tude pralable afin de dterminer, en fonction
du travail raliser, loutil adquat.
La seconde phase est celle du reporting. Elle va produire les rapports de synthse
finaux qui vont permettre doffrir une vue globale de lactivit. Il existe peu de
logiciels de reporting libres sur le march (Jasper Soft). Au sein dOrange Labs, on
trouve loutil propritaire Business Object.
Pour mieux comprendre le droulement dun projet dcisionnel intgrant des outils
libres (open source), je vais commencer par une brve introduction sur les logiciels
libres et expliquer le fonctionnement des ETL avant de terminer par une prsentation
des 2 outils dcisionnels utiliss par lURD ISA dOrange Labs Belfort.


3.1 Leslogicielslibres
Il existe de nombreux outils dcisionnels propritaires sur le march actuel dont le
cot est trs lev. Dans tous les domaines, on observe l'intrt des entreprises pour
les solutions libres qui sont moins onreuses ; mais plusieurs interrogations se posent
sur leurs performances et leur robustesse (problme de la maintenance et labsence, en
gnral, de support)
Les fonctionnalits des logiciels propritaires sont dtermines par la demande

gnrale des entreprises, ce qui ne satisfait pas vritablement tous les utilisateurs. En
revanche, les solutions libres vont permettre une entreprise de moduler une
application en se basant sur ses propres besoins et non sur ceux du march. Cette
dmarche est ralise par de grandes entreprises comme par des PME qui s'adressent
en gnral des SSII (Socit de Services en Ingnierie Informatique) afin de
dvelopper des fonctionnalits qui s'adaptent leurs besoins.
Une question importante se pose sur la redistribution de ces logiciels par ces
entreprises car au final peu sont celles qui suivent la logique du libre, qui est avant
tout de partager toute amlioration d'un logiciel libre.
Certaines entreprises sont rticentes face aux logiciels libres malgr leur notorit et
leurs cots abordables. Les principaux facteurs de blocage qui ralentissent encore la
diffusion des solutions libres sont entre autres :
Limmaturit des solutions

La scurit et les inquitudes lies lexistence de communauts
Les dfaillances de lassistance
Labsence de fournisseurs dominants
Les craintes lies aux licences logicielles
Les performances et la richesse fonctionnelle des solutions


3.2 LefonctionnementdesETL
Un ETL (Extract Transform Load) permet lExtraction, la Transformation et le
Chargement de donnes depuis des sources diverses (bases de donnes, fichiers) vers
des cibles pralablement dfinies comme le montre le schma ci-dessous.
Figure6:SCHEMADEFONCTIONNEMENTDUNETL
Les ETL sont communment utiliss dans l'informatique dcisionnelle afin de

permettre l'alimentation des bases de donnes dcisionnelles (Datawarehouse,
DataMart). Ces dernires servent de supports pour l'analyse des donnes sous
plusieurs formes :
Rapports et tats
Tableaux de bords
Indicateurs de performance
Analyse multidimensionnelle
Analyse exploratoire
Les volumes de donnes traits sont plus ou moins importants. Ainsi, les critres de
performance sont primordiaux dans le choix d'un ETL.


Figure7:SCHEMAREPRESENTANTLACHANEDECISIONNELLE
Le choix le plus difficile dans tout projet dcisionnel ou d'intgration/migration de

donnes consiste dterminer quelle mthode doit tre mise en uvre :
1. Faut-il crer du code spcifique (procdures SQL, code Java ou autre) ?
2. Faut-il acheter un ETL propritaire (DataStage, Informatica ou autre) ?
La premire solution semble intressante, car elle permet de rester au plus prs des
spcificits mtiers des donnes traiter, tout en s'affranchissant des contraintes lies
l'achat et l'utilisation d'un ETL propritaire. Cependant, cette solution peut s'avrer
coteuse long terme, tout simplement car l'volutivit constante des donnes mtier
entrane une ncessaire adaptation des traitements d'intgration. Celle-ci n'est pas
toujours facile grer, surtout si les quipes projets voluent au cours du temps.
La deuxime solution va permettre de mettre en uvre trs rapidement les traitements

d'intgration, avec cependant des cots levs (achat des licences, formations,
maintenance...) et ceci ds la phase de dmarrage du projet.
Il existe dsormais une solution alternative : utiliser un ETL libre.
On bnficie ainsi des avantages d'un ETL tout en gardant une matrise lisse des
cots.
Ces derniers sont en effet rduits aux cots de formation initiale de l'outil et d'une
ventuelle souscription une hotline technique. Aucune licence n'est payer dans ce
modle conomique.
Les ETL libres qui paraissent l'heure actuelle comme les plus intressants en termes
de fonctionnalits proposes, de maturit et de prennit sont entre autre Pentaho Data


Integration et Talend Open Studio. Ils sont en mesure de rpondre de faon
quivalente la plupart des ETL propritaires disponibles sur le march.
Figure8:COUTSENFONCTIONDUTEMPSPOURLESDIFFERENTESSOLUTIONS
3.3 LesoutilsETL
Cette partie permet de mieux comprendre le fonctionnement de lETL libre Talend
Open Studio et lETL propritaire DataStage de la socit IBM.
3.3.1 TalendOpenStudio(TOS)
Talend Open Studio est dvelopp par Talend, une socit franaise dynamique et
relativement jeune. La premire version de Talend Open Studio a vu le jour au
2me semestre 2006, et la version actuelle est la 5.1.0
Talend Open Studio est un ETL du type gnrateur de code . Pour chaque
traitement d'intgration de donnes, un code spcifique est gnr en Java. Les
donnes traites et les traitements effectus sont donc intimement lis.
Talend Open Studio utilise une interface graphique, le Job Designer (base sur
Eclipse RCP) qui permet la cration des processus de manipulation de donnes.


Figure9:ZONEDETRAVAILDULOGICIELTALEND
De nombreux types de composants sont disponibles pour se connecter aux principaux

SGBD (Oracle, DB2, MS SQL Server, PostgreSQL, MySQL,...) ainsi que pour traiter
tous les types de fichiers plats (CSV, Text, XML), aussi bien en lecture qu'en criture.
Talend facilite la construction des requtes dans les bases de donnes en dtectant le
schma et les relations entre tables.
Un rfrentiel permet de stocker les mtadonnes afin de pouvoir les exploiter dans
diffrents jobs. Par exemple, on peut sauvegarder le type et le format des donnes
d'entre d'un fichier CSV afin de pouvoir les exploiter ultrieurement dans un ou
plusieurs composants, facilitant ainsi toute volution ventuelle du schma.
La conception trs visuelle des traitements permet de prsenter des statistiques

d'excution en temps rel ou encore de tracer les donnes transitant ligne ligne dans
les composants de la chane de traitement. Quand un job d'intgration est lanc via le
Job Designer (en mode graphique), il est possible d'afficher les statistiques de
traitement en temps rel, montrant le nombre de lignes traites et rejetes, ainsi que la
vitesse d'excution (lignes par secondes).


Figure10:EXEMPLEDETRANSFORMATIONSOUSTALEND5.0
3.3.2 IBMInfoSphereDataStage
IBM InfoSphere DataStage permet de collecter, d'intgrer et de transformer de gros
volumes de donnes, quelle que soit la complexit des structures. Il permet d'intgrer
toutes les informations de l'entreprise, quels que soient le nombre de sources/cibles et
les dlais. Qu'il s'agisse de crer un entrept de donnes rpondant aux besoins
informationnels de l'entreprise et ce ventuellement en temps rel - ou d'intgrer
plusieurs dizaines de systmes source prenant en charge les applications d'entreprise,
telles que les applications de gestion de la relation client et de gestion de la chane
logistique globale ou les applications ERP (Enterprise Resource Planning), IBM
InfoSphere DataStage garantit des informations fiables.
IBM InfoSphere DataStage offre trois avantages dcisifs pour le succs de

l'intgration des donnes des entreprise : une connectivit trs complte pour accder
facilement et rapidement n'importe quel systme source ou cible ; des outils de
dveloppement et de maintenance avancs qui acclrent la mise en uvre et
simplifient la gestion des donnes ; et enfin une plateforme volutive qui facilite le
traitement des donnes de l'entreprise.


IBM InfoSphere DataStage accepte un nombre pratiquement illimit de sources et de
cibles de donnes pour une mme tche :
Fichiers texte
Structures de donnes XML complexes
Systmes d'applications d'entreprise tels que SAP, Siebel, Oracle et PeopleSoft
Quasiment toutes les bases de donnes, y compris les bases de donnes
partitionnes, telles quOracle, IBM DB2 Universal Database, IBM Informix,
Sybase, Teradata et Microsoft SQL Server
Services Web
SAS
Produits d'intgration d'applications d'entreprise et de messagerie, tels que
WebSphere MQ et SeeBeyond, etc.
Figure11:EXEMPLEDETRANSFORMATIONSOUSDATASTAGE


Contextedustage

1. Prsentation
Le DataMart est un ensemble de donnes cibles et organises pour rpondre un

besoin spcifique un domaine ; celui trait dans ce document concerne les clients
ADSL dOrange. Ce magasin de donnes est destin tre interrog et fournir un
panel dinformations permettant damliorer les services et le trafic des clients. Pour
ce faire, une tude de lexistant est indispensable car elle va permettre de dfinir les
diffrents axes damlioration sur lesquels vont porter les rapports fournir.
2. Objectifs
De faon plus technique, ce DataMart a pour vocation de prsenter les donnes de

manire spcialise, agrge et regroupe fonctionnellement. Il permet de restituer
tout le spectre de lactivit des clients ADSL sous forme dtapes de travail ou de
rapports de synthse.
Lobjectif de cette tude est de fournir dans un premier temps un prototype sur la base
de solutions dcisionnelles pour tester lETL open source Talend sur un cas rel afin
den dgager le potentiel et den dfinir ventuellement les cots de migration.
Ensuite, partir des donnes dOrange obtenues de diffrentes sources (SI, sondes),
on effectue un ensemble doprations. Cela consiste combiner, agrger et croiser ces
donnes pour obtenir une collection de donnes cohrente et structure, base sur des
contraintes techniques, fonctionnelles et conomiques, en vue de rpondre aux
besoins de la MOA.
3. Description

Analyser et prvoir les diffrents types de trafics des clients dOrange est essentiel
afin dlaborer des offres adaptes au mieux leur demande et afin danticiper les
volutions des rseaux ncessaires pour supporter ces nouvelles offres et garantir
leurs qualits. Cest pourquoi RESA/PEAK/ISA dveloppe un DataMart permettant
un meilleur suivi des trajectoires des trafics ADSL par la production dindicateurs cls
facilitant la ralisation des tudes de trafics et alimentant diffrentes entits rseau et
marketing du groupe.
Durant les 5 mois passs au sein dOrange Labs avec lquipe ISA, javais pour
premire mission dtudier et danalyser la chane de traitement qui fonctionne avec
lETL DataStage. Lobjectif tait la monte en comptence sur le domaine dtude et


sur lETL et la rdaction dun document technique dcrivant les tapes de travail ainsi
que la structure du schma fonctionnel.
En me basant sur les rsultats de la premire partie, la deuxime mission tait

lanalyse et la conception dune chane de traitement plus rationnelle. Lobjectif final
tait deffectuer le dveloppement sous lETL open source Talend Open Studio.


Chapitre3Description
synthtique du projet
Dans ce chapitre, je donnerai un aperu sur les diffrents volets du projet, en dtaillant
plus amplement les exigences et les besoins du groupe Orange au niveau de chaque
partie du projet.
ProjetNetworkMiningdugroupeOrange

1. Prsentation
Les clients dOrange se voient aujourdhui proposer des offres de trs haut dbit, que
ce soit sur leur mobile ou sur internet, leur permettant ainsi dapprcier des services
multiples comme la visiophonie, la tlvision et la vido la demande avec une haute
dfinition. On tend galement vers une convergence des moyens daccder au rseau
Orange qui est aujourdhui un oprateur intgr, proposant des offres spcifiques.
Dans ce contexte, observer, analyser et prvoir les diffrents trafics des clients fixes et
mobiles, voix et data, est essentiel, pour proposer des offres de qualit et adaptes aux
besoins des clients, tout en mesurant limpact de ces nouvelles offres au niveau du
rseau. Cest pourquoi FT/OLNC/RD/RESA/PEAK/ISA dveloppe un DataMart pour
aider lanalyse des trafics de ses clients. Ce DataMart est aliment par des donnes
provenant du systme dinformation dOrange et par des donnes de trafic provenant
de lapplication OTARIE dveloppe par lunit Recherche & Dveloppement qui
rcolte les informations des sondes disposes sur le rseau.
2. Cahierdescharges
Pour la construction du DataMart, il sagit de dvelopper toutes les briques logicielles

et le systme de base de donnes pour contenir le gisement :
Construire la structure de donnes Oracle pour accueillir les donnes

(modlisation de la base dintgration, cration de scripts et cration des
tables)


Tlcharger les donnes depuis le SI ou depuis le serveur de collecte des
captures de trafic.
Dvelopper les traitements ETL
9 Pour transformer, croiser, agrger les donnes sources et alimenter ainsi

la base dintgration.
9 Pour extraire les donnes pertinentes et alimenter la base de diffusion
Raliser un reporting au format de fichiers texte
Tester et valider les donnes et les indicateurs extraits.

2.1 Objectifs
Les objectifs sont multiples ; ils consistent :
Donner un accs rapide et simple linformation stratgique la MOA

(Matre douvrage)
Rafraichir et mettre jour les documents fournis partir des activits des
clients ADSL
Dvelopper des services qui satisfont les besoins des clients dOrange
Rpondre aux questions marketing
Mettre en place un systme dinformation ddi aux applications
dcisionnelles.
3. Prsentationduprojet:
Dans cette partie, je prsente le DataMart mis en uvre
FT/OLNC/RD/RESA/PEAK/ISA afin de collecter les informations issues du trafic
des clients ADSL dOrange pour pouvoir les analyser et fournir des informations la
MOA. Tous les traitements sont effectus par l'ETL DataStage (IBM), que ce soit pour
alimenter les diffrentes tables de la base de donnes, ou pour fournir des
informations sous forme de fichiers texte. Tous ces traitements sont effectus par des
jobssuccessifs, pouvant tre excuts par un squenceur.
Le lancement de ces Jobs peut tre effectu au moyen de scripts bash. Les formats
dentre et de sortie de cet outil sont trs varis :
Base de donnes
Fichiers texte
FichiersHash Files(fichiersPick Universe)


3.1 Descriptionfonctionnelle
A partir dun gisement de donnes (donne brutes) provenant de diffrentes sources,
des donnes descriptives du rseau mais aussi des donnes de capture du trafic, il
sagit de modliser une base dintgration en permettant leur croisement. Les donnes
ont t traites et normalises dune manire cohrente et organise sous forme dun
SGBD orient Dcisionnel.
Une base de diffusion est ensuite obtenue partir de la base dintgration. Cette base
de diffusion contiendra des donnes agrges, croises et historises permettant aux
statisticiens davoir immdiatement les informations dont ils ont besoin. Cette base est
organise de telle sorte quelle soit accessible par plusieurs utilisateurs.
Lobjectif est de permettre une rponse rapide toutes les problmatiques poses par
le dimensionnement et la qualit de service des rseaux de collecte ADSL.
3.2 Sourcesdesdonnes
Figure12:ARCHITECTUREFONCTIONNELLEDUDATAMARTTRAFICADSL
Le DataMart trafic utilise dune part les donnes internes, journalires, issues de
lapplication SIDOBRE, contenant les caractristiques techniques des clients qui ont
gnr du trafic ADSL et leur offre associe, et dautre part celles externes issues de
lapplication OTARIE qui collecte les donnes de trafic.
Les donnes SIDOBRE sont mises disposition 7j/7 via un portail web. Quant aux
donnes OTARIE, elles sont accessibles sur un serveur situ Lannion.


3.3 Architecturetechnique
Le DataMart est rparti sur 4 serveurs relis entre eux via le rseau Ermes, sur lequel
sont raccordes toutes les machines dOrange Labs. Les serveurs sont les suivants :
NOM LIEU Systmedexploitation DISQUE
Data:585Go
WindowsServer
PNSOISE IssylesMoulineaux
2003
Data2:683Go
Data:817Go
WindowsServer
BDIBUS Belfort
2003
Data2:817Go
/data/data1:2,0To
LinuxRedHatRHEL
BTRAFIC Belfort
4x8632bits
/data/data2:1,8To
B LinuxRedHatRHEL
Belfort /srv/nas:2,2To
NTWMINING 4x8632bits
Larchitecturetechniqueestlasuivante:

Figure13:LARCHITECTURETECHNIQUEDESSERVEURSDATAMART


4. LachanedetraitementduDataMartTraficADSL
La chane de traitement actuellement utilise est sur le serveur B-TRAFIC avec la
version DataStage 7.5.3 pour Linux (Redhat 4). Cette chane permet dalimenter la
base de donnes Oracle installe sur le serveur B-DIBUS. Cette base contient le
schma SIDOBRE qui est constitu de 13 tables dont 2 seront mises jour par la
chane de traitement tudie :
SID_CLIENT : informations gnrales sur les clients

SID_CLIENT_OTARIE_CATM : liste des clients ATM par journe de trafic
SID_CLIENT_OTARIE_CGE : liste des clients GE par journe de trafic
SID_CLIENT_SERVICE : identification et informations techniques des clients
SID_COUPLE_OFF_SCE : identifications de loffre client
SID_DSLAM : liste des DSLAM
SID_HISTO_BAS : dates de changement de BAS des clients (mutation)
SID_HISTO_CLIENT : permet l'historisation des clients
SID_OFFRE : correspondance Offre SIDOBRE/Offre OTARIE
SID_OFFRE_COM : correspondance Offre SIDOBRE/Liste des services
SID_PARC : indication du nombre de clients (jour, BAS et offre OTARIE)
SID_PARC_ECR : indication du nombre de clients par jour et par BAS ECR
SID_PORT_BAS: liste des BAS
Figure14:MODELEPHYSIQUEDESDONNEESSIDOBREDELABASEORACLETRAFIC


Les donnes SIDOBRE proviennent du systme d'information dOrange et regroupent
des informations sur les clients d'Orange, leurs offres associes et leurs mises en
uvre technique (Nom du BAS, VP et VC du client). Les donnes sont contenues
dans des fichiers journaliers, permettant une mise jour rapide des clients dans le
DataMart. Un client est identifi par son numro de dsignation (numro de
tlphone).
Les fichiers SIDOBRE sont mis disposition sur un portail Web. Ceux rcuprs
dans le cadre du DataMart le sont tous les jours (sauf le dimanche), en fin de matine :
5 fichiers de parc des clients ADSL des 5 plaques du territoire franais

2 fichiers doccupation des BAS OTARIE
13 fichiers FTTH (non utiliss dans nos traitements)
Les informations issues des 5 fichiers de plaque contenant la liste des clients ayant
gnr du trafic sont insres dans le schma SIDOBRE de la base TRAFIC.
La chane de traitement doit fonctionner 6 jours sur 7. Elle est donc excute
automatiquement sur le serveur B-TRAFIC, 13H30, laide dun script lanc depuis
la crontab.
Le traitement DataStage se compose d'un squenceur qui appelle successivement des

jobs. Les jobs sont soit des jobs DataStage Server (utilisant le moteur Universe), soit
des jobs Parallel Extender (PX) autorisant le paralllisme.
Figure15:APPELDESJOBSVIAUNSEQUENCEUR


Chapitre4Prsentation
du travail ralis
Dans ce chapitre, je prsente mon travail individuel et ma contribution en tant que

stagiaire dans ce projet, savoir, le reverse engineering de linfocentre existant,
lanalyse, la conception et le dveloppement de la chane de traitement sous Talend.
Analysedelexistant
Durant mon stage, jai ralis un reverse engineering du DataMart existant dvelopp
sous lETL Data Stage de la socit IBM. Cela a consist dcrire la chane de
traitement dans le but davoir une vue globale de son fonctionnement, de comprendre
la philosophie dun ETL, et de voir les donnes manipules. Par consquent, cela ma
permis de monter en comptences sur le domaine de couverture de mon stage.
1. Reverseengineering
Depuis la premire version du DataMart trafic ADSL dveloppe il y a plusieurs
annes, de nombreuses modifications ou volutions ont t effectues, avec une mise
jour partielle de la documentation. Par consquent, jai ralis un reverse
engineering afin de dcrire la chane de traitement dans un document.
Lintrt de cette opration tait triple. Cela ma permis de prendre en main lETL
DataStage, de monter en comptence sur les donnes manipules et de faire une
description de la chane existante. Il sagira dans un premier temps de slectionner les
informations en adquation avec les objectifs fixs et dans un second temps de
dterminer les donnes regrouper. Les donnes issues des sondes existent sous
plusieurs formes. Il va donc falloir les intgrer afin de les homogniser et de leur
donner un sens unique et comprhensible. Il faut avoir une vue globale sur le
droulement du traitement qui sarticule comme suit :
Lhtrognit des sources : des donnes descriptives du rseau mais aussi

des donnes de capture du trafic
Loutil existant utilis par Orange Labs est un outil propritaire de la socit
IBM qui se compose dune architecture client/server, le serveur tant sous
linux Redhat.
Les donnes sont traites et normalises dune manire cohrente et organise
sous forme dun SGBD Oracle orient Dcisionnel.


La chane de traitement alimente la base de donnes et gnre des fichiers au
format TXT (texte).
Les donnes sont agrges, croises et historises pour permettre aux
statisticiens davoir immdiatement les informations dont ils ont besoin
Les traitements sont effectus par des jobs successifs, pouvant tre excuts
par un squenceur. Le lancement de ces jobs peut tre effectu au moyen dun
script.
1.1 Schmadescriptif
Le schma global de la chane de traitement permet de faire ressortir les lments
permettant de cibler les amliorations possibles sur le DataMart, en vue dobtenir des
gains au niveau du temps de traitement et de la structure des donnes.
Ce schma prsente le traitement global des donnes. Les entres sont les 5 fichiers de
plaques, et une table de rfrence de la base de donnes Oracle.
Suite un ensemble doprations (concatnation, suppression des doublons, jointure,

transformation ), on obtient en sortie un fichier texte contenant le parc national des
clients SIDOBRE (ayant eu du trafic ADSL sur la journe de traitement) sur port
OTARIE, avec lensemble des informations relatives aux clients ainsi que leur offre
associe (DATA, TOIP, MLT, MLV).


Figure16:CHANEDETRAITEMENTGLOBALE


2. Constatsuiteaureverseengineering
2.1 Problmatique
Les problmes pour mener bien ce projet sont nombreux et de natures diverses :
Traitement lourd : un gisement de donnes (donne brutes) provenant de

diffrentes sources de nature technique et commerciale.
y Oprations redondantes ou inutiles : la chane de traitement contient des

donnes redondantes ou non utilises qui surchargent le flux.
o Certaines tables dinterrogation sont utilises dans diffrents

endroits, avec le mme traitement qui se rpte.
o la relecture des donnes sur diffrentes tapes de travail (fichiers de

plaques).
o Un transfert inutile des donnes vers dautres oprations
o Une cl de filtrage complexe et inadapte.
o Non respect des tailles des champs prconises.
o Utilisation alternative de plusieurs identifiants pour chercher un

lment (exemple : EPC, ND, ID Client)
Cot lev : pour la ralisation de ces traitements, on se base sur un outil ETL
propritaire avec un cot de maintenance annuel lev.


2.2 Lesaxesdamlioration
Lors de ces traitements, on constate quil y a des oprations redondantes ou des
donnes inutiles qui surchargent le flux de donnes.
Afin de cibler les amliorations possibles et de rationaliser le traitement, il savre

important de perfectionner la capacit du DataMart en termes de volume, quantit,
rapidit daccs pour prendre les bonnes dcisions au bon moment.
Lamlioration de la chane de traitement porte sur le changement de la structure du

schma global par lajout, la modification et la suppression de certaines oprations :
Mutualiser les traitements tant auparavant effectus diffrents endroits
Rduire la taille de la cl de filtrage
Utiliser des mmoires de stockage (viter lenvoi de plusieurs requtes la

base de donnes)
Enlever les colonnes inutiles
Utiliser un ETL open source pour test


MiseenuvredunETLopensource
La structuration et le stockage des donnes dans un entrept constituent un support

efficace pour permettre des analyses et un dveloppement correct en vue de prises de
bonnes dcisions.
1. Conceptiondelachanedetraitement
Figure17:SCHEMACIBLEDELANOUVELLECHANEDETRAITEMENT


Ce schma prsente une amlioration par rapport au schma de traitement dvelopp
sous la chane existante au niveau de :
La rduction du nombre de job

Lutilisation des fichiers dentre (fichier de plaque) juste en dbut de
traitement
La mutualisation de flux sur un seul laide dune fonction de concatnation
afin de simplifier le traitement
La suppression des doublons au niveau des colonnes envoyer par lutilisation
des fonctions de filtrage afin dallger le flux
La rduction de la cl de filtrage sur 2 critres au lieu de 11
Lenvoi dune seule requte vers la base de donnes au lieu de 5 pour chaque
fichier de plaque
La modification de la longueur des champs
2. DveloppementduDataMartTraficADSL
Je vais montrer en dtail les diffrentes phases de ralisation dun DataMart
dcisionnel avec lETL Talend Open Studio, de la modlisation de la chane de
traitement la construction du fichier du PARC_Client.txt.
2.1 Descriptiondutraitement
Ce projet consiste construire une chane de traitement des donnes du trafic ADSL
des clients dOrange. Il est compos de deux jobs, chacun traitant une partie du
traitement dont le rsultat dexcution sera utilis comme entre dans ltape suivante.
Afin de gnrer le fichier PARC_Client.txt, il faut raliser les oprations suivantes :
Concatner les cinq fichiers de plaque

Extraire la liste des clients ayant une offre ADSL de type DATA partir du
flux venant des plaques
Construire une cl de filtrage afin deffacer les doublons
Faire une requte vers la base de donnes Oracle contenant les types doffre
Etablir une jointure entre le flux principal et la base de donnes afin de
complter le flux par les informations sur les offres commerciales
Dissocier les 4 types doffres (DATA, TOIP, MLT, MLV)
Construire la liste des services (concatnation des 4 offres)
Gnrer le fichier PARC_Client.txt


2.2 ETLTalend
Le choix dune solution logicielle gratuite, qui offre les fonctionnalits ncessaires
pour rpondre aux besoins dentreposage, fait de Talend open studio une solution
adapte aux besoins.
Etant une solution open source, Talend prsente plusieurs avantages par rapport aux
autres ETL :
Support de nombreux systmes : plus de 400 connecteurs

Support, contributions : la force dune communaut
2.3 ComposantsTalendutiliss
tFileInputDelimited Lit un fichier dlimit ou un flux de donnes ligne par

ligne, afin de le diviser en champs et denvoyer ses
champs au composant suivant, comme dfini par le
schma, via une connexion Row.
tFileOutputDelimited Ecrit un fichier dlimit contenant des donnes

organises en fonction du schma dfini.
tUnit Centralise des donnes provenant de sources diverses

et htrognes (concatnation de flux structurs de
manire identique).
tUniqRow Compare les entres et supprime les doublons du flux

dentre en fonction dune cl.
tMap Transforme et dirige les donnes partir dune ou

plusieurs source(s) et vers une ou plusieurs
destination(s).
tDenormalize Dnormalise un flux entrant en fonction dune

colonne.
tSortRow Trie les donnes dentre bases sur une ou plusieurs

colonnes, selon un type de tri (inner, outer).
tMysqlInput Lit une base de donnes MySQL et en extrait des

champs laide de requtes SQL.


3. Scnariodemiseenuvre
Le processus dextraction, de transformation et de chargement des donnes a t
ralis avec loutil open source Talend Open Studio. Lors des traitements, loutil
Talend est capable de fonctionner avec un rfrentiel qui permet de centraliser les
transformations et les tches ralises.
Plusieurs transformations ont t mises en place, en vue :
dextraire les donnes depuis des fichiers textes ou dune base de donnes
Oracle en spcifiant les champs dsirs
de transformer certains champs
de filtrer selon diffrentes conditions
de trier
de joindre les donnes entre elles, ce qui facilite le chargement des tables du
DataMart
de slectionner et/ou renommer des champs
dinsrer et/ou de mettre jour des tables
Figure18:COMPOSANTD'UNDATAMARTTRAFICADSL


3.1 Extraction
Cette tape consiste collecter les donnes ncessaires lalimentation du DataMart
et fournir des rapports.
3.1.1 Donnessourcedetraitement
Fichiers de plaques :
Le territoire national a t dcoup par Orange en 5 plaques reprsentant les 5 rgions

gographique :
U1 : plaque Ile-de-France
OU : plaque Ouest
NE : plaque Nord-Est
SE : plaque Sud-Est
SO : plaque Sud-Ouest
Les fichiers de plaques contiennent les informations techniques des clients (numro
de tlphone) pour un jour donn.
NOM DESCRIPTION TYPE
PLAQUE Codedelaplaque VarChar(3)
DR CodeDR(DirectionRgionale) VarChar(2)
NRA_HD CodeNRAHD(CodeBouclelocale) VarChar(3)
NomduNRA(Nomdelaboucle
NOMNRA locale) VarChar
DSLAMN NomduDSLAMN VarChar(8)
DSLAM NomduDSLAM VarChar(8)
VP_VLAN CodeduVP_VLAN VarChar
OFFRE Typedel'offre(DATA,TOIP,MLT,MLV) VarChar(32)
EPC ValeurcontenantleND VarChar
NumrodeDsignation(numrode
ND tlphone) VarChar(9)
NOMBAS NomduBAS VarChar(8)
CHASSIS Numroduchssis VarChar
CARTENUMAS Numrodelacartedanslechssis VarChar(3)
PORNUMBAS Numroduport VarChar(3)


VP CodeVP(canauxvirtuelATM) VarChar(4)
VC CodeVC(canauxvirtuelATM) VarChar(6)
FAI Nomdufournisseurd'accsinternet VarChar(32)
REVENTE ContientlavaleurNULLou1 Integer
DATEMES Datedemiseenservice VarChar(8)
ICC Identifiant VarChar(32)
3.1.2 LaBasedeDonnesOTARIE
Afin de tester lETL Talend, dtudier la faisabilit du portage du projet sous Talend
et faciliter la prsentation du travail ralis sous forme de prototype, jai utilis une
base de donnes MySQL qui reprend la mme structure que celle de la base de
donnes Oracle utilise par Orange Labs.
Pour la cration de ma base de donnes MySQL, jai utilis loutil WAMP qui permet
la cration de bases de donnes avec PHP. Jai donc cr la table ncessaire au
fonctionnement de la chane de traitement afin de ne pas interfrer sur la base de
production.
Cette table contient les informations de type doffres des clients dans le rfrentiel
OTARIE.
NOM DESCRIPTION TYPE Nullable
ID_OFFRE Ndel'offre NUMBER(4) N
LIB_OFFRE Nomdel'offre VARCHAR2(32) N
ID_OFFRE_OTARIE N de l'offre correspondant dans la table NUMBER(4) O

OFFREd'OTARIE(silexiste)
LIB_OFFRE_OTARIE Nom de l'offre correspondante dans la VARCHAR2(32) O

tableOFFRE(silexiste)
DEBIT Dbitdel'offre VARCHAR2(32) O


3.2 Traitement
Cette phase intermdiaire dans le fonctionnement dun ETL savre importante et
demande beaucoup de rflexion et de prcision. Lexcution de chaque tape doit tre
vrifie car les donnes charges dans le Datamart doivent videmment tre
compltes et exactes.
Pour des raisons dinsuffisance de mmoire, jai d scinder le traitement en deux jobs
pour obtenir la fin le fichier PARC_Client.txt contenant les informations sur les
clients ainsi que leur liste de services associs.
3.2.1 JOB_1:GnrationduFlux_Principal
Ce job consiste gnrer un flux correspondant au parc national des clients ADSL et
de complter ce flux avec les informations de type offre (DATA, TOIP, MLT, MLV)
provenant de la base de donnes.
Figure19:GENERATIONDUFLUXPRINCIPAL


Pour des besoins de jointure, de filtre et de tri, Talend dispose de composants simples.
En revanche, il existe des composants multifonctions avec plusieurs entre/sortie.
Cest le cas du composant tMap qui, lui seul, peut implmenter des fonctions de
filtrage, de jointure et de tri.
3.2.1.1 Leslmentsdetraitement
En entre de ce job, on utilise 5 fichiers de plaques de structure identique. Le
traitement seffectue comme suit :
Lecture des 5 fichiers de plaque indpendamment, puis concatnation des flux

laide du composant tUnit, qui permet le rassemblage sur un seul flux et de
nen conserver que les donnes utiles.
Tous les clients ont une offre DATA. Pour ne garder quune ligne par client,
on filtre sur les offres (DATA, TOIP, MLT, MLV) laide du composant
tMap partir du flux venant du composant tUnit.
Chaque offre est reconnaissable par son libell. Le filtrage effectu au niveau
du composant tMap Filtre_OFFRES gnre quatre flux correspondant aux 4
types doffre possibles (MLV, MLT, TOIP, DATA).
Un fichier de plaque peut contenir plusieurs lignes par client. Afin dviter les
doublons, jai utilis une cl de filtrage reprsentative avec moins de critres
que dans le traitement actuel (2 critres au lieu de 11). Jai galement constat
que Talend gre mal la multitude de critres. Par consquent, le choix de cette
cl de filtrage tait appropri.
La suppression des doublons se fait laide du composant tUniqRow sur les

critres suivants :
9 ND
9 DATEMES
En sortie de ce composant, les flux TOIP, MLV et MLT seront envoys dans
des composants tFileOutputDelimited afin de gnrer des fichiers au format
CSV pour les utiliser comme entre du JOB_2.
Le flux DATA est envoy vers un composant tMap afin de lenrichir des
donnes de lapplication OTARIE. Celles-ci viennent du composant
tMysqlInput qui permet de complter le flux DATA par les informations de
type OFFRE issues de lapplication OTARIE. La requte est la suivante :
Select LIB_OFFRE,LIB_OFFRE_OTARIE From otarie
Ensuite, une jointure est faite sur la colonne OFFRE venant du Flux_Principal
et la colonne LIB_OFFRE venant de la base de donnes laide du composant
tMap, afin dajouter le libell de loffre OTARIE au Flux Principal.


En sortie du tMap, le Flux_Principal est envoy sur un composant
tFileOutputDelimited pour gnrer galement un fichier CSV qui servira
dentre principale dans le job suivant.
3.2.2 JOB_2:Constructiondelalistedesservices
Le job est compos des rsultats dexcution du JOB_1, avec en entre le fichier
contenant les donnes du Flux_Principal ainsi que les fichiers TOIP,MLTetMLV.
Figure20:GENERATIONDUFICHIERDEPARCCLIENT
3.2.2.1 Leslmentsdetraitement
En entre de ce job, jutilise le composant tFileInputDelimited pour lire le

fichier Flux_Principal qui contient des informations sur le client ainsi que son
offre DATA prsent par la colonne OFFRE_1.
Jutilise aussi le composant tFileInputDelimited du flux TOIP qui contient la

liste des clients ayant une offre TOIP.
Jtablis une jointure sur le ND entre les 2 flux venant de FLUX_PRINCIPAL

et TOIP, en utilisant le composant tMap JOINTURE_1 afin de complter le
flux principal par la colonne OFFRE_2 contenant les offres TOIP de chaque
client.
Le mme traitement est effectu pour les OFFRE_3 contenant les offres MLT
et OFFRE4 contenant les offres MLV dans les composants tMap
correspondants (JOINTURE_2 et JOINTURE_3).


Pour viter davoir des colonnes nulles, jai mis pour chaque offre la condition
suivante : Si on trouve des valeurs nulles, on les remplace par une chane
vide, sinon on garde le contenu de la colonne . Cela se traduit par :
Relational.ISNULL(row1.monChamp)?"":" row1.monChamp "
A la fin de ce traitement, on obtient un flux contenant toutes les informations sur les
clients ainsi que les 4 offres auxquelles ils ont souscrit. Ensuite, on passe la
construction de la liste des services.
Par concatnation des champs OFFRE_1, OFFRE_2, OFFRE_3 et OFFRE_4,

on constitue le champ LST_SERVICES en utilisant la syntaxe suivante :
"#"+OFFRES.OFFRE_1+"#"+OFFRES.OFFRE_2+"#"+OFFRES.OFFRE_3+"#"
+OFFRES.OFFRE_4+"#
A la fin de ce job, on alimente le fichier de PARC_Client.txt avec la liste des services

de chaque client.
3.3 Chargement
L'objectif principal de cette tape dalimentation du fichier PARC_Client.txt est de
rassembler les donnes collectes dune manire cohrente, simple utiliser pour les
mettre disposition des utilisateurs internes du groupe Orange.
Les informations contenues dans le fichier de PARC_Client.txt sont les suivantes :
NOM DESCRIPTION TYPE
ND Numro de Dsignation VarChar(9)
VP Code VP VarChar(4)
VC Code VC VarChar(6)
NOMBAS Nom du BAS VarChar(8)
CARTENUMBAS Numro de la carte dans le chssis VarChar(3)
PORTNUMBAS Numro du port VarChar(3)
LST_SERVICES Liste des services VarChar(128)
LIB_OFFRE_OTARIE Libell de loffre OTARIE VarChar(32)
DATEMES Date de mise en service VarChar(8)
DSLAMN Nom du DSLAMN VarChar(8)
DSLAM Nom du DSLAM VarChar(8)
ICC Identifiant VarChar(32)


Difficultstechniques
Les difficults techniques sont lies toute reprise dune chane existante. Le modle
de dveloppement, les contraintes du schma de la base de donnes ainsi que lETL
utilis sont les principaux points que lon peut citer :
Lapprentissage des outils ETL DataStage et Talend Open Studio, totalement

inconnus de moi, a t une des premires difficults. Jai d suivre une auto-
formation, aid par le support de cours, avant de pouvoir mattaquer la
problmatique du sujet de stage.
La mise en uvre de la chane avec un nouvel outil sest retrouve complique

par la recherche des composants adquats pour raliser les traitements
ncessaires.
Lintervention frquente sur la base de donnes pour la mettre jour ma

permis de me familiariser avec la structure des donnes et de mieux
comprendre le fonctionnement de la chane de traitement.
Laccomplissement des tches et la ralisation des objectifs fixs par les

clients internes dOrange ont parfois provoqu des complications (format du
champ Lst_Services)
Lespace mmoire ntant pas toujours suffisant sur ma machine, jai d

mettre en uvre les solutions techniques suivantes :
9 Utilisation de lespace disque (paramtre du composant tMap)

9 Dcoupage des jobs
Une autre solution aurait t dutiliser une machine plus puissante et avec une
capacit de mmoire plus importante.


BilanPersonnel
Ce stage a t un excellent complment ma formation de Master. Il ma permis

daffronter les connaissances et les mthodes de travail que javais acquises tout au
long de mes tudes, avec la ralit des entreprises. En effet, pendant ce stage, jai pu
dvelopper en particulier des comptences techniques et relationnelles trs
importantes pour mon futur professionnel.
Jai amlior aussi ma capacit dcoute pour savoir en dduire les besoins des clients
et ma capacit danalyse et de synthse. Jai d travailler sur mon expression orale
afin de savoir mexprimer de faon claire et directe et jai appris savoir prioriser les
diffrents moyens de communication (oraux et crits) qui existent dans lentreprise.
Pendant ce stage, jai travaill de faon autonome et en quipe. Quant au travail en

quipe, je trouve quil est trs enrichissant puisque lon apprend beaucoup des
changes que lon a avec les autres membres de lquipe. Jai beaucoup apprci de
pouvoir travailler avec diffrentes personnes car chacune delles a une faon unique
de travailler et daffronter les problmes rencontrs.
Jai appris prioriser les tches, bien organiser mon temps tout en restant flexible et
madapter aux rythmes de travail et aux exigences des personnes avec qui je
travaillais.
Je me suis sentie trs bien accueillie par les personnes du secteur car il y a une
ambiance de travail la fois trs professionnelle et trs humaine. Je me suis rendu
compte de limportance dtre laise dans son environnement de travail et
dapprcier la compagnie des collgues en dehors des contextes strictement
professionnels. Ce stage ma permis de mpanouir aussi bien sur le plan
professionnel que personnel.


Conclusion
Les nouvelles technologies de linformation permettent de concevoir des systmes

dinformations particulirement performants. Ces derniers fournissent dimportantes
informations mais ne sont pas conus pour permettre leur utilisation dans un
processus d'aide la dcision.
Aussi, le DataMart permet au dcideur de travailler dans un environnement

informationnel, rfrenc, homogne et historis. Cette technique laffranchit des
problmes lis lhtrognit des systmes informatiques, ainsi que celle des
diffrentes donnes issues de lorganisation.
Ainsi, confront un environnement de plus en plus concurrentiel, le groupe Orange

sest dot d'outils performants et a mis en place un DataMart robuste. Mes travaux
mont permis de faire une tude de faisabilit sur un DataMart existant, puis lanalyse,
la conception et le dveloppement dune solution sur une nouvelle plateforme. Cette
tude tait indispensable afin de cibler les amliorations possibles, de rationaliser le
traitement et dtudier lutilisation dun ETL open source en remplacement de la
solution propritaire actuellement mise en uvre sur le DataMart Trafic ADSL des
clients dOrange.
Ce projet ma permis de faire voluer considrablement mes connaissances et mes

comptences dans le domaine de linformatique dcisionnelle et des outils associs
(base de donnes, ETL). Jai approfondi mes comptences en configuration, en
intgration de bases de donnes et, sur la partie modlisation Business Intelligence,
jai galement amlior mes capacits en gestion de projet. Jai pu dvelopper mon
autonomie et mon esprit danalyse. Ce stage me permet dtre prpare faire face
aux besoins des entreprises dans le domaine de la BI.


Abrviationsetacronymes

Termes Libell
ADSL AsymetricDigitalSubscriberLine
ATM AsynchronousTransferMode
BAS BroadbandAccessServer
BI BusinessIntelligence
DATEMES DateMiseenService
DSLAM DigitalSubscriberLineAccessMultiplexer
ERP EnterpriseResourcePlanning
ETL Extraction,Transformation&Chargement
FAI Fournisseurd'AccsInternet
GE GigabitsEthernet
MLT MaLigneTV
MLV MaLigneVisio
MOA MaitredOuvrage
ND NumrodeDsignation
SAS StatisticalAnalysisSystem
SGBD SystmedeGestiondeBasedeDonnes
SSII Socit de Services en Ingnierie Informatique
TOIP TlphoniesurIP
VC VirtualChannel
VoIP VoixsurIP
VP VirtualPath
WAMP Windows,Apache,MySQL,PHP


Glossaire
ADSL
Technologie appartenant la famille dsigne sous le nom gnrique de xDSL, qui
regroupe un ensemble de systmes destins augmenter les performances du rseau
tlphonique existant.
Alimentation
Insertion de donnes dune source vers une cible. Dans un projet dcisionnel, on
observe en gnral plusieurs bases de donnes source et une base cible (Datamart).
Ces informations peuvent subir des transformations avant leur chargement.
Base de donnes
Ensemble de donnes structur, enregistr sur un systme de fichier. Ces informations
sont gres laide dun Systme de Gestion de Base de Donnes.
Business Intelligence
Dnomination anglophone de dcisionnel . Cest un domaine dont lobjectif est
dobtenir une vue densemble dune activit, par le biais de rapports, tableaux de
bord Cela consiste en la collection, la consolidation, la modlisation et la restitution
des donnes.
Composant
Connecteur pr-configur excutant une opration spcifique dintgration de
donnes, quel que soit le type de donnes (bases de donnes, applications, fichiers
plats, services Web, etc.).
Datamart
Aussi appel Magasin de donnes , le Datamart est un ensemble de donnes
cibles (qui concernent un mtier ou domaine spcifique), organises, regroupes et
agrges (catgorises).
Elment
Unit technique constituant un projet. Les lments sont regroups en fonction de leur
type : Job Design, Business Model, Context, Code, Metadata, etc.
ETL
Permet lExtraction, la Transformation et le Chargement de donnes depuis des
sources diverses (bases de donnes, fichiers) vers des cibles.
Intgrit des donnes

Prserver l'intgrit des donnes, cest sassurer que celles-ci ne subissent aucune
altration et conservent un format permettant leur utilisation (pas de saisie de chane
de caractres dans un champ numrique par exemple).
Job
Concept graphique, compos dun ou plusieurs composants relis entre eux. Il permet
de mettre en place des processus oprationnels de gestion des flux.


MySQL
SGBD relativement puissant et lger utilis principalement pour les sites internet, du
fait de sa capacit traiter de grands volumes de donnes. La version 5 de MySQL
supporte les procdures stockes.
OTARIE
Application dveloppe par Orange Labs pour collecter les donnes de trafic issues
des sondes positionnes sur le rseau.
Projet
Ensemble structur dlments techniques et de leurs mtadonnes associes.
PHP
Langage de programmation qui embarque des fonctionnalits objet depuis sa version 5.
Principalement utilis pour les sites internet, il est galement rpandu parmi les
applications web dentreprise.
Rapport
Document dit par un logiciel. C'est une prsentation priodique des bilans
analytiques sur les activits et rsultats d'une organisation. Ces donnes sont
gnralement issues dun Datamart, dun Datawarehouse ou dune base de donnes en
vue de fournir des rsultats d'analyse.
Rfrentiel
Espace de stockage (repository en anglais) utilis par Talend pour regrouper les
donnes lies aux lments techniques utiliss soit pour dcrire les Business Models,
soit pour crer les jobs.
Schma
Dfinit le nom des champs, leur type et leur taille qui sont utiliss par un composant.
Le schma est soit local au composant (Built-in), soit commun plusieurs composants
(dans le Repository).
Squenceur
Ordonnanceur dcoup en une suite ordonne d'oprations ou d'lments pour le
lancement des jobs partir d'un script.
Stage
Elment dun job sous DataStage (appel galement composant sous Talend Open
Studio).
Systme de Gestion de Base de Donnes (SGBD)

Logiciel permettant la manipulation des bases de donnes (consultation, modification,
mise jour, insertion, suppression).


Bibliographie
Sites Internet :
Site officiel d'Orange :
http://www.orange.com/fr_FR/groupe/
SiteofficielTalend:
http://www.talend.com
http://www.talendforge.org
Wikipedia pour de nombreuses informations en tout genre :
http://fr.wikipedia.org/wiki/Entreposage
http://fr.wikipedia.org/wiki/Datamart
Forums et tutoriels :
http://www.developpez.net/forums/d1050064/logiciels/solutions-
dentreprise/business-intelligence/etl/talend/alimentation-datamart/
http://business-intelligence.developpez.com/faq/talend/?page=II
http://www.labdecisionnel.com
Des informations sur le dcisionnel :
http://www.decideo.fr/
http://www.informatiquedecisionnelle.com/
Ouvrage :
"Le Datawarehouse, le Data Mining" - Jean-Michel Franco et EDS-Institut
Promthus - Eyrolles, 1996
"Datawarehouse et Data Mining" - Conservatoire National des Arts et Mtiers

Juin 1998
"La construction du datawarehouse" - Jean-Franois Goglin 2001

Rsum
Afin de valider un Master 2 Informatique en Systmes Distribus et Rseaux
lUniversit de Franche Comt, jai ralis un projet dcisionnel au sein dOrange
Labs Belfort, lun des centres de Recherche et Dveloppement dOrange.
Le sujet propos consistait dans un premier temps raliser une tude de linfocentre
existant et deffectuer un reverse engineering sur une chane de traitement. Cela ma
permis de mimprgner du sujet, de prendre en main lETL DataStage et de produire
un document dcrivant la chane de traitement.
Le travail accompli dans la premire partie a port sur lETL DataStage utilis par
Orange Labs pour grer cet infocentre. Il a consist, aprs le recueil et lanalyse des
besoins client, cibler les axes damlioration possibles pour prsenter la chane de
traitement dune manire plus structure et facile grer. La conclusion de ce travail a
t la rdaction dun document analytique complet qui sera utilis dans la suite du
stage. La structure de la chane du traitement a t modifie pour prendre en compte
les amliorations et faciliter ensuite le travail de la phase suivante de conception du
DataMart trafic.
Dans un second temps, il fallait concevoir un DataMart Trafic Clients ADSL

centralisant les informations relatives aux activits des clients dOrange laide dun
outil open source.
Le travail consistait en particulier faire lanalyse et la modlisation du DataMart,

mais aussi le dveloppement afin dalimenter ce dernier. Lobjectif tait de faire une
tude de faisabilit pour porter la chane sur un environnement open source, en
loccurrence Talend Open Studio.
Mots clefs : Dcisionnel, DataMart, alimentation,
Technologies: MySQL V5, ORACLE, Data Stage, Talend Open Studio
OrangeLabsRechercheetDveloppement
1rueMauriceetLouisdeBroglie
CS20382
90007BELFORTCedex

Rapport Stage HASSANI PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Rapport Stage HASSANI PDF

Transféré par

Droits d'auteur :

Formats disponibles

Universit de Franche Comt Besanon

Facult des Sciences et Techniques

RALISATION DUN DATAMART

Orange Labs Recherche et Dveloppement

Soutenu le 11 juin 2012

Un stage nest jamais un travail individuel. Il sinscrit dans une dmarche

Ce rapport doit donc normment M. Thierry STUNAULT qui ma encadre

Je remercie mon encadrant de luniversit M. Bruno TATIBOUET pour son

Je remercie galement M. Michel USCLADE et Mme Sandrine LOVISA pour

Toutes ces personnes ont su rendre ce stage intressant, dabord au niveau

Ce stage aura vritablement t un passage mmorable de ma formation, avant

Juin 2012 MASTER 2 SDR Orange Labs Page2

Chapitre 1 Cadre de stage .................................................................................. 7

2. Le grand projet : conqutes 2015 ............................................................................ 8

3. Orange Labs, la Recherche et Dveloppement dOrange ..................................... 10

4. Organisation de la direction Recherche et Dveloppement .................................. 11

5. Le CRD Rseaux d'Accs ..................................................................................... 12

6. Le laboratoire Performance & Engineering of the Access network (PEAK) ....... 13

8. Organisation des projets........................................................................................ 14

Chapitre 2 Descriptif gnral & contexte du projet ................................. 16

1. Concept dun DataMart ou entrept de donnes .................................................. 16

2. Composants d'un entrept de donnes .................................................................. 19

3. Le dcisionnel et les logiciels libres ..................................................................... 20

Contexte du stage ....................................................................................................... 28

Chapitre 3 Description synthtique du projet ............................................ 30

2. Cahier des charges ................................................................................................ 30

Juin 2012 MASTER 2 SDR Orange Labs Page3

4. La chane de traitement du DataMart Trafic ADSL ............................................. 34

Chapitre 4 Prsentation du travail ralis ................................................. 36

2. Constat suite au reverse engineering .................................................................... 39

Mise en uvre dun ETL open source ..................................................................... 41

1. Conception de la chane de traitement .................................................................. 41

2. Dveloppement du DataMart Trafic ADSL.......................................................... 42

3. Scnario de mise en uvre ................................................................................... 44

Difficults techniques ................................................................................................. 51

Abrviations et acronymes ................................................................................ 54

Juin 2012 MASTER 2 SDR Orange Labs Page4

Juin 2012 MASTER 2 SDR Orange Labs Page5

Ce stage de fin dtudes sinscrit dans le cadre du Master Informatique professionnel

Dans un premier temps, je prsenterai l'environnement professionnel dans lequel

Dans un deuxime temps je prsenterais le projet DataMart qui ma t confi, il

Lvolution de la chane de traitement poursuivait plusieurs objectifs : permettre un

La seconde partie consistait, partir de lanalyse effectue dans la premire partie,

Ce projet ma permis en particulier dtre confront aux problmatiques de

Juin 2012 MASTER 2 SDR Orange Labs Page6

Chapitre 1Cadre de stage

Dans le prsent chapitre, jintroduis une prsentation gnrale de lentreprise o jai

Chiffres cls dOrange en France

100 000 salaris

Juin 2012 MASTER 2 SDR Orange Labs Page7

Le groupe a chang aussi sa stratgie : il ne se contente plus uniquement de s'adapter

La simplicit, ou comment simplifier la vie des clients

L'agilit, ou comment dvelopper l'agilit du groupe dans l'exercice de ses

La performance durable, dont l'objectif est d'inscrire la performance dans la

Le plus important changement concerne la nomination de Stphane Richard au poste

Cinq plans dactions sont identifis pour ce projet.

Les salaris au cur du dveloppement de lentreprise : pour raliser lambition

La monte en dbit et la transformation des infrastructures du groupe : au

Lexcellence dans la relation client : prospects, acheteurs, utilisateurs... Tous les

Juin 2012 MASTER 2 SDR Orange Labs Page8

Lengagement de tenir la promesse du groupe : monte en puissance des rseaux et

La volont dtre un oprateur de confiance : Orange a lanc ou va lancer de

Linnovation au bnfice des clients : Orange est lun des oprateurs de