Vous êtes sur la page 1sur 52

Etude et Conception d’un entrepôt de

données spatiales en entreprise de


production pétrolière : cas de PERENCO Rio
del Rey
Mémoire rédigé et soutenu par

Hugo Castor BOBDA CHOULA

EN VUE DE L’OBTENTION DU MASTER II EN INFORMATIQUE APPLIQUEE AUX SYSTEMES


D’INFORMATION GEOGRAPHIQUES

Encadreur Professionnel Encadreur académique


M. Yves POSTEC Dr Joseph MVOGO
Sous-Directeur de la Production à la direction
Responsable et coordonnateur pédagogique
des opérations de Perenco Cameroun du Master IASIG de l’université de Douala

Année académique 2012 - 2013


A mes fils Johann et Yannis

A ma fille Serena Enorah

A mon épouse Viviane

A ma sœur Valery

PAGE 1
REMERCIEMENTS
J’aimerais dans un premier temps remercier le Docteur Joseph MVOGO,
responsable et coordonnateur pédagogique du Master IASIG de l’université de
Douala pour avoir mis à notre disposition un environnement de travail et les
hommes compétents pour nous encadrer durant cette formation ainsi que
pour tous ces conseils.

Merci au professeur Jean Paul RUDANT président du jury pour les


orientations et l’intérêt accordé à cette formation.

Je remercie Monsieur Marcel Guillaume MOUTOUME, pour ses


précieux conseils techniques et pratiques et pour avoir pris le temps de
répondre à mes nombreuses questions et préoccupations.

Mes remerciements vont également à l’endroit de :

M. Benoit De La Fouchardière, Directeur Général de


PERENCO CAMEROUN pour nous avoir ouvert les portes de son illustre
entreprise.
M. Yves POSTEC, Sous-Directeur des Opérations chargé
de la Production pour nous avoir accueillis au sein de sa direction;
M. Christophe BAMBANA, Chef de département Lifting
and Allocation pour ses précisions concernant le thème;
M. François TEGUA, Reporting Coordinator pour son
accueil et sa disponibilité pour toutes les difficultés dont j’ai eu à faire
face durant la réalisation de ce projet ;

Je tiens également à adresser mes sincères remerciements à


tous ceux qui personnes ont participé de près ou de loin à mon intégration au
sein de cette entreprise et à l’élaboration du ce document.

PAGE 2
PAGE 3
RESUME

Perenco Cameroun dont la mission principale est l’exploitation et la


production des gisements de pétrole et de gaz au Cameroun ayant besoin d’un
système d’aide à la décision découlant d’un système d’information flexible et
interactif qui aide les décideurs dans l’extraction rapide d’informations utiles
pour identifier et résoudre des problèmes et pour prendre des décisions .

C’est dans cette optique que le projet de mise en place d’un système géo-
décisionnel pour la production du Rio del Rey a été élaboré au sein de la
direction des opérations. Ce projet a été découpé en deux phases. La première
phase m’a été proposé comme thème : « Etude et conception d’un entrepôt
de données spatiales en entreprise de production pétrolière : cas de
PERENCO Rio del Rey». La deuxième phase « Implémentation des outils
d’interrogation et de visualisation géo-décisionnels en entreprise de
production pétrolière : cas de PERENCO Rio del Rey» interviendra à la fin
de la première phase.

Mots clés : SIG, Pétrole, Production, SOLAP, entrepôt de données.

PAGE 4
SOMMAIRE

REMERCIEMENTS ...............................................................................................2
RESUME ............................................................................................................... 4
SOMMAIRE ...........................................................................................................5
TABLE DES ILLUSTRATIONS ............................................................................ 6
LISTE DES TABLEAUX.........................................................................................7
INTRODUCTION ................................................................................................ 8
Chapitre I : Présentation et missions de l’entreprise ......................................... 9
1.1. Historique ............................................................................................... 9
1.2. Présentation actuelle de l’entreprise .................................................... 12
1.3. La Direction d’accueil ............................................................................ 14
Chapitre II : Définition et outils à utiliser ......................................................... 17
2.1. Définitions.............................................................................................. 17
2.2. Outils, Architectures et fonctionnalités ............................................... 23
Chapitre III : Mise en œuvre ..............................................................................28
3.1. Le choix des outils .................................................................................28
3.2. Modélisation de la solution .................................................................. 29
3.3. Intégration et traitement de données ..................................................36
3.4. Réalisation de l’entrepôt de données ................................................... 41
CONCLUSION ....................................................................................................47
GLOSSAIRE ........................................................................................................ 48
ACRONYMES ..................................................................................................... 49
BIBLIOGRAPHIE / WEBOGRAPHIE.................................................................50

PAGE 5
TABLE DES ILLUSTRATIONS
Figure 1 : Présence de PERENCO au CAMEROON ............................................ 11
Figure 2: Organigramme de la Direction Générale de PERENCO Cameroun .13
Figure 3 : Différentes représentations des objets ou événements dans un SIG
............................................................................................................................. 17
Figure 4 : Base de données spatiale ................................................................... 18
Figure 5 : Architecture d’un ETL ........................................................................ 19
Figure 6 : Ensemble des composants intervenant dans un système décisionnel
............................................................................................................................. 21
Figure 7 : Ensemble des composants intervenant dans un système Géo-
décisionnel .......................................................................................................... 22
Figure 8 : Présentation de l’ETL GeoKettle et ses interactions avec d’autres
outils ....................................................................................................................24
Figure 9 : Architecture de GDAL/OGR ............................................................. 25
Figure 10 : Architecture d’un entrepôt de données avec SSIS ..........................26
Figure 11 : Schéma de calcul de la production allouée d’un puits ................... 33
Figure 12 : Modèle physique simplifié de l’entrepôt de données de la
production ........................................................................................................... 35
Figure 13 : Capture d’écran de la compilation de GDAL dans MS Visual Studio
2013.......................................................................................................................36
Figure 14 : Capture d’écran du test de commande ogr2ogr de GDAL ............ 37
Figure 15 : Liste de fichiers shapefile à insérer dans SQL Server ......................38
Figure 16 : Requête de visualisation de l’objet importé dans SQL Server....... 40
Figure 17 : Requête de visualisation de l’objet plateforme importé dans SQL
Server ................................................................................................................... 41
Figure 18 : Fichier csv de correspondance de plateforme ................................. 41
Figure 19 : Base et tables de l’entrepôt crées .................................................... 44
Figure 20 : Diagramme SSIS de l’ETL Unique ...................................................45
Figure 21 : Diagramme SSIS de l’ETL Périodique ............................................. 46

PAGE 6
LISTE DES TABLEAUX

Tableau 1 : Fiche signalétique de Perenco Cameroon.......................................12


Tableau 2: Quelques outils SIG libres et propriétaires.....................................17
Tableau 3: Quelques outils ETL libres et propriétaires....................................19
Tableau 4: Quelques outils BI libres et propriétaires.......................................22
Tableau 5 : Dictionnaire de données de l’entrepôt...........................................34

PAGE 7
INTRODUCTION

Il a été démontré que l'utilisation de la Business Intelligence sans


composante cartographique présentait d'importantes limitations pour
l'analyse de phénomènes géographiques et spatio-temporels (Caron 1998)
d’une part, et que près de 80% les données stockées possédant une référence
géographique (Franklin 1992) d’autre part. Fort de ce constat, il est important
d’implémenter dans la structure un entrepôt de données devant permettre
l’implémentation aisée d’outil de génération de rapports, de l’outil de
datamining, des tableaux de bord et des outils SOLAP, car comme il est si bien
dit : « Une image vaut mille mots »

PAGE 8
Chapitre I : Présentation et missions de l’entreprise

1.1. Historique
PERENCO est une compagnie indépendante d’exploration et de
production de pétrole et gaz et de développement de projets. Elle est active en
mer du nord (Royaume Uni), en Afrique Centrale (CAMEROUN, Gabon,
RDC), en Amérique latine, (Guatemala, Pérou, Venezuela) et sur le pourtour
méditerranéen (Tunisie, Egypte, Turquie). Elle est aussi active dans
l’exploration pétrolière en Australie, au Brésil, au Belize et en Irak. Le siège de
l’entreprise se trouve à Londres.

Son fondateur Hubert PERRODO (1944-2006), a débuté ses activités à


Singapour en 1975 en créant une compagnie de services maritimes pour
l’industrie du pétrole. Il eut ensuite des barges de forage et créa TECHFOR en
1978. En 1982, il acquit COSIFOR et renforça sa flotte. Enfin à partir de 1986, il
acheta des actifs en production aux États-Unis et revendit en 1992 ses appareils
de forage, passant ainsi de compagnie de service forage à compagnie
d’exploration et production.

Depuis, PERENCO a bâti son activité sur le rachat de champs matures,


jugés non rentables par d’autres compagnies. PERENCO a pu rendre ces
champs à nouveau rentables et les redévelopper, ralentissant fortement leur
déclin et, souvent, augmentant même leur production. François PERRODO, le
fils ainé d’Hubert PERRODO, est désormais à la tête de cette entreprise
familiale.

PAGE 9
Créée le 1er juillet 1979 sous l’appellation TEPCAM-TOTAL
EXPLOITATION PRODUCTIN CAMEROON, la compagnie alors Filiale du
Groupe TOTAL, a connu une évolution en quatre phases :

TEPCAM, de 1979 à 1993

Pendant cette période, avec un effectif total d’environ 230 agents dont 44
expatriés, 127 nationaux et 59 agents contractés, la filiale n’a exploré et exploité
qu’un seul site : le site du MOUDI, aux larges des côtes de Limbe. Avec une
production qui va très vite décliner, passant de 6500 barils/jour en 1982 à près
de 3000 barils/jour vers les années 90. Les charges vont très vite dépasser les
recettes de la production.

KELT CAMEROON, de 1993 à 1997

La compression de 1986, n’ayant pas suffi à sauver la filiale, TOTAL mettra


les actions de TEPCAM en vente. Ces actions seront rachetées par le groupe
KELT ENERGIE INTERNATIONALE en 1993. La Filiale va alors changer de
dénomination pour s’appeler désormais KELT CAMEROON, et ouvrir un
deuxième site aux larges de Kribi, dénommé Site d’EBOME MARINE, qui sera
officiellement inauguré en 1997 par le chef de l’Etat camerounais. Ce qui va
ramener la production de la Filiale (les deux sites confondus) de 3500
barils/jour à environ 8600 barils/jour.

PERENCO CAMEROON, de 1997 à 2010

La société va changer à nouveau de dénomination en décembre 1997 pour


devenir PERENCO CAMEROON. Nous pouvons dire que l’ère PERENCO
prend toute son ampleur à partir des années 98/99 après l’inauguration du Site
EBOME et se poursuit jusqu’à ce jour.

PAGE 10
Il faut signaler qu’en 2001, les avoirs de CMS NOMECO CAMEROON
seront rachetés par PERENCO, ajoutant ainsi les permis de MVIA, KOMBE et
NSEPE à son portefeuille actif.

Situation Géographique

Figure 1 : Présence de PERENCO au CAMEROON

(Source : http://www.perenco.com/cameroon)

PERENCO CAMEROON, de 2011 à aujourd’hui

En Avril 2011, PERENCO CAMEROON va faire un grand bond en


devenant le producteur majeur de pétrole au Cameroun par l’acquisition des
avoir de TOTAL E&P CAMEROUN qui devient PERENCO Rio Del Rey. La
production BOPD passe alors de 6 800 à environ 68 000 à ce jour.

PAGE 11
Nom de l’entreprise PERENCO CAMEROON

Groupe PERENCO (basé à LONDRES)

Directeur général de la filiale Benoit De La FOUCHARDIERE

Secteur d’activité Primaire

Activité principale Exploration et production de pétrole et gaz

Capital 3.400.000 USD

Production journalière 68 000 barils

Forme juridique Société indépendante

Année de création 2001

Siege social Douala


B.P. : 2214
Tél : +237 233 42 13 66
Site Web : www.perenco.com

Effectif 289 nationaux


nationaux
27 expatriés
267 contractés et sous-
sous-traitants

Différents sites de production RDR EST


RDR OUEST
EBOME
MOUDI
MASSONGO (Tanker de stockage)
stockage)
SANAGA

Bases terrestres WOURI (Direction générale et bureaux)


BASSA (Centre de formation)
KRIBI (base de loisirs)
loisirs)
Tableau 1 : Fiche signalétique de Perenco Cameroon

1.2. Présentation actuelle de l’entreprise


Afin de s’assurer une bonne organisation pour un meilleur rendement,
PERENCO est structuré en plusieurs directions :

la direction générale,

PAGE 12
la direction des opérations (direction d’affectation),
la direction Géosciences,
la direction des finances,
la direction de l’administration,
la direction de Projet Terminal Unique,
la direction hygiène et sécurité environnementales,
les conseillers du directeur générale

Figure 2: Organigramme de la Direction Générale de PERENCO Cameroun

Par ailleurs, PERENCO a préconisé et adopté quatre principales politiques


pour assurer son intégrité :

La politique santé et de sécurité :


A travers cette politique elle s’assigne les objectifs suivants :
aucun dommage aux personnes
un environnement de travail sur et sain pour le personnel
pas d’impact sur la santé et la sécurité des voisins

PAGE 13
aucun accident

La politique de responsabilité sociale


Dans le cadre de ses activités, PERENCO s’assure que la responsabilité sociale
fasse partie intégrante de ses opérations à travers ces objectifs :

Apporter une contribution positive aux communautés locales


Respecter les différences culturelles et les droits des personnes
Promouvoir et maintenir des principes d’honnêteté, d’intégrité et des
standards d’éthique élevés

La politique environnementale
Selon cette politique, la société préconise les objectifs suivants :

aucun dommage à l’environnement


La réduction maximale des émissions
La remise en état des sites après la fin de production

La politique de sureté
Elle préconise la protection du personnel et des biens de la société contre les
risques de sureté. En effet, le personnel de PERENCO, ainsi que le personnel
de ses sous-traitants se doivent de rester vigilants et responsables de leur
sureté, ainsi que de celle d’autrui. Ils se doivent d’intervenir pour éviter les
situations dangereuses ou anormales.

1.3. La Direction d’accueil

Mon affectation pour la période du stage s’est faite au département


Lifting & Allocation, dans la sous-direction de la production de la direction des
Opérations.

PAGE 14
La direction des opérations représente le cœur de métier de l’entreprise.
Elle est responsable et coordonne l’ensemble des opérations relatives aux
différents sites et concessions on shore et offshore, lieux où l’exploration et la
production se déroule notamment le Rio Del Rey (RDR), Sanaga et Kribi. On
y retrouve les divisions et départements liées aux activités de production, de
forage, de projets, de maintenance et instrumentation, de logistique, de
sécurité et sureté.

La division de la production est en charge avec les différents sites de


s’assurer que la production escomptée de pétrole et de gaz est proche de la
production réelle, ceci en corrélation avec d’autres entités internes et
partenaire externes.

Le département Lifting Allocation est en charge des enlèvements des


cargaisons de pétrole brut au terminal en synergie avec les partenaires. Il est
également en charge des allocations de production entre les différents champs
et puits, ainsi qu’envers les partenaires. Il est surtout en charge de
l’établissement des différents rapports de production à fournir aux différents
partenaires internes qu’externes.

Matériel alloué
Sur le plan des ressources et de la logistique, la direction m’assure,
Un accès à toutes les cartographies papiers et numériques;
Un accès illimité à toute personnes ressource pouvant me fournir une
information ;
Un accès total à la base de données du logiciel de production ;

PAGE 15
Conclusion

Cette partie qui nous a permis de comprendre l’entreprise et son


fonctionnement, sera dans la suite le socle des différentes observations que
nous ferons et des propositions qui soutiendront ce travail.

PAGE 16
Chapitre II : Définition et outils à utiliser

2.1. Définitions
2.1.1. SIG

Un Système d’Information Géographique(SIG) est un outil permettant


d’analyser et de représenter tous les objets qui existent sur terre ainsi que les
événements qui s’y produisent.

Figure 3 : Différentes représentations des objets ou événements dans un SIG

On ne pourrait parler de SIG sans parler de quelques outils et logiciels


SIG libres et propriétaires qui participent à l’élaboration de ce concept.

Libre Propriétaire
Quantum GIS,PostGIS,GRASS GIS, Arc GIS, Google Maps, Map Info,
MapServer, GeoServer, GeoTools, Oracle Spatial, GeoConcept,
Jump, OpenLayers, MapGuide, GeoMap GIS, AutoCAD Map 3D,
OpenMap, OrbitGIS, Saga GIS, Bentley GIS, MS SQL Server Spatial,
OSGeo JMap
Tableau 2: Quelques outils SIG libres et propriétaires

PAGE 17
2.1.2. Base de données spatiale

Une base de données spatiale est une base de données optimisée pour
stocker et requêter des données reliées à des objets référencés
géographiquement, y compris des points, les lignes et des polygones. Alors que
les bases de données classiques peuvent comprendre différents types de
données numériques et caractères, des fonctions additionnelles ont besoin
d'être ajoutées pour traiter les types de données spatiales. Celles-ci sont
typiquement appelées géométrie ou caractère.

Figure 4 : Base de données spatiale

2.1.3. ETL (Extract – Transform – Load)

Un ETL est un outil tiers permettant d'effectuer des chargements


massifs de données provenant d’un ensemble de sources hétérogènes vers une
cible qui peut être une base ou un entrepôt de données, tout en ayant plus ou
moins traité ces données pour les adaptés au systèmes cibles. Il sert
généralement à la migration de bases de données ou la construction des
entrepôts de données

PAGE 18
Figure 5 : Architecture d’un ETL

Le tableau ci-dessous présente une liste non exhaustive de quelques


outils ETL libres et propriétaires existant sur le marché.

Libre Propriétaire
Apatar, CloverETL, Kettle, Pentaho, Anatella, Hurence, InfoSphere
Scriptella, Talend, GeoKettle DataStage, Informatica, MS SQL
Server Integration service, Oracle
Data Integrator, Statistica ETL,
DataStudio, FME, Spatialytics
Tableau 3: Quelques outils ETL libres et propriétaires

2.1.4. Data warehouse ou Entrepôt de données

« Un entrepôt de données est une collection de données orientées sujet,


intégrées, et contenant des informations historiées, non volatiles et
exclusivement destinées aux processus d’aide à la décision » (Immon 1992). Il
désigne ainsi une base de données utilisée pour collecter, ordonner, journaliser
et stocker des informations provenant de base de données opérationnelles et

PAGE 19
fournir ainsi un socle à l'aide à la décision en entreprise. Il permet beaucoup
plus à épargner les bases de données opérationnelles des requêtes trop
gourmandes en ressources et pouvant nuire aux performances de ces bases de
données.

2.1.5. Business Intelligence(BI)

Business intelligence, intelligence d’affaire ou informatique


décisionnelle en français désigne l’ensemble des moyens, outils et méthodes
permettant de collecter, consolider, modéliser et restituer les données plus ou
moins agrégées d’une entreprise ou organisation en vue d’offrir une aide à la
prise décision du manager.

Les données métier stockées dans des bases de données relationnelles


ou non sont extraites, traitées puis chargées dans un entrepôt de données, puis
des applications de type OLAP orienté vers l’analyse sur le champ
d’information selon plusieurs axes dans le but d’obtenir des rapports de
synthèse sont mises sur pied.

PAGE 20
Figure 6 : Ensemble des composants intervenant dans un système décisionnel

On distingue plusieurs déclinaisons des applications de type OLAP


selon le type d’implémentation et de stockage à réaliser :

• MOLAP : Multidimensional OLAP. Ce terme désigne plus


spécifiquement une technologie de stockage cartésien.
• ROLAP : Relational OLAP. Cette technique permet de faire de l'analyse
multidimensionnelle à partir de données stockées dans des bases
relationnelles.
• HOLAP : Hybrid OLAP. Désigne les outils d'analyse
multidimensionnelle qui récupèrent les données dans des bases
relationnelles ou multidimensionnelles, de manière transparente pour
l'utilisateur.
• DOLAP : Desktop OLAP. Ce terme désigne un petit produit OLAP
faisant de l'analyse multidimensionnelle en local.
• SOLAP : Spatial OLAP. Plate-forme visuelle supportant l'exploration et
l'analyse spatio-temporelle faciles et rapides des données selon une
approche multidimensionnelle à plusieurs niveaux d'agrégation via un
affichage cartographique tabulaire ou en diagramme statistique.

PAGE 21
Le tableau ci-dessous présente quelques outils BI libres et propriétaires

Libre Propriétaire
Mondrian, Pentaho, SpagoBI, Jasper IBM Cognos, Business Objects, MS
Report, Talend, BIRT, GeoMondrian SQL Server Ananlysis Services,
Oracle OLAP, Oracle OBIEE, IBM
TM1, SPSS, BearingPoint, EssBase,
SAS Bridge for Esri, Map4Decision
Tableau 4: Quelques outils BI libres et propriétaires

2.1.6. SIG Décisionnel

Le SIG-décisionnel ou géo décisionnel désigne les usages, méthodes et


outils rendus disponibles aux gestionnaires grâce à la géographie numérique,
interactive, collaborative et intégrée aux Systèmes d’Information des
organisations. Le géo décisionnel donne de nouvelles opportunités aux
gestionnaires et managers grâce à la prise en compte du facteur spatial dans
leurs analyses.

Figure 7 : Ensemble des composants intervenant dans un système Géo-décisionnel

PAGE 22
2.2. Outils, Architectures et fonctionnalités
2.2.1. GeoKettle

Développé par l'équipe du Dr Thierry BADARD de l'université de Laval


(CRG - Canada), GeoKettle est basé sur l'ETL Pentaho Data Integration
(Kettle), ce dernier étant un moteur de transformation ETL c.-à-d. que les
données et les traitements sont séparés.

GeoKettle est une version « spatialisée » de Kettle (Pentaho Data


Integration). Il est dédié à l’intégration de différentes sources de données
spatiales pour la constitution et la mise à jour d’entrepôts de données géo-
spatiales. GeoKettle permet l’Extraction des données de multiples sources, la
Transformation de données afin de corriger les erreurs, nettoyer les données,
changer la structure de ces dernières, de les rendre conforme aux standards
définis, ainsi que de permettre le chargement (Loading) des données
transformées dans un SGBD (en mode OLTP ou OLAP/SOLAP), un fichier SIG
ou un Service Web Geospatial.

PAGE 23
Figure 8 : Présentation de l’ETL GeoKettle et ses interactions avec d’autres outils

Site Web: www.geokettle.org


Site de téléchargement :
http://market.spatialytics.com/collections/software/products/geokettle
Support : www.spatialytics.org et http://www.spatialytics.com

2.2.2. Shape2SQL

Shape2SQL est un outil permettant de facilement importer les données


contenues dans des fichiers « ESRI Shapefiles » vers SQL Server.

Types de formes supportées

• (Multi)Point
• (Multi)Polygones
• (Multi)Lignes

Site Web: http://www.sharpgis.net/page/Shape2SQL


Site de téléchargement : http://www.sharpgis.net/page/SQL-Server-
2008-Spatial-Tools.aspx

2.2.3. GDAL/OGR

GDAL/OGR est une bibliothèque permettant d’accéder à la plupart de


formats de données vectorielles par des langages de programmation tel que :
C, C++, C#, Java, Ruby, Python, VB, R et Perl. La version binaire inclut de
nombreux utilitaires de conversion, de transformation et de re-projection pour
traiter directement des photos ou des images vectorielles. Elle fait partie des
projets de la Fondation Open Source Geospatial (OSgeo).

PAGE 24
Figure 9 : Architecture de GDAL/OGR

Site Web: http://gdal.gloobe.org/ http://www.gdal.org/


Site de téléchargement : http://download.osgeo.org/gdal/win32/

2.2.4. SQL SERVER INTEGRATION SERVICES(SSIS)

SSIS est une plateforme d’extraction, de transformation et chargement


de données, c’est à dire un ETL. Cette plateforme permet d’extraire les données
d’une source, puis de les transformer au besoin, pour ensuite les injecter vers
MS SQL Server ou d'autres destinations. Cette outil est une fonctionnalité de
SQL Server et donc s’active au besoin. C’est une plate-forme complète
d’intégration de données, offrant un certain nombre d’outils graphiques de
développement et de gestion, de services, d’objets programmables et
d’interfaces API . SSIS contient un moteur de workflow prenant en charge une
logique complexe et peut être utilisé pour un large éventail d’opérations de

PAGE 25
maintenance de base de données et d’opérations sophistiquées de transfert de
données.

Figure 10 : Architecture d’un entrepôt de données avec SSIS

Site Web: https://msdn.microsoft.com/fr-fr/library/ms141026(v=sql.105).aspx

Caractéristiques de SSIS

La dernière version courante et stable de GeoKettle est la 2.5. Elle


possède les caractéristiques suivantes :

Fonctionnalités

• SQL Server Assistant Importation et Exportation


• Connecteurs de source de données intégrés
• Concepteur et exécution SSIS
• Transformations de base
• Outils de profilage de données de base

PAGE 26
• Service de capture de données modifiées pour Oracle par Attunity
• Concepteur de capture de données modifiées pour Oracle par Attunity
• Destination Oracle de haute performance
• Destination Teradata de haute performance
• Source et destination SAP BW
• Adaptateur de destination d'apprentissage du modèle d'exploration de
données
• Adaptateur de destination de traitement de dimension
• Adaptateur de destination de traitement de partition
• Composants de capture de données modifiées par Attunity
• Connecteur pour Open Database Connectivity (ODBC) par Attunity
• Recherches de persistance (haute performance)
• Transformation de requête d'exploration de données
• Transformations de recherche floue et de regroupement probable
• Extractions de termes et transformations de recherche

PAGE 27
Chapitre III : Mise en œuvre

Cette partie va se dérouler en quatre étapes : l’explication du choix des


outils, la modélisation de la solution, l’intégration et traitement de données et
la réalisation de notre entrepôt.

3.1. Le choix des outils

3.1.1. GDAL/OGR

Bien que difficile d’utilisation au début du fait de devoir compiler l’outil


avant de l’utiliser, GDAL/OGR peut être utilisé pour convertir des
données aux caractéristiques connues dans des formats de fichiers tout en
réalisant des opérations diverses pendant le processus comme des sélections
spatiales ou attributaires, la réduction d’ensemble d’attributs, la définition du
système de coordonnées en sortie ou même la re-projection des objets pendant
la translation. Il s’utilise ne ligne de commande bien qu’il soit possible de
concevoir un outil graphique à partir de ce socle.

Bien que outil graphique, le plus gros inconvénient de Shape2SQL est la


non importation multiple de fichiers shapefile.

L’outil GeoKettle quand à lui pourrait faire l’affaire si l’importation de


données de shapefile ne nécessitait pas de transformations supplémentaires.

3.1.2. SQL Server 2008 R2

Les bases de données de production et celles d’autres métiers de


PERENCO étant sous SQL Server, le choix de cette outil surtout qu’à partir de

PAGE 28
sa version 2008, elle supporte la composante spatiale en natif. Cet outil est
choisi au détriment d’Oracle et PosGreSQL (PosGIS).

3.1.3. SQL Server Integration Service

Le choix de cet outil est la conséquence logique du choix du SGBD.

3.2. Modélisation de la solution


Avant de concevoir notre entrepôt de données, nous avons besoin de
savoir quel type de schéma (étoile ou flocon de neige) de modélisation
dimensionnelle nous devons utiliser.

3.2.1. Le schéma en étoile

Ce schéma consiste en la création d’une grande table (table de faits) et


la création d’un cercle d’autres tables contenants les éléments descriptifs du
fait, appelées « dimensions ». Illustré, le modèle a l’air d’une étoile, d’où
l’origine de son nom « schéma en étoile ».

3.2.2. Le schéma en flocon de neige

Ce schéma en est une variante du schéma en étoile dont dans la théorie


la différence réside dans la simple normalisation des tables de dimensions.
Dans ce type de schéma, Il est simplement question de mettre les attributs de
chaque niveau hiérarchique dans une table de dimension à part.

Etant donné le niveau de granularité (profondeur) et d’hiérarchie dans


ce secteur d’activité, il nous est tout à fait logique de choisir le schéma en
flocon de neige.

PAGE 29
3.2.3. Le choix de la granularité

Cette partie consiste à faire le choix de la granularité c’est-à-dire du


niveau de détail de l’information à conserver. Le détail le plus bas de notre
projet consiste en la production au niveau du puits.

3.2.4. Définition des axes d’analyse

Les analyses se feront suivant plusieurs axes (dimensions) :

L’axe temporel

Cet axe permet de se focaliser sur la période de production.

L’axe organisationnel

Cet axe représente la hiérarchie organisationnelle de l’entreprise au


niveau de la direction de la production. Elle peut aussi servir à l’agrégation de
données au niveau du siège de l’entreprise.

L’axe spatial

Cet axe représente la hiérarchie spatiale simple de l’entreprise au niveau


de la direction de la production. Elle sert à l’agrégation de données au niveau
du siège de l’entreprise.

L’axe géosciences et administratif

PAGE 30
Cet axe est non moins intéressant, car c’est au niveau de celui-ci
qu’intervient les contrats de concessions entre l’entreprise et l’état du
Cameroun. C’est également à ce niveau qu’on retrouve les blocs (unité adoptée
dans la subdivision des permis de recherche), les niveaux (subdivision du
réservoir caractérisé son niveau de perméabilité) et les réservoirs (c'est le
terme scientifique, utiliser pour décrire le lieu où le pétrole et le gaz se
concentrent).

3.2.5. Définition des mesures(Faits)

Le détail le plus bas de notre projet consistant en la production au


niveau du puits, il nous faut définir les éléments de cette production :

Identifiant du puits
Identifiant de la plateforme
Identifiant du niveau
Le jour
La durée
Le potentiel de liquide
BSW
Le potentiel d’huile
Le potentiel d’eau
Le potentiel de gaz
La quantité d’huile estimée
La quantité d’eau estimée
La quantité de gaz estimée

PAGE 31
La quantité d’huile allouée
La quantité d’eau allouée
La quantité de gaz allouée

Il est nécessaire de définir quelques termes dans ce contexte bien


précis :
• Potentiel : Quantité d’huile, eau et gaz que le puits devrait
normalement produire.
• Quantité estimé : Quantité d’huile, eau et gaz qu’on estime
que le puits a produit en tenant compte des manques à
produire (pertes).
• Quantité allouée : Quantité d’huile, eau et gaz qu’on estime
que le puits a produit en tenant compte du factor d’allocation
qui est le rapport de la quantité estimée globale et la quantité
produite effective.

PAGE 32
Figure 11 : Schéma de calcul de la production allouée d’un puits

3.2.6. Conception du modèle physique de l’entrepôt

Dictionnaire De Données

Le dictionnaire de données recense l'ensemble des données


élémentaires (attributs des entités) se rapportant strictement à ce domaine
étudié.

Le dictionnaire de données ci-dessous est un tableau dont les colonnes


sont les suivantes :

PAGE 33
Le nom plus ou moins abrégé de l'attribut (ce sera le nom du champ
dans notre entrepôt de données)
La description de l'attribut
La table représente la table à laquelle l’attribut appartient
Le type de donnée de l'attribut : entier, réel, texte, caractère, date...

Code Description Type Table


ID_WELL Identifiant du puits Texte PRODUCTION
ID_PF Identifiant de la plateforme Texte PRODUCTION
PRODDAY Date de la production Date PRODUCTION
DURATION Durée en heure de la production Réel PRODUCTION
LIQ_POT Potentiel liquide de la production Réel PRODUCTION
BSW BSW de la production Réel PRODUCTION
OIL_POT Potentiel huile de la production Réel PRODUCTION
WATER_POT Potentiel en eau de la production Réel PRODUCTION
GAS_POT Potentiel en gaz de la production Réel PRODUCTION
OIL_EST Production d’huile estimée Réel PRODUCTION
WATER_EST Production d’eau estimée Réel PRODUCTION
GAS_EST Production de gaz estimée Réel PRODUCTION
OIL_ALLOC Production d’huile allouée Réel PRODUCTION
WATER_ALLOC Production d’eau allouée Réel PRODUCTION
GAS_ALLOC Production de gaz allouée Réel PRODUCTION
PRODDAY Date de la production Date DAILY_PROD
PRODMONTH Mois de la production Date MONTHLY_PROD
PRODYEAR Année de la production Date YEARLY_PROD
ID_PF Identifiant de la plateforme Texte PF
ID_FIELD Identifiant du champ Texte FIELD
ID_AREA Identifiant de la zone Texte AREA
ID_ASSET Identifiant de l’actif Texte ASSET

PAGE 34
ID_SUB Identifiant de la filiale Texte SUBSIDIARY
ID_COM Identifiant de la compagnie Texte COMPANY
ID_ LEVEL Identifiant du niveau Texte LEVEL
ID_RESER Identifiant du réservoir Texte RESERVOIR
ID_BLOCK Identifiant du bloc Texte BLOCK
ID_LEASE Identifiant du contrat Texte LEASE
ID_CITY Identifiant de la ville Texte CITY
ID_COUN Identifiant du pays Texte COUNTRY
ID_CONTI Identifiant du continent Texte CONTINENT
Tableau 5 : Dictionnaire de données de l’entrepôt

Figure 12 : Modèle physique simplifié de l’entrepôt de données de la production

PAGE 35
3.3. Intégration et traitement de données

3.3.1. Utilisation du SRID

L’entreprise après avoir longtemps utilisé le SRID 2214 associé à la


projection Douala 1948 / AOF west dont la zone de validité est la cote du
Cameroun et du Nigéria. Actuellement le SRID utilisé est 2215 associé à la
projection Manoca 1962 / UTM zone 32N dont la zone de validité est le large
des côtes Camerounaise.

3.3.2. Compilation de GDAL

Pour utiliser l’outil GDAL dans son ensemble et permettre à celui-ci


d’importer directement les fichiers dans SQL Server, il est nécessaire de faire
sa propre compilation. Cette compilation peut se faire avec MS Visual 2005,
2008, 2010 et 2013.

Figure 13 : Capture d’écran de la compilation de GDAL dans MS Visual Studio 2013

PAGE 36
Les fichiers binaires dans le dossier bin de notre solution GDAL. On peut
alors testé en affichant l’aperçu des fichiers supportés par OGR.

Figure 14 : Capture d’écran du test de commande ogr2ogr de GDAL

3.3.3. Choix des fichiers Shapefile à importer

Il est question ici sélectionné les fichiers shapefile à importer dans la


base afin de peupler les tables pouvant avoir une composante spatiale.
L’ensemble des fichiers shapefilee à utiliser a été fourni par le département de
cartographie de la direction Géosciences.

PAGE 37
Figure 15 : Liste de fichiers shapefile à insérer dans SQL Server

3.3.4. Importation de fichiers Shapefile

Avant d’importer les fichiers shapefile, il est important de créer une base
de données tampon qui servira de réceptacle des données issues de
l’importation.

USE [master]
GO

CREATE DATABASE [Staging] ON PRIMARY


( NAME = N'Staging', FILENAME = N'C:\Program Files\Microsoft SQL
Server\MSSQL10_50.PERENCO\MSSQL\DATA\Staging.mdf' , SIZE = 7168KB ,
MAXSIZE = UNLIMITED, FILEGROWTH = 1024KB )
LOG ON
( NAME = N'Staging_log', FILENAME = N'C:\Program Files\Microsoft SQL
Server\MSSQL10_50.PERENCO\MSSQL\DATA\Staging_log.ldf' , SIZE = 3840KB ,
MAXSIZE = 2048GB , FILEGROWTH = 10%)
GO

PAGE 38
Importation de la zone

ogr2ogr -overwrite –t_srs EPSG:2215 -f MSSQLSpatial


"MSSQL:server=dlapdmsdb02;database=Staging;trusted_connection=yes" "
Area.shp "

Importation des champs

ogr2ogr -overwrite –t_srs EPSG:2215 -f MSSQLSpatial


"MSSQL:server=dlapdmsdb02;database=Staging;trusted_connection=yes" "
carte_champs.shp"

Importation des contrats

ogr2ogr -overwrite –t_srs EPSG:2215 -f MSSQLSpatial


"MSSQL:server=dlapdmsdb02;database=Staging;trusted_connection=yes" "
Export_Limites_Permis.shp"

Importation des plateformes

ogr2ogr -overwrite –t_srs EPSG:2215 -f MSSQLSpatial


"MSSQL:server=dlapdmsdb02;database=Staging;trusted_connection=yes" "
Plateformes.shp"

Importation des contrats

ogr2ogr -overwrite –t_srs EPSG:2215 -f MSSQLSpatial


"MSSQL:server=dlapdmsdb02;database=Staging;trusted_connection=yes" "
Export_Limites_Permis.shp"

Importation des leases

ogr2ogr -overwrite –t_srs EPSG:2215 -f MSSQLSpatial


"MSSQL:server=dlapdmsdb02;database=Staging;trusted_connection=yes" "
Lease.shp"

Importation des puits

ogr2ogr -overwrite –t_srs EPSG:2215 -f MSSQLSpatial


"MSSQL:server=dlapdmsdb02;database=Staging;trusted_connection=yes" "
Puits_CAM.shp"

Importation d’un niveau

PAGE 39
ogr2ogr -overwrite –t_srs EPSG:2215 -f MSSQLSpatial
"MSSQL:server=dlapdmsdb02;database=Staging;trusted_connection=yes" "
S5D_Area.shp"

On peut directement visualiser le résultat dans MS SQL Server Management Studio

Figure 16 : Requête de visualisation de l’objet importé dans SQL Server

Pour compléter le tableau des importations, nous devons réaliser des


fichiers de correspondance entre les objets insérer dans la base tampon et
existant dans la base de production. On a par exemple le fichier csv pour les
plateformes dont la capture d’écran est ci-dessous :

PAGE 40
Figure 17 : Requête de visualisation de l’objet plateforme importé dans SQL Server

Figure 18 : Fichier csv de correspondance de plateforme

3.4. Réalisation de l’entrepôt de données


La réalisation de notre entrepôt de données se fait en deux phases : ETL
unique et l’ETL périodique. Mais avant ceci, nous devons créer la base qui
accueillera notre entrepôt de données.

USE [master]
GO

PAGE 41
CREATE DATABASE [DWPROD] ON PRIMARY
( NAME = N'DWPROD', FILENAME = N'C:\Program Files\Microsoft SQL
Server\MSSQL10_50.PERENCO\MSSQL\DATA\DWPROD.mdf' , SIZE = 7168KB ,
MAXSIZE = UNLIMITED, FILEGROWTH = 1024KB )
LOG ON
( NAME = N'DWPROD_log', FILENAME = N'C:\Program Files\Microsoft SQL
Server\MSSQL10_50.PERENCO\MSSQL\DATA\DWPROD_log.ldf' , SIZE = 3840KB ,
MAXSIZE = 2048GB , FILEGROWTH = 10%)
GO

-- CREATE DIMENSION TABLES


USE DWPROD
GO

CREATE TABLE DimPF


(ID_PF nvarchar(60) NOT NULL PRIMARY KEY NONCLUSTERED)
GO

CREATE TABLE DimSUBSIDIARY


(ID_SUB nvarchar(60) NOT NULL PRIMARY KEY NONCLUSTERED)
GO

CREATE TABLE DimASSET


(ID_ASSET nvarchar(60) NOT NULL PRIMARY KEY NONCLUSTERED)
GO
CREATE TABLE DimAREA
(ID_AREA nvarchar(60) NOT NULL PRIMARY KEY NONCLUSTERED)
GO
CREATE TABLE DimLEASE
(ID_LEASE nvarchar(60) NOT NULL PRIMARY KEY NONCLUSTERED)
GO
CREATE TABLE DimBLOCK
(ID_BLOCK nvarchar(60) NOT NULL PRIMARY KEY NONCLUSTERED)
GO
CREATE TABLE DimRESERVOIR
(ID_RESER nvarchar(60) NOT NULL PRIMARY KEY NONCLUSTERED)
GO
CREATE TABLE DimFIELD
(ID_FIELD nvarchar(60) NOT NULL PRIMARY KEY NONCLUSTERED)
GO
CREATE TABLE DimLEVEL
(ID_LEVEL nvarchar(60) NOT NULL PRIMARY KEY NONCLUSTERED)
GO
CREATE TABLE DimCONTINENT
(ID_CONTI nvarchar(60) NOT NULL PRIMARY KEY NONCLUSTERED)
GO
CREATE TABLE COUNTRY
(ID_COUN nvarchar(60) NOT NULL PRIMARY KEY NONCLUSTERED)
GO
CREATE TABLE DimCITY
(ID_CITY nvarchar(60) NOT NULL PRIMARY KEY NONCLUSTERED)
GO

CREATE TABLE DimYEARLY_PROD


(PRODYEAR int NOT NULL PRIMARY KEY NONCLUSTERED) --'2015'
GO

PAGE 42
CREATE TABLE DimMONTHLY_PROD
(PRODMONTH datetime NOT NULL PRIMARY KEY NONCLUSTERED) --'2015-02-01'
GO

CREATE TABLE DimDAILY_PROD


(PRODDAY datetime NOT NULL PRIMARY KEY NONCLUSTERED) --'2015-02-21'
GO
-- CREATE A FACT TABLE
CREATE TABLE FactProduction
(ID_WELL nvarchar(30) NOT NULL,
ID_PF nvarchar(60) NOT NULL REFERENCES DimPF(ID_PF),
PRODDAY datetime NOT NULL REFERENCES DimDAILY_PROD(PRODDAY),
DURATION real,
LIQ_POT real,
BSW real,
OIL_POT real,
WATER_POT real,
GAS_POT real,
OIL_EST real,
WATER_EST real,
GAS_EST real,
OIL_ALLOC real,
WATER_ALLOC real,
GAS_ALLOC real
CONSTRAINT [PK_FactProduction] PRIMARY KEY NONCLUSTERED
(
[ID_WELL],[ID_PF],[PRODDAY]
)
)
GO

PAGE 43
Figure 19 : Base et tables de l’entrepôt crées

ETL Unique

Cette phase consiste à extraire, traiter et charger les données qui sont
fixes dans le système ou qui ne varies pas beaucoup et dont les caractéristiques
ne varient pas avec le temps à l’exemple des plateformes et des puits.

Ici on copie les données du fichier csv dans la table de la base tampon
(staging), ensuite on crée la table associée au fichier csv et l’import du fichier
shapefile. A la fin on copie les données de la table crée dans la dimension
associée de la base DWPROD.

PAGE 44
Figure 20 : Diagramme SSIS de l’ETL Unique

ETL Périodique

Cette phase consiste à extraire et traiter les données de production


journalière de la base de production, puis de la charger dans l’entrepôt de
données. L’exécution périodique ici est assurée par une tâche planifiée de SSIS.

PAGE 45
Figure 21 : Diagramme SSIS de l’ETL Périodique

PAGE 46
CONCLUSION

Lors de ce stage en entreprise, il a été question d’étudier et concevoir un


entrepôt de données spatiale. On a commencé par définir quelques termes et
à présenter les outils à utiliser. Ensuite, le choix des outils a été fait, la solution
a été modéliser, les données ont été intégrées pour enfin réaliser notre
entrepôt de données.

On peut désormais grâce à cet entrepôt de données, implémenter de


façon aisée des outils de génération de rapports, des outils de datamining, des
tableaux de bord et des techniques SOLAP

PAGE 47
GLOSSAIRE

Réservoir : c'est le terme scientifique, utiliser pour décrire le lieu


(roche) où le pétrole et le gaz se concentrent.

Bloc : c'est l’unité adoptée dans la subdivision des permis de recherche.

Niveau : c'est la subdivision du réservoir caractérisé son niveau de


perméabilité.

PAGE 48
ACRONYMES

SRID : Spatial Reference ID c'est l’identifiant unique du système de


projection et qui est contenu dans la base de données de European Petroleum
Survey Group(EPSG).

BSW : Basic Sediment and Water, c'est le pourcentage de sédiment et


d’eau dans le liquide produit.

ETL : Un ETL littéralement Extract-Transform-Load est un processus


permettant d'effectuer des chargements massifs de données provenant d’un
ensemble de sources hétérogènes vers une cible qui peut être une base ou un
entrepôt de données, tout en ayant plus ou moins traité ces données pour les
adaptés aux systèmes cibles.

OLTP : On Line Transaction Processing, c'est la technique ou l’outil qui


sert à faire des mises à jour d’information en temps réel.

OLAP : On Line Analytical Processing, c'est la technique ou l’outil


permettant le traitement de données se basant sur un comportement en
plusieurs dimensions.

SOLAP: Spatial On Line Analytical Processing, Plate-forme visuelle


supportant l'exploration et l'analyse spatio-temporelle faciles et rapides des
données selon une approche multidimensionnelle à plusieurs niveaux
d'agrégation via un affichage cartographique tabulaire ou en diagramme
statistique

BOPD : Baril Oil Per Day est la production d’huile journalière en baril

PAGE 49
WEBOGRAPHIE
http://www.piloter.org/business-intelligence/data-warehousing.htm
[Définition de l’entrepôt de données]
http://grim.developpez.com/articles/concepts/etl/ [Concept ETL]

http://business-intelligence.developpez.com/tutoriels/etl-open-
source/?page=Introduction [Concept et outils ETL]
http://bernard.lupin.pagesperso-orange.fr/index.htm [bases
multidimensionnelles et outils OLAP]
http://www.cartographie.ird.fr/refugies/methodes-SIG.html [Définition SIG]
http://fr.wikipedia.org/wiki/Liste_des_logiciels_SIG [Logiciels SIG]
http://mtranchant.developpez.com/tutoriels/Business-Intelligence/qu-est-
que-informatique-decisionnelle/ [notion et concept l'informatique décisionnelle]
http://fr.wikipedia.org/wiki/OLAP[Traitement analytique en ligne et dérivés]
http://www.spatialytics.org/projects/geokettle/ [Aperçu de l’outil GeoKettle]
http://live.osgeo.org/fr/overview/geokettle_overview.html [Aperçu de l’outil
GeoKettle]
http://geosoa.scg.ulaval.ca/~badard/ogrs2009-lab_geokettle-
tbadard_et_edube-final.pdf [Introduction à GeoKettle un outil ETL spatial open
source]
http://blog.atolcd.com/?p=362 [Vue d’ensemble de GeoKettle]
https://fr.wikipedia.org/wiki/Informatique_d%C3%A9cisionnelle [notion et
concept l'informatique décisionnelle]
http://fr.wikipedia.org/wiki/Base_de_donn%C3%A9es_spatiales [Base de
données spatiale]
http://presentations.opengeo.org/2011_IMAK/Workshop_OpenSource_Stack
/postgis/index.html [Concept de base de données spatiale]
http://gdal.gloobe.org/ogr/ogr2ogr.html [Usage de GDAL/ogr2ogr]
https://alastaira.wordpress.com/2011/06/18/importing-spatial-data-to-sql-
server-with-ogr2ogrnow-even-easier/ [Usage de GDAL/ogr2ogr]
https://msdn.microsoft.com/fr-fr/library/ms141026(v=sql.105).aspx [Vue
d’ensemble de SSIS]

PAGE 50
BIBLIOGRAPHIE
Pro Spatail with SQL Server 2012, Alastair Aitchison, Apress
Entrepôts de données: guide pratique de modélisation dimensionnelle,
Ralph Kimball, Margy Ross, Vuibert informatique
Business Intelligence avec Oracle 10g, Claire NOIRAULT, Eni
Implementing a Data Warehouse with Microsoft SQL Server 2012,
Dejan Sarka, Matija Lah, Grega Jerkic, Microsoft Press
Pro SQL Server 2012 Integration Services, Francis Rodrigues, Michael
Coles, David Dye, Apress
Microsoft SQL Server 2012 Integration ServicesWee-Hyong Tok,
Rakesh Parida, Matt Masson, Xiaoning Ding, Kaarthik
Sivashanmugam, Microsoft Press

PAGE 51