Académique Documents
Professionnel Documents
Culture Documents
EPIGRAPHE
Principe d’anticipation.
II
DEDICACE
TABLES DE FIGURES
TABLE DE TABLEAU
LISTE D’ABREVIATION
ETL : Extract-Transform-Load
Mn : Manganèse
Cu : Cuivre
SSIS :
1
INTRODUCTION
Le processus décisionnel ou système décisionnels au sens des entrepôts de
données sont nés d’un besoin exprimé par les entreprises qui ne pas satisfait par les systèmes
traditionnels de bases de données. En intégrant la technologie des entrepôts de données (data
warehouses), le processus décisionnel apporte une réponse au problème de l’évolution
continuelle des données pouvant être de formats différents. De plus, il supporte efficacement
les processus d’analyse en ligne (On-Line Analytical Processing-OLAP) (Chaudhuri et Dayal,
1997 ; Chaudhuri et al, 2011)
B. PROBLEMATIQUE
Ce qui nous a conduit à déduire que ces activités liées à la pollution du quartier
pourraient avoir des conséquences très néfastes si pas à court ou moyen terme mais surtout à
long terme. L’usine de STELL envoie la fumée de ses installations en direction du quartier.
Cette fumée contient des matières toxiques (manganèse, zinc et autres) nuisibles à
la santé humaine et à la végétation. Il n’existe pas un moyen pour suivre l’évolution de cette
pollution pour aider les décideurs.
C. HYPOTHES
Plus les années ne passent, il est remarqué un volume accru de données
sauvegardées par les gestionnaires de l’environnement. Notre ambition est de fournir un outil
d’aide pour le suivi de cette pollution.
D. METHODES ET TECHNIQUES
Les modèles multidimensionnels ont pour objectif de proposer un accès aux
données intuitif très performant. Pour cela, les données sont organisées autour des faits que
l’on cherche à analyser, caractérisés à l’aide d’indicateurs (appelés mesures) qui sont des
données normalement numériques et additives, permettant de mesurer l’activité modélisée.
Ces faits sont décrits par un ensemble d’axes d’analyse, ou dimensions, d’où le terme de
modèle multidimensionnel. Ce modèle de base correspond au modèle en étoile (Kimball et al.,
2000 ; Chaudhuri et Daya, 1997). Elles se basent uniquement sur la spécification de ces
besoins pour définir les sujets et les axes de l’analyse en négligeant la structure et le contenu
2
des sources à partir desquelles les données décisionnelles sont extraites. Et comme technique
nous utiliserons la technique bottom-up qui consiste à construire des morceaux de l’entrepôt
qui devront être unifiés pour donner lieu à un tout après bien entendu, élimination des
éventuelles redondances.
E. ETAT DE LA QUESTION
Il est a souligné que plusieurs études ont été faites sur le système décisionnel, tout
d’abord nous nous sommes intéressés aux recherches actuelles et passées concernant le
système décisionnel en générale, enfin d’en tirer les enseignements nécessaires.
C’est pourquoi, après avoir fait plusieurs recherches sur le net, Nous avons retenu
le travail.
Titre : « Elaboration d’entrepôts de données complexes»
Auteur : OLIVIER TESTE
Nature : Thèse
Année : 2004
Institution : Université Paul Sabatier (Toulouse III), IRIT (Institut de
Recherche en Informatique de Toulouse), équipe SIG.
F. DELIMITATION DU SUJET
Nous focaliserons nos recherches sur une période de deux ans passés (2010-2011),
nous limitons nos recherches dans la province du haut Katanga, plus précisément dans la ville
de Lubumbashi, cité Gécamines.
G. SUBDIVISION
Pour mener à bon port notre analyse, notre travail sera subdivisé en trois chapitres
Hormis l’introduction et la conclusion, repartis de la manière suivante :
1. Au premier chapitre, nous prendrons soin de parler des cadres théorique et
conceptuel.
Cadre théorique
Cadre conceptuel
Portera sur la définition des quelques concepts de base comme la pollution,
polluant, environnement.
I.1. Méthodologie
Le modèle multidimensionnel est la combinaison de tables de dimensions et de
fait. Le fait est le sujet de l’analyse. Il est formé de mesures, généralement numérique,
renfermées de manière continue. Ces mesures permettent de résumer un grand nombre
d’enregistrements des données sources en quelques-uns. Le fait est analysé selon des
perspectives, nommés dimensions. Chacune contient une hiérarchique ; la dimension «
temps», par exemple, pourrait être divisée en années, trimestres, mois, semaines, jours…
Ils sont constitués : des SGBD relationnels et d'autres systèmes qui contiennent les
données d'exploitation (fichiers Excel, XML, texte, etc.); l’ETL (Extract Transfrom Load) ou
ETC (Extraction Transformation et Chargement) est un ensemble de composants (logiciels,
scripts, etc.) nous permettant d’Extraire, de Nettoyer, de Transformer les données provenant
des diverses sources données et de les Charger ou de les Rafraichir dans l’entrepôt de
données.
PRINCIPAUX ETL
Il est composé de l’Entrepôt de données, des magasins de données et des métas donnés
Etant donné que les Data Warehouses sont en général, très volumineux et très
complexes à concevoir, il a été décidé de les diviser en bouchées plus faciles à créer et
entretenir. Ce sont les Data Marts. On peut faire des divisions par fonction (un Data Mart
pour les ventes, pour les commandes, pour les ressources humaines) ou par sous-
ensemble organisationnel (un Data Mart par succursale).
c. Fait
Les faits, sont ce sur quoi va porter l'analyse. Ce sont des tables qui contiennent
des informations opérationnelles et qui relatent la vie de l'entreprise. On aura par
exemple des tables de faits sur les ventes pour une entreprise commerciale, sur les
communications pour une entreprise de télécommunications,…
En résumé, un fait est tout ce qu'on voudra analyser.
d. Dimension
7
On entend par dimensions les axes (critères) avec lesquels on veut faire l'analyse
(évaluer, quantifier, qualifier) des faits. Il peut y avoir une dimension client, une dimension
produit, une dimension géographie (pour faire des analyses par secteur géographique), etc.
Une dimension est donc tout ce qu'on utilisera pour faire des analyses.
e. Mesure
- Élément de donnée sur lequel portent les analyses, en fonction des différentes
dimensions.
- Ces valeurs sont le résultat d’opérations d’agrégation sur les données
Exemple :
f. Étoile
Une étoile est une façon de mettre en relation les dimensions et les faits dans un entrepôt de
données. La table centrale comprend les faits. On l’appelle table de fait. Les tables autours
sont les tables de dimensions. Le principe est que les dimensions sont directement reliées à
un fait (schématiquement, ça fait comme une étoile
g. Constellation
Une constellation est une série d'étoiles ou de flocons reliés entre eux par des
dimensions. Il s'agit donc d'étoiles ou de flocons avec des dimensions en commun.
h. Cubes de données
Le cube correspond à une vue métier où l’analyste choisit les mesures à observer selon
certaines dimensions. Un cube est une collection de données agrégées e consolidées pour
résumer l’information et expliquer la pertinence d’une observation. Le cube de données est
exploré à l’aide de nombreuses opérations qui permettent sa manipulation. Le cube de
données s’appuie donc sur un entrepôt des données qui lui, est constitué des tables des faits et
des dimensions.
"Un Entrepôt de Données est une collection de données orientées sujet, intégrées, non
volatiles et historiées, résumées et disponible pour l’interrogation et l’analyse " selon bill
inmon.
Les entrepôts de données ont une architecture s’appuyant sur une base de données séparée
du système de production de l’entreprise qui contient les données de l’entrepôt. Dans
l’architecture des entrepôts de données, il y a trois processus définis dont le processus
d’extraction des données qui alimente périodiquement cette base de données (voir figure 2).
Avant l’exécuter du processus, nous avons néanmoins une phase de transformation appliquée
aux données opérationnelles. Celle-ci consiste à les préparer, pour finalement aboutir à leur
stockage dans l’entrepôt [Serna Encinas Maria Trinidad, 2007].
a. Les sources : L’alimentation de l’entrepôt des données par extraction porte sur des
bases de production de diverses sources souvent reparties et hétérogènes, et qui doivent être
transformées avant leur stockage dans l’entrepôt. Nous avons deux types de sources des
données : internes et externes à l’organisation.
Internes: La plupart des données sont saisies à partir des différents systèmes de
production qui rassemblent les diverses bases de données, ainsi que des anciens systèmes de
production qui contiennent des données encore exploitées par l’entreprise.
9
c. Outils d’analyse : nous le trouvons sur le marché pour l’aide à la décision, comme les outils
de fouille de données ou datamining (pour découvrir des liens sémantiques), outils d’analyse en
ligne (pour la synthèse et l’analyse des données multidimensionnelles), outils d’interrogation
(pour faciliter l’accès aux données en fournissant une Interface conviviale au langage de
requetés),... . [Serna Maria Trinida, 2015].
10
I.3.1. Définition
L’informatique décisionnelle(ou BI pour Business Intelligence) désigne les moyens,
les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les
données matérielles ou immatérielles, d’une entreprise en vue d’offrir une aide à la décision et
de permettre aux responsables de la stratégie d’entreprise d’avoir une vue d’ensemble de
l’activité traitée.
Le but de la BI est d’apporter une vision globale des données de l’entreprise, afin de
répondre à la problématique de celui-ci ou, tout simplement, afin de l’évaluer. Pour y arriver,
SQL server 2008R2 met donc à disposition trois plateformes qui illustrent ce cheminement
SQL server Intégration service (SSIS), qui permet d’intégrer des données provenant de
différentes sources pour les ranges dans un entrepôt central (Datawarehouse)
SQL server Analysis service (SSAS), qui permet d’analyser les données agrégées lors
de SSIS grace à des fonctions d’analyse multidimensionnelle.
SQL server Reporting service (SSRS) qui per, et de créer, gérer et publier des rapports
résultat de analyses réalisées lors de SSAS
Moteur
BDD SSIS SSAS SSRS
SQL server Intégration service est donc la première plateforme à aborder. Une fois la
structure datawarehouse définie, les données doivent être insérées. L’outil qui va permettre le
remplissage de notre base est l’ETL (Extract Transform Loading). Comme son nom l’indique,
il commence par extraire les données provenant de différentes sources (Excel, Mysgl…), les
transforme si besoin est, puis le charge dans le datawarehouse. Pour notre travail les données
sont extraites de la base de données Excel.
Extraction des données à partir d’une ou plusieurs sources de données. Les données
sont dans un fichier Excel (dw_pollution) (KISIMBA. M, 2010)
Transformation des données agrégées
Chargement des données dans la banque de données de destination (datawarehouse)
Dans SSIS, on appelle package l’environnement dans lequel on travail. On peut construire
plusieurs packages intégration service (voir figure 3).
11
Chaque package contient toutes les taches d’intégration. L’enchainement des taches d’un
packages est orchestré par le flux de contrôle. Lorsqu’une tache a pour objectif d’assurer la
transformation des données, elle est nommée« tache de flux de données». A l’intérieur de
cette tache se trouve un flux de données contenant au minimum une source, une
transformation et une destination.
I.3.3 Outils
Microsoft Visual Studio 2008R2 il m’a permis d’utiliser SSIS (voir figure 5).
Pour le cadre de notre travail nous avons utilisé SSIS en d’intégré le fiche Excel pour la
formation d’un entrepôt de données au travers du processus ETL (Extract transform Loading).
SQL server Analysis Service est la plateforme qui permet de créer et gérer des structures
multidimensionnelles. Pour cela, SSAS trouva des fonctions OLAP (On Line Analysical
Processus) qui permettent à partir des entrepôts de donnés, d’analyser l’activité de l’entreprise
grâce à des moyennes mobiles, coefficient de contractions, valeurs cumulées.
L’élément principal des fonctions OLAP est le cube c’est en fait une base de donnée
multidimensionnelle, qui permet l’analyse de ces données. Un cube repend les mesures de la
tache de fait que l’on a pu établi lors de la conception du data warehouse et s’en sert pour
effectuer des calculs, les mesures étant des données.
Le langage qui permet d’interroger les cubes OLAP est le langage MDX
(Multidimensionnel Expressions).C’est aussi ce langage qui est utilisé par Analysis Service
pour construire les cubes. Les analyses réalisées par les fonctions OLAP sont utilisées pour
évaluer l’entreprise vient donc la notion de KPI.
Les KPI (Key Performance Indicator) sont, comme leur nom l’indique, les indicateurs des
performance qui montrent l’évolution de l’entreprise en matière de qualité et les objectifs à
atteindre. Un KPI indique une valeur ou une couleur (échelle prédéfinie) la tendance d’une
mesure vis-à-vis des objectifs requis.
SSRS offre un ensemble d’outils et de services prêts à l’emploi pour définir, gérer et
déployer des rapports, il fournit également des interfaces de programmation d’applications qui
permettent d’entendre les rapports sous d’autres environnements. SSRS est une plateforme
server de rapports qui fournit des fonctionnalités de création de rapports pour différentes
sources. Les outils reporting service fonctionnement au sein de l’environnement Microsoft
Visual Studio et sont totalement intégrés aux outils et composants de SQL server 2012.
Reporting service permet de créer des rapports de type interactif, tabulaire, graphique ou livre
à partir de sources de données XML, relationnelles (SQL) et multidimensionnelles (OLAP).
II.1 Introduction
II.2 Concepts
A. La pollution de l’air
La pollution ponctuelle consiste en un dépôt ou épandage des polluants sur une surface
restreinte que l’on peut assimiler à une source.
2. La pollution diffuse
La pollution diffuse est celle où il y a épandage ou retombée de polluants sur une grande
surface.
C. Echantillon
Les échantillons de l’air sont prélevés dans le but de tester la teneur en élément traces
métalliques. Un petit volume représentatif de l’ensemble de l’air observé dans la zone d’étude
a été prélevé. Les différents prélèvements ont été faits en secteur selon les zones d’étude
dont nous avons :
15
Troisième Secteur : Q/lido, sur l’avenue Kapopola, jusqu’au quartier lido au Nord-Est du
cimetière Penga Penga
I. Introduction
Le ministère qui a en charge l’environnement regorge en son sein plusieurs divisions pour
un bon fonctionnement, situe sur l’avenue djamenant, au croisement des avenues
Kamaniola.
La tâche du ministère de l’environnement est la protection de l’environnement contre
toute dégradation et la mise en place de structure pour une bonne suivie de celui-ci enfin
qu’elle soit conserve saine. La structure ayant en charge le suivi de l’évolution
environnementale est la coordination provinciale de l’environnement et développement
durable ; il regorge en son sein plusieurs structures à savoir :
Chef de division
Chef de bureau
Attaché d’Administrations de première classe
Attaché d’Administrations de deuxième classe
Agent d’Administration de première classe
Huissier
Secrétaire général
Sous-totaux A
Sous-totaux B
C. Direction standards
Sous-totaux C
D. Directions métiers
Sous-totaux E
calculé
Ces diverses analyses sont nécessaire afin d’améliorer la qualité de l’air dans cette zone.
Il sera par exemple nécessaire de juger quel élément polluant à plus d’effet sur
l’environnement pendant telle période suite à un mauvais suivi.
4. MODÉLISATION DIMENSIONNELLE.
1. L’identification des tables de faits, Les dimensions appartenant à la table de faits et leurs
mesures
2. Le fait à étudier est la pollution au manganèse avec comme mesure : la quantité de
manganèse. Et avec comme dimensions : zone, temps.
Notre table de fait pollution au manganèse est présenté (dans la figure 10) comme suit :
Pollution au
Mn
IDtemps
IDZone
Quantité_Mn
Pollution au Cu
IDtemps
IDZone
Quantité_Cu
22
La dimension zone est « la seule dimension qui figure systématiquement dans tout l’entrepôt
de données, car en pratique tout entrepôt de données est une série temporelle. Notre
dimension a comme attributs :
Code de la zone
Nom zone
Notre table de dimension zone se présente (dans la figure 13) comme suit :
Zone
Code_Zone(Pk)
Nom_Zone
temps
Année
Notre dimension temps se présente (dans la figure 14) comme suit :
Temps
IDtemps(Pk)
Année
Schéma en étoile
Cette étoile (figure 15), nous permettra de faire le suivi de la pollution au manganèse suivant
les axes d’analyse : zone, temps.
Région
Pollution au Mn
IDCode_Zone(Pk)
#IDtemps(fk)
Nom_Zone
Temps #IDZone(fk)
Quantité_Mn
IDtemps(Pk)
Année
Figure 15 : étoile de suivi de la pollution au manganèse
Cette étoile (figure 16), nous permettra de faire le suivi de la pollution au cuivre suivant les
axes d’analyse : zone, temps.
Pollution au Cu Région
Schéma en constellation
Notre schéma en constellation (voir figure 20) est obtenu en fusionnant toutes nos étoiles à
partir de dimension communes. Ici la dimension qui est commune, est la dimension région
Temps
IDtemps(Pk)
Année
Pollution au Mn
Pollution au Cu
# IDCode_Zone(fk)
# IDCode_Zone(fk)
# IDtemps(fk)
# IDtemps(Pk)
Quantite_Mn
Quantite_Cu
Zone
IDCode_Zone(Pk)
Nom_Zone
représente 80% de la charge de travail [Kimball 2002]. Cette étape a pour objectif d’assurer
l’acheminement des données des systèmes sources jusqu’à l’entrepôt de données, en passant
par les différentes phases de nettoyage et de transformations nécessaires.
La conception du processus d’alimentation nécessite les étapes suivantes :
Etude et planification,
Conception des processus de chargement :
Processus de chargement des tables de dimension,
Processus de chargement des tables de faits,
a. Etude et planification :
Cette phase représente une phase préliminaire à l’ensemble du processus. Elle consiste en :
Les sources de données de notre entrepôt sont Les prélèvements de l’air, en provenance des
différentes régions, compilé dans un fichier Excel (voir tableau 1, 2, 3)
b. Processus de chargement
Deux types de tables dans l’entrepôt de données « faits, dimensions » doivent être
distingués. Avec SSIS nous avons créé une base de donnée (dw_pollution) que nous allons
charger en suivant quelque étape pour son chargement, nous avons utilisé l’outil Microsoft
SQL server Management.
26
Nos tables disposent de deux dimensions (Temps, Zone) avec un fait (Pollution au Cu) voir
figure 16.
Voici notre schéma en étoile avec les différentes clés primaires, Microsoft SQL server
Management (voir figure 17)
27
Les tables de dimension (voir figure) représentent le point d’entrée d’un entrepôt de
données.
Une dimension est généralement constituée d’une clé primaire et des attributs.
Le processus de chargement de dimension doit, outre le chargement des données, assurer :
Comme nous l’avons signifié, nous disposons d’un fichier Excel ou son stocké nos différents
donnés que nous allons importer grâce à Microsoft Visual Studio pour charger notre base
donnée pour avoir un entrepôt (voir figure 18).
Chaque package contient toutes les taches d’intégration. L’enchainement des taches d’un
package est ordonné par le flux de contrôle. Lorsqu’une tache a pour mission d’assurer la
transformation des données, elle est renommé «taches de flux de données». A l’intérieur de
cette tache se trouve un flux de donnée contenant au minimum de ressources, une
transformation, une destination
29
CONCLUSION
30
BIBLIOGRAPHIE
31
ANNEXE
Tableau1 : Echantillon la pollution du cuivre dans l’air dans la première zone de prélèvement
Source :