Vous êtes sur la page 1sur 41

I

EPIGRAPHE

Anticipe enfin d’éviter un désastre :

« La plupart d’obligations environnementales sont nées avec l’avènement d’un désastre ou


d’une catastrophe écologique. Il convient aux lois de laisser aux experts d’exercer leur
intuition, à l’évaluation des impacts environnementaux, au lieu de les cloisonner à des
caractéristiques figées d’avance. »

Principe d’anticipation.
II

DEDICACE

A vous tous qui me soutenez et m’aimez d’un amour inconditionnel.

Je ne cite pas vos noms de peur de me tromper

Je vous dédie ce travail.

Bien mince hommage!


III

TABLES DE FIGURES

Figure 1 : Architecture d’un entrepôt de données……………………………………………6

Figure 2 : Considération d’un sujet d’analyse comme un cube à plusieurs dimensions……...9

Figure 3 : schéma en étoile…………………………………………………………………11

Figure 4 : schéma en flocon………………………………………………………………...11


Figure 5 : Schéma en constellation…………………………………………………………12

Figure 5 : Schéma en constellation…………………………………………………………18

Figure 10 : table de fait élément polluant………………………………………………….31

Figure 11 : table de fait Teneur …………………………………………………………….31

Figure 12 : table de fait teneur atteint seuil…………………………………………………31

Figure 12 : table de fait teneur atteint seuil…………………………………………………32

Figure 14 : table de dimension zone d’étude……………………………………………….32

Figure 15 : table de dimension catégorie élément polluant ………………………………...33

Figure 16 : étoile de suivi des éléments les polluants…………………………………….....33

Figure 17: étoile de suivi d’élément à teneur élevé…………………………………………….34

Figure 18: l’étoile de suivi teneur d’élément atteint …………………………………………………35

Figure 19 : schéma en constellation…………………………………………………………36


IV

TABLE DE TABLEAU

Tableau 1 : Comparaison du système transactionnel et systèmes décisionnels……….8

Tableau 2 : Avantages et inconvénients de l’approche « Besoins d’analyse »……….17

Tableau 3 : Avantages et inconvénients de l’approche « Sources de données»……….17

Table 4 : Dictionnaire de données……………………………………………………..30


V

LISTE D’ABREVIATION

OLAP : On-Line Analytical Processing

MOLAP : Multidimentional On-line Analytical Processing

ROLAP : Relationnel On-line Analytical Processing

HOLAP : Hybride On-line Analytical Processing

ETL : Extract-Transform-Load

Mn : Manganèse
Cu : Cuivre

SSIS :
1

INTRODUCTION
Le processus décisionnel ou système décisionnels au sens des entrepôts de
données sont nés d’un besoin exprimé par les entreprises qui ne pas satisfait par les systèmes
traditionnels de bases de données. En intégrant la technologie des entrepôts de données (data
warehouses), le processus décisionnel apporte une réponse au problème de l’évolution
continuelle des données pouvant être de formats différents. De plus, il supporte efficacement
les processus d’analyse en ligne (On-Line Analytical Processing-OLAP) (Chaudhuri et Dayal,
1997 ; Chaudhuri et al, 2011)

A. CHOIX ET INTERET DU SUJET


Le choix de ce sujet résulte de l’observation personnelle portée sur l’intensité des
activités de traitement chimique et métallurgique au sein des installations de l’usine STELL
vu son implantation dans un environnement au contact direct avec la population.

B. PROBLEMATIQUE
Ce qui nous a conduit à déduire que ces activités liées à la pollution du quartier
pourraient avoir des conséquences très néfastes si pas à court ou moyen terme mais surtout à
long terme. L’usine de STELL envoie la fumée de ses installations en direction du quartier.

Cette fumée contient des matières toxiques (manganèse, zinc et autres) nuisibles à
la santé humaine et à la végétation. Il n’existe pas un moyen pour suivre l’évolution de cette
pollution pour aider les décideurs.

C. HYPOTHES
Plus les années ne passent, il est remarqué un volume accru de données
sauvegardées par les gestionnaires de l’environnement. Notre ambition est de fournir un outil
d’aide pour le suivi de cette pollution.

D. METHODES ET TECHNIQUES
Les modèles multidimensionnels ont pour objectif de proposer un accès aux
données intuitif très performant. Pour cela, les données sont organisées autour des faits que
l’on cherche à analyser, caractérisés à l’aide d’indicateurs (appelés mesures) qui sont des
données normalement numériques et additives, permettant de mesurer l’activité modélisée.
Ces faits sont décrits par un ensemble d’axes d’analyse, ou dimensions, d’où le terme de
modèle multidimensionnel. Ce modèle de base correspond au modèle en étoile (Kimball et al.,
2000 ; Chaudhuri et Daya, 1997). Elles se basent uniquement sur la spécification de ces
besoins pour définir les sujets et les axes de l’analyse en négligeant la structure et le contenu
2

des sources à partir desquelles les données décisionnelles sont extraites. Et comme technique
nous utiliserons la technique bottom-up qui consiste à construire des morceaux de l’entrepôt
qui devront être unifiés pour donner lieu à un tout après bien entendu, élimination des
éventuelles redondances.

E. ETAT DE LA QUESTION
Il est a souligné que plusieurs études ont été faites sur le système décisionnel, tout
d’abord nous nous sommes intéressés aux recherches actuelles et passées concernant le
système décisionnel en générale, enfin d’en tirer les enseignements nécessaires.
C’est pourquoi, après avoir fait plusieurs recherches sur le net, Nous avons retenu
le travail.
Titre : « Elaboration d’entrepôts de données complexes»
Auteur : OLIVIER TESTE
 Nature : Thèse
 Année : 2004
 Institution : Université Paul Sabatier (Toulouse III), IRIT (Institut de
Recherche en Informatique de Toulouse), équipe SIG.

Résume : Dans cette thèse, il est abordé le problème de la modélisation des


entrepôts de données couramment utilisés dans les systèmes d'aide à la décision. Il propose un
modèle permettant de décrire l'entrepôt comme un référentiel centralisé de données
complexes, temporelles et extraites d'une source d'information. Trois modèles sont intègres
dont les concepts : l'objet entrepôt, la classe entrepôt et l'environnement. Chaque objet
entrepôt est composé d'un état courant, de plusieurs états passés (modélisant les évolutions
détaillées) et de plusieurs états archivés (modélisant les évolutions de manière résumée). Le
concept d'environnement définit les parties temporelles dans le schéma de l'entrepôt avec une
granularité pertinente (attribut, classe, graphe). Enfin, nous spécifions cinq fonctions visant à
définir les structures de l'entrepôt et deux fonctions permettant d'organiser la hiérarchie
d'héritage des classes entrepôts. Ainsi, les principaux objectifs assignés au projet sont :
• La conception des systèmes d'informations et propose le développement d'une méthodologie
et d’un outil de type CASE pour l'aide à la conception ;
• et l'évolution des entrepôts de données.
Différence : Dans notre travail, nous élaborons un modèle des données
multidimensionnelles qui soit adapté à la création d’un entrepôt des données utile à des fins
d’analyse dans un processus décisionnel au sein des organisations gérant l’environnement.
3

F. DELIMITATION DU SUJET

Nous focaliserons nos recherches sur une période de deux ans passés (2010-2011),
nous limitons nos recherches dans la province du haut Katanga, plus précisément dans la ville
de Lubumbashi, cité Gécamines.

G. SUBDIVISION
Pour mener à bon port notre analyse, notre travail sera subdivisé en trois chapitres
Hormis l’introduction et la conclusion, repartis de la manière suivante :
1. Au premier chapitre, nous prendrons soin de parler des cadres théorique et
conceptuel.

 Cadre théorique

 Méthodes de Ralph Kimball : Qui consistent à mener bien un projet des


entrepôts des données (Décisionnel en trois mots : la mesure, les dimensions et les
faits) et techniques pour la conception le SQL Server.

 Cadre conceptuel
 Portera sur la définition des quelques concepts de base comme la pollution,
polluant, environnement.

2. Le deuxième chapitre se basera sur une brève présentation du ministère provincial


de l’environnement qui notre cadre de référence

3. Le troisième chapitre de notre travail se basera sur, l’application de la méthode


pour la mise en place d’un système pour le suivi de l'évolution des pollutions de
l’air (Cuivre, Manganèse) de la cité Gécamines dans la ville de Lubumbashi
4.
4

CHAP I. CADRE THEORIQUE ET CONCEPTUEL


CADRE THEORIQUE

I.1. Méthodologie
Le modèle multidimensionnel est la combinaison de tables de dimensions et de
fait. Le fait est le sujet de l’analyse. Il est formé de mesures, généralement numérique,
renfermées de manière continue. Ces mesures permettent de résumer un grand nombre
d’enregistrements des données sources en quelques-uns. Le fait est analysé selon des
perspectives, nommés dimensions. Chacune contient une hiérarchique ; la dimension «
temps», par exemple, pourrait être divisée en années, trimestres, mois, semaines, jours…

Il repose généralement sur le modèle entité relation. Le développement d’un


système d’information décisionnel requière trois types de démarches que reconnaissent les
chercheurs. Il s’agit de :

- La démarche descendante qui définit le schéma conceptuel à partir des


besoins des utilisateurs du système d’information décisionnel
- La démarche ascendante qui définit le schéma conceptuel à partir des
schémas des sources des données
- La démarche mixte qui combine les deux précédentes démarches

I.2. Définition de quelques concepts


1. Projet décisionnel

Un processus décisionnel est un projet qui se construit, comparativement à d’autre


processus fondé uniquement sur l’utilisation d’outils logiciels. Les entrepôts de données sont
considérés comme élément important d’un système décisionnel, ils ont été conçus pour l’aide
à la décision. Ils intègrent les informations en provenance des différents systèmes
transactionnels de l’entreprise. L’ensemble des données, y compris leur historique, est utilisé
pour faire des calculs prévisionnels, des statistiques ou pour établir des stratégies de
développement et d’analyses des tendances. La construction et la mise en œuvre d’un entrepôt
de données représentent une tâche complexe qui se compose de plusieurs étapes. [Annoni
Estella, 2007]
5

2. Architecture d’un système décisionnel

Une architecture du processus décisionnel est représentée dans la figure1

Voici comment se présente la chaîne de valeur décisionnelle

2.1. Data Sources ou Sources de données

Ils sont constitués : des SGBD relationnels et d'autres systèmes qui contiennent les
données d'exploitation (fichiers Excel, XML, texte, etc.); l’ETL (Extract Transfrom Load) ou
ETC (Extraction Transformation et Chargement) est un ensemble de composants (logiciels,
scripts, etc.) nous permettant d’Extraire, de Nettoyer, de Transformer les données provenant
des diverses sources données et de les Charger ou de les Rafraichir dans l’entrepôt de
données.

On transpose donc le modèle entité-relation des bases de données de production


ainsi que les autres modèles utilisés dans les opérations de l'entreprise, en modèle à base
de dimensions et de faits.

PRINCIPAUX ETL

- SQL Server Integration Services (SSIS)


- Business Objects (ActaWorks)
- Ascential Software (DataStage XE)
- Computer Associate (DecisionBase)
- ETI (ETI.Extract)
- Informatica (PowerCenter 5)
6

2.2. Data Storage ou Sources de stockage

Il est composé de l’Entrepôt de données, des magasins de données et des métas donnés

a. Entrepôt de données (Data Warehouse)

Un Entrepôt de données ou Data Warehouse, est un ensemble de données


thématiques, cohérentes, évoluant dans le temps, fiables, sur lequel les dirigeants fondent leur
processus de décision . C'est une structure (comme une base de données) qui a pour but, de
regrouper les données de l'entreprise pour des fins analytiques et pour aider à la décision
stratégique. La décision stratégique est une action entreprise par les décideurs de l'entreprise
et qui vise à améliorer, quantitativement ou qualitativement, la performance de l'entreprise.

L'entrepôt de données est l'élément central de l'informatique décisionnelle. En effet,


l'entrepôt de données est actuellement le meilleur moyen pour modéliser de l'information
pour des fins d'analyse.

b. Data Mart ou magasin de données

Etant donné que les Data Warehouses sont en général, très volumineux et très
complexes à concevoir, il a été décidé de les diviser en bouchées plus faciles à créer et
entretenir. Ce sont les Data Marts. On peut faire des divisions par fonction (un Data Mart
pour les ventes, pour les commandes, pour les ressources humaines) ou par sous-
ensemble organisationnel (un Data Mart par succursale).

Ils sont divisés en étoile ou en flocon.

Nous parlerons d’abord de la table de fait et de dimension ensuite de différentes


représentation schématique (étoile, flocon,...)

c. Fait

Lorsqu'on fait un schéma de Base de Données pour un système d'information


classique, on parle en termes de tables. Ce faisant, en ID/BI, on parle en termes de
Dimension et de Faits.

Les faits, sont ce sur quoi va porter l'analyse. Ce sont des tables qui contiennent
des informations opérationnelles et qui relatent la vie de l'entreprise. On aura par
exemple des tables de faits sur les ventes pour une entreprise commerciale, sur les
communications pour une entreprise de télécommunications,…
En résumé, un fait est tout ce qu'on voudra analyser.

d. Dimension
7

On entend par dimensions les axes (critères) avec lesquels on veut faire l'analyse
(évaluer, quantifier, qualifier) des faits. Il peut y avoir une dimension client, une dimension
produit, une dimension géographie (pour faire des analyses par secteur géographique), etc.
Une dimension est donc tout ce qu'on utilisera pour faire des analyses.

e. Mesure
- Élément de donnée sur lequel portent les analyses, en fonction des différentes
dimensions.
- Ces valeurs sont le résultat d’opérations d’agrégation sur les données

Exemple :

• Coût des travaux


• Nombre d’accidents

f. Étoile

Une étoile est une façon de mettre en relation les dimensions et les faits dans un entrepôt de
données. La table centrale comprend les faits. On l’appelle table de fait. Les tables autours
sont les tables de dimensions. Le principe est que les dimensions sont directement reliées à
un fait (schématiquement, ça fait comme une étoile

g. Constellation

Une constellation est une série d'étoiles ou de flocons reliés entre eux par des
dimensions. Il s'agit donc d'étoiles ou de flocons avec des dimensions en commun.

Un environnement décisionnel idéal serait une place où il serait possible de


naviguer d'étoile en étoile, de constellation en constellation et de magasin de données en
magasin de données à la recherche de l'information si précieuse. Un des indicateurs clés d'une
bonne conception d'entrepôt est la grosseur des constellations. En effet, plus la constellation
est grosse, plus cela veut dire que vous avez réutilisé vos dimensions, et qui dit
réutilisation de dimension, dit dimensions complètes, centralisées et avec une vue orientée
entreprise.

h. Cubes de données

Le modèle multidimensionnel permet de représenter les données par rapport aux


dimensions ou axes représentant des éléments essentiels de l’activité d’une entreprise. Trois
niveaux de représentation des données sont définis dans le processus décisionnel : l’entrepôt
qui regroupe des données transversales à l’ensemble des métiers de l’entreprise, le magasin de
données qui est une représentation verticale des données portant sur un métier particulier et
enfin le cube de données (ou hyper cube).
8

Le cube correspond à une vue métier où l’analyste choisit les mesures à observer selon
certaines dimensions. Un cube est une collection de données agrégées e consolidées pour
résumer l’information et expliquer la pertinence d’une observation. Le cube de données est
exploré à l’aide de nombreuses opérations qui permettent sa manipulation. Le cube de
données s’appuie donc sur un entrepôt des données qui lui, est constitué des tables des faits et
des dimensions.

"Un Entrepôt de Données est une collection de données orientées sujet, intégrées, non
volatiles et historiées, résumées et disponible pour l’interrogation et l’analyse " selon bill
inmon.

3. Architecture de l’entrepôt de données

Les entrepôts de données ont une architecture s’appuyant sur une base de données séparée
du système de production de l’entreprise qui contient les données de l’entrepôt. Dans
l’architecture des entrepôts de données, il y a trois processus définis dont le processus
d’extraction des données qui alimente périodiquement cette base de données (voir figure 2).
Avant l’exécuter du processus, nous avons néanmoins une phase de transformation appliquée
aux données opérationnelles. Celle-ci consiste à les préparer, pour finalement aboutir à leur
stockage dans l’entrepôt [Serna Encinas Maria Trinidad, 2007].

Figure 2 : Architecture d’un entrepôt de données

a. Les sources : L’alimentation de l’entrepôt des données par extraction porte sur des
bases de production de diverses sources souvent reparties et hétérogènes, et qui doivent être
transformées avant leur stockage dans l’entrepôt. Nous avons deux types de sources des
données : internes et externes à l’organisation.
Internes: La plupart des données sont saisies à partir des différents systèmes de
production qui rassemblent les diverses bases de données, ainsi que des anciens systèmes de
production qui contiennent des données encore exploitées par l’entreprise.
9

Externes: Représentent des données externes a l’entreprise. [Serna Maria Trinida,


2015]

b. L’entrepôt de données : dans un entrepôt Il y a plusieurs types de données, qui


correspondent à diverses utilisations, comme :
 Données de détail courantes: Ce sont l’ensemble des données quotidiennes et plus
couramment utilisées. Ces données sont généralement stockées sur le disque pour avoir un
accès rapide. Par exemple, le détail des ventes de l’année en cours, dans les différents
magasins.
 Données de détail anciennes: il s’agissent des données quotidiennes des événements
passes d’une entreprise, à l’exemple de détail des ventes des deux dernières années. Ils sont
utilisés pour arriver à l’analyse des tendances ou des requêtes prévisionnelles. Néanmoins ces
données sont plus rarement utilisées que les précédentes, et elles sont souvent stockées sur des
mémoires d’archives.
 Données résumées ou agrégées: Les données agrégées sont des données moins
détaillées que les deux premières et elles permettent de réduire le volume des données à
stocker. Elles constituent déjà un résultat d’analyse et une synthèse de l’information contenue
dans le système décisionnel. Par exemple, les ventes mensuelles par magasin des dix dernières
années sont des données faiblement résumées, tandis que les ventes semestrielles, par région,
des dix dernières années sont fortement résumées.
Les métadonnées: Ce sont des données essentielles pour parvenir à une exploitation efficace
du contenu d’un entrepôt. Elles représentent des informations nécessaires a l’accès et
l’exploitation des données dans l’entrepôt comme : la sémantique (leur signification), l’origine
(leur provenance), les règles d’agrégation (leur périmètre), le stockage (leur format, par
exemple : francs, euro,...) et finalement l’utilisation (par quels programmes sont-elles utilisées).
[Serna Maria Trinida, 2015]

c. Outils d’analyse : nous le trouvons sur le marché pour l’aide à la décision, comme les outils
de fouille de données ou datamining (pour découvrir des liens sémantiques), outils d’analyse en
ligne (pour la synthèse et l’analyse des données multidimensionnelles), outils d’interrogation
(pour faciliter l’accès aux données en fournissant une Interface conviviale au langage de
requetés),... . [Serna Maria Trinida, 2015].
10

I.3 Cadre Théorique

I.3.1. Définition
L’informatique décisionnelle(ou BI pour Business Intelligence) désigne les moyens,
les outils et les méthodes qui permettent de collecter, consolider, modéliser et restituer les
données matérielles ou immatérielles, d’une entreprise en vue d’offrir une aide à la décision et
de permettre aux responsables de la stratégie d’entreprise d’avoir une vue d’ensemble de
l’activité traitée.

Le but de la BI est d’apporter une vision globale des données de l’entreprise, afin de
répondre à la problématique de celui-ci ou, tout simplement, afin de l’évaluer. Pour y arriver,
SQL server 2008R2 met donc à disposition trois plateformes qui illustrent ce cheminement

 SQL server Intégration service (SSIS), qui permet d’intégrer des données provenant de
différentes sources pour les ranges dans un entrepôt central (Datawarehouse)
 SQL server Analysis service (SSAS), qui permet d’analyser les données agrégées lors
de SSIS grace à des fonctions d’analyse multidimensionnelle.
 SQL server Reporting service (SSRS) qui per, et de créer, gérer et publier des rapports
résultat de analyses réalisées lors de SSAS

Moteur
BDD SSIS SSAS SSRS

I.3.2 Présentation de SQL Server Intégration Servie (SSIS)

SQL server Intégration service est donc la première plateforme à aborder. Une fois la
structure datawarehouse définie, les données doivent être insérées. L’outil qui va permettre le
remplissage de notre base est l’ETL (Extract Transform Loading). Comme son nom l’indique,
il commence par extraire les données provenant de différentes sources (Excel, Mysgl…), les
transforme si besoin est, puis le charge dans le datawarehouse. Pour notre travail les données
sont extraites de la base de données Excel.

Ce processus se déroule donc en trois étapes :

 Extraction des données à partir d’une ou plusieurs sources de données. Les données
sont dans un fichier Excel (dw_pollution) (KISIMBA. M, 2010)
 Transformation des données agrégées
 Chargement des données dans la banque de données de destination (datawarehouse)
Dans SSIS, on appelle package l’environnement dans lequel on travail. On peut construire
plusieurs packages intégration service (voir figure 3).
11

Figure 3 : package d’intégration

Chaque package contient toutes les taches d’intégration. L’enchainement des taches d’un
packages est orchestré par le flux de contrôle. Lorsqu’une tache a pour objectif d’assurer la
transformation des données, elle est nommée« tache de flux de données». A l’intérieur de
cette tache se trouve un flux de données contenant au minimum une source, une
transformation et une destination.

I.3.3 Outils

 SQL server 2008R2


 SQL Management Studio il m’a permis de gérer les tables de la base de données du
datawarehouse (voir figure 4).
12

Figure 4 : SQL Management Studio

 Microsoft Visual Studio 2008R2 il m’a permis d’utiliser SSIS (voir figure 5).

Figure 5 : Microsoft Visual Studio


13

Pour le cadre de notre travail nous avons utilisé SSIS en d’intégré le fiche Excel pour la
formation d’un entrepôt de données au travers du processus ETL (Extract transform Loading).

I.3.3 Présentation de SQL Server Analysis Service (SSAS)

SQL server Analysis Service est la plateforme qui permet de créer et gérer des structures
multidimensionnelles. Pour cela, SSAS trouva des fonctions OLAP (On Line Analysical
Processus) qui permettent à partir des entrepôts de donnés, d’analyser l’activité de l’entreprise
grâce à des moyennes mobiles, coefficient de contractions, valeurs cumulées.

L’élément principal des fonctions OLAP est le cube c’est en fait une base de donnée
multidimensionnelle, qui permet l’analyse de ces données. Un cube repend les mesures de la
tache de fait que l’on a pu établi lors de la conception du data warehouse et s’en sert pour
effectuer des calculs, les mesures étant des données.

Le langage qui permet d’interroger les cubes OLAP est le langage MDX
(Multidimensionnel Expressions).C’est aussi ce langage qui est utilisé par Analysis Service
pour construire les cubes. Les analyses réalisées par les fonctions OLAP sont utilisées pour
évaluer l’entreprise vient donc la notion de KPI.

Les KPI (Key Performance Indicator) sont, comme leur nom l’indique, les indicateurs des
performance qui montrent l’évolution de l’entreprise en matière de qualité et les objectifs à
atteindre. Un KPI indique une valeur ou une couleur (échelle prédéfinie) la tendance d’une
mesure vis-à-vis des objectifs requis.

I.3.4 Présentation de SQL Server Reporting Service (SSRS)

SSRS offre un ensemble d’outils et de services prêts à l’emploi pour définir, gérer et
déployer des rapports, il fournit également des interfaces de programmation d’applications qui
permettent d’entendre les rapports sous d’autres environnements. SSRS est une plateforme
server de rapports qui fournit des fonctionnalités de création de rapports pour différentes
sources. Les outils reporting service fonctionnement au sein de l’environnement Microsoft
Visual Studio et sont totalement intégrés aux outils et composants de SQL server 2012.
Reporting service permet de créer des rapports de type interactif, tabulaire, graphique ou livre
à partir de sources de données XML, relationnelles (SQL) et multidimensionnelles (OLAP).

La phase de reporting est la plus importante des étapes de ce processus de collecte,


stockage, transformation et manipulation de données. Cette dernière étape représente celle
qui, aux yeux des utilisateurs, à la plus de valeur car elle permet de donner du sens aux
montagnes de données qui s’accumulent chaque jour. Les rapports jouent un rôle essentiel
dans la compréhension du marché et de la performance de l’entreprise.
14

II. CADRE CONCEPTUEL

II.1 Introduction

La pollution est une modification indésirable et imprévisible de l’environnement dans la


chaine alimentaire, des animaux, des hommes par l’effet des activités humaine (EIKETE,
1983), c’est la dégradation d’un milieu donné par l’introduction d’un polluant qui peut être un
agent physique, chimique, ou biologique (P. Robert et le petit 1987). Les polluants ce sont
des agents chimiques, physiques, ou biologiques qui souillent, infecte l’environnement.

II.2 Concepts

II.2.1 Les sortes de pollution d’origine industrielle

A. La pollution de l’air

La pollution de l’air est le résultat de multiples facteurs qui caractérisent la civilisation


contemporaine : croissance de la consommation de l’énergie développement des industries
extractives, métallurgiques et chimiques de la circulation routière et aérienne, de
l’incinération des ordures ménagères, des déchets industriels etc… (IDIANSO, 2010).

B. La pollution des sols


1. La pollution ponctuelle

La pollution ponctuelle consiste en un dépôt ou épandage des polluants sur une surface
restreinte que l’on peut assimiler à une source.

2. La pollution diffuse

La pollution diffuse est celle où il y a épandage ou retombée de polluants sur une grande
surface.

C. Echantillon

Les échantillons de l’air sont prélevés dans le but de tester la teneur en élément traces
métalliques. Un petit volume représentatif de l’ensemble de l’air observé dans la zone d’étude
a été prélevé. Les différents prélèvements ont été faits en secteur selon les zones d’étude
dont nous avons :
15

Premier Secteur : ce secteur constitue l’enveloppe de la zone d’étude, il va du croissement de


l’av. Ruwe et du boulevard Kamanyola passant par le gouvernorat en prolongeant sur le
sentier entre Salama et centre Kilela Balanda, en débouchant sur le boulevard katuba, côte
sud-est du terril des scories, passant par la rue8 jusqu’à l’av upemba en prenant la droite
jusqu’à la route Kipushi au niveau de Matshipisha

Deuxième Secteur : du quartier lido entre le jardin zoologique de Lubumbashi et la pépinière


de la ville, av du parcelle du cuivre quartier Makomeno, en contournant du côte sud-est de la
montagne des scories, débouchant sur l’avenu Tshagolowe au quartier Gécamines qui nous
mené directement à Gbadolithe sur l’avenu Songela puis Mampala en passant par Kalubi pour
déboucher au cercle hypique en contournat pour suivre la ligne haute tension à Kabulameshi
qui nous mène à l’avenu Kilwa au Q /lido pour enfin arriver au point de départ.

Troisième Secteur : Q/lido, sur l’avenue Kapopola, jusqu’au quartier lido au Nord-Est du
cimetière Penga Penga

D. Tableaux des échantillons prélevés ()

Voir annexe, page


16

CHAP II. CADRE DE REFERENCE

I. Introduction
Le ministère qui a en charge l’environnement regorge en son sein plusieurs divisions pour
un bon fonctionnement, situe sur l’avenue djamenant, au croisement des avenues
Kamaniola.
La tâche du ministère de l’environnement est la protection de l’environnement contre
toute dégradation et la mise en place de structure pour une bonne suivie de celui-ci enfin
qu’elle soit conserve saine. La structure ayant en charge le suivi de l’évolution
environnementale est la coordination provinciale de l’environnement et développement
durable ; il regorge en son sein plusieurs structures à savoir :
 Chef de division
 Chef de bureau
 Attaché d’Administrations de première classe
 Attaché d’Administrations de deuxième classe
 Agent d’Administration de première classe
 Huissier

II. Rôle de la coordination provinciale de l’environnement

La coordination provinciale de l’environnement a pour rôle :

 Assister le gouverneur de la province dans ses prérogatives constitutionnelles ayant


trait au secteur de l’environnement et développement durable ;
 Assurer la liaison avec l’Administration centrale de l’environnement et
Développement durable ainsi qu’avec les autres Divisions Provinciales intervenant
dans le domaine de l’environnement ;
 Veiller à la mise en application, dans la province, des textes légaux et règlementaires
ayant trait à l’environnement et développement durable ;
 Mettre en place des outils et autres instruments de ménagement nécessaires au
fonctionnement de la coordination provinciale ;
 Constater et liquider dans son ressort, les actes générateurs des recettes non fiscales ;
 Gérer le document, la bibliothèque, la photothèque, la filmothèque et conserver les
archives de la coordination provinciale de l’environnement et développement durable ;
17

 Elaborer régulièrement à terme échu le rapport d’activités à l’intention de la


hiérarchie.

Le bureau ayant la gestion de l’environnement au sein de la coordination provinciale de


l’environnement et développement durable est le bureau établissements humains et protection
de l’environnement qui a comme attributions :

 Préparer les dossiers des permis d’exploitation.


 Veiller, en province, à la réalisation des activités ayant trait :
 A la surveillance continue de l’environnement ;
 A la régulation des activités des installations classées et en assurer la
surveillance continue ;
 Au suivi et à l’évaluation de l’impact de l’activité humaine sur
l’environnement ;
 A la mobilisation des recettes non fiscales du domaine des établissements
humains et protection de l’environnement au profit du trésor public.

III. Tableau synoptique du secrétaire génération à


l’environnement et développement durable

A. Administration du secrétaire général

Secrétaire général

Secrétaire administratif du secrétaire général

Sous-totaux A

B. Services rattachés au secrétaire général

B.1. Cellule Technique d’appui

B.2. Cellule gestion des projets et des marchés publics

Sous-totaux B

C. Direction standards

C.1. Direction des ressources humaines


18

C.2. Direction administrative et financière

C.3 Direction d’études et planification

C.4. Direction archives et nouvelles technologies de l’information et communication

Sous-totaux C

D. Directions métiers

D.1. Direction générale de l’environnement et cadre de vie

D.1.0 Administration du directeur général

D.1.1 Direction conservation de la nature

D.1.2 Direction établissements humains et protection de l’environnement

D.1.3 Direction assainissement

D.1.4 Direction ressources en Eau

D.2. Direction générale forets

D.2.0 Administration du directeur général

D.2.1 Direction gestion forestière

D.2.2 Direction reboisement et horticulture

D.2.3 Direction inventaire et Aménagement forestiers

D.2.4 Direction promotion et valorisation du bois

D.2.5 Direction technologies de l’énergie bois

Sous-totaux E

D.3. Directions Spécifiques

D.3.1 Cellule contrôle et vérification


19

D.3.2 Direction règlement et contentieux

D.3.3 Direction cadastre forestier

D.3.4 Direction développement durable


20

CHAP III : APPLICATION DE LA METHODE RALPH


KIMBALL
III.1 DICTIONNAIRE DE DONNEES
Le dictionnaire des données contient toutes les données nécessaires, relevés dans l’analyse de
l’organisation.

Numéro Code donnée Signification Type

1 Quantité_Cu Quantité du cuivre trouvée Non Numérique


dans l’air, dans une région calculé

2 Qauntité_Mn Quantité de manganèse Numérique


trouvée dans l’air, dans une
région

2 ville La ville du prélèvement de Nom Alphanumérique


données calculé

3 code_ville L’identifiant de la ville du Non Alphanumérique


prélèvement de données calculé

3 Code_Zone L’identifiant de la zone du Nom Alphanumérique


prélèvement des données calculé
(quartier, avenue)

4 Nom_Zone Le nom de la zone de Nom Alphanumérique


prélèvement des données calculé
(quartier, avenue)

5 temps C’est l’identifiant du temps Nom Date


calculé

7 Pollution_Mn La pollution au manganèse Nom R/E


calculé

8 Pollution_Cu La pollution au cuivre Nom R/E


21

calculé

Tableau 5: dictionnaire de donnée

3. III.2 DÉFINITION DES BESOINS


Les besoins retenus en termes d’analyse concernent principalement les pollutions
effectuées au courant d’une année après prélèvement des échantillons par les géographes et le
polluant trouvé dans l’air après prélèvement.

La préoccupation pour le gestionnaire de la structure de suivi est celle de savoir comment


réorganiser la structure de données de manière à permettre :

- L’analyse de la qualité de l’air obtenu après le prélèvement en se


référant à la teneur
- L’analyse de la qualité de l’air dans une zone donnée

Ces diverses analyses sont nécessaire afin d’améliorer la qualité de l’air dans cette zone.

Il sera par exemple nécessaire de juger quel élément polluant à plus d’effet sur
l’environnement pendant telle période suite à un mauvais suivi.

4. MODÉLISATION DIMENSIONNELLE.

1. L’identification des tables de faits, Les dimensions appartenant à la table de faits et leurs
mesures
2. Le fait à étudier est la pollution au manganèse avec comme mesure : la quantité de
manganèse. Et avec comme dimensions : zone, temps.
Notre table de fait pollution au manganèse est présenté (dans la figure 10) comme suit :

Pollution au
Mn
IDtemps
IDZone
Quantité_Mn

Figure 10 : table de fait pollution au manganèse


3. Fait à étudier est pollution au cuivre avec comme mesure : quantité de cuivre et avec
comme dimensions : zone, temps.
Notre table de fait pollution au cuivre est présenté comme suit (figure 11) :

Pollution au Cu

IDtemps
IDZone
Quantité_Cu
22

Figure 11 : table de fait pollution au cuivre

1. Les attributs des dimensions avec des descriptions complètes.

La dimension zone est « la seule dimension qui figure systématiquement dans tout l’entrepôt
de données, car en pratique tout entrepôt de données est une série temporelle. Notre
dimension a comme attributs :

 Code de la zone
 Nom zone
 Notre table de dimension zone se présente (dans la figure 13) comme suit :

Zone
Code_Zone(Pk)
Nom_Zone

Figure 13 : table de dimension zone

La dimension temps a comme attributs :

 temps
 Année
Notre dimension temps se présente (dans la figure 14) comme suit :

Temps
IDtemps(Pk)
Année

Figure 14 : table de dimension temps


23

Schéma en étoile

Le Suivi de la pollution au Manganèse

Cette étoile (figure 15), nous permettra de faire le suivi de la pollution au manganèse suivant
les axes d’analyse : zone, temps.

Région
Pollution au Mn
IDCode_Zone(Pk)
#IDtemps(fk)
Nom_Zone
Temps #IDZone(fk)
Quantité_Mn

IDtemps(Pk)
Année
Figure 15 : étoile de suivi de la pollution au manganèse

Le Suivi de la pollution au cuivre

Cette étoile (figure 16), nous permettra de faire le suivi de la pollution au cuivre suivant les
axes d’analyse : zone, temps.

Pollution au Cu Région

Temps #IDtemps(fk) IDCode_Zone(Pk)


#IDCode_Zone(fk) Nom_Zone
Quantité_Cu
IDtemps(Pk)
Année

Figure 16: étoile de suivi de la pollution au cuivre


24

Schéma en constellation
Notre schéma en constellation (voir figure 20) est obtenu en fusionnant toutes nos étoiles à
partir de dimension communes. Ici la dimension qui est commune, est la dimension région

Temps

IDtemps(Pk)
Année

Pollution au Mn
Pollution au Cu
# IDCode_Zone(fk)
# IDCode_Zone(fk)
# IDtemps(fk)
# IDtemps(Pk)
Quantite_Mn
Quantite_Cu

Zone
IDCode_Zone(Pk)
Nom_Zone

Figure 20 : schéma en constellation

La zone d’entreposage constitue la zone exploitable par les utilisateurs. La


modélisation de cette zone se fait grâce à la modélisation dimensionnelle. Cette manière de
représenter les données offre aux utilisateurs des modèles intuitifs et compréhensibles
permettant de naviguer et de manipuler les données, détaillées ou agrégées, sans difficulté afin
de satisfaire leurs besoins en analyse.
La finalisation de la conception d’une étoile de l’entrepôt, nous permet de passer à
la construction de la zone d’alimentation.

Conception et Développement Des Eléments de Préparation Des


Données
L’Extraction, Transformation et Loading (chargement), ou l’alimentation d’un entrepôt
de données, est une étape des plus importantes dans un projet d’un entrepôt de données, elle
25

représente 80% de la charge de travail [Kimball 2002]. Cette étape a pour objectif d’assurer
l’acheminement des données des systèmes sources jusqu’à l’entrepôt de données, en passant
par les différentes phases de nettoyage et de transformations nécessaires.
La conception du processus d’alimentation nécessite les étapes suivantes :

 Etude et planification,
 Conception des processus de chargement :
 Processus de chargement des tables de dimension,
 Processus de chargement des tables de faits,

a. Etude et planification :

Cette phase représente une phase préliminaire à l’ensemble du processus. Elle consiste en :

 L’étude des sources de données,


 La Définition de la périodicité du chargement,
i. Les sources de données :

Les sources de données de notre entrepôt sont Les prélèvements de l’air, en provenance des
différentes régions, compilé dans un fichier Excel (voir tableau 1, 2, 3)

ii. Définition de la périodicité de chargement


Avant de décider de la périodicité du chargement, nous avons pris en considération les
contraintes suivantes:
 La quantité de données à charger,
 Le temps de non activité des systèmes sources,
Toutes nos étoiles engendreront les chargements importants, en termes de volume, En effet,
Ce processus s’exécute de façon mensuelle après acquisition de tout le rapport d’activités des
zones d’étude de polluant.

b. Processus de chargement
Deux types de tables dans l’entrepôt de données « faits, dimensions » doivent être
distingués. Avec SSIS nous avons créé une base de donnée (dw_pollution) que nous allons
charger en suivant quelque étape pour son chargement, nous avons utilisé l’outil Microsoft
SQL server Management.
26

Nos tables disposent de deux dimensions (Temps, Zone) avec un fait (Pollution au Cu) voir
figure 16.

Figure 16 : Tables avec Microsoft Mangement

Voici notre schéma en étoile avec les différentes clés primaires, Microsoft SQL server
Management (voir figure 17)
27

c. Processus de chargement de dimension

Les tables de dimension (voir figure) représentent le point d’entrée d’un entrepôt de
données.
Une dimension est généralement constituée d’une clé primaire et des attributs.
Le processus de chargement de dimension doit, outre le chargement des données, assurer :

· La gestion des clés primaires : affectation des clés et mise en correspondance.


· La gestion de l’évolution de dimension : gérer les changements que subissent les
dimensions.

Il existe trois types de traitement par rapport à l’évolution d’une dimension :

*Type 1 « écrasement » : consiste à mettre à jour l’attribut subissant un


changement.
*Type 2 « création d’un nouvel enregistrement » : consiste à créer un nouvel
enregistrement afin de sauvegarder tout le cycle d’évolution de la dimension.
*Type 3 « déplacement de la valeur a changé dans un attribut ancien » :
consiste à prévoir des attributs pour enregistrer les changements éventuels. Il
permet de sauvegarder un nombre défini de changements
28

Comme nous l’avons signifié, nous disposons d’un fichier Excel ou son stocké nos différents
donnés que nous allons importer grâce à Microsoft Visual Studio pour charger notre base
donnée pour avoir un entrepôt (voir figure 18).

Figure 18 : tache de flux de données

Chaque package contient toutes les taches d’intégration. L’enchainement des taches d’un
package est ordonné par le flux de contrôle. Lorsqu’une tache a pour mission d’assurer la
transformation des données, elle est renommé «taches de flux de données». A l’intérieur de
cette tache se trouve un flux de donnée contenant au minimum de ressources, une
transformation, une destination
29

CONCLUSION
30

BIBLIOGRAPHIE
31

TABLE DES MATIERES


EPIGRAPHE................................................................................................................................. I
DEDICACE.................................................................................................................................. II
TABLES DE FIGURES..................................................................................................................III
TABLE DE TABLEAU.................................................................................................................. IV
LISTE D’ABREVIATION............................................................................................................... V
INTRODUCTION.........................................................................................................................1
A. CHOIX ET INTERET DU SUJET..........................................................................................1
B. PROBLEMATIQUE........................................................................................................... 1
C. HYPOTHESE.................................................................................................................... 2
D. METHODES ET TECHNIQUES.......................................................................................... 2
E. ETAT DE LA QUESTION................................................................................................... 2
F. DELIMITATION DU SUJET............................................................................................... 3
G. SUBDIVISION.............................................................................................................. 3
CHAP I. CADRE THEORIQUE ET CONCEPTUEL............................................................................5
1.1 INTRODUCTION............................................................................................................... 5
1.2. hyyyyyyyyyyyyyyyyyyyyyyyyyyyyyy................................................................................6
1.3. Systèmes transactionnels et systèmes décisionnels.......................................................9
1.4. Modélisation des données de l’entrepôt........................................................................9
1.4.1. La modélisation dimensionnelle et ses concepts.....................................................9
1.4.2. Concept de fait.......................................................................................................10
1.4.3. Concept de dimension...........................................................................................10
1.4.4. Autre concept........................................................................................................ 10
1.4.5. Différents modèles dimensionnel..........................................................................10
1.4.6. Les outils OLAP......................................................................................................12
1.4.7. Architecture des outils OLAP.................................................................................12
1.5. Manipulation des données multidimensionnelles........................................................14
1.5.1. Opérations classiques............................................................................................14
1.5.2. Opérations agissant sur la structure......................................................................14
1.5.3. Opérations agissant sur la granularité...................................................................15
1.6. Démarche de Construction d’un entrepôt de données................................................16
32

1.6.1. Modélisation et conception d’un entrepôt de données........................................16


1.6.2. Approche « Besoins d’analyse ».............................................................................16
1.6.3. Approche « Source de données »..........................................................................17
1.6.4. Approche mixte......................................................................................................18
1.6.5. Alimentation d’un entrepôt de données................................................................18
1.6.6. Les phases de l’alimentation « E.T.L. »...................................................................19
1.6.7. Politiques de l’alimentation...................................................................................20
1.6.8. Les outils E.T.L........................................................................................................20
1.6.9. Mise en œuvre d’un entrepôt de données............................................................20
1. Définition du Data Mining...........................................................................................22
2. Méthodes de Data Mining............................................................................................22
3. Les méthodes descriptives (ou non supervisées)..........................................................22
4. Les méthodes prédictives.............................................................................................23
1.6.10. Maintenance et expansion...................................................................................23
CHAP II : CADRE DE REFERENCE..............................................................................................25
II.1.1 Effets sur la santé....................................................................................................... 26
II.1.2 Impact sur l'environnement.......................................................................................27
II.1.3. Effet sur la sante........................................................................................................28
II.1.4. Impact sur l’environnement.....................................................................................28
CHAP III : APPLICATION DE LA METHODE RALPH KIMBALL..................................................30
1. Définition des besoins..................................................................................................30
2. Modélisation dimensionnelle.......................................................................................30
3. Conception et Développement Des Eléments de Préparation Des Données...............35
CONCLUSION...........................................................................................................................38
33

ANNEXE
Tableau1 : Echantillon la pollution du cuivre dans l’air dans la première zone de prélèvement

Quantité_Cu Code_Zone Nom_Zone Période

0,0073 1 Ruwe 2010

0,0751 2 Kamanyola 2010

1,4091 3 Blvd katuba 2010

0,0592 4 Rue8 2010

0,0069 5 Av upemba 2010

0,6056 6 Route kipushi 2010

0,3572 1 Ruwe 2011

0,3788 2 Kamanyola 2011

0,2561 3 Blvd katuba 2011

0,3687 4 Rue8 2011

0,1979 5 Av upemba 2010

0,3832 1 Ruwe 2010

0,3087 2 Kamanyola 2010

0,4731 3 Blvd katuba 2010

0,9104 4 Rue8 2010

0,0699 5 Av upemba 2010

0,0744 1 Ruwe 2010


34

0,0017 2 Kamanyola 2011

0,6760 3 Blvd katuba 2011

0,0890 4 Rue8 2011

0,0272 5 Av upemba 2011

Tableau2 : Echantillon de la pollution du manganèse dans l’air dans la


première zone de prélèvement

Quantité_Mn Code_Zone Nom_Zone Période

0,0147 1 Ruwe 2010

0,0019 2 Kamanyola 2010

0,024 3 Blvd katuba 2010

0,02215 4 Rue8 2010

0,00225 5 Av upemba 2010

0,04205 6 Route kipushi 2010

0,0141 1 Ruwe 2011

0,0327 2 Kamanyola 2011

0,0381 3 Blvd katuba 2011

0,0091 4 Rue8 2011

0,0059 5 Av upemba 2011

0,0016 1 Ruwe 2010

0,0039 2 Kamanyola 2010


35

0,0018 3 Blvd katuba 2010

0,0423 4 Rue8 2011

0,0035 5 Av upemba 2011

0,0071 1 Ruwe 2011

0,0042 2 Kamanyola 2011

0,0020 3 Blvd katuba 2011

0,0015 4 Rue8 2010

0,0022 5 Av upemba 2010

Tableau 3 : Echantillon de la pollution au cuivre dans, dans la deuxième zone de prélèvement

Quantité_Cu Code_Zone Nom_Zone Période

0,1227 1 Quartie lido 2010

0,0665 2 Av du cuivre 2010

0,7748 3 Quartier 2010


makutano

0,9428 4 Av tshagolowe 2010

0,0453 5 Quartier 2010


mampala

0,1573 6 Av kilwa 2010

0,1452 7 Av songela 2010

0,1333 1 Quartier lido 2010

0,2721 6 Av kilwa 2010


36

Tableau 4 : Echantillon de la pollution au manganèse dans l’air, dans la deuxième zone de


prélèvement

Quantité_Cu Code_Zone Nom_Zone Période

0,0577 1 Quartie lido 2011

0,0924 2 Av du cuivre 2011

0,0427 3 Quartier 2011


makutano

0,0069 4 Av tshagolowe 2011

0,0039 5 Quartier mampala 2011

0,0241 6 Av kilwa 2011

0,0145 7 Av songela 2011

0,0059 1 Quartier lido 2011

0,0056 6 Av kilwa 2011

Source :

Vous aimerez peut-être aussi