Vous êtes sur la page 1sur 251

ii

Proceedings

Edition: Big Data & Objets-Connectes

7ème Edition
Innovation et Nouvelles Tendances
dans les Systèmes d’Information

7th Edition
Innovation and New Trends
in Information Systems

Marrakech-Maroc
Décembre 2018
Editeurs
Hassan BADIR
Azedine BOULMAKOUL
Moahmed TABAA
Sadik ER-ROUANE
Publié par : EMSI / ENSA de Tanger et AMINTIS

iv
Sommaire

1 | PRÉFACE vii

2 | COMITES ix

3 | CONFERENCIERS xi

4 | GUIDE DE LA CONFERENCE xii

5 | PROGRAMME xiv

6 | SESSIONS xvi

INTIS’2018 | Marrakech-Maroc

vi
Préface
L e développement des systèmes d'information a connu ces dernières années une mutation
profonde vu la nature des contraintes et des exigences qui se sont rajoutées suite au succès des
premiers systèmes. Les besoins des utilisateurs ont radicalement changé et l'interopérabilité des
systèmes et des données est plus que n'importe quel moment une exigence à respecter. L’articulation
entre systèmes d’information, innovation et création de la valeur constitue la problématique majeure
en management des systèmes d’information. Nous sommes entrés dans l’ère de l’informatique
Hassan pervasive. L'utilisateur exige d'accéder à des données disparates, hétérogènes, à n'importe quel
moment et à n'importe quel endroit. Le web dans ce sens, a permis de propulser l'utilisation des
BADIR données dans ces conditions mais reste un peu souvent au-delà des attentes, puisque d'autres
contraintes se sont rajoutées comme la sécurité des données, l'utilisation des normes et standards
de données et services, et la performance des applications web qui sont malheureusement toujours
moins rapides que les applications de type client lourd. Un autre moteur qui change la donne dans le
monde des systèmes d'information est certainement la mobilité, la géolocalisation, et ce qui en
découlent comme défis à savoir, la sécurité, la gestion des affichages et la garantie de la scalabilité et
de la performance. La conférence INTIS 2018 à Marrakech, dans la continuité des précédentes
éditions (Tanger 2011, Mohammedia 2012, Tanger 2013, Rabat 2014, Fès 2016 et Casablanca 2017),
veut créer un potentiel d’échange « ingénierie et connaissance » pour discuter les principaux
concepts et théories sous-jacentes actuelles des systèmes d'information émergents, ainsi que les
Azedine tendances technologiques et les nouveaux concepts qui peuvent influer sur le développement des
BOULMAKOUL systèmes d'information.
Les papiers publiés dans les actes d’INTIS 2018, couvrent largement la diversité des thèmes de
recherche et d’application sur les systèmes d’information émergents. Les thématiques proposées
pour cette édition portent principalement sur Big Data et Objets-Connectés.
INTIS 2018, a accueilli deux conférenciers invités : Mohammed Mestari, Professeur en
Mathématiques Appliquées et Intelligence Artificielle à l’ENSET Mohammedia, Ossama Cherkaoui,
Directeur du département, Oracle Afrique. Leurs exposés ont porté respectivement sur : « From
connectionist parallelism to a Distributed computing Practice » et « Le Cloud : Plateforme
d’Innovation pour les Entreprises ».

Mohamed INTIS 2018 a reçu le soutien de différentes institutions publiques d’enseignement et de recherche
TABAA que nous tenons à remercier : L’Ecole marocaine des sciences de l'ingénieur (EMSI), l’ENSA de Tanger,
la FST de Mohammedia, l’Association AMINTIS, l’association IOSIS, et toutes les autres institutions
qui ont aidé de loin ou de près pour la réussite de cette manifestation. Nous sommes reconnaissants
de leur soutien. Le succès de cette 7ème édition de INTIS n'aurait pas été réalisé sans la coopération
étroite du comité scientifique et des membres du comité d’organisation, que nous tenons également
à remercier très chaleureusement.
Nous tenons à remercier les personnes qui ont contribué au succès de INTIS2018 : les auteures des
articles, les conférenciers invités, les membres du comité de programme, les membres du comité
d’organisation, les membres du comité de pilotage ainsi que les sponsors et partenaires.

Sadik
Les rédacteurs invités : Hassan BADIR, Azedine BOULMAKOUL,
ER-ROUANE
Mohamed TABAA et Sadik ER-ROUANE
viii
Comités
Présidents d’honneur de la conférence
- Kamal DAISSAOUI, EMSI Maroc

Présidents de la conférence
- Azedine BOULMAKOUL, FST Mohammedia, Maroc
- Hassan BADIR, IDS Team, Université Abdelmalek Essaadi – Tanger-Maroc

Présidents du comité de programme


- Hassan BADIR, IDS Team, Université Abdelmalek Essaadi – Tanger-Maroc
- Mohamed TABAA, LPRI EMSI, Maroc

Comité de pilotage
- Hassan BADIR, IDS Team, Université Abdelmalek Essaadi – Tanger-Maroc
- Azedine BOULMAKOUL, FST Mohammedia, Maroc
- Nouria HARBI, ERIC, Lyon 2 - France
- Mohamed TABAA, LPRI EMSI, Maroc
- Amjad RATTROUT, Arab American University-Jenin, Palestine
- Ahmed LBATH, Université Grenoble-Aples, France

Président du comité d’Organisation


- Nadia ABOUNOUH, LAMIGEP EMSI Maroc
- Sadik ER-ROUANE, LAMIGEP EMSI Maroc

Comité d’organisation
- Naoual MOUHNI, LAMIGEP EMSI Maroc
- Kenza BENGOUD, LAMIGEP EMSI Maroc
- Meryeme HADNI, LAMIGEP EMSI Maroc
- Driss ESSABBAR, LAMIGEP EMSI Maroc
- Youssef MOURDI, LAMIGEP EMSI Maroc
- Yassine ZAABLI, LAMIGEP EMSI Maroc
- Mehdi CHANKATE, LAMIGEP EMSI Maroc
- Ghita SEMMATE, LAMIGEP EMSI Maroc
- Zineb TOUZANI, LAMIGEP EMSI Maroc
- EL Mehdi HAIRIB, LAMIGEP EMSI Maroc
Comité scientifique
- Badir Hassan, Abdelmalek Essadi University, - TESTE Olivier, Université de Toulouse, IRIT,
Tangier, Morocco France
- Bel Mokadem Houda, Université Abelmalek - PINET Francois, Cemagref, France
Essaadi, Tangier, Maroc
- RATTROUT Amjad, Arabo-American University,
- Bouazza Hasna, Oran University of Science and Jenin, Palestine
Technology - Mohamed Boudiaf, Algeria
- LACHKAR Abdelmounaim, Université Abdelmalek
- Boudia Mohamed Amine, GeCoDe Lab, Tahar Essadi, Tangier, Morocco
Moulay Saida University, Algeria
- Niyogi Rajdeep, Indian Institute of Technology
- BOULMAKOUL Azedine, Université Hassan II, Roorkee, India
LIM/IOS, Casablanca, Maroc
- Idri Abdelfattah, ENCG Casablanca, Maroc
- CHAHBOUN Assaad, Université Abdelmalek
- M.Gonzalo Claros, University of Málaga, Spain
Essadi, Tangier, Morocco
- Zeitouni Karine, University of Versailles-Saint-
- Faiz Rim, IHEC, University of Carthage, Tunisia
Quentin, France
- Favre Cécile, ERIC Laboratory, Lyon, France
- Mabrouk Aziz, Faculty of Science Tetouan, Maroc
- Fennan Abdelhadi, FST Tangier, Maroc
- Yahlali Mebarka, GeCoDe Lab, Tahar Moulay Saida
- FISSOUNE Rachida, Université Abdelmalek Essadi University, Algérie
Tangier, IDS
- Youssef Mourdi, University, Faculty of sciences
- Gifu Daniela, "Alexandru Ioan Cuza" University, SEMLALIA
Romanian
- Fatima Bouasria, université de saida, Algérie
- Hajji Hicham, École des Sciences Géomatiques IAV
- Derbal Khalissa, Université des sciences et de la
Rabat, Maroc
technologie Houari Boumediene
- Harbi Nouria, ERIC Laboratory, Lyon, France
- Sara Ibn El Ahrache, Faculté de Medine – Tanger
- Kriksciuniene Dalia, Vilnius University, Lithuania
- Besri Zineb ENSA de Tetouan, Maroc
- Sautot Lucile, AgroParisTech Dép. SIAFEE, UMR
- Lokbani Ahmed Chaouki Université Dr Tahar
TETI), France
Moulay de Saida, Algerie
- Moussa Rim, ENICarthage, Tunisia
- Kenza Bengoud, ENSA-Marrakech, Maroc
- Sbihi Abderrahmane, Abdelmalek Essadi
- Khalil Aamre, LGIPM Université de Lorraine,
University, Tangier, Maroc
France
- KABACHI Nadia, Université Lyon1, ERIC, France
- Zakaria Bendaoud GeCode Laboratory, University
- MARCEL Patrick, Université François Rabelais of Saida Algeria
Tours, Laboratoire d’Informatique, France
- Meryeme Hadni FSDM, Maroc
- MIQUEL Maryvonne, INSA de Lyon, LIRIS,
- Lamia Karim FST Mohammedia, Maroc
France
- Naoual Mouhni EMSI, Maroc
- MOUSSA Ahmed, Université Abdelmalek Essaadi,
Tanger, Maroc - Soukaina Elhasnaoui ENSEM, Maroc
- NEGRE Elsa, Université Paris-Dauphine, - Khadija Bousmar Université de Lorraine, LGIPM,
LAMSADE, France France
- Sadik Er-Rouane, EMSI-Marrakech, Maroc - Adil BOUZIRI, Université Hassan II de Casablanca,
Maroc

x
Mohammed Mestari received the M.A. degree fromthe École
Normale Supérieure de l’Enseignement Technique (ENSET),
Mohammedia, Morocco, in 1991, and the Ph.D. degrees in applied
mathematics and artificial intelligence from the Faculty of Science
Ben M’Sick, Hessan II University, Casablanca, Morocco, in 1997 and
2000, respectively. He is currently a Professor of Applied
Mathematics and Artificial
Intelligence at ENSET, and the Head of the Artificial Intelligence
Research Team with the Laboratory of Signals, Distributed Systems
and Artificial Intelligence. His current research interests include
Pr. Mohamed neural networks for signal processing, neural networks hardware
MESTARI implementation, high-speed and/or low-power techniques and
systems for neural networks, and theoretical issues directly related
to hardware implementation of techniques based on the

Conférenciers
principle of decomposition coordination for optimal control and
trajectory planning for an Unmanned Aerial Vehicle (UAV) and a
robot. He has more than 90 scientific publications regarding both
theory and applications in various domains of Artificial Intelligence
and Robotic.

Titre de l’intervention : From connectionist parallelism to a


distributed computing Practice

Many studies focus on artificial neural networks applied to highly constrained systems
(ambulatory systems, autonomous systems, adaptive systems, etc.), for which the
elementary and massively distributed nature of neural calculations is an asset.
More broadly, this character defines the very nature of connectionist calculations: a
computing power and robustness based on a massive parallelism with very fine grain
where the computing units fit into a very dense information flow. It is therefore essential
to be able to fully exploit this parallelism connectionist, both in terms of potential
computing and in terms of the prospects of effective embedded implementations.
The main objective of this intervention is to defend this form of distributed computing as
a real computational practice constituting a viable alternative to more classical models,
mainly from a sequential, procedural, algorithmic approach.
The term “computational practice” covers in this intervention an approach that aims to
be equally shared by all aspects of the calculation, from the theoretical conception of the
models to their implementation.
Such an approach asserts the interdependence of all these steps, as opposed to a more
usual approach of always dealing with the theoretical aspects upstream of applications
and then implementations.
The implications of this approach will be illustrated through several applications. These
applications will thus show the mutual influence of the theoretical aspects of
connectionism and the requirements related to the problem of a truly distributed
implementation, an unavoidable step for models that want to constitute what has been
previously called “computational practice”; An aspect common to all these works
emerges to constitute the central affirmation of my research: while the connectionist
models are made up of numerous computing units, their power resides above all in the
flow of information exchanged by these computing units, and the perspective that these
models constitute a practice of distributed computation essentially passes by a research
on the local management of this massively distributed flow.
Biographie
Ossama Cherkaoui est le directeur du département Ingénierie des
Solutions chez Oracle Afrique du Nord. Il a une expérience de plus
de 20 ans dans le domaine de l’IT en tant que consultant, formateur
et conseiller spécialisé dans les offres Cloud, Data Management et
Analytics. Dans son actuel rôle, Ossama continue à apporter du
conseil et de l’expertise aux grands comptes dans la région de
l’Afrique du Nord pour l’adoption du Cloud et la mise en place des
plateformes de gestion et de gouvernance des données. Ossama a
un diplôme d’Ingénieur en Systèmes de Gestion et d’Aide à la
Ossama CHERKAOUI
Conférenciers
Décision de l’ENSIAS.

Titre de l’intervention : Le Cloud : Plateforme d’Innovation pour


les Entreprises
Le Cloud s’est imposé dernièrement comme nouveau modèle de gestion du système
d’information des entreprises modernes. Au-delà de son intérêt économique, le Cloud
permet aux entreprises de se concentrer sur les activités à valeur ajoutée, d’améliorer
l’agilité du système d’information et permet d’adopter rapidement les nouvelles
technologies. Dans cette session, je vais donner un aperçu du modèle de Cloud Computing
et montrer son intérêt économique et pourquoi on peut le considérer comme plateforme
d’Innovation pour les entreprises qui permet d’accéder aux technologies de pointe telles
que le Machine Learning et l’IOT.

xii
Programme
Guide de la conférence

Présentations orales
❖ Les conférences plénières 35 + 10 minutes (présentation + discussion)
❖ Les présentations des papiers longs : 15 + 5 (présentation + discussion)


En outre, 10 minutes ont été allouées pour des discussions à la fin de chaque
session.
Une salle de préparation est disponible où les intervenants peuvent pré-
visualiser et tester leurs présentations

Toutes les intervenantes et tous les intervenants doivent donner leurs


présentations aux organisateurs pour la mise en place dans l’ordinateur local.
Programme
Vendredi 21 DECEMBRE 2018
08 :30 – 09 :00 EMSI
Accueil des participants
09 :00 – 09 :30 EMSI
Cérémonie et Mots d’ouverture
SESSION D’OUVERTURE
09 :30 – 10 :15 EMSI
Conférence invitée : Pr. Mohamed MESTARI
From connectionist parallelism to a distributed computing Practice
10 :15 – 10 :45 PAUSE CAFE

Session 1 : Analyse des données (DM) & Applications


10 :45 – 12 :30 EMSI
❖ Réseaux de Voronoï spatio-temporels distribués : Etat de l'art
Hafssa Aggour and Aziz Mabrouk
❖ Etat de l’art sur la transformation digitale : focus sur le domaine bancaire
Fadoua Khanboubi and Azedine Boulmakoul
❖ Bird swarm algorithm for solving the long-term car pooling problem
Zakaria Bendaoud, Khadidja Yachba, Sidahmed Bennacef and Naima Belayachi
❖ MERRY algorithm and Water-Filling Optimization for MC-CDMA System
Bouasria Fatima, Berber Redouan and Yousfi Souad
❖ On the exploitation of Process mining and Complex event processing in maritime logistics:
RoRo terminals
Mouna Amrou Mhand, Azedine Boulmakoul and Hassan Badir
❖ Genetic algorithm for multimodal communication with an ECA
Hasna Bouazza, Nassima Ouasti and Fatima Bendella
12 :30 – 14 :15 DEJEUNER

Session 2 : SIG, Sécurité & Applications


14 :15 – 15 :45 EMSI
❖ Recours aux Systèmes d’Information Géographique pour la caractérisation des risques naturels
dans la région du Tensift
Intissar Er-Rouane, El Mahdi Ben Sayah and Mustapha Hakdaoui
❖ Securing data warehouses storage and exploration using alteration and multi agent systems
Sara Rhazlane, Nouria Harbi, Nadia Kabachi and Hassan Badir
❖ Utilisation du système d’information géographique et de la télédétection pour la spatialisation
de l’érosion hydrique : Application au bassin versant de Rhéraya (Haut Atlas)
Aouatif Cheggour, Sadik Errouane and Vincent Simonneaux
❖ Recours aux Systèmes d’Information Géographique pour le management d’un projet intégré de
développement local à la commune de Sidi Boubker Province Rehamna
Lamiae Jadoual, Intissar Er-Rouane, Faical Benhida and Sadik Er-Rouane
❖ Nouvelles techniques d’investigation et de gestion des ressources naturelles
El Mahdi Ben Sayah, Mariame Kholaiq, Intissar Er-Rouane and Najib Saber
15 :45 – 16 :00 PAUSE CAFE
Session 3 : Big Data, Web & Applications
16 :00 – 17 :15 EMSI
❖ Webmapping application for flood risk management
Meriam Lahsaini and Tabyaoui Hassan
❖ A Survey on Solutions for Big Spatio-Temporal Data Processing and Analytics
Soufiane Maguerra, Azedine Boulmakoul, Lamia Karim and Hassan Badir
❖ Aggregated search in the web of data: Source selection and Ontology-Based data access
Ahmed Rabhi, Rachida Fissoune and Hassan Badir
❖ Génération de la description ODD+2D et du code source GAML d’un modèle agent à partir du
formalisme DAMap.
Ahmed Laatabi, Nicolas Marilleau, Hassan Hbid, Tri Nguyen-Huu and Mohamed Ait Babram

17 :30 – 18 :00 Réunion du Comité de Pilotage EMSI

xiv
Samedi 22 DECEMBRE 2018
08 :30 – 09 :00 EMSI
Accueil des participants
SESSION D’OUVERTURE
09 :00 – 09 :45 EMSI
Conférence invitée : Ossama CHERKAOUI
Big Le Cloud : Plateforme d’Innovation pour les Entreprises
Session 5 : Session Poster
09 :45 – 10 :30 EMSI
❖ Internet des objets au service de la santé
Fatima Zahra Fagroud, El Habib Benlahmar and Sanaa El Filali
❖ IoT in Healthcare: State of the Art
Fatima Zahra Fagroud, El Habib Benlahmar and Sanaa El Filali
❖ Towards collaborative ontology authoring in the domain of the holy Quran knowledge
Hamza Kharrazi and Said Raghay

10 :30 –10 :45 PAUSE CAFE


Session 4 : IoT & Applications
11 :00 – 12 :15 EMSI
❖ Blockchain technology in IoT applications security service for secure smart cities
Wadii Basmi and Azedine Boulmakoul
❖ Internet industriel des objets pour les usines futures : challenges et opportunités
Oussama Rholam, Mohamed Tabaa, Fouad Moutaouakkil, Karim Alami and Hicham
Medroumi
❖ Actors-based CEP architecture for real time traffic congestion patterns detection
Mohamed Nahri, Azedine Boulmakoul and Lamia Karim
❖ Vers un réseau intelligent de distribution électrique basé sur l’internet des
énergies
Asmae Chakir, Mohamed Tabaa, Fouad Moutaouakkil, Karim Alami and Hicham
Medroumi

12:15 - 13 :00 Clôture et Cérémonie de remise d’attestations EMSI


13 :00 – 14 :00 DEJEUNER
Session
Sessions

Session 1: Analyse des données (DM) & Applications

Session 2: SIG, Sécurité & Applications

Session 3: Big Data, Web & Applications

Session 4: IoT & Applications

Session 5: Session Poster

xvi

INTIS’2018 | Marrakech-Maroc
TABLE DES MATIÈRES

Session 1 : Analyse des données (DM) & Applications


Réseaux de Voronoï spatio-temporels distribués : Etat de l’art
Hafssa Aggour, Aziz Mabrouk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

Etat de l’art sur la transformation digitale : focus sur le domaine bancaire


Fadoua Khanboubi and Azedine Boulmakoul . . . . . . . . . . . . . . . . . . . . . . 9

Bird swarm algorithm for solving the long-term car pooling problem
Zakaria Bendaoud, Khadidja Yachba, Sidahmed Bennacef, Naima Belayachi . . . . . 21

MERRY algorithm and Water-Filling Optimization for MC-CDMA System


F. Bouasria, R.Berber, S. Yousfi, A.Mekkaoui, F.Belhorma . . . . . . . . . . . . . 33

On the exploitation of Process mining and Complex event processing in maritime


logistics: RoRo terminals
Mouna Amrou Mhand, Azedine Boulmakoul, Hassan Badir . . . . . . . . . . . . . . 41

Genetic algorithm for multimodal communication with an ECA


Hasna Bouazza, Nassima Ouasti, Fatima Bendella . . . . . . . . . . . . . . . . . . 51

Session 2 : SIG, Sécurité & Applications


Recours aux Systèmes d’Information Géographique pour la caractérisation des risques
naturels dans la région du Tensift
Intissar Er-rouane, El Mahdi Bensayah, Mustapha Hakdaoui . . . . . . . . . . . . . 61

Securing data warehouses storage and exploration using alteration and multi agent
systems
Sara Rhazlane, Nouria Harbi, Nadia Kabachi, Hassan Badir . . . . . . . . . . . . . 75

Utilisation du système d’information géographique et de la télédétection pour la spa-


tialisation de l’érosion hydrique : Application au bassin versant de Rhéraya (Haut
Atlas, Maroc)
Aouatif Cheggour, Sadik Errouane, Vincent Simonneaux . . . . . . . . . . . . . . . 87
Recours aux Systèmes d’Information Géographique pour le management d’un projet
intégré de développement local à la commune de Sidi Boubker Province Rehamna,
(Maroc)
Intissar Er-rouane, Lamia Jadoual, Faiçal Benhida, Sadik Er-rouane . . . . . . . . . 95
Nouvelles techniques d’investigation et de gestion des ressources naturelles
El Mahdi Ben Sayah, Intissar Er-Rouane, Mariame Kholaiq, Najib Saber . . . . . . 109

Session 3 : Big Data, Web & Applications


Web Mapping pour la gestion des risques d’inondation au Maroc
Meriam Lahsaini, Hassan Tabyaoui, Fatima El Hammichi, Mounia Tahiri . . . . . . 119
A Survey on Solutions for Big Spatio-Temporal Data Processing and Analytics
Soufiane Maguerra, Azedine Boulmakoul, Lamia Karim, Hassan Badir . . . . . . . . 127
Aggregated search in the web of data: Source selection and Ontology-Based data
access
Ahmed Rabhi, Rachida Fissoune, Hassan Badir . . . . . . . . . . . . . . . . . . . . 141
Génération de la description ODD+2D et du code source GAML d’un modèle agent
à partir du formalisme DAMap
Ahmed Laatabi, Nicolas Marilleau, Hassan Hbid, Tri Nguyen-Huu, Mohamed Ait Babram 149
Semantic for Big Data Analysis: A survey
Amina Taouli, Djamel Amar Bensaber, Nabil Keskes, Khayra Bencherif and Hassan
Badir . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

Session 4 : IoT & Applications


Blockchain technology in IoT applications security service for secure smart cities
Basmi Wadii, Azzedine Boulmakoul . . . . . . . . . . . . . . . . . . . . . . . . . . 179
Internet industriel des objets pour les usines futures : Challenges et Opportunités
Oussama Rholam, Mohamed Tabaa, Fouad Moutaouakil, Hicham Medroumi, Karim
Alami . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 187
Actors-based CEP architecture for real time traffic congestion patterns detection
Mohamed Nahri, Azedine Boulmakoul, Lamia Karim . . . . . . . . . . . . . . . . . 203
Vers un réseau électrique intelligent basé sur l’internet des énergies
Asmae Chakir, Mohamed Tabaa,Fouad Moutaouakil,Hicham Medromi, Karim Alami 211

Session 5 : Session Poster


Internet des objets au service de la santé
Fatima Zahra Fagroud, EL Habib Ben Lahmar, Sanaa Elfilali . . . . . . . . . . . . 221
Iot in healthcare: state of the art
Fatima Zahra Fagroud, EL Habib Ben Lahmar, Sanaa Elfilali . . . . . . . . . . . . 223
Towards collaborative ontology authoring in the domain of the holy quran knowledge
Hamza Kharrazi, Said Raghay . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225

Index des auteurs 227


Réseaux de Voronoï spatio-temporels
distribués : Etat de l’art
Hafssa Aggour*, Aziz Mabrouk*

* Université Abdelmalek Essaadi, ER Ingénieurie des Systèmes d’Information Route de


Martil - Tétouan, Maroc.
hafssaaggour@gmail.com, Aziz.mabrouk@gmail.com

Résumé. La représentation de la réalité spatiale dépendant principalement du


processus de modélisation dont la cartographie joue un rôle essentiel dans ce
sens. En effet, les systèmes d’information géographiques, sont connus très perti-
nents, larges et profonds comme outils de traitement de l’information géogra-
phique. Où, les graphes de Voronoï de type réseau facilitent le calcul spatial des
réseaux spatiaux et servent à identifier les zones les plus accessibles.

1 Introduction
De nos jours, l’accessibilité spatiale devient très dure et plus délicate. En effet, de multiples
facteurs permet de contribuer à cette difficulté. En outre, l’évolution démographique, le déve-
loppement économique et social, les changements environnement- taux et les embouteillages,
contribuent à cette difficulté. La raison qui nous pousse à penser à des solutions rapides fiables
et pertinentes permettant de résoudre ce dilemme d’accessibilité spatiale. Cependant, l’analyse
des réseaux spatiaux consiste à faire des descriptions élargies de l’espace géographique afin
d’intervenir d’une manière fiable à la gestion et l’aménagement du territoire en termes d’inter-
rogation, simulation, implantation et planification d’une part, et d’autre part afin de faciliter le
déplacement d’un espace à un autre dans un temps calculé optimale. À ce stade-là, la notion
des réseaux spatio-temporels doit donc entrer en jeu. Toutefois, le calcul des réseaux spatio-
temporels permet de déterminer clairement la distance optimale allons d’une zone à une autre
en fonction du temps. Spécialement que les deux notions d’espace et du temps sont deux no-
tions indissociables et inséparables. Certes, notre sujet de recherche vise à trouver des solutions
à la notion de l’accessibilité spatiale, à l’aide des graphes de Voronoï flou spatio-temporels
distribué en mettant l’accent sur la mesure de l’accessibilité spatiale dans les villes intelli-
gentes. Pour cette raison, la mise en place des algorithmes qui respectent les normes de l’effi-
cacité, l’efficience et la pertinence et qui garantissent l’optimisation du temps de traitement
des données volumineuses et de prise de décision en temps réel afin de mesurer rapidement
l’accessibilité spatiale dans les villes intelligentes deviennent une nécessité.

-1-
Réseaux de Voronoï spatio-temporels distribués : Etat de l’art

2 Problématique
Le grand défi qui apparaît, s’articule sur les difficultés d’assurer l’accessibilité spatiale
dans les villes intelligentes. Sans oublier, les difficultés de gestion, traitement, d’analyse, d’in-
terprétation données (temporelle, spatiale, hybride, etc.) massives et volumineuses qui se pro-
duisent en continu, suite à l’évolution des facteurs (l’évolution démographique, le développe-
ment économique et social, les changements environnementaux et les embouteillages) qui
contribuent à augmenter le problème d’accessibilité spatiale. Quelle est la méthodologie à
suivre pour résoudre ce problème ?

3 Objectif
Notre objectif vise à trouver le plus court chemin dépendant du temps afin de construire des
réseaux de Voronoï flou spatio-temporels permettant par la suite de faciliter le calcul distribué
des données volumineuses afin de prendre des décisions rapides et fiables dont l’objectif est
d’assurer l’accessibilité spatiale dans les villes intelligentes.

4 Méthodologie
Dans un premier temps, nous cherchons à calculer le plus court chemin dépendant du temps
facilitant l’accès rapide (le déplacement) de plusieurs points de départ à plusieurs points de
destination dans un périmètre temporel, à l’aide des algorithmes destinés au calcul de plus
court chemin dépendant du temps. En fait, le plus court chemin dépendant du temps trouver
permet de construire des graphes spatio-temporels servant à modéliser l’espace en fonction du
temps. Ces graphes spatio-temporels vont être projetés sur les réseaux spatiaux de Voronoï afin
d’avoir des Réseau spatio-temporels de Voronoï. Dans un deuxième temps, la notion du flou
joue un rôle très important. Cependant, les valeurs réelles ne reflètent pas parfaitement la réa-
lité. C’est pour cela, nous utilisons des valeurs floues (des valeurs non-exactes) pour faire des
approximations qui vont servir à construire des réseaux de Voronoï flous spatio-temporels.
Dans un troisième temps, nous appliquons les méthodes de partitionnement sur le réseau de
Voronoï flou spatio-temporel généré afin d’effectuer des calculs (traitements) distribués, d’une
manière parallèle sur les données massives qui se produisent en continue.

5 Proposition des solutions

5.1. Théorie des graphes en relation avec les réseaux spatio-temporels


de Voronoï

La théorie des graphes joue un rôle largement important dans la visualisation, représenta-
tion, modélisation et d’analyse efficace des phénomènes et des situations pour l’établissement
des relations entre les nœuds, la modélisation de tous les types de réseaux (routiers, communi-
cation, neurones, internet, circuit électrique) dont la modélisation se fait à l’aide des nœuds
(sommets) liées par des arcs(arêtes). Cependant, cette théorie vise à étudier les graphes sous

-2-
H. Aggour et al.

forme de modèle abstrait de dessin de réseaux reliant des objets. La théorie des graphes est
considérée comme un pilier essentiel à la modélisation des réseaux spatiaux, dont un réseau
spatial peut être défini comme étant un objet géographique implanté sur le territoire (Ma-
brouk.A, Boulmakoul.A, 2008). La notion des réseaux spatiaux ouvre la porte sur plusieurs
d’autre notions qui se considèrent importantes et permet de servir à une modélisation efficace.
En outre, il est évident de mettre l’accent sur la notion des réseaux spatiaux de Voronoï et les
réseaux spatio-temporels de Voronoï.

5.2. Diagramme de Voronoï de type Réseau


En revanche, Okabe et al. (2008) Définissent un réseau de Voronoï ou un diagramme de Voro-
noï de type réseau (DVR) par la division du réseau en sous-réseau de Voronoï dont chacune
contient les points les plus proches à chaque générateur de Voronoï en parcourant le plus court
chemin entre ces composantes.

FIG. 1 – Une partie du DVR spatial généré par les hôpitaux de la ville de Tétouan
A.Mabrouk. Les diagrammes de voronoï et applications dans le transport des matières dan-
gereuses - Etat de l’art – (2017))
5.3. Calcul du plus court chemin dépendant du temps
Le calcul du plus court chemin dépendant du temps nécessite la mise en place des algo-
rithmes efficace permettant de construire des réseaux de Voronoï spatio-temporel. En fait,
Mehlhorn a utilisé juste une extension de l’algorithme de plus court chemin de Dijkstra. Erwig
(2000) de sa part présente un algorithme alternatif qui est plus efficace dans les graphes denses
afin de trouver le plus court chemin.

-3-
Réseaux de Voronoï spatio-temporels distribués : Etat de l’art

FIG. 2 – graphe de PCC via Dijkstra.

Ces algorithmes proposés par Mehlhorn et Erwig restent quand même insuffisants et ne
permettent pas d’effectuer un calcul pertinent du plus court chemin dépendant du temps pour
pouvoir construire le réseau de Voronoï spatio-temporel.

FIG. 3 – graphe de PCC en fonction du temps.


Pour cette raison, on propose de calculer le plus court chemin dépendant du temps à l’aide
d’un algorithme qui s’appelle l’algorithme A*. Cet algorithme se considère comme une ex-
tension de l’algorithme Dijkstra et permet de résoudre le problème TDSP (plus court chemin
dépendant du temps). Cependant, A* fonctionne selon les étapes suivantes : la première étape
consiste à choisir un nœud de départ et par la suite en applique à ce nœud un cout (habituelle-
ment 0 pour le nœud initial). A* estime par la suite la distance qui sépare le nœud de départ au
nœud d’arrivée toute en définissant une fonction de temps gi(t) passant par des arcs dont le coût
des arcs peut être en termes de distance, temps, consommation de carburant. La somme du coût

-4-
H. Aggour et al.

et d’évaluation représente le coût heuristique assignée au chemin menant à ce nœud. Le nœud


est alors ajouté à une file d’attente prioritaire Q(t) pour tous les chemins à développer. Par la
suite, l’algorithme retire le premier nœud de la file d’attente prioritaire Q(t). Si la file d’attente
est vide, il n’y a aucun chemin du nœud initial au nœud d’arrivée, ce qui interrompt l’algo-
rithme. Si le nœud retenu est le nœud d’arrivée, A* reconstruit le chemin complet et s’arrête. Et
finalement, le plus court chemin dépendant du temps se calcule à l’aide de la complexité sui-
vante :

FIG. 4 – graphe de PCC via l’algorithme A*.

FIG. 5 – graphe de PCC en fonction du temps avec l’algorithme A*.

5.4. Partitionnement du réseaux spatio-temporels de Voronoï et le calcul


distribué
Le partitionnement de graphe est d’un intérêt primordial pour le traitement distribué des
graphes ou des réseaux (réseaux routiers, réseaux sociaux, réseaux de télécommunications.), il
joue un rôle de plus en plus important pour les calculs parallèles afin de prendre des décisions
rapides et pouvoir tirer des conclusions en temps réels. Le problème qui se pose donc, comment
faire partitionner un graphe ou un réseau ? En effet, les stratégies de partitionnement existantes
dans la littérature. Tel que, les approches multi-niveaux comme l’algorithme de Kernighan-
Lin (Kernighan, Lin, 1970), l’algorithme de PageRank Vecteurs (Andersen et al., 2006), les
méthodes inertielles, Expansion de région, Méthode spectrale, Méthodes d’affinage d’une par-

-5-
Réseaux de Voronoï spatio-temporels distribués : Etat de l’art

tition initiale servent à partitionner le graphe (le réseau) afin d’effectuer le calcul distribué.
Mais dans notre cas, nous nous baserons sur une approche, s’inspirer aussi de la littérature
s’appelle la distance euclidienne. On sait très bien que la distance euclidienne est une méthode
qui s’utilise dans le cas planaire, mais dans notre cas on va l’utiliser juste comme méthode pour
partitionner le réseau spatial (Aziz Mabrouk, Hafssa AGGOUR et Azedine Boulmkoul,
Asd2018).
5.4.1. Stratégie de partition du réseau spatial basé sur le calcul distribué de la distance
euclidienne
En principe, l’idée de cette méthode est de décomposer les données spatiales du réseau spatio-
temporel de Voronoï en sous-réseau dont le partitionnement permet de générer les nœuds les plus
proches à un générateur de Voronoï gi, par rapport à l’autre générateur de Voronoï, toute en
comparant les distances euclidiennes.

FIG. 6 – Partitionnement spatial du réseau basé sur le calcul distribué de la distance


eucli- dienne(Aziz Mabrouk, Hafssa Aggour et Azedine Boulmakoul, Asd 2018) .

-6-
H. Aggour et al.

5.4.2. Calcul distribué des arbres de plus court chemin

L’objectif, alors, est d’avoir une partition équilibrée en nombre de nœuds et des arcs, pour
permettre un calcul parallèle des arbres des plus courts chemins dépendant du temps. Sachant
que le DVR spatial est constitué de l’ensemble des arbres des PCC, chaque générateur de Vo-
ronoï est la racine de chaque arbre. Après le partitionnement du réseau spatio-temporel de Vo-
ronoï, on fait le calcul distribué des arbres de plus court chemin et on obtient le résultat suivant.

FIG. 7 – Calcul distribué des arbres des plus court chemins ACC(A), ACC(B), ACC(C)
enracinés à A, B et C (Aziz Mabrouk, Hafssa Aggour et Azedine Boulmakoul, Asd 2018).

6 Conclusion
L’analyse des proximités géographiques participe efficacement à résoudre le défi de l’accessi-
bilité spatiale dans les villes intelligentes, dont l’évaluation des zones d’accessibilité spatiale
servent à déterminer les périmètres d’accessibilité aux zones et aux services souhaités (hôpital,
école, hôtel, etc.). De différentes méthodes ont été trouvée dans la théorie. En effet, le calcul
de plus court chemin en utilisant plusieurs algorithmes (Dijkstra, A-star...). Notre participation
vise principalement à calculer le plus court chemin dépendant du temps à l’aide des algo-
rithmes de calcul de plus cours chemin afin de construire un diagramme de Voronoï spatio-
temporel.

-7-
Réseaux de Voronoï spatio-temporels distribués : Etat de l’art

Références
Idri, M. Oukarfi, A. Boulmakoul, K. Zeitouni, A. Masri (2017). A distributed approach for
shortest path algorithm in dynamic multimodal transportation network, Budapest, Hun-
gary, Volume 27, Pages 294-300.
Idri, M.Oukarfi, A.Boulmakoul, K.Zeitouni, A.Masri (2017). A new time-dependent shortest
path algorithm for multimodal transportation network. Madeira, Portugal, Volume 109,
Pages 692-697
A.Mabrouk, H. Aggour, A. Boulmakoul (2018). Processus de calcul parallèle des réseaux spa-
tiaux de Voronoï basé sur une architecture distribuée. Maroc
Mabrouk, A. Boulmakoul (2017). Nouvelle approche basée sur le calcul des itinéraires courts
et sûrs pour le transport des matières dangereuses favorisant l’accès rapide aux secours.
Maroc
A.Mabrouk (2017). Les diagrammes de voronoï et applications dans le transport des matières
dangereuses - Etat de l’art - Maroc : Tétouan
Bolin Ding, Jeffrey Xu Yu, Lu Qin (2008). Finding Time-Dependent Shortest Paths over Large
Graphs, Proc. 205-216, France,
D.Xia, B.Wang, Y.Li, Z.Rong, Z.Zhang (2015). An efficient MapReduce-based parallel clus-
tering al- gorithm for distributed trafic subarea division, Discrete Dyn. Nat.
Eric Sigward (2002), Introduction à la théorie des graphes.
L. Zhao, T. Ohshima, H. Naga- mochi (2008). A* Algorithm for the time-dependent shortest
path problem.
Okabe, A et al. (2000). Spatial Tesselations: Concepts and Ap- plications of Voronoi Dia-
grams. John Wiley et Sons, Chichester, United Kingdom.

Summary
The representation of the spatial reality depends mainly on the modeling process whose car-
tography plays an essential role in this direction. Indeed, geographic information systems are
known to be very relevant, broad and deep as tools for processing geographical information
and processes for modeling and exploiting geographic information. Whereas the analysis of
geographical proximities and the evaluation of areas of spatial accessibility in order to arrive
at the desired zones or services (hospital, school, hotel, etc.) mainly require the use of several
tools. analysis and treatments citing for example the Voronoi graphs. Where, these graphs
facilitate the spatial computation of space networks and serve to identify the most accessible
areas. In the same context of smart cities, real-time semantic and spatial data flows are contin-
ually produced and analyzed by efficient and effective algorithms, capable of managing the
complexities associated with Big Data, in order to obtain exploitable knowledge to manage the
basic functions of decision support systems. However, Voronoi spatial diagrams are widely
used to model and analyze space networks.

-8-
Etat de l’art sur la transformation digitale : focus sur le
domaine bancaire
Fadoua Khanboubi and Azedine Boulmakoul
LIM/Innovative Open Systems, FSTM, Hassan II University of Casablanca, B.P. 146 Mohammedia,
Morocco,
khanboubi.fadoua@gmail.com, azedine.boulmakoul@gmail.com

Résumé La transformation digitale est tout sauf simple, elle doit être traitée
avec beaucoup de précaution. Le digital est en effet la nouvelle norme. Il
affecte différents domaines de la société et de l'économie. Il permet une
coopération entre différents acteurs. D’ailleurs, une véritable banque digitale
est une banque qui améliore l'expérience client, crée de nouveaux flux de
revenus et en mesure de mettre en place des business models modernes,
dynamiques et non traditionnels. Elle doit être suffisamment agile du point de
vue technologique, structurel et culturel pour s’adapter en permanence à
l’évolution rapide des environnements commerciaux et technologiques. Ce
travail représente un état de l’art de la transformation digitale qui identifie les
différents travaux apparentés ainsi que les approches existantes pouvant servir
de base à une feuille de route pour la transformation digitale des institutions
financières.

1 Introduction
L'intégration et l'exploitation des nouvelles technologies numériques constituent l'un des
plus grands défis auxquels les entreprises sont actuellement confrontées. Aucun secteur ou
organisation n'est à l'abri des effets de la transformation digitale. Le potentiel des
technologies numériques est souvent plus large que celui des produits, des processus
commerciaux, des canaux de vente ou des chaînes d’approvisionnement – des business
models complets sont en train d’être remodelés et fréquemment changés.

En conséquence, la transformation digitale est devenue une priorité des programmes de


leadership… les chefs d’entreprise prévoient que les technologies informatiques et
numériques apporteront une contribution stratégique croissante à leur activité globale au
cours des prochaines décennies. Face à ce nouveau défi et à la nécessité de rester compétitif
dans leur secteur, les managers doivent formuler et mettre en œuvre des stratégies qui
prendront en compte les implications du changement et génèreront de meilleures
performances opérationnelles. Malheureusement, il existe de nombreux exemples récents
d’organisations qui ont été incapables de suivre le rythme de la nouvelle réalité numérique.
La faillite de la société de location de films Blockbuster (Hudson, 2016) en est le principal
exemple, en grande partie dû à son incapacité à développer et à mettre en œuvre rapidement
de nouveaux business models digitaux.

-9-
Etat de l’art sur la transformation digitale : focus sur le domaine bancaire

Le domaine bancaire baigne aussi dans cette vague de changement. La transformation


digitale des institutions financières est liée aux évolutions que les technologies numériques
peuvent entraîner dans le business model, ce qui se traduit par une modification des produits
ou des structures organisationnelles ou par l’automatisation des processus. La transformation
digitale est un sujet complexe qui touche de nombreux ou toutes les activités d’une banque.
Les gestionnaires doivent simultanément équilibrer l’exploration et l’exploitation des
ressources pour atteindre l’agilité organisationnelle escomptée, condition nécessaire à la
réussite de la transformation. À l'heure actuelle, les gestionnaires manquent souvent de clarté
quant aux différentes options et éléments à prendre en considération. En conséquence, ils
risquent de ne pas tenir compte de détails importants ou de solutions plus favorables aux
situations spécifiques de leur banque, ce qui pourrait avoir des conséquences défavorables
imprévues.

Cet article qui représente un état de l’art de la transformation digitale avec un zoom sur le
domaine bancaire est organisé comme suit: la section 2 présente les principes de la
transformation digitale et la section 3 détaille les travaux apparentés avec un focus sur le
domaine bancaire. Enfin, la conclusion traite du bilan des diverses approches et convient les
pratiques à adopter et à développer.

2 la transformation digitale
Cette partie propose une définition du digital ainsi que les travaux apparentés à propos
de ce sujet.

2.1 Définition du digital


Les organisations ne comprennent toujours pas ce que le digital signifie : Certains le
considèrent encore comme une simple extension de l'informatique ou du marketing,
d’ailleurs les organisations adoptent rarement l'approche holistique nécessaire à la réussite
numérique. L'incompréhension fondamentale du digital empêche de nombreuses entreprises
de connecter leurs stratégies numériques à leur cœur de métier.

Avant d’examiner la transformation digitale des banques, il est important de


comprendre exactement ce que signifie le «digital». Il existe plusieurs définitions, mais nous
retiendrons celle de McKinsey qui stipule que le digital concerne moins un processus et plus
la façon dont les entreprises dirigent leur business (Dorner K. et Edelman D., 2015). La
définition de McKinsey peut être divisée en trois principes différents:
- Création de la valeur
- Optimisation des processus qui affectent directement l'expérience client
- Mise en place des moyens pour soutenir l’ensemble des initiatives entreprises

2.2 Différence entre adaptation, transformation et innovation


Il est primordial de faire la distinction entre ces trois concepts :

- Adaptation : fait référence aux ajustements des systèmes en réponse à des stimuli
réels ou attendus et à leurs effets ou impacts par rapport aux propriétés dynamiques d'un

- 10 -
Khanboubi and Boulmakoul

système viable et durable (potentiel, connectivité et résilience). Il fait référence aux


changements de processus, de pratiques et de structures en réponse aux transformations
environnementaux. Ainsi, l’adaptation systémique consiste à «faire les choses en tenant
compte de l’état du système et des conditions environnementales ».

- Transformation : définition d’un nouveau paradigme impliquant une nouvelle


définition du système et du modèle de gouvernance.
Quant à la transformation digitale, elle peut être définit comme suit : «Un changement
systémique des processus internes, des modèles commerciaux et des compétences
utilisant les technologies et les avancées numériques afin de fournir des produits et
services intelligents à la hauteur des attentes des clients».

- Innovation: il s’agit d’un changement radical dans l'offre de produits ou de services


dans le cadre d'une définition du système et d'un modèle de gouvernance établis (Systemic
Steering and Governance, 2016).

2.3 Approches existantes sur la transformation digitale


Dans le domaine de l'innovation des business models, de nombreuses approches ont été
proposées dans la littérature.
L'évolution d’un business model inclut des changements dans les composantes du
modèle (la relation client, les produits et services, etc.) ou des modifications radicales de
celui-ci (Schallmo DR., 2014). La transformation digitale d'un business model vise ainsi à
utiliser l’ensemble des outils du modèle, à accroître le potentiel digital, à créer un réseau
numérique à valeur ajoutée et à proposer des expériences clients uniques.
2.3.1 Approche d’Esser
Esser (Esser M., 2014) définit cinq phases qui décrivent le plan de développement d'une
stratégie de transformation digitale et de sa mise en place. Les phases sont illustrées ci-
dessous :

FIG. 2 – Approche d’Esser


- Analyse
L'analyse se concentre sur quatre domaines: clients, concurrents, marchés et
compétences commerciales. Les besoins et les valeurs du client sont analysés et segmentés.
Les concurrents sont décrits et mesurés grâce à leurs performances actuelles et leur
positionnement sur le marché. Les nouveaux entrants sur le marché sont également pris en
compte. Le marché est analysé en fonction de sa taille, de son potentiel, de ses limites et de
ses développements futurs. Enfin, les capacités métier disponibles sont analysées et
regroupées.

- Stratégie

- 11 -
Etat de l’art sur la transformation digitale : focus sur le domaine bancaire

La deuxième phase qui est la stratégie consiste à définir la position du marché, à


décider comment l’entreprise souhaite se différencier et à sélectionner la clientèle ciblée.

- Conception
La conception repose sur trois domaines: une vision de l'expérience client, une
proposition de valeur et l'identification des opportunités. La vision de l'expérience client
comprend une déclaration sur ce que l'entreprise souhaite réaliser. La proposition de valeur
décrit les services permettant de cerner les clients. Enfin, l'identification des opportunités
évalue les idées de conception actuelles et futures.

- Impact organisationnel
L'impact organisationnel se réfère aux personnes, à la structure et à la culture au sein de
l'entreprise. Ainsi, les processus et systèmes sont examinés et la gouvernance et le contrôle
sont définis.

- Transformation
La transformation décrit la feuille de route et la gestion du programme de changement.
Ainsi, la communication interne et la gestion du changement sont prévues. Enfin, l’image de
marque et les communications externes sont définies. Les phases définies sont très générales
et par conséquent, les références spécifiques à la transformation digitale sont rares.
Néanmoins, l’approche d’Esser offre des idées utiles sur les phases et les contenus à prendre
en compte.
2.3.2 Approche de PricewaterhouseCoopers
PricewaterhouseCoopers (PwC) (PwC, 2013) définit six phases pour la transformation
digitale. Les phases sont illustrées ci-dessous :

FIG. 3 – Approche de PwC


- Stratégie
Durant cette première phase, une stratégie est développée et les effets de la dynamique
digitale sont assimilés. La position actuelle de la société est déterminée et un nouveau
business model est conçu. En outre, une évaluation de la sécurité, une analyse de la création
de valeur ainsi que les ramifications légales et fiscales sont déterminées. Enfin, la culture
d'entreprise et le capital humain sont impactés.

- Design
La deuxième phase est la conception de la feuille de route de la transformation. À ce
stade, le modèle de collaboration, le réseau de création de valeur et le modèle opérationnel
sont définis. De plus, l'architecture et le modèle cible, le plan de transformation sont
déterminés. Enfin, les aspects fiscaux et juridiques sont modélisés.

- Construction
La troisième phase est la construction, qui complète le développement d'une plate-
forme commerciale digitale. Pour ce faire, la gouvernance est introduite et le modèle

- 12 -
Khanboubi and Boulmakoul

opérationnel et les services métiers / informatiques sont adaptés en fonction de cette


construction. La sécurité numérique et la gestion des compétences sont également définies.

- Implémentation
La phase de mise en place initie la plate-forme commerciale précédemment développée.
La qualité et la formation des employés sont déployées pour assurer une transition réussie.

- Opération
Au cours de cette phase, les nouveaux business models sont considérés comme
fonctionnant en tant que systèmes en cours d'exécution. Ici, la gouvernance, la plate-forme,
la gestion et le reporting des applications jouent un rôle essentiel.

- Test
La dernière phase est le test, qui comprend le monitoring et l'optimisation des
performances. À ce stade, des ajustements au niveau des services, des optimisations du
business model sont effectuées.
2.3.3 Approche de Bouée et Schaible
Bouée et Schaible décrivent un schéma directeur de transformation digitale
spécifiquement conçu pour répondre à un avenir numérique (Bouée CE. et Schaible S.,
2015). Les phases sont présentées ci-dessous :

FIG. 4 – Approche de Bouée et Schaible

- Analyse de l'influence des technologies digitales


Dans le cadre de cette phase, différents scénarios futurs sont prévus et les changements
potentiels dans les chaînes de valeur sont analysés. De plus, les technologies sont classées et
les acteurs du marché pertinents sont évalués. En conséquence, plusieurs changements sont
fréquemment identifiés dans cette phase.

- Comparaison de la position actuelle de l’entreprise


La deuxième phase comprend une analyse des opportunités et des risques pour
l'entreprise existante. En outre, les produits, clients et régions concernés sont analysés. De
plus, des capacités digitales telles que les ressources humaines ou les partenariats sont
définies et la stratégie commerciale numérique est établie. Les écarts de mise en place et de
compétences qui en résultent sont identifiés.

- Mise en place de la feuille de route


Dans la phase finale, les options pertinentes pour les scénarios futurs sont définies. Par
exemple, les compétences digitales nécessitant un développement ultérieur sont identifiées et
les acteurs du marché coopératif sont discutés. Ces phases capturent plusieurs aspects de la
transformation digitale et incluent des analyses détaillées.

- 13 -
Etat de l’art sur la transformation digitale : focus sur le domaine bancaire

3 Les travaux apparentés


3.1 La transformation digitale dans l’entreprise
La transformation digitale (TD) est un terme collectif utilisé pour décrire les
changements affectant les activités, processus et compétences de l'entreprise par les
technologies numériques (I-SCOOP, 2015). La TD est une notion relativement nouvelle.
L'une de ses premières utilisations peut être retracée à un livre intitulé «Digital
Transformation: The Essentials of e-Business Leadership» par deux spécialistes de KPMG
(Patel K. et McCarthy MP., 2000). Rédigé parallèlement à l’émergence d’Internet, il est
compréhensible que les auteurs aient mis l’accent sur la manière dont Internet favorisait le
changement des business models existants.

La première définition stricte du terme apparaît dans un ouvrage de Fors et Stolterman


(Fors A. et Stolterman E., 2004), où ils ont décrit la TD comme «des changements que la
technologie numérique entraîne ou influence dans tous les aspects de la vie humaine»; Selon
les auteurs, la TD conduit à «un monde de plus en plus expérimenté avec, à travers et par la
technologie de l'information».

IBM Institute for Business Value (IBM, 2011) a présenté une approche détaillée de
l’évolution de la TD. Ils considèrent la TD comme l'impact et le centre d'intérêt d'Internet et
de la connectivité mondiale. Selon eux, l'impact économique des technologies numériques
avait augmenté entre la fin des années 1990 et les années 2010: de la création de produits
numériques à l'émergence du commerce électronique en passant par la transformation
digitale des business models dirigée principalement par les opportunités de la révolution
mobile, des médias sociaux et du big data. Leur approche suggère que pour qu'une entreprise
réalise la transformation digitale, elle doit repenser à la fois sa proposition de valeur client et
intégrer des capacités numériques dans ses opérations quotidiennes.

L’étude de 2015 du MIT Sloan Management Review (Kane G. et al., 2015) et Deloitte a
été qualifiée de «maturité digitale». Les résultats de l’étude suggèrent que la plus grande
responsabilité réside dans la manière dont les entreprises intègrent les technologies pour
transformer leurs activités plutôt que dans la disponibilité et la distribution de ces
technologies. Les auteurs distinguent les étapes de la maturité digitale par : «précoce», «en
développement» et «mature» par ordre de maturité croissante; ils font aussi remarquer que
l'organisation numérique en pleine maturité ne peut supporter la présence de lacunes en
matière de compétences.

Forrester Consulting a étudié ce qui motive les entreprises dans la TD. À l'instar des
autres, ils ont affirmé que la TD, bien que tendance commune, doit encore être pleinement
réalisé par les entreprises. L'étude indique que la TD comporte trois dimensions:
l'organisation, les processus opérationnels et la technologie. Ils soulignent que l'expérience
client est l'aspect clé des entreprises transformées (Forrester Research Inc., 2015).

Les consultants de McKinsey & Company soulignent une autre caractéristique clé de la
TD: la rupture. Ils suivent comment une technologie potentiellement perturbatrice se

- 14 -
Khanboubi and Boulmakoul

transforme en une tendance émergente et claire à l'échelle de l'industrie et devient finalement


la nouvelle norme, obligeant les acteurs à s'adapter ou à s’écarter. Selon l’article de (Bradley
J. et al. 2016), les plus grands risques pèsent sur les leaders du marché, généralement à la
défensive et qui tardent à réagir à une nouvelle tendance.

3.2 Cas du domaine bancaire


La technologie financière a entraîné des perturbations sans précédent dans l'écosystème
des services financiers. Entre l’émergence des fintechs et le nouveau mode de vie des
consommateurs… la banque traditionnel se retrouve confronter au changement et à la
transformation digitale pour rester compétitive et concurrentiel (Khanboubi F. et Boulmakoul
A., 2018).

Le business model traditionnel d'une banque a été prouvé depuis de nombreuses années.
Néanmoins, la multiplicité des crises cycliques a fini par mettre à genoux les institutions
financières. Désormais, ils se retrouvent face au mur, contraints de se réinventer pour faire
face aux nouveaux défis numériques qui arrivent à toute vitesse (Scardovi C., 2017). Comme
dans tous les secteurs, il est essentiel de créer un business model solide et stable qui
permettra de suivre et de s’adapter à toutes ces nouvelles modifications.

Les travaux de (Sathananthan et al. 2017) démontrent que la conception d’un business
model est essentielle pour mener à bien sa transformation digitale. Lorsque les banques
surfent sur la vague de la digitalisation, le changement peut être perturbé par le grand
nombre de possibilités pouvant être générées par la numérisation et par l’absence d’un
processus de transformation digitale rationalisé. Ainsi, la mise en place d'une stratégie de
transformation digitale DTS reste primordiale. Il s’agit même de l’une des préoccupations
majeures de nombreuses organisations traditionnelles. Néanmoins, la façon dont une telle
stratégie peut être développée reste une question ouverte. Les travaux de (Chanias S. et al.,
2018) détaillent la manière dont un fournisseur de services financiers a formulé et mis en
œuvre une DTS. En se concentrant sur les sous-processus et les stratégies mises en place, il
démontre que la stratégie digitale représente une rupture avec les planifications déjà établies
des systèmes d’information et révèle plutôt de nouvelles stratégies émergentes. En
particulier, une DTS est un processus très dynamique continuellement en train de se
construire et sans fin prévisible.

Le secteur des services financiers est l'un des premiers utilisateurs des technologies clés
associées à la transformation des entreprises et il est actuellement l'un des utilisateurs les plus
intensifs des technologies de l'information et de la communication (TIC). Les travaux de
(V.Scott S., 2017) présentent l’impact de l'adoption des TIC sur la performance du secteur
financier en utilisant un ensemble de données original de SWIFT, l'une des premières
technologies de réseau et probablement la plus largement utilisée dans le domaine bancaire.
Les résultats prouvent que l’adoption du SWIFT est associée de manière positive et
significative à la performance du secteur financier. D’autre part (Li F., 2018) examine
comment les technologies numériques affectent le business model des industries créatives. Il
propose un modèle holistique qui met en valeur l'architecture fonctionnelle sous l'impact de
la digitalisation. Il comprend l'innovation, la commercialisation des produits,
l'infrastructure de production et de distribution et la gestion de la relation clientèle.

- 15 -
Etat de l’art sur la transformation digitale : focus sur le domaine bancaire

Cependant, les changements que la digitalisation peut induire sont plus vastes et profonds et
touchent de nombreux aspects d’une entreprise.

Pour transformer une banque classique en une banque moderne en utilisant les
technologies numériques dans les opérations et services bancaires, le travail de (Sajić et al.,
2018) présente un modèle d'organisation bancaire classique et un autre digital et moderne
dont la transformation est assurée par un ensemble de produits et un système
d'information. Ce dernier est composé principalement de technologies et de systèmes
électroniques mobiles : des ordinateurs, des réseaux informatiques modernes, Internet,
technologies et protocoles de communication sans fil, stockages de données volumineux et
rapides, dispositifs mobiles, bases de données , logiciel d'application pour services bancaires.

Concernant le modèle à adopter dans la transformation digitale, les travaux de


(Bharadwaj A. et al., 2013) décrivent quatre étapes pour définir une business stratégie
numérique: la portée de la business stratégie, l'ampleur de la stratégie commerciale
numérique, la vitesse de la business stratégie et les sources de création de valeur dans cette
stratégie.

D'autre part, le document de (Paulus-Rohmer et al., 2016) a proposé une feuille de route
pour un positionnement stratégique en utilisant le business model approprié et en tenant
compte de l'impact des tendances numériques. Nous commençons par positionner la société
dans l’écosystème, puis nous donnons une position cible en tenant compte de toutes les
tendances numériques. Après avoir réalisé la position stratégique, nous implémentons et
exploitons tous les changements du business model.

FIG. 5 – L'impact des tendances numériques sur le business model bancaire

Enfin, dans de nombreux cas, les banques restent réticentes quant à l’adoption de
nouvelles technologies. Le cas par exemple du cloud (Hon W. et Millard C., 2017) où des
entretiens avec des banques, des fournisseurs du service, des conseillers et des régulateurs
montrent que les idées reçues sur le cloud peuvent bel et bien constituer un obstacle à son
adoption. Malheureusement, les départements informatique, de sécurité, de conformité et
juridique des banques manquent souvent de connaissance sur le fonctionnement du cloud,
son déploiement et de la différence entre ses différents modèles. Par exemple, les personnes

- 16 -
Khanboubi and Boulmakoul

interrogées ont déclaré que certaines banques s'inquiétaient de la perte de contrôle de leurs
données. Cependant, le degré de contrôle sur les données dépendra du type de service cloud
et de la manière dont une banque le déploie. Ainsi, la culture organisationnelle conservatrice
des banques peut ralentir significativement l’adoption des technologies digitales.

4 Conclusion
Lorsque le Web est apparu à la fin des années 90, il était difficile d'imaginer à quel point
Internet changerait radicalement l'écosystème commercial et les habitudes des
consommateurs. En quelques années, les banques, à l'instar d'autres industries, ont vu leur
modèle économique fortement impacté. Être «bousculé» a une vertu essentielle: sortir de sa
zone de confort. Ainsi, les changements mis en place (comme la signature électronique des
documents) étaient inimaginables il y a quelques années. Les banques ont fait beaucoup
d'efforts malgré un environnement économique difficile qui a persisté depuis la chute de
Lehman Brothers en 2007. Elles ont réussi à construire de nouveaux modèles, de nouvelles
offres pour s'adapter aux nouvelles attentes. Mais ils doivent aller plus loin. Les banques ne
doivent pas vivre une simple évolution, mais une révolution.

Chaque banque a désormais l'obligation de se positionner comme partenaire à vie


(événements familiaux, études, projets, création d'entreprise, etc.). Dans cette relation, vous
devez penser "Client" et non "Produit". L'objectif est de fidéliser la clientèle en étant
l'interlocuteur clé à chaque étape de son existence. Le conseiller reprend alors sa place, avec
un rôle accentué d'écoute et de conseil. Ce risque fait partie de l'ADN des banques. Prudent,
ils le sont par nature. Ainsi, en interne, certains départements informatiques sont toujours
attentifs quant aux défis liés au numérique, car ces technologies sont nouvelles et tous les
employés ne sont pas bien formés. Cependant, il est absolument nécessaire qu’ils osent
s’ouvrir au monde numérique pour s’adapter à tous ces changements.

Les banques auront besoin de nouvelles idées pour les aider à transformer leur modèle,
car les Fintechs obligent les acteurs historiques du secteur bancaire à réaliser rapidement leur
changement numérique. La mise en place de nouvelles chaînes d’acquisition, l’amélioration
de la relation client, l’optimisation de la gestion des risques grâce au Big Data ou la mise en
place de nouveaux services innovants resteront au rendez-vous. Les banques devront
également former leur personnel et orienter leur politique RH afin d’attirer les talents qui les
aideront dans la construction de ce nouveau modèle. La banque du futur est en marche. Les
institutions financières réussiront pleinement ce défi si elles savent tirer les leçons du passé,
concrétiser le présent et anticiper l'avenir. À ce titre, nous concevrons dans nos travaux futurs
une feuille de route qui accompagnera les banques dans leur transformation digitale en tenant
compte des différents enjeux digitaux auxquels ils devront faire face.

Références
Bharadwaj A., Sawy O.A., Pavlou P.A., Venkatraman N. (2013). Digital business strategy:
toward a next generation of insights 37, 471–482.

Bouée CE., Schaible S. (2015). Die Digitale Transformation der Industrie. Roland Berger
Strategy Consultans und Bundesverband der Deutschen Industrie e.V., Berlin

- 17 -
Etat de l’art sur la transformation digitale : focus sur le domaine bancaire

Bradley J., Loucks J., Jameson P., O’Connel K.et Barbier J. (2014). Reimagining the Digital
Bank. Cisco. URL: http://www.cisco.com/c/dam/en/us/solutions/collateral/execu-tive-
perspectives/Internet-of-Everything-executive-summary.pdf. (Accessed on 16 September
2018).

Chanias S., D. Meyers M. et Hess T. (2018). Digital transformation strategy making in pre-
digital organizations: The case of a financial services provider. Journal of Strategic
Information Systems.

Dorner K. et Edelman D. (2015) What does digital really mean?


https://www.mckinsey.com/industries/high-tech/our-insights/what-digital-really-means.
Retrieved 11 June 2017 (Accessed on 05 August 2018).

Esser M (2014) Chancen und Herausforderungen durch Digitale Transformation.


http://www.strategy-transformation.com/digitale-transformation-verstehen/. (Accessed on
05 August 2018).

Forrester Research Inc. (2015). Digital Transformation In The Age Of The Customer. URL:
https://www.accenture.com/us-en/insight-digital-transformation-age-customer. (Accessed
on 16 September 2018).

Fors A. et Stolterman E. (2004). Information technology and good life. Information Systems
Research: Relevant Theory and Informed Practice. Springer.

Hon W. et Millard C. (2017). Banking in the cloud: Part 1 – banks’ use of cloud services.
computer law & security review.

Hudson (2016). 5 iconic brands that couldn’t keep up with digital disruption.
https://uk.hudson.com/digital-transformation/transformational-thinking/artmid/68299
/articleid/41/5-iconic-brands-that-couldnt-keep-up-with-digital-disruption (Accessed on
12 September 2018).

I-SCOOP (2015). Digital transformation: online guide to digital business transformation.


URL: http://www.i-scoop.eu/digital-transformation/#Digital_business_transfor-
mation_8211_a_holistic_approach. (Accessed on 12 September 2018).

IBM Institute for Business Value (2011). Digital transformation Creating new business mod-
els where digital meets physical. IBM Global Business Services. URL: http://www-
935.ibm.com/services/us/gbs/thoughtleadership/ibv-digital-transformation.html.
(Accessed on 16 September 2018).

Kane G., Palmer D., Phillips A., Kiron D. et Buckley N. (2015) Strategy, Not Technology,
Drives Digital Transformation. MIT Sloan Management Review and Deloitte University
Press.

- 18 -
Khanboubi and Boulmakoul

Khanboubi F. et Boulmakoul A. (2018). A roadmap to lead risk management in the digital


era. ASD 2018: Big data & Applications 12th edition of the Conference on Advances of
Decisional Systems, At Marrakech Morocco, Volume: ISBN: 978-9920-35-679-4

Li F. (2018) The digital transformation of business models in the creative industries: A


holistic framework and emerging trends. Technovation.

Patel K. et McCarthy MP. (2000). Digital Transformation: The Essentials of e-Business


Leadership. KPMG/McGraw-Hill. 0071364080, 9780071364089.

Paulus-Rohmer D., Schatton H., Bauernhansl T. (2016). Ecosystems, Strategy and Business
Models in the age of Digitization - How the Manufacturing Industry is Going to Change
its Logic. Procedia CIRP 57, 8–13. https://doi.org/10.1016/j.procir.2016.11.003

PwC (2013) Digitale Transformation – der grobte Wandel seit der industriellen Revolution.
PwC, Frankfurt

Sajić M., Bundalo D., Bundalo Z., Pašalić D. (2018). Digital technologies in transformation
of classical retail bank into digital bank. 2017 25th Telecommun. Forum, TELFOR 2017
- Proc. 2017–January, 1–4. https://doi.org/10.1109/TELFOR.2017.8249404

Sathananthan, S., Hoetker, P., Gamrad, D., Katterbach, D., Myrzik, J. (2017). Realizing
digital transformation through a digital business model design process.

Scardovi C. (2017) Digital Transformation in Financial Services. Springer.

Schallmo DR (2014) Vorgehensmodell der Gescha¨ftsmodell-Innovation–bestehende


Ansa¨tze, Phasen, Aktivita¨ten und Ergebnise. In: Kompendium Gescha¨ftsmodell-
Innovation. Springer Fachmedien, Wiesbaden, pp 51–74

Systemic Steering and Governance (2016). https://systemic2016.wordpress.com/adaptation-


transformation-and-innovation/.(Accessed on 12 September 2018).

V.Scott S., Van Reenen J. et Zachariadis M. (2017). The long-term effect of digital
innovation on bank performance: Anempirical study of SWIFT adoption in financial
services. Research policy.

- 19 -
Bird swarm algorithm for solving the long-term car pooling
problem
Zakaria Bendaoud*, Khadidja Yachba**
Sidahmed Bennacef***, Naima Belayachi****

* Department of computer science, GeCoDe laboratry, University Dr.Tahar Moulay. Saida,


Algeria
Bendaoud.zakaria@outlook.com

** Department of computer science, University center of Relizane, LIO Laboratry, Algeria


Yachbakhadidja@yahoo.fr

*** Department of computer science, University Dr.Tahar Moulay, Saida, Algeria


Bennacefsidahmed@gmail.com

**** Ecole Normale Superieure (ENS), LIO Laboratry, Oran, Algeria


Naimabelayachi2@gmail.com

Abstract. Carpooling consists in sharing personal vehicles to make a joint trip,


in order to share the costs of fuel, toll (soon in Algeria) or simply to
exchange. The purpose of this work is to benefit from web 2.0 tools in order
to adopt the ideal strategy for carpooling we treated the family of long-term
carpool, the problem is to find the best groups between a set of individuals
who make the same trip every day and in a regular way. in order to reach our
goal, we adapted a bio-inspired meta-heuristics, this technique allowed us to
have very satisfying results.

1. Introduction
For many countries, transportation is an important economic force. In many countries, the
public transportation sector is considered under control, multimodal information systems
have allowed better time management and better flow monitoring. These latest advances
have led researchers to focus on new challenges such as carpooling. Carpooling is the use of
a vehicle by a group of people. The idea is that if a person wants to move from a starting
point to an arrival point and has free places in his vehicle, he can take other people with him
for financial compensation or not. Carpooling is therefore the sharing of a vehicle between
several travelers (figure1).
Carpooling offers several advantages such as (JunGuan et al. 2017):
- Reducing the number of vehicles on the roads in order to smooth road traffic.
- The division of transportation costs (fuel and toll charges) between several people.
- Reduce pollution by minimizing the amount of CO2 emitted.
- An opportunity for sharing, exchange and new knowledge.
Carpooling can be divided into two groups: the so-called occasional car pool and the
long-term car pool (LTCPP). Casual carpooling is the sharing of a vehicle between several

- 21 -
Carpooling, Bio-inspired, BSA, LTCPP, Meta-heuristic

people for tourism purposes or occasional travel. This type of carpooling is accessible via
websites or mobile applications. The person who own the car emits an announcement of a
departure from point A to point B, he sets the departure time, an arrival time estimative, a
meeting point, his preferences and the cost per person. This type of platform is composed by
a search engine, a person who wants to move through carpool will consult this platform and
decide on the best option between all the ads that concern him (Cheng-de, 2017).
Long-term carpooling is the sharing of one's vehicle in turn. This type of carpooling has
been proposed in order to reduce traffic in areas with high traffic concentration. The idea is
to propose to a number of people who often go to the same place with each one his own
vehicle, to group and to use his vehicle in turn. A person who is part of a group of four, will
have to use his vehicle one day in four. Indeed, if a person uses his vehicle, it recovers the
other three before heading to the final destination
In this work, we are interested in long-term carpooling. The challenge is to find the best
groups while respecting the different constraints.
The rest of the paper is organized as the following: section 2 provides an overview of the
research area. Section 3 details the problematic. Section 4 and section 5 discuss the methods
we have used to develop our system. In section 6 we present the results obtained following
use of our approach. We finish with a conclusion, including future possibilities.

FIG. 1 - Comparison between classical transportation mode (on the right) and long-term
carpooling mode (on the left)

2. Related Work
The carpooling has existed for more than 60 years. Nevertheless, its use was not so
frequent because of the different social facts that the world has known. Financial crises and
oil crises have greatly affected the use of carpooling because they have had a negative impact
on the car industry. The explosion of the internet and web technologies made it possible to
see the first SUccessfull carpool systems. Academia was the first to offer such systems
(Yuhan, 2012).
Seattle bellevue smart traveler was one of the first projects in the field.The goal of the
study was to design and test an information system that would help decrease single-
occupancy vehicle (SOV) travel to a downtown employment center by making alternative
commuting options more attractive and easier to access. The project team accomplished this
goal by developing, implementing, demonstrating, and testing a traveler information center
(TIC) prototype in downtown Bellevue, Washington (Mark et al. 1999). Seattle Smart
Traveler (SST) is an application of World Wide Web (WWW) technology to test the concept
of automated dynamic rideshare matching. In SST, the rideshare clientele interact with the

- 22 -
Z. Bendaoud et al.

rideshare system using only WWW pages. SST collects spatial and temporal trip information
using a series of WWW pages, performs a match using structured query language (SQL)
specifications to a database engine, and supports both the standard phone-based contact
methodology as well as two new, unique e-mail-based contact methodologies. SST
demonstrates that there is a user population that can be reached using Internet technologies
for immediate/dynamic ridematching that is not reached by traditional ridematch programs
(Dailey et al. 1999)
(Gonçalo 2008) proposed A structured simulation-based methodology for carpooling
viability assessment. The idea starts from the fact that if there are no compatible trip
characteristics, namely origin and destination coordinates and time schedules it is not
possible to maintain a stable system of carpooling. The question that arises is to what extent
is this factor important for carpooling viability. The proposed method to find this is to
generate simulated trip attributes based on survey data and analyzing their matching
possibilities allowing determining an upper-limit for the probability of a random participant
obtaining a partner for his everyday commuting trip. This will vary accordingly to urban
distribution and density as well as trip characteristics from area to area
In (Yan et al. 2011), authors employ a network flow technique to systematically develop
a long-term many-to-many car pooling model. The model is formulated as a special integer
multiple-commodity network flow problem. A Lagrangian relaxation-based algorithm is also
developed to solve the model. The performance of the heuristic algorithm is evaluated by
carrying out a case study using real data and suitable assumptions. The test results confirm
the usefulness of the model and the heuristic algorithm and that they could be useful in
practice
(Yuhan et al. 2012b) presents a multi-agent based self-adaptive genetic algorithm to
solve long-term car pooling problem. The system is a combination of multi-agent system
and genetic paradigm, and guided by a hyper-heuristic dynamically adapted by a collective
learning process. The aim of our research is to solve the long-term car pooling problem
efficiently with limited exploration of the search space. The proposed algorithm is tested
using large scale instance data sets. The computational results show that the proposed
method is competitive with other known approaches for solving long-term car pooling
problem.
(Yuhan et al. 2012a) describes a clustering ant colony algorithm for solving the long-
term car pooling problem. Computational results are given to show the superiority of the
authors' approach compared with other metaheuristics.
The aim of the research proposed in (Iftikhar et al. 2015) is to generalize the concept of
communication, negotiation and coordination in a multiple trip negotiation model by taking
the possibility of flexible activity scheduling into account. It also focuses on the setup of the
simulation framework and the network of the carpooling candidates. The agents can
communicate with the individuals sharing the same home and work locations within a small
group by taking SEC (vehicle and driving-license ownership) into account. Furthermore they
negotiate about trips (home-to-work and work-to-home) timings in order to adapt their daily
schedule. A daily schedule for each individual is considered. They consist of different
activities, one of them must be (flexible) work activity.
During bibliographic research, we did not identify many projects recommending long-
term carpooling system. The majority of papers deals with daily (occasional) carpooling
problem. This work addresses a bio-inspired algorithm (Kumar 2016) to treat the long-term
carpooling problem.

- 23 -
Carpooling, Bio-inspired, BSA, LTCPP, Meta-heuristic

3. Formalism Problem
In this paper, we deal with the long-term carpool problematic, the goal is to find the best
groups from a set of travelers. A group is made up from a subset of travelers who travel
together, each using their car in their turn, in order to enjoy the benefits of carpooling. Be a
group of k traveler, | k | is the size of this group. Each group user, on different days, will use
his car to pick up the remaining (k-1) members of the group and then drive to the common
destination.
The LTCPP’s problem can be modeled by a directed graph G = (U ∪ {0}, A), where U is
the set of the travelers (users), A is the set of arcs. Each user u ∈ U is associated with a house
and node 0 represents the destination, respectively. A is a set of directed weighted arcs where
each arc (i, j) ∈ A is associated with a positive displacement cost of i to j (Yuhan, 2012).
Each user is represented by a node in a graph, a node corresponds to the coordinates of
the house (starting point of the traveler). If a traveler uses his vehicle to retrieve other
members of the group, he is considered a "server". If a traveler is part of a group and does
not use his vehicle, he is considered a "customer".
Once the groups are formed, when a traveler uses his car, he starts a Hamiltonian path
(Alain et al. 2012) from the node corresponding to his home, to the other nodes
corresponding to the homes of the other members of his group. This exactly once and ends at
the common destination. The cost of a group is defined by the equation (equ1), it is the sum
of the costs of passage between a driver and passengers divided by the number of travelers, if
a group contains only one driver, it is subject to a penalty (Yuhan, 2012).

cost (k) = (equ 1)

• cost (ham (i, k)): the cost of the Hamiltonian path between the departure point of the
driver i and the other members of group k, this in turn:
• costi0: The cost of the route between the departure point of a driver i and the final
destination 0
• pi: corresponds to a penalty if a user travels alone, if the group contains only one
traveler (k = 1)

Equation 1 allows to calculate the cost of a single group, this cost is calculated by the
sum of the costs between server (driver) and customers (carpoolers) in turn of role.
Nevertheless, the total cost of a LTCPP solution is the sum of the costs of all groups as
shown in equation 2 (Yuhan, 2012).

cost (K) = (equ 2)

- 24 -
Z. Bendaoud et al.

• K: all of the cost-groups


• (k): cost of a single group

The LTCPP is a multi-objective problem, which aims to minimize the amount of cars and the
total travel cost of all users. It is placed in the family of problems NP-complete (Yuhan,
2012).

• xijhk : Binary variable equals to 1 if arc(i,j) is traveled by a server h of a pool k


• yik : Binary variable equals to 1 if user i is in pool k
• costij : Positive value denoting the travel cost between users i and j
• pi : Positive value indicating the penalty for user i when he/she travels alone
• ξi: Binary variable equals to 1 if user i is not pooled with any other user
• K: Set of all pools
• U: Set of all users
• A: Set of all arcs

In order to set up a long-term carpool problem, certain constraints must be respected:


• The time of arrival at the final destination must be respected: when a server retrieves
the other members of the groups, the arrival time at the final destination must be
less than the hours required by him and the other members.-
• The departure time to the final destination must be respected: when a user acts as a
customer, a time declared as "at the earliest Is assigned to it, the server must take
into consideration this time. This constraint also applies to the server
• A penalty is applied for a pool that contains only one traveler, this penalty is
significantly more significant than when a user travels with other members.
• The size of a pool is the size of the smallest vehicle.
• Each user requires maximum driving time: when a user acts as a server, he has a
maximum driving time. The latter must be less than the cumulative time of passage
to the other members of the group and which corresponds to the time of the
hamiltonian path.

4. Bird Swarm Algorithm (BSA)


Birds have three main types of behavior: feeding behavior, vigilance behavior and flight
behavior. They can feed themselves and escape from predators through social interactions to
achieve a high chance of survival. By modeling these social behaviors, social interactions and
related swarm intelligence, five simplified rules are formulated in BSA (Zhang et al. 2017)
(Xian-Bing et al. 2015).

- 25 -
Carpooling, Bio-inspired, BSA, LTCPP, Meta-heuristic

The aforementioned social behaviours can be simplified by some idealised rules as


follows.:
- Each bird can switch between the vigilance behaviour and foraging behaviour.
Whether bird forages or keeps vigilance is modelled as a stochastic decision (Rule 1).
- While foraging, each bird can promptly record and update its previous best experience
and the swarms’ previous best experience about food patch. This experience can also
be used to search for food. Social information is shared instantaneously among the
whole swarm (Rule 2).
- When keeping vigilance, each bird would try to move towards the centre of the
swarm. This behaviour can be affected by the interference induced by the
competition among swarm. The birds with the higher reserves would be more likely
to lie closer to the centre of the swarm than those with the lower reserves (Rule 3).
- Birds would periodically fly to another site. When flying to another site, birds may
often switch between producing and scrounging. The bird with the highest reserves
would be a producer, while the one with the lowest reserves would be a scrounger.
Other birds with reserves between the highest and lowest reserves would randomly
choose to be producer and scrounger (Rule 4).
- Producers actively search for food. Scroungers would randomly follow a producer to
search for food (Rule 5).

5. BSA For LTCPP


Bird swarm algorithm is a bio-inspired algorithm. Each biological entity corresponds to a
real entity in our problem. The following table presents the juxtaposition of the biological
model on the problem of long-term carpooling.

Articial view Carpooling view

Birds The individuals

Flying Representation of
individuals before groups
Birds producer Individuals select randomly
as leaders (group leader)
Scroungers birds Individuals who have not
been selected as leaders
(producers)
Scrounger: search for food Search for the closest
by following the producer individuals and select as a
group leader
Foraging: the foraging Individuals form groups
behavior
Keep vigilance Validate the group (final
group)
Forage for food Disassemble the group
CA The number of requests for

- 26 -
Z. Bendaoud et al.

access to the file

TAB 1 - Comparison beween the long-term carpooling vue and the articial view of bird
swarm algorithm
As afore mentioned, we adapted the bio-inspired BSA meta-heuristics to resolve the
problem presented above. In our case, birds represent persons. The BSA algorithm, adapted
to our study (long-term carpooling problem) is presented below:

BSA Algorithm for LTCPP :


BEGIN
C = group capacity
N : the number of individuals N
K the maximum capacity of a group
Initialize s = 0, s the result of objective function
Initialize f = 0, the cost of the group
p : penalty of a group
Randomly choose N / K individuals as group leader
While (C < K ) DO
-Calculate the Euclidean distance between individuals and group
leaders
- Assign each individual to the group of the closest leader
End While.
- Read T1-Tn : the travel time from the individual 1 until destination, from the point of
departure to arrival at destination.
- Read Tmax: minimum time to be respected within the same group
if (T1-Tn < Tmax )
validate le groupe
f = f +p,
else
disassemble the group and repeat the process
End if
s = f/|K|.
END

6. Simulations and Results


To validate out approach, we used the benchmark that originally came from the Pickup
and delivery Problems with Time Windows (PDPTW) by (Haibing 2003) which is a similar
problem to our problem. The benchmark consists of 9 attributes, the first attribute indicates
the person's ID; the second attribute indicates its position in the axis of (X) and the third
attribute in the axis of (Y), the fourth is not used for our problem the fifth and the sixth
indicate respectively the starting time and arrival of each individual the first line of our
benchmark provides us with information about the destination. The following tables show
the results obtained from the proposed approach for 100 individuals.

- 27 -
Carpooling, Bio-inspired, BSA, LTCPP, Meta-heuristic

Inst Size Best Result Average Iterations Number


c101 100 1491.35 1558,12 30
c102 100 1411.01 1483,10 30
c103 100 1433.06 1501,23 30
c104 100 1470.99 1538,54 30
c105 100 1495.73 1551,76 30
c106 100 1496.71 1548,14 30

TAB 2 - Total travel costs obtained by our approach in different instances

To situate our approach with other literature approaches, our experimental results were
compared to three other ones to solving the LTCPP problem, namely: (ANTS) (Yuhan et al.
2012a), the Simulation Based Approach (SB) (Gonçalo 2008) and Guided Genetic
Algorithm (GGA) (Yuhan et al. 2012b). The results are given in the following graphs.
Comparisons were realized according to 3 instances.

FIG. 2 - Comparison between our approach and others approaches for instance (C101)

- 28 -
Z. Bendaoud et al.

FIG. 3 - Comparison between our approach and others approaches for instance (C102)

FIG. 4 - Comparison between our approach and others approaches for instance (C103)

Size BSA GGA ANTS SB (Gonçalo


Int (Yuhan (Yuhan 2008)
et al. et al.
2012b) 2012a)
C101 100 1491.35 1585.5 1585.5 1647.4
C102 100 1411.01 1701.9 1706.8 1717.5
C103 100 1433.06 1513.7 1512.6 1532.2

TAB 3 - Comparison between costs according to different approaches

The red bars show the result for simulation based approach. The green bars show the
result of the ants approach. The blue bars show the results of guided genetic algorithm. The

- 29 -
Carpooling, Bio-inspired, BSA, LTCPP, Meta-heuristic

results of our approach are presented in yellow bars. From graphs, it is clear that the coast in
our approach is less than others. It could be explained by the fact that our approach often
finds groups that are equal to the maximal capacity of the car. Moreover, individuals who
form a group could be at different locations. Sometimes, individuals in different locations
(far from each others) could form group that offer better results. Figure 5 shows the
disposition of differents individuals according to their locations. individuals in the same
colors represent a group.

FIG. 5 - Arrangement of individuals according to their coordinates

7. Conclusion
In this paper, we presented a solution for solving the problem of long-term carpooling.
The aim of this project is to promote long-term carpooling in Algeria in order to benefit
people, in one hand providing financial advantages, and in other hand reducing co2. In order
to reach our goal, we have adapted the bird swarm algorithm, and the results obtained clearly
show an improvement for a group of 100 individuals. As a perspective of our work, we want
to integrate this platform into a multimodal system to facilitate passenger travel.

Réferences
Alain. B, Alain.F, François. H (2012). ‘’ Elements de théorie des graphes’’. Collection IRIS. Springer. 2012
Gonçalo. C, Jose. V (2008) ‘’ Structured simulation- based methodology for carpooling viability assessment’’,
Transportation Research Board 87th Annual Meeting, Washington DC, USA. 2008
Dailey. D.J, Loseff. D, Meyers. D.(1999) "Seattle smart traveler: dynamic ridematching on the World Wide Web",
Transportation Research Part C: Emerging Technologies, Volume 7, Issue 1. pp17-32, 1999.
Yuhan. G, (2012) “Metaheuristics for Solving Large Size Long-term Car Pooling Problem and an Extension”.
Doctorate Thesis, University of Artois, France. 202p. 2012.
Yuhan. G, Gilles. G, Tiente. H, (2012a) ‘’A clustering ant colony algorithm for the long-term car pooling problem’’.
International Journal of Swarm Intelligence. IGI Global, 2012.
Yuhan. G, Gilles. G, Tiente. H, (2012b) “Multi-agent based self-adaptive genetic algorithm for the long-term car
pooling problem”. International Journal of Mathematical Modeling and Algorithms. Springer, Vol 12(1). 2012

- 30 -
Z. Bendaoud et al.

Iftikhar. H, Luk. K, Stephane. G, Yasar. A, Tom. B, Davy. J, Geert. W (2015) “Agent-based Simulation Model for
Long-term Carpooling: Effect of Activity Planning Constraints”, Procedia Computer Science. Vol 52, pp412-
419. 2015
Kumar Kar. H, (2016) “Bio inspired computing – A review of algorithms and scope of applications”, Expert
systems with applications. Vol 59. pp20-32. 2016
Mark. H, Jan. S, Cathy. B , Michalak. M, Brian. G, Margaret. G, (1995) "Bellevue Smart Traveler: Design,
Demonstration, and Assessment", Washington State Transportation Center (TRAC). 255p, 1995.
Haibing. L, Andrew. L, (2003) “A metaheuristic for the pickup and delivery problem with time windows”.
International Journal on Artificial Intelligence Tools, Vol 12(2), 173-186. 2003
Zhang. Z, Bao. Q, Fan. W, Cui. K, Xu. H, Du. Y, (2017)‘’ An Improved Particle Filter Based on Bird Swarm
Algorithm’’, 10th International Symposium on Computational Intelligence and Design (ISCID). IEEE. China.
2017
Xian-Bing. M, G. X.Z, Lihua. L, Hengzhen. Z, (2015) ‘’A new bio-inspired optimisation algorithm: Bird Swarm
Algorithm’’, Journal of Experimental & Theoretical Artificial Intelligence. Taylor & Francis. 2015
JunGuan. N, Mawell. C, Alasdair. M, (2017) “What encourages people to carpool? An evaluation of factors with
meta-analysis”, Transportation. Vol 44(2) pp423-447. 2017
Yan. S, Chen. C Lin. Y, (2011) ‘’ A Model With a Heuristic Algorithm for Solving the Long-Term Many-to-Many
Car Pooling Problem’’, IEEE Intelligent Transportation Systems Society . pp1362-1373, 2011
Cheng-de. Z Geng. D, Wu. B, Jun. G, Yi-peng. S, Sheng. W, Yu-xiao. Z, (2017) ‘’Carpool Algorithm Based On
Similarity Measure Of Partition Trajectory Line”. Joint International Conference on Materials Science and
Engineering Application (ICMSEA 2017) andInternational

- 31 -
MERRY algorithm and Water-Filling Optimization for MC-CDMA
System

F. Bouasria (1), R.Berber(2), S. Yousfi(2) , A.Mekkaoui(2), and F.Belhorma(2)

(1)
Laboratory of Knowledge Management and Complex Data,
University of Saïda (20000), Algeria
(2)
University Dr. Moulay Tahar of SAIDA 20000, Algeria

E-mail: valencfaty@yahoo.fr

Abstract

In this paper we develop associate the MERRY algorithm with the Water-Filling algorithm to to improve
the performance of the MC-CDMA system over a multiple path fading channel.
Our objective focuses on the development of digital transmission techniques in order to solve the problem
of Inter-Symbol Interference (ISI) due to multiple paths and the improvement of system performance
Multi-Carrier Code Division Multiple Access (MC-CDMA), which combines multi-carrier modulation and
multiple Code Division Multiple Access (CDMA). First, to eliminate the ISI completely, a guard time is
inserted in each OFDM(Orthogonal Frequency Division Multiplexing) symbol. This guard time is always
chosen to be larger than the maximum delay spread due to the channel.Second, , we study the MERRY
algorithm (Multicarrier Equalization by Restoration of Redundancy) that uses a technique of shortening the
channel called TEQ (Time domain equalizer). This technique is presented to reduce the size of the channel
to that of the Prefix (Cyclic Prefix (CP)) and minimize ISI. Then, we apply a power allocation method
(Waterfilling technique) to allocate appropriate power to each user to improve the system's capacity
performance with an overall power

constraint.Finally, Numerical simulations by using the MERRY algorithm are presented to show that
combining Water Filling with TEQ technique allows to reduce the ISI for MC-CDMA systems.

Keywords: Water-filling algorithm, MC-CDMA, TEQ Equaliser, MERRY algorithm.

1 Introduction
The Wireless communication is considered to be the fastest growing segment of the communication field.
Cellular systems have experienced faster growth over the last decade and as a result there are currently two
billion users around the world.Due to the advantages of wireless communications, various leading
telephone service providers in the world introduced radio telephone. The increasing number of subscribers
and the need for the delivery of new services with high quality induced the emergence of successive
cellular systems that can be classified in to various generations.Recently, wideband CDMA systems have
been developed as a 3G contender to increase the data rates for the user. However, the large frequency
- 33 -
bandwidth of such high-speed links makes them susceptible to Inter-Symbol Interference (ISI). The CDMA
and OFDM are independently are not in a position to meet this requirements. Multi Carrier Code Divisible

Fig.1: TEQ Equalizer for MC-CDMA systems with an adaptive algorithm

Multiple Access(MC-CDMA) scheme has the capability of simultaneously exploiting the advantages of
CDMA and OFDM, a multi-carrier modulation scheme.MC-CDMA system is considered to be one of the
potential candidates considered potential candidates to fulfil the requirements of next generation (4G)[1]
high-speed wireless multimedia communications systems. MC-CDMA systems transmit data over several
orthogonal subcarriers. A reduction in interference will obviously increase the system capacity.To improve
the performance of the MC-CDMA system we try to choose a better equalizer, or better technique to
minimize or suppress Inter-Symbol Interference, such as inserting the cyclic prefix, shortening of the
channel. In our work we combine the algorithm of the Shortening of the Channel with the technique of the
Water filling. The latter will upgrade the amplitude of the signal each time it is attenuated.

This paper is organized as follows. Section II discusses the system model and description of
MERRY(Multicarrier Equalization by Restoration of RedundancY)algorithm. Section III presents The
Water-Filling (WF) optimization. Section IV assesses a comparison between the proposed solution applied
on MC-CDMA (WF. MC-CDMA) with TEQ equalizer and the classical MC-CDMA using a TEQby means
of numerical simulations. Finally, Section V points out some conclusions.

2 System Model and description of MERRY algorithm


This section derives the basic MERRY. What come later will discuss various generalizations and
performance-enhancing extensions. At the beginning, consider a MC-CDMA system in Figure 1.

After the CP insertion, the last ν samples are identical to first ν samples in the kth symbol[8, 10], i.e.:

x (Mn+ i) = x (Mn + i + N) i {1,2,…,v} et n=0,1,… (1)

The symbol period is M = N + v and n is the symbol index. To simplify the notation, henceforth we assume
n=0 (without loss of generality). The received data r is obtained from x by

rk(i)= (2)

- 34 -
and the equalizer data y is similarly obtained from r by

yk(i)= (3)

whereT is the length of the equalizer w. The ombined channel is denoted by

c= h*w,

Figure 2 shows an example with N = 8, v= 2, and M = N + v = 10[11].Consider this example. The


broadcasted samples 2 and 10 are the same. But, at the receiver, the interfering samples earlier than sample
2 are not the whole identical to their correspondences before sample 10. If h(2), h(3) and h(4) were zero,
then r(2) = r(10). If we try to force r(2) = r(10), we may force h(2)= h(3)= h(4)= 0, forcing the channel
selected the same like the CP. The location of the window of v non-zero taps can be varied by comparing
r(3) to r(11), or r(4) to r(12), etc. In general, if the channel length Lh+1 ≤v, in that case the previous sample
inside the CP must look like the previous sample inside the symbol. Unit cost function that reproduce:

JMERRY(δ) = E δ (4)

Where δis the symbol synchronization parameter, which represents the desired delay of the channel–TEQ
combination.

Fig.2: Illustration of the change in the ISI at the end of the received symbol and at the received CP [2].

The MERRY algorithm [2, 10], performs a stochastic gradient descent of equation (4), with a constraint to
avoid the trivial solution w=0. The MERRY algorithm is:

- 35 -
(5)

Where r(n)=[r(n), r(n-1), …,r(n-Lw)]T, (*) denotes complex conjugation, and µis the TEQ adaptation step
size, it’s taken at 0,75.

3 Waterfilling Optimization
Water-filling algorithm examines per-tone SNR and result in per-tone number of bits and energy levels that
should be optimally used.

To maximize the data rate, R = b/T, for a set of parallel subchannels when the symbol rate 1/T is fixed,
requires maximization of the achievable over b under a given total input energy and a target
probability of error. Specifically, the number of bits allocated to the nth subchannel is

bn=log2(1+ ) (6)

Wheregn= represents the subchannel signal-to-noise ratio when the transmitter applies a unit energy to
that subchannel. The ratiogn is a fixed function of the channel, but εn , which denotes the 2-D subsymbol
energy allotted to the nthsubchannel, can be optimized to maximized b, subject to a total transmit energy
constraint of

(7)

Since log(1+x) is a strictly increasing function of x, the total energy constraint of equation (7) will be
binding, i.e., equality is met. Using Lagrange multipliers, the cost function becomes

 ε g 
1

ln 2 n
ln 1 + n n  + λ
 Γ  ε x
N
(
− ∑n=1ε n ) (8)
 
differentiating with respect to n produces

- 36 -
1 λΓ
= (9)
 Γ  g
ln 2 ε n + n
 g n 

Thus, the aggregate bit rate in b is maximized when the optimum subchannel transmit energies satisfy

εn + (10)

andK is chosen such that the total energy constraint given by equation (7) is met.

Fig.3 :Waterfilling algorithm

4 Simulation Results
We perform numerical simulations of Inter Symbol Interference (ISI). The evolution of the ISI as a
function of the number of iterations allows us to know how to evaluate and compare the performances of
the systems in terms of their speed of convergence. The ISI is obtained by varying the number of iterations
(the number of symbols) that is equal to 1000. Figure 4 shows a plot of the ISI vs. Number of iteration. It
shows simulation results using Water-filling a standard ADSL test channel. The FFT size was 512, the CP
length was 32, the TEQ had 16 taps,and signal to noise rapport was 40 dB.Figure 4 shows that Water-filling
can converge rapidly provide a perfect result for MC-CDMA systems which combines multi-carrier
modulation (OFDM) and Multiple Code Division Multiple Access (CDMA).

- 37 -
Fig.4 : Performance of MC-CDMA system in term of ISI, using the water-filling

5 Conclusion
In this article, we introduced a water-filling solution technique for MC-CDMA system.We proved that the
proposed method applied to MC-CDMA systems leads to the desired optimum energy distribution because
of the performances of this transmission system and the solution used. Simulation results and comparison
with and without water-filling algorithms confirm the effectiveness of the channel MC-CDMA method.
The water-filling solution is unique because the rate function being maximized is concave. Therefore, there
is a unique optimum energy distribution and a corresponding rate distribution among the sub-channels with
multichannel or multicarrier modulation.

References
[1] Suresh, Mahadevan, Power Control for Mc-Cdma System with Predicted Csi Using Water Filling
Algorithm, IOSR Journal of Electronics and Communication Engineering (IOSR-JECE) e-ISSN: 2278-
2834,p- ISSN: 2278-8735.Volume 9, Issue 5, Ver. 1 (Sep - Oct. 2014), PP 24-30 www.iosrjournals.org

[2] R. K. Martin, C. R. Johnson, M. Ding and B. L. Evans, (2003) Infinite Length Results for channel
Shortening Equalizers, IV IEEE Signal Proce-ssing Workshop on Signal Processing Advan-ce in Wireless
Communication (SPAWC 2003) June 15-18.

[3] J. A. C. Bingham, (1990) Multi-carrier Modulation for Data Transmission: An Idea Whose Time Has
Come, IEEE Commun. Mag, vol. 28, No. 5, pp.5-14.

[4] N. Yee, J-P.Linnartz and G. Fettweis, (1993) Multi-Carrier CDMA in Indoor Wireless Radio Networks,
"Proc. of IEEE PIMRC 93, pp.109-113, Yokohama, Japan.

[5] P. J. W. Melsa, R. C. Younce, and C. E. Rohrs, (1996) Impulse Response Shortening for Discrete
Multitone Transceivers, IEEE Trans. on Comm., vol. 44, pp. 1662-1672.

[6] G. Arslan, B. L. Evans, and S. Kiaei, (2001) Equali-zation for Discrete Multitone Receivers To
Maximize Bit Rate, IEEE Trans. on Signal Processing, vol. 49, no. 12, pp. 3123-3135.

- 38 -
[7] B. Farhang, Boroujeny and M. Ding, (2001) Design Methods for Time-Domain Equalizers in DMT
Transceivers, IEEE Trans on Comm., vol. 49, no. 3, pp. 554-562.

[8] R. K. Martin, J. Balakrishnan, W. A. Sethares, and C. R. Johnson, Jr., (2002) Blind, Adaptive TEQ
Channel Shortening for Multicarrier Systems, IEEE Signal Processing Letters, vol. 9, no. 11, pp. 341-343.

[9] J. Wu, G. Arslan, and B. L. Evans, (2000) Efficient Matrix Multiplication Methods to Implement a
Near Optimum Channel Shorte-ning Method for Discrete Multitone Trans-ceivers, in Proc. IEEE Asilomar
Conf. on Signals, Systems, and Computers, Pacific Grove, CA, vol. 1, pp. 152-157.

[10] P. J. W. Melsa, R. C. Younce, and C. E. Rohrs, (1996) Impulse Response Shortening for Discrete
Multitone Transceivers, IEEE Trans. on Com., vol. 44, pp. 1662-1672.

[11] Samir AbdElghafar, Salaheldin M. Diab, Bassiouny M. Sallam, Moawad I. Dessouky , El-Sayed M.
El-Rabaie, Fathi E. Abd El-Samie, Multi-carrier Equalization by Restoration of RedundancY (MERRY) for
Adaptive Channel Shortening in Multi-carrier Systems , International Journal of Network Security & Its
Applications (IJNSA), Vol.5, No.6, November 2013.

[12] G. Arslan, M. Ding, B. Lu, Z. Shen, and B. L. Evans, (2009)TEQ design toolbox, The University of
Texas at Austin, available at http://www.ece.utexas.edu/~bevans/projects/adsl/ dmtteq/dmtteq.html
[accessed 2009].

[13] L. Yang, C.G. Kang, (2006) Desing of Novel Time-Domain Equalizer (TEQ) for OFDM System,
IEICE TRANS; Commun, Vol. E89-B, N°.10.

[14] Olivier. Rioul, (2006) Corps Finis, Version 2. à (1996 -2006), p 27-34.

[15] R. K. Martin, M. Ding, B. L. Evans and C. R. Johnson, (2003) Efficient Channel Shortening Equa-
lizer Design, EURASIP Journal on Applied Signal Processing: 13, 1279-1290.

[16] Milos Milosevic, (2003) Maximizing Data Rate of Discrete Multitone Systems using Time Dom-ain
Equalization Design, Phd Thesis, to the Faculty of the Graduate School of The Univ-ersity of Texas at
Austin.

[17] Henrik Schulze and Christian Luders, (2005) Theory and Applications of OFDM and CDMA,
Wideband Wireless Communications, John Wiley & Sons Ltd, The Atrium, Southern Gate, Chichester,
West Sussex PO19 8SQ, England.

[18] Ye (Geoffrey) Li and Gordon L. stuber (Eds), (2006) Orthogonal Frequency Division Multi-plexing
for Wireless Communications, Signals and Communication Technology, Library of Congress Control
Number: 2005935341, Sp-ringer Science & Business Media, Inc.

- 39 -
On the exploitation of Process mining and Complex event
processing in maritime logistics: RoRo terminals

Mouna Amrou Mhand∗ , Azedine Boulmakoul∗∗


Hassan Badir ∗

SDET, National School of Applied Sciences, ENSA,
Abdelmalek Essaadi University, Tangier, 90 000, Morocco
amroumouna@gmail.com
badir.hassan @uae.ac.ma
∗∗
LIM, Faculty of Science and Technology of Mohammedia
University Hassan II Casablanca, Morocco
azedine.boulmakoul@gmail.com

Summary. Seaborne trade is of prime importance in the world trade. It is tied


into nearly all international supply chains. However, port logistics encounter
planning problems at strategic, tactical, and operational levels. And this is lar-
gely attributable to the fact that it has not fully garnered the potential benefits
to be acquired from big data analytics while the constantly growing volume of
event data generated is erupting. Process mining appears as a recent branch of
Big Data Mining and a novel technique of Big data analytics. It exploit event logs
to discovering real process models. In this paper, we advocate the usefulness and
the utility of process mining in accordance with complex processing for automa-
ting logistics business processes and managing and governing seaport logistics
particulary RoRo terminals.

1 Introduction
Seaborne trade forms nearly 80% of the world trading activities and is broadly based on
seaport transportation, the most crucial components of the economy of a country. Furthermore,
RORO ( Roll on/ Roll off) transport is generally elected for short sea shipping. It is considered
an essential constituent of maritime logistics. It is fast and practical for intermodal transport.

Neverthless, RoRo terminals encounter large scale planning problems at both the strategic
and operational level. Moreover, managers believe that they have a transparent vision of the
involved although they lack transparency on what is really happening in the real world. Hence,
process analysis highly fits to empower processes improvement.
Process mining is a propitious approach to identify value from event data and offer sets of
means to produce fact-based insights on these processes. While complex event processing
aims at ensuring dynamic adaptation.

- 41 -
Process mining and complex event processing in seaport logistics: RoRo terminals

This article investigates how process mining combined to complex event processing has
the potential to create a significant impact for seaport logistics particularly RoRo terminals.

The paper is organized as follows : Section 2 higghlights the motivation of this work.
Section3 briefly defines process mining and complex event processing. Section 4 brings in
RoRo terminals, its subsystems and entails the logistics processes. Section 5 is devoted to
related work. Section 6 details our contribution. Section 7 concludes and suggests future works.

2 Motivation
RORO terminals are ajusted to a set of logistics processes bringing about an enormous vo-
lume of event logs deriving from diverse sources and arranged in different structures. Hence,
this Big Data has massive business benefits for seaport industry, in terms of increasing the ca-
pability of performance monitoring, improving efficiencies and business processes. Moreover,
our main objective is to offer a reliable decision support for logisticians and experts which is
when most of the problems generally occur. Therefore, the global performance of the port will
be gained.

3 Process Mining and Complex event processing


The aim of process mining is to discover the new processes, enhance and monitor existing
processes based on information contained in audit trails/ logs. It extracts meaningful informa-
tion and knowledge from event logs containing actual business process information ((van der
Aalst et al., 2007), (van der Aalst et Vanthienen, 2011), (Van der Aalst et al., 2004), (Van
Der Aalst, 2012)). Furthermore, by applying process mining techniques, hidden information
can be discovered such as actual process models, handover-of-work networks among resources,
performance measures of the processes, etc (van der Aalst et al., 2007). We detailed the issue
in our previous contribution (M’HAND et al., 2018).

Complex event processing (CEP) is an extremely dynamic research field. It plays an im-
portant role in many application domains such as logistics, energy management or finance
processes. One of the factors motivating this trend is the exponential volume of heterogeneous
and distributed data sources that have become available and exploitable. CEP intends to iden-
tify significant relationships between series of simple and independent events from raw data
streams coming from different sources, using previously defined rules (Luckham, 2008).
Events, whether system-generated or human-generated, are pervasive and ever increasing in
their volume, velocity, and variability. While a complex event can happen over a period of
time, it is aggregated from basic or other complex events and contains more semantic meaning
like detecting causality, membership or timing relationships between events, abstracting event-
driven processes and detecting event patterns (Boubeta-Puig et al., 2012).

Combining process mining and CEP has plenty of advantageous peculiarities. For instance,
the existence of low quality data can be reduced into feasible streams and logs using CEP. Thus,
the process mining analysis becomes smoother.

- 42 -
M. Amrou et al.

4 RoRo port terminal


RORO ships refers to vessels that are geared towards carrying wheeled cargo, such as cars,
trucks, semi-trailer trucks, trailers, platforms, that are driven on and off the ship on their own
wheels or using a platform vehicle.
There exist various types namely : RoLo ( Roll On/ Lift off), RoPAX (Roll-On-Roll-Off,Passenger-
ship), ConRo (Container-RoRo), PCC (Pure Car Carriers), PCTC (Pure Car and Truck Car-
riers), LMSR (Large, Medium-Speed Roll-on/Roll-off)

4.0.1 RoRo Subsystems

For the purpose of the understanding and the simplification of the processes that take place
in a RoRo terminal, it is proper to consider it as continuous systems composed of a succession
of independent subsystems in which each subsystem must be enhanced to increase the overall
performance of the system and avoid any possible bottlenecks making it easier to improve the
processes, to determine the capacity of each subsystem and, ultimately, the terminal as a whole.

For RORO terminals, they could be categorized into three subsystems : ((Saurí et al.,
2012)) :
— Berthing and stevedoring ; includes the berthing, mooring, cargo unloading and loading,
and unmooring and unberthing of the ship and the movement of the cargo from or to
the ship and to or from the storage area.
— Storage ; storage space for cargo.
— Delivery and receipt ; The delivery and receipt subsystems should be analyzed in the
landside area.

4.1 RoRo terminal : Logistics processes


A RoRo terminal is a complex facility that is adjusted to a set of logistic processes.
The logistic activities at a RORO terminal belong to further complex logistic processes and
this is critical for a valuable management of the system as well as the choice of the modelling
approach.
We categorize RORO processes into two types :
— Export process ; the process starts by the vehicle approaching the main gate for gate-
in operations. After that the vehicle must pass through a scanning station for security
purposes. After the scanning, the vehicle passes through a weighbridge. In the case of
unavailable resources the vehicle lines up in a queue for each resource (gate, scanning
station, and weighbridge). After the weighbridge, the vehicle moves to a parking lot,
WAI1, and wait until the administration procedures of clearance and tax free fuel ac-
quisition are completed. Once finished, the vehicle moves to another parking lot, WAI2
and wait until the arrival of the ship ( fig.1).
— Import process ; once the ship arrives, the vehicle moves from ramp to weighbridge
(different from the weighbridge in the export process. After the weighbridge, vehicle
moves to a parking lot (WAI4) until paper administration procedures are completed.
Finally the vehicle leaves through the main gate.

- 43 -
Process mining and complex event processing in seaport logistics: RoRo terminals

F IG . 1 – RoRo terminal : Export process.

There is no scan process as it is supposed that they are already being scanned before
they leave the export terminal (See fig.2).

F IG . 2 – RoRo terminal : Import process.

The export and import processes for trailers differenciate in several operations than the usual
processes for vehicles.
Starting off with trailers export, another parking lot is researved here, where the trucks, holding
the trailers, are detached from them. Trucks leave the where the trailers wait for the ship to
arrive. At the arrival of the ship the trailers are transported from the parking lot to the ship by
special tractors (fig. 3).
For import, specific tractors move onto the ship in order to draw the trailers from the ship to
a parking lot called (WAI5). After passing through the import weighbridge where they stay

- 44 -
M. Amrou et al.

F IG . 3 – Trailer export process

until until paper administration procedures of clearance are completed. These trailers are then
moved out of the terminal via external trucks through the main gate (fig. 4). In the case of
unavailable resources, the vehicles line up in a queue for each resource (Gate, scanning station,
weighbridge).

F IG . 4 – Trailer import process

- 45 -
Process mining and complex event processing in seaport logistics: RoRo terminals

5 Related work
Plenty of studies have emphasized simulation of seaport operations for the operational
aspects of RORO terminals. (Yavuz et al., 2013) developed a simulation model for RORO ter-
minal operations in order to provide a means for better decision making and resource allocation
in a port in Turkey. (Tang et al., 2015) proposed a simulation model to simulate the vehicles in
and out of a RORO terminal.
The results showed the proposed simulation model is an effective tool to determine the scale
of the parking lot in a RORO terminal. Other contributions were based on different technolo-
gies and methodologies, (Alevizos et al., 2015) introduced a system for vessel tracking, with
high rate trajectories compression, analyzes using complex event recognition engine, reporting
alerts to port authorities. Where (Terroso-Saenz et al., 2016) dissected a CEP-based system
has been developed to timely detect a set of vessel’s abnormal behaviours by performing an
event-based processing of Automatic Identification System data. (Kokkinakos et al., 2017) pre-
sented a concept focusing on the improvement of the maritime business procedure according
to four scenarios aiming at establishing a new value chain of interrelated data streams coming
from diverse sectors. (Zaman et al., 2017) discussed features and risks associated with big data,
how big data analytics will be turned into added value for the future maritime industry. (Arof,
2018) aimed to develop a decision-making model for determining the potential of interstate
RoRo operations in Archipelagic Southeast Asia (ASEA) supported by the Analytic Hierar-
chy Process (AHP). Based on the literature surveyed, none of the works have addressed RoRo
terminals from process mining combined to complex event processing approach. Hence, our
contribution, in which we claim to bridge this gap.

6 Process mining and CEP toward RoRo terminal


The RORO is generally elected for short sea shipping. It is considered an essential consti-
tuent of maritime logistics. Moreover, the challenge to ameliorate business processes and core
operations is usually confronted especially in such a domain.
RORO produces tremendous mass of data deriving from diverse sources and arranged in dif-
ferent structures, including traffic data, cargo data, and terminal process data. This Big Data
has massive business benefits for maritime industry, in terms of increasing the capability of
performance monitoring, improving efficiencies and business processes, helping speed up de-
cision making.

Process mining is a promising big data analytics technology that discovers monitors and
improves real processes by retrieving valuable knowledge and process related information from
event logs available in massive data volumes. It leverages event logs and creates a clear visual
map business process. Hence, the decision making task is easier thanks to the complete trans-
parency of how the processes are working.
Complex event processing could be used to existing processes through rules that will permit
the identification of relevant information to assess the decision making task. Furthermore, CEP
could also be used to predict unanticipated situations allow seizing opportunities and mitigate
risks in real time.

- 46 -
M. Amrou et al.

Exploring process mining in accordance with complex event processing for RORO events
has become a necessity to identify significant events in large event streams. Our proposal aims
to profit from process mining in terms of harvesting value from event logs to discover real
process models, integrate the benefits of complex event processing to monitor these models
and provide real time process adaptation. Consequently, various advantages could be gained
namely :
— Port authorities will have a real-time intercession to monitor the congestion and im-
prove cargo handling performance.
— As we have a clear and real time view of the real word, the operational performance
could be predicted. in regard to the contemporary operational conditions. This will
support the decision making task for performance enhancement.
— The analytics provided will be useful to ensure an even flow of cargo, identify bottle-
necks and underutilized resources and prevent over investments.
As for the test, verification and validation of the constructed models, we intend to develop a
simulation model, a discrete event simulation as for the cases like port terminals where physical
implementation of the planned tasks may be sometimes difficult and expensive.

7 Conclusion and future work


This paper illustrated how process mining in accordance with complex event processing
has the potential to create a significant impact in the RoRo industry.
It overviewed process mining and complex event processing. It also introduced RoRo defini-
tion, subsystems as well as the associated logistics processes.
Process mining discovers, monitors and enhanced process models. While, complex event pro-
cessing could be used to existing processes through rules that will permit the identification
of relevant information to assess the decision making task. The contribution of this paper lies
in the proposition to fuse these two technologies to predict unanticipated situations, identify
bottlenecks, allow seizing opportunities and mitigate risks in real time.
As this is a work in progress, still it needs to be tested in order to evaluate its efficiency using
a real case study. Hence, the applicability of this study will be demonstrated using RoRo event
terminal data from the port of Tangier Med. For the test and validation, it will be based on a
discrete event simulation model and this must be developed for future work.

- 47 -
Process mining and complex event processing in seaport logistics: RoRo terminals

References

Alevizos, E., A. Artikis, K. Patroumpas, M. Vodas, Y. Theodoridis, et N. Pelekis (2015). How


not to drown in a sea of information: An event recognition approach. In Big Data (Big
Data), 2015 IEEE International Conference on, pp. 984–990. IEEE.
Arof, A. M. (2018). Decision making model for ro-ro short sea shipping operations in
archipelagic southeast asia. The Asian Journal of Shipping and Logistics 34(1), 33–42.
Boubeta-Puig, J., I. Medina-Bulo, G. Ortiz, et G. Fuentes-Landi (2012). Complex event pro-
cessing applied to early maritime threat detection. In Proceedings of the 2nd International
Workshop on Adaptive Services for the Future Internet and 6th International Workshop on
Web APIs and Service Mashups, pp. 1–4. ACM.
Kokkinakos, P., A. Michalitsi-Psarrou, S. Mouzakitis, I. Alvertis, D. Askounis, et S. Kous-
souris (2017). Big data exploitation for maritime applications a multi-segment plat-
form to enable maritime big data scenarios. In Engineering, Technology and Innovation
(ICE/ITMC), 2017 International Conference on, pp. 1131–1136. IEEE.
Luckham, D. (2008). The power of events: An introduction to complex event processing
in distributed enterprise systems. In International Workshop on Rules and Rule Markup
Languages for the Semantic Web, pp. 3–3. Springer.
M’HAND, M. A., H. BADIR, et A. BOULMAKOUL (2018). Process mining for port con-
tainer terminals: The state of the art and issues.
Saurí, S., P. Morales-Fusco, et E. Martín (2012). An empirical analysis of the resiliency of
ro/ro and ro/pax terminal operations 2. In Transportation Research Board 2012 Annual
Meeting, pp. 1–20.
Tang, G., X. Yu, W. Wang, Z. Guo, X. Song, et Y. Zhang (2015). Simulation and modelling of
roll-on/roll-off terminal operation.
Terroso-Saenz, F., M. Valdes-Vela, et A. F. Skarmeta-Gomez (2016). A complex event pro-
cessing approach to detect abnormal behaviours in the marine environment. Information
Systems Frontiers 18(4), 765–780.
Van Der Aalst, W. (2012). Process mining: Overview and opportunities. ACM Transactions
on Management Information Systems (TMIS) 3(2), 7.
van der Aalst, W. et J. Vanthienen (2011). Ieee task force on process mining. In Lecture Notes
in Business Information Processing, Volume 99, pp. 169–194. Springer-Verlag.
Van der Aalst, W., T. Weijters, et L. Maruster (2004). Workflow mining: Discovering process
models from event logs. IEEE Transactions on Knowledge and Data Engineering 16(9),
1128–1142.
van der Aalst, W. M., H. A. Reijers, A. J. Weijters, B. F. van Dongen, A. A. De Medeiros,
M. Song, et H. Verbeek (2007). Business process mining: An industrial application. Infor-
mation Systems 32(5), 713–732.
Yavuz, K., S. Aksoy, et Y. V. Aydogdu (2013). A simulation model for decision support in ro-
ro terminal operations. International Journal of Logistics Systems and Management 15(4),
338–358.
Zaman, I., K. Pazouki, R. Norman, S. Younessi, et S. Coleman (2017). Challenges and op-

- 48 -
M. Amrou et al.

portunities of big data analytics for upcoming regulations and future transformation of the
shipping industry. Procedia engineering 194, 537–544.

Résumé
Le commerce maritime a une importance primordiale dans le commerce mondial. Il est
lié à presque toutes les chaînes d’approvisionnement internationales. Cependant, la logis-
tique maritime rencontre des problèmes de planification aux niveaux stratégiques, tactiques et
opérationnels. Et ceci est attribuable au fait qu’elle n’a pas pleinement tiré profit des avan-
tages potentiels de l’analyse Big Data alors que le volume sans cesse croissant de données
d’événements générées est en train de s’exploser. Process mining apparaît comme une branche
récente du Big Data Mining et une nouvelle technique d’analyse de Big Data. Il exploite les
journaux d’événements pour découvrir des modèles de processus réels. Dans cet article, nous
préconisons l’utilité et la flexibilité du process mining combiné avec le traitement d’événe-
ments complexes.

- 49 -
Genetic algorithm for multimodal communication with an
ECA
Hasna Bouazza∗ , Nassima Ouasti, Fatima Bendella∗


Faculté des Mathématiques et Informatique, Université des Sciences et de la Technologie
d’Oran Mohamed Boudiaf, Oran, Algerie
hasna.bouazza@univ-usto.dz, fatima.bendella@univ-usto.dz
http://www.univ-usto.dz

Abstract. The purpose of this paper is to present a conversation tool for an


Embodied conversational agent (ECA). The difficulty of the ECA is to give logic
and intelligent answers to the user in a short time. To correct this issue, we
have introduced advanced techniques of genetic algorithms (GA) in the field of
natural language processing (NLP), in order to produce new sentences (a new
population) without missing the purpose of discussion (with genes from the first
population).

1 Introduction
The developments in computer graphics and the increase of graphic capacities of computers
have lead lately to the development of more realistic virtual characters in terms of their appear-
ance and rendering animation. This realism leads to great expectations among users; in order
to improve the credibility of the conversational agent in communicating with humans, we use
the advanced techniques of genetic algorithms (GA) to generate new sentences, yet remaining
in the same area of the conversation. All this progress highlighted the need to further develop
the methods of communication between the user and the computer. We need to develop as
soon as possible the appropriate tools, as well as a new way of interacting with users. The
new interfaces use more and more animated virtual characters: the conversational agent. (Bau-
douin, 2005) This is an anthropomorphic type of agent that can interact independently with the
user through the Automatic Natural Language Processing (ANLP) (Jaques, 2004). Therefore,
its employment in the context of a learning system for new users is useful and appreciated;
this is the reason why we intend to develop a dialogue tool for a conversational agent, ded-
icated to the function of learning calculation and providing effective assistance to beginners
during their learning sessions. Genetic algorithms have never been used in the field of Con-
versational Agents; other researchers have chosen to use the genetic algorithms in information
systems research where they have proven their contribution(Tamine, 2001) Genetic algorithms
are also used to create an extractive summary for single documents (Rasim, 2009)(Chatterjee,
2018)(Aakash, 2018). Our purpose is to answer the following questions of the learner:
— The answers of ECA should be consistent and logical,
— The explanations of the ECA should be related to the proposed subject,

- 51 -
Genetic algorithm for multimodal communication with an ECA

— The answers of the ECA should be as close as possible to an "intelligent" human re-
sponse, being best suited to the learner.

2 Natural Language Processing (NLP)


Natural language processing (Poirie, 2001) is a sub-domain of IT and especially of artifi-
cial intelligence, concerning computer processing of natural language by simulating cognitive
abilities, without being involved in a real simulation of cognitive processes. Its goal is to pro-
vide new products, such as computers capable of understanding human language, of translating
between different natural languages, and of interacting linguistically with people in a way that
suits them. Helander (1997)

In this purpose, we have studied several techniques and approaches, such as: the basic soft-
ware natural language processing, the pattern matching method named "ELIZA": this method
does not have the ability to divide the user s text into several sentences to be dealt with indi-
vidually in order to combine responses, because of its structure. Also, it does not have any
criteria to prioritize keywords, and there are no conditions for the addition of further actions
in the script file (Weizenbaum, 1966).The AIML method "A.L.I.C.E. "(Artificial Linguistic
Internet Computer Entity) deals more with the form than with the meaning, not being based
on the recognition of specific keywords, but on the model of the sentences. Consequently, its
conversational memory is very limited.

These basic methods are very limited and the interlocutors realize immediately that they
are dealing with a machine. Nowadays, we have discovered new methods, and we have chosen
do discuss the "evolutionary generation" (Oulmahdi, 2011). The evolutionary generation was
chosen since it is a very new area that uses evolutionary algorithms, which are inspired by a
process of natural evolution (Oulmahdi, 2011).

Similar with the work of Jos on "Expression and dynamic of emotions, Application on a
virtual avatar," this is the creation of a genetic robot with a personality. (Jos, 2009)

We also mention here the work of Picarougne on "document search on the internet with the
help of genetic algorithms" (Picarougne, 2004). However, evolutionary algorithms have never
been used for dialogue or conversation in ACAs.

3 Evolutionary Generation
The evolutionary generation uses evolutionary algorithms such as the genetic algorithm,
which is inspired by a natural evolutionary process. The main idea of the evolutionary gener-
ation technique is to apply primarily the pre-processing phase, then the genetic algorithm, in
order to find the closest answers to the user s questions. Briefly, when the user asks a question
(text) to the system (ECA), the ECA determines the keywords, searches the indexed database
and collects the appropriate responses. Then, it has to choose only one sentence to answer the
user. There are several ways to choose the answer: probability algorithm or genetic algorithm

- 52 -
H.Bouazza et F.Bendella

(Oulmahdi, 2011).

We will use artificial intelligence algorithms such as genetic algorithms for the automatic
generation of a sentence. The purpose of this method is to generate phrases that best suit the
discussion.

4 Pre-processing
Indexing the collected sentences is a very important step in the process of phrase search.
The quality of the search is closely related to the quality of indexing. Automatic indexing is
used to index keywords in the database and count the number of occurrences for each keyword
in the sentence. (?)

The pre-processing phase is applied to the query phrases and to sentences in the database.
Let ’s consider the following example:
Query Sentence (Ph _ req): what we are asked to do.
Sentences in the database:
— Ph1 : bonjour mon petit.
— Ph2 : on te demande de colorier à partir du nombre donné.
— Ph3 : ce n ést pas difficile reprend l éxercice et relie bien l ´noncé.
— Ph4 : on te demande de teindre à partir du chiffre donné.

4.1 Indexing Process


1) Removing empty words is the elimination of empty words (non-significant words for
searches) tels que la, le, une, et, du, des? Ph _ req: qu, , est, ce, on, nous, de. Sentence of the
database Ph2: on, te, de, à, du.
2)Identifying the keywords ( tokenize) constitutes the basis of the indexing process. The
system identifies a word as a string of characters, space being the separator in all cases. The
extracted chains are called "token". (Picarougne, 2004)
Ph_ req: demande, faire. Sentence of the database Ph2: demande, colorier, partir, nombre,
donné. The indexer will count the number of occurrences of the keyword in the sentence.

Terms demande faire partir nombre donné colorier


Ph _ req 1 1 0 0 0 0
Ph2 1 1 0 0 0 0

TAB . 1 – The indexer

4.2 Search phrases


The weight of a keyword is calculated based on its frequency in the database. In order to
search phrases, we used the vector space model which is one of the most widely used models

- 53 -
Genetic algorithm for multimodal communication with an ECA

Seydoux (2006). It represents requests and phrases as vectors which are placed in a specific
vector space. The dimension of the space is noted with N (N: number of indexing terms in
the collection of sentences). The vector space is defined by the set of terms that the system
detected during indexing, represented as follows:
Consider the following vector space: <t1, t2, t3, . . . .,tn>
Each sentence and query is respectively represented by a sentence vector and a query vector:
— di= (w1i, w2i,. . . , wni)where wki=weight of the term ti in the sentence di
— dj= (w1j, w2j, . . . , wnj) wkj= weight of the term ti in the quiery dj.

To calculate the occurrence of each keyword Wij, we used the weighting function of a word in
a sentence TF_ IDF such as:

— TF (Term Frequency): this quota is proportional to the frequency of the word in the
sentence. The underlying idea is that the more often a term is used in a sentence, the
more important it is in the description of this sentence.
n
As in: T Fij = P ijn kj
— nij: number of occurrences of ti in the sentence dj
— nkj: number of occurrences of all words in the sentence dj.

— IDF (Inverse Document Frequency): measures the importance of a term in the entire
database.
The conclusion is that the terms which appear in a smaller number of sentences in the
database, have a more representative content than those which appear in all the sentences of
the database.
As in: IDFi = log(|D|/|dj/ti ∈ dj|)
— |D|: total number of sentences
— |dj/ti ∈ dj| |: number of sentences where the term ti appears
The weighting function of the form T F _IDF consists of multiplying both TF and IDF
quotas. The formula is defined in [17]:

wij = log(tfi j + 1) ∗ idfi

Given these two vectors, the degree of correspondence is determined by their similarity; to
calculate the similarity between these two vectors, we used the Salton model (Salton, 1968):
P
wki .wkj
S(di , dj ) = P w2 . P w2
ki kj

The sentences that contain at least one "keyword" are selected and arranged according to
their priorities (weights). The search result is the initial population of the genetic algorithm.

5 The selection of the answer


In order to choose a single sentence to answer the user, we will use the genetic algorithm
which is the most popular evolutionary algorithm and it allows finding the solution from a large
number of possibilities in a reasonable time.

- 54 -
H.Bouazza et F.Bendella

Terms T Fij IDFi Wij


Ph _ req Demande 1/2 0.221 0.039
Faire 1/2 0.698 0.123
Ph1 Bonjour 1/2 0.602 0.105
Petit 1/2 0.602 0.105
Ph2 Demande 1/5 0.301 0.023
Colorier 1/5 0.602 0.047
Partir 1/5 0.301 0.023
Nombre 1/5 0.602 0.047
Donné 1/5 0.301 0.023
Ph3 Difficile 1/5 0.602 0.047
Reprend 1/5 0.602 0.047
Exercice 1/5 0.602 0.047
Relie 1/5 0.602 0.047
Enoncé 1/5 0.602 0.047
Ph4 Demande 1/5 0.301 0.02
Teindre 1/5 0.602 0.047
Partir 1/5 0.301 0.023
Chiffre 1/5 0.602 0.047
Donné 1/5 0.301 0.023

TAB . 2 – Weight calculation for each term of the sentence.

S(di, dj)
Ph_req, Ph1 0
Ph_req, Ph2 0.0901
Ph_req, Ph3 0
Ph_req, Ph4 0.0901

TAB . 3 – Calculation of the distance between the query words and phrases in the database
(Salton model).

5.1 The genetic algorithms


Physics, biology, but also economics and sociology are commonly facing the classic prob-
lem of optimization (Rennard, 2006). Genetic algorithms (GAs) are optimization algorithms
based on techniques derived from genetic and natural evolutionary mechanisms: crossing, mu-
tation and selection, initiated in the 1970s by John Holland and further developed by Goldberg
in the 80s (Souquet, 2004).

The GAs are certainly the branch of evolutionary algorithms (EA) the most well known
and most widely used. Initially, they were not designed for functions optimization, but for
modelling adaptive behaviour. In fact, the GAs are modelling a process of species evolution.
They are systems that are based on the selection principles of Darwin and on the combination
methods of the genes introduced by Mendel in order to treat optimization problems (Zidi,

- 55 -
Genetic algorithm for multimodal communication with an ECA

2005).

5.2 Functioning of the genetic algorithm


The GAs are used to solve problems with the aim of finding a solution, usually numerical.
Only a quality criteria is necessary to discriminate different solutions. In most cases, this cri-
teria, suitability, is an objective measure to quantify the ability of the individual to solve the
problem.

The search process is carried out by iteratively applying to a population of potential so-
lutions operations of genetic variation (typically crossover and mutation), and operations of
natural selection biased towards the fittest individuals. Using this process, the population of
potential solutions evolves in time until some stopping criteria is reached (Picarougne, 2004).

We use the following algorithm:


1. Randomly generate a population of n "x" phrases;
2. Create a new population by
(a) Selecting 2 parent phrases
(b) Crossing both parents in order to get a child
3. Evaluate the suitability f(x) of each child;
(a) Place the response in the population if it does not exist;
4. Form the new population.

5.3 Our Algorithm


1. Randomly generate a population of n "x" phrases (the original population after the
calculation of the distance and arrange sentences according to their priority);
2. Create a new population by
(a) Selecting 2 parent phrases: we use the Elitism selection Rennard (2006); this se-
lection method allows highlighting the best individuals of the population, and we
select the two sentences having the smallest distance different from zero from the
query sentence. So the two parents are:
— Ph2 : on te demande de colorier à partir du nombre donné.
— Ph4 : on te demande de teindre à partir du chiffre donné.
(b) Crossing the two parents in order to get a child: the crossing is done with a 50%
probability which is a crossing is a single point. So, we get the following two
children:
— Ph5 : on te demande de colorier à partir du chiffre donné.
— Ph6 : on te demande de teindre à partir du nombre donné.
3. Evaluate the suitability f(x) for each child: This function differs from one problem to
another; for our conversation tool, it consists in counting the number of common words
in the text given and required phrases (num1 and num2), in this case we have: num1=1
and num2=1 and since the number of common words is identical in the two sentences,

- 56 -
H.Bouazza et F.Bendella

F IG . 1 – Screen capture of the dialogue between the ACA and the learner in a course.

the answer will be either Ph5 or Ph6. For example, the answer is: on te demande de
teindre à partir du nombre donné.
(a) Placing the response in the population: this action will be performed if the answer
does not exist in the database;
4. Forming the new population In our case, our interest was not focused on reformulating
sentences by mutation.

5.4 Comparison between the method "Pattern matching method" and


our approach
1. Our Method Query sentence (P h_req): quest ce quon nous demande de faire. Re-
sponse of the ECA:
— Ph5 : on te demande de colorier à partir du chiffre donné.
— Ph6 : on te demande de teindre à partir du nombre donné.
2. Pattern matching method
(a) 1st Example: Query sentence: : Jaime ma maman et mon papa. Identifying key-
words: maman =>mère, papa=> père Response : Raconte-moi ta famille.
(b) 2nd Example: Query sentence: Quest ce quon nous demande de faire. Identifying
keywords: Quest ce=> question Response: tu as une question à me poser.

6 Conclusion and Perspectives


The main problem of any ECA is to respond to the user with a logic answer and a low
latency; in order to remedy this problem we introduced the genetic algorithms (GA) into the
field of natural language processing (NLP) with only one generation. The work presented in
this article is only the beginning, because the results encourage us to further develop the GAs,
by introducing a reasoning module. The answers obtained from the ECA are consistent and
reliable after several tries, but we want the discussion with a conversational agent to be instinc-
tive and progressive.

- 57 -
Genetic algorithm for multimodal communication with an ECA

We would like to raise one last point - "ethics". Can the conversational agent be ethical or
moral? Because it can have some control over the user (the learner), - for example, influencing
him, persuading him, trying to gain his trust, - the conversational agent must think about the
behaviour to adopt in front of the learner. We would like to consider ethics in the reasoning
module that will hybridize with the GAs.

References
Aakash, S . Abhishek, Y. . A. G. (2018). Extractive text summarization using neural networks.
arXiv preprint arXiv:1802.10137.
Baudouin, C. (2005). Rôle des Agents Pédagogiques dans les Environnements d ?Apprentis-
sage Humain.
Chatterjee, N. JainGurkirat, G. . B. S. (2018). Single document extractive text summarization
using neural networks and genetic algorithm. Intelligent Computing, Springer, 338–358.
Helander, M. (1997). The dynamics of chain formation in oecophylla longinoda. In Handbook
of of Human-Computer Interaction, Elsevier Science Publishers, 301–319.
Jaques, P. Vicari, R. P. J. (2004). Applying affective tactics for a better learning. Journal of
Insect Behavior Proceedings of the 16th European Conference on Artificial Intelligence.
Jos, M. (2009). Expression et dynamique des émotions application sur un avatar virtuel. Jour-
nal of Insect Behavior, 679–696.
Oulmahdi, M. (2011). Algorithmes évolutionnaires dans les systèmes de parole. Technical
report.
Picarougne, F. (2004). Recherche d ?information sur internet par algorithmes évolutionnaires.
Technical report.
Poirie, C. (2001). tecfaunige. Technical report.
Rasim, A. . (2009). Evolutionary algorithm for extractive text summarization. Intelligent
Information Management 1(02), 128.
Rennard, J. (2006). Introduction aux algorithmes génétiques.
http://www.rennard.org/alife/french/gavintr.html 14, 679–696.
Salton, G. (1968). Automatic information organization and retrieval. McGraw-Hill computer
science series, New York, 6–8.
Seydoux, F. (2006). Exploitation de connaissances sémantiques externes dans les représenta-
tions vectorielles en recherche documentaire. Technical report.
Souquet, A. Radet, A. (2004). Algorithmes genetiques. Technical report. Tutorat de Mr
Philippe Audebaud.
Tamine, L. Boughanem, M. (2001). Un algorithme génétique spécifique à une reformulation
multi-requêtes dans un système de recherche d ?information. Revue I3 en Sciences et Trai-
tement de l ?Information 1.
Weizenbaum, J. (1966). Eliza–a computer program for the study of natural language commu-
nication between man and machine. ,Massachusetts Institute of Technology Department of
Electrical Engineering Cambridge, Mass.. Communications of the ACM 9, 36–35.

- 58 -
H.Bouazza et F.Bendella

Zidi, K. Hammadi, S. (2005). Algorithme génétique avec contrôle des opérateurs pour l ?op-
timisation multicritère d ?un déplacement dans un réseau de transport multimodal. Revu
électronique e-STA 2, 679–696.

Résumé
Dans ce papier nous présentons un outil de conversation pour un agent conversationnel
animé (ACA), le problème principale de toute ACA est de répondre à l?utilisateur par des
réponses logiques et intelligentes en un temps faible, pour remédier à ce problème, nous avons
introduit les techniques avancées de lálgorithmique génétique (AG) au domaine du traitement
du langage naturel (TLN), pour produire de nouvelles phrases (une nouvelle population) ; sans
s’éloigner du domaine de discussion (avec des gènes de la premier population) .

- 59 -
Recours aux Systèmes d’Information Géographique pour la
caractérisation des risques naturels dans la région du Tensift
Intissar Er-rouane*,
El Mahdi Bensayah*, Mustapha Hakdaoui*

intissar.errouane@gmail.com
bensayah.m@gmail.com
hakdaoui@gmail.com

* Département de géologie, Faculté des sciences de Ben M’sik, Université Hassan 2,


Casablanca

Résumé. Le 22 Avril 2016, le Maroc a fait partie des 196 pays signataires de
l’Accord de Paris sur le changement climatique. Accord visant à atténuer
l’impact dudit changement, ainsi que les pertes liées aux catastrophes d’origine
naturelle qui s’en suivent, sur le développement durable et sur
l’environnement. Dans ce sens, les dirigeants se sont donnés comme priorité la
gestion des risques d’origine naturelle et l’évaluation de la vulnérabilité des
territoires, d’où la pertinence de l’élaboration d’un système d’information géo-
graphique permettant d’approfondir la connaissance des caractéristiques et en-
jeux de la zone d’étude, d’évaluer la vulnérabilité, d’organiser les secours et
d’estimer les pertes. L’objectif de ce papier consiste justement à mettre en
perspective l’utilité des SIG dans la prévention et préparation des territoires
pré-catastrophe, et dans leur réhabilitation post-incident.

1 Introduction
Lors de la 21ème Conférence des Parties à la Convention Cadre des Nations Unies sur les
Changements Climatiques (COP21), tenue à Paris en novembre 2015, la problématique du
changement climatique fut le thème central. En effet, le réchauffement planétaire est consi-
déré comme un sujet de préoccupation pour l’humanité toute entière, vu l’étendue de son
impact et la gravité de ses conséquences.
Les conséquences de ce fléau sont innombrables et touchent l’humanité à plusieurs ni-
veaux, à savoir, le niveau environnemental, le niveau économique de même que le niveau
social. Sur le plan environnemental, ces effets se traduisent par la modification des grands
mécanismes climatiques augmentant ainsi la probabilité d’occurrence de tempêtes, inonda-
tions, sécheresse et autres catastrophes d’origine naturelle partout dans le monde, et ce à
différentes intensités.
Ce phénomène est international. Néanmoins, les nations les plus pauvres sont plus affec-
tées que les autres. Le Maroc, en l’occurrence, a connu plusieurs catastrophes comme les

- 61 -
SIG et caractérisation des risques naturels dans la région du Tensift

séismes d’Al Hoceïma (2004) ou d’Agadir (1964), les inondations du sud du Maroc (2014),
entraînant des pertes humaines et matérielles colossales.
La zone du Tensift, objet de cette étude, a connu également le désastre naturel le plus
meurtrier répertorié au Maroc, à savoir, les inondations de l’Ourika (1995). Cet incident
n’étant pas le premier de la région, et surtout vu les caractéristiques topographiques et les
spécificités géographiques de l’Ourika, la probabilité d’occurrence d’autres catastrophes est
très élevée, d’où la nécessité de mettre en place des instruments destinés à protéger les popu-
lations et l’environnement.
Notre proposition, à travers ce papier, est de caractériser les principaux risques naturels
menaçant la région du Tensift, à travers un système d’information géographique (SIG) spé-
cialement conçu pour cette fin. La mise en place de ce système est un grand apport, en soi,
du fait de la masse considérable des données stockées et de leur pertinence par rapport aux
différents risques évoqués. L’archivage, en tant que mémoire des événements, a un rôle
particulièrement important car en le consultant on peut s’apercevoir que beaucoup de dégâts
auraient pu être évités (Martin, 2006). A l’heure actuelle, les traitements opérés se sont foca-
lisés sur les risques d’inondations étant donné l’importance de son impact et la forte vulnéra-
bilité du bassin à cet aléa. En effet, ces traitements se rattachent à la caractérisation du fonc-
tionnement hydrologique du bassin en procédant aux tracés automatiques du réseau
d’écoulement et des sous bassins versants, notamment celui de l’Ourika. De même, ces trai-
tements ont permis d’élucider les principaux paramètres morphologiques influençant la ré-
ponse hydrologique du bassin sous l’impulsion des facteurs climatiques. Ainsi, les grandeurs
physiques comme surfaces et périmètres du bassin versant et ses sous-bassins, le chevelu
hydrologique, la densité du drainage et la répartition des pentes sont toutes déterminées à
partir du SIG et du MNT correspondant. L’intérêt de ces paramètres est d’en déduire les
temps de concentration et par suite les débits de pointe des crues d’oueds. La connaissance
de ces derniers est incontournable pour la gestion de ces risques.
Pour ce faire, nous commencerons par définir ce que c’est qu’un SIG, ses fonctions, son
apport ainsi qu’un aperçu méthodologique des phases de son élaboration. Dans un second
temps, nous allons appliquer cette méthodologie au bassin du Tensift tout en présentant les
premiers résultats de l’exploitation du SIG ainsi que les traitements effectués sur son conte-
nu. Enfin nous concluons avec un ensemble de remarques et de perspectives.

2 Méthodologie de mise en œuvre d’un SIG


2.1 Concepts de base
Le "SIG" ou Système d'Information Géographique est un système informatique global,
facilitant, par l'utilisation de matériels et de logiciels appropriés, une démarche de collecte,
d'organisation, d’analyse et de modélisation de données géo-spatialisées (Chemitte, 2008).
En ce sens, un tel système permet de stocker, de manipuler, de gérer et d'analyser ces
données, en vue d'en extraire des synthèses utiles à la caractérisation des entités géogra-
phiques et à la prise de décision.

- 62 -
I. Er-rouane et al.

2.2 Etat de l’art des SIG pour la gestion des risques naturels
Les systèmes d’information géographique (SIG) sont apparus depuis les années 80. Mais
depuis une dizaine d’années, ils connaissent un essor considérable auprès des différents
utilisateurs (Etat, collectivités locales, chercheurs, etc.) pour des fins de représentation des
territoires, de gestion et surtout de prise de décision (ESRI, 2008).
Ainsi durant ces dernières années, et à l’échelle internationale, on assiste à un dévelop-
pement de systèmes d’information dédiés entre autres, à la prévention des risques naturels, à
la gestion des situations de crises, et à la gestion des connaissances environnementales
(ESRI, 2008).
Les pays du Maghreb, notamment la Tunisie (Rajouene et al., 2015), l’Algérie (Koussa,
2018 ) et le Maroc (El Hafid, 2018) - (El Fahchouch et al., 2015), ainsi que d’autres pays
africains ont montré un intérêt particulier au recours aux SIG dans plusieurs domaines et en
particulier dans la thématique gestion des risques naturels.

2.3 Collecte et traitement des données


La collecte est la première étape de la démarche. Dans notre propos qui se focalise sur les
SIG liés aux risques naturels, les données qui seront utilisées lors d'une étude sont de diffé-
rentes natures et se rapportent aux divers aspects de ces risques dans la région concernée.
Il s’agit pour l'essentiel des :
- données topographiques, sous forme de cartes ou de fichiers informatiques (Modèle
Numérique de Terrain ou MNT). En plus de leur utilisation comme fond cartogra-
phique de base, ces données permettront, entre autres, de préciser d'une part le
schéma hydrologique de la zone et son réseau d’écoulement de surface, d'autre part
la répartition des pentes, qui, quant à elle, est un paramètre déterminant pour
l’évaluation des risques d’érosion et d’instabilité des terrains ;
- données climatologiques, avec en particulier les historiques des précipitations, des
températures et vitesses du vent au niveau de toutes les stations climatiques pré-
sentes dans la région ;
- données hydrologiques, dont notamment les données de jaugeages des oueds du
bassin ;
- données géologiques, lithologiques et géotechniques qui, en fonction de l’aptitude
des sols au ruissellement, conditionnent leur stabilité et leur vulnérabilité aux phé-
nomènes érosifs ;
- données d'occupation des sols, couvert végétal essentiellement, extraites soit des
cartes existantes, soit des images satellites de la zone.

2.4 Mise en place et exploitation du SIG


Une fois la collecte des données (provenant le plus souvent de sources très variées) ache-
vée, débute ensuite la phase de conception (Laurini, 2008) et de constitution du SIG. Un
travail de vérification et d’homogénéisation des données doit être effectué au fur et à mesure
de leur intégration dans le système.

- 63 -
SIG et caractérisation des risques naturels dans la région du Tensift

Cette dernière étape permettrait, le SIG étant constitué, de l'interroger, de croiser les don-
nées, de cartographier les grandeurs, d'étudier les risques et les aménagements possibles et,
en fin de compte, de prendre des décisions.

2.5 Utilisateurs du SIG

De manière générale, les systèmes d’information géographique sont destinés à être utili-
sés par toutes les catégories d’utilisateurs. Qu’il s’agisse de décideurs institutionnels, de
chercheurs ou d’étudiants, les SIG sont adaptés à tous les profils d’utilisateurs depuis ceux
qui créent et maintiennent les systèmes, jusqu’aux personnes les utilisant dans leur travail
quotidien (Gutton, 2010). En effet, ces systèmes disposent d’une interface plus ou moins
intuitive proposant une série de boîtes à outils que chaque utilisateur pourrait utiliser afin de
réaliser son projet.
Comme les SIG s’adressent à une grande communauté d’utilisateurs, le niveau de compé-
tences requis pour la conduite des opérations basiques est généralement celui d’un technicien
supérieur. Cependant, dans le but d’assurer une bonne qualité d’interprétation des résultats,
les opérations avancées sont généralement confiées à un ingénieur disposant d’une bonne
maîtrise des données manipulées et des traitements effectués par les logiciels.

2.6 SIG et risques d’origine naturelle

Avant d’aborder la notion de risque, il convient de définir d’abord la notion d’aléa naturel
(Cligniez, 1997). Ce concept englobe tous les phénomènes physiques naturels qui menacent
les sociétés humaines. Ces phénomènes peuvent être d’origine climatique (vagues de chaleur,
sécheresse, tempêtes, etc.), ou d’origine géologique (tsunamis, volcans, écroulements,
séismes, etc.), comme ils peuvent être d’origine mixte (Martin, 2006).
L’évaluation de l’aléa se fait à travers le calcul de la probabilité pour qu’un événement
naturel survienne dans une zone géographique déterminée, elle ne valorise pas les dégâts
éventuels ainsi que les conséquences économiques possibles (Cligniez, 1997). En effet,
l’estimation des pertes probables ne peut se faire qu’après le croisement de l’évaluation de
l’aléa avec la présence humaine de la zone en question à travers des cartes d’occupation des
sols.

Un SIG serait le système adéquat pour assurer le traitement et l’organisation de ce type


d’information, connaître, évaluer et réduire la vulnérabilité face aux dangers, car il prend en
compte la dimension spatiale des données. Il est également pratique pour coordonner les
opérations de secours et de réhabilitation.
Dans le but d’élaborer un SIG pour les risques naturels, il faut (Hajji, 2005) :
- Connaître les risques naturels qui menacent le territoire ;
- Modéliser ces derniers ;
- Connaître les caractéristiques et les enjeux du territoire ;
- Appréhender l’interaction entre les risques et les caractéristiques du territoire (afin
d’évaluer la vulnérabilité et les pertes).

- 64 -
I. Er-rouane et al.

3 Un exemple d’étude : le SIG de la région du Tensift


La méthodologie expliquée ci-dessus a été appliquée à un cas concret d'importance régio-
nale, celui de la région du Tensift, région qui, par le passé, a été le théâtre de problèmes
climato-hydrologiques, allant même jusqu'à des catastrophes naturelles de grande envergure.

3.1 Support informatique


Le matériel mis en œuvre comporte un PC assez puissant, un grand écran additionnel
pour doubler l’affichage et une imprimante-scanner A3.
Le logiciel utilisé est le logiciel QGIS 2.18, libre et téléchargeable sur Internet. Il est as-
sez facile d’utilisation et permet d’effectuer la plupart des traitements envisagés. D’autres
logiciels payants existent, tels que ArcGis ou MapInfo qui peuvent également être utilisés
pour réaliser ce type de travail.

3.2 Création du SIG de la région du Tensift


La zone d’étude concernée est la région du Tensift s’étendant sur une superficie de plus
de 20000 km². Elle est liée à l’Oued Tensift et correspond à son bassin versant (Fig.1).

FIG. 1 – Délimitation de la zone d’étude (Région du Tensift).

3.3 Schéma conceptuel du SIG


La conception de ce SIG (Fig. 2) a été guidée par les thématiques d'intérêt, la nature et la
qualité des données collectées et enfin de la disponibilité des moyens matériels et humains.

- 65 -
SIG et caractérisation des risques naturels dans la région du Tensift

FIG. 2 – Schéma conceptuel du SIG.

Les différentes couches d’information dont nous avons précédemment parlé, y ont été in-
tégrées.

Il s'agit des couches de type :

- Raster :
- 4 cartes topographiques au 1/250 000e en mosaïque géo référencée ;
- Cartes géologique et pédologique de la région ;
- Découpage administratif ;
- MNT Aster GDEM 2 et image satellite Landsat de la zone;

- Vectorielles :
- caractérisant le bassin versant : réseau hydrographique, stations clima-
tiques, stations hydrologiques, puits, piézomètres, sources et barrages ;
- présentant les infrastructures : routes et localités.

- Tabulaires (tables attributaires) :

- 66 -
I. Er-rouane et al.

- Historiques climatologiques sur une centaine d’années des données de


pluie, température, vent ;
- Historique hydrologique des débits d’oueds ;
- Annuaire des mesures des niveaux d’eau dans les puits, piézomètres et
sources ;
- Données démographiques.

4 Résultats
La mise en place du système d’informations géographiques Tensift - Risques Naturels a
pu être achevée grâce à la disponibilité de la plupart des données nécessaires. Ainsi, la figure
3 montre une illustration de ce système avec délimitation du bassin versant étudié, tracé du
réseau hydrographique correspondant, report des stations de mesures, des points d’eau et de
la végétation, le tout sur un fond d’image satellite.

Les premiers traitements effectués sur le contenu de ce SIG, se focalisent sur l’aspect hy-
drologique de ce bassin versant. Dans un premier temps, nous avons procédé, grâce à un
module spécifique exploitant le MNT de la zone, à tracer le bassin versant global et ses prin-
cipaux sous-bassins (Fig. 4). Par la suite et sur la base de ces tracés, nous avons pu détermi-
ner les principales caractéristiques physiques et morphologiques de ces bassins versants et
qui reflètent tout le fonctionnement hydrologique (Tab.1). Ces paramètres ont une impor-
tance capitale pour l’évaluation des temps de concentration et débits de pointe des crues en
faisant appel aux formules et modèles couramment utilisés.

- 67 -
SIG et caractérisation des risques naturels dans la région du Tensift

FIG. 3 – Affichage des couches du SIG Tensift sur fond d’image satellite.

- 68 -
I. Er-rouane et al.

FIG. 4 – Système hydrologique du bassin du Tensift.

Rheraya Ourika Ourika Zat


Ten- Chichaoua N’fis
Oueds (au (au (à Aghba- (au
sift (au Tensift) (au Tensift)
Tensift) Tensift) lou) Tensift)
Aire du bassin versant A (km2) 20381 3118 2905 39 629.4 572.5 636.1
Périmètre P (km) 1120 334 330 189 183 127 194
Chemin hydraulique L 261.3 92.9 162.6 85.5 81.3 47.7 93.4
(km)
Altitude du point le plus 559 2223 2314 3688 3430 3430 3072
haut Zmax (m)
Altitude à l’exutoire Zmin 0 221 295 371 469 838 442
(m)
Altitude moyenne Zmoy 279.5 1222.0 1304.5 2029.5 1949.5 2134.0 1757.0
(m)
Pente moyenne Pmoy (%) 0.21 2.16 1.24 3.88 3.64 5.43 2.81
Allongement moyen de 1.83 1.66 3.02 4.28 3.24 1.99 3.71
Caquot
Indice de compacité de 2.20 1.68 1.71 2.65 2.05 1.49 2.16
Gravelius Kc
Temps de concentration 407.8 48.7 75.5 17.8 21.0 14.0 21.1
selon Passini Tc (h)

TAB. 1 – Caractéristiques hydrologiques des principaux sous-bassins du Tensift.

- 69 -
SIG et caractérisation des risques naturels dans la région du Tensift

Par ailleurs, un autre traitement de ce SIG faisant appel à l’imagerie satellite a permis
d’obtenir une carte d’occupation du sol et tout particulièrement la cartographie du couvert
végétal et qui pourrait contribuer ultérieurement à l’étude des risques d’incendie des fo-
rêts (Fig. 5).

FIG. 5 – Cartographie de l’occupation des sols (végétation) au bassin du Tensift.

Le Modèle Numérique de Terrain (MNT) de Type ASTER de résolution 30m, précé-


demment introduit dans le SIG du Tensift (Fig. 6), a permis de disposer d’une couche al-
timétrique, bien utile, d’une part, pour le tracé du réseau d’écoulement et des bassins ver-
sants et d’autre part pour la cartographie de la répartition des pentes ce qui facilitera
prochainement l’étude des phénomènes d’érosion des sols.

- 70 -
I. Er-rouane et al.

FIG. 6 – Recours aux MNT pour l’étude des inondations et phénomènes d’érosion au Tensift.

5 Discussion
L’un des risques naturels majeurs au niveau de la zone étudiée concerne les risques des
inondations survenant lors des crues le long des oueds du bassin. Les conséquences de ces
inondations sont d’autant plus importantes lorsqu’on se rend compte que beaucoup
d’agglomérations importantes sont situées à proximité des oueds. C’est le cas de la ville de
Marrakech avec l’oued Issil ainsi que le village de l’Ourika, pour ne citer que ce dernier.
Ainsi, le suivi en jaugeages de ces oueds est évidemment une tâche primordiale. Pour ce
L’ensemble de ces oueds est contrôlé par un réseau de stations hydrologiques (Fig. 3) où les
débits sont relevés régulièrement et d’une façon plus serrée lors des crues.
L’un des Oueds du bassin Tensift qui a montré des inondations importantes est l’Oued
Ourika. Les caractéristiques physiques de son sous- bassin versant au niveau de la station
AGHBALOU sont consignées dans le tableau 1. Il en ressort de ces valeurs, que le sous-
bassin de l’Ourika est celui qui montre la plus forte moyenne des pentes ainsi qu’un coeffi-
cient de compacité le plus faible ce qui se traduirait par un temps de concentration le plus
court relativement aux autres sous-bassins du Tensift.
D’après ces caractéristiques hydro-morphologiques, il s’avère que ce bassin est assez ra-
massé montrant des altitudes importantes et une pente moyenne élevée (6%). Ceci peut ex-
pliquer l’importance des crues qui peuvent survenir de temps en temps lors d’épisodes plu-
vieux extremums.
Les autres cartes établies notamment celles de la végétation (Fig. 5), de la lithologie et de
la répartition spatiale des pentes (Fig. 6) permettront prochainement de compléter cette étude

- 71 -
SIG et caractérisation des risques naturels dans la région du Tensift

par d’autres types de risques naturels menaçant la zone d’étude comme par exemple les
risques de sécheresse, de dégradation des sols et du couvert végétal.

6 Conclusion
La présente étude portant sur l’utilisation des systèmes d’information géographique pour
l’étude des risques naturels a permis de concevoir et mettre en place un outil informatique
capable de stocker, organiser, mettre à jour et procéder à différents traitements spécifiques
pour cartographier et porter la lumière sur divers aléas et risques naturels.
Un ensemble considérable de jeux et de couches d’information est à présent disponible et
prêt à être traité pour l’étude de la vulnérabilité de la région du Tensift vis-à-vis des risques
naturels pouvant toucher cette zone. Ceci constitue, en soi, un apport important pour la pré-
paration d’une base de données, la plus simple possible, pouvant servir lors de l’étude et la
cartographie de ces risques et aussi pour l’archivage et la mémorisation des évènements.
Il est à signaler que les premiers traitements entrepris, ont concerné les écoulements de
surface et ont permis de caractériser les différents sous-bassins versants de l’Oued Tensift et
de comprendre leur comportements hydrologiques en toute conformité avec les observations
passées et l’occurrence d’évènements de grande ampleur tels que les inondations de l’Oued
Ourika en 1995.
D’autres traitements sont prévisibles dans un proche avenir afin d’étudier d’autres risques
tels que cycles de sécheresse, érosion des sols ou encore la dégradation du couvert végétal
sous l’effet des pratiques agricoles ou la propagation des feux de forêts.
Enfin, ce SIG perfectible est conçu de façon à manipuler différentes catégories et sup-
ports d’information ce qui permettrait de l’utiliser en tant qu’outil d’aide à la décision face
aux différents risques naturels pouvant toucher le bassin du Tensift.

Références
Chemitte, J. (2008) Adoption des technologies de l’information géographique et gestion
des connaissances dans les organisations. Application à l’industrie de l’assurance pour
la gestion des risques naturels. Thèse de doctorat, Ecole nationale Supérieure des Mines
de Paris.
Cligniez, V. (1997) An effective spatial representation of land for natural hazard simula-
tions, tech. rep., CEMAGREF Division Nivologie, Grenoble.
El Hafid D. et Akdim B. (2018). Quantification De L'érosion Hydrique En Utilisant Le
Modèle Rusle Et Déposition Intégrée Dans Un Sig. Cas Du Bassin Versant De L’oued
Isly (Maroc Oriental). European Scientific Journal February 2018 edition Vol.14, pp.
373-385. URL:http://dx.doi.org/10.19044/esj.2018.v14n5p373.
Elfahchouch, A.N. et al (2015). Apport du SIG et de la télédétection dans la modélisation
spatiale de la susceptibilité aux mouvements de terrain dans la région d’Al Hoceima, Rif
Oriental, Maroc. Afrique SCIENCE 11(2) (2015) 44 – 57,
(http://www.afriquescience.info).
ESRI (2018), GIS/SIG 27th Annual Conference, www/gis-sig.org/2018-conference.

- 72 -
I. Er-rouane et al.

Gutton, R. (2010). Elaboration, application et spatialisation d’indicateurs géographiques


de risques naturels en zones urbanisées. Rapport de stage de fin d’études, Université Paul
Valéry de Montpellier.
Hajji, H. (2005). Gestion des risques naturels : Une approche fondée sur l’intégration
des données. Thèse de doctorat, Ecole Doctorale Informatique et Information pour la So-
ciété.
Koussa, M. et Bouziane, T. (2018). Apport du SIG à la cartographie des zones à
risque d’érosion hydrique dans la région de Djelfa, Algérie, Lebanese Science Journal,
Vol. 19, No. 1, 2018, pp. 31-46.
Laurini, R. (2001) Information Systems for Urban Planning : A Hypermedia Cooperative
Approach, Taylor and Francis, New-York.
Martin, P. (2006) Ces risques que l’on dit naturels. Editions Eyrolles.
Rajouene, M. & al (2015). Contribution à la cartographie du milieu et des risques liés
aux crues d’Oued El Maleh (Tunisie Orientale), International Journal of Innovation and
Applied Studies ISSN 2028-9324 Vol. 12 No. 1 Jul. 2015, pp. 218-227.

Summary
On April 22nd 2016, Morocco was one of the 196 countries that signed the Paris Agree-
ment. This agreement aims to mitigate the negative impact of climate change and to
overcome the natural disasters resulting from it. In that sense, the country’s leaders made
it their priority to manage natural hazards and to evaluate the land’s vulnerability. Conse-
quently, it is only appropriate to elaborate a geographic information system able to deep-
en the knowledge around the characteristics of the area being studied, in order to evaluate
its vulnerability, to organize help in case of a disaster and to estimate the loss afterwards.
This paper’s objective is to put into perspective the necessity of GISs in the preparation
of the land before disasters and its rehabilitation after them.

- 73 -
Securing data warehouses storage and exploration using
alteration and multi agent systems
Sara Rhazlane∗,∗∗ Nouria Harbi∗∗
Nadia Kabachi∗∗ , Hassan Badir∗


SDET, ENSAT Université Abdelmalek Essaadi Tanger, Maroc
sara.rhazlane@gmail.com,
hassan.badir@uae.ma,
∗∗
Laboratoire ERIC Université Lyon 2 Lyon, France
nouria.harbi@univ-lyon2.fr
nadia.kabachi@univ-lyon1.fr

Abstract. In the big data era, large amounts of data are generated in response
to the fast-growing and increasing number of users connected. With this amount
of data, comes the need for storage and exploration solutions. Using a dataware-
house hosted in a cloud environment is an effective solution to face these ris-ing
demands. However, the challenge is how to analyze and interpret this data in a
secure environment and more specifically securing the data itself. In that context,
an architecture based on multi-agent systems has been proposed which aims to
secure data during both storage and exploration in the cloud. In this paper, a
state of the art is conducted and the integration of agents in the field of security
is highlighted. In addition, a secure architecture based on multi-agent systems is
proposed. Simulation results on a case study are presented.

1 Introduction
With the emergence of new technologies and the worldwide connectivity, large amounts of
data are increasingly being generated with the need to be stored and operated quickly. Thus,
data owners tend to use large data warehouses and cloud services whether on a local or distant
server to answer this growing need. However, customers are forced to entrust sensitive data
to cloud service providers. The severity of the potential damage depends on the sensitivity of
the data exposed and services tend to raise the issue of data protection and privacy. Indeed,
the architectures mainly used for online services, are structured around components that are
in a constant threat. A big part of the security of online services is provided by application
engines but its vulnerabilities and flaws due to the development can lead to attacks. In addition,
database management systems, are privileged targets of pirates as they contain private data
stored in distant servers around the world and controlled by service providers not necessarily
reliable and negligent of attack risks.
To prevent these issues, security policies are proposed to customers. However, this is not
always enough. On the one hand, security level offered by the provider can be inaccessible
since it may vary according the amount of data stored and the customer’s financial resources.

- 75 -
Securing data warehouses storage and exploration using alteration and MAS

Moreover, even if a customer is able to afford the best offers in terms of security, he is con-
strained by those offered by the provider. In other words, the customer does not have the
opportunity to improve or adapt according to its possible needs, given that he could no longer
handle these data once hosted. On the other hand, data can be stolen and used maliciously by
the provider itself. Thus, it is profitable to each customer to take his own security measures,
regardless of what these providers offer in order to enhance security of data to be hosted in
the cloud. These measures may be, the use of data protection methods before storage, such as
Cryptography which consist of hiding sensitive data by making it unreadable. This solution
is certainly effective but has its limits. That is why a new method has recently been proposed
called data alteration. It consists in hiding sensitive data by modifying it in such a way that they
are still readable, so the modified data appear as real. In this way the cloud provider will not
suspect that the data has been altered and will not try to decipher it. This method has been first
written as simple function and recently with as a more robust algorithm. As another security
measure, costumer can use a secured architecture for data exploration.
In this context, a global architecture based on multi-agent systems has been proposed in
(Rhazlane et al., 2016). Its aims to ensure sensitive data security both in terms of storage and
exploration, on a local or distant server. In the storage side, the alteration technique is used to
secure data manually before storing it and multi-agent systems are used to securely exploit the
data hosted in the Cloud.
Our work will be structured as follows: we will start by presenting a state of the art on
data protection and security methods, encryption and decryption of data, multi agent systems
and cloud data security. Followed by a synthesis discussion and positioning according to other
works. Then, an overview of the existing architecture. We will then present illustrations and
results obtained concerning the design of the agents and finally conclusions and prospects.

2 Related works and positioning


2.1 Data protection and security
Cloud computing presents new development opportunities for professionals providing mo-
bility, synchronization, backup systems and reduced costs. But the deployment of a cloud,
whether local, distant, public or private, should necessarily be joined by security measures.
Today, the security issue is a fact confirmed by various studies. Concerns about security risks
remain the main barrier to cloud adoption by companies regarding the fact that data is dis-
tributed over individual computers in different geographical storage locations and the fact that
hackers can virtually invade any server. Besides, the risk of accidentally exposing data on the
internet or data misuse, which increase the risk of disclosure of sensitive and private informa-
tion. Such situations require a data protection technique more specifically a cryptographic data
protection, since cryptography has proven itself among the community of researchers compar-
ing to other data protection methods (See Section 1 in figure 1).

2.2 Data encryption/decryption techniques


The most known data encryption methods (See section 2 in figure 1) are Cryptography
(most used), Steganography (the oldest) and Watermarking (the most recent). Each of these

- 76 -
S. Rhazlane et al.

F IG . 1: Data protection techniques and methods related works.

F IG . 2: Cryptography, Steganography and Watermarking characteristics

methods has its own particularity and is chosen according to the needs of each user (See the
table in figure 2). Cryptography is the art of "Secret Writing". It enables to store sensitive in-
formation or transmit it across insecure networks (like the Internet) so that it cannot be read by
anyone except the intended recipient. It converts plain text "unhidden" to a cryptic text "hid-
den" to secure it against data thieves. The encrypted text needs to be decrypted on the other end
to be understood. Most encryption algorithms convert plain text to encrypt text in which we
lose data type. This solution is certainly effective but has its limits. In fact, the data obtained
after encryption is unreadable and therefore could attract the attention of a malicious cloud
provider and could be decrypted if he guesses or disposes of the encryption keys. Steganog-
raphy is an ancient art or practice. It is a branch of information hiding and its main goal is
to communicate or transit the data securely in a complete undetectable manner. This practice
hides messages within other messages in order to conceal the existence of the original. There
exists a large variety of text Steganography techniques, some are more complex than others and
all of them have respective strong and weak points. Among all the text steganography methods,
each one has respective capability to hide data in text. However, if the Cloud provider pays
particular attention to the data manipulated with steganography, it may decipher it intuitively
and then security will be destroyed. Moreover, securing a large amount of data means the need
for even more text to integrate these data. This requires large resources in terms of storage
capacity.

- 77 -
Securing data warehouses storage and exploration using alteration and MAS

Watermarking is a technique used to achieve the copyright protection of multimedia con-


tents. Multimedia represents several media such as text, image, video, audio, and graphic
objects, and they reveal very different characteristics in hiding information inside. Its main
benefits can be in copyright protection and related issues. Watermarking do not allow a pos-
sible unauthorized replication and manipulation of electronic data. Watermarking protect the
intellectual property rights. However, the amount of work done on text watermarking is very
limited and specific. Text watermarking algorithms using binary text image are not robust
against reproduction attacks and have limited applicability. Similarly, text watermarking using
text syntactic and semantic structure is not robust against attacks, with limited applicability
and usability. Watermarking techniques are computationally expensive and non-robust.
After analyzing all these methods, from different limits observed, we can conclude that
none offers an approach to alter data, neither cryptography, steganography nor watermarking
are suitable for our purpose. Cryptography fails when the malicious user is able to access the
content of the encrypted message, while Steganography fails when the malicious user detects
that there is a secret message present in the steganography medium. However, we came with
a more recent technique called Data Alteration, inspired by some strengths of the combined
steganography and cryptography methods as we mentioned in our previous work. However,
research in the field of encryption, mainly for databases, is in full growth, and is far from
understanding all of the difficulties, especially related to the exploration of encrypted data
while ensuring confidentiality.
The ultimate cloud challenge is data security, and sensitive data needs to be protected at
the datawarehouse level, not at the cloud provider level. Security will have to move to the data
level so that data owners can ensure that their data is protected wherever it is hosted. Thus,
it is advantageous for each customer to take their own security measures, regardless of what
the providers offer. These measures may be the use of data protection methods, namely the
alteration method or secure architectures based on intelligent agents that are adaptive and able
to act quickly in case of an intrusion and without user intervention. The multi-agent systems
are an effective framework, distributed and made of agents with proactive and reactive features
useful for data warehouses hosted in the cloud exploration in terms of communications and
security preserving. We will see in the following, a state of the art of research works conducted
in the field using multi-agent systems.

2.3 Multi-agent systems at the service of hosted data in the cloud


Despite the fact that there is no clear and exact convergence between the two paradigms,
multi-agent systems offer a framework to ensure the integrity, confidentiality and availability
of cloud data through their unique characteristics, autonomy, proactivity and intelligence. They
provide the functionalities that the cloud needs to manage its resources autonomously, while
the cloud provides the resources and the dynamic environment that agents need to communi-
cate and evolve in one system. Since the cloud computing is a constant changing environment,
only multi agent systems are in this case able to face its security issues by providing learning
skills, autonomy and proactivity.
According to (Othmane and Hebri, 2012), cloud computing and multi-agent systems repre-
sent a promising new approach to distributed data exploration, and there are four advantages of
using agents for distributed data exploration. Namely, keeping the autonomy of data sources,
being highly scalable to massive distributed data, the stimulation of multi-strategy distributed

- 78 -
S. Rhazlane et al.

data mining and the activation of collaborative data mining, (Zhang et al., 2005). The author
also adds that in some agent-based systems used for the cloud, agents are used to manage
cloud resources, observe user behavior and for the cloud services collaboration mechanism,
these agents treat cloud services (SaaS, PaaS, IaaS) as external entities to create, call and man-
age them.

The authors in (Munteanu et al., 2013) cite in the discussion they conducted, the work led
by (Talib et al., 2010), which presents an approach that offers a two-layer security framework, a
multi-agent layer, and another layer for cloud-based data storage. The authors discuss another
interesting approach that aims to provide an agent-based solution for automated cloud services
composition, (Gutierrez-Garcia and Sim, 2010). Their solutions addressed issues such as dy-
namic contracting of service providers, changing service charges, and incomplete information
about cloud resources while using standalone agents.

The authors in (Talib et al., 2012) proposed an architecture in the context of cloud security
based on multi-agent systems. This architecture facilitates the confidentiality, availability, and
integrity of user data stored in the cloud. The proposed solution consists of two main layers,
an agent layer and a cloud layer, and includes five main types of agents.

More recently, in 2014, the same authors discussed the possibility of a join between the
cloud and the "MAS-based CBR" and it was specified in the article how this can be achieved.

In (Zhou and QinZhou, 2014), the authors proposed data security framework using flex-
ibility, good interaction and strong learning ability of multi-agent systems. This architecture
consists of four agents, namely the "Privacy Agent", "The Fix Agent", "The Availability Agent"
and "The Integrity Agent". These frameworks in the form of agents makes it possible to ensure
the security of the global framework. A simulation by 15 users was carried out to test the
feasibility of the proposed architecture and showed a good performance.

The study of these research papers concluded that there are several differences and great
synergy beneficial in both directions. The evolution of the agents towards autonomous software
components able to act in case of emergency without intervention of the user is extremely
beneficial in terms of security and prevention of attacks. The use of multi agent systems in
research stands out generally in three types of uses: the simulation of complex phenomena, the
problem solving, and communication while focusing on the aspect individual and collective
intelligence.

This analysis also conducted that the use of multi-agent systems for data warehouses pro-
tection and confidentiality in a cloud environment is still at its early stages and was discussed
only in limited works (See section 3 in figure 1). The originality of our approach is the use of
multi-agent systems for their features, which will allow an optimal way to ensure the confiden-
tiality, availability and integrity of data storage and exploitation. Indeed, none of the works dis-
cussed presented a security solution managing both storage and exploration. Also, the agents
used in these works presented at most 2 characteristics of the 6 characteristics present in our
work and fundamental for a secure data exploration (See the table in figure3 ).

- 79 -
Securing data warehouses storage and exploration using alteration and MAS

F IG . 3: Comparison of related works and our proposition regarding the agents characteristics.

3 Proposed solution

3.1 General approach


Our proposal is taking part of a cloud data security preserving solution architecture that
was proposed on a previous work (Rhazlane et al., 2017), exploiting the features of multi-
agent systems to provide an optimal and secure storage and exploration solution. This security
solution can be adopted by companies or for personal use and allows the user to benefit from
cloud services by preserving the security of its sensitive data in two parts: a component pre-
serving the security of storage and a component preserving the security of the exploration of
the data. The data storage aspect of the solution is based on an alteration process to secure and
encrypt data before storage in the cloud, as well as an intelligent multi-agent system designed
to secure data exploitation. User authentication is managed based on user profiles in a work
proposed by our team in (ElOuazzani et al., 2018) and (ElOuazzani et al., 2016).
As presented in the architecture proposed in (Rhazlane et al., 2017), the alteration process
is performed each time manually by the data administrator owner. In order to propose a new
version of the alteration process, a modified version of the architecture (see Figure 4) should
be proposed with new agents that exploit data storage more deeply. On the other hand, the
data exploration part required changes in agent roles to improve the handling of user requests.
The proposed new architecture is now distributed with communicating reactive agents and a
well-distributed processing load to minimize damage in the case of an attack or an intrusion.
The new architecture (See figure 4) is composed of 4 main actors:
— Data owners and administrators: They are responsible for defining the sensitive data
(which columns of the table) to alter. This metadata is then used, on the one hand, to
alter the data before storing it in the database hosted by the cloud provider, and on the
other hand, by the database exploration tool. Administrators can update the metadata
and deploy the database in the cloud;
— The client: Explore the database, using its application, can send the query to explore
the altered cloud database through the MAS and receive the results as desaltered data;
— The cloud server: Receives the query and returns the results through the MAS;

- 80 -
S. Rhazlane et al.

— The multi-agent system (MAS), which includes 2 parts: the data exploitation com-
ponent, with 3 agents (client agent, translation agent and desalteration agent) and the
data storage component including 2 agents (user agent, alteration agent) and an object
(metadata DB) which contains information about the sensitive data to be altered.

F IG . 4: Architecture of the proposed solution.

3.2 Data alteration


As proposed in (Rhazlane et al., 2017), the data alteration technique was conceived to
encrypt sensitive data by modifying it in such a way that they are still readable, so the modified
data appear as real. In this way the cloud provider will not suspect that the data was altered,
and eventually will not try to decipher it.
The alteration is inspired much of Steganography, in the sense that it also aims to hide the
data. The fundamental difference between alteration and steganography is that the last one
uses the data to hide other data, but the alteration changes the data itself. This method has
been recently proposed for the first time and was applicable only on numbers. However, the
used algorithm was based on a simple mathematical function to alter numbers. Then, it has
been improved, and its second version proposes a more complex algorithm that uses encryption

- 81 -
Securing data warehouses storage and exploration using alteration and MAS

and decryption functions, applied on lowercase strings as well as integers. However, in this
algorithm, the result of numbers alteration remains static, that means the same number altering
several times would give the same result. This is not very safe in terms of security. That is
why a third version was proposed, which alters the numbers dynamically as well as strings
(according to a context presenting dictionary) in lowercase and uppercase. The solution was
also tested on FASTQ files containing nucleotide sequences and showed good results. The
alteration technique will subsequently be used along with the existing the multi-agent system
based architecture.

3.3 The Multi-agent system


Regarding the agents, their integration was made according to 3 components: authentica-
tion, cloning and learning and recommendation. An authentication between agents is necessary
to ensure the security of communication between the different agents. This security is man-
aged by authentication tokens. To have an operational system it was also necessary to ensure
a cloning system for agents and to avoid a fault in the system in case of failure. Regarding
the learning component, which is the most promising part of our solution, the agents were
designed so that they have the learning and recommendation capacity in order to have a smart
system able to act in the case of a breakdown or intrusion without user intervention. Citing
for example that the agents of the system possess the capacity to keep the traceability of the
most frequent queries questioned by the client, the ability of the agent to learn in relation to
his activity and to deduce his own autonomy as well as its ability to learn from the history of
operations and actions of users.

4 Experimental results
In order to test the feasibility of our solution, we conducted a series of tests on raw data
using different examples of queries. The validation of our proposition was made by analyzing
the results provided and through its overall functioning: the exchange of messages between the
client the MAS and the server, from the first message (user SQL query to run) until the return
of clear data (execution results of the query). The test took also into account, the creation
of the server version of the query generated by the Translator Agent and its execution. We
present in the following an example of application handling the "Alteration Agent" realized
during the test and handling of the prototype developed using the JADE platform. For the
test, we produced data from the SCOTT database. Also, during the demonstration, we will be
interested in 2 aspects:
1. Different interactions between the developed agents and the administrator, visualized
through the interfaces;
2. Different interactions between the agents visualized through the "sniffer agent" and the
"introspector agent" which are agents integrated into the JADE platform allow-ing the
visualization of the messages exchanged between agents.
When the application is launched, the UserAgentGUI loads the different database names and
displays them in the client interface. Then, the user (data administrator) chooses the table
containing the sensitive data he wants to alter. We chose for instance the "employees" table.

- 82 -
S. Rhazlane et al.

Once the table is selected, the content is displayed. Next, the user displays the description of
the selected table and selects the columns to alter. For the test we chose to alter the columns
"emp-no", "first-name", "last-name" and "salary" of the employees table. Once validated, the
"UserAgentGUI" sends the information needed to the "AlterAgent" in other to alter the selected
columns. This information is sent through "INFORM" type messages as shown in figure 5.

F IG . 5: UserAgent and AlterAgent Communication with Introspector and Sniffer Agent GUI.

After receiving information, "AlterAgent" alters the selected columns and stores them in
a database he creates (This database will be hosted later in the Cloud). When this process is
done, the "AlterAgent" asks the user if he wants to view or desalter the altered data. Once
the user answers with "YES" on his choice, the "AlterAgent" informs the desalteration agent
DesaltAgentGUI" of the command as shown in figure 6.

Altered data can be viewed and user can choose which of the altered columns he wants to
desalter, see figure 7, a. The user can then choose which of the altered columns to desalter and
once the columns chosen, the "Desalter Agent" performs the desalteration and finally reloads
them in its interface for visualization (See figure 7, b). We can see from the results displayed on
figure 7 that the entrees from the desaltered data are the exact same as the raw data (see emp-no
column), which means that the alteration process is working and showing good results. The
figure 8 shows the alteration process applied on the column at two running times t1 and t2
and the results showed totally different entries which confirms that the alteration process is
dynamic as the alteration algorithm claims.

- 83 -
Securing data warehouses storage and exploration using alteration and MAS

F IG . 6: AlterAgent and DesaltAgentGUI Communication with Introspector and Sniffer Agent


GUI.

F IG . 7: View on the raw data (a), altered data (b) and desaltered data (c).

- 84 -
S. Rhazlane et al.

F IG . 8: View on the altered data at running time t1 (a) and running time t2 (b).

5 Conclusion
As part of this work, we proposed a solution based on multi-agent systems for the pro-
tection of data hosted in the cloud: storage and exploration. We tested the interoperability
of multi-agent systems regarding the cloud computing environment. This work presented a
brief synthesis discussed in three main axes, the data protection and security, data encryp-
tion/decryption techniques and the multi-agent systems for hosted data in the cloud. We then
focused on the alteration solution and the multi-agent system architecture as well as the propo-
sition joined with test results on real datasets. However future perspectives may complement
and develop this work, namely the development of agents intelligence characteristics within the
proposed architecture but also the development of communication aspects and the evolution of
agents within the cloud environment.

References
ElOuazzani, A., N. Harbi, and H. Badir (2018). User profile management to protect sensitive
data in warehouses. International Journal of Next-Generation Computing 9.
ElOuazzani, A., S. Rhazlane, N. Harbi, and H. Badir (2016). Dynamic management of data
warehouse security levels based on user profiles. In IEEE (Ed.), 2016 4th IEEE International
Colloquium on Information Science and Technology, pp. 59–64.
Gutierrez-Garcia, J. O. and K.-M. Sim (2010). Self-organizing agents for service composition
in cloud computing. In Second International Conference, CloudCom. Indianapolis, Indiana,
USA, Proceedings, pp. 59–66.
Munteanu, V. I., T.-F. Fortis, and V. Negru (2013). An event driven multi-agent architecture
for enabling cloud governance. In 2012 IEEE Fifth International Conference on Utility and
Cloud Computing (UCC). IEEE.

- 85 -
Securing data warehouses storage and exploration using alteration and MAS

Othmane, B. and R. S. A. Hebri (2012). Cloud computing & multi-agent systems: A new
promising approach for distributed data mining. In Proceedings of the ITI 2012 34th Inter-
national Conference on Information Technology Interfaces (ITI). IEEE.
Rhazlane, S., H. Badir, N. Harbi, and N. Kabachi (2016). Intelligent multi agent system based
solution for data protection in the cloud. In 2016 IEEE/ACS 13th International Conference
of Computer Systems and Applications (AICCSA), pp. 111–122. IEEE.
Rhazlane, S., A. E. Ouazzani, N. Harbi, N. Kabachi, and H. Badir (2017). Data alteration: A
better approach to securing cloud data with encryption. In the EDA Conference Revue des
Nouvelles Technologies de l’Information, pp. 111–122. RNTI.
Talib, A. M., R. Atan, R. Abdullah, and M. A. A. Murad (2010). Security framework of cloud
data storage based on multi agent system architecture: Semantic literature review. Computer
and Information Science 3, 175–186.
Talib, A. M., R. Atan, R. Abdullah, and M. A. A. Murad (2012). Security framework of cloud
data storage based on multi agent system architecture - a pilot study. international confer-
ence. In International Conference on Information Retrieval and Knowledge Management,
pp. 54–59. IEEE.
Zhang, C., Z. Zhang, and L. Cao (2005). Agents and data mining: Mutual enhancement by
integration. In Autonomous Intelligent Systems: Agents and Data Mining. AIS-ADM 2005,
Volume 3505, pp. 50–61. Springer.
Zhou, H. and S. QinZhou (2014). Security framework for cloud data storage based on multi-
agent system. Computer Modelling & New Technologies, 548–553.

Résumé
De nos jours, de grandes quantités de données sont générées en réponse au nombre crois-
sant d’utilisateurs connectés. Cette quantité de données entraîne le besoin de solutions de sto-
ckage et d’exploration. L’utilisation d’un datawarehouse hébergé dans un environnement cloud
est une solution efficace pour faire face à ces demandes croissantes. Ce-pendant, le défi consiste
à analyser et interpréter ces données dans un environnement sécurisé, et plus précisément à sé-
curiser la donnée elle même. Dans ce contexte, une architecture basée sur des systèmes multi-
agents a été proposée, qui vise à sécuriser les données pendant le stockage et l’exploration dans
le cloud. Dans cet article, un état de l’art est réalisé et l’intégration des agents dans le domaine
de la sécurité est mise en évidence. De plus, une architecture sécurisée basée sur des systèmes
multi-agents est proposée. Les résultats de la simulation d’une étude de cas sont présentés.

- 86 -
Utilisation du système d’information géographique et de la
télédétection pour la spatialisation de l’érosion hydrique :
Application au bassin versant de Rhéraya
(Haut Atlas, Maroc)

Aouatif Cheggour*, Sadik Errouane**, Vincent Simonneaux***

* GEOMA, 2131, Lot Azzouzia, Marrakech, Maroc


aouatif.ch@gmail.com
** EMSI, lotissement Bouizagaren, n°5, Route de Safi, Marrakech, Maroc
sa.errouane@emsi-edu.ma
*** IRD-CESBIO, 18 av. Edouard Belin, 31401 Toulouse Cedex 9, France
simonneaux@ird.fr

Résumé. La gestion de l'érosion hydrique nécessite des études longues et coûteuses, mais
des mesures spécifiques, même si elles sont très précises, ne peuvent conduire à la vision
synoptique dont les scientifiques et les gestionnaires ont besoin. La complexité de ce
phénomène et l'étendue de la zone d'étude, nécessitent l'utilisation de méthodes et de moyens
puissants (système d'information géographique, télédétection…) pour la gestion de
l'information géographique.
Dans ce contexte, ce travail vise à cartographier les risques d'érosion hydrique dans le
bassin versant de Rhéraya (228 km²), à travers la spatialisation de certaines mesures réalisées
sur des parcelles d'érosion (140 m²) à l'aide d'un système d'information géographique (SIG).
Cette extrapolation est basée sur une stratification du bassin en unités physiques caractérisées
par la combinaison du type de sol, de la végétation et des caractéristiques de la surface du
sol. Cette stratification est obtenue par l’interprétation visuelle de l’image satellite SPOT 4
(résolution de 20 m) et d’une carte géologique au sein d’un SIG. Les résultats des parcelles
d’érosion installées sur les principaux sols du bassin versant de Rhéraya sont extrapolés pour
tous les polygones de la même classe pour l’ensemble du bassin, fournissant ainsi une carte
d’évaluation de l’érosion.
Ces résultats sont validés par des mesures des matières en suspension effectuées à la
sortie du bassin versant de Rhéraya.

Mots clés: érosion hydrique, SIG, télédétection, spatialisation, Rhéraya.

- 87 -
Utilisation du Système d’information géographique et de la télédétection pour la
spatialisation de l’érosion hydrique

1 Introduction
L’érosion hydrique est une source de la dégradation des sols dans les régions semi arides
et surtout en zone méditerranéenne. Elle constitue une cause principale de la désertification.
Les études récentes sur la vulnérabilité aux changements climatiques dans la région
méditerranéenne indiquent une tendance à un accroissement de l’aridité qui accélère la
dégradation des sols.
Ce phénomène naturel, qui a un impact très néfaste au niveau régional, dépend d'une
multiplicité de facteurs interagissant entre eux, et sont de ce fait complexes à modéliser, ce
qui nécessite des études longues et coûteuses.
L'utilisation de la télédétection et des systèmes d’information géographique (SIG) a rendu
possible la modélisation et la spatialisation de l’érosion hydrique à un coût raisonnable
(Raissouni et al., 2012; Akalai et al., 2014 ; Koussa et Bouziane, 2018), d’où le choix de ce
sujet, qui a pour objectif, de montrer l’apport des SIG et de la télédétection pour la
spatialisation de l’érosion hydrique dans le bassin versant du Rhéraya.

2 Matériels et méthodes
Ce travail concerne le bassin montagneux du Rhéraya de 228 km², situé dans le Haut
Atlas occidental du Maroc à une quarantaine de kilomètres au sud de Marrakech. Les
altitudes varient de 925m à 4165m (le point le plus élevé de l’Afrique du nord : Jbel
Toubkal). Les pentes sont fortes, elles varient généralement de 10 à 60 %. Le climat est
semi-aride, caractérisé par une très grande irrégularité spatiale et temporelle des
précipitations, avec une moyenne de 360 mm.an -1. Du point de vue géologique, le substratum
de la zone avale du bassin comprend des argiles rouges permotriasiques et des calcaires
localement marneux, alors que les deux tiers amont sont constitués par des formations
volcaniques (andésites, granites) nettement plus stables. La végétation naturelle, constituée
essentiellement de thuya en basse altitude et de chamephytes en haute altitude, est très
dégradée suite à la déforestation et au surpâturage.
Si les méthodes de mesure directe et indirecte de l'érosion hydrique, ou plus précisément
de son estimation, sont nombreuses (Wischmeier et Smith, 1960 ; Godard et Rapp, 1987),
deux méthodes d'estimation de l'érosion dominent (Mabit et al., 2002). La première méthode,
porte sur la mesure de pertes en terre par des parcelles expérimentales. Une autre approche
consiste à mesurer, à l'exutoire des bassins versants, les flux liquides et solides par
l'installation d'une station d'échantillonnage.
Six parcelles d’érosion (140 m2) ont été installées sur des milieux représentatifs du
bassin. Cinq années d’observation ont montré que dans la majorité du bassin les évènements
provoquant du ruissellement sont rares et produisent peu de sédiments (entre 0.015 et 2.5
t.ha-1.an-1). Inversement, le ruissellement est plus fréquent et l’érosion nettement plus
importante sur les ravines argileuses (350 t.ha-1.an-1). Il apparaît ainsi que dans notre
contexte, les méthodes de mesure in situ des risques de ruissellement et d’érosion sous pluies
naturelles (parcelles d’érosion) sont longues et coûteuses du fait de la rareté des évènements
ruisselants.

- 88 -
A. Cheggour et al.

Ces mesures locales de l’érosion, même si elles sont correctes, ne peuvent conduire à la
vision synoptique dont les scientifiques et les gestionnaires ont besoin. Les gestionnaires
d’ouvrage hydraulique (retenues, réseau de distribution), ont besoin de connaître la quantité
totale de sédiments exportés d’un bassin versant, ou bien la turbidité de l’eau qui s’en écoule.
La complexité des processus d’érosion et les effets d’échelle qui les affectent font que
l’érosion à l’échelle d’un bassin versant entier ne peut être déduite simplement de la somme
des érosions constatées sur les versants. En effet, les phénomènes d’érosion linéaire d’une
part, susceptibles d’augmenter encore la quantité de terre exportée, et d’autre part les
phénomènes de sédimentation dans certaines zones sur les versants ou dans le réseau de
drainage, susceptibles au contraire de réduire l’exportation de sédiments, ont amené à la
définition du concept de «Sediment Delivery Ratio» (SDR). Le SDR est le rapport de la
somme des départs de terre estimés au niveau des versants (via par exemple des parcelles de
type Wischmeier), et la quantité de terre exportée à l’exutoire d’un bassin versant.
C'est dans cette optique que s'intègre ce travail, qui s’appuie sur la spatialisation des
mesures effectuées sur des parcelles d’érosion dans le bassin versant du Rhéraya, via un SIG,
pour remplir les objectifs suivants :
- la cartographie de l’érosion hydrique à l’échelle du bassin-versant et
l’identification des zones les plus sensibles ;
- la comparaison des résultats de cette spatialisation avec les mesures de transport
solide effectuées à l’exutoire du bassin.
Afin de spatialiser les résultats des parcelles d’érosion, une stratification du bassin a été
réalisée en fonction de la similarité estimée des milieux avec nos six parcelles d’érosion, sur
la base de la carte géologique et d’images satellitaires. La surface occupée par les plantations
de pin est négligeable par rapport à la totalité du bassin, de ce fait, on a considéré que
l’occupation du sol est constitué essentiellement du sol nu (parcelle ravine), parcours non
dégradé et parcours dégradé (trois parcelles sur parcours). Les sols ont été groupés en trois
classes: Les argilites rouges (parcelle de ravine sur argilite), les substrats argilo-calcaires
(parcelle parcours) et les substrats magmatiques (deux parcelles parcours). Du fait de leur
très forte contribution à l’érosion hydrique dans le bassin versant, une cartographie précise
des ravines est indispensable.
La cartographie des ravines des argilites rouges a été effectuée grâce au serveur Google
Earth http://earth.google.com/intl/fr/) qui propose sur le nord du bassin, là où il se trouve la
majorité des ravines sur argilites, des images de très haute résolution spatiale (résolution
d’ordre métrique, type Quickbird). Par ailleurs, pour les zones ravinées où ces images
n’étaient pas disponibles, vers le sud du bassin, des tournées de terrain ont permis de
cartographier ces zones ravinées. Cette cartographie est assez simple à réaliser sur le terrain
car les ravines sur argilite se voient de loin. Cependant, des variations de faciès existent, et
quelques zones de roches rouges affleurantes sont en fait que des affleurements d’argiles
indurées ou de grès altérés, et sont nettement moins érodables a priori vu leur texture
granulaire très grossière et l’absence d’éléments fins. Ces zones se distinguent également de
loin, car elles ne présentent pas une microtopographie de ravines mais sous forme de surfaces
lisses. Au final, la surface occupée par ces ravines est de 272 ha soit 1,2% de la surface du
bassin versant de la Rhéraya (figure 1).

- 89 -
Utilisation du Système d’information géographique et de la télédétection pour la
spatialisation de l’érosion hydrique

FIG. 1 – Délimitation des ravines à partir des images satellitaires Google Earth. Exemple
dans la cuvette d’Asni

La stratification du bassin versant sur la base de la carte géologique a été réalisée en


regroupant les unités de la carte géologique en deux catégories (figure 2). Les substrats dits
«argilites» concernent les substrats argileux, calcaires, marno-calcaires et basaltiques. Les
substrats «magmatiques» sont assimilés aux substrats volcano-sédimentaires, granitiques,
gréseux et schisteux.

- 90 -
A. Cheggour et al.

FIG. 2 – Carte des unités géologiques simplifiées

- 91 -
Utilisation du Système d’information géographique et de la télédétection pour la
spatialisation de l’érosion hydrique

Pour les deux parcelles de parcours sur substrats magmatiques, nous avons estimé
arbitrairement, à partir de notre connaissance du terrain, qu’un tiers des parcours sur substrat
magmatique était dégradé, les deux tiers restant non dégradés.
La combinaison des occupations et des types de sols fournit au final une subdivision du
bassin versant en trois zones :
- ravines des argilites rouges (badlands) ;
- parcours sur substrat argilo-calcaire ;
- parcours sur substrat magmatique (dont 34% dégradé et 66% non dégradé).

3 Résultats et discussions
La spatialisation des résultats des parcelles d’érosion est effectuée, en associant les
résultats des parcelles d’érosion installées sur les principaux substrats du bassin versant de la
Rhéraya aux polygones de la même classe pour tout le bassin. La somme de ces valeurs
permet de calculer l’érosion totale des versants. Afin de pouvoir comparer les parcelles et
l’exutoire, on ne considère dans les deux cas que les matières en suspension, à l’exclusion
des terres de fond. Pour la parcelle ravine sur argilites, les terres de fond étant en fait de la
boue produisant à terme de la matière en suspension, elle a été assimilée à de la matière en
suspension.
L’extrapolation spatiale des mesures des parcelles d’érosion à l’ensemble du bassin
versant, fournit pour les années étudiées des valeurs situées entre 2,5 et 6,9 t.ha -1.an-1. Malgré
la grande variabilité spatiale (substrat et occupation du sol) et temporelle de l’érosion dans le
bassin, et malgré la faible surface représentée par les badlands (1,2%), elles contribuent
toujours de manière écrasante, en moyenne 90%, à l’érosion totale annuelle du bassin. Ce
phénomène a déjà été souligné par divers auteurs (Gomer, 1994 ; Marston Richard et Dolan
Lawrence (1999)). Il apparaît ainsi clairement que, du point de vue du gestionnaire de l’eau,
les actions de conservation des sols devraient traiter en priorité les ravines des argilites
rouges qui contribuent à l’envasement des barrages. Ce résultat est en accord avec le fait que
les sédiments récupérés à l’exutoire du bassin sont en général de couleur rouge, proche de
celle des argilites permotriasiques. Une analyse minéralogique permettrait sans doute de
confirmer ce fait, et notamment la proportion de 90% avancée pour la contribution du
permotrias aux sédiments totaux.
La comparaison entre les valeurs de l’extrapolation spatiale des parcelles d’érosion et les
mesures de MES effectuées à l’exutoire du bassin montre qu’il y a une forte proportionnalité
entre les deux variables. Le Sediment Delivery Ratio (SDR) moyen est d’environ 0,96. Ce
SDR montre un système de drainage stable, sans phénomène important d'érosion linéaire qui
augmenterait les sorties, et également sans zones de dépôts sur les versants ou dans les oueds
qui les diminueraient par rapport à l’ablation des sols. La quantité de sédiments exportés par
le bassin correspond en première approximation à l'érosion des sols. Ces valeurs de SDR sont
communes dans les bassins versant montagneux. Elles peuvent être supérieures à 1 dans des
régions où le réseau hydrographique entaille des roches meubles. Ici, les observations de
terrain montrent des lits d’oueds fortement empierrés, comportant peu de matières en
suspension. Les parties meubles visibles dans le lit de ces oueds ne sont pas constituées de

- 92 -
A. Cheggour et al.

substrats ou de sols en place, mais de dépôts allochtones de sédiments et de reprise de cônes


de déjections ou terrasses récentes. Inversement, dans les bassins comportant des parties
basses de pentes faibles où les processus de sédimentation sont importants, on peut trouver
des SDR de l’ordre de 0,1.
La spatialisation de l’érosion hydrique via un SIG, permet l’identification des zones où la
dégradation des sols et les risques d’érosion sont les plus intenses, afin d’aider les décideurs
dans la planification et la conservation des sols.

4 Conclusion
L’extrapolation spatiale des mesures des parcelles d’érosion à l’ensemble du bassin
versant, a fourni pour les années étudiées des valeurs situées entre 2,5 et 6,9 t.ha-1.an-1. On
estime ainsi que les ravines sur argilites qui ne représentent que 1,2% de la superficie du
bassin contribuent ainsi de manière écrasante (90%) aux exportations de sédiments à
l’exutoire. Les actions de conservation des sols devraient donc traiter en priorité ces ravines
qui contribuent à l’envasement des barrages. Le phénomène d’envasement est une menace
grave qui pèse sur le système d’approvisionnement en eau du Maroc, étant donné qu’il est
quasi irréversible et que les sites potentiels de retenues d’eau sont en nombre limité.
La comparaison entre ces valeurs d’érosion extrapolées spatialement et les mesures de
MES réalisées à l’exutoire du bassin, montre qu’il y a une forte proportionnalité entre les
deux variables, avec un taux de délivrance en sédiment (SDR) d’environ 0,96. Cette valeur
élevée est typique des bassins montagneux qui ne connaissent pas de phénomènes importants
de sédimentation interne au bassin. De plus, le fait que cette valeur soit proche de 1 montre
que les processus de départ estimés sur les versant à partir de l’extrapolation des parcelles
correspondent plus ou moins aux sorties et que à part les ravines identifiées et
cartographiées, aucun phénomène d’érosion linéaire important ne semble donc s’ajouter à
l’érosion en nappe et en rigole. Ces conclusions correspondent bien à ce qui peut être
observé visuellement sur le terrain. En effet, à part les ravines sur argilites, on observe peu de
phénomènes d’érosion linéaire sur les versants et la majeure partie des ravines observées sont
stabilisées par des lits rocheux.
Pour finir, la spatialisation à l’aide des SIG et de la télédétection, permet l’identification
des zones à l’échelle du bassin où les interventions sont nécessaires pour limiter les
processus de dégradation des sols. Ce sont des outils de surveillance capable d’offrir aux
gestionnaires des données fiables sur toutes les régions, même les plus éloignées et les plus
inaccessibles.

Références
Akalai N., Hlila R., El Imrani M. et al. (2014). Risk of water erosion in coastal watersheds
north of Tetuan (Internel Rif, northern Morocco): Evidences from GIS-based spatial
approach. International Journal of Innovation and Applied Studies, 8, 4, 1735-1751.
Godard A, Rapp A. (1987). Processus et mesure de l'érosion. Paris: CNRS, 576 p.
Gomer D. (1994). Ecoulement et érosion dans des petits bassins versants à sols marneux sous
climat semi-aride méditerranéen – traduction française (Paschen H. et Vogt H.) de la

- 93 -
Utilisation du Système d’information géographique et de la télédétection pour la
spatialisation de l’érosion hydrique

thèse soutenue à l’Université Technique de Karlsruhe. Collab. Agence Nationale


Ressources Hydrauliques (Algérie) GTZ (Allemagne) dans le cadre du "Projet Pilote
d’Aménagement Intégré du BV de l’Oued Mina"- 207p + 25 annexes.
Koussa M. et Bouziane T. (2018). Apport du SIG à la cartographie des zones à risque
d’érosion hydrique dans la région de Djelfa, Algérie. Lebanese Science Journal, Vol. 19,
No. 1.
Mabit L., M. R. Laverdière et C. Bernard (2002). L'érosion hydrique : méthodes et études de
cas dans le Nord de la France. Cahiers d'études et de recherches francophones /
Agricultures. Volume 11, Numéro 3, 195-206.
Marston Richard A. et S. Dolan Lawrence (1999). Effectiveness of sediment control
structures relative to spatial patterns of upland soil loss in an arid watershed, Wyoming.
Geomorphology; 31: 313-323.
Raissouni A., Khali Issa L., El Arrim A. et al. (2012). GIS based model to assess erosion
sensitivity in Northern Morocco. Laou watershed case study. International Journal of
Geosciences 3, 610-626. http://dx.doi.org/10.4236/ijg.2012.33061.
Wischmeir W.H. et D.D. Smith (1960). A Universal Soil Loss Estimating Equation to Guide
Conservation Farm Planning. Proc. HT ISSS. Vol. 1, p. 418-425.

Summary
The land management against water erosion requires long and expensive studies, but
specific measurements, even if they are very precise, cannot lead to the synoptic vision
which the scientists and the managers need. The complexity of this phenomenon and the
extent of the study area require the use of methods and powerful means (Geographical
Information System, Remote sensing…) for the geographical information management. In
this context, this work aims at mapping the risks of water erosion in the Rheraya catchments
(228 km2), through the spatialization of some measurements achieved on erosion plots (140
m²) using a Geographical Information System (GIS). This extrapolation is based on a
stratification of the basin in physical units characterized by the combination of the type of
soil, the vegetation and ground surface features. This stratification is obtained through the
use of visual interpretation of satellite SPOT 4 image (20 m resolution) and a geological map
within a GIS. The results of the erosion plots installed on the main soils of the Rheraya
catchments are extrapolated for all the polygons of the same class for the entire basin
providing a map of erosion assessment. These results are validated by measurements of the
suspended matter carried out at the outlet of Rheraya catchments.
Key words: erosion, GIS, remote sensing data, spatialization, Rheraya.

- 94 -
Recours aux Systèmes d’Information Géographique pour le
management d’un projet intégré de développement local à la
commune de Sidi Boubker
Province Rehamna, (Maroc)
Intissar Er-rouane*,
Lamia Jadoual**, Faiçal Benhida*** & Sadik Er-rouane**
*Département de Géologie, Faculté de Ben Msik, Université Hassan II, Casablanca.
Intissar.errouane@gmail.com
** Ecole Marocaine des Sciences de l’Ingénieur (EMSI), Marrakech.
jadouallamiae@yahoo.fr
serrouane@gmail.com
*** Coopérative de valorisation du Cactus de Sidi Boubker, Rehamna.
f.benhida@live.fr

Résumé. La commune de Sidi Boubker fait partie de la province Rehamna et


se situe à une trentaine de kilomètres au Nord-Est de Marrakech. Le climat de
cette région est de type aride avec des potentialités en eau très faibles. Sa géo-
logie est constitué de schistes primaires dont l’altération génère un sol caillou-
teux très peu fertile. Ces conditions environnementales condamnent profondé-
ment les conditions de vie des habitants de cette région où l’activité agricole se
résume à l’agriculture céréalière pluviale aux rendements très faibles.
L’élevage, de ce fait, demeure l’activité principale de la zone. Les différentes
caractéristiques du contexte physique et socio-économique de la zone ont été
intégrées dans un SIG dont l’exploitation a servi de se munir d’un support car-
tographique utilisé comme outil d’aide à la décision. Ceci a permis de ressortir
les axes prioritaires d’intervention pour favoriser la bonne gestion des res-
sources de la commune en vue d’un développement socioéconomique durable
de la région.

1 Introduction
La commune de Sidi Boubker se situe à une trentaine de kilomètres au Nord-Est de Mar-
rakech et se caractérise par un climat de type aride peu clément. Les températures y sont
contrastées, basses en hiver et très fortes en été. L’historique des données climatiques sur les
40 dernières années montre une tendance générale au réchauffement de l'ordre de 2° ainsi
qu’une baisse de la pluviométrie annuelle.

- 95 -
SIG pour le développement local de la commune de Sidi Boubker, Rehamna

La commune se situe dans la partie centrale de la chaine des Jebilet où existe des forma-
tions du Viséen supérieur- Namurien composées d’une puissante série de schistes dont la
frange d'altération peut contenir une nappe phréatique de potentialités très faibles.
Les deux traits environnementaux caractérisant la commune sont la rareté excessive des
ressources en eau, qui s’aggrave de plus en plus et la prédominance de sols très peu fertiles.
Ces deux facteurs condamnent profondément les conditions de vie des populations qui prati-
quent une agriculture céréalière pluviale avec des rendements très faibles. De ce fait,
l’élevage s’impose comme occupation principale quoique également très affecté par l’aridité
et la sécheresse.
Durant les dix dernières années et afin de surmonter ces conditions fort limitantes et en
même temps s’adapter aux impacts des changements climatiques, la société civile de la
commune s’est mobilisée pour mettre en place des projets locaux intégrés. C’est le cas du
projet présenté qui vise l’amélioration des conditions de vie avec installation d’un réseau de
distribution d’eau et sa gestion selon l’approche genre ainsi que la programmation d’activités
génératrices de revenus dans les domaines de l’artisanat et de l’élevage. Pour réussir ce der-
nier défi, par exemple, la population s’est organisée en associations et coopératives pour
l’amélioration des conditions de valorisation du cactus, plante fourragère par excellence qui
supporte bien le stress hydrique et de plus préserve l’environnement.
Ces différentes caractéristiques du contexte physique et socio-économique de la zone
étudiée ont été intégrées dans un Système d’Information Géographique élaboré à cet effet.
Ce système englobe différentes couches d’information se rapportant à des classes de données
bien ciblées.
Les traitements opérés au sein de ce système ont permis de se doter d’un atlas cartogra-
phique utilisé comme outil d’aide à la décision. Ainsi, l’exploitation du SIG a mis la lumière
sur les axes prioritaires d’intervention pour favoriser la bonne gestion des ressources de la
commune en vue d’un développement socioéconomique durable de toute la zone.
Dans ce qui suit, nous allons présenter la zone d’étude des points de vue géographique,
climatologique et socioéconomique. Ensuite nous dégagerons successivement les ressources
en eaux, en sol avant de mettre la lumière sur les principales composantes du projet de déve-
loppement intégré de la commune telles que définies par l’exploitation du support cartogra-
phique résultant du SIG. Enfin les principaux renseignements issus de cette étude seront
présentés en conclusion.

2 Présentation de la zone d’étude


2.1 Géographie physique et humaine
La commune de Sidi Boubker, appartenant à la province de Rehamna, cercle et caïdat de
Sidi Bou Othmane, a été créée lors du découpage communal de 1962. Avec ses 16 douars,
elle s’étend sur une superficie de 223 Km². Située au Nord-Est de Marrakech (Fig. 1), on y
accède en empruntant la route provinciale P2118 qui relie Marrakech à Sidi Boubker.

- 96 -
I. Er-rouane et al.

FIG. 1 – Situation géographique de la zone d’étude.

2.2 Cadre morphologique et démographique


Les données morphologique et démographique sont résumées dans la figure suivante :

FIG. 2 – Cadre morphologique et démographique de la commune Sidi Boubker.

- 97 -
SIG pour le développement local de la commune de Sidi Boubker, Rehamna

Ainsi, la commune de Sidi Boubker se trouve insérée entre deux chainons : l’un au Nord
culminant à 1061m au Jbel Taksim non loin de Douar Oulad Bouzid. L’autre au Sud culmi-
nant à 865m à proximité de Skoura. La partie centrale est tout d’abord quasiment plane à
environ 550m, ou se trouve quelques douars de la commune et se poursuit par un versant de
pente faible ou se localise la majorité des douars avant d’atteindre la zone des reliefs au nord
avec localisation de trois douars restants.
Cette configuration géomorphologique est en relation directe avec la nature lithologique
des formations géologiques présentes. Elle entrainera également une certaine subdivision des
sous bassins versants qui drainent les eaux pluviales selon un réseau hydrographique qui
rejoint en définitive l’oued Tensift principal collecteur des ruissellements de toute la région.

2.3 Cadre climatologique


Le climat de la région de Marrakech et ses environs est de type continental aride. Les
températures y sont contrastées, basses en hiver, très fortes en été, avec, tout au long de l'an-
née, des amplitudes journalières importantes. La pluviosité et l'hygrométrie sont faibles,
l'évaporation élevée.
La station météorologique nationale la plus proche à la commune est celle de Marrakech
Menara. Ses données sont accessibles en ligne sur divers sites internationaux. Beaucoup de
séries anciennes étant toutefois trop incomplètes, nous nous sommes limités à une période de
référence maximale couvrant les quarante dernières années (1974-2013).
L’évolution, au cours du temps, des températures et de la pluviométrie, est reportée, mois
par mois, sur les figures 3 et 4.

FIG. 3 – Evolution des températures moyennes annuelles (Marrakech Menara).

En ce qui concerne les températures, les 3 courbes de la figure 3, bien parallèles, mon-
trent une tendance générale au réchauffement, de l'ordre de 2°, sur cet intervalle de 40 ans.

- 98 -
I. Er-rouane et al.

FIG. 4 – Evolution de la pluviométrie annuelle (Marrakech Menara).

Par contre, dans le même temps, la pluviométrie annuelle, selon la droite d'ajustement,
semble globalement décroître d'environ 50 mm (Fig. 4).

2.4 Cadre socio-économique


Le contexte géomorphologique assez particulier de la commune se traduit par deux traits
environnementaux primordiaux et qui sont la rareté excessive des ressources en eau et la
prédominance de sols très peu fertiles. Ces deux traits condamnent profondément l’activité
agricole qui se résume à une agriculture céréalière pluviale avec des rendements très faibles.
Ainsi l’activité économique principale au sein du douar est plutôt l’élevage, qui est égale-
ment très affecté par l’acuité de la sécheresse.
Cet environnement économique très hostile couplé avec une pauvreté nette dans les in-
frastructures (routes, eau potable, dispensaire, …) s’est traduit depuis les années 80 par de
fortes vagues successives d’exodes rurales vers les villes dont en particulier Marrakech.
Comme conséquence à cette réalité environnementale et économique très défavorable,
l’analphabétisme montre un taux très élevé au niveau de la population et la scolarisation des
enfants, au moins au stade primaire, est très en deçà des attentes.

3 Les ressources en eaux


3.1 Eaux de surface
Le réseau hydrographique est peu développé et très peu actif. Le bassin versant se dé-
compose en deux sous bassins d’importance inégale. Le premier à l’Ouest, s’étendant sur les

- 99 -
SIG pour le développement local de la commune de Sidi Boubker, Rehamna

deux tiers de la surface de la commune, est en relation avec l’oued Bourouss. Le deuxième,
à l’Est, draine le tiers de la zone et se rattache à l’oued Gouanate (Fig. 5). Tous deux assu-
rent, le cas échéant, le drainage superficiel ; ils sont tributaires de l'oued Tensift, principal
cours d'eau de toute la région qui collecte les eaux de ruissellement issues des zones de relief
du massif des Jebilet au Nord.
Le traitement par Global Mapper des données du MNT a permis de modéliser les sous-
bassins versants qui correspondent à ces deux systèmes (Fig. 5).

FIG. 5 –Individualisation des principaux sous-bassins versants de la commune.

D’après ce tracé, il s’avère(Tab. 1) :


- d'une part, que le BV Ouest est plus vaste que celui Est, avec respectivement des su-
perficies de 65 et 39 km² et des périmètres de 66 et 47 km ;
- d'autre part, que les deux BV sont très étirés vers l'amont (Nord), avec des allonge-
ments de 18 et de 17.5 km.
Ils peuvent être caractérisés par leur indice de compacité (ou indice de Gravelius) :

Périmètre du BV P  P
Kc = Kc =  0.28
Périmètre du cercle de même surface soit : 2 A A

Indice qui serait égal à 1 pour un bassin circulaire et à 1.128 pour un bassin carré.

- 100 -
I. Er-rouane et al.

Ici, les indices obtenus sont respectivement de 2.3 (BV Ouest) et 2.1 (BV Est), valeurs
déjà élevées, typiques de bassins allongés.

Aire A (km2) Périmètre P (km) Coeff. de Gravelius


Kc
Oued Lak-hal 65,00 66,56 2,31
(Ouest)
Oued Rkhamat 39,00 47,24 2,12
(Est)

TAB. 1 – Caractéristiques géométriques des bassins versants limitrophes de la station.

La direction caractéristique Nord-Sud de ces talwegs est la même que celle des failles
majeures dans les Jebilet, ce qui concorde avec le constat que les cours d’eau empruntent
souvent des zones de faibles résistances telles que les failles.

3.2 Eaux souterraines


Les Jebilet centrales, où se trouve la commune, sont essentiellement constituées de
schistes imperméables, mais souvent fracturés, souvent métamorphisés, surtout au voisinage
des intrusions granitiques de Bramram et Oulad Ouaslam. La partie superficielle de ces
schistes est généralement altérée, suite au développement de la schistosité et de la fissuration
(EL MANDOUR, 1990). Il en résulte que cette frange d'altération, pouvant atteindre une
quarantaine de mètres de profondeur, se trouve investie par des eaux d’infiltration pluviale,
ce qui donne naissance à une nappe phréatique, mais de potentialités extrêmement médiocres
(BERNERT & al. , 1975).
Des essais de pompage, réalisés dans la région, ont confirmé la faiblesse de la perméabili-
té, conduisant à des caractéristiques hydrodynamiques très mauvaises. Ainsi, la plupart de
ces essais donnent des transmissivités de l’ordre de 10-4 à 10-5 m²/s, ceux par exemple de la
région de Feitout (BOUDON, 1972).
Ainsi, les ressources en eau sont donc très limitées. Comme le montre la figure 5, les po-
pulations des douars sont approvisionnées essentiellement à partir de 16 bornes fontaines
mises en place aux douars progressivement depuis 1974 (DTC, 2009).
Cette carence en eau domestique se répercute sur les familles qui trouvent beaucoup de
difficultés pour s’approvisionner en eau pour leurs besoins journaliers aux foyers ou bien
pour leur cheptels. D’u autre côté, les établissements scolaires ne sont généralement pas
desservies ce qui explique la déperdition scolaire des filles.

- 101 -
SIG pour le développement local de la commune de Sidi Boubker, Rehamna

FIG. 6 – Carte des ressources en eaux de la commune.

4 Géologie et pédologie de la zone


4.1 Géologie régionale
Il a été largement décrit par Paul HUVELIN (1961, 1977), auteur d'une carte géologique
et minière des Jebilet au 1/200 000e.
Séparant les deux grandes plaines de la région, le Haouz au Sud et la Bahira au Nord, la
chaine des Jebilet se présente sous forme d'un massif de roches paléozoïques, allongé d'Ouest
en Est sur 170 km (PIQUE, 1994).
Dans sa partie centrale, celle qui nous intéresse, les formations présentes sont d'âge Vi-
séen ; elles sont composées de schistes formant une série puissante de plusieurs milliers de
mètres, connue sous le nom de schistes de Sarhlef (MICHARD, 1976)
Les intrusions acides (granites de Bramram et d'Oulad Ouaslam) et sont à l'origine d'un
métamorphisme à déformations tectoniques très intenses (EL HASSANI, 1982).
Puis le Plio-Quaternaire s'est déposé, sous la forme de conglomérats, de cailloutis,
d'arènes, de limons et d'alluvions de talweg. Mais son extension latérale est limitée et sa
puissance reste faible.

- 102 -
I. Er-rouane et al.

FIG. 7 – Cadre géologique du site de la commune Sidi Boubker.


(Extrait de la carte Huvelin au 1/200 000e)

4.2 Ressources en sols


Sur toute l’étendue de la commune on rencontre deux types de sol (Fig. 8) :

- 103 -
SIG pour le développement local de la commune de Sidi Boubker, Rehamna

- Un sol d’érosion schisteux de type Lahrach qui occupe la plus grande partie de la
surface. Il est lié aux zones de reliefs et abrite la quasi-totalité des puits d’eau et du
réseau hydrographique.
- Un sol châtain assez argileux dans le Sud-Ouest de la commune sur une superficie
beaucoup plus restreinte. En raison de sa structure fine, les eaux de pluie peuvent
s’accumuler durant de grandes périodes eu égard à son faible taux d’infiltration. 10
972 ha.

FIG. 8 – Carte pédologique de la commune de Sidi Boubker.

5 Ressources végétales
Eu égard à la nature squelettique et pauvre des sols dans la quasi-totalité de l’étendue de
la commune, l’ agriculture est surtout céréalière pluviale (Bour) avec quasi absence de plan-
tations d’arbres fruitiers. Par ailleurs, la rareté de l’eau limite le développement des strates
d’herbes de pâturage. Ceci a conduit les paysans de la commune, qui pratiquent essentielle-
ment l’élevage, à réfléchir à une solution alternative pour subvenir aux besoins de nourriture
du cheptel . Ainsi s’est dégagée l’idée de recourir au cactus dont l’utilisation était surtout
destinée à la consommation humaine du fruit.
Les anciennes plantations du cactus se localisaient en relief dans les versants des diffé-
rentes collines surtout au Nord de la zone vers le point culminant du Jbel Taksim (Fig. 7).
Cette localisation s’explique par le choix délibéré des populations à investir les reliefs et
épargner les zones de plaine pour l’agriculture vivrière.

- 104 -
I. Er-rouane et al.

FIG. 9 – Carte de plantation du cactus dans la commune Sidi Boubker.

Au cours des deux dernières années, de grands efforts ont été déployés par la Direction
Provinciale d’Agriculture des Rehamna pour encourager la population planter le cactus étant
donné ses perspectives très prometteuses.
De même, la coopérative nouvellement créée œuvre dans ce sens en sensibilisant les éle-
veurs sur la filière cactus. Elle a pris en charge une unité de conditionnement et de confection
d’aliment de bétail très nutritif.

6 Projet de développement intégré de la commune


Sur la base des données du milieu physique et de la réalité socio-économique, un système
d’Informations géographiques a pu être mis en place sous QGIS 2 .18 selon une conception
semblable à ce qui se pratique actuellement (EVRARD (2002) , JOOST & al) . Il a servi
pour stocker sous de formes de couches vectorielles et raster les différentes catégories de
données préalablement formatées et validées.
Les premiers traitement opérés sur le contenu du SIG ont permis d’établir un atlas carto-
graphique synthétisant l’information disponible selon différentes thématiques (Scolarisation,
eau, sol, pâturages,…). Ces documents graphiques, illustrés dans les différentes cartes ci-
dessus, sont bien nécessaires pour la prise de décision. Ils ont permis également de ressortir
les principales caractéristiques environnementales et socio-économique de toute l’emprise de
la commune. En suite des enquêtes auprès de la population ont été menées pour définir les
axes prioritaires d’intervention.

- 105 -
SIG pour le développement local de la commune de Sidi Boubker, Rehamna

En tant que partie prenante de la chose publique au niveau de la commune, la société ci-
vile devrait être bien organisée et outillée de dossiers solides s’appuyant sur des données
fiables et à jour afin d’œuvrer efficacement dans le décollage et la durabilité du processus de
développement de leur commune.
Eu égard à toutes ces considérations, deux priorités se sont dégagées :
Nécessité d’organisation de la population sous forme d’une association de champ
d’action très large (Association de développement de Drioukat) et de trois coopératives sec-
torielles :
- Coopérative d’élevage « AMAL » ;
- Coopérative de valorisation du cactus « ATTARIQ » ;
- Coopérative artisanale de Tissage « HAOUIA ».

Nécessité de réalisation de projets concrets répondant aux problématiques entravant le


développement socio-économique et humain :
Action d’amélioration des conditions de scolarisation des enfants ;
La contribution à la résolution du problème d’alimentation en eau des foyers ;
L’encouragement d’activités génératrices de revenus.

7 Conclusion
Au terme de cette étude, et après exploitation du SIG de la commune Sidi Boubker nous
pouvons retenir les conclusions suivantes :
Le Système d’Information Géographique, mis en place, pourrait servir pour la planifica-
tion territoriale et la gestion de la vie communale que ce soit au niveau des pouvoirs publics,
des élus ou bien encore des acteurs de la société civile œuvrant pour le développement. Ce
SIG remplirait les tâches de stockage, analyse et représentation des données pertinentes par
rapport aux diverses thématiques traitées telles que l’éducation, la gestion rationnelle des
eaux, l’agriculture ou l’élevage et aussi la gestion des risques naturel comme les inondations.
En plus de l’archivage, l’utilité de ce système est de disposer d’un outil de communica-
tion au service du dialogue entre groupes d’acteurs facilitant le partage d’informations. Pour
ce, il serait conseillé de se contenter de données ciblées les plus pertinentes possibles afin de
faciliter la mise à jour qui est une opération primordiale pour tenir compte de l’évolution des
paramètres et indicateurs.
Le SIG en question s’est progressivement constitué grâce à un système de monitoring se
basant sur les phases successives et cycliques : Formalisation, Diagnostic, Décision et Ac-
tion. Le résultat, quoique assez modeste car limité à la seule commune de la région, se traduit
par des réalisations concrètes très significatives, à l’échelle locale, en terme de scolarisation,
de desserte des foyers en eau de boisson et par la constitution et la mise en place de trois
coopératives opérant dans les domaines de l’élevage et de l’artisanat.

- 106 -
I. Er-rouane et al.

Références
ABDOULAYE A. (2017). Utilisation des Systèmes d’Informations Géographiques (SIG)
pour une gestion optimale des ressources en eau en Afrique Occidentale: Cas de la com-
mune de Nikki en République du Bénin. International Journal of Innovation and Ap-
plied Studies, Vol. 19 No. 3, pp. 526-541. (http://www.ijias.issr-journals.org/).
ARP Développement, (2009). Diagnostic Territorial Participatif de la commune rurale de
Sidi Boubker. Rapport de Restitution du BET présenté en Février 2010.
BERNERT G., PROST J.P. (1975). Le Haouz de Marrakech et le bassin du Mejjate. Res-
sources en Eau du Maroc, tome 2, Plaines et bassins du Maroc atlantique. Notes et Mé-
moires du Service Géologique du Maroc, n° 231, pp. 399 à 432.
BOUDON A., CIRON P. (1972). Étude hydrogéologique de la région de Feitout (Haouz
oriental). Direction de l'Hydraulique, Division des Ressources en Eau, Centre Régional
de Marrakech, rapport inédit.
EL MANDOUR A. (1990). Actualisation des connaissances hydrogéologiques du massif des
Jebilet, Méséta occidentale, Maroc. Thèse présentée à la Faculté des Sciences de Marra-
kech (Université Cadi Ayyad) le 14 Juin 1990.
EL HASSANI A. (1982). Contribution à la connaissance de l’évolution structurale et méta-
morphique du segment hercynien des Jbilet centrales, région de Sidi Bou Othmane», Bul-
letin de l'Institut Scientifique, Rabat, n° 6, p. 1 à 43.
EVRARD M. (2002). Les communes et les SIG. Le SIG, outil de gestion du territoire com-
munal. Rapport interne, Union des Villes et commune de Wallonie.
(www.uvcw.be/articles/3,125,43,43,830.htm)
HUVELIN P. (1961). Sur l'âge viséen supérieur des schistes de Kettara et du jbel Sarhlef
(Jebilet centrales, Maroc). C.R. somm. Soc. géol. Fr., 10, pp.290 - 291.
HUVELIN P. (1977). Étude géologique et gitologique du massif hercynien des Jebilet (Ma-
roc occidental). Notes et Mémoires du Service Géologique du Maroc, n° 232 bis.
JOOST S. & al. MOOCs Afrique, Ecole Polytechnique Fédérale de Lausanne.
https://www.coursera.org/lecture/sig-1/etude-de-cas-sig-et-planification-participative-
g39Yc
MICHARD A. (1976). Éléments de Géologie Marocaine. Notes et Mémoires du Service
Géologique du Maroc, n° 252.
PIQUE A. (1994). Géologie du Maroc - les domaines régionaux et leur évolution structurale.
Éditions Pumag.
Historiques de données climatiques : Site TuTiempo.net ; onglet "Climate".
http://www.tutiempo.net/en/Climate/Marrakech/602300.htm

- 107 -
SIG pour le développement local de la commune de Sidi Boubker, Rehamna

Summary
Sidi Boubker is a commune of Rehamna province located thirty Km Northeast of Marra-
kech. The climate in this region is dry with little rainfall. Geology is characterized by prima-
ry shales, for which, the alteration generates a rocky and less fertile soil.
These environmental conditions have a profound impact on life conditions where agricul-
ture activity boils down to rainy cereal agriculture with low yield. Livestock, therefore, re-
mains the primary activity in the area.
The different characteristics of the physical and socioeconomic context have been inte-
grated into a SIG that served as a cartographic support utilized in decision-making tool.
This has allowed bringing out the main axes of intervention in order to promote a good
management of the commune resources for a durable socioeconomic development in the
region.

- 108 -
Nouvelles techniques d’investigation et de gestion des
ressources naturelles

El Mahdi Ben Sayah∗ , Intissar Er-Rouane∗


Mariame Kholaiq∗ Najib Saber∗∗


Département de Géologie, Faculté BEN MSIK, Université HASSAN II, Casablanca
∗∗
Ecole Supérieure de Technologie - Sidi Bennour, Université Chouaib Doukkali, El Jadida.

Résumé. Résumé (à traduire en anglais): La présente note expose quelques


exemples concrets d’utilisation des techniques des SIG, MNE et la télédétec-
tion pour la caractérisation et la gestion de ressources naturelles que ce soit dans
le domaine des ressources en eau ou des potentialités minières. Du point de vue
ressources en eau, la mise en ?uvre des SIG et des MNE a permis de clarifier le
schéma hydrologique de la région du Tensift en traçant le réseau d’écoulement
ainsi que les bassins versants des principaux oueds moyennant des traitements
spécifiques sur le MNE. De même, l’exploitation du SIG a permis d’élaborer des
tableaux annuaires et des cartes de variabilité spatiale de certains facteurs et qui
sont directement injectés dans le logiciel de modélisation hydrodynamique de
l’importante nappe du Haouz présente dans cette région. Par ailleurs, et dans un
objectif purement géologique dans une zone du sud marocain, en plus du SIG
préalablement élaboré, les images satellites du secteur ont été traitées pour res-
sortir une cartographie des endroits montrant un intérêt metallogénique en tenant
compte de certains paramètres contrôlant la minéralisation..

1 Introduction
Pour les besoins d’étude et de gestion des ressources naturelles (eau, sol, végétation, ...) on
fait, de plus en plus, appel aux nouvelles techniques d’investigations telles que l’imagerie sa-
tellitaire, les systèmes d’information géographique, la géostatistique et la modélisation mathé-
matique, (Fontes et Carvalho (2005) ;Qayedy (2006) ;Gad (2007)). Dans ce sens, les techniques
des Systèmes d’Information Géographique complétées assez souvent par l’utilisation et l’inter-
prétation de l’imagerie satellitaire et des Modèles Numériques de Terrain (MNT) s’avèrent très
pertinentes quant à la caractérisation et la gestion des ressources Naturelles.(H. Da et (2002))
En effet les résultats d’interprétation et d’analyses thématiques de ces systèmes permettent
d’obtenir des données plus élaborées sous formes cartographiques ou analytiques qui peuvent
être injectées dans des modèles de gestion ou des logiciels géostatistiques. Comme ils peuvent
de suite être utilisés comme supports de management et de prise de décisions. (Younsi (2007))

- 109 -
Nouvelles techniques d’investigation et de gestion des ressources naturelles

2 Données utilisées et la méthodologie de travail

2.1 Méthodologie de travail

la méthodologie abordée dans ce travail, consiste a rassembler et organiser, gérer, analyser


et combiner, élaborer et de présenter des informations localisées géographiquement contribuant
notamment à la gestion de l’espace, on utilisant des données spatial à partir de diverses sources,
la figure 1 suivante présente la méthodologie à suivre dans ce travail

F IG . 1 – Diagramme présente la méthodologie de travail

La méthodologie adoptée pour élaborer la carte du réseau d’écoulement et la mise en place


du sysrème d’information géographique, consiste à exploiter des données altimétriques (Mo-
dele numerique d’elevation) dans le but de cartographier le réseau hydrologique qui permet-
tra une description des différents paramètres topographiques (pente, crête, longueur du cours
d’eau...) et par la suite une délimitation des bassins versants.
l’approche d’interpolation a été utilisée, pour la gestion des eaux souterraines, Basée sur
des critères de voisinages (partitionnement géométrique) simples elle construit une parcel-
lisation du domaine d’étude. Chaque cellule contient un et un seul point de l’échantillon,
l’ensemble des points de l’espace appartenant à la cellule a pour plus proche voisin le point
d’échantillonnage associé à la cellule. La valeur du point échantillonné est associée à tous les
points de la parcelle ou cellule. Cette approche est semblable à la triangulation. Les limites
sont évidentes, car il y a de brusques saut de discontinuité.
Concernant la cartographie d’ue carte géologique a partir de l’image satellitaire ASTER, on
a utilisé l’approche de transformation des données images (multispectrales et hyperspectrales),
tels que les indices spectraux, rapport des bandes, l’analyse en composante principale (ACP)
et la transformation Intensité-Teinte-Saturation (I-T-S) (Fontes et Carvalho (2005) ; Qayedy
(2006) ; Gad (2007)). Par ailleurs, les algorithmes de classification des données images sont
largement utilisées pour la cartographie géologique et particulièrement les classifications ba-
sées sur la similarité spectrale, telles que appelées Spectral Angle Mapper (SAM) (Girouard G.
(2004)) et Linear Spectral Unmixing (Zimmermann (2004)). En outre, la classification Spectral
Information Divergence (SID) a donné des résultats satisfaisants dans la cartographie géolo-
gique (C. ; Du Y.)

- 110 -
E. Ben Sayah et al.

2.2 Données utilisées


Les données exploitées dans ce travail sont :

- Image satellitaire ASTER : Deux images satellitaires ASTER (Advanced Spaceborne


Thermal Emission and Reflection Radiometer) qui sont prises le 1 juin 2012, couvrent la tota-
lité de la zone d’étude.

- Carte géologique 1/200000 : Deux cartes géologiques de 1/200000, la première est la


carte géologique de Saghro-Dadès N161, et la deuxième est la carte géologique de Todrha
Maider N243, les deux cartes sont scannées et géoréférenciées.

- Des données alphanumériques sous forme des liste, et des données spatiales, sous forme
des victores

3 Application, Analyse, résultats et discussion

3.1 Zones d’étude


Dans ce travail on a utilisé l’apport du système d’information géographique et la télédétec-
tion, sur deux zones, la première c’est la zone de tansift (Figure 2), sur cette zone on a élaboré
la carte d’écoulement, et la deuxième c’est la zone de Imiter(la figure 3), sur cette zone on a
cartographie les formation géologique.

F IG . 2 – Zone de l’étude hydrologique (Région du Tensift).

- 111 -
Nouvelles techniques d’investigation et de gestion des ressources naturelles

F IG . 3 – Zone d’etude geologique (Imiter)

3.2 Mise en place du Système d’Information Géographique

La réalisation d’études concernant l’évaluation et la gestion des ressources naturelles passe


par une étape incontournable qu’est la collecte et le traitement de données. Cette tâche est d’au-
tant plus facilitée par l’avènement des Systèmes d’Informations Géographiques (SIG) étant
donné les multiples possibilités qu’ils offrent. Les données à mettre en jeu sont de différentes
natures dont en particulier : - Les données topographiques sous forme de cartes ou fichier infor-
matique (MNT). Elles permettent de définir le fond cartographique de base ainsi que le cadre
général de l’étude. - Les données géologiques la aussi sous forme de cartes, coupes ou log
litho stratigraphiques. - Les données hydro-climatologiques et hydrogéologiques concernant
les eaux de surface et souterraines. - Les données d’occupation des sols dont en particulier le
couvert végétal. Pour ce, les images satellites peuvent être très informatives. - La compilation
de l’ensemble de ces données dans un SIG s’avère la bonne démarche à suivre. Sa conception
dépendra des différentes classes de données disponibles et aussi de la nature des traitements et
résultats attendus (Figure 4).
Au niveau de la région du Tensift, la mise en place de ce système comme le montre la
figure 4, a permis de superposer les différentes couches d’informations ce qui peut être d’une
grande utilité pour vérifier la cohérence de certaines informations d’une part et d’autre part
pour préciser d’avantage certaines interprétations déjà formulées (affectation d’un point d’eau
à un aquifère donné, taux d’infiltration,...). Des traitements spécifiques, notamment géosta-
tistiques, peuvent aboutir à des cartes de répartition spatiale de certains facteurs comme la
perméabilité et seront directement injectables dans des logiciels de modélisation hydrodyna-
miques par exemple.

- 112 -
E. Ben Sayah et al.

F IG . 4 – Carte du réseau d’écoulement du bassin versant du Tensift

3.3 Gestion des eaux souterraines - Modélisation des écoulements

La modélisation mathématique des écoulements est l’un des outils pertinents pour la ges-
tion des ressources en eau. Elle permet de cerner avec précision les différents termes du bilan
en entrées et en sorties avec possibilités d’élaborer des scénarios prévisionnels qui tiennent
compte des conditions imposées selon les variantes envisagées. (Kanohin, Et al 2012) Cette
démarche a été adoptée pour l’étude des ressources en eau de deux systèmes aquifères de la
région Tensift et environs, en l’occurrence les nappes de la Bahira et du Haouz. Dans ce der-
nier cas par exemple, le résultat obtenu est un modèle hydrogéologique assez cohérent qui
reflète bien les écoulements majeurs et l’équilibre entre entrées (recharge de la nappe) et sor-
ties (naturelles ou artificielles par pompages). La figure 4 montre la répartition des valeurs de
la transmissivité (proportionnelle à la perméabilité) et les conditions aux limites. La figure 5
montre en plus de la répartition des points de pompage ou d’injection ainsi que la carte de la
piézométrie calculée très semblable à celle mesurée au terrain.

F IG . 5 – Carte de répartition des transmissivités

- 113 -
Nouvelles techniques d’investigation et de gestion des ressources naturelles

F IG . 6 – Carte de la piézométrie calculée

3.4 Exploitation des images satellites


Le recours simultané aux systèmes d’informations géographiques et aux techniques d’ima-
gerie satellitaire permettrait, après des traitements appropriés, d’obtenir des cartes thématiques
synthétisant l’ensemble de l’information disponible. Ce support cartographique, pourrait être
utilisé pour la gestion des ressources naturelles que ce soit en termes de production végétale ou
encore en prospection des réserves du sous-sol (eau, minerais, granulats, roches industrielles,
...). Cette démarche a été appliquée pour prospecter les zones favorables à la minéralisation.
Ainsi l’interprétation de deux images ASTER (Advanced Spaceborne Thermal Emission and
Reflection Radiometer) a permis de localiser des zones de fracturation et d’altération pouvant
être minéralisées. (C. ; Du Y.)
Les différentes étapes de cette procédure sont résumées dans la figure(la figures 7) qui suit :

F IG . 7 – Organigramme des traitements pour la prospection des zones minéralisées.

Le résultat de cette procédure, appliquée dans une zone de l’anti-Atlas au sud du Maroc, a
permis d’avoir la carte thématique suivante (la figures 8) qui illustre les zones favorables à la
minéralisation d’un point de vue métallogénique.

- 114 -
E. Ben Sayah et al.

F IG . 8 – Carte thématique de prospection montrant des zones minéralisées.

3.5 Utilisation des Modèles Numériques d’Elévations (MNE)


Les MNT ou MNE permettent une description de la topographie du terrain et constituent
une base de données altimétriques à partir de laquelle on peut dériver une multitude de pro-
duits : les courbes de niveau, les cartes de pentes, d’exposition ou d’inter visibilité, les volumes,
les vues en perspective. (Zaharia (2010))
Cet exemple de traitement du MNE a pour but la détermination des caractéristiques hydro-
logiques de la région du Tensift (la figures 9) en traçant le bassin versant et le réseau d’écoule-
ment.
Les données utilisées consistent en un modèle numérique d’élévation de type MNE d’une
résolution de 30 m. Le résultat de ce traitement a permis de bien limiter l’aire du bassin versant
du Tensift et de tracer ses principaux affluents comme le montre la figure suivante :

L’exploitation des données MNE a permis l’extraction du réseau hydrologique. La carte

- 115 -
Nouvelles techniques d’investigation et de gestion des ressources naturelles

F IG . 9 – Carte du réseau d’écoulement et du bassin versant du Tensift.

de drainage modélisée montre un écoulement qui s’effectue essentiellement vers la mer et


secondairement vers les dépressions

4 Conclusion
La présente note expose quelques exemples concrets d’utilisation de ces différentes tech-
niques pour la caractérisation et la gestion de ressources naturelles que ce soit dans le domaine
des ressources en eau ou des potentialités minières. Ainsi, le recours aux systèmes d’informa-
tions géographiques a permis de faciliter l’organisation des données alphanumériques et car-
tographiques très nombreuses et aussi leur traitement essentiellement par voie géostatistique.
Les annuaires et cartes thématiques obtenus peuvent être directement injectés dans d’autres
logiciels tels que ceux de la modélisation des nappes souterraine. Ceci a été appliquée dans le
cas de la nappe du Haouz pour obtenir au final un modèle de calage très satisfaisant reflétant
fidèlement les grands traits hydrogéologiques et piézométriques de cet aquifère. L’imagerie
satellitaire a été couplée à un SIG et à un MNE pour ressortir les zones favorables à la miné-
ralisation en mettant l’accent sur des critères lithologiques ou structuraux contrôlant la mise
en place de gisements miniers. Ceci a été testé dans la zone d’Imiter dans l’Anti-Atlas au Sud
du Maroc et a permis d’élaborer une carte thématique indiquant les zones d’intérêt métallogé-
nique. Enfin, des traitements spécifiques ont été opérés sur le MNE correspondant à la région
du Tensift et a permis de tracer le réseau d’écoulement de surface qui coïncide parfaitement
avec le tracé des oueds sur les cartes topographiques de la zone. Il a permis également de tracer
le bassin versant du Tensift ainsi que tous ses sous bassins et dont les aires et la caractéristiques
morphologiques ont servi pour le calcul des modules d’écoulement.

Références
C., C. pp. 370.
Du Y., chanf C.-I., R. H. C. C.-C. j. J. D. F. Optical Engineerin.

- 116 -
E. Ben Sayah et al.

Fontes, M. et I. Carvalho (2005). Color attributes and mineralogical characteristics, evalu-


ated by radiometry, of highly weathered tropical soils. Soil Science Society of America
Journal 69, 1162–1172.
Gad, S., K. T. (2007). Aster spectral ratioing for lithological mapping in the arabian?nubian
shield, the neoproterozoic wadi kid area, sinai, egypt. gondwana research 11, 362–335.
Girouard G., Bannari A., E. H. A. e. D. A. (2004). Validated spectral angle mapper algorithm
for geological mapping: Comparative study between quickbird and landsat-tm. Colloque
sur l’Optimisation et les Systmes d’Information Oran.
H. Da et, G. Giacomel, . (2002). Cours de tldtection, (http ://www.unige.ch/ses/geo/cours/td/.
Qayedy, J., T.-e. K. B. F. C. M. e. W. (2006). Caractrisation lithologique du haut atlas marocain
a l?aide des donnes d?aster et de msures spectacles de terrain.tldtection. Soil Science Society
of America Journal 6, 153–175.
Younsi, F.Z., H.-D. B. A. (2007). Proposition d’un modle dcisionnel en amnagement du
territoire par utilisation des sig et rseaux de neurone. Colloque sur l’Optimisation et les
Systmes d’Information Oran 1, 3.
Zaharia, L. (2010). Utilisation de la tldtection et des sig dans la rgionalisation hydrologique.
Zimmermann, T. (2004). Spectral imaging and linear unmixing in light microscopy. pp. 250.

Summary
This note presents some concrete examples of the use of these different techniques for the
characterization and management of natural resources, whether in the field of water resources
or mineral potential.
Thus, the use of geographical information systems has made it possible to facilitate the
organization of very large alphanumeric and cartographic data and also their processing es-
sentially by geostatistical means. The directories and thematic maps obtained can be directly
injected into other software such as the modeling of groundwater. This was applied in the case
of the Haouz aquifer to finally obtain a very satisfactory calibration model faithfully reflecting
the hydrogeological and piezometric features of this aquifer.
Satellite imagery has been coupled with a GIS and a DEM to highlight favorable areas
to mineralization by focusing on lithological or structural criteria controlling the sitting up of
mineral deposits. This has been tested in the Imiter zone in the Anti-Atlas in southern Morocco
and has allowed the development of a thematic map indicating areas of metallogenic interest.
Finally, specific treatments were carried out on the MNE corresponding to the Tensift re-
gion and made it possible to trace the surface flow network which coincides perfectly with
the layout of the wadis. the topographic maps of the area. It also made it possible to trace
the Tensift watershed as well as all its sub-basins and including the areas and morphological
characteristics, which were used for calculating the flow modules.

- 117 -
Web Mapping pour la gestion des risques d’inondation au
Maroc
Meriam LAHSAINI*, Hassan TABYAOUI*,
Fatima EL HAMMICHI* et Mounia TAHIRI**
* Laboratoire des Resources naturelles et Environment, Faculté Polydisciplinaire de Taza,
BP. 1223, Taza-Gare, Maroc.
meriam.lahsaini@usmba.ac.ma
hassan.tabyaoui@usmba.ac.ma
fatima.hammichi@usmba.ac.ma

** Laboratoire Géologie appliqué, Géomatique et Environnement, Faculté des Sciences Ben


M’sik, Université Hassan II, Casablanca, Maroc.
mouniatahiri88@gmail.com

Résumé. Cet article presente la demarche suivit pour la conception d’une base
de données spatiale sur les risques d’inondation au Maroc et le développement
d’une interface cartographique interactive sur internet (WebSIG). Cette base
de données disposera de plusieurs fonctionnalités (interrogation, mise à jour,
visualisation, extraction des données, etc.) et sera accessible à plusieurs utilisa-
teurs à travers un portail web d’accès et de visualisation des données. La plate-
forme WebSIG répond à plusieurs des préoccupations des utilisateurs de
l’information géographique. Elle est mise en place avec des outils Open-
sources (GeoServer, Apache). Les données sont accessibles sous forme de
cartes et de graphiques et peuvent être visualisées dans des OpenLayers
(Google Maps et MSN Virtual Earth), au format GML (Geography Markup
Language) ou KML (Keyhole Markup Language). Il est créé pour améliorer la
sécurité et gérer les risques d’inondation au Maroc.

1 Introduction
Un système d'information géographique (SIG) est un système conçu pour capturer, stoc-
ker, manipuler, analyser, gérer et présenter tous les types de données spatiales ou géogra-
phiques (Demegre et Salge, 2004). Ces données sont stockées dans des fichiers ou directe-
ment imprimés sur des formats papier ou alors archivées. Les données ne sont pas archivées
de façon structurée afin d’optimiser le temps de recherche et d’accès ainsi que le temps de
restauration en cas de perte ou de panne matérielle, d’où la nécessité de disposer d’un sys-
tème certes moins robustes que certaines solutions SIG (De Blomac, 2001) mais qui permet
néanmoins d’organiser et de restructurer les données de façon non seulement à puiser le
maximum d’informations mais aussi à exploiter celles-ci sur le long terme.
Pour cette raison, nous avons élaboré un portail web d’accès. Ce portail permettra de vi-
sualiser et analyser et imprimer les données contenues dans la base de données sur les inon-

- 119 -
Web Mapping pour la gestion des risques d’inondation

dations. Les données seront accessibles sous forme de cartes interactives et de graphiques. La
méthodologie retenue se base sur les applications de webmapping. Le Web Mapping, ou
diffusion de cartes via le réseau Internet, est un domaine en pleine expansion grâce au déve-
loppement des solutions Open-Source (Mitchell, 2005).
La publication de données cartographiques sur Internet est un moyen de communication
indispensable dans les domaines de gestion des risques, et de l'aménagement du territoire (De
Blomac, 2001 ; Soussain, 2003). Suivant la philosophie GNU qui autorise la copie, la diffu-
sion du logiciel et la modification du code source, ces programmes généralement gratuits et
d'utilisation libre émergent à un rythme soutenu (Ghanem et al, 2007). Le concept de la car-
tographie Web consiste en trois composantes: la géographie, l'information et le Web.
L’approche du Web Mapping est adaptée à un public large non spécialiste: interface
simple, orientée « atlas cartographique » et SIG en ligne, consultation par connexion à faible
débit, rapide et solution indépendante des navigateurs, sans Plug in (De Blomac, 2001 ;
Soussain, 2003). Les solutions client/serveur peuvent être totalement complémentaires, l’un
(serveur) permettant d’interroger en temps réel des bases de données mises à jour afin de
donner aux utilisateurs les réponses à leurs requêtes particulières (De Blomac, 2001 ; Du-
pasque, 2005 ; Dupont, 2004) l'autre (client) par l'intermédiaire du mapfile affichant la carte
dans une interface accessible sur Internet.
Dans cet article, on présente une analyse complète et détaillée de la plate-forme à mettre
en place et les outils utilisés pour sa mise en œuvre en utilisant une approche méthodolo-
gique de développement.

2 Approche méthodologique
Une méthodologie de développement est un système de méthodes et principes utilisés
dans une sous-discipline particulière de la conception du logiciel. Il existe plusieurs mé-
thodes de développement logiciel construites sur UML comme la méthode : UP, RUP,
TTUP, UP agile, XP, 2TUP, etc. Parmi ces méthodes notre choix est basé sur le processus
unifié (UP). Le processus unifié est un style de conception incrémentale. Il peut être appliqué
à une large classe de systèmes logiciels et à différents niveaux d’application (Jacobson et al,
1997b).
Ce processus a les caractéristiques clés suivantes :
- Il est basé sur les composants utilisés pour coordonner les projets de programmation
orienté objet;
- Il utilise le langage UML qui est un langage qui s’appuie beaucoup plus sur des
diagrammes pour modéliser les systèmes;
- Il est centré sur l’architecture;
- Il est piloté par les cas d’utilisation d’UML car le but essentiel d’un système est de
satisfaire le client;
- Enfin la conception est itérative et incrémentale. Ce qui est très pratique dans notre
cas vu des aménagements qui peuvent intervenir à mi-parcours.

L'objectif d'un processus unifié est de maîtriser la complexité des projets informatiques en
diminuant les risques. UP est un ensemble de principes génériques adapté en fonctions des
spécificités des projets (Jacobson et al, 1997a). Il gère le processus de développement par
deux axes (Architecture bidirectionnelle) :

- 120 -
M. Lahsaini et al.

L'axe vertical : représente les principaux enchaînements d'activités, qui regroupent les
activités selon leur nature. Cette dimension rend compte l'aspect statique du processus
qui s'exprime en termes de composants, de processus, d'activités, d'enchaînements,
d'artefacts et de travailleurs.
L'axe horizontal : représente le temps et montre le déroulement du cycle de vie du
processus; cette dimension rend compte de l'aspect dynamique du processus qui
s'exprime en terme de cycles, de phases, d'itérations et de jalons.

2.1 Analyse et conception de la plate forme


Le langage de modélisation unifié, de l'anglais Unified Modeling Language (UML) est
un langage de modélisation graphique. Il est couramment utilisé en développement logiciel et
en conception orientée objet. Ce langage s'appuie sur un métamodèle : un modèle de plus
haut niveau qui définit les éléments d'UML (les concepts utilisables) et leur sémantique (leur
signification et leur mode d'utilisation).
Le langage UML propose des concepts très pertinents pour l’analyse et même la concep-
tion des systèmes d’information géographique SIG. Ainsi, il nous apporte une aide à toutes
les étapes d’un projet, comme il nous offre ainsi de nombreux avantages pour l’analyse et la
conception d’un système, Le couple UML et le processus unifié propose une approche pour
conduire la réalisation de systèmes orienté objet. Cette méthode qui s’appuie sur des dia-
grammes pour modéliser les systèmes est retenue pour modéliser notre solution.

2.2 Choix des solutions Open Source


Pour la réalisation de l’interface Webmapping, nous avons choisi les solutions Open-
Source. Ils permettent une indépendance non seulement vis-à-vis des logiciels car utilisant
des formats et des protocoles ouverts mais aussi des fournisseurs par la disponibilité du code
source. Ceci permet à des milliers de développeurs de le vérifier en permanence, améliorant
ainsi la fiabilité et la sécurité de ces logiciels.
Une liste de technologies a été choisie en fonction de la disponibilité en matière de do-
cumentation, des connaissances et de la rapidité d'apprentissage de la technologie choisie
(Tableau 1). Le choix comprend des API JavaScript, OpenLayers pour l'application web et
GeoServer en tant que fournisseur de service de cartographie.

Application web Service cartographique Langages utilisés


Openlayers Geoserver Leaflet
Apache HTML/CSS
WMS JavaScript

TAB. 1 – Liste des technologies choisies.

Apache Tomcat est un serveur HTTP à part entière. De plus, il gère les servlets et les JSP
(par un compilateur Jasper compilant les pages JSP pour en faire des servlets). Tomcat a été
écrit en langage Java. Il peut donc s'exécuter via la machine virtuelle Java sur n'importe quel
système d'exploitation la supportant. Catalina est le conteneur de servlets utilisé par Tomcat.
Il est conforme aux spécifications servlet de Oracle Corporation et les JavaServer Pages

- 121 -
Web Mapping pour la gestion des risques d’inondation

(JSP). Coyote est le connecteur HTTP de Tomcat, compatible avec le protocole HTTP 1.1
pour le serveur web ou conteneur d'application. Jasper est le moteur JSP d'Apache Tomcat.

FIG. 1 – Interface de l’apache Tomcat

Le serveur cartographique est le guichet automatique auquel on fait appel pour afficher des
cartes sur son poste de travail. Par le protocole de communication Internet, TCP/IP, des
ordinateurs branchés en réseau peuvent échanger des données via un navigateur Web ou
transférer des fichiers grâce au protocole FTP. L’architecture est de type client/serveur.
L’utilisateur, à partir de son terminal, lance des requêtes pour demander l’affichage d’une
carte particulière. Le serveur cartographique l’interprète et renvoie la carte sous la forme
d’une image matricielle (png, jpg,…) ou vectorielle (svg, swf,…).
La publication des données dans GeoServer nécessite de remplir les différents formulaires
avec des informations sur la couche que l’on souhaite publier. Ces informations permettent
d'ajouter de la valeur à la couche de données. Les informations peuvent prendre la forme de
métadonnées, règles de style ou description de la couche.
Une fois que les couches sont publiées, elles peuvent être visualisées dans :
- OpenLayers : ce sont des applications géographiques basées sur le Web, semblables
aux API Google Maps et MSN Virtual Earth, avec une différence importante:
OpenLayers est un logiciel libre développé pour et par la communauté des logiciels
Open Source ;
- GML (Geography Markup Language) : permet de décrire les objets géographiques,
les systèmes de projections, la géométrie, la topologie et constitue un format ouvert
pour l’échange de données géographiques ;
- ou au format KML (Keyhole Markup Language) : spécifie un ensemble de caracté-
ristiques pour l'affichage dans Here Maps, Google Earth, Maps et Mobile, ou tout
autre logiciel géospatial.

- 122 -
M. Lahsaini et al.

Les figures 2 et 3 présentent une vue d'une couche d'entités ponctuelles et une couche de
polygones publiées sur GeoServer et représentant quelques événements d’inondation et les
limites administratives de la région Fes-Meknes.

FIG. 2 – COUCHE D’ENTITES FIG. 3 – COUCHE DE POLYGONES


PONTUELLES « EVENEMENTS « LIMITES ADMINISTRATIVES »
D’INONDATION »

3 Résultats et discussion
3.1 Mise en place du module d’impression de Geoserver
Une des fonctionnalités de serveur cartographique, c’est d’imprimer le contenu du pan-
neau de carte. Pour y parvenir nous avons procédé à la mise en place du module
d’impression de géoserver. En effet, Le module d'impression pour GeoServer permet
l’hébergement facile du service d'impression Mapfish au sein d'une instance de GeoServer.
La figure 4 montre une liste des paramètres que nous avons obtenus :

- 123 -
Web Mapping pour la gestion des risques d’inondation

FIG. 4 – LES CAPACITES DU SERVICE D'IMPRESSION

3.2 Implémentation du métier et de la présentation


Pour la présentation des données, nous nous sommes basé sur la puissante bibliothèque
leaflet. Ce dernier est Open Source de JavaScript. A travers cette bibliothèque, nous avons pu
accéder à GeoServer et récupérer des couches de données à l’aide du code JavaScript et
OpenLayers comme on peut le voir sur la figure 5.
Ici, il est question de récupérer comme carte de fond la carte des pays du monde (coun-
tries) avec possibilités de zooms détaillés sur le Maroc, puisque nos couches de données
seront superposées au-dessus de cette zone. Le code source complet de l’application possède
beaucoup d’exemple d’utilisation de cette bibliothèque. Toujours en ce qui concerne la pré-
sentation des données, nous avons associé à cette bibliothèque le langage HTML et les
feuilles de style (CSS : Cascading Style Sheets) pour la présentation générale de la plate-
forme.

FIG. 5 – EXTRAIT DE CODE SOURCE

3.3 La base de données géographique sous Geoserver


Cette base de données comporte des données attributaires et spatiales que nous pouvons
voir sur le schéma de la figure 6. Sous GeoServer, nos couches de données ont été organisées
dans l’espace de travail « BDRI » et dans les entrepôts « BDRI_Inondation » et, plusieurs
styles ont été créés et appliqués à celles-ci.
La première image que l'utilisateur voit en entrant dans l'application se compose d'une
carte un menu et un espace de sélection de couches. La carte n’est pas limitée en termes de
navigation mais délimite les zones administratives du Maroc (Fig. 6)

- 124 -
M. Lahsaini et al.

FIG. 6 – PAGE PRINCIPALE

4 Conclusion
Cet article présente un outil de gestion de base de données sur les inondations au Maroc.
Cette base de données dispose de plusieurs fonctionnalités (interrogation, mise à jour,
visualisation, extraction des données etc.. .) et est accessible à plusieurs utilisateurs à travers
un portail web d’accès et de visualisation des données.
La réalisation de cartes dynamiques sur Internet est essentielle pour diffuser de
l’information géographique, pour la localisation des lieux, le calcul d’itinéraires ou pour le
géomarketing. Son utilisation est croissante et s'élargit vers de nouveaux secteurs. Cet outil
se place à la croisée de techniques alliant la gestion de données relationnelles, la représenta-
tion et l’analyse spatiale, la programmation en langage de script.
La plateforme WebSIG répond à plusieurs des préoccupations des utilisateurs de
l’information géographique. Le portail WebSIG a été mise en place avec des outils libres,
gratuits et téléchargeables sur internet. Il nous a offert un prototype de plateforme cartogra-
phique interactive portant sur les données géoréférencées sur l’étendue du territoire national.
Les données sont accessible sous forme de cartes interactives, de graphiques ou en format
cartographique pour pouvoir être lues dans n’importe quel référentiel de SIG.

Références
De Blomac F. (2001). L'open source, véritable alternative pour les SIG ? Document PDF, 4p,
2001.

- 125 -
Web Mapping pour la gestion des risques d’inondation

De Blomac F, Les systèmes d’information géographique territoriaux-La mise en ligne des


données géographiques : principes et expériences, document PDF, 128p.
De Blomac F, Publier des cartes sur Internet : ces solutions qui nous viennent du graphique.
SIG la lettre, 3 p.
Demegre J, Salge F, (2004). Que sais-je ? Les SIGs, 84p.
Dupasque X. (2005). « Etats des lieux des solutions Internet de diffusions des données géo-
graphiques, Géoévénement.
Dupont G, L’IGN cartographie la France en numérique, Le Monde 23/01/04, 2p.
Jacobson I., Booch G., & Rumbaugh J., (1997a). The Objectory Software Development
Process. AddisonWesley .
Jacobson I., Booch G., & Rumbaugh J., (1997b). Unified Modeling Language Reference
Manual. AddisonWesley.
Soussain G. (2001). Publier des cartes sur internet.. Les repères. 64p.
Soussain G. (2003). Cartographie sur Internet – Synthèse à l’usage d’une maîtrise d’œuvre.

Summary
The objective of this study was the design of a spatial database (geodatabase-flood risk)
and the development of an interactive cartographic interface on the Internet or WEBGIS.
This database has several functionalities (querying, updating, visualization, data extraction,
etc.) and is accessible to several users through a web portal for access and visualization of
data. The Web-GIS platform addresses many of the concerns of users of geographic infor-
mation. It is implemented with open-source software. The data are available in the form of
maps and graphs and can be viewed in OpenLayers (Google Maps, MSN Virtual Earth)
format GML or KML. It was created to improve safety and quality and manage risks in good
environment.

- 126 -
A Survey on Solutions for Big Spatio-Temporal Data
Processing and Analytics
Soufiane Maguerra∗
Azedine Boulmakoul∗
Lamia Karim∗∗
Hassan Badir∗∗∗

LIM/IOS, FSTM, Hassan II University of Casablanca, Mohammedia, Morocco


{maguerra.soufiane,azedine.boulmakoul}@gmail.com,
∗∗
Higher School of Technology EST Berrechid, Hassan 1st University, Morocco
lkarim.lkarim@gmail.com
∗∗∗
National School of Applied Sciences Tangier, Abdelmalek Essaâdi University, Morocco
hbadir@gmail.com

Abstract. In our time, there is a proliferation of outdoor and indoor location


tracking devices. The knowledge inferred from the events generated by these
location-aware devices is leveraged in many fields, e.g., business, finance, and
politics. Each outcoming event is described via spatio-temporal attributes and
other attributes related to the device nature. In addition, Social media and
third-party apps with the Check-Ins functionality generate unstructured spatio-
temporal data. The conventional Geographic Information Systems failed to han-
dle the heterogeneity, variety and voluminous nature of these data. Therefore,
overcoming the limits of the past generation of GIS software, big spatial data
management systems emerged. In this paper, we yield an overview over sys-
tems for processing big spatio-temporal data. This survey includes information
over past and up to date research conducted in the context of big data to process,
query and analyse both spatial and spatio-temporal data.

1 Introduction
Location-aware devices generate periodically spatial-temporal events that are leveraged in
many fields. The knowledge extracted from these events can increase the growth of economy,
reinforce security, and reduce financial losses. To this end, a large number of spatial local-
ization devices has emerged that are leveraged for outdoor location tracking equipped with
Geographic Position System (GPS) or indoor tracking using technologies such as Radio Fre-
quency Identification (RFID) and Bluetooth. This growth comes with a voluminous amount of
data generated every minute.
In particular, statistics over the Uber application developed by the Uber Technologies Inc 1
company indicate that in 2017 over 40 million rides where tracked per month. Their service
1. https://www.uber.com

- 127 -
A Survey on Solutions for Big Spatio-Temporal Data Processing and Analytics

involves over 1.5 billion drivers (Dogtiev, 2018) generating millions of events with their smart
devices every minute (Jacob, 2018). In addition, spatio-temporal data is being nowadays gen-
erated by social networks and third-party apps to enhance their users’ experience. These data
often has an unstructured nature. Decidedly, by considering the heterogenity, variety and volu-
muneous nature of the generated spatio-temporal data it can be classfied as big data. Therefore,
to enable efficient processing and analytics the conventional geographic information systems
need to be migrated into the big data environment.
Big data technologies are related to a cluster environment where actions can be conducted
in parallel or in a distributed manner. The cluster can be a shared-nothing or shared-storage
cluster with nodes located in the same region (Parallel DBMS) or distributed among several
distant regions (Distributed DBMS). Clustered solutions feature replication and can either sup-
port vertical scaling or horizontal scaling. They can be either centralized over a single node
or decentralized with a peer-to-peer connection. The research on big spatio-temporal data of-
ten exploit Hadoop’s Map Reduce or the in-memory distributed computation engine Spark, and
Hadoop’s HDFS as the storage layer. This paper serves as a survey for big spatio-temporal data
management systems. The survey covers essential details of up to date research over query en-
gines, database management systems, and computational frameworks for handling both spatial
and spatio-temporal datasss.
The rest of this paper involves three sections: Section II yields a background over spatial
data indices, partition techniques and queries covered by researchers. Section III details exist-
ing GISs for handling big spatio-temporal data. Section IV concludes our paper and states our
perspectives for future work.

2 Background : Spatial Data


Spatial Data is primarily represented in either vector or raster data types. The vector graph-
ics include vertices and paths forming three primal models point, lines, and polygones. In
contrast, raster graphics are formed with pixels that are related to specific values.

2.1 Big Spatial Vector Data Queries


The research on big spatial Vector data are often concerned with the infra queries :
— Range Query RQ takes a spatial area A and a set of vector shapes Sv as inputs (in
case of a spatio-temporal RQ, a time interval I can additionally be considered.); then,
it outputs the shapes overlapping with the query area (and I when handling the temporal
aspect).
— k-Nearest Neighbor Query (kNNQ) returns the k closest points in a set P to a query
point p∗ .
— All-Nearest Neighbors Query (ANNQ) results in a set of points that are closest to a
query point p∗ given a distance d∗ .
— Spatial Join Query (SJQ) outputs the set of tuples composed of the records of two
sets Sv1 and Sv2 repsecting a specific spatial predicate.
— Reverse Nearest Neighbor Query (RNNQ) differently than kNNQ outputs all the
spatial points in P having p∗ as the closest neighbor.

- 128 -
S. Maguerra et al.

— Maximizing Reverse Nearest Neighbor Query (MaxRNNQ) identifies the optimal


spatial area A such that if a point p is attributed to it, then the output of RN N Q is
maximized.

2.2 Spatial Partitioning Strategies


Distributed GIS often exploit a partition strategy to efficiently distribute the data across
the cluster’s storage. The existing partitioning strategies can be characterized with three di-
mensions (Aji et al., 2015). The first Partition Boundary defines the approach as either over-
lapping, if its boundaries overlap, or non-overlapping. The respected Partition Strategy for
generating the partitions as either top-down, in case the lower level partitions are recursively
generated from the higher level ones, or bottom-up. Lastly, the Split Criterion defining how
an oversize partition is split according to a data-based split strategy, resulting in an unequal
sub-spaces but approximately equal data size partitions, or its contrast space-based that can
lead to a uniform space distribution at the cost of data skewness.
The most commonly leveraged partitioning strategies are :
— Fixed Grid Paritioning (FGP) is a non-overlapping, space-based partitioning strategy
resulting in equal size disjoint grids.
— Binary Split Paritioning (BSP) is a non-overlapping, top-down approach spliting each
higher-level partition into two lower-level partitions according to space.
— Strip Partitioning (SLCP) is a non-overlapping, bottom-up approach aiming to get
the final partitions as early as possible by slicing sequentially the space.
— Boundary Optimized Strip Partitioning (BOSP) extends SLCP by awreness of bound-
ary objects 2 resulting in partitions with a minimum number of boundary objects.
— Hilbert Curve Partitioning (HCP) is an overlapping approach leveraging the Hilbert
space filling curve 3 to get a 1D representation of shapes; then, the objects are assem-
bled, after being sorted, to form partitions in a bottom-up manner.
— Sort-Tile-Recursive Partition (STRP) shares the same dimensional profile as HCP;
the partitions are obtainedqby stripping the records’ space vertically, then horizontally
|Sv |
into m2 strips with m = w .

2.3 Spatial Indices


Multi-dimensional access methods are a necessity for efficient query processing. They
make it possible to quickly obtain results without a full records scan. The methods are divided
into two classes the Point Access Methods (PAMs) and the Space Access Methods (SAMs).
Both the methods can index spatial shapes; however, a PAM requires a specific mapping for
relating the non-point shapes into points. The mapping can lead to an additional time overhead.
Research on spatial big data often leverage a multi-layer index structure composed of spatial
indices. The following list contains a description of the most used structures :
— Quad tree (Finkel and Bentley, 1974) refers to a SAM. It is a structure of quadrants
where each node is sequentially linked to 4 child leafs (quadrants) of equal space.
2. Boundary objects are objects located at the boundary of partitions; thus, making it difficult to choose a partition
where they can fit.
3. Space filling curves are lines that map an n-dimensional feature into a single dimensional one.

- 129 -
A Survey on Solutions for Big Spatio-Temporal Data Processing and Analytics

— k-d tree (Bentley, 1975) corresponds to a PAM. It is a binary tree format where each
node corresponds to a k-dimensional point and each tree level reflects a spatial dimen-
sional aligned plane.
— k-d-b tree (Robinson, 1981) extends the k-d tree with the balanced height feature of a
B+-tree. In contrast of a k-d tree, the k-d-b tree can contain multiple child nodes at each
level and the points are located in the leaf nodes. The higher level nodes correspond to
disjoint regions linked to subregions or k-dimensional points.
— Grid file (Nievergelt et al., 1984) also a PAM, it is a spatial structure composed of
disjoint cells. The cells can be either of a fixed or different size. Each cell refers to
a bucket, and a bucket can refer to several cells. The structure is based on dynamic
hashing; thus, it supports dynamic expansion, deletion and insertion of buckets in a
dynamic manner.
— R-tree (Guttman, 1984) refers to a SAM. The structure is a balanced height tree where
each level can contain several nodes. Each non-leaf node is set of tuples consisting of a
Minimum Boundary Rectangle (MBR) and a child node pointer. In contrast, the tuples
of a leaf node are composed of a MBRs and object pointers.
— R+-tree (Sellis et al., 1987) is a variation of an R-tree. Each level of the tree is con-
taining non-overlapping MBRs.
— R*-tree (Beckmann et al., 1990) extends an R-tree by aiming at minimizing the over-
lap, covered area, and the margins as well as maximizing the storage.

3 State of the Art : Big Spatio-Temporal Data Information


Systems
Research conducted on big spatio-temporal data can be classified into solutions proposing
novel big spatial DBMSs or extending existing NoSQL or extensible DBMS. Either by deploy-
ing an on-top solution leveraging or modifying parts of an existing DBMS. Another community
is interested in proposing frameworks for processing and querying big spatio-temporal data by
leveraging the functionalities of existing big data ecosystems. Spark 4 and Hadoop 5 are often
leveraged by this community to deploy systems featuring horizontal scaling, high availability,
high scalability, and fault-tolerance.

3.1 Big Spatial Database Management Systems


The table 1 gives insight over novel DBMS for processing big spatial data. We can con-
clude that researchers propose Array DBMS for handling big raster data. The proposed sys-
tems can also handle vector data; however, these solutions provide a limited distributed query
support. As for big vector data, we have DBMS that offer high efficiency for document data
in means of retrieval and storage such as MongoDB. However, MongoDB does not offer distr-
buted spatial queries. In contrast, Paradise, asterixDB, and Galileo feature efficient distrbuted
queries. For handling online data, Galileo is the optimal choice. Queries over moving objects’
trajectories can efficiently be answered by SharkDB (a trajectory meta-model can be found in
4. http://spark.apache.org/
5. https://hadoop.apache.org/

- 130 -
S. Maguerra et al.

Boulmakoul et al. (2012)). This system is an In-Memory database; decidedly, it features low-
latency. Unfortunatly, this DBMS only offers vertical scaling support. In contrast, MemSQL 6
offers both In-Memory storage with horizontal scaling support. Yet, MemSQL does only offer
minimal query support for spatial data, and indexing is supported only for spatial data that can
fit in memory (Row Stores) but not for data stored in disk (Column Store).

Database Initialized Current Distributed


Project Architecture Storage Layer Queried via Spatial Index Support
Model In Release Spatial Queries
RasDaMan1 File System and
9.7 R+-tree for tiles in an ar-
(Baumann Decentralized Array SQLite for metadata 1989 RasQL
(2018) ray
et al., 1997) or PostgreSQL
Paradise Object RQ, SJQ, and
1.0 Bulk-load R*-tree (via
(Patel et al., Centralized Rela- SHORE 1993 SQL like closest (kNN
(1997) SHORE)
1997) tional with k=1)
Centralized
SciDB1 Array QL and
over a sin- PostgreSQL for 18.1 RQ, SJQ, and
(Brown, Array 2008 Array Functional R-tree (via Postgres)
gle runtime metadata (2018) kNN
2010) Language
supervisor
4.0.0
MongoDB3 Decentralized NoSQL File System 2009 MongoDB CLI 2dsphere and 2d
(2018)
Internal in Log
AsterixDB Centralized Structured Merge
0.9.3 Asterixp Query
(Alsubaiee over a Cluster NoSQL (LSM) trees or exter- 2009 R-tree (local only) RQ and SJ
(2018) Language (AQL)
et al., 2014) Controller nal (HDFS and local
files)
Two-level index layer
Galileo with a feature graph and
1.6
(Malensek Decentralized Array File System 2011 SQL like a geoavailability grid at RQ
(2016)
et al., 2011) the top level and meta-
data graph at the lowest
SharkDB2 RQ, kNN and
Single Node Hierarchical index for
(Wang et al., NoSQL In-Memory 2014 WebUI trajectory simi-
(Scale-up) I/P frames
2014) larity search

The projects in the blue color characterize proprietary solutions with a restricted community version.
1
These projects are mainly developed for raster data with vector support.
2
These projects are mainly developed for moving objects data.
3
https://www.mongodb.com/

TAB . 1 – Big Spatial Database Management Systems.

3.2 Research Extending Big Data Database Management Systems


Other solutions leverage existing DBMS to offer efficiency for big spatial data queries. Ta-
ble 2 gives insight on systems leveraging existing DBMS for storage. Solutions built on-top
of Secondo support efficient queries over spatial, spatio-temporal, fuzzy spatial and moving
objects data. The community of SECONDO proposed both a centralized parallel DBMS and
a decentralized distributed DBMS. Mainly, the parallel DBMSs are based on a closely related
cluster of machines. Hence, there is a low network overhead when handling queries in parallel
and they can provide fast responses. However, due to there non-autonomic nodes structure,
there is a risk of reduced perfomance for all users on a node failure. In contrast, distributed
DBMS are known for their autonomic nodes structure. In detail, the cluster is composed of
multiple distant linked sites consisting of several nodes. Queries can be perfomed either lo-
cally or globally; hence, users are linked to the closest related site. When a machine fails,
it only affects the perfomance of the site where it is located in. Geomesa and Geowave are
both big spatial database management systems that respectively rely on Spark and Hadoop’s

6. https://www.memsql.com/

- 131 -
A Survey on Solutions for Big Spatio-Temporal Data Processing and Analytics

Map/Reduce paradigm for distributed processing. Geowave offers support for additional clus-
tering capabilites; however, Geomesa supports both online and batch processing as well as the
interoperability with several big data technologies.

Database Initialized Spatial Index Sup- Distributed Spatial


Project Architecture Storage Layer Current Release
Model In port Queries
Parallel-
SECONDO
SECONDO (Güting
(Lu and Centralized Extensible 2012 1.2 (2013) R-tree RQ and SJ
et al., 2004)
Guting,
2012)
Accumulo, HBase,
RQ, SJQ, Broadcast
Geomesa Google Cloud Bigtable,
XZ3, Z3, XZ2, and Spatial Join Query
(Hughes Centralized Extensible Kafka and GeoMesa 2013 2.1.0 (2018)
Z2 (BSJQ), and kNN as
et al., 2015) FileSystem Datastore
a process
(FSDS)
Distributed-
SECONDO
(Nidzwetzki Decentralized NoSQL Cassandra 2015 1.0 (2017) R-tree (local only) SJ
and Güting,
2015)
KMeans++, KMeans
Geowave Accumulo, HBase,
Hilbert and z-order Jump, KMeans Par-
(Whitby Centralized NoSQL Google Cloud Bigtable, 2016 1.0.0 (2016)
curve allel, DBScan, and
et al., 2017) and HDFS
kNN

TAB . 2 – Big Spatial Data Solutions Built On-top of Other DBMSs.

Systems offering spatial indexing support for existing DBMS can be sighted in the ta-
ble 3. GPUs can lead to faster reponses, and the authors of ISP-MC+/ ISP GPU are the
only researchers who leveraged GPUs for handling big spatial data by leveraging Hadoop’s
Map/Reduce. However, nowadays solutions are being proposed for exploiting GPUs in Spark’s
jobs (Joseph et al., 2018) and Spark is known to surpass Hadoop’s Map/Reduce in processing.
In addition, Krčál and Ho (2015) offered moving objects data support by extending the ar-
ray DBMS SciDB. Lastly, Stratio’s Cassandra Lucene Index and Neo4J Spatial offer spatial
data support respectively for Cassandra and Neo4J. However, these solutions offer limited dis-
tributed query support for big spatial data.
PostgreSQL 7 databases extended by PostGIS 8 offer efficient query processing for spatial
data; however, this is limited in the context of big data because of the single-node nature of the
system. Consequently, solutions built on-top of PostgreSQL have been proposed for handling
big data. The solutions include TimeScaleDB 9 , EDB Postgres 10 , Postgres-XC 11 , Postgres-
XL 12 , and Citus 13 . TimeScaleDb handles time series efficiently by defining the hypertable
abstraction. A hypertable is defined as a set of tables denoted as chunks. Each chunk is re-
sponsible for a temporal range. Queries can be conducted on parallel over chunks. Its near
scalability is achieved by the assumption that data is ordered by time. New data is always
gonna be appended at the latest chunk. Unfortunaltly, this assumption is not always true es-
pecially for batch processing and sorting the data can lead to additional overhead. Moreover,
the system does not yet support horizontal scaling. EDB Postgres and Postgres-XL provide
7. https://www.postgresql.org/
8. https://postgis.net/
9. https://www.timescale.com/
10. https://www.enterprisedb.com/
11. https://github.com/rjuju/postgres-xc
12. https://www.postgres-xl.org/
13. https://www.citusdata.com/

- 132 -
S. Maguerra et al.

Implemented Distributed Spa-


Project Architecture DBMS Queried via Spatial Index
In tial Operations
ISP-MC+/ISP
GPU (You et al., Decentralized C++ Impala SQL Bulk-load R-tree on-demand SJ and BSJ
2015)
Stratio’s Cassan- Cassandra Query
Decentralized Java Cassandra Lucene
dra Lucene Index2 Language (CQL)
Decentralized over
replicas on read-only
Neo4J Spatial3 Scheme Neo4J Cypher R-tree
and only vertical
scaling support
Two-level index layer with
MD-HBase a global root index and a
(Nishimura et al., Centralized Java HBase Shell lower meta level of either RQ and SJ
2011) Quad-tree or k-d-tree in-
dices
Longitude-latitude-time,
Krčál and Ho RQ, SJQ, and
Centralized SciDB AQL and AFL cartesian, and hierarchical
(2015)1 kNN
index
Two-level index layer with
Sphinx (Eldawy
Decentralized C++ Impala SQL local support for R-tree, R+- RQ and SJ
et al., 2015)
tree, Grid, and Quad-tree

1
These projects are mainly developed for moving objects data.
2
https://github.com/Stratio/cassandra-lucene-index
3
https://github.com/neo4j-contrib/spatial

TAB . 3 – Research Providing Spatial operators and Indices for DBMSs.

a multi-master support solution featuring read scalability and high availability. In contrast,
Postgres-XL and Citus provide distributed object-relational DBMSs with both read and write
scalability. Additionally, All these solutions are open-source, except EDB Postgres and Ci-
tus. EDB Postgres provides fully proprietary solutions. Differently, Citus provides both a
community and entreprise solution. All these solutions can be extended by PostGIS to offer
spatial data support; however, less effort was conducted on proposing distributed algorithms
for querying the stored spatial data.

3.3 Research Exploiting Hadoop’s Map/Reduce Paradigm


The first generation of systems supporting big spatio-temporal data relied mainly on the
functionalities provided by Hadoop. Several researchers have proposed big spatial data algo-
rithms for the Map/Reduce paradigm, e.g., multi-spatial join (Gupta et al., 2013) and MR-
DBSCAN (He et al., 2014). A detailed overviews on big spatial data management systems can
be found in table 4. These solutions can be categorized into approaches providing a way for
indexing data stored in HDFS, e.g., Akdogan et al. (2010), Liao et al. (2010), CloST, Whitman
et al. (2014), and ScalaGiST. Furthermore, Whitman et al. (2014) is leveraged in ArcGIS 14
for supporting big spatial data. HadoopGIS can be considered as a warehouse providing ef-
ficient queries over big spatial data; it provides an SQL like query language denoted QLSP .
SpatialHadoop is a framework for querying and handling data stored in HDFS. It proposes
pigeon which is a novel Map/Reduce language extending Pig to support spatial queries. Ve-
gaCI is a WebGIS solution enabling efficient queries over spatial data stored in either HDFS or
HBase. Furhtermore, CG_Hadoop (Eldawy et al., 2013) provides distributed algorithms based

14. http://www.arcgis.com/index.html

- 133 -
A Survey on Solutions for Big Spatio-Temporal Data Processing and Analytics

on Hadoop’s Map/Reduce for spatial data operations that can be integrated into SpatialHadoop,
e.g., closest pair, farthest pair, convex-hull, skyline, and polygone union.
Initialized Distributed Spatial Oper-
Project Partition Strategy Spatial Index Support
In ations
Akdogan
2010 Voronoi, kNN, RNN and MaxRNN
et al. (2010)
Liao et al.
2010 Range partitioning Local R-trees RQ
(2010)
HadoopGIS
Two-level index layer with a global index and
(Aji et al., 2010 RQ, SJ, and kNN
lower R*-tree indices
2013)
CloST (Tan
2012 Custom hierarchical partitioning RQ
et al., 2012)
VegaCI
RQ, SJ, ANN, kNN, and
(Zhong et al., 2012
RNN
2012)
SpatialHadoop
Depending on the exploited indices
(Eldawy and Two-level index layer with local support for R-
2013 (FGP for Grid file and STR for R- RQ, SJ, and kNN
Mokbel, tree, R+-tree and Grid file
tree)
2015)
HadoopGIS
FGP, BSP, SLCP, BOSP, HCP, and Two-level index layer with a global index and
SATO (Vo 2014 RQ and SJ
STRP lower R*-tree indices
et al., 2014)
Whitman
2014 A global PMR Quad Tree built form local ones RQ and kNN
et al. (2014)
ScalaGiST
Global R-tree paritioned across workers in a hier-
(Lu et al., 2014 RQ and kNN
archical manner
2014)

TAB . 4 – Big Spatial Data Solutions Exploiting Hadoop.

3.4 Research Exploiting Spark’s Functionalities


After the announcement of the In-Memory computing engine Spark, distributed systems
have been leveraging it for computing because of its highly fast nature. The table 5 shows the
frameworks extending Spark’s RDD abstraction to provide efficient processing over big spa-
tial data. GeoTreillis and SparkCity are frameworks for processing raster data with vector data
support. As for TrajSpark, it offers a framework for processing moving objects data. Addition-
ally, the table 6 details the frameworks extending the Spark SQL library. These frameworks
support SQL queries over spatial dataframes.

3.5 Other Cloud-based Big Spatial Data Solutions and Visualization Tech-
nologies
Projects do not only rely on Spark or Hadoop, there are some other solutions for analysing
and processing big spatial data. Including GSKY (Larraondo et al., 2017), IQLib (Olasz et al.,
2016), and EMINC (Zhang et al., 2009). IQLib is a solution for handling raster, vector and
cloud point data. Similar to Hadoop, it offers distributed processing and storage by provid-
ing a tiling functionality. Queries can be perfomed over tiles in a distributed manner, then
the results can be stitched together to form the final result. Additionally, GSKY is a server
featuring a Data as a Service cloud solution. It extends PostgreSQL and integrates Open Geo-
graphic Consortium (OGC) standards, e.g., WPS, WMS, and WCS. Moreover, the spatial data
can be aggregated, transformed, and processed before getting streamed to the client. Big spa-
tial data can be supported by leveraging cluster projects extending PostgreSQL (see Section

- 134 -
S. Maguerra et al.

Initialized Distributed Spatial Oper-


Project Partition Strategy Spatial Index Support
In ations
GeoTrellis1,3 2012 FGP Hilbert and z-order curve Map Algebra, RQ, and SJ
SpatialSpark
2015 FGP, BSP, and STRP R-tree on-demand RQ, SJQ, and BSJQ
(Hu, 2018)
LocationSpark Three-level index layer with a global index (Grid
RQ, kNN, SJ, and kNN
(Tang et al., 2015 or Quad-tree), a Spatial-Bloom Filter then a local
join
2016) index (R-tree, Quad-tree, Grid, or IR-tree)
Two-level index layer with a Grid as a global in-
GeoSpark (Yu FGP, R-tree, Quad-tree, k-d-b-tree,
2015 dex and local R-tree or Quad-tree indices at the RQ, SJQ, and kNN
et al., 2015) Voronoi, and Hilbert curve
lowest
STARK
(Hagedorn RQ, SQJ, kNN, and DB-
2016 FGP and BSP R-tree (local only)
and Räth, Scan
2017)
Shangguan
2017 Hash partitioning in HBase Geohash4 RQ and kNN
et al. (2017)
Two-level index layer with a global layer consist-
ing of a three level index layer and lower local
TrajSpark2
hash indices. The global index is composed of a
(Zhang et al., 2017 Quad-tree and k-d-tree RQ and kNN
time range index where each range is indexed via
2017)
a grid index and each grid is further indexed via a
B+-tree.
SparkCity1 FGP, Hilbert curve, R-tree, Two-layer hierarchical index with R-tree and
2018 SJ, kNN, and overlap
(Hu, 2018) Voronoi, Quad-tree and k-d-b-tree Quad-tree

1
These projects are mainly developed for raster data with vector support.
2
These projects are mainly developed for moving objects data.
3
https://github.com/locationtech/geotrellis
4
Geohash can be considered as a mapping from 2D spatial coordinates into a chain of alphanumeric characters with a specific precision.

TAB . 5 – Big Spatial Data Solutions Extending Spark’s RDD.

3.2). Finally, EMINC provides a cloud architecture enabling RQ over big spatial data. Query
Efficiency is assured by leveraging a global R-tree and local k-d trees.
Visualization is an indespensable task for making accurate decisions and assumptions over
spatio-temporal data distributions. Web based solutions often leverage javascript libraries such
as Leaflet 15 , OpenLayers 16 , and Mapbox 17 . In the big data context, D3.js 18 is often exploited
to efficiently render the vast amount of data. This library enables on-demand visualization;
hence, data can be rendered dynamically on a map overlay. Still, the projects that have been
detailed in this survey mainly leverage GeoServer 19 , or they provide buil-in GUI with a lim-
ited efficiency. ArcGIS also provides efficient visualization features for analytics and pattern
identification. Moreover, Simba customizes Zeppelin 20 to visualize spatial data. As for raster
data, Mao et al. (2016) provides a solution for visualizing voxel matrices by leveraging a 3D
volumetric visualization approach. Finally, GeoSparkViz (Yu et al., 2018) is the only frame-
work for generating highly detailed images over spatial data. The images are generated in a
distributed manner with support for heat maps, scatter plots, and choropleth maps.

15. https://leafletjs.com/
16. https://openlayers.org/
17. https://www.mapbox.com/
18. https://d3js.org/
19. http://geoserver.org/
20. https://zeppelin.apache.org/

- 135 -
A Survey on Solutions for Big Spatio-Temporal Data Processing and Analytics

Initialized Distributed Spatial Opera-


Project Partition Strategy Spatial Index Support
In tions
3
Magellan 2015 Z-order curve RQ and SJQ
SparkGIS FGP, BSP, Quad-tree, Strip Parti-
Two-level index layer with a global
(Baig et al., 2015 tioning, Boundary Optimized Strip RQ, SJQ, and kNN
R-tree and local R-trees
2017) (BOS), Hilbert curve and STP
Two-level index layer with a global
Simba (Xie RQ, kNN, Distance Join query,
2016 FGP index and local indices (R-tree,
et al., 2016) and kNN join
TreeMap and HashMap)
Elcano (En-
gélinus and 2017 SJ
Badard, 2018)
GeoSpark-
Hive index over Minimum Bound-
SQL (Huang 2017 SJQ and kNN
ary Rectangle (MBR) coordinates
et al., 2017)
Bulk-loaded two-level index layer a
Xiao (2017) 2017 global index concatenated from lo- RQ, SJQ, and kNN
cal R-tree or Grid indices
RQ, SJQ, overlap, kNN, cluster
Wang et al. analysis, density analysis, hot
2017 repartitioning based on index Grid
(2017) zone anakysis, matching maps,
and traffic computing

1
https://github.com/harsha2010/magellan

TAB . 6 – Big Spatial Data Solutions Extending Spark SQL.

4 Conclusion
This paper details the existing systems for handling massive spatio-temporal data. Features
of several systems have been discussed including DBMS, processing frameworks, distributed
spatial approaches, indexing approaches, and query engines. Each system differs from the
others by a specific partition technique or indexing mechanism. The architectures can be cen-
tralized or decentrelized, synchronouns or asynchronous, and providing support for horizontal
or vertical scaling. Each system can excel at a specific problematic, while on others not. Hence,
all relates to the application domain. In our next work, we are going to extend this survey to
include the big trajectory data management sytems with an aim to provide our own efficient
processing data-driven solution.

References
Aji, A., V. Hoang, and F. Wang (2015). Effective spatial data partitioning for scalable query
processing. arXiv preprint arXiv:1509.00910.
Aji, A., F. Wang, H. Vo, R. Lee, Q. Liu, X. Zhang, and J. Saltz (2013). Hadoop gis: a high
performance spatial data warehousing system over mapreduce. Proceedings of the VLDB
Endowment 6(11), 1009–1020.
Akdogan, A., U. Demiryurek, F. Banaei-Kashani, and C. Shahabi (2010). Voronoi-based
geospatial query processing with mapreduce. In Cloud Computing Technology and Science
(CloudCom), 2010 IEEE Second International Conference on, pp. 9–16. IEEE.
Alsubaiee, S., Y. Altowim, H. Altwaijry, A. Behm, V. Borkar, Y. Bu, M. Carey, I. Cetindil,
M. Cheelangi, K. Faraaz, et al. (2014). Asterixdb: A scalable, open source bdms. Proceed-
ings of the VLDB Endowment 7(14), 1905–1916.

- 136 -
S. Maguerra et al.

Baig, F., H. Vo, T. Kurc, J. Saltz, and F. Wang (2017). Sparkgis: Resource aware efficient
in-memory spatial query processing. In Proceedings of the 25th ACM SIGSPATIAL Inter-
national Conference on Advances in Geographic Information Systems, pp. 28. ACM.
Baumann, P., P. Furtado, R. Ritsch, and N. Widmann (1997). The rasdaman approach to
multidimensional database management. In Proceedings of the 1997 ACM symposium on
Applied computing, pp. 166–173. ACM.
Beckmann, N., H.-P. Kriegel, R. Schneider, and B. Seeger (1990). The r*-tree: an efficient
and robust access method for points and rectangles. In Acm Sigmod Record, Volume 19, pp.
322–331. Acm.
Bentley, J. L. (1975). Multidimensional binary search trees used for associative searching.
Communications of the ACM 18(9), 509–517.
Boulmakoul, A., L. Karim, and A. Lbath (2012). Moving object trajectories meta-model and
spatio-temporal queries. arXiv preprint arXiv:1205.1796.
Brown, P. G. (2010). Overview of scidb: large scale array storage, processing and analysis. In
Proceedings of the 2010 ACM SIGMOD International Conference on Management of data,
pp. 963–968. ACM.
Dogtiev, A. (2018). Uber revenue and usage statistics (2017). Retrieved from http://www.
businessofapps.com/data/uber-statistics/. Last visited: Sep 24th 2018.
Eldawy, A., M. Elganainy, A. Bakeer, A. Abdelmotaleb, and M. Mokbel (2015). Sphinx:
Distributed execution of interactive sql queries on big spatial data. In Proceedings of the 23rd
SIGSPATIAL International Conference on Advances in Geographic Information Systems,
pp. 78. ACM.
Eldawy, A., Y. Li, M. F. Mokbel, and R. Janardan (2013). Cg_hadoop: computational geometry
in mapreduce. In Proceedings of the 21st ACM SIGSPATIAL International Conference on
Advances in Geographic Information Systems, pp. 294–303. ACM.
Eldawy, A. and M. F. Mokbel (2015). Spatialhadoop: A mapreduce framework for spatial data.
In Data Engineering (ICDE), 2015 IEEE 31st International Conference on, pp. 1352–1363.
IEEE.
Engélinus, J. and T. Badard (2018). Elcano: A geospatial big data processing system based on
sparksql. In GISTAM, pp. 119–128.
Finkel, R. A. and J. L. Bentley (1974). Quad trees a data structure for retrieval on composite
keys. Acta informatica 4(1), 1–9.
Gupta, H., B. Chawda, S. Negi, T. A. Faruquie, L. V. Subramaniam, and M. Mohania (2013).
Processing multi-way spatial joins on map-reduce. In Proceedings of the 16th International
Conference on Extending Database Technology, pp. 113–124. ACM.
Güting, R. H., T. Behr, V. Almeida, Z. Ding, F. Hoffmann, M. Spiekermann, and L. D. für neue
Anwendungen (2004). SECONDO: An extensible DBMS architecture and prototype. Fer-
nUniversität, Fachbereich Informatik.
Guttman, A. (1984). R-trees: A dynamic index structure for spatial searching, Volume 14.
ACM.
Hagedorn, S. and T. Räth (2017). Efficient oral event processing with stark. In EDBT, pp.
570–573.

- 137 -
A Survey on Solutions for Big Spatio-Temporal Data Processing and Analytics

He, Y., H. Tan, W. Luo, S. Feng, and J. Fan (2014). Mr-dbscan: a scalable mapreduce-based
dbscan algorithm for heavily skewed data. Frontiers of Computer Science 8(1), 83–99.
Hu, F. (2018). A Distributed Computing Framework to Manage, Query, and Analyze Big
Geospatial Data for Urban Studies-Case Studies with Urban Heat Island and Tourist Move-
ment Pattern Mining. Ph. D. thesis, George Mason University.
Huang, Z., Y. Chen, L. Wan, and X. Peng (2017). Geospark sql: An effective framework
enabling spatial queries on spark. ISPRS International Journal of Geo-Information 6(9),
285.
Hughes, J. N., A. Annex, C. N. Eichelberger, A. Fox, A. Hulbert, and M. Ronquest (2015).
Geomesa: a distributed architecture for spatio-temporal fusion. In Geospatial Informatics,
Fusion, and Motion Video Analytics V, Volume 9473, pp. 94730F. International Society for
Optics and Photonics.
Jacob, S. (2018). How uber uses data to improve their service and create
the new wave of mobility. Retrieved from https://neilpatel.com/blog/
how-uber-uses-data/. Last visited: Sep 24th 2018.
Joseph, B., H. Tim, and M. Yandong (2018). Gpu acceleration in databricks : Speeding up deep
learning on apache spark. Retrieved from https://databricks.com/blog/2016/
10/27/gpu-acceleration-in-databricks.html. Last visited: Oct 27th 2016.
Krčál, L. and S.-S. Ho (2015). A scidb-based framework for efficient satellite data storage
and query based on dynamic atmospheric event trajectory. In Proceedings of the 4th In-
ternational ACM SIGSPATIAL Workshop on Analytics for Big Geospatial Data, pp. 7–14.
ACM.
Larraondo, P. R., S. Pringle, J. Antony, and B. Evans (2017). Gsky: A scalable, distributed
geospatial data-server. In Proceedings of the Academic Research Stream at the Annual
Conference Locate, Research@ Locate, pp. 7–12.
Liao, H., J. Han, and J. Fang (2010). Multi-dimensional index on hadoop distributed file sys-
tem. In Networking, architecture and storage (nas), 2010 ieee fifth international conference
on, pp. 240–249. IEEE.
Lu, J. and R. H. Guting (2012). Parallel secondo: boosting database engines with hadoop. In
Parallel and Distributed Systems (ICPADS), 2012 IEEE 18th International Conference on,
pp. 738–743. IEEE.
Lu, P., G. Chen, B. C. Ooi, H. T. Vo, and S. Wu (2014). Scalagist: scalable generalized
search trees for mapreduce systems [innovative systems paper]. Proceedings of the VLDB
Endowment 7(14), 1797–1808.
Malensek, M., S. L. Pallickara, and S. Pallickara (2011). Galileo: A framework for distributed
storage of high-throughput data streams. In Utility and Cloud Computing (UCC), 2011
Fourth IEEE International Conference on, pp. 17–24. IEEE.
Mao, B., Z. Yu, and J. Cao (2016). Large scale spatial temporal data visualization based on
spark and 3d volume rendering. In Neural Networks (IJCNN), 2016 International Joint
Conference on, pp. 1879–1882. IEEE.
Nidzwetzki, J. K. and R. H. Güting (2015). Distributed secondo: A highly available and
scalable system for spatial data processing. In International Symposium on Spatial and

- 138 -
S. Maguerra et al.

Temporal Databases, pp. 491–496. Springer.


Nievergelt, J., H. Hinterberger, and K. C. Sevcik (1984). The grid file: An adaptable, symmet-
ric multikey file structure. ACM Transactions on Database Systems (TODS) 9(1), 38–71.
Nishimura, S., S. Das, D. Agrawal, and A. El Abbadi (2011). Md-hbase: A scalable multi-
dimensional data infrastructure for location aware services. In Mobile Data Management
(MDM), 2011 12th IEEE International Conference on, Volume 1, pp. 7–16. IEEE.
Olasz, A., B. N. Thai, and D. Kristóf (2016). A new initiative for tiling, stitching and pro-
cessing geospatial big data in distributed computing environments. ISPRS Annals of the
Photogrammetry, Remote Sensing and Spatial Information Sciences 3, 111.
Patel, J., J. Yu, N. Kabra, K. Tufte, B. Nag, J. Burger, N. Hall, K. Ramasamy, R. Lueder, C. Ell-
mann, et al. (1997). Building a scaleable geo-spatial dbms: technology, implementation, and
evaluation. In ACM SIGMOD Record, Volume 26, pp. 336–347. ACM.
Robinson, J. T. (1981). The kdb-tree: a search structure for large multidimensional dynamic in-
dexes. In Proceedings of the 1981 ACM SIGMOD international conference on Management
of data, pp. 10–18. ACM.
Sellis, T., N. Roussopoulos, and C. Faloutsos (1987). The r+-tree: A dynamic index for multi-
dimensional objects. Technical report.
Shangguan, B., P. Yue, Z. Wu, and L. Jiang (2017). Big spatial data processing with apache
spark. In 2017 6th International Conference on Agro-Geoinformatics, pp. 1–4.
Tan, H., W. Luo, and L. M. Ni (2012). Clost: a hadoop-based storage system for big spatio-
temporal data analytics. In Proceedings of the 21st ACM international conference on Infor-
mation and knowledge management, pp. 2139–2143. ACM.
Tang, M., Y. Yu, Q. M. Malluhi, M. Ouzzani, and W. G. Aref (2016). Locationspark: a
distributed in-memory data management system for big spatial data. Proceedings of the
VLDB Endowment 9(13), 1565–1568.
Vo, H., A. Aji, and F. Wang (2014). Sato: a spatial data partitioning framework for scalable
query processing. In Proceedings of the 22nd ACM SIGSPATIAL International Conference
on Advances in Geographic Information Systems, pp. 545–548. ACM.
Wang, H., K. Zheng, J. Xu, B. Zheng, X. Zhou, and S. Sadiq (2014). Sharkdb: An in-memory
column-oriented trajectory storage. In Proceedings of the 23rd ACM international confer-
ence on conference on information and knowledge management, pp. 1409–1418. ACM.
Wang, S., Y. Zhong, H. Lu, E. Wang, W. Yun, and W. Cai (2017). Geospatial big data analytics
engine for spark. In Proceedings of the 6th ACM SIGSPATIAL Workshop on Analytics for
Big Geospatial Data, pp. 42–45. ACM.
Whitby, M. A., R. Fecher, and C. Bennight (2017). Geowave: utilizing distributed key-value
stores for multidimensional data. In International Symposium on Spatial and Temporal
Databases, pp. 105–122. Springer.
Whitman, R. T., M. B. Park, S. M. Ambrose, and E. G. Hoel (2014). Spatial indexing and an-
alytics on hadoop. In Proceedings of the 22nd ACM SIGSPATIAL International Conference
on Advances in Geographic Information Systems, pp. 73–82. ACM.
Xiao, F. (2017). A spark based computing framework for spatial data. ISPRS Annals of
Photogrammetry, Remote Sensing & Spatial Information Sciences 4.

- 139 -
A Survey on Solutions for Big Spatio-Temporal Data Processing and Analytics

Xie, D., F. Li, B. Yao, G. Li, L. Zhou, and M. Guo (2016). Simba: Efficient in-memory spatial
analytics. In Proceedings of the 2016 International Conference on Management of Data,
pp. 1071–1085. ACM.
You, S., J. Zhang, and L. Gruenwald (2015). Scalable and efficient spatial data management
on multi-core cpu and gpu clusters: A preliminary implementation based on impala. In
2015 31st IEEE International Conference on Data Engineering Workshops (ICDEW), pp.
143–148. IEEE.
Yu, J., J. Wu, and M. Sarwat (2015). Geospark: A cluster computing framework for processing
large-scale spatial data. In Proceedings of the 23rd SIGSPATIAL International Conference
on Advances in Geographic Information Systems, pp. 70. ACM.
Yu, J., Z. Zhang, and M. Sarwat (2018). Geosparkviz: a scalable geospatial data visualiza-
tion framework in the apache spark ecosystem. In Proceedings of the 30th International
Conference on Scientific and Statistical Database Management, pp. 15. ACM.
Zhang, X., J. Ai, Z. Wang, J. Lu, and X. Meng (2009). An efficient multi-dimensional index
for cloud data management. In Proceedings of the first international workshop on Cloud
data management, pp. 17–24. ACM.
Zhang, Z., C. Jin, J. Mao, X. Yang, and A. Zhou (2017). Trajspark: a scalable and efficient
in-memory management system for big trajectory data. In Asia-Pacific Web (APWeb) and
Web-Age Information Management (WAIM) Joint Conference on Web and Big Data, pp.
11–26. Springer.
Zhong, Y., J. Han, T. Zhang, and J. Fang (2012). A distributed geospatial data storage and
processing framework for large-scale webgis. In Geoinformatics (GEOINFORMATICS),
2012 20th International Conference on, pp. 1–7. IEEE.

Résumé
De notre temps, il existe une prolifération des appareils de localistion spatial des deux types
indoor et outdoor. Les connaissances inférées des événements générés par ces apareils sont ex-
ploités dans plusieurs domaines, par exemple la finance et la politique. Chaque événement gé-
néré est décrit par des attributs spatio-temporels et d’autre attributs liés à la nature de l’appareil.
Par ailleurs, les médias sociaux et les applications tierces avec la fonctionalité Check-Ins géné-
rent des données spatio-temporelles non structurées. Les systèmes d’information géographique
conventionnels n’arrivent pas à supporter la nature volumineuse, variante et hétérogène de ces
données. Par conséquent, les systèmes du big spatial data management ont émergés pour ré-
pondre à limite de la géneration passée des SIG. Ce papier est une état de l’art sur les systèmes
traitant les données spatio-temporelles de taille massive. Le survey inclut des informations sur
les recherches passées et récentes réalisées dans le contexte du big data afin de traiter, poser
des requêtes et analyser les données spatiales et spatio-temporelles.

- 140 -
Aggregated search in the web of data: Source selection and
Ontology-Based data access

Ahmed Rabhi, Rachida Fissoune, Hassan Badir

National School of Applied Sciences, Abdelmalek Essaâdi University, Tangier, Morocco


rabhi.ahmed.1992@gmail.com
ensat.fissoune@gmail.com
hbadir@gmail.com

Abstract. The web of data contains a great number of data sources providing
an important variety of data, these data sources are distributed and managed
independently. This distribution of data sources complicates the task of looking
for information. In fact, the search for certain information requires a collection
of data from various sources and this search depends on how relevant sources are
selected. Actually, avoiding unnecessary requests actually enhances federated
query processing. In this paper we present an overview on existing methods to
perform source selection and approaches to provide a unified view of several
data sources.

1 Introduction
The Web is evolving from a “Web of linked documents” into a “Web of linked data” provid-
ing better opportunities for sharing and searching information. Actually, Linked Data standards
provides a set of design principles for sharing data on the web and making it a global space
hosting data in machine-readable format. The benefit of using linked data technologies in the
web is that they allow users and machines to exchange data, which greatly enhance the search
for information in the web.
The Linking Open Data (LOD) cloud forms a giant graph consisting of billions of linked
RDF data distributed on a large number of Datasets covering all domains such as geography,
politics, life science, social networks and other domains, these data are accessible via sources
called SPARQL Endpoints which are heterogeneous and managed independently.
The information sought by the user is not necessarily found in a single data source, Thus,
the user may have to perform multiple queries on several data sources having no relationship
between them to aggregate pieces of data. Therefore, it is necessary to have a system for aggre-
gated search able to integrate fragments of information from several data sources considering
the distribution and heterogeneity of sources, the worry is that the number of data sources has
recently increased on a large scale. Hence, selecting relevant sources is an important task to
avoid unnecessary executions and to minimize communication between the processing node
and the Endpoints. We have presented in (Rabhi et al.) a solution to query multiple data
sources in the web of data and In this paper we present a state of the art of source selection

- 141 -
Aggregated search in the web of data: Source selection and OBDA

methods used in existing systems and we highlight the usefulness of the ontology-based data
access paradigm to execute queries on multiple data sources in a single interface.
The remainder of this paper is organized as follows: we first give an important background
in Section 2 and then Section 3 present an overview of aggregated search and RDF data query-
ing in addition to a review of existing source selection methods highlights the usefulness of
the ontology-based data access paradigm to unify distributed data sources. Finally, Section 4
concludes the article.

2 Background
The Web Of Data, also called Semantic Web, is a global space where individuals and orga-
nizations have adopted Linked Data standards (Heath and Bizer (2011)) to publish their data.
Hence, the Web of Data forms a giant graph consisting of billions of RDF data distributed on a
large number of Datasets covering all domains such as geography, politics, life science, social
networks and other domains. An RDF statement always consists of three fixed components
(Subject, Predicate, Object), the Subject represents a resource, the Predicate can be either a
property of the Subject or the representation of a link (a relationship between two resources)
and the Object can be either the value of a property or another resource linked to the Sub-
ject. Therefore, in RDF, a statement (or triple) represents the smallest unit of data contained
in an RDF-type graph, a collection of statements is called an RDF dataset and the web of data
contains a large number of these datasets which are accessed via data sources called Endpoints.
Querying RDF data is done using SPARQL (SPARQL Protocol And RDF Query Lan-
guage) which defines its own syntax for queries, a SPARQL query contains a set of triple
patterns, each triple pattern “TP” is a triplet (Subject, Predicate, Object) and each of these ele-
ments can be either a resource or a variable. SPARQL provides another type of queries called
ASK Queries, the result returned by an ASK Query is boolean.

3 State of the art


3.1 Aggregated Search
Sushmita et al. (2010) defined aggregated search as an approach to access largely dis-
tributed information. It aims to produce responses to queries by integrating fragments of in-
formation from several sources from different domains into a single result interface. These
queries look for objects that do not exist entirely in one of the queried sources but are con-
structed from different sources. Looking for aggregated information has the potential of giving
more possibilities to access to distributed information by creating associations between pieces
of information that are published separately and related to the same entity. The results are
valuable objects that can be used in different domains.
Echbarthi and Kheddouci (2017) asserted that a graph matching task is usually performed
using graph isomorphism for qurying a graph database. And this can be very expensive since
these datasets are commonly noisy, in addition, it requires the user to know the data struc-
ture. They proposed a framework for approximate graph matching called Label and Structure
Similarity Aggregated Search (LaSaS). This framework allows querying RDF graph without

- 142 -
A. Rabhi et al.

any knowledge of the dataset schema. Their solution uses the aggregated search paradigm to
enrich the set of answers. Their solution uses the aggregated search paradigm to enrich the set
of answers. And a lightweight graph similarity metric that considers both the graph label and
graph structure similarity to enable finding approximate matches.

3.2 Source selection in federated queries


DARQ (Quilitz and Leser (2008)) offers a single interface for querying distributed SPARQL
endpoints and makes query federation transparent to the client. the system uses service descrip-
tions to provide a powerful way to dynamically add and remove endpoints in a manner that is
completely transparent to the user. Schwarte et al. (2011) introduced FedX as a solution to de-
crease the number of requests sent to the sources, their solution based on the use of SPARQL
ASK queries to select relevant data sources in conjunction with a local cache without using
preprocessed metadata.
Saleem et al. (2013) pay attention in their solution, to the effect of duplicated data in
federated querying. The main innovation behind there solution is to avoid querying sources
that would lead to duplicated results. The system proposes an index-assisted approach in his
process to estimate the overlap between different sources results. To identify relevant sources
for each triple pattern, the system first ranks sources based on number of expected results, then,
it skips sources that contribute with little or no new results. Cosmin Basca (2014) introduced
Avalanche to find up-to-date answers to queries over SPARQL Endpoints. It first gets online
statistical information about potential data sources and their data distribution. The system
discovers data sources using VoID stores, then collects statistics of the cardinalities (number
of instances) for each triple pattern after querying selected sources, finally, executes queries
according to a plan matrix to finally return results. Akar et al. (2012) presented a system called
WoDQA that is only based on VoID description to select relevant data sources, it does not use
either the index or ASK queries.
Wang et al. (2013) proposed LHD as a parallelism-based distributed SPARQL engine, to
select data sources, LHD uses 2 main tasks: the first one is based on the VoID description to
obtain metadata of the data sources and analyses the predicate partition information in VoID
files and identifies data sources having the same predicate as relevant candidates to a query
triple pattern. Then ASK queries, enclosing the triple pattern, are sent to these candidates to
refine selected sources to accurate coast estimation. SPLENDID (Görlitz and Staab (2011))
uses VoID descriptions in his index to discover datasets and getting statistics, finally, it uses
ASK queries to discard irrelevant datasets. In his architecture.
Saleem and Ngomo (2014) present HiBISCuS, as a solution to avoid querying non-relevant
data sources, In fact, it is possible that a source may be selected as relevant to Triple pattern
but does not contribute to the final result set of the complete query after performing joins,
and an overestimation of such sources increases the network traffic and witch affect the query
processing time. HiBISCuS can be combined with existing SPARQL query federation engines
to detect sources that will not contribute to the final result, hence, the query engine can generate
better approximations of lucrative data sources to return complete results for a given query.
Running a federated query on all possible sources may increase execution times. Gruben-
mann et al. (2017) Proposed a solution to narrow down the number of possible allocations to a
few most promising data sources, the idea is to compute an answer that approximate the query

- 143 -
Aggregated search in the web of data: Source selection and OBDA

answer without having to execute the query. Their solution is based on cardinality approxima-
tion using Bloom Filters (Bloom (1970)).

3.3 Ontology-based data access

The main functionality of Ontology-Based Data Access (OBDA) systems is query answer-
ing, actually, OBDA is a data integration approach that allows users to query data sources
through a unified conceptual view. Thus, the user can look for information without having to
know the structure of the data contained in sources. According to Bagosi et al. (2014) OBDA
is an important approach to access data through a conceptual layer. This paradigm is based on
an ontology that plays the intermediary’s role between the user and data sources (Kharlamov
et al. (2015)).

Calvanese et al. (2017) affirm that this paradigm provides an integrated view and a semantic
description of the basic concepts in the data domain, as well as the relationships between these
concepts and the logical modeling characterizing the domain knowledge, thus, information
consumers can have a semantic access to data sets (Kogalovsky (2012)).

A system adopting OBDA approach provides a standard vocabulary for the target applica-
tion domain (life science, geography, social network, . . . ). It is true that in such systems, only
a small part of the ontology’s vocabulary will appear in the data layer. However, this small
part plays a major role in the formulation of queries since ontology’s axioms are linked to the
data vocabulary. Thus, as cited by Calvanese et al. (2017), the user may be able to pose a
query by referring only to the ontology without considering data sources that contribute to the
response. So, thanks to OBDA, an aggregated search system may provide a clear and unified
view of several sources in one single user interface. De Giacomo et al. (2017) affirm that an
interesting advantage of OBDA is that it ensures independence between data sources and the
ontology, the two levels are only coupled using declarative mappings. This independence is of
great importance since it prevents data sources to be modified by users.

According to Calvanese et al. (2017), a system using the approach of OBDA is composed of
three components: an ontology describing the domain of interest expressed in terms of relevant
concepts and logical assertions characterizing the domain knowledge, a set of data sources
and the mapping between the ontology and data sources which is a precise specification of the
correspondence between the data contained in data sources and ontology’s elements (see figure
1).

- 144 -
A. Rabhi et al.

F IG . 1: OBDA system’s structure

4 Synthesis and solution

According to this study, a sophisticated SPARQL query processing engine requires three
major components: a query decomposer to decompose user’s query into multiple sub-queries,
a source selector mechanism to optimize selecting relevant data sources and a result preparing
component to join sub-queries results and return the final answers to the user. It must be
noted that source selection is a task of great interest. Indeed, communication with external
sources and data transfer make the processing engine dependent the connection quality and
server failure risks, which led to the development of various methods that have been adopted
in these systems to ensure a favorable and appropriate sources selection. The main techniques
are: indexing to facilitate access to the sought resources, the use of ASK queries to verify the
existence of resources and finally the VoID description that provides statistics about datasets
and allows discovering data sources automatically.
The main idea behind our solution is to look for answers to a user’s query by aggregat-
ing the results from different sources besides having a good knowledge about queried data
sets and their domains of interest. As shown in Table.1, the proposed solution is based on
different approaches such as indexing that is used to optimize source selection, the index is
improved using ASK queries to check the existence of resources. Ontology-Based Data Ac-
cess paradigm is adopted to enrich datasets querying with an ontology that provides a formal
representation of the domains knowledge (Geography, life science, social network) as well as
additional vocabulary of different concepts provided by data sources and relationships between
these concepts. Hence, the user will be able to query several, independent, distributed and het-
erogeneous sources through a single interface providing a unified view of data repositories over
the web of data.

- 145 -
Aggregated search in the web of data: Source selection and OBDA

TAB . 1: Used approaches.

Solutions Used approaches


Index ASK voID OBDA
DARQ (2008) X
FedX (2011) X
SPLENDID (2011) X X
WoDQA (2012) X
LHD (2013) X X
DAW (2013) X X
HiBISCus (2014) X X
Avalanche (2014) X X
Our Solution X X X

5 Conclusion
In This paper we presented an overview of the studies that have been done to allow aggre-
gating information from distributed data sources in the web of data. This review presents the
aggregated search paradigm to enable finding answers to queries in an RDF graph database.
And the importance of adopting an efficient method to select relevant data sources contribut-
ing to the final result. Indeed, many studies have been focused on the source selection task
in order to decrease the network traffic and enhance the performance of the federated queries
engine. We also highlighted the usefulness of the Ontology-Based Data Access paradigm and
its importance to present a semantic description of data and to mediate between the user’s
expectations and external data sources.
In future, we hope to inset the OBDA paradigm in our work to unify querying distributed
data sources, we will use VoID descriptions to discover relevant data sources automatically on
the web. Then, we will set up a distributed processing architecture to parallelize the process and
distribute it on a cluster of working nodes rather than one computing node, thus, the system
will be able to handle the large number of user’s requests and the large size of results to be
processed.

References
Akar, Z., T. G. Halaç, E. E. Ekinci, and O. Dikenelli (2012). Querying the web of interlinked
datasets using void descriptions. LDOW 937.
Bagosi, T., D. Calvanese, J. Hardi, S. Komla-Ebri, D. Lanti, M. Rezk, M. Rodríguez-Muro,
M. Slusnys, and G. Xiao (2014). The ontop framework for ontology based data access.
Chinese Semantic Web and Web Science Conference, 67–77.
Bloom, B. H. (1970). Space/time trade-offs in hash coding with allowable errors. Communi-
cations of the ACM 13(7), 422–426.

- 146 -
A. Rabhi et al.

Calvanese, D., G. De Giacomo, D. Lembo, M. Lenzerini, R. Rosati, and G. A. Ruberti (2017).


Ontology-based data access and integration.
Cosmin Basca, A. B. (2014). Querying a messy web of data with avalanche. Journal of Web
Semantics 26, 1–28.
De Giacomo, G., D. Lembo, X. Oriol, D. F. Savo, and E. Teniente (2017). Practical update
management in ontology-based data access. International Semantic Web Conference, 225–
242.
Echbarthi, G. and H. Kheddouci (2017). A graph matching approach based on aggregated
search. In Signal-Image Technology & Internet-Based Systems (SITIS), 2017 13th Interna-
tional Conference on, pp. 376–379. IEEE.
Görlitz, O. and S. Staab (2011). Splendid : Sparql endpoint federation exploiting void descrip-
tions. Proceedings of the Second International Conference on Consuming Linked Data 782,
13–24.
Grubenmann, T., A. Bernstein, D. Moor, and S. Seuken (2017). Challenges of source selection
in the wod. In International Semantic Web Conference, pp. 313–328. Springer.
Heath, T. and C. Bizer (2011). Linked Data: Evolving the Web into a Global Data Space.
Morgan & Claypool publishers.
Kharlamov, E., D. Hovland, E. Jiménez-Ruiz, D. Lanti, H. Lie, C. Pinkel, M. Rezk, M. G.
Skjæveland, E. Thorstensen, G. Xiao, et al. (2015). Ontology based access to exploration
data at statoil. ISWC, 93–112.
Kogalovsky, M. R. (2012). Ontology-based data access systems. Programming and Computer
Software 38(4), 167–182.
Quilitz, B. and U. Leser (2008). Querying distributed rdf data sources with sparql. European
Semantic Web Conference (ESWC), 524–538.
Rabhi, A., S. Ouederrou, R. Fissoune, and H. Badir. A multi-tiered system for querying the
web of data.
Saleem, M. and A.-C. N. Ngomo (2014). Hibiscus: Hypergraph-based source selection for
sparql endpoint federation. In European Semantic Web Conference, pp. 176–191. Springer.
Saleem, M., A.-C. N. Ngomo, J. X. Parreira, H. F. Deus, and M. Hauswirth (2013). Daw:
Duplicate-aware federated query processing over the web of data. ISWC, 574–590.
Schwarte, A., P. Haase, K. Hose, R. Schenkel, and M. Schmidt (2011). Fedx: Optimization
techniques for federated query processing on linked data. In International Semantic Web
Conference, pp. 601–616. Springer.
Sushmita, S., H. Joho, M. Lalmas, and R. Villa (2010). Factors affecting click-through behav-
ior in aggregated search interfaces. Proceedings of the 19th ACM international conference
on Information and knowledge management, 519–528.
Wang, X., T. Tiropanis, and H. C. Davis (2013). Lhd: Optimising linked data query processing
using parallelisation.

- 147 -
Génération de la description ODD+2D et du code source
GAML d’un modèle agent à partir du formalisme DAMap
Ahmed Laatabi*, Nicolas Marilleau**, Hassan Hbid*
Tri Nguyen-Huu**, Mohamed Ait Babram*

*LMDP, Université Cadi Ayyad


Bd Abdelkrim Khattabi, Marrakech 40000
laatabi44@gmail.com

**UMI 209 UMMISCO IRD


32 Avenue Henri Varagnat, 93140 Bondy, France

Résumé. Les scientifiques sont de plus en plus intéressés par l'étude des phé-
nomènes complexes sociaux et naturels, à travers la modélisation multi-agents.
La complexité et la complication des modèles agents augmentent avec l'expan-
sion des quantités de données et de dynamiques considérées, et les dévelop-
peurs rencontrent une difficulté croissante pour les comprendre et les réutiliser.
Le besoin de descriptions et de formalismes pour approcher ces modèles est
évident. Toutefois, la majorité des méthodes de développement existantes ne
supporte pas la transition entre les descriptions, les formalismes et les codes
sources de modèles. DAMap (Data to Agent Mapping) est une suite d'outils
permettant de développer, d'une manière collaborative, des modèles textuels à
partir d'un formalisme graphique. Nous l'utilisons ici pour la génération d'une
description ODD+2D (Overview, Design concepts and Details + Decision +
Data) et d'un code source GAML (GAMA Modeling Language) d'un modèle
de mobilité résidentielle.

1 Introduction
Les modèles multi-agents intégrant les données empiriques pour modéliser des systèmes
complexes, sont de plus en plus présents dans les études des phénomènes naturels et sociaux.
Ces modèles sont en perpétuelle croissance en matière de taille et de combinatoire, à cause
de la complexité des processus considérés, de l'abondance des données aujourd'hui dispo-
nibles et de leur multi-dimensionnalité. Compte tenu d'un manque de descriptions sur le lien
entre la donnée et le modèle, les modélisateurs rencontrent une difficulté croissante dans la
réutilisation et la duplication desdits modèles. Une des solutions proposées pour pallier ce
problème, est la description et la documentation des modèles multi-agents (Müller et al.,
2014). Le protocole ODD (Overview, Design concepts and Details) de Grimm et al. (2006)
en est une concrétisation acceptée par la communauté (Groeneveld et al., 2017).
Les descriptions et les formalismes facilitent la compréhension, la reproduction et la dis-
sémination des modèles à travers les différentes disciplines (Boudiaf et al., 2004; Müller et

- 149 -
Génération de ODD+2D et de GAML via le formalisme DAMap

al., 2014; Bouquet et al., 2015). Toutefois, la transcription de ces descriptions en codes
sources, exécutables par des plateformes identifiées de simulation, est une activité indivi-
duelle, peu reproductible faisant appel à l'expérience du modélisateur concerné. D'autre part,
les experts du domaine n'ont souvent pas l'expérience et les compétences suffisantes pour
mener à bien le développement d'un modèle, et doivent céder cette activité à des dévelop-
peurs aguerris. Le modèle redevient une boîte noire dont l'expert n'a pas la maîtrise. Il serait
très utile de pouvoir mettre en œuvre des protocoles, des règles et des formalismes afin de
convertir les descriptions de modèles en codes sources de simulation, et vice-versa.
Le méta-modèle DAMap (Data to Agent Mapping) proposé par Laatabi et al. (2016) est
un outil graphique pour la conception de modèles multi-agents. Il présente la particularité de
se focaliser sur la liaison données-modèle. Ce formalisme fait partie intégrante du protocole
ODD+2D (ODD + Decision + Data) (Laatabi et al., 2018) utilisé pour la description des
modèles empiriques à base d'agents, modèles où la donnée de terrain tient une place impor-
tante. La plateforme DAMap1 offre une interface graphique permettant de concevoir le for-
malisme DAMap, qui est ensuite utilisé pour générer la description ODD+2D, et le code
source GAML (GAMA Modeling Language) exécutable sous la plateforme de simulation
GAMA (Taillandier et al., 2010). La génération de descriptions et de codes sources à partir
d'un formalisme graphique, permet d'ouvrir de nouvelles pistes pour la transition description-
codes, et d'établir des liens pour le rapprochement entre les développeurs et les experts de
domaine au sein des projets de modélisation collaborative.
Ce papier est structuré comme suit: nous présentons d'abord le protocole de description
ODD+2D, puis la plateforme GAMA et son langage orienté agent. Dans la section 4, nous
parlons de la difficulté de la transcription manuelle d'une description en code exécutable. La
section d'après est dédié au formalisme DAMap proposé comme remède à cette difficulté.
Dans la section 6, nous automatisons le processus de transition description-code à l'aide de la
plateforme DAMap. Enfin, nous concluons avec un ensemble de remarques et de perspec-
tives.

2 La description ODD+2D
L'extension ODD+2D (Laatabi et al., 2018) étend le protocole ODD+D (ODD+ Déci-
sion) (Müller et al., 2013) pour préciser l'usage des données dans le modèle. Elle fournit de
nouvelles prérogatives pour intégrer les données empiriques au sein des modèles multi-
agents, mais surtout pour fixer le lien entre un modèle et la donnée qu'il est en mesure d'ab-
sorber. Ainsi, ce protocole favorise la réutilisation d'un modèle existant pour un autre cas
d'étude avec d'autres données en présence. Comme tous les protocoles à base d'ODD, l'exten-
sion ODD+2D est une ligne directrice qui permet aux développeurs de vérifier si toutes les
informations nécessaires à la compréhension et la reproduction du modèle sont prises en
considération (Groeneveld et al., 2017). ODD+2D renforce cet aspect en décrivant les don-
nées empiriques utilisées, les traitements qu'elles ont subis, et leurs liens de correspondance
avec les composantes du modèle agent.
ODD+2D repose sur l'architecture de ODD+D en précisant l'élément « Input Data » par
quatre nouveaux blocs (voir figure 1) :

1
https://github.com/Damapproject/damapp

- 150 -
A. Laatabi et al.

FIG. 1 – Le protocole ODD+2D.

- Data Overview : donne une vue d'ensemble sur les données utilisées, et permet ainsi
de comprendre et de disséminer le contexte du projet de modélisation;
- Data Structure : décrit le schéma et la hiérarchie de données, sous le format d'un ta-
bleau ou d'un diagramme de classes UML;
- Data Mapping : permet de projeter la structure de données sur les entités et les élé-
ments du modèle, en utilisant par exemple le formalisme DAMap (voir section 5);
- Data Patterns : synthétise et concrétise le lien entre les données et le modèle à tra-
vers un ensemble de règles, d'équations et d'algorithmes.

3 GAMA et langage GAML


GAMA (Taillandier et al., 2010) est un environnement de développement open-source,
pour la modélisation et la simulation spatiales à base d'agents. GAMA permet la conception
et le développement de modèles empiriques (basés sur les SIG, CSV, bases de données)
grâce à un langage orienté agent (GAML) qui permet non seulement d'implémenter une
importante diversité d'agents, mais aussi de visualiser les phénomènes émergents par des
représentations 2D ou 3D. GAMA est une plateforme extensible en permettant l'ajout de
fonctionnalités additionnelles via un système de plug-ins.
Un modèle GAML est divisé en quatre blocs :
- Header : spécifie le nom du modèle, ainsi que les fichiers et les modules à importer;
- Global : définit les paramètres, les attributs (variables globales) et les comporte-
ments (réflexes) de l'agent world représentant l'environnement global de la simula-
tion. Il contient la fonction init utilisée pour l'initialisation du modèle;
- Species : définit les différents types d'agents, leurs structures, comportements et as-
pects. Une espèce représente un agent qui peut également être vu comme un objet
(instance d'une classe UML);
- Experiment : spécifie les agents qui seront exécutés et visualisés à travers les diffé-
rentes sorties de la simulation (moniteurs, graphes, …).

- 151 -
Génération de ODD+2D et de GAML via le formalisme DAMap

Ces quatre blocs traduisent l’ossature minimale d’un modèle GAML, vers laquelle une
transcription ODD+2D doit tendre.

FIG. 2 – La correspondance entre une description ODD+2D et un code GAMA.

4 Transcrire une description ODD+2D en modèle GAML


Dans cette section, nous allons étudier la possibilité d'une transcription manuelle de la
description ODD+2D, en un code source de modèle GAML. Un travail similaire a été propo-
sé dans Railsback et Grimm (2011) visant à traduire une description ODD en un modèle
NetLogo. Les auteurs ont fourni étape par étape, un ensemble de recommandations pour
guider cette transformation manuelle hiérarchique.
Dans une même démarche, nous avons établi les principales correspondances entre les
rubriques d'une description ODD, et les blocs d'un modèle GAML (voir figure 2). Chaque
rubrique ODD décrit une partie de code du modèle qui peut être séparé en trois grandes par-
ties: les inputs (l'initialisation et les données d'entrée), le corps du code (les entités, les pro-
cessus et sous-modèles) et les sorties (les affichages et les résultats).
Une description ODD+2D peut se transcrire en un modèle GAML par le schéma de tra-
duction suivant:
- Purpose : représente une description de ce que le modèle est supposé faire, son
contexte et ses informations générales. Il est clair que cet élément doit être in-
clus comme commentaire dans l'entête du code source de la simulation. L'élé-
ment Implementation Details peut aussi fournir quelques informations utiles
pour la compréhension du contexte général de l'implémentation du modèle;
- Entities, State variables and Scales : cette rubrique montre la structure des
agents qui seront implémentés dans le code de la section Species;

- 152 -
A. Laatabi et al.

- Process overview and Scheduling, Design concepts et Submodels : ces éléments


spécifient les parties dynamiques du modèle, qui sont les comportements des
agents et les actions qu'ils sont supposés accomplir. C'est le corps des agents qui
sont créés dans la section Species. Quelques processus peuvent également être
implémentés comme des réflexes (comportements) globaux de l'agent world;
- Initialization : décrit les éléments à initialiser et la façon dont il faut le faire.
Cette rubrique est à implémenter dans la partie global et dans la méthode init de
chaque agent;
- Input Data : cette rubrique décrit généralement les sources de données externes,
et comment elles sont importées et chargées dans le modèle. Ceci sera implé-
menté dans l'entête global ou dans la fonction init, pour importer les fichiers de
données et les imputer dans les listes et les variables globales;
La figure 3 montre le résultat d'une transcription sous la forme d'un modèle GAML que
nous avons implémenté à partir d'une description ODD+2D. GAMA reçoit les inputs et ini-
tialise les entités dans l'environnement global. Le code source des espèces définit les actions
et les comportements des agents. Ceux-ci sont animés durant la simulation pour générer les
sorties du modèle.
L'automatisation de ces étapes de traduction des rubriques ODD, vers un modèle GAML
semble être une tâche non triviale. Il est difficile et encombrant de prendre le texte des diffé-
rents blocs d'une description ODD, et de chercher les parties signifiantes à transformer en
code exécutable. Il est plus aisé de formaliser la description sous format d'un modèle gra-
phique, et de générer du code source à partir des objets qui le composent, à la manière des
diagrammes UML.

5 Le formalisme DAMap
5.1 Techniques de formalisation graphique des agents
Plusieurs formalismes, méthodes graphiques et plateformes ont été proposés pour le dé-
veloppement des modèles multi-agents (Bouquet et al., 2015). Ces outils sont destinés essen-
tiellement à impliquer les experts de différentes disciplines dans un projet de modélisation.
La méthode INGENIAS (Pavon et al., 2008) propose un ensemble de diagrammes pour
implémenter graphiquement des modèles agents. À travers des modules spécifiques, elle
permet de générer automatiquement des codes sources. Toutefois, INGENIAS requière d'im-
portantes compétences dans l'usage de ses propres méta-modèles et du langage Java.
MAGéo (Langlois et al., 2015) est une plateforme de modélisation géographique qui pro-
pose un ensemble de formalismes pour concevoir les entités et les relations du modèle con-
ceptuel. Des interfaces graphiques permettent de paramétrer les agents et de coder leurs
comportements. Un langage propre est nécessaire à plusieurs niveaux pour bien mener la
simulation. Si MAGéo est adapté dans un cadre multidisciplinaire aux simulations spatiales,
elle reste une plateforme avec peu de possibilités d'extension.
Les langages et formalismes à base d'UML, notamment AML (Trencansky et Cervenka,
2005) et AUML (Bauer et al., 2001), restent génériques, complexes à implémenter, et ne
fournissent pas des mécanismes pour les besoins spécifiques tels que la génération de codes.
Les outils et les techniques cités dans cette section, ainsi que d'autres plateformes de si-
mulation multi-agents (Kravari et Bassiliades, 2015), n'offrent pas non plus la possibilité de

- 153 -
Génération de ODD+2D et de GAML via le formalisme DAMap

FIG. 3 – L'implémentation d'un modèle décrit par ODD+2D, sous la plateforme GAMA.

- 154 -
A. Laatabi et al.

faire des liens de correspondance entre le modèle, et les données empiriques utilisées pour sa
conception et son développement. La liaison des données au modèle est une information
cruciale à inclure dans les descriptions, pour faciliter la compréhension et la reproduction des
modèles multi-agents, en particulier dans les études empiriques (Barreteau et Smajgl, 2014).
Dans les deux sous-sections suivantes, nous allons présenter DAMap, un formalisme gra-
phique développé initialement pour lier les données empiriques au modèle agent, mais que
nous pouvons utiliser aussi pour générer des sorties textuelles.

5.2 DAMap et la liaison donnée-modèle


DAMap (Mapping Données-Agent) (Laatabi et al., 2016) est un méta-modèle basé sur le
standard MOF. Il utilise les concepts UML pour construire un modèle graphique reliant les
différents composants de deux sous-modèles: le modèle de données et le modèle agent. Il
précise comment une entité agent dérive d'une ou plusieurs entités de données. Par ailleurs, il
décrit comment les variables d'état des agents sont construites à partir des données en tenant
compte des traitements intermédiaires (transformations, agrégations, …). DAMap met en
œuvre des composantes appelées patterns, utiles pour expliquer la structure des agents et le
fonctionnement de leurs comportements. Ces patterns sont soit des règles et des dépendances
extraites de données (mapping patterns), soit des relations et des règles théoriques qui pro-
viennent de la littérature ou de la connaissance d'expert (assumption patterns).
L'instanciation de ce méta-modèle donne un modèle DAMap (voir figure 4) qui est com-
posé d'un ensemble d'éléments graphiques, montrant les liens de correspondance (mapping)
entre les entités de données (à gauche), et le modèle agent (à droite). Ces liens sont généra-
lement des transformations ou des agrégations de variables.
Le diagramme de la figure 4 montre un modèle DAMap de mobilité résidentielle. Les
trois entités de données (en bleu): District, Household et Dwelling composent le sous-modèle
de données. Elles sont reliées à travers un ensemble de liens de correspondance (Depen-
dance, Aggregation, …) aux trois agents (en jaune) du sous-modèle agent. Par exemple, la
dépendance Moving Decision explique comment la décision de déménagement d'un agent
Household, est prise essentiellement à base de deux attributs : tenure (statut d'occupation du
logement) et moves5y (nombre de déménagements dans les cinq dernières années). Le forma-
lisme DAMap est dessiné à travers une plateforme dédiée (voir section 6.2) et est utilisé pour
concevoir le modèle multi-agents et son mapping avec les données empiriques.

5.3 DAMap et la génération de codes


Pour automatiser le processus de génération automatique du code source GAML (fait
manuellement dans la section 4), nous allons utiliser le formalisme DAMap pour générer à la
fois, un modèle GAML, et une description ODD+2D.
Le diagramme DAMap permet de créer une interface entre l'utilisateur (développeur ou
expert de domaine), et entre les deux résultats textuels à générer : la description ODD+2D et
le code GAML (voir figure 5). Le développeur manipule exclusivement les composantes
graphiques, et précise les éléments à décrire et à implémenter. Le formalisme DAMap se met
également comme intermédiaire entre la description et le code exécutable pour éviter la
transcription manuelle citée auparavant, et qui est difficile à automatiser sans formalisation.
DAMap permet ainsi d'automatiser la génération des codes, en traduisant les compo-
santes graphiques du modèle multi-agents conçu par le développeur. La plateforme DAMap

- 155 -
Génération de ODD+2D et de GAML via le formalisme DAMap

permet de concrétiser l'automatisation ce processus à travers une interface graphique convi-


viale et multidisciplinaire.

FIG. 4 – Un modèle DAMap de mobilité résidentielle à Marrakech (Laatabi et al., 2018).

- 156 -
A. Laatabi et al.

6 Automatisation du processus
6.1 Le processus
Pour automatiser le processus de génération du code GAML à partir d'un diagramme
DAMap, il est primordial d'utiliser une plateforme contenant des outils complémentaires
nécessaires, notamment un générateur automatique de type modèle-vers-textes. Cet outil de
transformation de modèles utilise des méta-textes appelés templates, pour spécifier le format,
la structure et le contenu des sorties textuelles à générer.

FIG. 5 – Le formalisme DAMap joue le rôle d'intermédiaire entre le développeur et les


sources générées, ainsi qu'entre la description ODD+2D et le code GAML.

Ce processus de l'utilisation des templates et des formalismes est la technique classique


de la génération du code, utilisée notamment par d'autres méthodes de modélisation gra-
phique comme INGENIAS (Pavon et al., 2008). Toutefois, notre processus que nous allons
implémenter (voir figure 7) est plus générique et facile à utiliser. (i) Grâce aux templates, il
peut produire tout format de textes selon le méta-texte fourni; et (ii) il est utilisable par un
large public grâce à la simplicité du diagramme DAMap basé sur de simples composantes
graphiques UML.
Après avoir introduit le formalisme DAMap dans la section 5, nous introduisons l’autre
élément principal du processus: la plateforme DAMap.

6.2 La plateforme DAMap


La plateforme DAMap est développée avec l'outil libre et open-source Eclipse Sirius2
sous la forme d'une extension. La plateforme DAMap dispose d'une interface graphique
formant un espace de travail dédié à la conception du modèle DAMap. Elle permet de dessi-
ner chaque composant du diagramme à partir d'une boîte à outils disponible (palette de
gauche dans la figure 6). Ces outils sont divisés en trois catégories: les composants données,
agents et les outils de mapping. La fenêtre de propriétés à droite offre la possibilité de rem-
plir les champs textes (nom, code, description, …), et qui seront ensuite utilisés pour générer
les résultats textuels (la description ODD+2D et le code GAMA).

2
https://www.eclipse.org/sirius/

- 157 -
Génération de ODD+2D et de GAML via le formalisme DAMap

FIG. 6 – La plateforme DAMap.

Après la phase de conception, le diagramme graphique DAMap (modèle conceptuel) est


alors transformé par le moteur Acceleo3 en une description ODD+2D et en un modèle
GAML (modèle d'implémentation).

6.3 La génération automatique de ODD+2D et de GAML


La figure 7 montre le processus complet du diagramme graphique DAMap vers les mo-
dèles textuels (ODD+2D et GAML). Ce processus repose sur des règles automatiques de
transformations. Les templates de transformation (GAML et ODD+2D) sont préalablement
définis dans Acceleo. Celui-ci récupère les données (les noms et les descriptions des compo-
santes) à transformer à partir du diagramme DAMap.
Les variables des templates (voir figure 8) en couleur bleue (agententities, StateVariable,
…) utilisées par Acceleo sont toutes prédéfinies dans le méta-modèle DAMap. C'est grâce à
ces variables que la plateforme récupère les composantes graphiques du modèle DAMap,
pour les convertir en codes sources, notamment les blocs et les éléments de GAML et de
ODD+2D. Les codes générés doivent être complétés manuellement par le développeur, afin
de traduire quelques formes compliquées, et permettre la bonne lecture de la description
ODD et le bon fonctionnement du code exécutable sous GAMA.

3
http://www.eclipse.org/acceleo/

- 158 -
A. Laatabi et al.

FIG. 7 – La génération automatique de codes à partir du formalisme DAMap.

7 Conclusions et perspectives
Dans cet article, nous avons proposé un outil permettant la transition automatique d'une
description à base d'ODD, vers un modèle GAML exécutable sous la plateforme GAMA.
Dans ce cadre, le formalisme DAMap est suffisamment didactique pour être dans un cadre
pluridisciplinaire et suffisamment formalisé pour accomplir la transition et se mettre ainsi
entre les modélisateurs et les modèles GAML et ODD+2D. Ce formalisme a été utilisé pour
concevoir un modèle de mobilité résidentielle à Marrakech, qui est ensuite traduit en un code
exécutable sous GAMA, et en une description ODD+2D.
Toutefois, les sorties générées notamment le modèle GAML, ont toujours besoin d'une
intervention manuelle pour compléter les parties qui ne peuvent pas être conçues graphique-
ment (l'algorithmique, les règles de comportement). Pour remédier à ce problème, nous sou-
haitons implémenter dans les prochaines versions, un langage spécifique de domaine (DSL-
Domain Specific Language) avec d'autres composantes graphiques, afin de décrire en plus de
détails les comportements des agents et permettre une traduction automatisée en modèle
GAML.
Nous proposons également d'ajouter des mécanismes d'ingénierie inverse, pour permettre
la génération d'un formalisme DAMap à partir d'un code GAML. Ce genre de transitions
entre les formalismes et les codes sources (GAML, NetLogo ou autres), peut également faci-
liter la transformation des codes sources de modèles existants vers des descriptions à base
d'ODD, nécessaires pour leur compréhension et réutilisation.

Références
Barreteau, O. et A. Smajgl (2014). Designing empirical agent-based models: An issue of
matching data, technical requirements and stakeholders expectations. In Empirical Agent-
Based Modelling-Challenges and Solutions, pp. 239–249. Springer.
Bauer, B., J. P. Müller, et J. Odell (2001). Agent uml: A formalism for specifying multiagent
software systems. International journal of software engineering and knowledge engineer-
ing 11(03), 207–230.

- 159 -
Génération de ODD+2D et de GAML via le formalisme DAMap

FIG. 8 – Les templates Acceleo du code GAML et de la description ODD+2D.

Boudiaf, N., F. Mokhati, M. Badri, et L. Badri (2004). Specifying dima multi-agents models
using maude. In Pacific Rim International Workshop on Multi-Agents, pp. 29–42. Sprin-
ger.
Bouquet, F., D. Sheeren, N. Becu, B. Gaudou, C. Lang, N. Marilleau, et C. Monteil (2015).
Formalisme de description des modèles agent. Simulation spatiale à base d’agents avec
NetLogo. Volume 1 : introduction et bases.
Grimm, V., U. Berger, F. Bastiansen, S. Eliassen, V. Ginot, J. Giske, J. Goss-Custard, T.
Grand, S. K. Heinz, G. Huse, et al. (2006). A standard protocol for describing individual-
based and agent-based models. Ecological modelling 198(1), 115–126.
Groeneveld, J., A. Klabunde, M. L. O’Brien, et A. Grow (2017). How to describe agent-
based models in population studies? In Agent-Based Modelling in Population Studies, pp.
237–254. Springer.
Kravari, K. et N. Bassiliades (2015). A survey of agent platforms. Journal of Artificial Socie-
ties and Social Simulation 18(1), 11.

- 160 -
A. Laatabi et al.

Laatabi, A., N. Marilleau, T. Nguyen-Huu, H. Hbid, et M. Ait Babram (2018). Odd+2d: An


odd based protocol for mapping data to empirical abms. Journal of Artificial Societies
and Social Simulation 21(2), 9.Breiman, L., J. H. Friedman, R. A. Olshen, and C. J. Stone
(1984). Classification And Regression Trees. New York: Chapman and Hall.
Laatabi, A., N. Marilleau, T. Nguyen-Huu, H. Hbid, et M. A. Babram (2016). Formalizing
Data to Agent Model Mapping Using MOF: Application to a Model of Residential Mobi-
lity in Marrakesh, pp. 107–117. Cham: Springer International Publishing.
Langlois, P., B. Blanpain, et E. Daudé (2015). Magéo, une plateforme de modélisation et de
simulation multi-agent pour les sciences humaines. Cybergeo : European Journal of Geo-
graphy.
Müller, B., S. Balbi, C. M. Buchmann, L. De Sousa, G. Dressler, J. Groeneveld, C. J. Klas-
sert, Q. B. Le, J. D. Millington, H. Nolzen, et al. (2014). Standardised and transparent
model descriptions for agent-based models: current status and prospects. Environmental
Modelling & Software 55, 156–163.
Müller, B., F. Bohn, G. Dreßler, J. Groeneveld, C. Klassert, R. Martin, M. Schlüter, J.
Schulze, H. Weise, et N. Schwarz (2013). Describing human decisions in agent-based
models–odd+d, an extension of the odd protocol. Environmental Modelling & Software
48, 37–48.
Pavon, J., C. Sansores, et J. J. Gomez-Sanz (2008). Modelling and simulation of social sys-
tems with ingenias. International Journal of Agent-Oriented Software Engineering 2(2),
196– 221.

Summary
Scientists are increasingly interested in modeling complex social and natural phenomena
through multi-agent models. The complexity and the complication of these models are in-
creasing with the huge amount of considered data and dynamics. Hence, developers encoun-
ter growing difficulty to understand and replicate existing models. The need of descriptions
and formalisms to approach multi-agent models is obvious. However, the majority of current
development methods do not support switching between descriptions, formalisms, and model
source codes. DAMap (Data to Agent Mapping) is a suite of tools to develop, in a collabora-
tive way, textual models based on a graphical formalism. We use it here to generate an
ODD+2D (Overview, Design concepts and Details + Decision + Data) description and a
GAML (GAMA Modeling Language) source code of a residential mobility model.

- 161 -
Semantic for Big Data Analysis: A survey

Amina Taouli*, Djamel Amar Bensaber*, Nabil Keskes*, Khayra Bencherif*, and Hassan
Badir**

*LabRI-SBA Lab., École Supérieure en Informatique, Sidi Bel Abbes, Algeria


{ a.taouli, d.amarbensaber, n.keskes, k.bencherif }@esi-sba.dz
**SDET, ENSAT Université Abdelmalek Essaadi Tanger, Maroc
badir.hassan@uae.ac.ma

Abstract. Big Data, with their potential to provide a valuable insight into the
improved decision-making process, has recently garnered considerable benefit
from both practitioners and academics. Given the heterogeneity, the scalability,
the velocity, the veracity, and the value of data, Big Data has emerged where
we face the major challenges of acquisition, collection, filtering, cleaning, anal-
ysis and visualization of massive data. Thus, these datasets must be exploited
at different levels with different techniques. The growth of Big Data is a main
challenge that needs to analyze more and more people and make sense of a sig-
nificant amount of data. In order to make the raw data used in decision-making,
recommendation systems, sentiment analysis and domain-specific usage, it is
recommended to use Big Data Analysis to transform and model the relevant
data, synthesize and extract useful hidden information. In order to have a bet-
ter result and to understand and detect relationships between data and predict
future instances, the researchers introduced the semantic aspect into the step of
Big Data Analysis. In this paper, we present a survey that captures approaches
which deal with semantic for Big Data Analysis.

1 Introduction
In recent years, the quantity of data has increased exponentially. By 2020, it is expecting
to have over 16 zettabytes useful data Turner et al. (2014), where we are on the border of
a generation confronting the emergence of a new wave of data. The total volume of data
consumed and offered on the web will increase by orders of grandeur Cavanillas et al. (2014).
Thus, the natural growth of these datasets within companies necessitates new requirements
in terms of methods, techniques, and tools related to its processing and exploitation Manyika
et al. (2011).
With this expansion of data, the Big Data concept has emerged. Initially, it is used to
describe these massive sets which generally include masses of unstructured data requiring
high speeds to store, process and analyze them. In this context, we face the main challenges of
acquisition, cleaning, integrating, exploiting, analyzing and visualizing huge quantity of data
from extensively distributed data sources. Therefore, we believe that the increasingly collected

- 163 -
Semantic for Big Data Analysis: A survey

data is causing a problem in storing and managing these huge and heterogeneous datasets. In
addition, it is necessary to process raw data to deal with heterogeneity, scalability, real-time,
veracity and value of the Big Data. In order to make the raw data acquired usable in decision-
making, prediction, recommendation systems, sentiment analysis, it is recommended to use
the Big Data analysis.
In fact, Big Data analysis is a very important subdomain of Big Data Chen et al. (2014),
without which most of the data obtained would be worthless. It involves adding structures to
the data as a first step during or before data analysis. So, the more data are structured, the more
easily it will be processed by machines.
The analysis revealed that the following generic techniques are either useful today or in
the short and medium term: data mining, machine learning, information retrieval, reasoning,
semantic processing, and data discovery Domingue et al. (2016). Nevertheless, there are new
challenges posed by the specific Big Data characteristics: the volume, the variety, and the
velocity that more specifically involve large-scale and high-velocity reasoning. In addition
the data can take different syntax formats or schemas or different significations linked to the
same syntactic forms. Semantic techniques have show to be the most relevant for solving
these problems. That’s why researchers are focused on developing semantic-based Big Data
analytics solutions which can help provide more efficient solutions and better meet the chal-
lenges of Big Data analysis for improved analysis, decision making, prediction, data quality
and extracting new knowledge.
The rest of this paper is structured as follows: Section 2 gives a background on the basic
concepts elaborated in this paper. In section 3, we review the state of the art approaches.
Section 4 presents a comparative study of different approaches followed by a discussion. In
section 5, we conclude and suggest directions for future research.

2 Definition of Big Data


The level of consensus reached by a scientific community on the definition of a concept
can be used as a measure of the progress of a discipline. As Big Data rather has progressed so
rapidly, there have been many attempts to define Big Data, in terms of use and quotation Beyer
and Laney (2012), Ward and Barker (2012), Microsoft (2013).
However, none of these proposals prevented the authors of Big Data to ignore the previous
definitions and proposing new ones. Although Big Data is still a relatively young concept, it
certainly deserves an accepted vocabulary of references that allow the good development of
the discipline. Among the existing definitions, we will cite a definition of Gartner Bachlechner
and Leimbach (2016): "Big Data is a term used to refer to high-volume, high-velocity and
high-variety information assets that demand cost-effective, innovative forms of information
processing for enhanced insight and decision making." The first part of the definition presents
the three kernel features of Big Data invented by Laney (these characteristics are known as "3
Vs": the volume, the velocity, and the variety) Laney (2001). The second part of Gartner’s
definition highlights the relevance of both the relation between costs and outcomes and new
technological capabilities. Finally, the third part of the definition refers to the ultimate goal of
creating value through the processing of data Lukoianova and Rubin (2013).

- 164 -
A. Taouli et al

3 Big data challenges


Based on previous researches, it has been possible to identify the challenges associated
with Big Data. These challenges are grouped into three categories: challenges related to data,
processes and management.

F IG . 1 – Data Life Cycle

3.1 Data Challenges


The data challenges are related to the feautures of the data itself. In fact, the researchers
have a different understanding of the characteristics of the data; some define only 3V [volume,
velocity, and variety] Shah et al. (2015), other represent 4V [volume, velocity, variety, and
variability] Liao et al. (2015), and some say they exist 6V [volume, variety, velocity, veracity,
value and, variability] Sivarajah et al. (2017). Then, the authors present the most important
characteristics of the Big Data captured in the literature with a different rates: 39.64% for
volume, 25.9% for variety, 19,4% for veracity, 13.2% for value, 7.9% for velocity, 2.6% for vi-
sualisation and finally 1.8% for variability. The seven characteristics are described as follows:
Volume: The volume represents a significant challenge among the characteristics of Big Data.
It refers to the amount of data that does not stop growing, and that is the aspect that comes
to mind of most peoples when they think of massive data containing sets of data including
terabytes, petabytes of data or more. In 2012, an IBM survey Schroeck et al. (2012) found that
more than half of the 1,144 respondents believed that datasets of more than one terabyte were
large data. These datasets will reach more than 40 zettabytes of data by 2020 Gantz and Rein-
sel (2012). For example, Walmart generates approximately 2.5 terabytes of data in each hour
of client transactions, and Facebook produces over 500 terabytes of data Zhao et al. (2013).
Variety: The variety refers to structural heterogeneity in a dataset. In fact, the organiza-
tions use different types of structured, unstructured data and semi-structured. Structured data,

- 165 -
Semantic for Big Data Analysis: A survey

which represent only 5% of the actual data Cukier (2010), refers to relational databases or tab-
ular data. The massive quantity of data is not coherent and does not follow an accurate format
or template. It is captured in various forms containing unstructured data which represents 90%
of all data Dobre and Xhafa (2014) such as audio, video or messages on several forms emails,
tweets, and blogs or web data (for example, images on social networks, sensor data and much
more Chen et al. (2012)). In turn, XML is a concrete example of semi-structured data which
contains data labels defined by the user who makes them readable by the machine.
Veracity: IBM invented this feature which represents the unreliability that exists in many
structured and unstructured data sources. It also implies the lack of quality and precision,
the uncertainty and the unpredictable nature of the data. Furthermore, the veracity allows the
users understanding information in data sources. For example, the feelings of each customer
on different social media networks are of uncertain nature that implies intervention the human
Sivarajah et al. (2015).
Value: Big Data researchers consider the value as an important feature. However, data sources
may contain valuable data and insignificant information Zaslavsky et al. (2012). In this sense,
it is good to have access to Big Data, but it is necessary to convert them into value.
Velocity: The velocity correspond to the increasing speed at which data is created, processed,
stored, analyzed, or the speed at which new data are generated Gandomi and Haider (2015).
Given the growth of smartphones, the scientists have to manage with hundreds of thousands of
continuous data sources that require real-time analytics. In this context, traditional data man-
agement systems are not able to handle the massive quantity of data. In order to fill this gap,
Big Data technologies come in. They allow businesses to manage real-time information from
big volumes of data. For example, Wal-Mart treats more than one million transactions each
hour Cukier (2010). These data can be involved to produce personalized and real-time offers
for customers Sivarajah et al. (2017).
Visualisation: The data visualization is about representing knowledge and information in a
more legible and effectual way by utilizing different visual formats, such as graphics or im-
ages Taheri et al. (2014). For example, more than millions of products are sold on eBay each
month. To make these data understandable, eBay took into account the Big Data visualization
tool, which can transform complex and large datasets into representations. Based on these
presentations, eBay’s employers can visualize the results of the search by monitoring the latest
customer feedback and analyzing the feelings Sivarajah et al. (2017).
Variability: Among the seven feature of Big Data, variability is another necessary charac-
teristic but often confused with the variety. The meaning of these data changes constantly and
quickly (for example, Google or Facebook stores and generates many data formats). In order to
conduct a correct sentiment analysis, the researchers claim that the algorithms must be capable
to understand and decipher the exact sense of a word in this context Zhang et al. (2015a).

3.2 Process challenges


Generally, process challenges rely on the introduction of the Big Data value chain. They
represent the flow of information in a Big Data organization to build useful information from
the data Cavanillas et al. (2014) Curry et al. (2014). The authors of Sivarajah et al. (2017) make
an analysis of 227 articles, to identify the challenges that constitute the value chain from the
data collection stage up to the visualization of the results with different rates. These challenges
are classified according to different values of rates: 42.7% for acquisition challenge, 16.7% for

- 166 -
A. Taouli et al

data mining and cleaning challenge, 12,8% for aggregation challenge, 11% for analysis and
modeling challenge, and 6.6% for the interpretation challenge.
Data acquisition: Data acquisition is the procedure of collecting, cleaning and filtering data
before being placed in a storage solution in which the analysis of the data may be triggered.
The acquisition of Big Data is often governed by four Vs which involve high volume, high
variety, high velocity, but low-value data Lyko et al. (2016).
Data Mining and Cleansing: The second challenge is to extract and clean non-consistent,
missing, unstructured, and invalid data that can deviate the results of the analysis. Naturally,
the structure of traditional data is defined in advance and the data is pre-validated. Therefore,
the need to manage these inconsistent data from external sources has led to the introduction
of the data extraction step. In this step, data have been transformed into a format that can be
analyzed by Big Data solution. Moreover, several setting validation rules can be used to clean
and remove any invalid data.
Data Aggregation: Data can be propagated across multiple datasets, which necessitates that
data are grouped together using common fields. This is the role of the aggregation and data
representation stage that leads to the combination of multiple data sets to achieve a unified
view of users, improving decision-making and creating new knowledge Erl et al. (2016).
Data Analysis and modeling: The next challenge is Data analysis that consists of exploring,
modeling and transforming data in order to highlight the relevant data, synthesize and extract
hidden information with a great potential Domingue et al. (2016). The most interesting step in
the value chain is the part of the data analysis that allows removing unnecessary information
Tilman et al. (2016). Big Data analysis is about adding structure to data to support decision-
making. Besides, Big Data analysis makes raw data ready for restoration, storage, and usage.
In a recent discussion on data analytics, Richard Benjamins in a personal communication said:
"Analytics without data is worthless, analytics with bad data is dangerous, analytics with good
data is the objective".
Data Interpretation: The last challenge is the visualization and use of data. It covers data-
driven business activities that require reaching their analysis and the tools needed to integrate
data analysis into their business. The capacity to analyze huge quantity of data and to find
useful information wear little value if just the analysts that can translate the results. The Data
Visualization stage concerns to use tools to graphically communicate the analysis results for
an effective interpretation by business users Tilman et al. (2016).

3.3 Management challenges


The Big Data-related management challenges can be seen when managing data in sensitive
areas such as medicine, banks, insurance and personal data. Organizations must ensure the
security side for these employees and staff to visualize only the relevant data. In Sivarajah
et al. (2017), five challenges are presented; their corresponding rates are as follows: 10.1% for
privacy, 7.5% for security, 4.4% for data and information sharing, 3.1% for cost/operational
expenditure and finally 1.3% for data ownership. In this context, the main challenges are:
Privacy: Data analytics can reveal private and confidential information about individuals or
organizations. So, analyzing such information can lead to privacy violations.
Security: If the security problems are not handled, the Big Data will not have an important
consideration. The security of Big Data involves ensuring that data networks are fairly se-

- 167 -
Semantic for Big Data Analysis: A survey

cure through authorization and authentication mechanisms. Big Data security also involves
the definition of data access levels. Unlike traditional relational database management sys-
tems, NoSQL databases do not typically provide robust built-in security mechanisms Erl et al.
(2016).
Data Governance: In data analysis, organizations must have Big Data management and data
governance frameworks Erl et al. (2016). Moreover, the quality of data focused on treatment
by Big Data solutions should be evaluated. Thus, generating low-quality data allows producing
poor quality results.

4 Semantics for big data


The data itself is confronted with the Big Data problems, which presents challenges in
each step of the value chain from the data collection to the visualization and the use of that
data. Hence, we need to have a semantic context to help scientists to access to data and use
and interpret the results. In this context, the same term can be represented in different ways
(for example: designating places, objects or different people), and the result will depend on
their context. On another side, we can find different concepts representing the same object.
On the other hand, we can find data which share a certain definition that differs from another.
However, semantic technologies are used to resolve the inconsistencies, the evaluation and the
discovery of new information from an existing knowledge base. In this section, we will address
the different approaches that merge Semantic with large data to make these data connected to
the real world.

4.1 Semantics for Big Data acquisition


The semantic aspect can be added to the acquisition step that represents the process of col-
lecting, filtering and cleaning the data before placing them in a storage solution. Moreover,
the analysis of the data can be triggered to capture related and valuable information. It must
be robust and intelligent to capture useful information and eliminate unnecessary information
that contains inaccuracies or inconsistencies. Thus, effective analytical algorithms are needed
to understand the source of the data, process the data continuously and reduce the data be-
fore storage Zheng et al. (2015). To this effect, we will mention some approaches that have
highlighted these points.
In Hussain et al. (2010), the authors proposed a scheme to retrieve and store large amounts
of RDF data in Hadoop Distributed File System (HDFS). The system processes and puts RDF
data in a file. Then, the authors propose an algorithm that determines the best query plan
needed to execute several queries on different sizes of datasets. So, this system is scalable and
efficient to easily manage billions of RDF triples. However, it is very tolerant of errors and it
does not give fast results.
The authors in Khodkh et al. (2010) compared different approaches for processing RDF
data. They proposed an automated system to process and analyze query about RDF data
founded in SPARQL queries, executing time, numbers of triples and graphs contained in the
input RDF file. They utilize various techniques that increase the system results, such as the
analysis of the input data. This system consists of three main parts: the initial part is data
preprocessing, pursued by the query optimization and processing part which is done only for

- 168 -
A. Taouli et al

simple queries. The last part represents the query executing time analysis. In this part, the
queries and their results are stored in a database. So, if the user triggers the same queries on
the same dataset, the results will be given directly. This function of the system makes it similar
to the operation of the cache. Generally, the organizations are unable to migrate novel tech-
nologies with a secure integration to their system and data. For those reasons, they required to
advanced Big Data technologies with a mature functionality that supports the interoperability,
the reusability, and the portability.
In Leida et al. (2016), the authors include three layers of MDA (Model Driven Architec-
tures): the CIM (computational dependent model), the PIM (platform independent model) and
the PSM (platform specific model). These layers are then translated into a Big Data archi-
tecture that involves identifying a set of predefining (CIM). Then, these models are mapped
into the PIM and PSM (depending on the accurate deployment constraint). Finally, they can
be run in the TOREADOR platform. In this workflow, the system optimizes the reuse, re-
duces development costs and provides a programming interface (using the spark framework
that implements a fault-tolerant distribution in a cluster) to interact with distributed memory.
However, it encounters a contextualization problem that can be secured at the time of genera-
tion; but invalid when combining this statement with other statements which are generated in
another context.

4.2 Semantics for Big Data integration


It relates to the introduction of the semantic dimension after the data acquisition and cleans-
ing step in the integration phase. It concerns the clean integration and aggregation of unstruc-
tured Big Data, which naturally lack convincing information. These data integration techniques
attempt to merge data from different sources and supply users with a unified view of the data
that will be analyzed. In this subsection, we present approaches of Semantics for Big Data
integration.
In Fang et al. (2016), the authors propose an approach for large semantic data. It includes
four layers: the metadata layer, which uses different metadata rules such as MARC, DC, GILS
to describe the tourism data such as geographic location and relationships between these re-
sources. The ontology layer allows ensuring semantic interoperability in different metadata
types. To this end, we can use two methods: the first allows integrating the attributes and con-
cepts of the different metadata rules into ontology using the OWL knowledge representation
language. The second method allows use the ontological language to transform the metadata
format into RDF format. The Linked Data layer publishes the data according to the principle
of Linked Data. It provides a unified access mechanism for different data formats and produces
semantic interoperability between these data. The data application layer allows providing the
traditional keyword based retrieval method and more user-friendly interface for Interactive re-
search.
In Keller et al. (2016), the authors propose a system for combining different sources of
air traffic management data using semantic integration techniques. It transforms data from
original source formats into a standardized semantic illustration in a triples store with sherlock
data based on ontology. In this context, SPARQL is used as a query tool to retrieve information
about the built-in triples store. The main architecture consists of four steps: the first step allows
choosing three origins of the Sherlock for the integration: flight path data, airport weather
data, and information on the Air Traffic Notices. The second step allows using the ATM

- 169 -
Semantic for Big Data Analysis: A survey

ontology to add the semantic aspect. Unfortunately, the fact of asking aeronautical users to
understand the ATM ontology and to learn the SPARQL syntax is not realistic. The third step
allows converting the source format of the original ATM data and translating them into RDF
triples. The last step allows querying and downloading the service; but it has not yet been put
implemented.
Issa et al. (2016) is another approach that transforms sensor data to semantic data using the
Semantic Sensor Network ontology. The authors proposed in this research several methods for
stocking and processing semantic data. The obtained semantic data are analyzed to discover
useful information. In addition, Big Data technologies are used to transform raw sensor data
into semantic data and reach the scalability required in intensive data scenarios. The use of the
SSN (Semantic Sensor Network) ontology appends on semantic compatibility to the sensor
data. The main problem here is the growing complexity of sensors deployed in new systems.

4.3 Semantics for Big Data analysis


Naturally, large data sets contain mostly unstructured data. So, large-scale processing of
such semi-structured or unstructured datasets poses a significant challenge to the Big Data
analysis Kaisler et al. (2013). In this subsection, we present the approaches that integrates
semantic in the step analysis.
In Salakhutdinov and Hinton (2009), the authors described a semantic hashing method that
is used to find binary codes. In order to fastly retreive the documents, they use a Deep Autoen-
coder Network and the retropropagation algorithm for finding semantically similar documents
regardless of the document size.
The authors of Huang et al. (2013) developed a new model through the combination of the
Latent Semantic Analysis (LSA) which is a statistical method using to discover the hidden and
underlying (latent) semantics of words in a corpus of documents by combining with a Deep
Neural Network based structure to classify web documents using hashing techniques.
In Liu et al. (2015), the authors presented a multi-stain Deep Neural Network method for
a multi-domain classification, it uses several techniques such as word hash, bags of word and
n-gram that often suffer from the problem of data dispersion..
Zhang et al. (2015b) is another work that proposes an empirical study on character-convolutive
networks for the text classification. The authors designed ConVnets using an English thesaurus
that was obtained from the WordNet where each synonym for a sentence or a word is classified
by semantic proximity in the most commonly understood sense Feinleib (2014).
In Nural et al. (2015), the authors propose an approach that allows choosing an appropriate
model to analyze Big Data using semantic technologies. To this end, analytics ontology is
developed using the Ontology Web Language (OWL) to help inference for semi-automated
model selection. In the analysis phase, a hierarchical workflow is developed for the predictive
analytics. The first step of the workflow selects a practical model based on the properties of the
datasets. Then, the data are prepared for analysis in the second step. The third step refines the
type of models being used. For each step, a set of predictor variables are suggested. It ensures
advantages because of the fact that they use metadata in addition to the properties computed
from these data. Furthermore, the authors integrate domain knowledge into the model selection
problem for the analysis. The Scalation framework reduces the cost of development time for a
multi-paradigm modeling task. However, it is necessary to have expertise in ontologies and rule
bases. Moreover, the predictive analysis often requires knowledge of design of the experience

- 170 -
A. Taouli et al

that was used to generate the data and the choice of a modeling technique frequently depends
on the purpose of the analysis.
In Banage et al. (2015), an ontology-based workflow generation approach is proposed to
help to automatically generate the workflow. This approach uses the Automatic Service Com-
position (ASC) to computerize the Cross-Industry Standard Process for Data Mining (CRISP-
DM) method. In fact, the ASC consists of four main steps: the planning, the discovery, the
selection and the execution. The authors focus on the planning step. They use the user needs
and the properties of datasets to infer the workflow for data analysis. Based on ontology de-
signed for CRISP-DM, two different approaches for the workflow are developed. First, a rule
based approach is proposed to involve inferences. It implements Semantic Web Rule Langage
(SWRL) rules to discover the abstract services according to the properties of the datasets and
the need of the user. Second, two use case scenarios are used in a query based approach to
show its practicability. So, more application-specific abstract workflow can be generated using
this approach.
In Dayyani (2016), the authors use intelligent components to design, develop and imple-
ment a software platform. This platform can largely analyze a number of financial data to help
humans in decisions making. In this context, seven layers are presented: the first two layers
allow acquiring and filtering the data. They organize the data according to a semantic layer that
includes three principal software components: the Technical Data Dictionary has almost all the
ontology and taxonomy definitions, and other components, the Fundamental Data Dictionary
and the Data Conversion Agent. The fourth and the fifth layers analyze and model the data to
construct different analytics views. The last two layers control and present the analytics views
to the user. The multi-layer architecture involves a similar framework conception founded on
the Web service suggested by Nguyen et al. (2011) to make a scalable and customizable multi-
layer software platform for specific domains such as financial, logistics and healthcare areas.
This architecture provides timely and automatic data from a throng of data sources but they
need constant analysis to make investment and business decisions.
Paik (2016) is another work that is related to Big Data analysis using semantics. It pro-
poses a framework that collects information from the web, remote devices or sensors. Then,
the framework analyzes the collected data and transforms them into instances of the domain
ontology. It automates the Cross-Industry Standard Processing for Data Mining (CRISP-DM)
using the Automatic Service Composition (ASC) to prepare and analyze the information col-
lected in the first step. An automation model of Big Data Analysis (BDA) with CRISP-DM
using ASC is used to get better situational awareness. In the Perception layer, efficient infor-
mation is obtained using BDA Intelligence. On the other side, the performance modeling is
considered for any awareness in the superiors layers.
In Yao et al. (2016), a novel framework is developed to combine semantic methods and
the Big Data processing from security analysis in Big Data. First, the framework collects and
preprocesses a large number of data from multiple data sources. Then, it provides large spaces
to store the collected data. After that, several tools and libraries are used to process the data.
Finally, the framework describes three types of analysis, data analysis such as data mining, ma-
chine learning, and statistic analysis methods. The semantic analysis that is based on the use
of ontology and HCI analysis which deploys semantic analysis and data analysis. This frame-
work, it improves security analysis techniques, including real-time Big Data, computational
performance, batch processing, data association and data mining to meet the requirements of

- 171 -
Semantic for Big Data Analysis: A survey

performance in terms of data volume.


In order to fill these gaps, we propose an approach that uses semantic memory to facilitate
the semantic classification of data involving the characteristic of value and quality Taouli et al.
(2018).

5 Proposed Approach
The authors propose an approach allowing a semantic classification in the analysis of Big
Data in the medical field. The authors combine two techniques: Deep Learning using the Con-
volutional Neural Network algorithm which has quickly been adopted by the medical imag-
ing research community because of its proven performance in computer vision, and Semantic
Memory which searches for the hidden semantics of the data. It can extract complex features
of high level and reduce the size of images while preserving the important characteristics and
determine the images associated with some images sharing semantic aspects. The architecture
of the proposed model is shown in Figure 2.

F IG . 2 – Semantic Memory For Big Data Analysis Architecture

6 Comparison and discussion


One of the main objectives of this paper is to show the contribution of the addition of the
semantic aspect in the analysis of Big Data. To this end, a comparative study of the different
approaches is presented. Table 1 depicts a comparison between the state-of-art approaches. We
propose six criteria on which the comparison of this work is based: Input, Output, Semantics,
Analysis, Domain, Volume, Variety, and Velocity (Yes or No). Then, a brief discussion is
presented. We examined these approaches by introducing the semantic aspect at three stages
of the Big Data value chain: Big Data acquisition, Big Data integration and Big Data analysis.
When talking about Big Data, the first thing that comes to our mind is the volume. We note
that this feature is addressed in all approaches by introducing Big Data technologies such as

- 172 -
A. Taouli et al

Hadoop and their ecosystems that allow applications to work with petabytes or more of data.
Today, Big Data is at the heart of many areas such as finance, transportation, tourism, telecoms,
universities the business itself or the largest of the health fields. Before the emergence of
Big Data, the Big Data analysis approaches worked with relational databases or spreadsheets
containing only structured data. Hence, they need for methods and techniques that support the
variety of data.
In fact, the problem of the volume, the variety and the velocity can be solved thanks to
the methods, tools, and technologies presented in the state of art section. However, we need
to add the semantic aspect to improve the Big Data analysis process. So, the researchers have
to develop solutions based on semantic to achieve high precisions in the analysis process.
Moreover, they have to add the semantic aspect in the classification for enhancing the Big Data
Analysis process. Hence, the users can find, share, and combine information more easily and
therefore use the full potential of the Web. However, the main challenges of these approaches
are the lack of semantics in the context of data classification. Unfortunately, these approaches
often require knowledge of the experiment design and the choice of a modeling technique
which often depends on the purpose of the analysis.

7 Conclusion and future work


Big Data is a general concept for any collection of massive, high-speed, and heterogeneous
data sets. Every second, minute and hour, the man and the machine quickly produce data,
even if we are not connected to our devices. Hence, the interest of organizations and com-
panies begins to appreciate the importance of using the Big Data more to support decisions
and arrangements made to implement their strategies. Due to the Big Data, organizations will
be capable to collect, harvest, exploit each byte of pertinent data, and use it to take the better
decisions.
Big Data technologies not only consider the solution for massive datasets, but especially
the capacity to understand and fully exploit its value. In this paper, we summarized the state of
the art in semantic for Big Data analysis and made some analytical and empirical comparisons.
This included a general description of each of the approaches as well as several drawbacks
of them that can be treated in future researches. In fact, there are many new challenges in
large data management, real-time communication, prediction, and other challenges and issues
in managing, processing, and analyzing Big Data.
In our future work, we are involved in implementing our solution that supports the chal-
lenges related to the characteristics of the volume, minimizes the time allocated to the analysis
and we aim to introduce other types of data. In addition, we will enhance the analysis by
adding a semantic layer to improve prediction, decision making, and understanding of data
relationships.

References
Bachlechner, D. and T. Leimbach (2016). Big data challenges impact, potential responses and
research needs. IEEE.

- 173 -
Semantic for Big Data Analysis: A survey

Banage, T. G., S. Kumara, I. Paik, J. Zhang, T. H. A. S. Siriweera, and K. R. C. Koswatte


(2015). Ontology-based workflow generation for intelligent big data analytics. IEEE.
Beyer, M. and D. Laney (2012). The importance of big data: A definition. Gartner report.
Cavanillas, Curry, and W. Wahlster (2014). In new horizons for a data-driven economy a
roadmap for usage and exploitation of big data in europe. Springer.
Chen, H., C. R., and S. V. C. (2012). Business intelligence and analytics: From big data.
Volume 35, pp. 1105–11SS.
Chen, M., S. Mao, Y. Zhang, and V. C. Leungv (2014). Big data related technologies, chal-
lenges and future prospects. Springer.
Cukier (2010). The economist data everywhere: A special report on managing information.
Curry, E., A. Ngonga, J. Domingue, A. Freitas, M. Strohbach, and T. Becker (2014). Public
deliverable of the eu-project big.
Dayyani, B. (2016). Software architecture design and developmentof multi-layer highly mod-
ular platform using intelligent componentsfor dynamic big data analytics. IEEE.
Dobre, C. and S. . F. Xhafa (2014). Intelligent sendees for big data science. Volume 37, pp.
267–281.
Domingue, J., L. Nelia, F. Anna, S. M. Van Kasteren Tim, and T. Andreas (2016). Big data
analysis. In New Horizons for a Data-Driven Economy: A Roadmap for Usage and Ex-
ploitation of Big Data in Europe. Springer International Publishing.
Erl, T., W. Khattak, and P. Buhler (2016). Big data fundamentals concepts, drivers and tech-
niques. Prentice Hall Press.
Fang, Y., Z. Jiaming, L. aohui, and G. Mei (2016). Semantic description and link construction
of smart tourism linked databased on bd. IEEE.
Feinleib, D. (2014). Big Data Bootcamp: What Managers Need to Know to Profit from the Big
Data Revolution. Apress.
Gandomi, A. and M. Haider (2015). Beyond the hype: Big data concepts, methods, and
analytics. Volume 35, pp. 137–144.
Gantz, J. and D. Reinsel (2012). The digital universe in 2020: Big data, bigger digital shadows,
and biggest growth in the far east. IDC EMC Corporation.
Huang, P.-S., X. He, J. Gao, L. Deng, A. Acero, and L. Heck (2013). Learning deep structured
semantic models for web search. CIKM ’13, New York, NY, USA, pp. 2333–2338. 22nd
ACM international conference on information; knowledge management.
Hussain, M., L. Khany, M. Kantarciogluz, and B. Thuraisinghamx (2010). Data intensive
query processing for large rdf graphs using cloud computing tools. IEEE.
Issa, H., L. van Elst, and A. Dengel (2016). Using smartphonesb for prototyping semantic
sensor analysis systems.
Kaisler, S., F. Armour, J. Espinosa, and W. Money (2013). Big data: Issues and challenges
moving forward. pp. 995–1004. 46th Hawaii International Conference on System Sciences
(HICSS).
Keller, R., S. Ranjan, M. Wei, and M. Eshow (2016). Semantic representation and scale-up
of integrated air trafic management data. In Proceedings of the International Workshop on

- 174 -
A. Taouli et al

Semantic BD,ACM.
Khodkh, P., S. Lawange, A. Bhagat, K. Dongre, and C. Ingole (2010). Query processing over
large rdf using sparql in big data. Communications of the ACM.
Laney, D. (2001). 3d data management: Controlling data volume, velocity, and variety.
Leida, M., C. Ruiz, and P. Ceravolo (2016). Facing big data variety in a model driven approach.
IEEE.
Liao, Z., Q. Yin, Y. Huang, and L. Sheng (2015). Management and application of mobile big
data. Volume 7, pp. 63 – 70. International Journal of Embedded Systems.
Liu, X., J. Gao, X. He, L. Deng, K. Duh, and Y.-Y. Wang (2015). Representation learning
using multi-task deep neural networks for semantic classification and information retrieval.
NAACL.
Lukoianova, T. and V. Rubin (2013). "veracity roadmap: Is big data objective, truthful and
credible?". Volume 24, pp. 4–15.
Lyko, K., M. Nitzschke, N. Ngonga, and C. Axel (2016). Big data acquisition. In A Roadmap
for Usage and Exploitation of Big Data in Europe. Springer International Publishing.
Manyika, J., M. Chui, B. Brown, J. Bughin, R. Dobbs, C. Roxburgh, and A. Byers (2011). Big
data: The next frontier for innovation, competition, and productivity. pp. 156.
Microsoft (2013). The big bang: How the big data explosion is changing the world.
Nguyen, T., A. Colman, and J. Han (2011). Modeling and managing variability in process-
based service compositions. Service-Oriented Computing.
Nural, M., M. Cotterell, and J. Miller (2015). Using semantics in predictive big data analytics.
IEEE.
Paik, I. (2016). Situation awareness based on big data analysis. International Conference on
Machine Learning and Cybernetics (ICMLC).
Salakhutdinov, R. and G. Hinton (2009). Semantic hashing. International Journal of Approx-
imate Reasoning 50(7), 969 – 978. Special Section on Graphical Models and Information
Retrieval.
Schroeck, M., R. Shockley, J. Smart, D. Romero Morales, and P. Tufano (2012). Analytics:
The real-world use of big data. how innovative enterprises extract value from uncertain data.
IBM Institute for Business Value.
Shah, T., F. Rabhi, and P. Ray (2015). Investigating an ontology-based approach for big data
analysis of inter-dependent medical and oral health conditions. Volume 76, pp. 351 – 367.
Cluster Computing.
Sivarajah, U., Z. Irani, and V. Weerakkody (2015). Evaluating the use and impact of web 2.0
technologies. Volume 32, pp. 473–487.
Sivarajah, U., M. M. Kamal, Z. Irani, and V. Weerakkody (2017). Critical analysis of big data
challenges and analytical methods. Volume 70. In Journal of Business Research.
Taheri, J., A. Zomava, H. Siegel, and Z. Tari (2014). Pareto frontier for job execution and data
transfer tune in hybrid clouds. Volume 37, pp. 321–334.
Taouli, A., D. AmarBensaber, N. Keskes, and K. Bencherif (2018). Semantic classification
for big data analysis. 14th International Conference on Business Intelligence and Big Data,

- 175 -
Semantic for Big Data Analysis: A survey

Tangier, Morocco.
Tilman, B., J. M. editor Cavanillas, C. Edward, and W. Wolfgang (2016). Big data usage. In
New Horizons for a Data-Driven Economy: A Roadmap for Usage and Exploitation of Big
Data in Europe. Springer International Publishing.
Turner, Gantz, Reinsel, and Minton (2014). The digital universe of opportunities : rich data
and the increasing value of the internet of things. Technical report, IDC EMC.
Ward, J. and A. Barker (2012). Undefined by data : A survey of big data definitions.
Yao, Y., L. Zhang, J. Yi, Y. Peng, W. Hu, and L. Shi (2016). A framework for big data security
analysis and the semantic technology. 6th International Conference on IT Convergence
andSecurity (ICITCS).
Zaslavsky, A., C. Perera, and D. Georgakopoulos (2012). Sensing as a service and big data. pp.
21–29. International Conference on Advances in Cloud Computing (ACC-2012), Bangalore,
India.
Zhang, F., J. Cao, S. Khan, K. Li, and K. Hwang (2015a). A task-level adaptive mapreduce
framework for real-time streaming data in healthcare applications. Future Generation Com-
puter Systems.
Zhang, X., J. Zhao, and Y. LeCun (2015b). Character-level convolutional networks for text
classification. In Proceedings of the 28th International Conference on Neural Information
Processing Systems - Volume 1, NIPS’15, Cambridge, MA, USA, pp. 649–657. MIT Press.
Zhao, Z., R. Zhang, J. Cox, and W. Duling, D.and Sarle (2013). Massively parallel feature
selection: an approach based on variance preservation. Volume 92, pp. 195–220.
Zheng, X., Y. Hu, K. Xie, W. Zhang, L. Su, and M. Liu (2015). An evolutionary trend reversion
model for stock trading rule discovery. Volume 79, pp. 27–35. Knowledge-Based Systems.

Rsum
Le Big Data, avec son potentiel à fournir un éclairage précieux sur l’amélioration du pro-
cessus de prise de décision, a récemment apporté des avantages considérables aux praticiens
et aux universitaires. Compte tenu de l’hétérogénéité, de l’évolutivité, de la rapidité, de la vé-
racité et de la valeur des données, le Big Data a émergé là où nous devons faire face aux défis
majeurs d’acquisition, de collecte, de filtrage, de nettoyage, d’analyse et de visualisation de
données volumineuses. Ainsi, ces jeux de données doivent être exploités à différents niveaux
avec différentes techniques. La croissance du Big Data est un défi majeur qui doit analyser de
plus en plus de personnes et donner du sens à une quantité importante de données. Afin de
rendre les données brutes utilisées dans la prise de décision, les systèmes de recommandation,
l’analyse de sentiment et l’utilisation spécifique à un domaine, il est recommandé d’utiliser
l’analyse Big Data pour transformer et modéliser les données pertinentes, synthétiser et ex-
traire des informations cachées utiles. Afin d’obtenir de meilleurs résultats, de comprendre et
de détecter les relations entre les données et de prévoir les instances futures, les chercheurs
ont introduit l’aspect sémantique dans l’étape de l’analyse du Big Data. Dans cet article, nous
présentons une enquête qui capture les approches qui traitent de la sémantique pour l’analyse
du Big Data.

- 176 -
A. Taouli et al

TAB . 1 – Comparative table


Approaches Input Output Semantics Analysis Domain Volume
Variety
Velocity
Hussain et al. (2010) RDF SPARQL Ontology Offline The uni- Y-N-N
query and RDF versities
Khodkh et al. (2010) Datasets A graph RDF Offline The uni- Y-N-Y
versities
Leida et al. (2016) A set of Results Ontology Real-time Telecom Y-N-N
CIM of the and RDF
algo-
rithm
Fang et al. (2016) Metadata Interface Ontology Offline Tourism Y-Y-N
Keller et al. (2016) Sherlock RDF Ontology Offline Transport Y-Y-N
Raw triples and RDF
Files
Issa et al. (2016) Sensor Semantic Ontology Offline Transport Y-N-N
data data and RDF
Salakhutdinov and Reuters Binary Semantic Offline No Y-N-N
Hinton (2009) RCV2 code Haching
dataset
Huang et al. (2013) English Classified LSA Offline No Y-N-Y
docu- docu-
ments ments
Liu et al. (2015) Text Classified Multi- Offline No Y-N-N
Docu- docu- task
ment ments DNN
Nural et al. (2015) DataSets Results Ontology Offiline Fuel Y-N-Y
of Pre- con-
diction sump-
tion
Banage et al. (2015) CSV, CSV file Ontology Real-time Airline, Y-N-Y
XML or Airport
HTML
Zhang et al. (2015b) Text Classified Word2 Offline No Y-N-N
Docu- docu- Vector
ment ments
Dayyani (2016) Big Mobile Ontology Real-Time Finance Y-Y-Y
Data applica- and RDF
providers tion or
website
Paik (2016) Data New ontology Real-Time Business Y-Y-N
from the facts
web, and
sensorss rules
Yao et al. (2016) Network Interface Ontology Real-Time No Y-Y-N
Traffic for
Data search-
- 177 -
ing
Blockchain technology in IoT applications security service
for secure smart cities

Basmi Wadii∗ , Azzedine Boulmakoul∗


LIM/IOS, FSTM, Hassan II University of Casablanca, Mohammedia, Morocco

Abstract. In 2009, the world was introduced to the Blockchain technology


through the innovative payment network Bitcoin; It has a solid data protection
model, that is based on sharing the truth over multiple source and eliminating
a man in the middle element upon doing a transaction, in effect, it has known
a widespread usage in multiple domains, for example: election, contract appli-
cations, pharmacy applications, digital identity and so forth. Similarly, IoT is
another revolutionary domain that contributed in the emergence of new concepts
aiming to improve life quality in modern cities and enhance their sustainability.
In the light of its increasing popularity, IoT security has become a major concern
and a subject to a progressive efforts in order to avoid breaches and ensure citi-
zens and environment safety. Having said so, Blockchain could be a major play
maker and will certainly help to preserve its data from undesirable threats. This
paper highlights major role of IoT platforms to impact on citizens lives, shed
light over the sensitivity of their data, introduce Blockchain technology and how
it can be an essential part of the security layer in these platforms.

1 Introduction

Blockchain is a decentralized ledger that holds multiple connected nodes of transaction-


sSamaniego and Deters (2016), it secures data through the elimination of thrust third parties
to make transactions by having several sources of truth. Originally, it was first meant as the
core payment network for the crypto-currency Bitcoin in 2009Nakamoto (2009). Eventually,
its widespread success encouraged its usage in other domains and applications, like elections,
digital identity and contract validations, while ensuring transparency. In fact, cryptocurren-
cies in its early stages have volatile stocks, which is statistically, the same situation for most
of leading companies like Microsoft and Apple, meaning that, its stability increases overtime
through having a consistent business model, therefore, it will be able to maintain a steady value
and growing. In effect, it will conduct the trust in Blockchain, conveying the way for other ap-
plications, in particular, the internet of things. Hence, The purpose of this paper is to present
an approach to employ Blockchain in IoT applications security as a service.

- 179 -
Blockchain technology in IoT applications security service for secure smart cities

2 Blochain technology overview


The name Blockchain refers to a chain of immutable blocks data structure, where each
block groups encrypted information about transactions. Each block has a reference to the
previous one, constituting a linked list of blocks, moreover, it also holds a full copy of the
append-only ledger, as an effect, Blockchain is distributed, and additionally, all participants in
the ledgers must accept changes to the ledger, otherwise, they will be easily disclosed Song
et al. (2018).

Furthermore, Blochain needs three elements to workSingh et al. (2018):


— Consensus protocol. It verifies if the actions in the network are valid using a proof of
work (POW).
— Ledger. It wraps the details of the transaction.
— Cryptography. The data security infrastructure using to protect the content of blocks
in the ledger.
— Smart contracts. the code that runs on top of the block, which the nodes executes,
when some specific conditions in an agreement are met.

2.1 Understanding Blockchain immutability


Blockchain is a large P2P distributed timestamp server that takes care of generating compu-
tational proof of the chronological orders of transactions stored in the ledger as a block. Each
block is identified by a hash; a hash is a 32-bytes string result of mapping arbitrary data using
SHA-256 algorithm.

Each block contains the previous block’s the hash inside its header, as an effect, constituting
a long chain going thorough to the initial block, called the genesis block. Accordingly, each
block’s hash is dependent on its parent’s hash, thus, if the identity of the latter change, its
child’s will also change, as result, any mutation caused to any block will impact all its pre-
vious parents. Such cascading effect ensures the impossibility to change a constant changing
ledger of an uncountable number of blocks, where otherwise, it would require an enormous
recalculation power to reconstitute the ledger, for this reason, Blockchain is considered to be
immutable.

- 180 -
B. Wadii, A. Boulmakoul

F IG . 1 – Blockchain ledger

2.2 Blockchain Block structure


A block is a data structures’ container, that gathers transactions for inclusion in the ledger
known as the blockchain. It is composed of a header; containing meta-data followed by a long
list of transactions, and unique block hash obtained through any node simply by hashing its
header.

First of all, tThe blockchain header contains a reference to its previous block hash that ties
its block to its parent. Secondly, it also has time-stamp, difficulty and nonce that mining com-
petition. Lastly, the third piece is the Merkle Tree root, which is a data structure summarizing
all the transactions in the block efficiently Antonopoulos (2014).

2.3 Blockchain nodes


Blockchain nodes are grouped in two types: full and lightweight nodes. A full node is
a computer with powerful computation and storage capabilities, in order to store the ledger’s
whole copy, and verify that all the rules of the blockchain ledger are intact. However, lightweight
nodes are only references to a full node and allow users to validate transactions.

- 181 -
Blockchain technology in IoT applications security service for secure smart cities

2.4 Blockchain construction


As an example, we can refer to the bitcoin use case to explain how a block is constructed
and accepted in the blockchain network.

The process starts with a transaction that creates a new coin owned by the creator of the
block, also called as a coin transaction, later given to the miner - the node that verify the
authenticity of the block - as a reward, shortly after, it is put in a candidate block; the first form
that every block takes before being introduced into the blockchain.

The bitcoin network starts with broadcasting new transactions to all nodes. Each node gath-
ers transactions in a block and compete with each other to find the proof-of-work, then, broad-
cast it to the network. The nodes in the network verifies that all the block’s transactions are
correct and not already spent to validate it. Then, it forms the chain by creating the next block
and adding the previously added block’s hash to it. Later, the blockchain network rewards the
nodes that have participated in forming and verifying the block with coins. This process is
called mining.

3 Employing Blockchain to enhance IoT applications secu-


rity
Security is one of the biggest concerns in IoT applications, its growth attracted many in-
vestors to extend it into using and managing data with different level of privacy, from public to
highly personal data. Alongside, Blockchain technology serves as a solid solution to improve
and fortify data security in multiple ways. Thus, utilizing Blockchain to secure IoT application
data is definitely pertinent topic.

Papers Singh et al. (2018)’s author provides the following IoT Blockchain architecture
model in figure 2, where blockchain nodes are part of the network that validate transactions
through mining using machines that ranges from laptops to cloud-based servers. On the other
side, IoT devices as clients create transactions and send them to the blockchain nodes, each
node stores the data in the distributed ledger. Whereas, the communication is accomplished
through HTTP APIs between the two parties.

- 182 -
B. Wadii, A. Boulmakoul

F IG . 2 – Distributed data Share architecture Singh et al. (2018)

In general, smart devices are usually designed to be ergonomic, they consume low energy
and are not equipped with intensive computing and memory capabilities, thus, it is important
to define how to store the transactions.

3.1 Blockchain IoT Fog based architecture


At first glance, cloud computing could possibly a solution to delegate the processing and
vast volatile memory compared to smart devices, however, the enormous amount of comput-
ing power, renders the existing clouds unfortunately insufficient. Hereby, fog computing has
emerged by carrying computing capabilities to the edge of the distributed IoT network. Pre-
cisely, within the distributed IoT architecture, reside multiple physical machines with high
performance between the cloud and the smart devices that analyze and process devices’ data
rather than sending it to the clouds Sharma et al. (2018), as a result, latency decreases at the cost
of large scalability, although, it is crucial to execute proof of work algorithms in Blockchain
transactions Samaniego and Deters (2016).

In paper Samaniego and Deters (2016), the authors have proposed an overview of the dis-
tributed blockchain Fog/Cloud architecture in Figure 3, which is categorized into three layers,
device, fog and cloud. First, the device layer consists the IoT devices that monitor public in-
frastructure environments and send data to the fog layer using its request services. In the fog
layer, consists of high performance distributed Software defining network controller. Each fog
node is associated with a portion of the device layer, it process its data by providing local-
ization, behavioral analysis, large-scale event detection, then it sends the output to the cloud
which provides wide-area monitoring and control. In the cloud layer, they have proposed a

- 183 -
Blockchain technology in IoT applications security service for secure smart cities

distributed blockchain cloud based that provides secure, low-cost, and on-demand access to
the most competitive computing infrastructures.

F IG . 3 – Distributed blockchain cloud architecture Gori P. and ML (2015)

4 Conclusion
Blockchain is a revolutionary technology that had introduced a security approach that elim-
inates third-parties companies to secure sensitive data. Precisely, it is a large distributed net-
work that follows some specific rules to validate input transactions, encrypt them, form a block
and insert them in the long immutable ledger. That being said, IoT has long been a growing
industry and helped to make cities smarter by helping decision makers and citizens increase
the quality of their life and live in a sustainable city. However, with the growth of IoT’s market,
its access to sensitive data, security became a serious concern to fight back potential flaws that
could lead to data loss and enforces its systems immunity. Accordingly, blockchain proved
to be effective in many ways and proved to be a possible remedy to enhance IoT security.
Effectively, objects that sends data were designed to be cost and energy efficient, as a result,
considering devices as blocks in a blockchain network would be impossible, plus, how much
computing power it needs to solve proof-of-work problems that validates transactions inside it.
Then, we discussed how cloud solutions could be an effective solution, through the usage of an
unlimited computing resources, although, at the cost of latency. Afterward, we introduce a fog
distributed IoT architecure, that adds a layer of computers with intensive computing power, to
reduce the latency and increase the blockchain effectiveness.

- 184 -
B. Wadii, A. Boulmakoul

References
Antonopoulos, A. M. (2014). Mastering Bitcoin: Unlocking Digital Crypto-Currencies (1st
ed.). O’Reilly Media, Inc.
Gori P., P. P. and S. ML (2015). Smart cities and sharing economy. Robert Schuman Centre
for Advanced Studies Research.
Nakamoto, S. (2009). Bitcoin: A peer-to-peer electronic cash system.
Samaniego, M. and R. Deters (2016). Blockchain as a service for iot. In 2016 IEEE In-
ternational Conference on Internet of Things (iThings) and IEEE Green Computing and
Communications (GreenCom) and IEEE Cyber, Physical and Social Computing (CPSCom)
and IEEE Smart Data (SmartData), pp. 433–436.
Sharma, P. K., M.-Y. Chen, and J. H. Park (2018). A software defined fog node based dis-
tributed blockchain cloud architecture for iot. IEEE Access 6, 115–124.
Singh, M., A. Singh, and S. Kim (2018). Blockchain: A game changer for securing iot data.
In 2018 IEEE 4th World Forum on Internet of Things (WF-IoT), pp. 51–55.
Song, J. C., M. A. Demir, J. J. Prevost, and P. Rad (2018). Blockchain design for trusted decen-
tralized iot networks. In 2018 13th Annual Conference on System of Systems Engineering
(SoSE), pp. 169–174.

Résumé
En 2009, la technologie blockchain a vu le jour via le réseau innovative de paiement Bit-
coin. Il dispose d’un solide modèle de protection de doonnées basé sur la distribution des
données à travers plusieurs sources tout en éliminant un intermédiaire, lors de l’exécution
d’une transaction. En plus, le blockchain a connu plusieurs utilisations dans d’autres domaines,
comme par exemple: l’élection, les contrats, les applications de pharmacies, l’identité digitale
et bien plus. D’un autre coté, IoT est un autre domaine datant depuis plusieurs années, mais
pourtant continue à introduire de nouveaux concepts, par but d’améliorer la qualité de la vie
dans les cités modernes et renforcer leurs durabilités. Suite à ça, la sécurité d’IoT est devenue
une préoccupation majeure et un sujet d’efforts progressives afin d’éviter les intrustions et as-
surer la sécurité de l’environnement et des citoyens. Pour çela, le blockchain est un véritable
atout qui servira pour préserver les données des dangers. Ce papier surligne le rôle majeur des
plateformes IoT et leurs impacts dans la vie des citoyens, ainsi que la sensibilité de leurs don-
nées, introduit la technologie du Blockchain et comment s’en servir pour créer un composant
essentiel dans la sécurité des platformes IoT.

- 185 -
Internet industriel des objets pour les usines futures :
Challenges et Opportunités
Oussama Rholam**, Mohamed Tabaa**, Fouad Moutaouakil*, Hicham Medroumi*, Karim
Alami**

*Fondation de Recherche, Développement et Innovation en Sciences de l’Ingénieur


(FRDISI), Casablanca, Maroc
rholam8oussama@gmail.com
**Laboratoire Pluridisciplinaire de Recherche et Innovation (LPRI), EMSI Casablanca, Ma-
roc

Résumé. Aujourd’hui, le secteur industriel est entré une phase avancée


d’intégration digitale au cœur des processus industriels. Cette révolution indus-
trielle nommée Industrie 4.0 donne naissance à une nouvelle génération des
usines nommée : « usines connectées ». Via l’intégration des nouvelles techno-
logies, ces usines seront capables de digitaliser l’ensemble de leurs processus.
L’IIoT « Industrial Internet of Things » est en mesure d’aider les usines à ob-
tenir de meilleurs bénéfices sur les marchés de la fabrication industrielle en
augmentant la productivité, en réduisant les coûts et en développant de nou-
veaux services et produits. Dans ce papier, nous présentons un état de l’art de
l’internet industriel des objets.

1 Introduction
Le processus d'évolution industriel est passé par quarte innovations majeures depuis la
première révolution qui a été principalement marquée par l’invention de la machine à vapeur,
jusqu’à la 4e révolution industrielle qui applique une combinaison de technologies numé-
riques actuellement à maturité, notamment : L’internet des objets ; la numérisation, le Cloud
computing [1].Ainsi que des systèmes intelligents dotés de paradigmes d'interaction homme-
machine améliorés et l'intégration de tous ces éléments. Dans une chaîne de valeur interopé-
rable, surnommée l’intégration cyber-physique, sur laquelle tous ces éléments doivent inte-
ragir les uns avec les autres en utilisant des protocoles Internet afin de mettre en place des
usines dites « intelligentes ». La finalité majeure est de promouvoir la fabrication dans le but
de devenir plus numérique, axée sur l'information, personnalisée et écologique[2].
Il est maintenant largement admis que la vision et les techniques associées de l'industrie
4.0 ont déjà eu un impact réel sur les systèmes de fabrication industriels actuels et futurs.
Mais il reste encore beaucoup d’approches et d'essais qui doivent être étudiés, qui fait que la
majorité des industriels sont toujours en phase exploratoire. Surtout face à la l’hétérogénéité
d’écosystème d’internet industriel des objets qui est une véritable soupe alphabétique
d’acronymes technologiques imposant ainsi plusieurs défis qui empêchent l'activation de
cette nouvelle ère.
Dans ce papier, nous analysons l’architecture d’écosystème d’internet des objets indus-
triels par l’étude d’une sélection de protocoles, afin de résoudre l’un des défis majeurs qui

- 187 -
Internet Industriel des objets pour les usines futures

empêche la mise en marche de cette nouvelle ère qui est l’interopérabilité entre ces proto-
coles.
Ce papier sera présenté comme suit : l’industrie 4.0 ainsi que ces objectifs sera détaillée
dans la partie 2. La troisième partie sera consacrée à l’écosystème IIoT. Les défis et les chal-
lenges seront présentés dans la partie 4. Quelques applications concernant l’utilisation de
l’industrie 4.0 et l’internet des objets fera l’objet de la 5 ème partie et finalement une conclu-
sion.

2 L’industrie 4.0 :
L’industrie 4.0 est un nouveau mode d’organisation de l’entreprise ayant surgi pour
mettre fin aux structures hiérarchiques de communication et ceci, en intégrant les TIC (tech-
nologies de l’information et de la communication) et de la technologie industrielle. Dans
l'industrie 4.0, les systèmes embarqués, la communication sémantique entre les différents
systèmes industriels, les technologies IoT et CPS relient l'espace virtuel au monde physique
pour donner naissance à une nouvelle génération d’usines dites « intelligentes » ultra connec-
tées au futur, capables d’une allocation plus efficace des moyens de production dont les ob-
jectifs principaux sont de personnaliser les produits[3] [4] , minimiser les délais de livraison
sur le marché et améliorer les performances de l'entreprise ,ouvrant ainsi la voie à une nou-
velle révolution industrielle.
Le concept d’industrie 4.0 a été introduit pour la première fois lors du salon de la techno-
logie industrielle de Hanovre en 2011, la plus grande foire technologique et industrielle au
monde. En 2013, l’Allemagne adopte officiellement la mise en œuvre du concept par
l’identification du gouvernement allemand du projet d’industrie 4.0 dans ses « futurs projets
» au sein de son plan d'action « Stratégie de haute technologie 2020 »[3], [5]. Et a rapide-
ment évolué en tant que stratégie nationale allemande qui se base sur 4 aspects : Construction
du réseau CPS, examen de deux thèmes principaux basés sur l'usine et la production intelli-
gente, réalisant ainsi 3 types d'intégration : Horizontale, verticale et de point en point. En
outre, la réalisation de 8 plans qui consistent en la formulation de la standardisation du sys-
tème[1].
Le résultat est que l'industrie allemande a accueilli l'initiative à bras ouverts. Les petites,
moyennes et grandes entreprises de tous les secteurs ont participé à la création de cette nou-
velle ère. Et non seulement ça, le coup de pouce du gouvernement a permis d'internationali-
ser le concept d'industrie 4.0. En 2014, le Conseil d’État de la Chine a dévoilé son plan na-
tional, Made-in-China 2025, conçu pour améliorer globalement l’industrie chinoise, en
intégrant les technologies numériques et industrielles[5]. Parallèlement plusieurs pays ont
adopté ce concept, nous citons à titre d'exemple « la nouvelle France industrielle » par la
France, « Industrial internet and advanced manufacturing partnership in USA » par les Etats
unis.
Pour l’instant, la communication entre les différents départements de l'entreprise se fait
d’une manière hiérarchique, allant des appareils de terrain jusqu’au ERP (pyramide
d’automatisation CIM), chose qui se contredit avec les principes de l’industrie 4.0 où la
communication entre les structures des réseaux doit être transversale pour faciliter ainsi
l’accès aux informations pour tous les acteurs de l’entreprise.

- 188 -
Oussama Rholam et Al

Ceci dit, cette incohérence contraignante posera problème aux industriels concernant
l'intégration de l'industrie 4.0 dans les usines ce qui poussera cette dernière à avoir recours en
premier temps à l'internet des objets pour donner naissance à l'IIOT.

3 L’écosystème IIOT :
L’internet des objets est un nouveau paradigme qui gagne rapidement du terrain, Le scé-
nario de télécommunications sans fils , a été inventé par l’employé de Procter & Gamble,
Kevin Ashton[6], en 1999 dans le contexte de la gestion de la chaîne logistique qui est défini
par le Cluster IERC-European Research sur l'Internet des objets comme «Une infrastructure
réseau mondiale dynamique avec des capacités d'auto-configuration basées sur des proto-
coles de communication standard et interopérables où les objets physiques et virtuels ont des
identités, des attributs physiques et des personnalités virtuelles et utilisent des interfaces
intelligentes »[7] .l’objectif est de promettre une simplification radicale dont les objets se-
raient connectés et cordonnés. Ces objets peuvent être des capteurs, des actionneurs, des
smartphones ou tout type d’objet disposant déjà d’une communication IP.
L’internet industriel des objets est une application de l’internet des objets qui combine
des fonctionnalités de l’industrie 4.0 et de l’internet des objets classique. Le but est de ré-
soudre les différents problèmes industriels et rendre les systèmes industriels plus efficaces et
agiles. D’une autre manière on peut dire que l’IIOT emprunte certaines fonctionnalités de la
vision de l’industrie 4.0 dont l’objectif essentiellement est d’améliorer l'automatisation et
l'échange de données dans les technologies de fabrication par l’incorporation des concepts
issues des systèmes cyber physiques, cloud computing etc. En plus elle emprunte certaines
des caractéristiques de l’Internet des objets classique existant. Et tout cela afin de mettre en
place ce qu’on appelle l’usine intelligente. Cependant, L’IIOT n’est pas l’IOT, l'Internet des
objets englobe tout - consommateur, industrie, entreprise et commercial - l'Internet industriel
des objets se concentre essentiellement sur l’entreprise. En repensant les systèmes et les
processus existants. La portée de l'IOT est donc celle du consommateur où la portée de
l'IIOT est celle de l'entreprise.
Pourtant L’écosystème IIOT a des exigences spécifiques telles que : La portée, le faible
débit de données, la faible consommation d'énergie et la rentabilité. Surtout avec la multipli-
cité de protocoles et normes, dans ce papier on va essayer de mettre l'accent sur les diffé-
rentes entités d’écosystème IIOT.

3.1 Les réseaux de communication filaires :


Selon l'ISA, les systèmes industriels sont subdivisés en six classes avec des exigences
spécifiques différentes[8].
1. Les systèmes de Sécurité/d’alarme;
2. Les systèmes de contrôle et de régulation en boucle fermé;
3. Les systèmes de supervision en boucle fermé;
4. Les systèmes de contrôle en boucle ouverte;
5. Les systèmes d’alerte;
6. Les systèmes de collecte et stockage d’information.

- 189 -
Internet Industriel des objets pour les usines futures

Dans le passé, la communication entre ces différentes machines industrielles était réalisée
par des solutions technologiques câblées point à point (M2M). Cependant, tels systèmes
impliquaient une quantité énorme de câblage[9] qui, à son tour introduisait un grand nombre
de points de défaillance physiques, tels que des connecteurs et des faisceaux de câbles, ce qui
entraînait un système très peu fiable. Ces inconvénients ont entraîné le remplacement de
systèmes point à point utilisant des réseaux locaux industriels appelés bus de terrain. Ces
derniers ont concouru à l’amélioration de la productivité ; de nombreuses solutions câblées
dans les industries ont été conçues pour offrir : une communication à grande vitesse, fiabilité
déterministe plus la livraison en temps réel[10].
Plusieurs solutions technologiques ont été développées par l’industrie. Nous citons, à titre
d’exemple (CAN, EtherCat, Profibus, FoundationFieldBus, Modbus, BitBus). Ces systèmes
Field bus sont standardisés mais malheureusement ils ne sont pas unifiés, ce qui introduit des
problèmes d’évolutivité[11]. En plus de l’évolution des moyens de production, l’équipement
actuel doit exploiter plus de données et surtout il doit pouvoir dialoguer directement avec les
différents départements de l’entreprise ce qui va mener à l’introduction d’Ethernet indus-
triel qui a été largement accepté pour la communication entre les automates programmables
(PLC) et le contrôle de supervision et les acquisitions de données (SCADA), avec une inter-
connexion compatible TCP / IP. [12]montre que les solutions Ethernet industriel permettent
une intégration cohérente à tous les niveaux d’entreprise par l’intégration horizontale et ver-
ticale totale des systèmes d’automatisation depuis les bus de terrain jusqu’au ERP, ainsi la
livraison en temps réel montre que le développement récent des champs de bus à l’Ethernet
en tant qu’un appareil de technologie de réseau pour l’utiliser dans le service de l’Internet
des objets .

3.2 Les Réseaux de communications sans fils :


Une foule innombrable des standards, normes et protocoles sans fils ont été conçus pour
répondre aux exigences des applications industrielles. Chose qui rend les solutions sans fils
efficace et rentable pour les environnements industriels dynamiques actuels et futurs.

Ils ont pour principales caractéristiques : la souplesse, l'auto-organisation, le faible cout et


la facilité de déploiement[8], [13].

3.2.1 Les normes à courte portée :

- La norme IEEE 802.15.1 [8], [14], [15] :

La norme IEEE 802.15.1 couvre la technologie Bluetooth, c’est une technologie sans fil à
courte portée ; inventée par le fournisseur de télécommunications Ericsson en 1994, elle a été
initialement conçue comme une alternative sans fil aux câbles de données RS-232. Elle
favorise la gestion de beaucoup de données, faible bande passante et l’amélioration de
sécurité. Néanmoins, elle a fait face à plusieurs défis comme la décharge rapide de la batterie
et la perte de connexion fréquente. En juillet 2010, le Bluetooth SIG a annoncé l’adoption
officielle de la version 4.0 de la norme Bluetooth Core avec la technologie Bluetooth à faible
consommation énergétique. Cette version a assoupli certaines contraintes de la version
Bluetooth classique par l’offre d’une portée de communication améliorée, temps de latence
peut atteindre 15 fois moins que le Bluetooth classique. Néanmoins, les deux versions de

- 190 -
Oussama Rholam et Al

Bluetooth n’offrent aucun support pour la mise en réseau maillée ce qui a mis la technologie
dans l’incapacité de fournir un mécanisme approprié pour la communication multi-sauts, ne
convient pas aux réseaux industriels denses.

Bluetooth Bluetooth Low Energy


Fréquence 2.4 GHz 2.4 GHz
Débit maximum 1-3 Mbps 1Mbps
Portée Max 30 m Max 50 mètres
Méthode d’accès TDMA TDMA-FDMA
Durée de vie de batterie ---- Des mois-des années
Topologie P2P- AD-HOC Piconets P2P-AD-HOC Piconets
Consommation
Faible (≈100 mW) Très faible (≈ 10 mW)
d’énergie
Ouvert Oui Oui
IPV6 ---- Oui
Evolutivité Élevé Elevé
Modulation GFSK, 2PSK, DQSP, 8PSK GFSK
128-bit encryption E0 128-bit AES block cipher (CCM
Cryptage
stream cipher mode)
Authentification Shared secret (PIN), Safer + AES CBS-MAC (CCM-MODE)
Robustesse 16 bits-CRC 24-bit CRC
Technologie Saut de fréquence (AFH) AFH
Nombre de canaux 79 canaux larges de 1MHz 40 canaux larges de 2MHz
Temps d’un cycle mi-
8.75 ms N/A
nimum
Adoption du marché Elevé N/A
Oui avec BL, en utilisant deux
Compatibilité N/A
types de chipset

TAB. 1 –Tableau comparatif des caractéristiques techniques de Bluetooth et Bluetooth low


energy

- La norme IEEE 802.15.4/.4. E :

La norme IEEE 802.15.4/4. E traite les réseaux sans fils de faibles données et à faible
puissance. Dans cette section, Nous allons définir et discuter brièvement les protocoles les
plus connus et utilisés à savoir : Wireless Hart, ISA 100.11.a et 6LOWPAN. Par ailleurs,
nous allons présenter un tableau comparatif des caractéristiques techniques de chacun de ces
protocoles.

- ZIGBEE :

C'est l'une des normes les plus utilisées avec plus de 70 millions d'appareils ZigBee ins-
tallés dans le monde, est une marque commerciale de la société Digi International. Ils ont

- 191 -
Internet Industriel des objets pour les usines futures

été certifiés par la Zigbee Alliance en 2006 (standard IEEE 802.15.4). Le Zigbee est un cou-
sin du Bluetooth. Alors que le Bluetooth est avant tout destiné à un usage grand public ou un
seul utilisateur pourra se connecter à un appareil (idéal pour un kit main libre, un casque
audio, une télécommande…), le Zigbee permet de créer un réseau d’objets. Le Zigbee n’est
pas conçu pour faire transiter beaucoup de données (250kbps maxi.), mais il le fait en con-
sommant très peu et de manière fiable et sécurisée. De plus, ZigBee peut être déployé dans
un réseau maillé, ce qui lui a permet d'avoir une fiabilité élevée et une plus grande portée de
couverture. C’est la raison pour laquelle le Zigbee est beaucoup plus utilisé dans le monde
industriel.

- WIRELESS HART :

Wireless Hart est le premier réseau « radio » industriel normalisé pour les applications
d’automatisation et contrôle des processus industriels, avec plus de 30 millions d'appareils
HART installés dans le monde. Il est basé sur le protocole de communication HART déve-
loppé par HART communication Fondation [16].il ajoute des fonctionnalités sans fil au pro-
tocole HART tout en maintenant la compatibilité avec les périphériques HART existants.
Ces principales caractéristiques sont la fiabilité, la robustesse, la sécurité, l’efficacité énergé-
tique et la mise en réseau maillée. Mais il manque également d’interopérabilité avec les
autres normes basés sur IEEE802.15.4[17].

- ISA 100.11a [16], [18]:

ISA100.11a cible les applications de surveillance, d'automatisation et de contrôle de pro-


cessus en industrielle. La norme ISA100.11a est développée par le comité des normes
ISA100 qui fit partie de l'organisation ISA (International Society of Automation).
ISA100.11a utilise uniquement la bande ISM 2,4 GHz avec saut de fréquence pour augmen-
ter la fiabilité et empêcher les interférences provenant d'autres réseaux sans fil. Et la faible
latence ou le temps de réponse rapide de 100 ms.

- 6LOWPAN [19]:

6LoWPAN est un réseau personnel sans fil à faible consommation basé sur IPV6. Il peut
prendre connaissance des ‘IoT’ s’il est possible d’attribuer une adresse IP aux actionneurs,
aux contrôleurs, aux dispositifs et aux capteurs. L'approche de comparaison des différentes
implémentations de 6LoWPAN sur WSN faite par a mis en valeur la technologie sans fil qui
est devenue le premier moyen de communication pour les réseaux de capteurs.

- 192 -
Oussama Rholam et Al

Protocole ISA 100.11A WIRELESS HART 6LOWPAN ZIGBEE


Groupe de Travail ISA Wireless HART IETF Zigbee
compliance Communication Alliance
alliance Fondation
Fréquence 2.4 GHz 2.4 GHz 868,915 MHz, 868, 915 MHz,
2.4 GHz 2.4 GHz
Débit 250 Kbps 250 Kbps 250 Kbps 868 : 20kbps
915 : 40 Kbps
2.4 : 250 kbps
Nombre de canaux N/A 10 1 16
Modulation N/A BPSK BPSK QPSK
Topologie Maillé- étoile Multiple Multiple Multiple
Access sheme DSSS DSSS DSSS DSSS & FHSS
Syn. du temps Oui Oui Non Non
Adressage (En bits) 16,64 ou 128 16 ou 64 128 16 ou 64
Interopérabilité Non supporté Non supporté Non supporté Non supporté
avec autres équi-
pements de la
même norme
Protocole de rou- Routage re- Routage redondant RPL AODV
tage dondant
Durée de vie de N/A N/A 1-2 ans sur Plus que 10
batterie batterie années
Consommation Faible Faible Moyen Faible
d’énergie (≈30mW)
Applications Automatisation Contrôle des Proces- IoT et surveil- Contrôle et
du processus sus Industriels lance indus- surveillance
trielle
Sécurité Oui Oui Oui Oui
Evolutivité N/A Oui Oui Elevée
Authentification N/A N/A N/A AES CBS-
MAC
Robustesse N/A (Oui) Oui 16-bit CRC
(oui)

TAB. 2 –Tableau comparatif des caractéristiques techniques des protocoles ISA 100.11a,
Wireless Hart, 6LOWPAN et Zigbee

Les réseaux Low Power Wireless Area Networks (LPWAN):

Les LPWANs gagne de plus en plus d’audience dans les communautés industrielles et de
recherche en raison de : leurs faibles puissances, la longue portée et leur faible coût[20].
Les protocoles et normes LPWAN peuvent être subdivisés en deux catégories : les tech-
nologies LPWAN cellulaires les plus souvent mentionnées et les leaders sont LTE-M et NB-

- 193 -
Internet Industriel des objets pour les usines futures

IoT. Et les technologies non cellulaires les plus populaires entre eux, LoRa et SIGFOX. Dans
cette section on va s’intéresser à citer les caractéristiques techniques de Lora, Sigfox et NB-
IOT.

- SIGFOX[11] :

Sigfox est une technologie propriétaire LPWAN basée sur la technique de modulation à
bande étroite (UNB). Cette technologie permet d’utiliser une modulation BPSK (binary
phase-shift keying) qui est robuste pour les communications à longue portée et offre une
transmission de données à très faible débit sur des communications à très longue portée dans
des environnements fortement sollicités. Chaque message a une largeur de 100 Hz et un taux
de transfert de 100 ou 600 bits par seconde, selon la région. Par conséquent, de longues dis-
tances peuvent être obtenues tout en étant très robustes contre le bruit.

- LORAWAN [33]:

LoRa Alliance, une association à but non lucratif, a été standardisé le protocole Lo-
raWAN (LoRa Wide Area Network) pour les réseaux étendus à faible consommation.
L'architecture LoRaWAN est une structure « star of stars » de périphériques d’extrémités se
connectant via des passerelles pour se connecter à des serveurs réseau.
LoRaWAN est un réseau étendu à faible énergie(optimisé pour une faible consommation
d'énergie est conçu pour prendre en charge de grands réseaux avec des millions et des mil-
lions d'appareils) doté de fonctionnalités avec une communication bidirectionnelle à faible
coût, mobilité et sécurité pour l'Internet des objets (IoT), communication machine à machine
(M2M), pourvoit trois classes de périphériques Endnode pour répondre aux différentes exi-
gences d'une large gamme d'applications IoT, par exemple, les exigences de latence plus que
les deux avantages plus significatifs de LoRa sont sa flexibilité et sa bande gratuite.

- NB-IoT [20], [21]:

NB-IOT est une technologie LPWAN basée sur la technologie radio à bande étroite
et normalisée par le projet de partenariat de 3ème génération (3GPP).Le protocole de com-
munication NB-IoT est basé sur le protocole LTE. En fait, NB-IoT réduit les fonctionnalités
du protocole LTE au minimum et les améliore comme requis pour les applications IoT. NB-
IoT desservira les marchés IoT de plus grande valeur, prêts à payer pour une très faible la-
tence et une qualité de service élevée. NB-IoT est une nouvelle façon de communiquer avec
des « choses » qui nécessitent de petites quantités de données, sur de longues périodes, dans
des endroits difficiles à atteindre (Il connecte de manière simple et efficace des appareils sur
des réseaux mobiles déjà établis et traite de manière sécurisée et fiable de petites quantités de
données bidirectionnelles relativement peu fréquentes.).

- SIGFOX LORA NB-IoT


Standard ETSI LORA Alliance 3GPP
Fréquence Sans licence Sans licence LTE sous licence
(868/915/433) MHz (868/915/433) MHz
Bande passante 192 KHz 250 KHz et 125 KHz] 200 KHz
Débit de données adaptatif Non Oui (TDOA) Non

- 194 -
Oussama Rholam et Al

Débit maximum 100-600 bps 0.3-50 Kbps 200 Kbps


Sens de communication Half-duplex Oui (Half-duplex) Oui (Half-duplex)
Msgs max/jour (envoyés) 140 (UL) ; 4 (DL) Illimité Illimité
Max payloadlength 12 octets (UL) ; 243 octets 1600 octets
8 octets (DL)
Portée 10 Km (urbain) ; 5 Km (urbain) ; 1 Km (urbain) ;
50 Km (rural) 20 Km (rural) 10 Km (rural)
Immunité aux Très élevée Très élevée Faible
interférences
Authentification et Non supporté Oui (AES 128 b) Oui (LTE cryptage)
cryptage
Localisation Oui (RSSI) Oui Non
Topologie Etoile Star on star Cellulaire
Durée de vie de batterie 10 ans 10 ans 10 ans
Evolutivité Moyenne Moyenne Très élevé
QoS Non garantie Garantie
Latence Pour les applications Ça dépend quelle classe Faible
insensibles à la latence utilisé
Sécurité Oui Oui Oui
Mobilité Non Non Non
Open source Oui Oui Non

- Les protocoles IOT :

MQTT[23], [24]: C’est un protocole de télémétrie et de surveillance, ouvert, dont la


fonction principale est de publier des informations ou souscrire à leurs réceptions, entre plu-
sieurs clients via un serveur unique (appelé broker). Il a été inventé en 1999 par des cher-
cheurs d’IBM, et standardisé en 2013 par OASIS. Parmi les caractéristiques de ce protocole
est sa légèreté, la facilité de mise en œuvre et d’implémentation, souplesse et la sécurité ainsi
son évolutivité qui lui permet de prendre en charge des milliers de connexions concurrentes
via son courtier de messagerie.

XMPP : C’est un protocole ouvert, basé sur le modèle client-serveur dénaturé sans bro-
ker. Il est conçu pour des applications en temps quasi réel et prend ainsi en charge de ma-
nière efficace les petits messages à faible latence. Les premières technologies Jabber / XMPP
ont été développées par Jérémie Miller en 1998, et standardisé par l’IETF. Dans le contexte
de l'IIoT, XMPP peut avoir certaines fonctionnalités utiles telles que son extensibilité, flexi-
bilité et son adressage convivial des périphériques. Il sera facile pour un contrôleur humain
d'identifier et d'adresser des périphériques à l'aide d'un smartphone et d'une URL simple.

AMQP[25] : C’est un protocole ouvert, basé sur l’architecture «publier-souscrire ».


Développé par la banque JPMorgan ChaseIl a été conçu avec les principales caractéristiques
suivantes comme objectifs : la sécurité, la Fiabilité, L’interopérabilité.
CoAP : C’est actuellement un sujet tendance dans le domaine de l’IoT, a été créé ré-
cemment par le groupe (ConstrainedRESTFulEnvironmentCore) de l’IETF.CoAP ressemble
au HTTP de plusieurs manières, CoAP prend en charge les proxies HTTP, ce qui signifie que
les clients peuvent demander des ressources à un serveur CoAP à l'aide de requêtes HTTP

- 195 -
Internet Industriel des objets pour les usines futures

régulières. Mais il ne s’agit pas simplement d’une version réduite ou compressée du proto-
cole HTTP. Le CoAP possède de nouvelles fonctionnalités spécialement conçues pour les
environnements limités et ne font pas partie du HTTP. L'une d'elles est la méthode Observe
[34], qui permet à un client de recevoir continuellement des réponses d'un serveur.

MQTT XMPP AMQP COAP DDS


Groupe de IBM Jabber 1999 La banque CoRE (OMG)
recherche JPMorgan
Chase
Architecture Basé sur un Basé sur un bus Basé sur un Basé sur un Basé sur
broker Décentralisé broker broker un bus
Standard OASIS IETF OASIS IETF OMG
(2013)
Couche TCP TCP TCP UDP TCP/UDP
transport
Modèle de Pub-sub Client/serveur Pub-sub Client/serveur Pub-sub
coopération Req/resp Pub-sub
Type Messages Données Messages Données Données
d’informatio
n transférée
Open source Oui Oui Oui Oui Oui
Restful Non Non Non Oui Non
Taille de 2 Octets - 8 Octets 4 Octets -
l’entête
Longueur 5 - - 20 (typique) -
max (Oc-
tets)
Sécurité SSL/TLS TLS/SSL TLS/SSL DTLS TLS/SSL
Qualité de 3 Niveau - 3 Niveau Limitée Extensive
service
DDS [26]: a été Introduit en 2004 , une norme API pour la connectivité centrée sur les
données par le groupe Object Management Group (OMG), son but est de répondre aux défis
de la distribution de données typiques des applications de défense et aérospatiales ; Basé sur
un simple paradigme de communication «publier-souscrire» parmi les avantages de ce der-
nier est la prend en charge l’intégration les composants d'un système, fournissant une con-
nectivité de données à faible latence, une fiabilité extrême et une architecture évolutive dont
les applications Internet des objets (IoT) stratégiques et professionnelles ont besoin.

4 Défis et challenges :
Malgré les promesses et les nouvelles opportunités offertes par IIoT, des défis pourraient
entraver l’adoption des technologies IIoT à savoir :

- 196 -
Oussama Rholam et Al

La connectivité : qui est considérée l’un des défis majeurs puisque la plupart des installa-
tions existantes ou dans les usines y compris les capteurs, ne disposant pas de capacité de
communication IP.
L’interopérabilité : la grande variété des réseaux existants laisse les intégrateurs fasse à
plusieurs formats et protocoles. Ces derniers peuvent être ouverts ou fermés, propriétaires ou
libres, normalisés ou non et qui ne sont pas conçus pour être interopérables. Par exemple :
l’OT qui comprend des systèmes informatiques de gestion des processus industriels (MES),
des systèmes de contrôle et d'acquisition de données (SCADA), des automates program-
mables industriels (API), des compteurs, des valves, des capteurs et moteurs..., utilise le plus
souvent des protocoles tels que PROFIBUS, EtherNet/IP et Modbus. Les systèmes
IT incluent un progiciel de gestion intégré qui utilise des protocoles SNMP, HTTP, SOAP et
XML. De plus, les protocoles traditionnels pour l'adoption de l'IIoT ou de l'Industrie 4.0 sont
MQTT, AMQP et CoAP.

Les contraintes réglementaires : qui viennent de perturber les règles du jeu et complexifier
les choix technologiques (Bandes de fréquences élevées, investissements régulés …).

La sécurité et confidentialité : Selon les résultats d'une enquête du Forum économique


mondial sur l’IIoT, 72% des personnes interrogées estiment que le souci majeur de la sécuri-
té est le principal obstacle à l'adoption de l'IdO par les entreprises en Amérique du Nord[5].
IIoT permet de connecter des machines, des capteurs et des actionneurs donc il n’est pas
facile de combler rapidement les lacunes du logiciel par un correctif ou une mise à niveau
matérielle. Plus qu’il favorise le partage d'informations entre les éléments connectés, y com-
pris l'équipement et le personnel, et les informations qui les entourent, ce qui peut poser un
problème de confidentialité. Ce problème de confidentialité peut être résolu en contrôlant
correctement l'accès afin que les informations ne soient accessibles qu'aux utilisateurs autori-
sés.
La nature bruitée du milieu industriel : Bien que IIoT ait été implémenté avec succès dans
plusieurs industries, mais en raison de la nature difficile des environnements industriels, tels
que les topologies dynamiques, l’énergie limitée, l'humidité extrême et la poussière
épaisse[13].la conception robuste est requise pour la mise en place d’IIOT.

5 Applications et exemples de l’IIOT :


Le domaine d’application de l’Internet industriel des objets est vaste et réparti entre plu-
sieurs applications de productivité tels que la logistique, l’aviation, les transports, la santé, la
production de l'énergie, l'industrie du pétrole et du gaz.

Pour élucider points forts potentiels des disciplines industrielles individuelles, nous allons
exhiber les cas d'utilisation suivants.

- 197 -
Internet Industriel des objets pour les usines futures

Mesurer de l’efficacité globale des équipements (OEE) : Les fabricants et les intégrateurs
de systèmes utilisent souvent la métrique OEE (efficacité globale de l'équipement) pour
suivre l'efficacité des processus industriels, y compris les machines, les personnes et les
matériaux.

OEE compte 3 indicateurs de performance clés :


- La disponibilité des ressources (temps d’activité de la machine),
- Performance et productivité (temps d’exécution)
- La qualité des composants produits

Ces indicateurs sont d'une importance estimable. Ceci dit, l'inefficacité de l’un peut avoir un
impact considérable sur l'OEE notamment l'augmentation des coûts.

Cependant, force est de signaler un point intéressant en ce qui concerne l’Internet industriel :
ce que l’on appelle la puissance de 1%. La raison en est que les économies de coût
d'exploitation / d'inefficacité dans la plupart des industries nécessitent des économies de 1%
d'Internet industriel pour réaliser des gains significatifs[11]. Ce qui permet d'intégrer l’IIOT
dans une opération de fabrication qui analyse chacun de ces trois domaines et de les
améliorer afin de maximiser les performances globales de l’OEE. Par conséquent, ceci
permet de générer des gains significatifs, accroître l'efficacité des processus, la satisfaction
de la clientèle, l'efficacité environnementale et l'innovation des produits.

La santé : L’Internet industriel des objets dans le secteur de la santé est en croissance
constante ; Selon des études récentes, l'Internet des objets sur le marché de la santé devrait
passer de 41,22 milliards de dollars en 2017 à 158,07 milliards de dollars en 2022, avec un
TCAC de 30,8%[29]. Son objectif principal est d'assurer la sécurité des patients, mais
également d'améliorer la manière dont les médecins effectuent leur travail pour atteindre une
médecine prédictive. Et a de nombreuses applications : de la surveillance à distance ; Par
exemple pour les patients atteints de maladies chroniques susceptibles de se retrouver dans
une situation d’urgence, il existe des services dédiés basés sur le paradigme émergent de la
santé en ligne qui fournissent les patients un dispositif spécial contenant les " bouton de
panique « (ou un téléphone portable commun avec une application spéciale installée) que le
patient doit utiliser en cas d'urgence[30].

Industrie du pétrole et du gaz [31]: Manifestement, l'exemple qui se présente dans ce


domaine est Rockwell Automation qui fait face aux obstacles de l’industrie pétrolière en
avançant des solutions permettant de contrôler chaque étape de la chaîne
d'approvisionnement en pétrole. Ceci étant réalisé par les utilisations des services IOT tels
que des capteurs, des logiciels, et des appareils en nuage pour faire la maintenance prédictive
de l’équipement aussi bien que suivre les performances en temps réel ... Prévenir ces échecs
signifie l'économie des millions de dollars.

Rockwell s’efforce également de rendre les pompes à essence intelligentes en installant des
appliances de passerelle cloud dans chaque station dont le rôle est de collecter des données et
les envoyer en toute sécurité vers une plate-forme cloud. Ces informations sont placées dans

- 198 -
Oussama Rholam et Al

un tableau de bord qui peut être facilement visualisé sur un PC, Android, Windows Phone ou
un iPhone.

Logistique et transport : L’utilisation de l’internet des objets en transport et logistique


permet de réaliser plusieurs tâches, notamment : Améliorer les délais de ramassage et de
livraison, Suivi des grandes flottes de navires et optimiser les itinéraires, utiliser l'analyse
Big Data pour présager la demande, protéger l'équipage, la cargaison et les clients.

L’usine intelligente : Pour que l’usine soit intelligente, la chaîne de production doit l'être
également ; passant par le cycle de vie du produit jusqu'à arriver au client final, justifié par
l’utilisation des machines capables de produire d’une manière autonome.

Cela étant, nous ne pouvons pas passer sous silence le fait de reconnaître et faire connaître
que TESLA fut et est toujours l'exemple marquant et remarquable des usines intelligentes.

Nous énonçons, à cet effet et de façon très succincte, une présentation de TESLA :

▪ TESLA[32] :

L'usine Tesla de Fremont en Californie, est l'une des usines automobiles les plus avancées au
monde, avec 5,3 millions de pieds carrés 'espace de fabrication et de bureaux sur 370 acres
de terrain.
Tesla est considérée l’une des usines les plus avancées au monde sur le plan technologique,
en combinaison l’intelligence artificielle et l’automatisation dont la fabrication des voitures
électriques de Tesla. Par l’utilisation d’un système doté des robots automatisés construisant
des voitures électriques lisses dans une usine venue du futur. C'est là que le modèle S
alimenté par batterie est né.
Tesla a supprimé tous les anciens équipements d'assemblage traditionnelles et a installé de
nouveaux robots automatisés capables de détecter et produire de grandes quantités
d'informations et peuvent automatiser des processus entiers de flux de travail, d'apprentissage
et d'adaptation au fur et à mesure. Les applications vont de la collecte, de l'analyse et de la
prise de décisions au guidage de robots avancés.
L'automatisation intelligente a aidé Tesla à transcender les performances conventionnelles et
à atteindre des niveaux d'efficacité et de qualité sans précédent.
Gestion intelligente d’énergie : La hausse et l'instabilité des prix de l’énergie, liées à
l'inflexibilité des réglementations environnementales en vigueur, incitent de plus en plus les
usines à mettre en œuvre une consommation d’énergie plus intelligente et qui tient compte
des contraintes de l’environnement. IIOT facilite cette tâche grâce à de nouvelles méthodes
innovantes de gestion de la consommation réduisant ainsi les coûts énergétiques. Comme
l’exploitation des données acquis par les capteurs sur le chauffage, la ventilation, la
climatisation, la réfrigération, l'éclairage, etc., pour :
- Surveiller et automatiser la consommation d'énergie à distance (par exemple, en
déclenchant automatiquement le système de chauffage, de ventilation et de

- 199 -
Internet Industriel des objets pour les usines futures

climatisation uniquement lorsque la température de l'entrepôt dépasse un certain


seuil prédéfini.)
- Suivre des indicateurs clés de performance tels que la consommation d'énergie
réelle sur différentes périodes ou sur des machines, et de configurer des alertes
personnalisées lorsque la consommation d'énergie varie par rapport aux valeurs de
référence. Par exemple, un responsable peut recevoir un SMS ou un courrier
électronique déclenché dès qu'une fuite est détectée ou lorsque la consommation
d'énergie de la machine est supérieure à la moyenne.

6 Conclusion
L’implantation de l’industrie 4.0 nécessite l’adaptation des nouvelles méthodologies et
technologies adéquates au milieu industriel qui est considéré comme étant un milieu de
communication difficile (bruité). Dans l'espace de communication industriel l’utilisation des
technologies de communication se base sur plusieurs critères (portée, débit, fiabilité de
communication dans des milieux difficiles etc…), c’est-à-dire qu’il n’y a pas une solution
unique pour tous les besoins de connectivités. Le choix d’une solution doit être dimensionnés
en fonction de besoin de chaque usine. Ce papier présente un état de l’art sur
l’implémentation des objets connectées au sein des usines futures dans l’ère de l’industrie
4.0.

Références
[1] K. Zhou, T. Liu, et L. Zhou. Industry 4.0: Towards future industrial opportunities and challenges, in 2015
12th International Conference on Fuzzy Systems and Knowledge Discovery (FSKD).
[2] M. Kuzlu, M. Pipattanasomporn, et S. Rahman. Review of communication technologies for smart
homes/building applications, in 2015 IEEE Innovative Smart Grid Technologies - Asia (ISGT ASIA).
[3] S. Wang, J. Wan, D. Li, et C. Zhang. Implementing Smart Factory of Industrie 4.0: An Outlook, in 2016
International Journal of Distributed Sensor Networks, in press.
[4] M. Brettel, N. Friederichsen, M. Keller, N. Rosenberg. How Virtualization, Decentralization and Network
Building Change the Manufacturing Landscape: An Industry 4.0 Perspective. In 2014 International Journal of
Science, Engineering and Technology,
[5] Industrial Internet of Things - Reports - World Economic Forum.
[6] K. Ashton, That Internet of Things” Thing .in 2009 RFiD Journal.
[7] IERC-European Research Cluster on the Internet of Things. Disponible sur: http://www.internet-of-
things-research.eu/about_iot.htm.
[8] M. Raza, N. Aslam, H. Le-Minh, S. Hussain, Y. Cao, et N. M. Khan, A Critical Analysis of Research
Potential, Challenges, and Future Directives in Industrial Wireless Sensor Networks , in 2017 IEEE Communica-
tions Surveys Tutorials .
[9] A. Frotzscher et al., Requirements and current solutions of wireless communication in industrial automa-
tion, in 2014 IEEE International Conference on Communications Workshops (ICC).
[10] P. Neumann, Communication in Industrial Automation - What is going on? , in 2007 Control Engineer-
ing Practice, 15 (2007)
[11] A.Gilchrist, Book: Industry 4.0: The Industrial Internet of Things. Apress, New York, 2016.
[12] P. Danielis et al., Survey on real-time communication via ethernet in industrial automation environments,
in Proceedings of the 2014 IEEE Emerging Technology and Factory Automation (ETFA).
[13] X. Li, D. Li, J. Wan, A. V. Vasilakos, C.-F. Lai, et S. Wang, A review of industrial wireless networks in
the context of Industry 4.0, Wireless Networks, 2015.

- 200 -
Oussama Rholam et Al

[14] E. Georgakakis, S. A. Nikolidakis, D. D. Vergados, and C. Douligeris, An Analysis of Bluetooth, Zigbee


and Bluetooth Low Energy and Their Use in WBANs, in Wireless Mobile Communication and Healthcare, Piraus:
Springer Berlin Heidelberg, 2011.
[15] C. Yang, C. Chung, et C. Lin, On Scatternet Formation in Bluetooth Networks using Fuzzy Logic , in
2007 IEEE Wireless Communications and Networking Conference, 2007.
[16] S. Petersen ET S. Carlsen, WirelessHART Versus ISA100.11a: The Format War Hits the Factory Floor,
in Dec 2011, IEEE Industrial Electronics Magazine.
[17] S. Kharb, A.Singhrova, Review of industrial standards for wireless sensor networks -Introduction to
Wireless Sensor Network (WSN).
[18] P. Rawat, K. D. Singh, H. Chaouchi, ET J. M. Bonnin, Wireless sensor networks: a survey on recent
developments and potential synergies, in 2013, J Supercomput.
[19] A. Brandt ET J. Buron, Transmission of IPv6 Packets over ITU-T G.9959 Networks.Disponible sur
https://tools.ietf.org/html/rfc7428
[20] K. Mekki, E. Bajic, F. Chaxel, et F. Meyer, A comparative study of LPWAN technologies for large-scale
IoT deployment , ICT Express, janv. 2018.
[21] D. Ismail, M. Rahman, et A. Saifullah, Low-power wide-area networks: opportunities, challenges, and
directions
[23] MQTT Version.Disponible sur : http://docs.oasis-open.org/mqtt/mqtt/v3.1.1/os/mqtt-v3.1.1-os.html
[24] O.Vermesan, P.Friess, Internet of Things Applications - From Research and Innovation to Market De-
ployment, Internet of Things Applications.
[25] Home|AMQP. [En ligne]. Disponible sur: http://www.amqp.org/.
[26] DDS Portal – Data Distribution Services. Disponible sur: https://www.omgwiki.org/dds/.
[28] M. Asim, A Survey on Application Layer Protocols for Internet of Things (IoT), in 2017 International
Journal of Advanced Research in Computer Science,
[29] IoT Healthcare Market Worth 158.07 Billion USD by 2022. Disponible sur:
https://www.prnewswire.com/news-releases/iot-healthcare-market-worth-15807-billion-usd-by-2022-
619971083.html.
[30] E. Balandina, S. Balandin, Y. Koucheryavy, et D. Mouromtsev,IoT Use Cases in Healthcare and Tour-
ism , in 2015 IEEE 17th Conference on Business Informatics, 2015.
[31] Trois études de cas IoT sur le pétrole et le gaz. Disponible sur:
https://enterpriseiotinsights.com/20170515/channels/fundamentals/20170515channelsfundamentalsthree-iot-case-
study-oil-gas-industry-tag23-tag99.
[32] «Automating Intelligently Is Tesla’s Manufacturing Advantage, CleanTechnica, Disponible sur:
https://cleantechnica.com/2018/06/30/automating-intelligently-is-teslas-manufacturing-advantage/
[33] Ferran Adelantado, Xavier Vilajosana, Pere Tuset-Peiro, Borja Martinez, Joan Melià-Seguí, Thomas
Watteyne, "Understanding the Limits of LoRaWAN" in IEEE Communications Magazine in January 2017

Abstract
Today, the industrial sector has entered an advanced phase of digital integration at the heart
of industrial processes. This industrial revolution called Industry 4.0 gave birth to a new
generation of factories called "connected factories". Through the integration of new techno-
logies, these plants will be able to digitize all their processes. IIoT "Industrial Internet of
Things" is able to help factories achieve better profits in industrial manufacturing markets by
increasing productivity, reducing costs and developing new services and products. In this
paper, we present a state of the art of the industrial Internet of Things.

- 201 -
Actors-based CEP architecture for real time traffic congestion
patterns detection
Mohamed Nahri*, Azedine Boulmakoul*
Lamia Karim**
*LIM/IOS., FSTM, Hassan II University of Casablanca, B.P. 146 Mohammedia, Morocco
** Higher School of Technology EST Berrechid, Hassan 1st University, Morocco

Abstract. Internet of vehicles (IoV) presents a dynamic research field in recent


years. The concept of IoV is based on sensing the vehicular environment and
communicating, managing and analyzing the data produced by intelligent ve-
hicles and infrastructure. Indeed, the generated data form a stream character-
ized by large volume, high velocity, variety, and veracity. Thus, processing
and analyzing these data in real time constitutes a big challenge. Particularly,
detecting traffic anomalies and building traffic patterns from transmitted data
in real time present interesting research areas. In this work, we criticize the
most used architectures and technologies for stream processing and complex
event processing (CEP). Moreover, we discuss the distributed programming
based on the actor model. Finally, we propose a distributed architecture based
on actors for real time congestion patterns detection for urban road traffic.

1 Introduction
Internet of vehicles (Butt et al. 2018) has recently emerged thanks to the evolution of the
intelligent infrastructure and the growth of the power of sensing, computation and communi-
cation of intelligent vehicles. Furthermore, IoV tends to exploit efficiently in a centralized
manner the large amount of data generated by vehicles and infrastructure. However, collect-
ing and analyzing vehicular Big Data as well as deducing insights remains a big challenge.
The recent advances in big data analytics technologies and architectures allow collecting and
processing data as soon as they arrive. Moreover, these advances permits detecting useful
patterns from these data streams. Thus, two main domains are concerned such as stream
processing and complex event processing (CEP) (Flouris et al. 2017). The proposed architec-
tures for both stream processing and complex event processing try to enhance efficiency,
availability, scalability and fault tolerance, and reduce latency for the treatments. Technolo-
gies such as Kafka (Le 2017), Spark, Flink, Storm (Chintapalli et al. 2016) and others as well
as HDFS and Big Data databases (Corbellini et al. 2017) represent the main components for
the building of such architectures, permitting real time data processing and storage in a dis-
tributed manner. However, these technologies give a high level of abstraction hiding some-
times the visibility of some essential operations. Thus, they allow less efficiency in resources
management. Indeed, handling microscopic processing operations opens big opportunities
for optimization. In fact, the actor programming model (Agha 1986), based on messages
passing between reactive components called actors, allows building a concurrent and distrib-
uted architecture. This later constitutes a potential choice to replace these proposed engines
for stream processing and CEP. In this work, we tend to initiate an architecture based on the

- 203 -
Actors-based CEP architecture for real time traffic congestion patterns detection

actor model programming for data traffic processing and complex congestion patterns detec-
tion. The rest of this paper is organized as follows. Section 2 reminds the most used architec-
tures for stream processing and CEP. The history and principals of actor model programming
are highlighted in section 3. Section 4 describes the traffic events and traffic congestion pat-
terns and it presents the proposed architecture for building these congestion patterns from
traffic events. Finally, the conclusion and the perspectives are given in section 5.

2 Stream processing and CEP architectures


Real time analytics of voluminous data presents a big challenge. Analyzing streams of
generated data by intelligent objects allows detecting targeted situations represented by pat-
terns. Moreover, real time data processing takes in consideration the velocity aspect. Thus,
the latency factor presents a primordial role in the data stream processing. In Big Data field,
the real time analytics allows the ability to process data as they arrive (Buyya et al., 2016).
Obviously, performing efficiently the desired operations from generated data presents the
main purpose. Thus, in real time Big Data analytics, we distinguish between two key con-
cepts such as stream processing and CEP. The data stream processing focuses on analyzing
the continuous unbounded data. However, the CEP tends to detect patterns from the sets of
generated events (Flouris et al. 2017).
Stream processing and CEP have emerged recently thanks to several technologies and ar-
chitectures supporting real time big data analytics. Effectively, these technologies ensure
different tasks such as collecting, processing and storing transmitted data as well as ensuring
orchestrating and reasoning. Some technologies such as message brokers, like Kafka, focus
on collecting big data with high velocity and dispatch them efficiently to processing engines
and active clients. Moreover, several stream processing engines had been proposed such as
spark streaming, which recently become spark structured streaming, Storm, Flink and others.
Furthermore, big data storage, reposing on HDFS techniques, have added a great values to
the way the big data stream is treated. In addition, Big Data databases have a primordial role
allowing storing all the data and instantly requesting for needed stored data. All these tech-
nologies promoted the design and the engineering of new architectures allowing real time
data stream processing and real time patterns detection. Thus, several architectures have been
proposed for stream processing and CEP such as Lambda and Kappa architectures (Azarmi
2016). These architectures perform stream processing and CEP by combining the treatment
by batch and treatment by record.
However, the described technologies and architectures show some limits among which
the hiding of some essential details of operations. Indeed, this can affect the efficiency and
the performance of the targeted operations. Moreover, it permits less handling of the allocat-
ed resources, reducing the chances for optimization. In the following, we try to overcome
these limits adopting an architecture based on the actor model. Thus, we explain the power of
the actor model and its compatibility with the big data environment. Moreover, we propose
an actors-based architecture for real time traffic patterns detection.

3 Actor model highlights : history and principals


Actor programming model was initially founded by carl Hewitt at MIT lab (Hewitt et al.
1973), proposing a new model of artificial intelligence (AI) based on only one variable called

- 204 -
M. Nahri et al.

actor and some organization and communication paradigms. This model concurred and also
completed the traditional procedural programming methods for AI initiated by Turin. The
Carl Hewitt model poses the foundations and basics to build a new AI designs based on ac-
tors. This work has been followed by the development of new actor-based languages primari-
ly started by Gul Agha (Agha 1986), extending a simple functional language into actor-based
language. These works have been followed by the foundation of Erlang languages
(Armstrong 2007) developed by Ericson and used excessively in telecommunication and
high performance reactive systems. Recently, a new language based on actor model has ap-
peared supporting high performance and distributed computations such as AKKA.
Let us explain some principales of the actor programming model.
- The actor is the fundamental unit of computation.
- The actor embodies three essential things of computation: processing, storage and
communication.
- Actors can communicate via messages. Moreover, the messages are sent asynchro-
nously.
- The storage is important to remember messages and this can be ensured via a mail-
box.
- When an actor receives a message: it can create new actors, send messages to existed
actors and designate what to do with the next message it receives.
- An actor is identified by one or multiple addresses. Moreover, an address can refer to
multiple actors.
Any actor-based implementation, such as languages or architecture, has to respect these
characteristics. Thus, actor-based systems provide reactive components allowing the concur-
rency as well as the distributed treatment and fit in with the stream processing. In the next
section, we try to build an architecture based on the actor model for real time data traffic
processing as well as building the traffic congestion patterns.

4 The proposed architecture for real time traffic pattern de-


tection
4.1 Congestion event and congestion Pattern.
In this part, we describe the basics of the traffic congestion pattern we want to detect. We
note that the concepts in this part are based on works (Nahri et al. 2018) and (Karim et al.
2017) describing traffic congestion patterns based on trajectories. Moreover, it succeeds the
work (Nahri et al. 2018) allowing to detect in real time the traffic state on each road section.
Thus, we describe congestion patterns that would be built by the proposed CEP actor-based
architecture. Indeed, we define two main components: the congestion event and congestion
pattern which we explain as follows:
- A traffic event constitutes a traffic situation on a given road section which is a link
between two junctions (the input junction and the output junction). An event can be
fluid or congested. Furthermore, an event can change its state continuously.
- A congestion event constitutes an event with a congested state.
- A Congestion pattern is formed by a set of linked congestion events. Two linked
events means that the output junction of one is the input junction of the other.

- 205 -
Actors-based CEP architecture for real time traffic congestion patterns detection

- The congestion pattern has a lifecycle constituted by three steps: creation, update and
destruction.
- The congestion pattern is initially created by a trigger congested event representing
the head of the pattern.
- Congestion pattern is updated if a new event is added to a set of contained conges-
tion events or a contained congestion event has changed its state.
- Congestion pattern is destructed when all contained events become fluid, thus chang-
ing from alive pattern to dead pattern.
For simplifying, a congestion pattern is like a tree of linked road section infected by the
congestion. The following activity diagram shows the creation and the update steps for
the congestion pattern. We mention that this diagram is based on the activity diagram
presented in ASD conference(Nahri et al. 2018). We note that the patterns mentioned in
the activity diagram represent the alive patterns with their last version.

FIG. 1 – Activity diagram of the congestion pattern creation and update.

As you can see, the congestion pattern, as described above, represents a dynamic object
in which all composing events can change their state continuously. Thus, storing and up-
dating all changes that occur in a pattern seems to be delicate. The following section pro-
poses a technical architecture for creating, updating the congestion patterns as well as
saving all the history of each pattern.

4.2 Congestion patterns building architecture


The congestion patterns CEP architecture embodies three main functionalities such as
collection, processing and storage. Primarily, the events collection is ensured by a message
broker such as Kafka. The treatments and the pattern building are ensured by an actor-based

- 206 -
M. Nahri et al.

architecture using a Big Data in-memory database, represented by Aerospike (Srinivasan et


al. 2016). Moreover, this model fits exactly with the activity diagram described above and
reduces the time of the active patterns requests by the mean of using the in-memory data-
base. Moreover, the built patterns with all their histories are stored in a Big Data database
represented by Hbase (Naheman 2013).

FIG. 2 – Actors-based architecture for real-time traffic congestion patterns building.

We mention that the in-memory database contains the alive patterns. However, the Big
Data database seems to be very important for persisting the alive patterns as well as the dead
ones.

5 Conclusion
This work questions the recent architectures for real time processing including stream
processing and CEP. Moreover, it proposes an architecture based on actor model program-
ming for real time traffic congestion patterns detection. Obviously, several benefits can be
achieved using this architecture such as having a low visibility level and allowing more
chances for optimization. Finally, this work constitute an initiation to a more complex archi-
tecture detecting and analyzing traffic congestion patterns. More detailed tests and results
will be achieved in our near future works.

References
Agha, Gul Abdulnabi. 1986. “ACTORS: A Model of Concurrent Computation in Distributed
Systems.” MIT Press.
Armstrong, Joe. 2007. “A History of Erlang.” HOPL III Proceedings of the Third ACM

- 207 -
Actors-based CEP architecture for real time traffic congestion patterns detection

SIGPLAN Conference on History of Programming Languages 1–26.


Azarmi, Bahaaldine. 2016. Scalable Big Data Architecture.
Butt, Talal Ashraf, Razi Iqbal, Sayed Chhattan Shah, and Tariq Umar. 2018. “Social Internet
of Vehicles : Architecture and Enabling.” Computers and Electrical Engineering
69(December 2017):68–84. Retrieved
(https://doi.org/10.1016/j.compeleceng.2018.05.023).
Buyya, Rajkumar, Rodrigo N. Calheiros, and Amir Vahid Dastjerdi. 2016. Big Data:
Principles and Paradigms.
Chintapalli, Sanket et al. 2016. “Benchmarking Streaming Computation Engines: Storm,
Flink and Spark Streaming.” Proceedings - 2016 IEEE 30th International Parallel and
Distributed Processing Symposium, IPDPS 2016 1789–92.
Corbellini, Alejandro, Cristian Mateos, Alejandro Zunino, Daniela Godoy, and Silvia
Schiaffino. 2017. “Persisting Big-Data: The NoSQL Landscape.” Information Systems
63:1–23.
Flouris, Ioannis et al. 2017. “Issues in Complex Event Processing: Status and Prospects in
the Big Data Era.” Journal of Systems and Software 127:217–36. Retrieved
(http://dx.doi.org/10.1016/j.jss.2016.06.011).
Hewitt, Carl, Peter Bishop, and Richard Steiger. 1973. “A Universal Modular ACTOR
Formalism for Artificial Intelligence.” IJCAI’73 Proceedings of the 3rd International
Joint Conference on Artificial Intelligence 235–45.
L. Karim, A. Boulmakoul, A.Lbath. 2017. “Real Time Analytics of Urban Congestion
Trajectories on Hadoop-MongoDB Cloud Ecosystem.” Acm (August). Retrieved
(https://www.researchgate.net/profile/Azedine_Boulmakoul/publication/315664262_R
eal_time_analytics_of_urban_congestion_trajectories_on_Hadoop-
MongoDB_cloud_ecosystem/links/599b293a45851574f4ac6653/Real-time-analytics-
of-urban-congestion-trajectories-on-Had).
Le, Paul. 2017. “A Performance Evaluation of Apache Kafka in Support of Big Data
Streaming Applications.” 4803–6.
Naheman, Wumuti. 2013. “Review ofNoSQL Databases and Performance Testing on
HBase.” Proceedings 2013 International Conference on Mechatronic Sciences,
Electric Engineering and Computer (MEC) 2304–9.
Nahri, Mohamed, Azedine Boulmakoul, and Lamia Karim. 2018. “C-T-Engine : A Real
Time Building Engine of Urban Traffic Congestion Trajectories 1 Introduction 2
Congestion Events and Congestion Trajectories.” ASD.
Nahri, Mohamed, Azedine Boulmakoul, Lamia Karim, and Ahmed Lbath. 2018.
“ScienceDirect IoV Distributed Architecture for Real-Time Traffic Data Analytics.” 0.
Srinivasan, V., Brian Bulkowski, and Rajkumar Iyer. 2016. “Aerospike : Architecture of a
Real-Time Operational DBMS.” Proceedings of the VLDB Endowment 9(13):1389–
1400.

- 208 -
M. Nahri et al.

Résumé
Internet des véhicules (IoV) constitue un domaine de recherche dynamique ces dernières
années. Le concept d'IoV est basé sur la détection de l'environnement véhiculaire et la com-
munication, la gestion et l'analyse des données produites par les véhicules et l’infrastructure
intelligentes. En effet, les données générées forment un flux caractérisé par le volume large,
la vitesse élevée, la variété et la véracité. Le traitement et l'analyse de ces données en temps
réel constituent donc de grands défis. En particulier, la détection en temps réel des anomalies
du trafic et la construction des paternes du trafic à partir des données transmises constitue des
domaines de recherche intéressants. Dans ce travail, nous critiquons les architectures et les
technologies les plus utilisées pour le traitement des flux des données et le traitement d'évé-
nements complexes (CEP). De plus, nous discutons la programmation distribuée basée sur le
modèle d'acteur. Enfin, nous proposons une architecture distribuée basée sur les acteurs pour
la détection des modèles de congestion en temps réel pour le trafic routier urbain.

- 209 -
Vers un réseau électrique intelligent basé sur l’internet des
énergies
Asmae Chakir 1,2 , Mohamed Tabaa 3 ,Fouad Moutaouakil 1,2 ,
Hicham Medromi 1,2 , Karim Alami 3
1
Fondation de Recherche, Développement et Innovation en Sciences de l’Ingénieur
(FRDISI), Casablanca, Maroc
2
Ecole Nationale Supérieure d’Electricité et de Mécanique (ENSEM),
Laboratoire de recherche en ingénierie, Casablanca, Maroc
Asmae.cr@gmail.com
3
Laboratoire Pluridisciplinaire de Recherche et Innovation (LPRI), EMSI Casablanca,
Maroc

Résumé. Au cœur de développement des réseaux électriques intelligents, l’internet des objets
(IoT : Internet of Things) permet de suivre les informations d’une plateforme énergétique afin
d’ajuster correctement la consommation et produire de l’électricité d’une façon prédictible.
Les objets connectés sur le réseau de transport, de distribution ou carrément chez le
consommateur aident à suivre les besoins de réseau, dépenses, habitudes ou même les pics de
consommation. Nous souhaitons dans ce papier présenter un état de l’art de l’internet
d’énergie. Nous proposons une solution de distribution d’énergie basée sur des objets
connectées pour les villes intelligentes.

1 Introduction
L’Internet des Objets (The Internet Of Things, IoT) est un système de périphériques
informatiques interdépendants, de machines, de capteurs, d'objets, d'animaux ou de personnes
dotés d'identificateurs uniques ayant la possibilité de transmettre et recevoir des données sur
un réseau, sans intervention d’un humain ou interaction avec ordinateur. C’est
l’interconnexion en réseau des objets équipés d’une intelligence omniprésente, qui a évolué à
partir de la convergence des technologies sans fil, des systèmes micro-électromécaniques
(MEMS), des micro-services et de l'internet. Ce qui a permis de détruire la muraille entre le
monde opérationnel et l’information. Il a aussi permis d’analyser les données générées par
machine non structurée pour donner des informations. Pour vulgarisation, un objet dans l’IoT,
est défini comme une automobile avec des capteurs intégrés qui servent à prévenir le
conducteur du niveau d’huile dans le réservoir (bas, élevé,…).
Les applications pratiques de la technologie IoT se trouvent aujourd'hui dans de
nombreuses industries, notamment l'agriculture, l’industrie chimique, pharmaceutique et
pétrolière, la santé, le transport et l’énergie.
La conception du réseau électrique traditionnel se caractérise par une production
centralisée sur dimensionnée, un flux énergétique unidirectionnel ainsi qu’une absence de
communication entre les consommateurs et les producteurs. Pourtant, ce genre de réseau est

- 211 -
Asmae CHAKIR et Al

dans l’obligation de faire face aux défis du 21ème siècle, à savoir : la pénétration et
l’intermittence des énergies renouvelables, l’augmentation de la demande, le changement
climatique ainsi que le développement technologique.
Ces contraintes ont incité les chercheurs à penser à améliorer le réseau électrique actuel
vers un autre futur capable de suivre l’évolution. En effet, ce réseau vient pour répondre aux
attentes des consommateurs comme la réduction de la facture d’électricité et le confort
énergétique, ainsi qu’assurer les prévisions des producteurs, tout en visant l’équilibre entre la
demande et la production.
Pour cela, beaucoup de travaux s’intéressent à l’amélioration de l'infrastructure électrique
pour qu’elle soit plus fiable, plus ouverte et plus compatible avec les nouvelles technologies,
en termes d'énergie renouvelable et d'infrastructure numérique. Cela va nous permettre de
passer d’un réseau traditionnel qui marginalise la valeur de l’information vers un réseau
intelligent qui valorise la communication à côté de ces trois volets bien connus, à savoir : la
production, le transport et la distribution.
Suite à cela, notre travail se positionne dans la partie communication, en vue de gérer et
partager d’énergie au sein d’un micro-réseau constitué de maison à base d’une alimentation
hybride renouvelable. En effet, la gestion de l’énergie distribuée prend deux aspects, soit une
gestion locale, ou bien globale. La gestion locale a été l’objet de plusieurs recherches, que ce
soit pour une charge domestique [1] [2], ou industrielle [3]. Cependant, dans [4] ils ont pris en
charge l’optimisation de l’énergie d’un ensemble de maison intelligente via une fonction cout
objectif, mais ce travail fait l’objet d’une gestion globale centralisée. Par contre, notre travail
vient pour améliorer le travail présenté par [5], qui ont généralisé la notion de l’énergie
distribuée pour un micro-réseau et ils ont développé un algorithme pour le partage de l’énergie
au sein de ce réseau. Cet algorithme prend en considération juste la satisfaction des maisons
en déficit énergétique, mais sans tenir compte de l’énergie perdue lors du transport. Pour ce
faire, nous avons proposé un algorithme qui prend en considération et la satisfaction des
maisons en besoin énergétique et l’optimisation des pertes par transport.
Ce papier sera présenté comme suit : la deuxième partie sera consacrée à la définition du
réseau électrique intelligent suivant quatre volets principaux : production, transport,
distribution et communication. L’architecture de communication énergétique sera détaillée
dans la partie 4 et finalement une conclusion.

2 Réseau électrique intelligent


Le réseau électrique intelligent peut être défini comme étant un système qui opte pour la
génération distribuée à la place de la production centralisé, capable de gérer son transport et
sa distribution d’une manière intelligente via l’utilisation des technologies d’information et de
communication ainsi que celles de traitement intelligent de l'information.
Ce réseau électrique se base sur quatre éléments nécessaires, à savoir : production,
transport, distribution et communication.

- 212 -
Asmae CHAKIR et Al

2.1 Production
Afin de produire de l’électricité l’exploitation une énergie primaire est nécessaire. Il
s’agit de toute sorte d’énergie disponible dans la nature sans transformation. Cette production
prend en considération soit une énergie renouvelable ou non renouvelable.
La production non renouvelable concerne surtout les générateurs thermiques. En effet,
A l’aide d’un fluide, l’eau par exemple, l’énergie thermique issue lors de la combustion des
carburants fossiles est captée et ensuite utilisée pour entrainer une turbine liée à un générateur
(le plus souvent une machine synchrone). Dans le cas des centrales nucléaires l’énergie
thermique est issue de la fission des noyaux nucléaires. Elles sont des générateurs d’énergie
non-renouvelable, parce que le minerai utilisé, l’uranium, est une ressource épuisable et non-
renouvelable [6].
Cependant, la production renouvelable c’est une énergie primaire à exploiter selon son
type. En effet, cette énergie est soit une énergie potentielle pour l’hydroélectricité, l’énergie
des photons pour le photovoltaïque, énergie cinétique pour les éoliennes. Sinon, aussi les
déchets peuvent être exploités pour reproduire le cercle thermique de production.
Comme déjà mentionné dans la problématique une des visions des smart grid c’est
l’utilisation des énergies renouvelables. Mais l’inconvénient majeur de ces énergies c’est
l’intermittence causé par le changement météorologique. La solution conventionnelle c’est le
stockage, mais cette solution est limitée par des contraintes d’encombrement et de coût.
Pour cela, la tendance en ce moment c’est l’utilisation des systèmes hybrides, qui vont lisser
la courbe de production (nuit/jour pour le cas de PV/Eolien). En effet, Le système d'énergie
renouvelable hybride est la combinaison de deux ou plusieurs sources d'énergie qui sont
utilisées pour fournir l’électricité à la charge ciblée [7].

Figure 1. Architecture des systèmes hybrides autonomes

- 213 -
Asmae CHAKIR et Al

2.2 Transport et distribution


Cette phase généralement vient sous forme d’une structure d’un système de
management de l’énergie produite. Le système vient pour répondre à un objectif ou plusieurs
fixés au début, soit pour minimiser le coût, optimiser la production, ou bien réduire les gaz à
effet de serre. Une fois la fonction objective est fixée, il faut poser les contraintes et les
paramètres qui doivent être satisfaite par le système.
Pour cela, il faut avoir une idée sur les consommateurs pour concevoir la gestion
d’énergie adaptée au transport et la distribution au niveau du micro grid, ainsi qu’une vision
sur les systèmes à alimenter pour la distribution locale.
Il est à noter que la gestion d’énergie change en changeant le niveau de l’énergie [8].
En effet, le réseau est divisé en trois niveau, à savoir : le niveau local, le niveau micro-réseau
et celui de transport et distribution. Chaque se caractérise par une fonction objective
appropriée. En effet, on peut travailler avec la priorité de fonctionnement dans le niveau local,
l’équilibre entre la demande et la production dans le micro-grid, ou bien la non-surcharge des
arêtes pour la distribution où le transport.
Chaque niveau peut être gérer par une méthode spécifique, qu’on cherche à les tester
une après l’autre pour comparer l’efficacité et la rapidité de chacune. On note parmi ces
méthodes la programmation convexe, dynamique, robuste, ou stochastique pour
l’optimisation, machine learning, théorie des jeux, ou les enchères [9].

Figure 2. Représentation d’un réseau intelligent maillé [10]

2.3 Communication
La communication dans le smart grid est surtout pour traiter et analyser les données
collectées par les capteurs. Le plus important c’est de savoir quoi communiquer et avec quelle
technologie. Ces technologies sont soit filaire ou sans fil. La communication est aussi se fait
en deux phases, des capteurs vers les infrastructures de mesure, et de celles-ci vers le data
center [11].

- 214 -
Asmae CHAKIR et Al

La première catégorie utilise le PLC (Power line communication) ou bien les


technologies sans fil. Sinon la deuxième utilise la communication cellulaire ou bien l’internet,
qui rentre dans la philosophie d’internet des objets.
La communication sans fil englobe plusieurs technologies, mais la question qui se pose
c’est l’adéquation avec les critères du smart grid, à savoir : la fiabilité et la rapidité, ainsi que
la sécurité du système.
En effet, pour la technologie sans fil, pour une topologie maillé, la communication
cellulaire, la radio cognitive, communication avec satellite, zigbee, bluetouth, wifi, Wimax,
dash7, ainsi que Zwave.
On note, que la topologie mesh connu avec sa fiabilité, la technologie cellulaire avec
sa maturité, et la communication avec satellite avec sa rentabilité. D’autre part le Wimax est
définit comme la technologie la plus adapté aux smart grid pour la distribution comparé avec
la communication filaire ou cellulaire [11].
Cependant, pour la communication filaire concerne PLC, la fibre optique, DSL. Notant
que PLC est utilisé dans la chine, mais n’est pas convenable pour les HAN [12] (Home Area
Network qui est le fait de connecter les équipements dans un système de management
intelligent de l’énergie).
D’autre part, la communication via la fibre optique nécessite toute une installation, ce
qui affecte le coût du système et la rendre une solution non compatible avec les projets disant
low cost, ne sera pas adéquate. Sinon le DSL pourra être une solution rentable, simple et
avantageuse, vu qu’on va transporter l’information avec les lignes téléphoniques, ainsi les
équipements soient en connexion avec l’internet.

3 Architecture de distribution intelligente


Nous souhaitons réaliser un équilibre énergétique au sein d’un micro-réseau intelligent. Le
réseau est à base de maisons intelligentes, qui ne sont autre qu’un système constitué d’une
charge et d’une production hybride renouvelable, ou HRES (Hybrid Renewable Energy
System). Le réseau concerné par l’étude est montré par la figure 3.
𝐻𝑅𝐸𝑆1 𝐻𝑅𝐸𝑆2

𝐾12 /𝑑12 𝐾21 /𝑑21

𝐾13 /𝑑13 𝐾24 /𝑑24


𝐾14 /𝑑14 𝐾23 /𝑑23

𝐾41 /𝑑41 𝐾42 /𝑑42 𝐾31 /𝑑31 𝐾32 /𝑑32

𝐾43 /𝑑43 𝐾34 /𝑑34

𝐻𝑅𝐸𝑆4 𝐻𝑅𝐸𝑆3

Figure 3. Représentation d’un micro-réseau à base des HRES

- 215 -
Asmae CHAKIR et Al

Figure 4. Gestion intelligente de l’énergie entre les HRES

- 216 -
Asmae CHAKIR et Al

L’idée de la réalisation de l’équilibre se base sur le partage de l’énergie entre une


maison en manque et une autre en excès énergétique. Pour ce faire, un algorithme que se base
sur fonctions objectives, la satisfaction du manque et l’optimisation des pertes par transport
est développé en figure 4.
Le point de départ se fait par l’identification des états énergétique de toutes les maisons,
via l’équation caractéristique (1).

𝑃𝑑𝑖𝑠 = 𝑃𝐻𝑅𝐸𝑆 − 𝑃𝐶𝐻 (1)

On note Pdis la puissance disponible à être partagée dans une maison, 𝑃𝐻𝑅𝐸𝑆 est la
puissance délivrée par le système hybride, par exemple l’éolien et le PV, et finalement 𝑃𝐶𝐻 la
puissance consommée par les charges de la maison.
L’algorithme cherche plutôt la HRES qui est en manque énergétique. On ne s’intéresse
pas vraiment à celle qu’elle a un surplus, parce qu’elle est en deuxième priorité. L’idéal c’est
lorsque l’HRES est en équilibre, c’est-à-dire 𝑃𝑑𝑖𝑠 = 0.
En effet, chaque maison peut satisfaire sa demande en énergie auprès de toute énergie
distribuée, HRES, lié à celle-ci ou aux maisons de voisinage, ces sources sont
notées 𝐻𝑅𝐸𝑆𝑖 / 𝑖 𝜖𝑁, avec N est la taille du réseau, le nombre des HRES qui le constitue.
L’erreur à corriger est lorsque 𝑃𝑑𝑖𝑠 < 0, la correction se fait avec les HRES
ayant 𝑃𝑑𝑖𝑠 > 0. L’idée c’est entre chaque maisoni et un HRESj existe une liaison, une
extension d’un conducteur électrique caractérisé par sa longueur noté 𝑑 𝑖𝑗 𝑜𝑢 𝑑 𝑗𝑖 , et à chaque
bout on trouve les interrupteurs notés 𝐾𝑖𝑗 𝑒𝑡 𝐾 𝑗𝑖 qui se ferment et s’ouvrent vers la fin de
l’algorithme. En effet, la fermeture concerne l’interrupteur venant de la maison qui a un surplus
avec le minimum de pertes par effet de joule vers la maison en maque énergétique.
Pour cela, une fois une maison en manque est détectée, le programme fait deux tris, le
premier pour concaténer l’indice des maisons capables de fournir de l’énergie, c’est-à-dire qui
ont un surplus, et le deuxième est pour choisir le chemin optimal, c’est-à-dire la moins distante.
Ci-après les matrices correspondent respectivement de la matrice-interrupteur et la
matrice distance utilisées dans le programme.

1 𝐾12 𝐾13 𝐾14


𝐾21 1 𝐾23 𝐾24
𝐾=[ ]
𝐾31 𝐾32 1 𝐾34
𝐾41 𝐾42 𝐾43 1

0 𝑑12 𝑑13 𝑑14


𝑑21 0 𝑑23 𝑑24
𝑑=[ ]
𝑑31 𝑑32 0 𝑑34
𝑑41 𝑑42 𝑑43 0

Il est à noter que la matrice distance est symétrique. La diagonale nulle signifie que les
pertes joules entre la maison et son HRES sont négligeables. Cependant, la diagonale unitaire

- 217 -
Asmae CHAKIR et Al

de la matrice-interrupteur décrit l’état de l’interrupteur reliant la charge, la maison, à sa source


renouvelable est toujours fermée.

4 Conclusion et perspectives
La pénétration des énergies renouvelables, la révolution de l’industrie et l’augmentation de
la demande en électricité oblige le réseau électrique à se développer pour suivre l’évolution.
Le développement de mandé c’est l’intégration de l’intelligence dans tous les volets du réseau
actuel et de valoriser le pôle de la consommation, afin d’assurer l’optimisation, la fiabilité et
la sureté énergétique du réseau. Pour ce faire, un changement de la tendance du marché de
l’énergie est nécessaire.
Dans ce papier nous avons défini la notion du réseau intelligent suivant ses quatre volets,
à savoir : la production, la distribution, le transport et la communication. Par la suite, nous
avons proposé une architecture de distribution intelligente dans un micro réseau basé sur les
HRES, qui constituent un ensemble d’objets connectés entre eux communicant leur état
d’énergie en temps réel.
L’architecture proposée rentre dans la notion de la gestion intelligente de l'énergie (Smart
Energy Management) qui constitue l’élément essentiel d’un réseau intelligent, et la voie à
suivre pour atteindre les objectifs d’un smart grid.
Par la suite, nous comptons construire des acteurs producteurs distribués à base des
systèmes renouvelables, qui vont d’être l’objet d’un réseau intelligent autonome. Ce réseau va
être la base d’implémentation de notre algorithme de gestion et communication distribuée.
Notre algorithme va être aussi amélioré pour tenir compte des moyens de stockage partagé.

Références

[1] C. Roldan-Blay, G. Escriva-Escriva, C. Roldan-Porta and C. Alvarez-Bel, "An optimisation


algorithm for distributed energy resources management in micro-scale energy hubs," Energy, vol.
132, pp. 126-135, 2017.
[2] M. Karmellos and G. Mavrotas, "Multi-objective optimization and comparison framework for
the design of Distributed Energy Systems," Energy Conversion and Management, vol. 180, p.
473–495, 2019.
[3] S. T. Blake and D. T. J. O’Sullivan, "Optimization of distributed energy resources in an industrial
microgrid," in 11th CIRP Conference on Intelligent Computation in Manufacturing Engineering
- CIRP ICME '17, Gulf of Naples, Italy, 2018.
[4] I.-Y. Joo and D.-H. Choi, "Distributed Optimization Framework for Energy Management of
Multiple Smart Homes With Distributed Energy Resources," IEEE, vol. 5, pp. 15551-15560,
2017.
[5] Z. Sabiri and A. Ailane, "Smart and autonomous communication for hybrid energy management
in smart grid," in 2018 Renewable Energies, Power Systems & Green Inclusive Economy (REPS-
GIE), Casablanca, 2018.

- 218 -
Asmae CHAKIR et Al

[6] H. KANCHEV , "Gestion des flux énergétiques dans un système hybride de sources d’énergie
renouvelable : Optimisation de la planification opérationnelle et ajustement d’un micro réseau
électrique urbain," Nord-de-France , 2014.
[7] J. B.Fulzele and M. Daigavan, "Design and Optimization of Hybrid PV-Wind Renewable Energy
System," materialtoday: Proceedings, vol. 5, pp. 810-818, 2018.
[8] R. Marah and A. El Hibaoui, "Algorithms for Smart Grid management," Sustainable Cities and
Society, vol. 38, pp. 627-635, 2018.
[9] X. Fang, . S. Misra , G. Xue and D. Yang, "Smart Grid — The New and Improved Power Grid:
A Survey," IEEE Communications Surveys & Tutorials , vol. 14, pp. 944 - 980, 2012.
[10] G. Guérard, "Optimisation de la diffusion de l’énergie dans les Smart Grids," Ecole doctorale
sciences et technologies, Versailles, 2014.
[11] N. Shaukat, S. Ali, C. Mehmood, B. Khan, M. Jawad, U. Farid, Z. Ullah, S. Anwar and M. Majid,
"A survey on consumers empowerment, communication technologies, and renewable generation
penetration within Smart Grid," Renewable and Sustainable Energy Reviews, vol. 81, pp. 1453-
1475, 2018.
[12] G. Mussi Toschi, L. Barreto Campos and C. E. Cugnasca, "Home automation networks: A
survey," Computer Standards & Interfaces, vol. 50, pp. 42-54, 2017.

Abstract
At the heart of the development of smart grid systems, the Internet of Things (IoT) makes it
possible to track information from an energy platform in order to correctly adjust consumption
and produce electricity in a predictable way. Objects connected to the transmission,
distribution or direct consumer network help to track network needs, expenses, habits or even
peaks in consumption. In this paper we would like to present a state of the art of the energy
internet. We offer a connected object-based energy distribution solution for smart cities.

- 219 -
Internet des objets au service de la santé

Fatima Zahra Fagroud∗ , EL Habib Ben Lahmar∗


Sanaa Elfilali∗

Université Hassan II Mohammedia Casablanca Faculté des Sciences
Ben M sik Laboratoire de Technologie de l Information et Modélisation
Cdt Driss El Harti BP 7955 Sidi Othman Casablanca Maroc
fagroudfatimazahra0512@gmail.com h.benlahmer@gmail.com
elfilali.sanaa@gmail.com

1 Introduction
Le domaine de santé rencontre plusieurs défis tels que la gestion hospitaliére, Réduction
des couts d hospitalisation et Suivi permanent des patients. le systeme IOT cible différents
domaines citons par exemple la Santé et l Education. Plusieurs applications et services IOT ont
été developpés depuis l apparition de ce domaine pour le développement et l amélioration du
domaine de santé.
L objectif de ce travail est de montrer comment l internet des objets peut servir le domaine de
santé et les risques engendrés par son utilisation.

2 Internet of Things
Internet des objets (Internet of things, IOT) représente un systéme de dispositifs informa-
tiques, de machines mécaniques et numériques, d objets, d animaux ou de personnes inter-
connectés qui peuvent communiquer des données via un réseau d une facon autonome, sans
interaction humaine et en temps réel. L infrastructure de l IOT repose sur 3 grands composants :
un parc d objets connectés (collecte des données), un réseau télécom (transmission) et une ap-
plication (visualisation). Les informations collectées a partir des objets connectés permettent l
interprétation des pannes, la prise de décision, suivi permanent , etc

3 IOT et la santé
Internet des objets joue un role important dans l atténuation des défis du domaine de santé
(gestion hospitaliére, suivi permanent des patients, etc). De nos jours plusieurs applications
IOT ont été développé par exemple H2, il s agit d un tensiométre délivré a toutes les personnes
souffrante d hypertension d un suivi compliqué et genant. Les bénéfices sont : améliorer la
qualité de vie et la sécurité des patients grace a une surveillance discréte continue et des éva-
luations a distance, permettre aux individus de gérer leur propre santé avec plus d autonomie

- 221 -
Internet des objets au service de la santé

et une proactivité sur leur bien-etre et pathologie , améliorer la prévention grace un incroyable
gisement de données et rendre le systéme de santé plus efficace tout en réduisant les couts,
Optimisation de la prise en charge des patients a l hopital et diminution des ruptures de stock
grace au monitoring a distance et une gestion automatique de stock de matériel Les risques : les
informations recueillies par ces "objets" sont exposées aux cyberattaques par des pirates a la re-
cherche de ces précieuses données de santé, dispositifs non sécurisés vulérables a toutes sortes
de malwares ou attaques peuvent etre exploités avec des risques de dommages physiques,
constituer autant de bréches dans le systéme de soins auquel ils sont intégrés et accroitre le
risque sécurité des appareils médicaux et propagation de dispositifs médicaux bas de gamme
contrevenant aux réglementations de protection et de sécurité des fonctionnalités de base dont
dépends la vie des usagers

4 Conclusion
L internet des objets est un domaine qui va permettre l amélioration du domaine de santé en
offrent des solutions a usage facile. Deux questions peuvent se poser Quelle est l architecture
qui peut adapté a ce domaine avec un minimum de risques ? Jusqu a quel degré le domaine
médical peut faire confiance a l internet des objets ?

5 Reference
ALANSARI, Zainab, SOOMRO, Safeeullah, BELGAUM, Mohammad Riyaz, et al. (2018)
The Rise of Internet of Things (IoT) in Big Healthcare Data : Review and Open Research Is-
sues. In : Progress in Advanced Computing and Intelligent Engineering.
ANGGOROJATI, Bayu et PRASAD, Ramjee. (2018) Securing Communication in the IoT-
based Health Care Systems. Jurnal Ilmu Komputer dan Informasi
POOJA, M. et DAS, Deepthi. (2017) Comparative Analysis of IoT based Healthcare Architec-
tures. International Journal of Computer Applications
ZANJAL, Samir V. et TALMALE, Girish R. . (2016) Medicine reminder and monitoring sys-
tem for secure health using IOT. Procedia Computer Science
DOUKAS, Charalampos et MAGLOGIANNIS, Ilias. . (2012) Bringing IoT and cloud compu-
ting towards pervasive healthcare. In : Innovative Mobile and Internet Services in Ubiquitous
Computing (IMIS), 2012 Sixth International Conference on. IEEE

Summary
Internet of Things (IOT) represents a technological revolution that will interest both re-
search and industry.IOT’s infrastructure is based on 3 main components: a connected objects
park, a telecom network and an application. information collected from connected objects
allow the interpretation of outages, decision-making, permanent monitoring ...... Internet of
Things plays an important role in mitigating the challenges of the health field.In this work we
will focus on the role and applications of IOT in the field of health

- 222 -
IOT IN HEALTHCARE: STATE OF THE ART

Fatima Zahra Fagroud∗ , EL Habib Ben Lahmar∗


Sanaa Elfilali∗

Université Hassan II Mohammedia Casablanca Faculté des Sciences
Ben M sik Laboratoire de Technologie de l Information et Modélisation
Cdt Driss El Harti BP 7955 Sidi Othman Casablanca Maroc
fagroudfatimazahra0512@gmail.com h.benlahmer@gmail.com
elfilali.sanaa@gmail.com

1 Introduction
Internet of things is an infrastructure that offer many solution how can facilitate our life.
The application of IOT is possible in different area such as education agriculture, energy and
Healthcare. By studying the application of IOT in healthcare several questions arise, among
these questions: what are the challenges that can be solved by using IOT? How many papers
have been published? What are the challenges studied until now?
The rest of this paper is organized as follows: section 2 we define internet of things. In section
3 we present the application of IOT in healthcare. In section 4 a study of research evolution.
Finally, in section 5 a conclusion.

2 Internet of Things
Internet of Things has defined :Internet of Things is a new revolution of the Internet. Ob-
jects make themselves recognizable and they obtain intelligence by making or enabling context
related decisions thanks to the fact that they can communicate information about themselves.
They can access information that has been aggregated by other things, or they can be compo-
nents of complex services. This transformation is concomitant with the emergence of cloud
computing capabilities and the transition of the Internet towards IPv6 with an almost unlimited
addressing capacity. (ALANSARI Zainab, 2018)

3 IOT and Healthcare


Healthcare is a domain that still faces several challenges that involve to propose a news
solutions by using the news technologies. For the development and improvement of the health-
care several IOT applications and services have been developed. That improve how the internet
of Things have an important role in mitigating the challenges of the healthcare.

- 223 -
IOT in healthcare: State of the art

4 Evolution Research
An interesting number of researchs have been focused in the application of IOT that in-
clude the Healthcare. After analysing the figure we can conclude that the application of IOT
in this area have an interesting present and we can divide it in 3 categories: state of the art,
new application, resolution f challenges. Many papers have been concentrated in the Chal-
lenges of IOT in Healthcare, the challenges Studied until now are: Security, Architecture,
Consumption of energy, Quality of service, Management, Protocols, Integration with Cloud
Computing, Integration with Semantic Web, Integration with Data Processing(POOJA, 2017)
(ANGGOROJATI, 2018)

5 Conclusion
The Internet of Things will allow the improvement of several domains including healthcare
while offer solutions for easy use by these users (civil or professional). Two questions can
arise: what is the degree of reliability of the solutions IOT have been proposed? How far can
the healthcare field trust the internet of things?

References
ALANSARI Zainab, SOOMRO Safeeullah, B. M. R. e. a. (2018). The rise of internet of
things (iot) in big healthcare data: Review and open research issues. Progress in Advanced
Computing and Intelligent Engineering.
ANGGOROJATI, Bayu et PRASAD, R. (2018). Securing communication in the iot-based
health care systems. Jurnal Ilmu Komputer dan Informasi.
POOJA, M. et DAS, D. (2017). Comparative analysis of iot based healthcare architectures.
International Journal of Computer Applications.

Résumé
L Internet des objets (IOT) est un domaine qui représente une révolution technologique
qui intéressera la recherche et l industrie. Depuis son apparition, de nombreuses recherches et
solutions dans différents domaines d application ont été proposées pour résoudre des problémes
et proposer de nouvelles solutions. Dans cet article, nous présentons un apercu sur l application
de l IOT dans le domaine de soins de santé et l évolution de la recherche dans ce domaine d
application.

- 224 -
TOWARDS COLLABORATIVE ONTOLOGY
AUTHORING IN THE DOMAIN OF THE HOLY QURAN
KNOWLEDGE
Hamza Kharrazi∗ , Said Raghay∗∗


Applied Mathematics and Informatics Department, FSTG, Marrakech, Morocco
kharrazi.hamza@gmail.com
∗∗
Applied Mathematics and Informatics Department, FSTG, Marrakech, Morocco
s.raghay@uca.ac.ma

1 Introduction
The Qur’an is the religious text of Islam, revealed to our Prophet (PBUH) and distinguished
by its miraculous style, it is considered as the basic reference for all Islamic knowledge.
Ontology is one of the emerging specialties of research in computer science and semantic
web. It can be defined as «an explicit specification of a conceptualization» (Gruber, 1995).
The lack of suitable training data and gold standards make reliability and scalability of
computational methods, employing on information extraction methods, challenging. On other
hand expert driven methods involving subject specialists are often not scalable (time or cost).

2 Ontology authoring
2.1 Domain and Scope
The general idea is to work somehow on a more specific domain, namely Quran rules (e.g.
pillar of Islam, monotheism,...)

2.2 Ontology Reuse


The idea is to adapt and combine existing ontologies related to our work. Knowledge engi-
neers (KEs) along with the help of domain experts (DEs) look for already existent ontologies,
combine them using an ontology merging algorithm, then update the results and adapt them
according to our own needs.

2.3 Ontology Construction


KEs along with mutual consultation of DEs will look for documents and data that meets
the most the needs of the ontology, for text mining purpose, especially structured or at least

- 225 -
Collaborative ontology authoring: the quran knowledge domain

semi-structured data. When the system finishes extracting concepts, DEs check the correctness
and relevance of the results and improve them with the help of KEs if they need to.

2.4 Ontology Population and Annotation


Once the backbone of the ontology is made, the next step is to populate and annotate
it. This step is slightly different than the previous one, in fact, the quantity of instances and
annotations is far greater than that of the classes, in addition to that the nature of domain
require somehow more wariness. Therefore, we can’t totally rely on text mining, and the
need of human computation arises even more. And rather than waiting until the end to check
correctness and improve the quality of results, we can ask for community help especially in the
tasks needing an advanced level of understanding, for that we can generally use a simplified
graphical user interface (GUI) editor as WebProtege (T.Tudorache et al., 2011).

2.5 Ontology Testing and Maintenance


Based on end users feedbacks and suggestions, ontology testers reviews and taking in con-
sideration the system fails, the need of continual maintenance arises. For that, we can think of
two kinds of issues which needs to be solved differently:
— Technical: the problem is not about the meaning of the ontology’s content, but the
ontology structure and content (e.g. redundancy, conflicts, SPARQL issues...). In this
case KEs do partially the whole work.
— Semantical: the problem is generally related to the semantic and the meaning of the
content of the ontology (e.g. wrong information, incomplete data,...). In this case the
involvement of DEs is primordial.

3 Conclusion
The general idea of this work is to make a semi-automatic system which help and make
easier to community contributors, especially domain experts to contribute in the full process
from ontology preparation to the maintenance phase rather than just reviewing and checking
the correctness and the relevance of the results.

References
Gruber, T. R. (1995). Toward principles for the design of ontologies used for knowledge
sharing? International journal of human-computer studies 43, 907–928.
T.Tudorache, C.Nyulas, N.Noy, and M.Musen (2011). Webprotege: A distributed ontology
editor and knowledge acquisition tool for the web. Semantic Web Journal, 11–165.

Résumé
This paper presents a methodology for collaborative ontology authoring in the domain of
the Holly Coran Knowledge, by providing some guidelines for authoring the ontology.

- 226 -
Index

A Elfilali, Sanaa. . . . . . . . . . . . . . . .221, 223


Er-Rouane, Intissar . . . . . . . . . . . . . . . 109
Aggour, Hafssa . . . . . . . . . . . . . . . . . . . . . 1 Er-rouane, Intissar . . . . . . . . . . . . . 61, 95
Ait Babram, Mohamed . . . . . . . . . . . 148 Er-rouane, Sadik. . . . . . . . . . . . . . . . . . .95
Alami, Karim . . . . . . . . . . . . . . . . 186, 210 Errouane, Sadik . . . . . . . . . . . . . . . . . . . 87
Amrou Mhand, Mouna . . . . . . . . . . . . 40
F
B

Badir, Hassan . . . 40, 74, 127, 141, 162 Fagroud, Fatima Zahra . . . . . . 221, 223
Belayachi, Naima . . . . . . . . . . . . . . . . . . 20 Fissoune, Rachida . . . . . . . . . . . . . . . . 141
Belhorma, F . . . . . . . . . . . . . . . . . . . . . . . 32
H
Ben Lahmar, EL Habib . . . . . . 221, 223
Ben Sayah, El Mahdi . . . . . . . . . . . . . 109
Hakdaoui, Mustapha. . . . . . . . . . . . . . .61
Bencherif, Khayra . . . . . . . . . . . . . . . . 162
Harbi, Nouria. . . . . . . . . . . . . . . . . . . . . .74
Bendaoud, Zakaria. . . . . . . . . . . . . . . . .20
Hbid, Hassan . . . . . . . . . . . . . . . . . . . . . 148
Bendella, Fatima . . . . . . . . . . . . . . . . . . 50
Benhida, Faiçal . . . . . . . . . . . . . . . . . . . . 95 J
Bennacef, Sidahmed . . . . . . . . . . . . . . . 20
Bensaber, Djamel Amar . . . . . . . . . . 162 Jadoual, Lamia . . . . . . . . . . . . . . . . . . . . 95
Bensayah, El Mahdi . . . . . . . . . . . . . . . 61
Berber, R . . . . . . . . . . . . . . . . . . . . . . . . . 32 K
Bouasria, F . . . . . . . . . . . . . . . . . . . . . . . . 32
Bouazza, Hasna . . . . . . . . . . . . . . . . . . . 50 Kabachi, Nadia . . . . . . . . . . . . . . . . . . . . 74
Boulmakoul, Azedine . . 9, 40, 127, 202 Karim, Lamia . . . . . . . . . . . . . . . 127, 202
Boulmakoul, Azzedine . . . . . . . . . . . . 179 Keskes, Nabil . . . . . . . . . . . . . . . . . . . . . 162
Khanboubi, Fadoua . . . . . . . . . . . . . . . . . 9
C Kharrazi, Hamza . . . . . . . . . . . . . . . . . 225
Chakir, Asmae . . . . . . . . . . . . . . . . . . . 210 Kholaiq, Mariame . . . . . . . . . . . . . . . . 109
Cheggour, Aouatif . . . . . . . . . . . . . . . . . 87
L
E
Laatabi, Ahmed . . . . . . . . . . . . . . . . . . 148
El Hammichi, Fatima . . . . . . . . . . . . . 119 Lahsaini, Meriam . . . . . . . . . . . . . . . . . 119

- 227 -
M Rhazlane, Sara . . . . . . . . . . . . . . . . . . . . 74
Rholam, Oussama . . . . . . . . . . . . . . . . 186
Mabrouk, Aziz . . . . . . . . . . . . . . . . . . . . . . 1
Maguerra, Soufiane . . . . . . . . . . . . . . . 127 S
Marilleau, Nicolas . . . . . . . . . . . . . . . . 148
Medromi, Hicham . . . . . . . . . . . . . . . . 210 Saber, Najib . . . . . . . . . . . . . . . . . . . . . . 109
Medroumi, Hicham . . . . . . . . . . . . . . . 186 Simonneaux, Vincent . . . . . . . . . . . . . . 87
Mekkaoui, A . . . . . . . . . . . . . . . . . . . . . . . 32
Moutaouakil, Fouad . . . . . . . . . 186, 210 T

N Tabaa, Mohamed . . . . . . . . . . . . 186, 210


Tabyaoui,Hassan . . . . . . . . . . . . . . . . . 119
Nahri, Mohamed . . . . . . . . . . . . . . . . . 202 Tahiri, Mounia . . . . . . . . . . . . . . . . . . . 119
Nguyen-Huu, Tri . . . . . . . . . . . . . . . . . 148 Taouli, Amina . . . . . . . . . . . . . . . . . . . . 162

O W

Ouasti, Nassima . . . . . . . . . . . . . . . . . . . 50 Wadii, Basmi . . . . . . . . . . . . . . . . . . . . . 179

R Y

Rabhi, Ahmed . . . . . . . . . . . . . . . . . . . . 141 Yachba, Khadidja. . . . . . . . . . . . . . . . . .20


Raghay, Said . . . . . . . . . . . . . . . . . . . . . 225 Yousfi, S. . . . . . . . . . . . . . . . . . . . . . . . . . .32
http://intis18.conferences-it.com

Marrakech

Vous aimerez peut-être aussi