Académique Documents
Professionnel Documents
Culture Documents
Thème
Conception d’une solution Business Intelligence pour la fonction
RH de SONELGAZ dans un écosystème Big Data
i
Remerciements
Nos remerciements les plus sincères aussi à Mr. Sennad Belaid chef
de Département Intégration et Maintenance SI au sein de la Direction
Progiciel de Gestion Intégrée d’ELIT ainsi qu’à Mr. Amara Ayoub
Abdeldjallil ingénieur Business Intelligence à ELIT pour leurs
chaleureux accueil au sein de l’équipe d’ELIT, Leurs implication, leurs
disponibilités, leurs suivis et leurs nombreux conseils tout au long de
notre stage.
Nous adressons nos remerciements les plus sincères à Mr Balla Amar
pour la gestion administrative du stage de fin d’étude ainsi que les
énormes efforts fournis pour son bon déroulement.
ii
Dédicaces
Avec l’expression de ma gratitude, je dédie ce modeste travail à
tous ceux qui, quels que soient les termes embrassés, je n’arriverais
jamais à leur exprimer mon amour sincère.
À mon ami de toujours Lotfi, mon frère à qui ma mère n'a pas
donné naissance, qui m’a toujours aidé et soutenu dans les
moments les plus difficiles.
DJILLALI
iii
Dédicaces
À ma chère mère à qui je dois un immense respect, celle qui m'a élevé,
qui a battu pour moi, qui a fait aux différentes difficultés de la vie juste
pour qu'elle me voit réussir, avec son amour qui donne sens à la vie,
aucun mot ne peut exprimer la profondeur des sentiments que j'éprouve
pour elle,
À ma chère famille
Mon frère, mes tantes, ma grand-mère qui m'ont toujours encouragé
tout au long de mon parcours ainsi mes chères amis et frères et sœurs
que j'ai connues et qui ont toujours été présents à mes côtés, ainsi
qu’une fille qui est spéciale pour moi et que je remercie dieu qui a croisé
nos chemins,
À mon père qui compte énormément pour moi, et pour qui je porte
beaucoup de fierté et de respect.
ABDELGHANI
iv
Résumé
Sonelgaz, ou Société nationale de l’électricité et du gaz, est le groupe leader de la
production, distribution et du transport de l’électricité et du gaz en Algérie. Le groupe vise à
être parmi les leaders mondiaux dans son domaine, c’est pourquoi il est conscient que la
concurrence est rude et par conséquent l’amélioration continue de son corps sur tous les aspects
s’impose notamment sur un axe très important qu’est la gestion des ressources humaines.
Actuellement, les décideurs de Sonelgaz ne disposent d'aucun système d'aide à la décision sur
la fonction ressources humaines. D’une part, l’élaboration des rapports d’analyse est quasi
manuelle, d'autre part et en raison de l’immense croissance du patrimoine informationnelle de
la fonction ressources humaines, le volume de données de la fonction ressources humaines a
dépassé la barre des deux Térabytes, un chiffre immense pour un traitement manuel ou utilisant
des méthodes classiques, aussi, ces données sont de nature décentralisées et hétérogènes
(structurées, semi-structurées et non structurées). Par conséquent, le processus d’aide à la
décision connaît une lenteur très considérable pouvant aller jusqu’à plusieurs jours, de plus, ce
processus connait un grand nombre d'intervenants, pouvant aller jusqu’à quatre parties
prenantes différentes, causant ainsi un risque d'incohérence et d'insécurité des informations
décisionnelles.
Pour pallier ces problèmes, Sonelgaz veut exploiter ses données sur la RH qui sont à ce jour
mal exploitées pour permettre la prise de la décision la plus appropriées dans les meilleurs
délais en se basant sur des informations fiables.
Pour atteindre les objectifs fixés, nous avons mis en place un système d’aide à la décision conçu
dans un écosystème Big Data, le volume extrêmement grand de données exige l’adoption d’une
telle approche pour résoudre le problème de lenteur ressenti auparavant.
Nous avons centralisé les données dans un lac de données distribuée dans le data center propre
à ELIT en utilisant un processus ELT, un processus ETL, en parallèle, a été mis en place pour
préparer et stocker des données prêtes pour des fins décisionnelles dans une infrastructure
entrepôt de données à l’intérieur du lac de données, nous avons transformé par la suite ces
données distribuées en cube MOLAP en utilisant la technologie MapReduce. A la fin, nous
avons utilisé ces cubes pour générer des rapports et tableaux de bords dans un portail web
accessible à partir de réseau local « LAN » de Sonelgaz.
v
Abstract
SONELGAZ, or National Electricity and Gas Company, is the leading group in the
production, distribution and transport of electricity and gas in Algeria. The group aims to be
among the world leaders in its field, which is why it is aware that the competition is tough and
therefore the continuous improvement of its body in all aspects is essential in particular on a
very important axis that is the management of human resources.
Currently, SONELGAZ decision makers do not have a decision support system on the human
resources function. On the one hand, the preparation of analysis reports is almost manual, on
the other hand and due to the immense growth of the information assets of the human resources
function, the volume of data of the human resources function has exceeded the bar of two
Terabytes, a huge number that manual processing or the conventional methods cannot handle,
also, these data are decentralized and heterogeneous in nature (structured, semi-structured and
unstructured). As a result, the decision support process is very slow, which can take up to
several days, in addition, the reporting process has a large number of stakeholders, up to four
different stakeholders, thus causing a risk of inconsistency and insecurity of decision-making
information.
To meet this need, SONELGAZ wants to use its human resources data, which is currently badly
exploited to provide the necessary and reliable information, thus helping them to take the most
appropriate decisions as quickly as possible.
As such, SONELGAZ entrusted ELIT with the mission of setting up an effective decision
support system to improve the integrity and transparency of the information used to provide
information effectively and as quickly as possible. It is in this context, and with the aim of
centralizing the voluminous data of the HR function, automating the reporting process and
solving the problem of slowness due to the immense amounts of data, that we were entrusted
with the mission of realizing this system.
To achieve the set of objectives, we have implemented a decision support system designed in
a Big Data ecosystem, the extremely large volume of data requires the adoption of such an
approach to solve the problem of slowness felt previously.
We centralized the data in a distributed data lake in ELIT's own data center using an ELT
process, an ETL process, in parallel, was set up to prepare and store data ready for decision
making in an infrastructure data warehouse inside the data lake, we subsequently transformed
this distributed data into a MOLAP cube using MapReduce technology. At the end, we used
these cubes to generate reports and dashboards in a web portal accessible from SONELGAZ's
local network “LAN”.
vi
ملخص
سونلغاز ،أو الشركة الوطنية للكهرباء والغاز ،هي المجموعة الرائدة في إنتاج وتوزيع ونقل الكهرباء والغاز في الجزائر.
تهدف المجموعة إلى أن تكون من بين رواد العالم في مجالها ،بما أنها تدرك أن المنافسة شديدة وبالتالي فإن التحسين
المستمر لهيكلتها في جميع المحاور أمر ضروري ،بشكل خاص على محور حيوي مهم للغاية وهو إدارة الموارد البشرية
في الوقت الحالي ،ال يمتلك اإلطارات في سونلغاز نظام مساعد إلتخاذ القرار بشأن وظيفة الموارد البشرية .من ناحية
يعد إعداد التقارير التحليلية يدويًا تقريبًا ،ومن ناحية أخرى ،وبسبب النمو الهائل لموارد البيانات لوظيفة الموارد البشرية
فقد تجاوز حجم بيانات وظيفة الموارد البشرية شريط اثنين تيرابايت ،وهوعدد ضخم للمعالجة اليدوية أو باستخدام ،
(األساليب الكالسيكية ،لذلك فإن هذه البيانات غير مركزية وغير متجانسة بطبيعتها )منظمة وشبه منظمة وغير منظمة
نتيجة لذلك ،تكون عملية إتخاذ القرار بطيئة للغاية ،وقد تستغرق عدة أيام
كبيرا من المتدخلين ،يصل إلى أربعة متدخلين مختلفين ،مما.
باإلضافة إلى ذلك ،تضم عملية إعداد التقارير عددًا ً
يتسبب في خطر عدم االتساق وعدم األمان في معلومات صنع القرار
للتغلب على هذه المشكالت ،تريد سونلغاز استخدام بيانات الموارد البشرية الخاصة بها والتي يتم استغاللها بشكل غير
كافي حتى اآلن للسماح باتخاذ القرار األنسب في أسرع وقت ممكن بنا ًء على معلومات موثوقة
على هذا النحو ،كلفت سونلغاز إيليت بمهمة إنشاء نظام فعال لدعم إتخاذ القرار لتحسين نزاهة وشفافية المعلومات
المستخدمة و توفير المعلومات بشكل فعال وبأسرع ما يمكن عملية صنع القرار في نظام الموارد البشرية
في هذا السياق ،وبهدف تركيز البيانات الضخمة لوظيفة الموارد البشرية ،وأتمتة عملية إعداد التقارير وحل مشكلة الوقت
بسبب الكميات الهائلة من البيانات ،تم تكليفنا بمهمة تحقيق هذا النظام
لتحقيق األهداف المحددة ،قمنا بتنفيذ نظام مساعد إلتخاذ القرار ،مصمم في نظام بيئي للبيانات الضخمة ،يتطلب الحجم
الكبير للغاية من البيانات اعتماد مثل هذا النهج لحل مشكلة البطء التي شعرت بها سابقًا
،قمنا بتركيز البيانات في بحيرة البيانات الموزعة في مركز البيانات الخاص بـ إيليت باستخدام عملية "إستخراج ،شحن
تحويل " ،تم إعداد عملية "إستخراج ،تحويل ،شحن بالتوازي إلعداد وتخزين البيانات الجاهزة التخاذ القرار في مستودع
بيانات البنية التحتية داخل بحيرة البيانات ،ثم قمنا بعد ذلك بصناعة مكعب موالب إستنادا على هذه البيانات الموزعة
باستخدام تقنية معالج بيانات موزع ماب رديوس
في النهاية ،استخدمنا هذه المكعبات إلنشاء التقارير ولوحات البيانات في بوابة ويب يمكن الوصول إليها من شبكة
الن "المحلية الخاصة بشركة سونلغاز"
الكلمات الرئيسية :نظام معلومات القرار ،القرار ،مستودع البيانات ،لوحة القيادة الموارد البشرية ،نظام
معلومات الموارد البشرية ،بحيرة البيانات ،البيانات الضخمة
vii
TABLE DES MATIERES
I. Synthèses Bibliographiques............................................................... 4
1 La Fonction Ressources Humaines 5
1.1 Définition De La Fonction RH 5
1.2 Evolution De La GRH 5
1.2.1 Époque de la révolution industrielle (19e siècle) 5
1.2.2 Époque du mouvement syndical (proche du XIXe siècle) 6
1.2.3 L'ère de la responsabilité sociale (début du 20e siècle) 6
1.2.4 Ère de la gestion scientifique (1900-1920) 6
1.2.5 L'ère des relations humaines (1930-1950) 7
1.2.6 Ère des sciences du comportement (1950-1960) 7
1.3 Processus Métiers De La Ressources Humaines 7
1.3.1 La gestion des compétences 7
1.3.2 La gestion de la masse salariale 8
1.3.3 Suivi des formations 8
1.3.4 Suivi des recrutements 8
1.3.5 Suivi des conditions de travail 8
1.4 Rôle Stratégique De La GRH En Entreprise 8
1.5 Solutions Informatiques Appliquées A La GRH 11
1.5.1 Les solutions payantes 11
1.5.2 Solutions open sources 12
1.6 Conclusion 12
2 Les Systèmes Décisionnels 13
2.1 Concepts De Base 13
2.2 Objectifs D’un Systeme D’information Décisionnel Dans Une Entreprise 14
2.3 Architecture D’un SID 15
2.3.1 Sources de données 16
2.3.2 ETL 16
2.3.3 Data Warehouse 16
viii
TABLE DES MATIERES
x
TABLE DES MATIERES
3.5 Conclusion 57
xi
TABLE DES MATIERES
xii
TABLE DES MATIERES
xiii
LISTE DES FIGURES
Figure 1 : Gestion des ressources humaines et efficacité organisationnelle : modèle de Tsuiet Gomez-
Mejia (1988) 10
Figure 2 : cartographie des systèmes 14
Figure 3 : Architecture d'un système d'aide à la décision 15
Figure 4 : structure d'un cube multidimensionnel 18
Figure 5 : exemple d'un schéma en étoile 20
Figure 6 : exemple d'un schéma en flocon de neige 20
Figure 7 : exemple d'un schéma en constellation 21
Figure 8 : architecture de HDFS 28
Figure 9 : architecture de la solution lakehouse par databricks 32
Figure 10 : Historique de Sonelgaz 38
Figure 11 : Mission du groupe sonelgaz 39
Figure 12 : Organisation de ELIT 41
Figure 13 : Organisation de la DPGI 43
Figure 14 : Modules de NOVA 45
Figure 15 : Architecture de NOVA 46
Figure 16 : BPMN Génération de rapport de société 47
Figure 17 : BPMN génération de rapport au niveau de la holding 48
Figure 18 : Architecture de la solution d'integration du système sur NOVA 50
Figure 19 : Architecture de la solution de l'intégration sur un ERP back-office 51
Figure 20 : architecture de la solution choisi 58
Figure 21 : schéma de la dimension temps 62
Figure 22: schéma de la dimension classement 63
Figure 23: schéma de la dimension contrat 63
Figure 24: schéma de la dimension GSP 63
Figure 25: schéma de la dimension Organisation 64
Figure 26: schéma de la dimension sexe 64
Figure 27: schéma de la dimension âge 64
Figure 28 : schéma de la table fait suivi effectif 67
Figure 29 : schéma en étoile du volet suivi de l'effectif 67
Figure 30 : schéma de la table fait suivi des recrutements 69
Figure 31 : schéma en étoile du volet suivi des recrutements 70
Figure 32 : schéma de la dimension type de formation 72
Figure 33 : schéma de la dimension spécialité formation 72
Figure 34 : schéma de la dimension thème de formation 72
Figure 35 : schéma de la dimension sous thème de formation 73
Figure 36 : schéma de la dimension moyen de formation 73
Figure 37 : schéma de la table fait suivi des formations 74
Figure 38 : schéma en étoile du volet suivi des formations 74
Figure 39 : schéma de la dimension rubrique paie 76
Figure 40 : schéma de la table fait suivi de la masse salariale 77
Figure 41 : schéma en étoile du volet suivi de la masse salariale 78
Figure 42 : schéma de la dimension motif absence 79
xiv
LISTE DES FIGURES
xv
LISTE DES TABLEAUX
SI : Systèmes d’informations
xvi
LISTE DES SIGLES ET ABREVIATIONS
BI : Business Intelligence
xvii
INTRODUCTION GENERALE
Introduction générale
Contexte
Le Groupe Sonelgaz est l’opérateur historique dans le domaine de la fourniture des
énergies électrique et gazière en Algérie. Ses missions principales sont la distribution, le
transport et la production de l’électricité et du gaz par canalisations. Son nouveau statut de «
Groupe » acquis depuis quelques années et qui a permis la création de nombreuses filiales et
structures fonctionnelles, qui se distinguent par leurs différents métiers et activités
professionnelles.
En janvier 2009, l’application des systèmes d’information confiée à la Direction Générale des
Systèmes d’Information de la Sonelgaz, a été élevé en société par actions, Dénommée «EL
DJAZAIR INFORMATION TECHNOLOGY » aussi appelée "ELIT".
ELIT, filiale du Groupe Sonelgaz, a pour mission de réaliser un système d'information global
pour les sociétés de SONELGAZ, en premier lieu, et pour le marché national, en second lieu.
Aujourd’hui, les entreprises courent vers l’innovation et l’optimisation de leurs activités
quotidiennes, et ce pour atteindre un avantage concurrentiel et créer de la valeur ajoutée.
ELIT fait face à plusieurs défis notamment, l’exploitation et l’analyse de données
opérationnelles qu’elles détiennent dans leurs centres de données pour tirer des informations
utiles et pertinentes servant de base à la prise de décision.
De ce fait, l’activité de prise de décisions est amenée à exploiter l’ensemble des données
collectées par l’entreprise afin de définir les mesures et les indicateurs pour aider les décideurs
dans ce processus.
À ce titre, SONELGAZ veut exploiter les données des ressources humaines qui sont à ce jour
faiblement exploitées dans la prise de décision. La raison pour laquelle SONELGAZ a confié
à ELIT la mission de mettre en place un système efficace d’aide à la décision permettant
d’améliorer la qualité, l’intégrité et la transparence des informations utilisées pour éclairer
d’une manière efficace et optimale le processus décisionnel du système RH.
C’est dans ce contexte que nous a été confiée la mission de réaliser l’environnement d’aide à
la décision.
Problématique
SONELGAZ, ou Société nationale de la distribution, production et transport de
l’électricité et du gaz, est le groupe leader de la distribution, production, et transport de
l’électricité et du gaz en Algérie contant 39 sociétés et plus de 100000 employés.
1
INTRODUCTION GENERALE
Le groupe vise à être parmi les leaders mondiaux dans son domaine, c’est pour cela qu’il œuvre
à l’amélioration continue de son corps sur tous les aspects notamment sur un axe très important
qu’est la gestion des ressources humaines.
De ce fait, Sonelgaz a développé un système d’information nommé NOVA qui couvre les
opérations de gestion des ressources humaines mais dispose d’aucun moyen d’aide à la
décision.
Jour après jour, Le patrimoine informationnel dans toutes les sociétés de Sonelgaz a vu une
immense croissance, générant ainsi un volume colossal de données concernant la fonction
ressources humaines de Sonelgaz.
De ce fait, l’entreprise se retrouve à gérer un très grand volume de données (dépassant la barre
de deux Térabytes) de nature décentralisé et hétérogènes ou on trouve des données structurées,
semi-structurées et non structurées (photos, contrats de travail, demandes de démission …etc.),
ces immenses données volumineuses nécessitent l’utilisation des nouvelles avancées
technologiques du domaine du traitement de données pour permettre de les gérer efficacement.
Par conséquent, les décideurs trouvent de plus en plus de difficulté voire une quasi-
impossibilité de juger la politique de GRH du groupe.
Par conséquent et compte tenu de ce qui précède les décideurs, ne disposant d’aucun
système d’aide à la décision, se trouvent dans l’impossibilité de choisir, d’agir dans le bon
sens et de prendre la bonne décision au bon moment.
Objectifs
Dans le cadre du projet proposé par ELIT, et Afin de surmonter les problèmes posés
précédemment, une solution doit être mise en place en tenant compte des objectifs suivants :
1. Centraliser l’ensemble des données volumineuses dans un système de stockage central et
unique permettant ainsi un accès plus facile et rapide.
4. Mettre en place une architecture logicielle optimisée pour le traitement des données de très
grands volumes pour résoudre le problème de lenteur dû à la quantité de données.
5. Fournir aux décideurs et aux analystes la possibilité de naviguer dans les données et
d'effectuer des analyses appropriées concernant les processus RH de l’organisation.
6. Déterminer les mesures adéquates afin de permettre d’analyser les volets RH existants
(effectif, départs, embauches, masse salariale, absences et formation)
2
INTRODUCTION GENERALE
Organisation du document
Afin de bien présenter notre travail, nous avons divisé le présent document en quatre
parties principales :
Partie 1 : Synthèse Bibliographique
Cette partie est purement théorique, elle met en lumière les systèmes d’aide à la décision, les
entrepôts de données ainsi que les différents concepts métiers liés aux ressources humaines.
Partie 2 : Etude de l’existant Et Analyse Des Besoins
Le premier chapitre de cette partie présente l’existant organisationnel de l’entreprise à travers
l’étude des différentes structures et évolutions depuis sa création.
Le deuxième chapitre évoque l’ensemble des besoins fonctionnels et non fonctionnels du
nouveau système, les principaux objectifs du système à mettre en œuvre, l’ensemble des axes
à traiter et les acteurs que le système doit être en mesure de couvrir. Enfin, nous exposons les
différentes solutions possibles, leurs comparaisons et à la fin le choix de la solution la plus
adéquate.
Le troisième chapitre présente l’existant fonctionnelle de l’entreprise à travers les différents
processus métiers recensés et les systèmes opérationnels et décisionnels existants.
Partie 3 : Conception
Dans cette partie, nous détaillons la conception de notre solution globale énoncée dans la partie
précédente. Nous présentons en premier lieu l’architecture générale de la solution avant de
passer à la conception détaillée de chaque composant donc la conception de la zone
d’entreposage, la conception de la zone d’alimentation et la conception des cubes
dimensionnels ainsi que la conception de la zone de restitution.
Partie 4 : Réalisation et mise en œuvre
C’est la dernière partie de notre travail dans laquelle nous présentons la mise en œuvre du
projet. Nous l’abordons en présentant les outils et technologies utilisés avant de s’étaler sur la
réalisation et le déploiement de la solution.
Nous Clôturons le mémoire avec une conclusion générale qui présentera le bilan du travail
ainsi que les perspectives de la solution mises en place.
3
Première Partie
I. Synthèses Bibliographiques
4
Chapitre 1
1 La Fonction Ressources Humaines
Le concept d'entreprise en tant que « groupe social » a été introduit et développé au début
du 20e siècle, et comprenait de véritables dirigeants tels que le français Henri Fayol.
Dans cette perspective, la gestion des ressources humaines correspond à une fonction très
importante de l'entreprise.
Selon [VALLEMONT, 1999] « La gestion des ressources humaines est une fonction, qui se
base sur plusieurs axes principaux, notamment : le suivi des formations employées, et
l'application des droits au travail, la gestion des carrières, les relations interpersonnelles et la
gestion des paies.
En se basant sur les propos précédents, dans la fonction RH, l’être humain est une source de
valeur et ceci est dû à ses différentes forces intellectuelles et physiques.
[GAUDEN,1994] quant à lui affirme que la gestion des ressources humaines a pour but de
gérer l’effectif humain en mettant l’employé le plus adapté dans l’emploi le plus adapté au
moment le plus adapté,
Et donc d’après GAUDEN, Nous présentons les objectifs principaux de la GRH dans ce qui
suit :
1. La délimitation avec précision de l’effectif de l’organisation.
2. La distribution optimale de l’effectif présent dans les postes organisationnels.
[DA MATHA, 2000] affirme que la gestion des ressources est devenue actuellement, le garant
de l’évolution de l'économie au sein de l’organisation.
6
1.2.5 L'ère des relations humaines (1930-1950)
L’accent a été mis davantage sur le facteur humain au travail et sur ce qui a affecté le
comportement des gens dans les années 1920. À cette époque, il était fortement recommandé
d'utiliser la psychologie tout en faisant des tests personnels, des entretiens, des mesures
d'attitude ainsi que l'apprentissage.
Fondamentalement, la période a été définie comme « l’ère de la psychologie industrielle » en
1924. Après des recherches approfondies menées par les enseignants de l’université Harvard
Business, on a observé que la productivité des travailleurs dépend des facteurs sociaux au
travail, de la formation et de l'influence des groupes, de la nature du leadership et de la
supervision et enfin, de la communication.
Il a été conclu que la direction doit maintenir les relations humaines au travail ainsi que les
conditions physiques pour augmenter la productivité.
1.2.6 Ère des sciences du comportement (1950-1960)
Suivant la loi qui dit “des ouvriers heureux sont de bons ouvriers”, les scientifiques du
comportement suggèrent que le comportement d'un humain suit l'aspect mis en évidence.
Diverses méthodologies de recherche sont utilisées pour comprendre la nature du travail ainsi
que les personnes dans l'atmosphère de travail.
Voici quelques-unes des principales conclusions tirées par le spécialiste du comportement qui
sont données ci-dessous :
1. Les gens aiment leur travail, mais il est nécessaire d'établir certains objectifs
afin qu'ils puissent travailler correctement pour les atteindre en temps
opportun. Cela augmente également leur satisfaction au travail.
2. Les employés génèrent un maximum de créativité par rapport à ce dont ils ont
besoin. Mais leur potentiel n'est pas utilisé de manière appropriée.
3. L'utilisation du potentiel inexploité d'un employé est le devoir des
gestionnaires.
4. Un environnement doit être créé pour que les gens puissent contribuer de la
meilleure façon possible et cela doit être fait par le gestionnaire.
La paie se résulte après la fusion de deux facteurs qui sont l'augmentation pour l'employé et la
diminution pour l'organisation, pour cela la paie de nos jours et divisée en deux parties l'une
est fixe et l'autres varie selon les compétences des employés, majoritairement les employés
cadres supérieures bénéficient des primes spéciales notons les automobiles de services…etc.
1.3.3 Suivi des formations
En ces temps incertains, la capacité des employés est au cœur de l'évolution. La pression
de l’externe demande un degré considérable en termes d'élasticité. Là, il n'y a plus
d'organisation simple, cryptée, il est possible Pour atteindre cette flexibilité, La solution est
claire. Soit recruter des nouvelles compétences, au risque du mauvais choix et ainsi d’autres
conflits comme l'intégration dans une équipe de projet et le risque de voir les nouveaux
collaborateurs partir quelques mois plus tard, soit opter pour la formation des ressources
existantes.
Les principales missions de la gestion de la formation sont :
8
capacité de se distinguer de leurs principaux concurrents et d'être en mesure de trouver un
avantage concurrentiel durable.
Mais qu'entendons-nous par avantage concurrentiel durable ? Si l'on se réfère à la théorie des
ressources stratégiques [McMahan, Virick et Wright, 1999], Nous pouvons dire que c'est un
avantage concurrentiel durable seulement lorsqu'il représente un atout précieux, difficile à
imiter et irremplaçable.
Selon cette théorie, l'utilisation des avantages traditionnels tels que la technologie, le capital et
les marchés ne peut plus suffire à assurer à l’organisation un avantage d'affaires durable. Au
mieux, ces trois éléments représentent des avantages relatifs qui ne sont pertinents que dans
une logique à court terme.
Les entreprises d'aujourd'hui peuvent facilement obtenir les capitaux dont elles ont besoin pour
se développer sur toutes les grandes places financières du monde, et elles peuvent également
bénéficier de la même technologie que leurs principaux concurrents. Et donc, si le capital, la
technologie et le marché ne peuvent assurer cet avantage concurrentiel durable, alors quelles
stratégies devra adopter l’entreprise qui lui permettrait de rivaliser avec ses principaux
concurrents ? Selon la théorie des ressources stratégiques, « si une entreprise veut obtenir un
réel avantage concurrentiel, elle doit faire un pari stratégique sur sa structure sociale »
[Boudreau et Milkovich, 1999]
Plus précisément, cette théorie considère que, contrairement à d'autres actifs organisationnels,
la gestion des ressources humaines constitue une ressource précieuse, rare, difficile à imiter, et
qui ne peut être remplacée par aucun autre élément de production. Ces quelques propriétés
inhérentes à la GRH semblent dès lors suffisantes pour faire de la GRH une fonction
administrative hautement stratégique de l'entreprise, imputable principalement des grands
objectifs sociaux, économiques, financiers et politiques de l'organisation.
De plus, les adaptations suivantes des modèles Tsui et Gomez-Mejia montrent l'importance de
la gestion de la fonction ressources humaines en tant qu'entrée pour atteindre les objectifs fixés
par l'entreprise.
Conséquemment, la GRH peut être définie comme « système organisationnel conçu pour
obtenir un avantage concurrentiel durable grâce aux personnes » [Snell, Yound et Wright,
1996].
9
Figure 1 : Gestion des ressources humaines et efficacité organisationnelle : modèle
de Tsuiet Gomez-Mejia (1988)
10
1.5 Solutions Informatiques Appliquées A La GRH
De par la grande importance de la gestion de ressources humaines citées auparavant,
plusieurs solutions informatiques ont été créées pour automatiser et optimiser les différents
processus de la GRH. Nous présentons ci-dessous quelques exemples :
1.5.1 Les solutions payantes
Nous présenterons dans ce qui suit les solutions les plus connues du marché d’après
[Gilles Exbrayat et al, 2010], en identifiant les caractéristiques principales d’un SIRH et qui
sont :
1. Les caractéristiques logicielles
2. La taille de l’organisation
3. Le type de l’hébergement
4. Les informations sur le produit
5. La compatibilité avec les plateformes
11
Compatibilité sur les plateformes
Application mobile oui non oui Oui
Site web oui oui oui Oui
Tableau : comparaison entre les solutions SIRH leaders [Gilles Exbrayat et al, 2010]
1.6 Conclusion
Dans cette partie, nous avons mis l’accent sur les principes de base liés à la fonction
RH en définissant en premier lieu cette notion et comment celle-ci a évolué à travers l’histoire.
Ensuite nous avons éclairé les processus métiers de la gestion RH, pour par la suite, figurer
l’impact essentiel de ce domaine sur le plan stratégique d’une entreprise ainsi que sa valeur
pour l’organisation. Et nous avons terminé par une présentation des outils informatiques les
plus connus dans le marché qui traitent de la gestion automatique du capital humain.
Dans le chapitre suivant, Nous allons exposer les systèmes d’informations décisionnels ainsi
que tous les concepts et technologies en relation avec ce domaine.
12
Chapitre 2
2 Les Systèmes Décisionnels
Aujourd'hui, nul ne peut nier l'importance des données en entreprise. Les données sont
devenues de nos jours le moteur de la relation client, de la stratégie commerciale et de tout axe
de travail d’une entreprise.
Et donc, se doter d'un système d'information décisionnel est considéré comme un moyen
important, que nous pouvons même qualifier d’indispensable, pour parvenir à une gestion
efficace, faire face à une concurrence féroce sur le marché, assurer une innovation continue,
fidéliser et écouter les avis des clients et bien plus encore.
13
Figure 2 : cartographie des systèmes
On retrouve comme types de systèmes :
1. Opérationnel qui gère le côté métier de l’entreprise.
2. Pilotage qui contrôle, commande et établit les objectifs à atteindre.
3. Un système d’information qui sert à gérer les informations dans l’entreprise.
Selon Ferragu et al., nous avons aussi deux grandes catégories de système d’information
[Ferragu et al., 2013] :
Système d’information opérationnel (SIO) qui a pour objectif premier de servir de support à
la mise en œuvre des activités d’une série de processus métier.
Système d’information décisionnel (SID) par opposition à un SIO dont l’objectif est
l’exécution d’un processus métier, un SID a pour but l’évaluation de la performance des
processus. Il a pour vocation de faciliter le processus de prise décision en donnant des réponses
à des questions telles que : quelle fut l’évolution du chiffre d’affaires et de la marge brute pour
chaque catégorie de produits entre le premier semestre de cette année et celui de l’année
précédente ?
15
2.3.1 Sources de données
Elles sont nombreuses, variées, distribuées et autonomes. Elles peuvent être internes
(bases de production, ERP (Enterprise Resource Planning), Archives, Feuilles de calcul...) ou
externes (Internet, bases des partenaires) à l'entreprise. [TESTE ,2000]
2.3.2 ETL
Il permet l’extraction des données à partir des sources de données. Ces données subissent une
transformation qui peut être un nettoyage, formatage ou standardisation afin de les charger dans
l’entrepôt de données. [ALPHONSE Carlier, 2013]
2.3.3 Data Warehouse
Inmon présente l’entrepôt de données dans son bouquin considéré la référence dans la
discipline “Building the Data Warehouse” de la façon suivante : « L’entrepôt de données est
un ensemble de données stockée d’une façon pour qu’elles soient intégrées, évolutives dans le
temps, orientées sujet et non volatiles structurées pour la base de l’assistance à la décision »
[Inmon et al., 2001].
L'entrepôt de données est aussi un ensemble de méthodes, techniques et outils rassemblant des
données issues de sources multiples au sein d'un modèle cohérent à des fins d'analyse et
d'assistance à la décision. L'architecture et la logistique du système d'information utilisant un
Data Warehouse transforme le flux de données opérationnelles en informations décisionnelles.
Un entrepôt de données est caractérisé par ce qui suit :
● Orienté sujet : l'entrepôt de données est composé des faits les plus consistants de
l'organisation
● Intégrée : la structure sera alimentée par une diversité de sources, pour assurer
l'intégrité, un processus de contrôle d'incohérence est obligatoire.
● Évolutive dans le temps : afin de pouvoir comparer et prendre de bonnes décisions les
systèmes doivent stocker toutes les valeurs d’une donnée et son évolution à travers le
temps.
● Non volatiles : la structure doit toujours garder les données antérieures même dans le
cas d'une actualisation, ainsi la modification sur les données est interdite.
16
1. Faciliter l’accès aux données, en rassemblant plusieurs informations et
données, dans une seule interface généralement sous formes de graphiques
analytiques.
2. Mieux distinguer et visualiser l’écart entre l’exigence et le résultat.
3. Prédire les imprévus, les risques et les opportunités de l’entreprise.
4. Accompagner l’état de l’entreprise en temps réel
2.3.4.1.3 Type des tableaux de bord
Selon Christophe Legrenzi, Il existe trois types principaux de tableaux de bords [Christophe
Legrenzi, 2011] :
Tableau de bords stratégiques : Ils permettent de suivre la stratégie à long terme de
l'entreprise à l'aide de facteurs de succès critiques. Ils sont généralement complexes dans leur
création, ont un impact à l’échelle de l’entreprise et sont principalement utilisés par les cadres
supérieurs.
Tableau de bord analytique : Un Dashboard analytique est un modèle qui contient des
données massives entretenues par les analystes afin de soutenir les dirigeants. Ils fournissent à
une entreprise une vue d'ensemble complète des données, la direction intermédiaire étant un
élément crucial de son utilisation.
2.3.4.1.4 KPI indicateurs clés de performances
L’indicateur de performance, KPI (Key performance Indicator), est parmi les composantes
principales d’un tableau de bord. Il se définit selon Fernandez comme étant Une mesure ou une
liste de mesures dirigées vers un aspect important de la performance globale de l’organisation
[Fernandez, 2013]. Il existe trois types de KPI selon Alain Fernandez toujours [Fernandez,
2013], classés par type d’information à transmettre et par l’objectif pour lequel ils ont été
utilisés :
1. Indicateurs d'alarme : Ils indiquent des défauts ou un état anormal du
système qui nécessitent des actions correctives basées sur des seuils
prédéfinis.
2. Indicateurs d'efficacité et d'équilibre : ils servent à mesurer l'état actuel du
système en fonction d'objectifs établis et peuvent entraîner des ajustements
des objectifs ou des stratégies.
3. Indicateurs attendus : Ils renseignent sur la demande future et permettent
de prévoir et de réfléchir sur les choix et les décisions.
18
2. Possibilité d'agréger les informations en fonction des besoins des utilisateurs.
3. Procéder des données de synthèse selon différents axes d'analyse.
2.4.3 Niveaux de présentation des données
Selon Teste, deux grands niveaux de présentations de données dans la modélisation
multidimensionnelle sont distingués : [Teste, 2009]
▪ Niveau conceptuel : il s'agit de la description de la base de données quel que soit le
choix de la technologie.
▪ Niveau logique : Il s'agit de la définition de la base de données utilisant la
technologie informatique (objets, relations ...).
2.4.3.1 Niveau conceptuel
À ce niveau, nous allons introduire les concepts multidimensionnels les plus courants dans la
littérature.
Conceptuellement, les cubes de données sont transformés en fonction de faits et de dimensions
[Kimball et Ross, 2008] :
▪ Fait : Il s'agit du concept clé sur lequel repose le processus décisionnel, il représente
le sujet ou sujet analysé et est associé à des valeurs appelées métriques.
▪ Dimensions : Ce sont les données de paramètres utilisées pour analyser l’activité de
prise de décision. Les dimensions peuvent être organisées dans une structure
hiérarchique, qui signifie divisée en plusieurs niveaux. Le niveau de dimension
représente la granularité ou le niveau de détail des mesures agrégées pour chaque
dimension. Cette dimension a également des attributs pour décrire ses instances
(membres).
▪ Dimension conforme : Lorsque plusieurs données sont utilisées par des faits dans
plusieurs magasins de données, nous appelons cela une dimension de conformité ou
partagée. Ses avantages sont : Cohérence entre différentes tables de faits, intégration
ce qui permet à l'entrepôt de données de fonctionner comme un seul bloc unifié, et
productivité en facilitant l'expansion de l'entrepôt d'une itération de développement
à une autre.
19
Le schéma en étoile : Chaque dimension est représentée par une table de dimension et les
mesures sont représentées par une table de faits, et la table de faits utilise une clé étrangère
pour faire référence à chaque table de dimension.
20
Figure 7 : exemple d'un schéma en constellation [Corr et Stagnitto 2013]
2.4.3.2 Niveau logique
Cette description de la fondation multidimensionnelle considère les aspects techniques de la
modélisation. Il existe trois modèles principaux : R-OLAP, M-OLAP et H-OLAP. Avant
d'introduire ces modèles, nous définissons d'abord le concept d'OLAP.
▪ OLAP
Kimball définit OLAP comme « une activité globale pour interroger et présenter du texte et
des données numériques contenues dans un entrepôt de données, en particulier le
questionnement dimensionnel et le style de présentation» [Kimball, 2011]
▪ R-OLAP
Les développeurs d'entrepôts de données utilisent le plus souvent ce type de système. [Khouri,
2008] a déclaré : « Le système ROLAP (Relational Online Analytical Processing) utilise un
SGBD relationnel pour stocker les données du cube. Chaque dimension du cube est figurée
sous la forme d'une table appelée table de dimension. Chaque fait est figuré par une table de
faits. Les mesures sont mémorisées dans la table de faits. La table contient la valeur de la
mesure ainsi que la clé de la table de dimension »
▪ M-OLAP
Le système d'analyse et de traitement multidimensionnel en ligne (MOLAP) met en œuvre des
ensembles de données multidimensionnelles sous la forme de tableaux multidimensionnels
(SGBD multidimensionnel). Chaque dimension du tableau multidimensionnel figure une
dimension du cube. La mesure référence les informations mémorisées dans chaque cellule du
cube. Cette solution de mémorisation assure un temps de réponse très minime" [Khouri, 2008].
▪ H-OLAP
Ce système utilise le système R-OLAP et M-OLAP pour définir un nouveau modèle en
profitant des avantages des deux.
[Khouri, 2008] le présente ainsi : « Le système HOLAP (Hybrid Online Analytical Processing)
est un modèle qui préserve les données couramment dans un SGBD multidimensionnel,
[Khouri, 2008]
Comparaison des modèles
Ce tableau met en évidence les avantages et les inconvénients de chaque modèle. Ce tableau
comparatif est tiré du travail de [Khouri, 2008].
21
Modèle Avantages Inconvénients
1. Enregistrement de données
massives. Coûteux en termes de
2. Exploitation des capacités performance
R-OLAP
analytiques d’un SGBD
relationnel
1. Redondance des
données
M-OLAP Temps d'accès très court
2. Consommation de
l’espace
Expertise Les utilisateurs n’ont pas besoin d’être bon en Les utilisateurs doivent avoir un
technique informatique pour générer des rapports et background technique pour
tableau de bord qui peuvent être publié vers un pouvoir générer les rapports
portail web
Les coûts initiaux, le coût total de possession (TCO) et le coût total du changement
(TCC) de la BI Agile sont nettement inférieurs aux coûts de la BI traditionnelle car
Coûts le cycle de développement est plus long et coûteux en termes de ressources humaines
et matérielles.
Outils La majorité des outils Self-services BI ne sont Majorité des outils sont Open
pas gratuits Source
24
de profils personnels, opinions sur les forums en ligne, tout le contenu des réseaux sociaux,
blogs, tweets, etc. En plus des types de données standard, tous peuvent être inclus dans le Big
Data [Kulin et al., 2015]
2.6.1.3 Vélocité
Pour de nombreuses applications, la vitesse domine le volume. Il est très important
d'avoir des informations en temps réel afin de pouvoir prendre des décisions plus précises et
flexibles. Le streaming de données signifie que les données se déplacent à grande vitesse et en
temps réel. L'enjeu est de récupérer les données en temps réel et de les optimiser jusqu'à
l'extraction des connaissances. Plus les données arrivent rapidement, plus la réponse à la
demande est rapide [Kulin et al., 2015]
2.6.2 Data Mining
L'exploration de données et la BI peuvent sembler différentes mais il y a beaucoup de
chevauchements à la fois dans les résultats et dans la manière dont elles peuvent contribuer au
succès des entreprises. L'exploration de données fait partie intégrante de l'intelligence d'affaires
lorsqu'il s'agit de nettoyer, normaliser et utiliser les données d'entreprise. Cela contribue
également à la capacité d’utiliser ces données pour faire des prédictions précises et fiables qui
peuvent permettre d'opérer à un niveau plus élevé que de simplement se fier aux données
historiques dont l’entreprise dispose et de deviner les résultats futurs.
Les entreprises peuvent utiliser l'exploration de données pour trouver les informations dont
elles ont besoin et utiliser l'intelligence d'affaires et l'analyse pour déterminer pourquoi elles
sont importantes [Parth Wazurkar et al, 2017].
2.6.3 L’intelligence Artificielle
Les applications de Business Intelligence ont été un formidable atout pour les
organisations, leur permettant de mieux comprendre le Big Data. Cependant, les temps
changent et les besoins des organisations évoluent. Ils ont non seulement besoin d'un logiciel
de renseignement capable de traiter et de présenter des données sous forme de résultats visuels,
mais ils ont également besoin d'un logiciel capable de prédire les tendances, d'anticiper des
informations exploitables en temps réel et de traiter une variété de données. C'est là que
l'intelligence artificielle entre en jeu, car l'intelligence artificielle permet aux organisations de
décomposer le Big Data en niveaux granulaires, ce qui permet aux organisations de prendre
plus facilement des décisions plus intelligentes [Parth Wazurkar et al, 2017].
2.6.4 Data Lake
Un Data Lake est un référentiel de données permettant de stocker une très large quantité
de données brutes dans le format natif pour une durée indéterminée. Cette méthode de stockage
permet de faciliter la cohabitation entre les différents schémas et formes structurelles de
données, généralement des blocs d’objets ou des fichiers. Il offre une grande quantité de
données pour augmenter les performances analytiques et l'intégration native.
[MILOSLAVSKAYA, 2016].
Un Data Lake est comme un grand conteneur qui ressemble beaucoup à de vrais lacs et rivières
et c’est d’ici que vient l'appellation “Lac de données “. Tout comme dans un lac, vous avez
plusieurs affluents qui arrivent, un lac de données contient des données structurées, des données
non structurées, de machine à machine, des journaux qui circulent en temps réel.
Au sein d’un seul Data Lake, toutes les données de l’entreprise sont stockées. Les données
brutes, y compris les copies des données système source, côtoient les données transformées.
25
Ces données sont ensuite utilisées pour établir des rapports, pour visualiser les données, pour
l’analyse de données ou pour le Machine Learning. [MILOSLAVSKAYA, 2016].
Cette technologie qu’est les lacs de données est essentiellement basée sur le NoSQL.
2.6.5 Les principales différences entre Data Lake et un Data Warehouse en
environnement BI
Le tableau ci-dessous présente une comparaison entre le lac de données et l'entrepôt de
données [ALEX GORELIK , 2019] :
Data Lake Data Warehouse
En règle générale, le schéma est défini En général, le schéma est défini avant
après le stockage des données. Cela offre le stockage des données. Nécessite du
une grande agilité et une facilité de travail au début du processus, mais
Position du capture des données, mais nécessite un offre des performances, une sécurité et
schéma travail à la fin du processus. une intégration.
27
2.6.6.1.2 Architecture HDFS
Le système de fichier distribué de Hadoop, Alias HDFS, a une architecture maître /
esclave. Un cluster HDFS se compose d'un seul NameNode, un serveur maître qui gère l'espace
de noms du système de fichiers et régule l'accès aux fichiers par les clients. En outre, il existe
un certain nombre de DataNodes, généralement un par nœud dans le cluster, qui gèrent le
stockage attaché aux nœuds sur lesquels ils s'exécutent. HDFS expose un espace de noms de
système de fichiers et permet aux données utilisateur d'être stockées dans des fichiers. En
interne, un fichier est divisé en un ou plusieurs blocs et ces blocs sont stockés dans un ensemble
de DataNodes.
Le NameNode exécute les opérations d'espace de noms du système de fichiers telles que
l'ouverture, la fermeture et le changement de nom des fichiers et des répertoires. Il détermine
également le mappage des blocs aux DataNodes. Les DataNodes sont chargés de traiter les
demandes de lecture et d’écriture des clients du système de fichiers. Les DataNodes effectuent
également la création, la suppression et la réplication de blocs sur instruction du NameNode.
[Dhruba Borthakur, 2007]. La figure ci-dessous montre l’architecture de HDFS [Dhruba
Borthakur, 2007] :
2.6.7 MAPREDUCE
2.6.7.1 Définition
MapReduce est un framework logiciel et un modèle de programmation utilisé pour
traiter le big data.
Le programme MapReduce fonctionne en deux phases, à savoir, Map et Reduce. Les tâches de
mappage traitent du fractionnement et du mappage des données tandis que la réduction des
tâches mélange et réduit les données, Hadoop est capable d'exécuter des programmes
MapReduce en multi-langage.
28
Les programmes de MapReduce dans le Cloud Computing sont de nature parallèle, ils sont
donc très utiles pour effectuer une analyse de données à grande échelle en utilisant plusieurs
machines dans le cluster, grâce à HDFS. [J. Dean, et al., 2008]
2.6.7.2 Fonctionnement de MapReduce
Nous présentons ci-dessous selon [Johannes Passing, 2012] les étapes d'exécution d’un job
MapReduce :
1. Une tâche Map est créée pour chaque division, qui exécute ensuite la fonction
Map pour chaque enregistrement de la division.
2. Il est toujours avantageux d'avoir plusieurs fractionnements car le temps
nécessaire pour traiter un fractionnement est petit par rapport au temps
nécessaire pour le traitement de l'ensemble de l'entrée. Lorsque les
fractionnements sont plus petits, il est préférable que le traitement soit
équilibré car nous traitons les fractionnements en parallèle.
3. Cependant, il n'est pas non plus souhaitable d'avoir des fentes de trop petite
taille. Lorsque les fractionnements sont trop petits, la surcharge liée à la
gestion des fractionnements et à la création de tâches de mappage commence
à dominer le temps total d'exécution du travail.
4. Pour la plupart des travaux, il est préférable de créer une taille de division
égale à la taille d'un bloc HDFS (qui est de 64 Mo, par défaut).
5. L'exécution des tâches de mappage entraîne l'écriture de la sortie sur un
disque local sur le nœud respectif et non sur HDFS.
6. La raison du choix du disque local sur HDFS est d'éviter la réplication qui a
lieu en cas d’opération Store de HDFS.
7. La sortie de la carte est une sortie intermédiaire qui est traitée par des taches
de réduction pour produire la sortie finale.
8. Une fois le travail terminé, la sortie de la carte peut être supprimée. Ainsi, le
stocker dans HDFS avec réplication devient excessif.
9. En cas de défaillance d'un nœud, avant que la sortie du Map ne soit
consommée par la tâche de réduction, Hadoop ré exécute la tâche du Map sur
un autre nœud et recrée la sortie du Map.
10. Réduire la tâche ne fonctionne pas sur le concept de localité des données. Une
sortie de chaque tâche de carte est transmise à la tâche de réduction. La sortie
du Map est transférée vers la machine sur laquelle la tâche de réduction est
en cours d'exécution.
11. Sur cette machine, la sortie est fusionnée puis transmise à la fonction de
réduction définie par l'utilisateur.
12. Contrairement à la sortie du Map , la sortie de réduction est stockée dans
HDFS (la première réplique est stockée sur le nœud local et les autres
répliques sont stockées sur des nœuds hors rack). Donc, écrire la sortie de
réduction.
29
2.6.8 Spark Apache Processing Engine
2.6.8.1 Définition
Apache Spark est un environnement de traitement parallèle open source pour exécuter
des applications d'analyse de données à grande échelle sur des ordinateurs en cluster. Il peut
gérer à la fois des analyses par lots et en temps réel et des charges de travail de traitement de
données.
Spark Core, le cœur de l’environnement qui fournit des fonctionnalités de transmission, de
planification et d'E / S de tâches distribuées, offre aux programmeurs une alternative
potentiellement plus rapide et plus flexible à MapReduce, le framework logiciel auquel les
premières versions de Hadoop étaient liées. Les développeurs de Spark affirment qu'il peut
exécuter des travaux 100 fois plus rapidement que MapReduce lorsqu'ils sont traités In Memory
et 10 fois plus rapidement sur disque [James G. Shanahan, et al. 2015]
2.6.8.2 Fonctionnement
Selon [James G. Shanahan, et al. 2015], Apache Spark peut traiter les données de
divers repository de données, y compris le système de fichiers distribués Hadoop (HDFS), les
bases de données NoSQL et les data stores relationnelles, tels qu'Apache Hive.
Spark prend en charge le traitement IN Memory pour améliorer les performances des
applications d'analyse Big Data, mais il peut également effectuer un traitement conventionnel
sur disque lorsque les ensembles de données sont trop volumineux pour tenir dans la mémoire
système disponible.
Le moteur Spark Core utilise l'ensemble de données distribué résilient, ou RDD, comme type
de données de base. Le RDD est conçu de manière à cacher une grande partie de la complexité
de calcul aux utilisateurs. Il agrège les données et les partitionne sur un cluster de serveurs, où
elles peuvent ensuite être calculées et déplacées vers un autre magasin de données ou exécutées
via un modèle analytique. L'utilisateur n'a pas à définir où les fichiers spécifiques sont envoyés
ou quelles ressources de calcul sont utilisées pour stocker ou récupérer des fichiers. Spark se
compose de 4 bibliothèques essentielles qui sont :
1. SparkSQL : pour interroger l’ensemble des données à travers des requêtes.
2. Spark streaming : qui permet de faire une analyse de données en temps réel,
3. MLLib : une librairie qui permet de concevoir des modèles de machine
Learning,
4. GraphX : qui contient un ensemble d’algorithmes du parallèle graph
computing.
2.6.9 Combinaison Entrepôt ET Lac De Données : Le Data Lakehouse
Un data lakehouse est un nouveau paradigme de gestion des données ouvertes conçu
par DATABRICKS qui combine les capacités des lacs de données et des entrepôts de données,
permettant la BI et les algorithmes de machine Learning sur toutes les données.
Les entrepôts de données ont une longue histoire dans les applications d'aide à la décision et
de business intelligence, mais n'étaient pas adaptés ou étaient coûteux pour traiter des données
non structurées, des données semi-structurées et des données avec une grande variété, vitesse
et volume.
Les lacs de données ont ensuite émergé pour gérer les données brutes dans une variété
de formats sur un stockage bon marché pour la science des données et l'apprentissage
30
automatique, bien qu'ils manquaient de fonctionnalités critiques du monde des entrepôts de
données: ils ne prennent pas en charge les transactions, ils n'appliquent pas la qualité des
données et leur manque de cohérence / isolation, il est presque impossible de mélanger des
ajouts et des lectures, et des travaux par lots et en continu.
Les équipes de données assemblent par conséquent ces systèmes pour permettre la BI et le ML
sur les données de ces deux systèmes, ce qui entraîne des données en double, des coûts
d'infrastructure supplémentaires et des problèmes de sécurité.
Les data lakehouses sont activés par une nouvelle conception de système ouvert :
implémentation de structures de données et de fonctionnalités de gestion de données similaires
à celles d'un entrepôt de données, directement sur le type de stockage à faible coût utilisé par
les data Lake. Les fusionner en un seul système signifie que les équipes de données peuvent se
déplacer plus rapidement car elles peuvent utiliser les données sans avoir besoin d'accéder à
plusieurs systèmes. Les data lakehouses garantissent également que les équipes disposent des
données les plus complètes et les plus à jour disponibles pour les projets de science des
données, d'apprentissage automatique et d'analyse commerciale [Michael Armbrust et al.
,2021]
2.6.10 Architecture D’un Data Lakehouse
Un data lake house est un paradigme qui combine le meilleur des deux mondes : le
monde des entrepôts de données et celui des lacs de données.
Son architecture repose sur le Stockage singulier (Single Store) de toutes les données dans un
système consolidée tout en permettant le streaming, la business intelligence , data science et le
machine Learning.
Plus en détails, l’architecture d’un data lakehouse selon son concepteur DATABRICKS
comprend plusieurs couches [Michael Armbrust , et al. ,2021], et qui sont :
1. Lac de donnée :
L’architecture de stockage d’un data lakehouse repose sur l’architecture d’un lac de
donnée qui stocke toutes les données de l’entreprise (donnée structurée, non structurée et semi
structurée).
2. Delta Lake :
Delta Lake est une solution proposée en open source par Databricks. Il s’agit d’un outil
permettant de rendre les données des Data Lakes plus fiables grâce à une épaisseur de stockage
supplémentaire.
Delta Lake est une couche de stockage ajoutée par-dessus le Data Lake afin d’offrir des sources
de données fiables pour le Machine Learning et la science des données et la Business
Intelligence. L’outil passe en revue toutes les données entrantes, et s’assure qu’elles
correspondent au schéma mis en place par l’utilisateur. Ceci permet de s’assurer que les
données soient fiables et correctes. Une transaction ACID est ajoutée à chaque opération
effectuée, afin de s’assurer que les opérations soient toujours correctes. Ainsi, il n’est plus
possible d’être confronté à une erreur ou à des données incomplètes. Ses principales missions
sont d’ajouter des transactions, réguler la qualité des données ainsi que ses versions, ajouter
des indexes et convertir les données brutes stockées dans le data lake vers le format Delta Lake.
3. Delta Engine :
31
C’est un moteur à haute performance qui a pour but de servir les requêtes analytiques
ainsi que les besoins en termes de machine learning du data lake house, Databricks a très
récemment introduit Delta Engine qui englobe les capacite du serveur BIG DATA Spark tout
en offrant un moteur de requêtes à haute performance pour une variété de besoins.
Ce moteur inclut un optimiseur de requêtes et un moteur d’exécution de requêtes vectorisées
pour accélérer le data workload.
Le schéma ci-dessous illustre l’architecture d’un data lakehouse selon DATABRICKS [Ali
Ghodsi et al, 2021] :
Figure SEQ Figure \* ARABIC 9 : Architecture d’un lakehouse selon Data Bricks
Figure 9: architecture de la solution lakehouse par databricks [Ali Ghodsi et al. ,
2021]
32
Posséder les mêmes données dans le data warehouse et le data lake créerait une redondance et
donc une inefficacité ou même des conflits .Un data lake house unifie toutes les données dans
un seul support.
2. Coûts de stockage réduit :
Le coût de stockage dans un lakehouse est équivalent à celui du stockage dans un data
lake, ce dernier utilise des systèmes de fichiers Big Data tels que Hadoop pour stocker des
données sur du matériel bon marché.
3. Coordination entre équipe BI et analytique :
Les analystes métier utilisent des sources de données intégrées comme un entrepôt ou
un data mart. Les data scientists travaillent avec les lacs, en utilisant des techniques d'analyse
pour parcourir les données non triées. Les deux équipes n'ont pas lieu d'interagir et leur travail
se chevauche souvent, voire se contredit. Avec un data lake house, les deux équipes travaillent
à partir du même référentiel.
4. Bon maintien des données :
la stagnation est un problème majeur dans les lacs de données, qui peuvent rapidement
devenir des marécages de données s'ils ne sont pas entretenus. Les entreprises déversent
souvent leurs données dans un lac sans les cataloguer correctement, ce qui rend difficile de
savoir si les données ont expiré. La structure lakehouse apporte une plus grande organisation
au Big Data et aide à identifier les données excédentaires par rapport aux besoins.
5. Support extensible et maintenable pour le futur :
L'analyse des données est encore une technologie émergente, avec de nouveaux outils
et techniques émergent chaque année. Certains d'entre eux peuvent uniquement être
compatibles avec les lacs de données, tandis que d'autres peuvent uniquement fonctionner avec
des entrepôts. La structure flexible du Lakehouse signifie que les entreprises peuvent se
préparer pour l'avenir de toute façon.
Ce paradigme bien qu’il présente de nombreux points positifs possède son petit côté
obscur, et qui s’illustre principalement dans [Dave Wells, 2021] :
1. Difficile de gérer la structure Monolithe :
L'approche tout-en-un d'un lakehouse présente certains avantages, mais elle pose également
certains problèmes. Les structures monolithiques peuvent être rigides, difficiles à entretenir et
parfois elles peuvent entraîner un service médiocre pour tous les utilisateurs. Les architectes et
les concepteurs préfèrent généralement une approche plus modulaire qu'ils peuvent configurer
pour différents cas d'utilisation.
2. La technologie absente :
La vision ultime implique beaucoup d'apprentissage automatique et d'intelligence
artificielle. Ces technologies devront évoluer davantage avant que les lakehouse n'atteignent
les capacités proposées.
33
3 Conclusion
A travers cette étude documentaire, nous avons parcouru les concepts de base liés à notre
projet.
Nous avons commencé par présenter le métier sur lequel nous travaillons, et qui est la fonction
ressources humaines que nous avons définie, évoqué son historique, les processus métiers qui
la composent ainsi que son importance pour les entreprises d’aujourd’hui, et nous avons
finalisé par une présentation des diverses solutions informatiques qui traitent ce domaine
d’étude.
Nous avons par la suite entamé la deuxième partie de notre recherche bibliographique, et qui
se focalise sur les systèmes décisionnels que nous avons commencé par définir ainsi que tous
les concepts de base en relation avec ces derniers, nous sommes passés ensuite à la description
de l’architecture techniques ainsi qu’au objectifs de ces systèmes , nous avons par la suite
présenter les différents types de systèmes décisionnelles en exposant un comparatif détaillées
de ces derniers avant de finaliser cette partie par une présentation des nouvelles tendances
technologiques dans ce domaine en mettant l’accent sur les nouveaux outils et concepts utilisés
de nos jours.
Aussi et à travers cette étude, nous avons compris que la BI est adaptée aux données structurées
de l’entreprise et que son rôle principal est de répondre à des requetés d’analyse descriptive.
Ces défis associés à la BI classique ont conduit à rechercher des solutions modernes, flexibles
et tournées vers l’avenir, d’où, l’´émergence de la BI moderne.
Les systèmes de Business Intelligence classiques ne répondent malheureusement plus
complètement aux exigences en termes de performance et ceci à cause de la grosse quantité de
données à manipuler, et c’est de là qu’est venu le besoin d’utiliser l’avancée technologique de
la Big Data avec la Business Intelligence , beaucoup de progrès ont été fait dans le monde de
l’intégration des systèmes d’aide a la décision au Big Data , c’est devenu un domaine mature
que de plus en plus d’entreprises adoptent.
Et c’est d’ailleurs l’approche que nous allons adopter pour répondre à la problématique posée
dans ce stage de fin d’étude.
34
Deuxième Partie
35
2 ETUDE DE L’EXISTANT ET ANALYSE DES BESOINS
Chapitre 1
Présentation de l’organisme d’accueil
1.1 Introduction
Dans ce chapitre, nous présentons le groupe SONELGAZ, son historique, son
organisation, ses activités et ses missions. Nous abordons également la filiale informatique
ELIT, celle qui a encadré le projet tout en mettant l’accent sur le département Intégration et
Maintenance des SI qui nous a accueillis.
36
2 ETUDE DE L’EXISTANT ET ANALYSE DES BESOINS
37
2 ETUDE DE L’EXISTANT ET ANALYSE DES BESOINS
2011 La Holding
2004, Le groupe industriel
Sonelgaz
Juin 2002, SONELGAZ SPA
38
2 ETUDE DE L’EXISTANT ET ANALYSE DES BESOINS
Sociétés en Participation : SONELGAZ s’est investie dans des domaines clés à haute
valeur technologique tels que les télécommunications ou la maintenance de turbines à gaz dans
le but de :
▪ Intégrer la technologie et le savoir-faire ;
▪ Introduire l’expertise managériale dans les domaines de la gestion ;
▪ Réaliser ses investissements grâce à l’apport de capitaux.
1.2.3 Missions
SONELGAZ a pour missions principales la production, le transport et la distribution de
l’électricité ainsi que le transport et la distribution du gaz par canalisations.
39
2 ETUDE DE L’EXISTANT ET ANALYSE DES BESOINS
40
2 ETUDE DE L’EXISTANT ET ANALYSE DES BESOINS
Direction
Générale
Structures Structures
Assistant DG Assistant SIE Secrétariat
Métier Support
Division Administration
Direction exploitation des SI
des marches
Direction Réseaux et
Service Communication
télécommunication
Figure SEQ Figure \* ARABIC 12 : Organisation de ELIT
Figure 12 : Organisation de ELIT
41
2 ETUDE DE L’EXISTANT ET ANALYSE DES BESOINS
▪ Étudier les besoins en systèmes d’information et mettre en œuvre les solutions adaptées
pour l’ensemble des Sociétés du Groupe SONELGAZ
▪ Organiser et planifier la réalisation des projets, depuis leur conception jusqu’à leur
achèvement (Conception, développement, tests, intégration, migration de données,
etc.), en s’appuyant sur des compétences internes ou externes ;
▪ Assurer la maintenance corrective et évolutive des systèmes d’information développés
▪ Préparer la société à placer, à termes, ses produits sur le marché
▪ Assurer la veille technologique.
Cette direction a la macrostructure schématisée dans la figure ci-après :
1.4 Conclusion
Avec ses décennies d’activité dans le domaine de l’énergie et une réputation qui dépasse
les frontières du pays, le groupe SONELGAZ représente un acteur majeur et incontournable
de l’économie nationale. Cette brève présentation nous a permis de connaître un peu plus le
groupe SONELGAZ, notamment dans sa nouvelle configuration de holding industriel.
Par ailleurs, cette présentation nous a fait comprendre la structuration et l’organisation de
Sonelgaz et plus particulièrement celle de la DPGI, et nous a permis de nous pencher sur
l’informatique du groupe désormais gérée, au niveau national, par la filiale « ELIT ».
Dans le chapitre suivant, une étude détaillée de l’existant décisionnel du groupe, dans sa
fonction de Ressources humaines, sera présentée.
43
2 ETUDE DE L’EXISTANT ET ANALYSE DES BESOINS
Chapitre 2
2 Identification Des Besoins
2.1 Introduction
L’analyse des besoins est une étape cruciale qui consiste à recenser les besoins des
parties prenantes, et ceux en termes de besoins fonctionnels ou bien techniques.
Dans ce chapitre, on présente la démarche suivie pour enfin aboutir aux besoins qui serviront
de guide pour l’étape de conception de la solution retenue et satisfaisante pour les parties
prenantes.
Cette étude nous permet de voir si c’est possible de répondre aux besoins exprimés par les
utilisateurs ou non, et ceci en termes de disponibilité de données nécessaires pour établir les
analyses en question. Pour cela, nous avons effectué une étude sur la base de données du
système opérationnel NOVA ainsi que des fichiers Excel alimentés manuellement par l’équipe
ressources humaines de chaque société et nous avons identifié les tables nécessaires pour
répondre aux exigences des décideurs. Les sources de données de la fonction RH de Sonelgaz
contiennent aussi énormément de données non structurées et semi-structurées, plus
spécialement :
1. Des photos d’identité sous format Jpeg et Png
2. Des documents administratifs tels que des contrats de travail, demandes de
démission, dossiers maladies...etc. Et qui sont sous un format Docx ou PDF.
Ces données semi et non structurées vont être exploite dans des applications d’apprentissage
automatiques et de Machine Learning, des exemples d’utilisation pourraient être la prédiction du
candidat adéquat au poste à partir des CV.
▪ Les utilisateurs finaux : ce sont les décideurs que le système assiste dans leur prise de
décision.
Poste Description
1. PDG du groupe Faire des analyses et consultation des rapports sur toutes les
données des sociétés du groupe.
2. Comité de la Direction du
Capital Humain (DCH)
PDG des sociétés. Faire des analyses spécifiées et consultation des rapports sur la
société pour laquelle il travaille.
46
2 ETUDE DE L’EXISTANT ET ANALYSE DES BESOINS
Chapitre 3
3 Analyse De L’existant
3.1 Introduction
L’analyse de l’existant représente sans doute l’une des étapes les plus importantes dans
notre projet car elle nous permet de faire les premiers pas pour mieux répondre aux besoins des
décideurs.
Partant de ce constat, nous allons essayer, à travers ce chapitre, de présenter une analyse
aussi complète que possible de l’existant décisionnel du groupe dans le cadre de sa fonction
ressources humaines. Ce chapitre a aussi pour but de faire connaître les procédures et les
méthodes de Reporting et de prise de décision, ainsi que les éventuelles lacunes qui peuvent
exister que nous tenterons de pallier grâce à notre solution.
47
2 ETUDE DE L’EXISTANT ET ANALYSE DES BESOINS
48
2 ETUDE DE L’EXISTANT ET ANALYSE DES BESOINS
A l’heure actuelle, NOVA est déployé au niveau de toutes les sociétés du groupe et il
est en état de production.
3.2.2 Technologies utilisées
Le groupe Sonelgaz suit la politique open source pour le développement de ses projets
informatiques.
Pour réaliser le système d’information NOVA, ELIT, la filiale informatique en charge
du développement et de la maintenance de NOVA, a opté pour les outils libres suivants :
1. La plateforme Java EE pour le développement du système NOVA.
2. Le SGBD PostgreSQL pour le stockage de données.
3. Le serveur qui héberge l’application est sous la distribution linux CentOS.
50
2 ETUDE DE L’EXISTANT ET ANALYSE DES BESOINS
51
2 ETUDE DE L’EXISTANT ET ANALYSE DES BESOINS
3.3.4 Conséquences
1. Augmenter le risque des pertes de données, le taux d’erreur et diminue la fiabilité des
informations.
2. Le procédé d’élaboration des rapports de synthèse prend beaucoup de temps et mobilise
un nombre d’agents considérables (jusqu’à 2jours et quatre parties prenantes comme
expliqué en dessus dans le processus).
3. Dans le cas de non-possibilité de génération des rapports, les décideurs peuvent se
retrouver obligés de prendre des décisions stratégiques sans avoir bonne base
informationnelle sur laquelle s’appuyer.
4. Des décisions stratégiques peuvent être prises en se basant sur de mauvaises bases si
des rapports ne peuvent pas être générés pour soutenir les décideurs.
5. Les rapports générés peuvent ne pas répondre aux besoins des décideurs en termes de
visualisation.
Modules
existants Aide à la
décision Sources de
dans NOVA
données utilisées
par NOVA
Cette approche présente plusieurs avantages mais aussi des inconvénients ou limites que nous
allons éclaircir dans le tableau suivant :
Avantages Limites
Les utilisateurs sont déjà familiers avec le Le système Nova comporte plusieurs failles et
système Nova bug
Données déjà présentes dans le support de Le système Nova n’est plus aussi performant
stockage de Nova avec évolution du volume de données qu’il traite
Le coût de réalisation du projet n’est pas élevé Nova n’est pas maintenable en cas de
défaillance d’un des modules
La base de données utilisée par Nova n’est pas
adaptée aux requêtes décisionnelles et
analytiques
Tableau 6 : avantages et limites de la solution
▪ Avis du client
Le client n’est pas motivé par la réalisation de cette solution, car l’entreprise envisage de
substituer dans les années à venir le système NOVA par un autre système opérationnel plus
performant et qui ne présente pas les lacunes citées auparavant dans NOVA.
3.4.2 Solution 2
La deuxième proposition stipule la « mise en place d’un système Business intelligence
classique et d’un module reporting qui sera intégré dans un ERP back office »
La deuxième solution que nous proposons est de mettre en place toute la structure du système
Business intelligence dans un système à part que nous appellerons « S1 ». « S1 » comportera
tous les traitements et préparation des données dans la base de données qui comportera un
entrepôt de données alimentées par « S1 ». La partie visualisation de données sera de son côté
gérée dans un module « Reporting » d’un nouveau ERP back office connecté à une base de
données centralisée qui contiendrait toutes les données de l’entreprise et donc la partie
alimentée par « S1 » utile dans le module Reporting.
Voici ci-après un schéma qui décrit le fonctionnement du système après implémentation de
cette solution :
54
2 ETUDE DE L’EXISTANT ET ANALYSE DES BESOINS
▪ Avis du client
Le client trouve la solution trop coûteuse en termes de temps et d’argent, la mise en place d’un
nouveau ERP back office qui regrouperait toutes les fonctions de l’entreprise est un très grand
projet, que l’entreprise ne peut se permettre de lancer juste pour intégrer un module reporting
dedans.
55
2 ETUDE DE L’EXISTANT ET ANALYSE DES BESOINS
3.4.3 Solution 3
La troisième proposition stipule la « mise en place d’un système d’aide à la décision
dans un environnement Big Data avec reporting dans un portail web »
La troisième solution que nous proposons est de mettre en place un système d’aide à la décision
dans un environnement Big Data. Cette proposition est envisageable à cause du volume
massive de données croissant de jour en jour (le nombre total d’employés en 2021 est supérieur
à 100000 employés, le nombre total d’employés inscrit dans les sources de données du système
actuel approximative les 2000000 employés, le volume de données de ces derniers dépasse la
barre des 2 Térabytes)
Les données seront stockées dans un data Lake de façon semi-structurée et distribuées en
utilisant le système de fichier distribuée HDFS dans le data center propre à ELIT. La politique
de sécurité de Sonelgaz empêche de stocker les données dans un cloud payant privé comme
« Amazon Web Services » ou « Microsoft Azure ».
Ces données seront extraites et chargées dans un processus ELT à partir des sources de données
du système d’information Nova dans le Datalake pour des fins propre au machine Learning (
en effet, Sonelgaz envisage de mettre en place des modèles de traitement automatiques et de
prédiction applicables aux volets de la fonction ressources humaines (nombre de démission ,
choix automatique de la nouvelle recrue parmi les candidats ..etc.)), en parallèle , un processus
ETL se chargera d’extraire , transformer et charger Les données prêtes dans une infrastructure
entrepôt de données à l’intérieur du lac de données et qui sera mieux adapté aux requêtes
décisionnelles, ceci se passe au sein d’une couche logicielle au-dessus de la couche de stockage
HDFS dans le serveur Hadoop. Les données seront après traitées de façon parallèle « Parallel
Processing » en utilisant le « Processing Engine » MapReduce pour être transformées en cube
MOLAP à partir du schéma en étoile conçu auparavant.
Les données traitées seront par la suite utilisées dans un portail web hébergé en local qui
contiendra toute la partie visualisation de données et Reporting et qui sera accessible à partir
du réseau local « LAN » de Sonelgaz.
Cette approche présente plusieurs avantages mais aussi des inconvénients ou limites que nous
allons éclaircir dans le tableau suivant :
Avantages Limites
56
2 ETUDE DE L’EXISTANT ET ANALYSE DES BESOINS
3.4.4 Choix
Notre choix en tant qu’ingénieur s’est porté sur la dernière solution et qui stipule « mise en
place d’un système d’aide à la décision dans un environnement BigData avec reporting dans
un portail web back office ». Comme cité auparavant, cette solution fournit plusieurs avantages
qui permettront de répondre par excellence aux besoins des parties prenantes du projet.
3.5 Conclusion
Cette étude nous permet d’avoir une vision générale des procédures d’élaboration de
rapports et de consolidation des données. Elle constitue aussi le point de départ pour définir le
périmètre du projet en général et de l’étude des besoins en particulier. Elle fait ressortir les
insuffisances du système actuel en soulignant les points faibles ou les goulots d’étranglements
de ce dernier.
Nous avons constaté, à travers cette étude, que le système opérationnel actuel répond
majoritairement aux besoins opérationnels du groupe mais reste très limité pour ce qui concerne
l’aide à la décision.
57
Troisième Partie
58
3 CONCEPTION DE LA SOLUTION
Chapitre 1
1 Architecture Générale De La Solution
1.1 Introduction
Dans cette partie, nous présentons l’architecture générale du système cible d’aide à la
décision dans l’environnement Big Data qui nous permettra de répondre aux besoins évoqués
auparavant par l’entreprise. Nous procéderons dans ce qui suit à la définition en détails de
chaque composant du système par son architecture, fonctionnement et objectif
d’implémentation ainsi que les relations et flux entre les composants de notre solution.
La figure montre que le système cible de notre solution se compose de plusieurs composants
qui sont installés dans plusieurs nœuds, dans ce qui suit on va décrire chaque composant en
mettant le point sur son objectif ainsi que son fonctionnement.
60
3 CONCEPTION DE LA SOLUTION
61
3 CONCEPTION DE LA SOLUTION
62
3 CONCEPTION DE LA SOLUTION
Chapitre 2
2 Conception Du Secteur D’entreposage
2.1 Introduction
Dans cette partie, nous présenterons l’architecture de la zone de stockage se trouvant
sur la couche physique du DATA LAKE.
Cette couche étant l'élément central de notre système de prise de décision. A l'issue de cette
étape, nous obtenons les mesures et les dimensions sur lesquelles ces mesures seront analysées.
63
3 CONCEPTION DE LA SOLUTION
64
3 CONCEPTION DE LA SOLUTION
Nous commençons par donner une brève présentation du volet, suivie par la granularité et les
dimensions spécifiques à ce dernier, nous finirons par présenter les mesures ainsi que la table
de fait du volet, pour bien évidemment à la fin présenter le schéma en étoile qui traite les
besoins de ce volet.
2.3.1 Volet Suivi Effectif
2.3.1.1 Présentation du volet
Les décideurs attachent une grande importance à la gestion du personnel car les
ressources représentent l'épine dorsale du groupe Sonelgaz. En effet, la gestion du personnel
est un facteur de compétitivité, qui permet de fournir une information précise sur la main-
d’œuvre pour évaluation. Prendre en compte les besoins du groupe en termes de quantité et de
qualité pour éviter tout déséquilibre Cela peut affecter le fonctionnement normal de diverses
activités. Grâce à l'analyse de cette composante, il est possible de suivre l'évolution de
l'ensemble de l'effectif selon plusieurs axes et de détecter les sureffectifs ou un personnel
insuffisant.
2.3.1.2 Granularité
Le nombre d’agents d’une organisation ayant un contrat, appartenant à un groupe
socioprofessionnel (GSP), classement, d’un certain âge et sexe, actif compté à une date donnée.
2.3.1.3 Dimensions nécessaires pour l’analyse :
En fonction des besoins précédemment définis, nous pouvons déterminer les dimensions qui
participent Dans ce volet. Ces dimensions sont extraites à partir des axes d’analyse exprimés
par les Décideurs.
Requête Axe d’analyse Dimension présente
66
3 CONCEPTION DE LA SOLUTION
67
3 CONCEPTION DE LA SOLUTION
69
3 CONCEPTION DE LA SOLUTION
70
3 CONCEPTION DE LA SOLUTION
71
3 CONCEPTION DE LA SOLUTION
2.3.3.2 Granularité
Suivie du nombre d’agents formés et de l’ensemble des formations par type, spécialité,
thème, sous thème et langue de formation ainsi que le fournisseurs des moyens utilisés durant
la formation dans un délai bien défini.
2.3.3.3 Dimensions nécessaires pour l’analyse
En fonction des besoins précédemment définis, nous pouvons déterminer les dimensions qui
participent dans ce volet. Ces dimensions sont extraites à partir des axes d’analyse exprimés
par les Décideurs.
Requête Axe d’analyse Dimension
présente
National ou International : Analyse
selon le type de la formation.
Suivie de l’ensemble des Type
formations nationale ou
internationale par spécialité, Spécialité : Analyse selon la spécialité
moyen de financement , thème dont traite la formation Spécialité
, sous thème, organisation de la
formation dans un délais défini Thème : analyse selon le thème de la
formation
Thème
Tableau XII : tableau contenant les requêtes tirées depuis les besoins du client sur les
formations avec les dimensions nécessaires
D’après notre étude, les dimensions nécessaires pour le bon fonctionnement de ce volet sont :
1. Dimension type formation
2. Dimension Spécialité
3. Dimension thème
4. Dimension sous thème
5. Dimension temps
72
3 CONCEPTION DE LA SOLUTION
6. Dimension organisation
7. Dimension moyen financement
74
3 CONCEPTION DE LA SOLUTION
75
3 CONCEPTION DE LA SOLUTION
76
3 CONCEPTION DE LA SOLUTION
Tableau 12 : tableau contenant les requêtes tirées sur l'analyse de la masse salariale
depuis le besoin du client
Les dimensions qui permettent de répondre aux requêtes sont :
1. La dimension temps
2. La dimension classement
3. La dimension contrat
4. La dimension GSP
5. La dimension organisation
6. La dimension Paie.
Dans les titres qui suivent nous exposerons les dimensions avec leurs attributs ainsi que la table
des faits.
2.3.4.4 Description des attributs des dimensions
La dimension Paie : Cette dimension est très considérable dans le suivi de la masse salariale,
elle consiste à faire apparaître les différentes rubriques qui apparaissent lors du calcul de la paie
(frais de transports, charges, primes…etc).
77
3 CONCEPTION DE LA SOLUTION
78
3 CONCEPTION DE LA SOLUTION
79
3 CONCEPTION DE LA SOLUTION
Sexe Sexe
Tableau 13 : tableau contenant les requêtes sur le suivi des heures de travail qui
comble le besoin du client
2.3.5.4 Description des attributs des dimensions
1. La Dimension temps
2. La dimension Contrat
3. La dimension GSP
4. La dimension Organisation
5. La dimension motif absence
6. La dimension Sexe
2.3.5.5 La dimension Motif absence
Cette dimension est très considérable dans le suivi du temps de travail, elle permet une analyse
selon le motif d’absence.
80
3 CONCEPTION DE LA SOLUTION
81
3 CONCEPTION DE LA SOLUTION
82
3 CONCEPTION DE LA SOLUTION
Organisation Organisation
Tableau 14 : tableau d'analyse des requetes du suivi des départs avec les dimensions
nécessaires
1. La Dimension temps
2. La dimension Contrat
3. La dimension GSP
4. La dimension Organisation
5. La dimension Sexe
6. La dimension Motif Départ
83
3 CONCEPTION DE LA SOLUTION
84
3 CONCEPTION DE LA SOLUTION
2.4 Conclusion
85
3 CONCEPTION DE LA SOLUTION
Chapitre 3
3 Conception Du Secteur D’alimentation
3.1 Introduction
La zone d’alimentation de notre système cible repose sur un processus ELT (Extraction,
Chargement et Transformation en français).
L’ELT est le processus qui consiste à extraire des données d'une ou plusieurs sources et à les
charger dans un système de stockage cible. Au lieu de transformer les données avant qu'elles
ne soient écrites, L’ELT tire parti du système cible pour effectuer la transformation des données.
C’est-à-dire que les données seront vérifiées, nettoyées et puis agrégées après leur chargement
dans le système de stockage cible. Une telle approche est adoptée Parce qu'elle tire parti des
performances du système de stockage cible (beaucoup plus performant que celui source étant
distribué)
Dans ce chapitre, nous allons présenter notre conception des processus ELT et ETL pour
l’alimentation du DATALAKE ainsi que l'infrastructure entrepôt de données y’appartenant.
86
3 CONCEPTION DE LA SOLUTION
Figure SEQFigure
Figure48
\* :ARABIC 48processus
BPMN du : BPMN du processus ELT
ELT
3.3.1 Extraction
Après une étude approfondie des sources de données qui alimentent notre système cible,
nous passons à l'étape d’extraction des données en relation à la fonction Ressources humaines.
Dans cette étape, toutes les données présentes dans les sources quel que soit leur type
(Structurée, semi-structurées ou non structurées) sont prélevées pour préparer les prochaines
étapes du processus.
3.3.2 Chargement
Cette étape consiste à charger les données extraites précédemment dans le data lake qui
est la couche de stockage physique de notre système cible.
Au lancement du processus, le données extraites sont comparés aux données déjà présentes dans
le DATALAKE , les données qui s'avèrent non existantes dans HDFS seront toutes chargées
87
3 CONCEPTION DE LA SOLUTION
au sein du lac de données , ce qui créera un énorme Dataset pouvant être utilisé dans les
systèmes décisionnelles ainsi que les modèles de traitement de données.
3.3.3 Transformation
Les données, dans le format stocké dans HDFS, ne peuvent être utilisés pour des fin
décisionnelles et ceux pour plusieurs raisons :
▪ Le Data Lake contient des données structurées, semi-structurées ainsi que non
structurées, et seules les données structurées peuvent être utilisées pour des fins
décisionnelles.
▪ Les requêtes analytiques contiennent majoritairement des agrégats, et ce genre de
requêtes n’est possible que sur une couche de stockage relationnelle.
Et c’est pour ces raisons que nous optons pour la création d’une couche de données sous forme
d’un datawarehouse au sein du lac de données contenant des données relationnelles pouvant
être agrégées et utilisées pour des fins analytiques.
88
3 CONCEPTION DE LA SOLUTION
Chapitre 4
4 Conception De La Zone De Restitution
4.1 INTRODUCTION
Dans ce chapitre, nous introduisons la conception de la zone de restitution, la dernière
La hiérarchie constitue l'interface visuelle entre le système décisionnel et l'utilisateur final Et le
système. Cette zone permet aux utilisateurs d'exploiter facilement les données d’une manière
simple Nous avons mis en œuvre des ensembles de cube multidimensionnelles OLAP pour
chaque volet, qui peuvent effectuer une analyse multidimensionnelle et nous avons préparé des
rapports d'activités selon les besoins et les exigences utilisateurs.
89
3 CONCEPTION DE LA SOLUTION
N3 remunirationcenter
N4 Society
Dimension N1->ALL N1 Libelle_Motif_Inac
Motif_inactivité
Dimension N1->ALL N1 Libelle_Motif_Abs
Motif_absence
Dimension N1->ALL N1 Libelle_theme
theme
Dimension N1->ALL N1 Libelle_sous_theme
Sous_theme
Dimension N1->ALL N1 Libelle_Motif_depart
Motif_depart
Dimension N1->ALL N1 Type_Contrat
Contrat
Dimension N1->ALL N1 Libelle_GSP
GSP
Dimension N1->ALL N1 Sexe
Sexe
Dimension N1->ALL N1 Libelle_paie
Paie
Dimension N1->ALL N1 Age
Âge
Dimension N1->ALL N1 Libelle_classement
Classement
Dimension N1->ALL N1 Libelle_type_formatio
n
Type_formatio
n
Dimension N1->ALL N1 Libelletypebesoin
Type_besoin
Dimension N1->ALL N1 Libellespecialite
Specialite
Tableau 15 : niveaux hiérarchiques des dimensions
90
3 CONCEPTION DE LA SOLUTION
Dans le tableau ci-dessous, les cubes dimensionnels réalisés avec leurs dimensions et
mesures sont représentés :
91
3 CONCEPTION DE LA SOLUTION
dim_classement
Volet suivi des heures de travail
suivi des heures de travail Nombre d'employés dim_temps
absents
dim_organisation
dim_sexe
dim_motif_absence
dim_gsp
dim_contrat
Volet suivi des départs
Suivi des départs Nombre de demissions dim_temps
dim_organisation
dim_motif_depart
dim_age
dim_contrat
dim_gsp
dim_sexe
Volet suivi des formations
Suivi des formations Nombre de formations dim_temps
Nombre d’agents formés dim_organisation
dim_theme
dim_sous_theme
dim_type_formation
dim_type_besoin
dim_specialite
Tableau 16 : la structure des cubes MOLAP conçu pour l'analyse
92
3 CONCEPTION DE LA SOLUTION
Volet Rapports
1. Effectif permanent par GSP, Bureau gestionnaire et par période.
2. Effectif inactif par GSP, par Bureau gestionnaire et par période.
3. Effectif inactif par motifs, par Bureau gestionnaire et par
période.
Suivi de
l’effectif 4. Effectif par contrat (permanents et temporaires), par Bureau
5. Effectif par bureaux gestionnaires et par période.
93
3 CONCEPTION DE LA SOLUTION
94
3 CONCEPTION DE LA SOLUTION
4.4 Conclusion
Dans ce chapitre, nous avons détaillé la phase de conception de la solution et ses
différentes étapes, nous avons au début présenter l’architecture globale de la solution en
détaillant le fonctionnement de chaque composant ainsi que les interaction inter-composants,
avant de passer aux détails des étapes de la conception à savoir : la conception des zones
d’entreposage, d’alimentation et de restitution.
95
3 CONCEPTION DE LA SOLUTION
En se basant sur le travail réalisé dans ce chapitre, nous entamerons la phase de mise en œuvre
dans le prochain chapitre.
96
Quatrième Partie
97
4 REALISATION ET MISE EN OEUVRE
Chapitre 1
1 Présentation Des Technologies Utilisées
1.1 Introduction
Dans cette partie, nous allons parler des outils utilisés pour mettre en place notre solution
proposée avec les différentes étapes partant de la première phase qu’est le chargement du lac
de données par ELT et ETL à la dernière qu’est le reporting.
Les choix que nous avons faits concernant les outils reposent principalement sur la stratégie
open source de “ELIT” ainsi que les résultats des recherches et comparaison entre outils.
Dans Apache Sqoop étant donné que chaque table de la base sera
stockée comme un fichier java qui s’appelle “mappers” dans le SGF
puis l’outils assure l'écriture dans hdfs, les mappers seront construit
après avoir utilisé le connecteur JDBC à la base de données, cet outil Figure SEQ Figure \*
offre aussi la possibilité d'exporter les données de “HDFS” a une autreARABIC
source de50
données,
: logo dans
de
apache
ce cas la migration vers le traditionnelle entrepôt de données est facilement sqoop
gérable.
98
4 REALISATION ET MISE EN OEUVRE
Malgré la différence entre le fonctionnement, spark sql peut importer les données vers HDFS,
mais apache sqoop est plus approprié pour la migration car il est spécialement conçu pour
migrer les données entre SGBD et HDFS, notons que le nombre des mappers est spécifié par
l’utilisateur dans sqoop ainsi le parallélisme est géré automatiquement, spark sql est largement
utilisé pour le traitement des requêtes et des données en parallèle.
1.3.2 Couche de stockage :
La couche de stockage physique de notre solution est sous la forme d’un lac de données.
Ici seront stockées toutes les données (structurées, semi-structurées ainsi que non structurées)
chargées à partir des sources des données existantes par le processus ELT. Le Data Lake sera
distribué sur plusieurs nœuds “Data Node” et qui contiendront des données répliquées.
En se basant sur les caractéristiques citées en dessus sur le type de données ainsi que le type du
support de stockage, ainsi que la stratégie open source suivie par ELIT, nous proposons ce
comparatif des meilleurs outils utilisés pour répondre à ce besoin :
1.3.2.1 Comparaison des outils créant un lac de données
99
4 REALISATION ET MISE EN OEUVRE
100
4 REALISATION ET MISE EN OEUVRE
Caractéristiques générales
Editeur Talend Microsoft Pentaho
Corporation
Année de création 2012 2014 2004
Communauté sur Faible Grande Moyenne
internet
Facilité Facile Facile Facile
d’utilisation
Interface Oui Oui Oui
graphique
Open Source Oui Non Oui
Caractéristiques techniques
Compatible avec
les technologies Big
Data Oui Oui NON
Talend Open Studio For Big Data est un outil gratuit et open source
pour traiter les données très facilement sur un environnement Big
Data. Nous disposons de nombreux composants Big Data
disponibles dans Talend Open Studio, qui nous permettent de créer
et d'exécuter des jobs Hadoop simplement par un simple glisser-
déposer de quelques composants Hadoop.
Figure SEQ Figure \* ARABIC
52 : logo de l'outil talend open
studio
101
4 REALISATION ET MISE EN OEUVRE
De plus, nous n'avons pas besoin d'écrire de grandes lignes de codes MapReduce.
Talend Open Studio Big data nous aide à le faire avec les composants qui y sont présents. Il
génère automatiquement du code MapReduce pour nous, il nous suffit de glisser-déposer les
composants et de configurer quelques paramètres.
Il nous donne également la possibilité de nous connecter à plusieurs distributions Big Data
comme Cloudera, HortonWorks, MapReduce, Amazon EMR et même Apache.
1.3.4 Infrastructure entrepôt de données
C’est le cœur de notre système décisionnel, Ce composant est créé à partir des données
stockées antérieurement dans HDFS.
Ici se fait la sauvegarde des métadonnées ou seront stockés les données structurées qui seront
utilisées pour répondre aux besoins décisionnels de l’entreprise.
En se basant sur les caractéristiques citées en dessus sur les caractéristiques de ce composant
ainsi que la stratégie open source suivie par ELIT, nous proposons ce comparatif des meilleurs
outils pouvant être utilisés pour répondre à ce besoin :
1.3.4.1 Comparaison des outils créant une infrastructure Data Warehouse
102
4 REALISATION ET MISE EN OEUVRE
103
4 REALISATION ET MISE EN OEUVRE
105
4 REALISATION ET MISE EN OEUVRE
1.4 Conclusion
Dans ce chapitre, nous avons présenté les différents outils que nous avons utilisés dans
L'implémentation de notre solution en décrivant les critères et caractéristiques qui nous ont
poussés à opter pour ces technologies. En effet, ces outils sont open source et conformes à la
stratégie du Groupe Sonelgaz. Dans le chapitre suivant, nous présenterons en détail
l’implémentation et le déploiement de la solution.
106
4 REALISATION ET MISE EN OEUVRE
Chapitre 2
2 Réalisation Et Déploiement
2.1 Introduction
Suivant la phase de mise en œuvre du projet présenté ci-dessus, nous passons à la partie
décrivant la réalisation technique de la solution.
Cette dernière comporte le développement du lac de données, l'implémentation de la couche
Data Warehouse, la réalisation des processus ELT / ETL ainsi que le développement des cubes
multidimensionnel pour finir avec la phase de restitution des données.
Nous aborderons ensuite l’aspect sécuritaire de la solution, aussi bien logique que physique,
avant de présenter la politique de gestion de changement que nous avons établis pour réussir
l'intégration du nouveau système, pour enfin clôturer ce chapitre par une conclusion
Nous détaillerons dans ce qui suit chaque étape évoquée ci-dessus en décrivant le processus
de développement et en l’illustrant par des exemples.
2.2.1 Implémentation du data Lake
Un lac de données est composé de deux sous-systèmes. La partie donnée est assurée par
la mise en place d’un système de fichiers distribués.
Dans notre implémentation, le Data Lake repose sur le système de fichiers distribués HDFS
(Hadoop Distributed File System) utilisant la technologie du projet HADOOP.
Nous avons opté pour une configuration Multi-Node d’un cluster HDFS avec un facteur de
réplication égale à deux afin de profiter du Parallel Computing ( Traitement des données
parallèle ) sur les machines du cluster ainsi qu’une résistance aux pannes grâce à la redondance
en double des données.
Pour plus de détails, notre ensemble de serveurs HDFS, appelé cluster HDFS, est constitué de
trois machines ayant des rôles différents : deux DataNodes qui servent de nœuds de stockage et
un NameNode sous forme du nœud maître. Ce dernier gère les interactions avec les utilisateurs
ainsi que la distribution et la réplication des données sur les DataNodes.
107
4 REALISATION ET MISE EN OEUVRE
Le cluster HDFS peut être accessible de manière graphique en se connectant à son serveur web
à l’adresse https://namenode-ip-adress:9870 , l’administrateur du système utilise cette interface
pour administrer et faire le suivi du lac de données .
D’autres informations, telles que la santé du cluster,la quantité mémoire utilisée et disponible
sur les datanodes, ou l’accès aux logs ou bien encore l’accès au système de fichiers HDFS
peuvent être aussi retrouvés via cette interface. ci-dessous un aperçu de l’interface en question.
108
4 REALISATION ET MISE EN OEUVRE
109
4 REALISATION ET MISE EN OEUVRE
Figure 60 : liste des tables créées sous hive et stocké dans HDFS
110
4 REALISATION ET MISE EN OEUVRE
Figure 63 : job du chargement des données de la paie du fichier Excel vers Hive
112
4 REALISATION ET MISE EN OEUVRE
Figure SEQ Figure \* ARABIC 65 : le mécanisme qui garantit la mise à jour des tables de fait
113 après le
lancement des jobs
4 REALISATION ET MISE EN OEUVRE
114
Figure SEQ Figure \* ARABIC 70 : requête sql sur le cube des formations sur superset
Figure 70 : Requête SQL sur le cube des formations dans Apache Superset
Ci-joint une figure qui montre l’interface en question :
116
4 REALISATION ET MISE EN OEUVRE
▪ La deuxième étape consiste à connecter Superset à Apache Kylin, pour cela nous
utilisons la bibliothèque Python KylinPy.
▪ Nous entamons la partie réalisation du tableau de bord, pour cela nous utilisons les
Datasets sauvegardés auparavant comme base pour concevoir des graphiques.
▪ Une fois les graphiques prêts, nous finalisons le tableau de bord par un simple “Drag &
Drop” des graphiques dans le Dashboard.
117
4 REALISATION ET MISE EN OEUVRE
118
4 REALISATION ET MISE EN OEUVRE
119
4 REALISATION ET MISE EN OEUVRE
2.5 Conclusion
Tout le long de ce chapitre, nous avons présenté les étapes de concrétisation de notre
solution en partant de l'implémentation du lac de données, l’implémentation de l'entrepôt de
données virtuel , la réalisation des processus ELT , le développement des cubes
multidimensionnel pour arriver vers la concrétisation des rapports.
Nous avons aussi mis l’accent à travers ce chapitre sur l’aspect sécuritaire de la solution mis en
place avant de présenter la politique d'intégration de la solution au sein de l’entreprise que nous
avons mis en place.
120
REFERENCE BIBLIOGRAPHIQUES
121
REFERENCE BIBLIOGRAPHIQUES
Nous avons par la suite présenté l'aspect sécuritaire du système et les mesures mises en place
pour renforcer ce dernier ainsi que la politique d'intégration du système mis en place au sein de
l'entreprise.
A la fin de ce travail, nous avons pu atteindre les objectifs soulignés au début du projet et qui
sont :
1. Centraliser l’ensemble des données pour permettre un accès plus facile et rapide.
2. Diminuer le nombre de personnes impliquées dans le processus de reporting actuel à
une seule personne.
3. Diminuer considérablement le temps total de préparation des rapports de plusieurs jours
à quelques minutes.
4. Fournir aux décideurs et aux analystes la possibilité de naviguer dans les données et
d'effectuer des analyses appropriées concernant les processus RH de l’organisation.
5. Déterminer les mesures adéquates afin de permettre d’analyser les volets RH existants
(effectif, départs, embauches, masse salariale, absences et formation)
Perspectives
Dans le cadre de l'amélioration continu et dans le but de perfectionner le système mis en
place, nous envisageons un ensemble de perspectives à mettre en place, notamment :
▪ Centraliser le Stockage de toutes les données de l’entreprise au sein du lac de données
▪ Recueillir les suggestions et les remarques des utilisateurs pour pouvoir faire évoluer
le système
▪ Aller vers des analyses poussées avec le data Mining et machine Learning.
122
REFERENCE BIBLIOGRAPHIQUES
Références Bibliographiques
[Adamson 2012] Adamson, Christopher : Mastering data warehouse
aggregates : solutions for star schema performance. John Wiley & Sons,
2012.
[ALPHONSE CARLIER, 2013] ALPHONSE CARLIER : Business intelligence and
management, AFNOR edition , September 2013
[ALEX GORELIK , 2019] , Alex Gorelik ,The Enterprise Big Data Lake: Delivering
the Promise of Big Data and Data Science , Mars 2019
[Corr et Stagnitto 2013] Lawrence Corr et Jim Stagnitto, “Agile Data Warehouse
Design : Collaborative Dimensional Modeling, from Whiteboard to Star Schema”,
Decision One Press, Novembre 2011, 328p
123
REFERENCE BIBLIOGRAPHIQUES
[James G. Shanahan, et al. 2015 ] James G. Shanahan , Laing Dai , Large Scale
Distributed Data Science using Apache Spark , 2015
[James Manyika et al., 2011] James Manyika, Big Data: The Next Frontier for
Innovation, Competition, and Productivity , 2011
[Johannes Passing , 2012] Johannes Passing , The Google File System and its
application in MapReduce , 2012
[Kimball et Ross, 2013] Kimball, Ralph ; Ross, Margy : The data warehouse
toolkit : The definitive guide to dimensional modeling. John Wiley & Sons, 2013.
125
REFERENCE BIBLIOGRAPHIQUES
WEBOGRAPHIE
[Ali Ghodsi et al. , 2021] Ali Ghodsi , Brooke Wenig , Webinar “Lakehouse
Architecture : From Vision to Reality”disponible sur
https://databricks.com/fr/p/webinar/lakehouse-architecture-from-vision-to-reality
[Dave Wells , 2021] Dave Wells , Eckerson group blog “An Architect’s View of the
Data Lakehouse: Perplexity and Perspective” disponible sur : “
https://www.eckerson.com/articles/an-architect-s-view-of-the-data-lakehouse-perplexity-
and-perspective “
[Rupal Bhandari , 2020] Rupal Bhandari , blog « Traditional vs. Self-Service BI:
Analytics Alternatives Explained » Software Advice , Juin 12, 2020 , disponible sur “
https://www.softwareadvice.com/resources/traditional-bi-vs-self-service”
126
ANNEXE
1
ANNEXE
1. CONDUITE DE PROJET
1.1 DIAGRAMME DE GANTT DU PROJET
2
ANNEXE
Pour discuter sur les besoins et l’aspect fonctionnel, nous organisions une réunion avec les membres qui
travaille sur NOVA
1.3 INTERVIEW
La collecte d’information est une l’étape la plus critique dans la documentation
d’un projet. Car elle permet d’enlever les questions et les énigmes qu’elle se pose.
Ainsi, pour divulguer les besoins du client nous avons décidé de faire une interview
avec une source crédible au sein du projet, à savoir Mr SENNAD le Product owner.
Q : Quels sont vos objectifs majeurs qui vous ont poussé à penser à ce projet ?
R : L’absence d’un système de visualisation de données ainsi leurs
consolidations sur la fonction RH qui est sensible dans le groupe Sonelgaz.
Q : Comment envisager vous réaliser la solution et comment elle va-être déployé ?
R : la solution doit être conçue indépendamment du système nova car on
compte migrer vers un autre système qui est en cours de test.
Q : Aux alentours de combien est le chiffre de l’effectif de Sonelgaz ?
R : Aux alentours de 100k sur tout le groupe ainsi leurs informations
consomment une partie majeure du data center de Sonelgaz.
Q : Comment est conçu le processus du réporting de Sonelgaz et quels sont les acteurs
qui participent ?
R : le processus se déclenche lorsque les PDGs des sociétés ou bien les
responsables veulent avoir un rapport, la demande sera traitée par ELIT et puis on
envoi le rapport, pour les acteurs qui utilisent le reporting RH, c’est les drh des
sociétés, les PDGs des sociétés, ainsi la DOCH.
Q : Quelle est la politique principale d’ELIT ?
R : ELIT, étant une filiale de Sonelgaz sa politique est de concevoir des
solutions informatiques aux différents clients (société de Sonelgaz, ou externe), qui
sont à la fois sécurisé, maintenable et open source.
Q : Les solutions sur un environnement Big data, surtout lorsque nous avons une
grande masse de données comme celle de la RH, que pensez-vous ?
R : Actuellement c’est une tendance des entreprises d’utiliser les technologies
Big data et cloud car elles sont performantes et précise ainsi donnent des résultats en
temps réel.
Q : Quels sont les différents données RH et combien de processus traite le système
NOVA ?
R : ils traitent plusieurs processus mais les plus importants sont : le suivi de
l’effectif, le suivi des paies, le suivi des absences, des formations, des arrivés ainsi les
départs.
Q : Quels sont les types de rapports que vous voulez ?
R : des rapports périodiques statiques, et des rapports dynamiques.
Q : Quels sont vos attentes du système décisionnel ?
R : Un système de qualité qui est facilement maintenable, rapide et sécurisé,
qui permet de faciliter l’analyse a travers des graphiques simple et personnalisable.
3
ANNEXE
4
ANNEXE
5
ANNEXE
Figure 81 : calcul des heures d'absences par motif d'absences et par employés
Figure - Heures d'absence par motif et BG
Figure 82 : calcul des heures d'absences par groupe SP et par motif d'absences
Figure - Heures d'absence par GSP et motif
6
ANNEXE
Figure 85 : calcul des nombres d'absences par société et par motif d'absence
7
ANNEXE