Rapport de Stage - Myriam Khachlouf

1
REMERCIEMENTS
C’est avec un grand plaisir que je réserve cette page en signe de gratitude et de
profonde reconnaissance à tous ceux qui m’ont aidé à la réalisation de ce travail.
Mes vifs remerciements s’adressent à Monsieur Akram Anaya qui m’a fait
l’honneur d’être mon encadrant au sein de l’entreprise d’accueil, pour son
soutien, pour le temps qu’il m’a réservé malgré ses grandes charges
professionnelles, ainsi que pour ses critiques constructives et innovantes à la fois
tout au long de ma période de stage.
Je remercie également toute l’équipe de recherche et développement (R&D) qui

m’ont très bien accueilli durant toute la durée de stage, qui ont su m’intégrer et
qui m’ont encouragé avec leur intérêt, les différentes remarques et précieux
conseils qu’ils m’ont prodigués pour accomplir ce projet.
À tous ceux et celles qui m’ont enseigné et m’ont enrichi avec leurs savoirs
spécialement Madame Dorra Trabelsi, Madame Ines Slimen et Madame Imen
Kochbati.
J’adresse ma gratitude à toute ma famille qui m’a toujours été d’un grand soutien
moral et matériel, ceux qui m’ont toujours soutenu et cru en moi. C’est grâce à
vos sacrifices et précieux conseils que je parviens à accomplir des grandes
réalisations dans ma vie avec succès.
À Libertad.
À tout ami qui m’a aidé même avec une idée.
À la mémoire des chers qui nous ont quittés vers l’éternité.
Merci à tous d’être présents dans ma vie et d’être là pour moi.
2
INTRODUCTION GÉNÉRALE
La Business Intelligence (BI) est un processus technologique d'analyse des

données et de présentation d'informations pour aider les dirigeants, managers et
autres utilisateurs finaux de l'entreprise à prendre des décisions business
éclairées. La Business Intelligence englobe une grande variété d'outils,
d'applications et de méthodologies qui permettent aux organisations de collecter
des données à partir de systèmes internes et de sources externes. Ces données
sont ensuite préparées pour l'analyse afin de créer des rapports, tableaux de bord
et autres outils de de Dataviz pour rendre les résultats analytiques disponibles
aux décideurs et aux opérations. (BI définition)
Aujourd'hui, les entreprises s'appuient sur les logiciels de Business Intelligence

pour identifier et extraire des informations précieuses des grands volumes de
données qu'elles stockent. Ces outils permettent d’en tirer des informations tels
que des veilles concurrentielles et les tendances du marché, ainsi que des
informations internes tel que trouver les raisons des opportunités perdues.
Dans ce cadre se pose le sujet de mon stage d’ingénieur chez Vermeg.
Effectivement mon stage avait comme objectif d’élaborer un projet au sein de

l'équipe R&D de faire son étude, sa conception et son implémentation. C’est un
outil d'aide à la décision aidant le manager de l'équipe à améliorer la satisfaction
client, à mieux gérer son équipe et leurs projets.
Ce rapport présente la combinaison du travail durant deux mois de stage. Ce

dernier se compose de cinq chapitres :
• Le premier chapitre expose l’étude préliminaire du projet qui donnera une vision
générale sur ce dernier.
• Le deuxième chapitre présente la méthodologie adaptée, la planification et la

conception de la solution.
• Le troisième chapitre détaille la compréhension métier et l’enquête réalisée.
• Le quatrième chapitre présente le lancement du projet avec sa première phase

d’implémentation et d'intégration des données.
• Le cinquième chapitre dévoile les relations cachées existantes dans nos

données avec une exploration et analyse descriptive et prédictive.
• Le sixième et dernier chapitre présente la solution finale qui est un Dashboard

interactif
3
Table des matières
CHAPITRE 1 : ÉTUDE PRÉLIMINAIRE.............................................................................. 10

Introduction ................................................................................................................... 10
1.Organisme D’accueil .................................................................................................. 10
1.1 Présentation de l’entreprise .......................................................................... 10
1.2 Logo et charte graphique de l’enseigne ...................................................... 10
1.3 Equipe Assignée ............................................................................................... 11
2.Sujet de Stage ............................................................................................................. 11
2.1. Enoncé du sujet de stage : ............................................................................... 11
2.2. Analyse des besoins du projet : ..................................................................... 11
2.3. Analyse du sujet proposé .............................................................................. 13
2.4. Solution demandée ........................................................................................ 13
Conclusion...................................................................................................................... 13
CHAPITRE 2 : Conception et Planification .................................................................... 14
Introduction ................................................................................................................... 14
1. Méthodologie adaptée ......................................................................................... 14
1.1. CRISP-DM ........................................................................................................ 14
1.2. Méthode Agile (Scrum) .................................................................................. 16
1.3. Combinaison des deux méthodes CRISP-DM et Scrum ........................... 17
1.4. Choix finale de la méthodologie................................................................... 17
2. Les phases du projet.............................................................................................. 18
2.1. Identification des taches et estimation de chaque phase ....................... 18
2.2. Identification des ressources technologiques de chaque phase ........... 20
3. Gestion des risques................................................................................................ 21
3.1. Identification des risques ............................................................................. 22
3.2. Résolution et actions préventives ............................................................... 22
4. Implémentation diagramme de Gantt............................................................... 23
5. Les Types d’accès disponible pour la solution.................................................. 24
Conclusion..................................................................................................................... 24
CHAPITRE 3 : Compréhension Métier .......................................................................... 25
Introduction .................................................................................................................. 25
1. Réalisation d’une étude sur le domaine du projet ........................................... 25
4
1.1. Réalisation d’une présentation sur Canva portant sur la BI .................... 25
1.2. Formation Jira Software ............................................................................... 26
1.3. Recherche et lecture Verticale de projets jira open-source ................... 26
2. Réalisation formulaire dans le cadre de l'enquête .......................................... 27
2.1. L’analyse des résultats de l’enquête ........................................................... 27
Conclusion..................................................................................................................... 28
CHAPITRE 4 : Intégration des données ........................................................................ 29
Introduction .................................................................................................................. 29
1. Collecte des données ........................................................................................... 29
1.1. Source de données ........................................................................................ 29
1.2. Prétraitement des données.......................................................................... 30
2. Structure de donnée choisi pour le projet ........................................................ 32
2.1. Réalisation d’une présentation sur la structure de données BI .............. 32
2.2. Structure choisie ............................................................................................ 33
2.3. Approche choisie pour l’implémentation de la Datawarehouse ............ 34
3. Conception de la Datawarehouse ...................................................................... 36
3.1. Compréhension données ............................................................................. 36
3.2. Identification des axes d’analyses ............................................................... 36
3.3. Modélisation de la datawarehouse ............................................................. 36
4. Implémentation de la Datawarehouse .............................................................. 37
4.1. Différences entres les outils d’intégration de données ........................... 37
4.2. Test sur deux outils open-source ................................................................ 39
4.3. Choix de l’outil d’intégration de donnée ..................................................... 41
4.4. Implémentation des dimensions sur Talend .............................................. 41
4.5. Implémentation de la table de fait sur Talend ........................................... 51
4.6. Amélioration et automatisation : ................................................................. 53
Conclusion..................................................................................................................... 53
CHAPITRE 5 : Analyse des données .............................................................................. 54
Introduction .................................................................................................................. 54
1. Les objectifs Data Mining de Jira-Analytics...................................................... 54
1.1 Traduction des objectifs Métiers en Objectifs Datamining ..................... 54
1.2 Vue globale sur les objectifs et leurs algorithmes datamining associés 55
2. Implémentation avec le langage Python .......................................................... 56
2.1. Objectif Prédictif Avec l’Algorithme Deep Learning Keras. ......................... 56
2.1. Objectifs descriptifs : Identifier les profils de membres de l'équipes
suivant leurs compétences ..................................................................................... 62
5
2.1.1. L'analyse en composantes principales (ACP ou PCA en anglais pour
principal component analysis)................................................................................ 62
Conclusion...................................................................................................................... 71
CHAPITRE 6 : Visualisation des données ..................................................................... 72
Introduction .................................................................................................................. 72
1. Benchmarking des outils de Visualisation de données ................................... 72
2. Différences entres les types de graphiques ..................................................... 74
2.1. Graphiques à barres ....................................................................................... 74
2.2. Graphiques linéaire (ou à ligne) ................................................................... 75
2.3. Histogramme .................................................................................................. 75
2.4. Graphique à barres positif et négatif .......................................................... 76
2.5. Graphique (ou diagramme) circulaire ......................................................... 76
2.6. Histogramme en pile ..................................................................................... 77
3. Solution finale et Dashboarding ......................................................................... 77
Conclusion..................................................................................................................... 78
Conclusion Générale ....................................................................................................... 79
Bibliographie .................................................................................................................... 80
Annexe ............................................................................................................................... 81
6
Table des figures
Figure 1 : Logo de l'entreprise Vermeg .......................................................................... 10
Figure 2: Logo de Jira Software...................................................................................... 12
Figure 3: Méthodologie CRISP-DM ................................................................................ 15
Figure 4 : Méthodologie Scrum ...................................................................................... 16
Figure 5: Les phases du projet ........................................................................................ 18
Figure 6: Logo Gantt Diagramme .................................................................................. 20
Figure 7: Logo de Google Forms ................................................................................... 20
Figure 8: Logo de Lucidchart ........................................................................................ 20
Figure 9: Logo Power Query .......................................................................................... 20
Figure 10: Logo Excel/csv............................................................................................... 20
Figure 11 : PostGre SQL.................................................................................................... 20
Figure 12 : Power AMC for Modeling ............................................................................ 20
Figure 13: Talend for Data Integration .......................................................................... 20
Figure 14: Python in Google Colab IDE .......................................................................... 21
Figure 15 : Logo de Tableau ............................................................................................. 21
Figure 16: Logo de Lucidchart ......................................................................................... 21
Figure 17: Logo docs et Word Figure 18: Logo Canva.................................. 21
Figure 19 : Capture d'écran du réel diagramme de Grantt du projet ....................... 23
Figure 20 : Planning globale du déroulement de projet............................................ 23
Figure 21 : Capture d'écran du Certificat Jira .............................................................. 26
Figure 22 : Capture du mail envoyé au client .............................................................. 27
Figure 23 : Capture d'écran des réponses du questionnaire .................................... 27
Figure 24 : Capture détaillant la taille maximale des datasets ................................. 29
Figure 25 : Dataset à son état brut ................................................................................ 30
Figure 26 : Dataset prétraité ........................................................................................... 31
Figure 27 : Dataset structuré .......................................................................................... 31
Figure 28 : Différences entre les types de bases de données .................................. 32
Figure 29 : Exemple d'un cube OLAP ........................................................................... 34
Figure 30 : L'approche Inmon ........................................................................................ 35
Figure 31 : Modélisation Datawarehouse ..................................................................... 37
Figure 32 : Logo SSIS ....................................................................................................... 38
Figure 33 : Logo Pentaho ................................................................................................ 38
Figure 34 : Logo Talend ................................................................................................... 38
Figure 35 : Logo Informatica .......................................................................................... 39
Figure 36 : Capture d'écran du Job “Alimentation Dimension Employee” sur
Talend ................................................................................................................................ 42
Figure 37 : Capture d'écran de la dimension Employee sur PostgreSQL ................ 43
Figure 38 : Capture d'écran du Job “Alimentation Dimension Role” sur Talend.... 44
Figure 39 : Dimension Role ............................................................................................ 44
Figure 40 :Capture d'écran du Job “Alimentation Dimension Team” sur Talend .. 45
Figure 41 : Dimension Team ........................................................................................... 45
Figure 42 :Capture d'écran du Job “Alimentation Dimension Skills” sur Talend .... 46
Figure 43 : Dimension Skills............................................................................................ 46
Figure 44 : Capture d'écran du Job “Alimentation Dimension Date” sur Talend ... 47
7
Figure 45 : Capture de la génération des attributs de la dimension Date sur Tmap
............................................................................................................................................ 47
Figure 46 :Capture d'écran du Job “Alimentation Dimension Projets” sur Talend 48
Figure 47 : Capture sur la requête de génération de l'ID projet ............................... 48
Figure 48 : Dimension Projet.......................................................................................... 49
Figure 49 : Capture d'écran du Job “Alimentation Dimension TicketType” sur
Talend ................................................................................................................................ 49
Figure 50 : Dimension TicketType................................................................................. 50
Figure 51 : Capture d'écran du Job “Alimentation Dimension Status” sur Talend . 50
Figure 52 : Dimension Status .......................................................................................... 51
Figure 53 : Capture d'écran du Job “Alimentation Table de Fait” sur Talend ......... 52
Figure 54 : Capture du composant Tmap de notre table de fait .............................. 52
Figure 55 : Capture du Job Conductor ......................................................................... 53
Figure 56 : Objectifs Datamining ................................................................................... 55
Figure 57 : Différences entre Deep Learning et Machine Learning ......................... 56
Figure 58 : Dataset de l'objectif prédictive .................................................................. 57
Figure 59 : Importation du Dataset ............................................................................... 58
Figure 60 : Corrélation entre les variables ................................................................... 58
Figure 61 : Configuration Keras ...................................................................................... 59
Figure 62 : Le modéle Keras Final ................................................................................. 60
Figure 63 : Résultat du modèle Keras............................................................................ 61
Figure 64 : Dataset pour l'algorithme ACP .................................................................. 62
Figure 65 : Déterminer le nombre d’axes de l’analyse pour ACP ............................. 63
Figure 66 : L'information présentes sur les axes ACP ................................................ 64
Figure 67 : Le cercle de corrélations sur ACP .............................................................. 65
Figure 68 : La corrélations des Variables...................................................................... 66
Figure 69 : Représentation des individus..................................................................... 67
Figure 70 :Représentation pour n le nombre de membres d'équipe = 50 ............. 68
Figure 71 : Représentation pour n le nombre de membres d'équipe = 20 ............. 68
Figure 72 : la méthode de coude pour déterminer le nombre de cluster............... 69
Figure 73 : Création des clusters ................................................................................... 70
Figure 74 : Plot de visualisation des clusters ............................................................... 70
Figure 75: Logo de Tableau ............................................................................................ 72
Figure 76 : Logo de Power BI ......................................................................................... 73
Figure 77 : Logo le Qlik Sense ........................................................................................ 73
Figure 78 : Diagramme à barres .................................................................................... 74
Figure 79 : Diagramme linéaire...................................................................................... 75
Figure 80 : Histogramme................................................................................................ 75
Figure 81 : Graphique à barres positif et négatif ......................................................... 76
Figure 82 : Le camembert .............................................................................................. 76
Figure 83 : Histogramme en pile ................................................................................... 77
Figure 84 : Dashboard Final ............................................................................................ 77
8
Table des tableaux
Tableau 1: Identification et classification des risques ................................................ 22
Tableau 2 : Solution adéquate à chaque risque .......................................................... 22
Tableau 3 : Les 3 types d'accès ...................................................................................... 24
Tableau 4 : Comparaison LOTP et OLAP ...................................................................... 33
Tableau 5 : Comparaison des approches de Datawarehousing ............................... 34
Tableau 6 : Différences entre les composants de chaque outils ............................. 40
Tableau 7 : Traduction objectifs métiers en objectifs Datamining .......................... 54
9
CHAPITRE 1 : ÉTUDE PRÉLIMINAIRE
Introduction
Ce premier chapitre a pour objectif de situer le projet dans son cadre général.
Pour cela, nous commençons par définir l’organisme d’accueil et les concepts de
base de notre projet. Ensuite, nous établissons une étude afin de définir les
grandes lignes et les besoins du projet.
1.Organisme D’accueil
1.1 Présentation de l’entreprise

VERMEG est un éditeur de logiciels fondé en 1993, couvrant actuellement 40
pays avec plus de 1600 collaborateurs spécialisé couvrant ces principaux
marchés : Banque, Marché des Capitaux et Assurance. Nous fournissons des
solutions OOTB éprouvées et une plateforme de transformation numérique,
PALMYRA. (Vermeg)
Leurs solutions métiers ont été conçues pour adresser les enjeux de la
transformation actuelle et future de l’industrie de la finance, mais aussi pour
accompagner ces acteurs dans la refonte de leur système d’information ; à
travers la réduction de leurs coûts, la maitrise de leur Time-To-Market et la
modernisation de leurs systèmes d’information.
1.2 Logo et charte graphique de l’enseigne
Figure 1 : Logo de l'entreprise Vermeg
10
Cette entreprise a décidé d’avoir une charte graphique simple composée
de deux couleurs principales ; le rouge et le noir.
1.3 Equipe Assignée
Sous l’encadrement de Monsieur Akram Anaya, le manager de l’équipe

Recherche et développement, j’ai occupé le poste de stagiaire BI au sein d’une
équipe contenant 10 membres qui réalisent souvent des projets en parallèle.
Les types et les domaines de projets diffèrent (entre Software development, Data
engineering et Project Management)
2.Sujet de Stage
2.1. Enoncé du sujet de stage :
Jira Analytics - Mise en place d'une solution décisionnelle pour analyser les
tickets jira de l’équipe R&D
 Prise en compte du reporting existant.
 Identification des indicateurs de suivi des projets (KPI de productivité).
 Proposition d’un nouveau modèle de reporting homogène à l’ensemble
des projets.
 Génération des plans de production de l’activité.
 Génération du suivi du besoin de ressources par activité
2.2. Analyse des besoins du projet :
Les taches et projets réalisés au sein de l’entreprise sont tracés, suivis et

gérés sur (JIRA) .
Jira Software fait partie d'une gamme de produits conçus pour aider les
équipes de tous types à gérer leur travail. À l'origine, Jira a été pensé comme un
outil de suivi des bugs et des tickets. Mais aujourd'hui, c'est devenu un puissant
outil de gestion du travail pour toutes sortes de cas d'usage.
11
Figure 2: Logo de Jira Software
Cet outil offre aussi des fonctionnalités d’observation et de visualisation :

 Des Indicateurs de Performances
 Des Alertes Critiques
 Suivi de performance équipe
 Dashboard avec des plots, charts, filtres concernant le projet, les tickets et
leurs responsables
 Suivi de l'état d'une tâche(Ticket) et de ses échéances
 Avancement du sprint
Mais
Jira n’utilise pas toutes ces ressources données et cela rend la prise de décision
pour le manager difficile.
Dans ce cadre se pose ce sujet de stage, en ajoutant quelques fonctionnalités à

jira, cette plateforme aura une vue précise sur les projets sous forme d’un outil
décisionnel aidant tout “Team Leader” ou manager d'équipe à :
o Analyser et comprendre le comportement de son équipe lors de la
réalisation d’un projet →Team Management
o Avoir une traçabilité sur le temps de réalisation des tickets, par
rapport à leur priorité et leur date de création →Project
Management
o Détecter les profils par niveau d'expertise →Skills development
o Suivre la qualité des livrables dans le temps →Customer satisfaction
D’autres fonctionnalités seront ajoutées au fur et à mesure de l’avancement du

projet, lors de la détection des relations et corrélations entre certains éléments
ou événements observés.
12
2.3. Analyse du sujet proposé
 Prise en compte du reporting existant :

Jira a une solution de DataViz existante ; son Dashboard offre des fonctionnalités
basiques de suivis globale du projet et de ces tickets
 Identification des indicateurs de suivi des projets (KPI de productivité):
Selon la compréhension métier et des données qui seront plus tard collectées,
des KPI plus spécifiques seront intégrées à la solution ; concernant le projet, ses
tickets et même la performance de l'équipe.
 Proposition d’un nouveau modèle de reporting homogène à l’ensemble
des projets: Un Dashboard adéquat à tout projet de l'équipe R&D est clairement
demandé dans ce point.
 Génération du suivi du besoin de ressources par activité :
Les tickets "tâches" sont répartis au sein de l'équipe selon les compétences de
chacun.
Dans notre solution on pourra intégrer l’analyse des ressources nécessaire.
2.4. Solution demandée
Un outil d'aide à la décision ; un Dashboard interactif adéquat à tout projet R&D,

aidant le manager de l'équipe à améliorer la satisfaction client, à mieux gérer son
équipe et leurs projets et à comprendre l’effet papillon des événements, de leurs
occurrences et leurs conséquences.
Conclusion
Dans ce premier chapitre, nous avons présenté le cadre de stage. Ensuite, nous
avons fait une étude approfondie du projet de stage afin de déterminer le besoin
du client en question qui est ici le manager de l’équipe. Dans le second chapitre
on va approfondir cette étude pour une conception finale et détaillée de ce
projet en interne.
13
CHAPITRE 2 : Conception et
Planification
Introduction
Dans le premier chapitre, nous avons bien abordé tous les points qui concernent
l’étude de projet et l’analyse de ces besoins. Dans ce nouveau chapitre, intitulé
"Conception et Planification", nous allons entamer le plan du travail, la
méthodologie utilisée ainsi
1. Méthodologie adaptée
Afin d’obtenir un résultat efficace et dans le but de réaliser un produit de qualité,

une méthode de gestion de projet doit être utilisée. Nous distinguons entre : les
méthodes traditionnelles et les méthodes agiles. Sauf que plusieurs méthodes de
la haute et nouvelle technologie ont fait leur apparence dans un cadre de projet
data tel que la méthode Crisp-DM. Préoccupée par la gestion et l’exécution de ce
projet qui est en constant évolution, J’ai réalisé une recherche pour comprendre
la différence entre la méthodologie CRISP-DM et Agile.
1.1. CRISP-DM
CRISP-DM (CRoss-Industry Standard Process for Data Mining) est un modèle de

processus cyclique de science des données en 6 phases comme dans le
diagramme suivant.
14
.
Figure 3: Méthodologie CRISP-DM
 Compréhension des activités et des données

 Compréhension des données et préparation des données
 Compréhension opérationnelle, compréhension des données, préparation
des données, modélisation et évaluation
En outre, le processus entier peut être répété pour les déploiements itératifs.
Effectivement, dans la pratique, les boucles d’itération pourraient même se
produire entre:
 Compréhension et préparation des données

 Modélisation et évaluation
 Évaluation et compréhension des données (sauter la compréhension
opérationnelle)
 Évaluation et préparation des données
15
1.2. Méthode Agile (Scrum)
La méthode Agile est une approche de gestion de projet fondée sur la réalisation
de projets (ou de produits) itératifs et progressifs. Aujourd’hui, Agile est utilisé
comme terme générique pour une grande variété de méthodologies, partageant
les mêmes principes et valeurs.
Scrum est une méthodologie Agile dominante et un processus utilisant un

ensemble de cérémonies (disons des réunions), des outils et des rôles visant une
forte collaboration entre les parties du projet et de la flexibilité dans la réaction
aux changements dans les exigences.
Dans Scrum, la portée des travaux est divisée en un arriéré de tâches à accomplir.
En itérations d’une à quatre semaines (appelé sprint), l’équipe livre des
incréments de produit expédiable (SPI) ou produit minimum viable (MVP).
L’image suivante montre le processus Scrum.
Figure 4 : Méthodologie Scrum
16
1.3. Combinaison des deux méthodes CRISP-DM et Scrum
Le processus itératif CRISP-DM respecte la nature expérimentale et ouverte aux

nouvelles idées des projets de science des données par rapport à de nombreux
projets de développement de logiciels, en particulier aux premières étapes du
projet.
Toutefois, s’il n’est pas encadré par une méthodologie Agile et mis en œuvre
selon le processus de livraison MVP (Minimum Viable Product), les projets de
science des données se retrouveront probablement entre les phases sans fin de
mise à l’essai de la mise en œuvre des idées.
En outre, une méthodologie Agile comme Scrum, apporte beaucoup plus

d’avantages tels que la rétroaction rapide des parties prenantes et la flexibilité
pour le changement des exigences. L’image suivante montre un exemple de
processus hybride CRISP-DM + Scrum pour la réalisation de projets en science
des données.
1.4. Choix finale de la méthodologie
Lorsque nous interférons le processus CRISP-DM et Scrum pour la livraison des

projets, les points suivants méritent notre attention ;
Les réunions de planification de sprint et, dans une certaine mesure, les revues
de sprint offrent une excellente occasion d’engagement avec les intervenants sur
l’exigence de compréhension des activités et des données.
Alors que nous livrons itérativement en sprints, notre compréhension des

activités et des données évolue, ainsi que la maturité et la viabilité du modèle.
En conclusion, la comparaison entre CRISP-DM et Agile n’est pas comparable. Ils

se complètent les uns les autres pour offrir des projets de science des données
efficaces et efficients. CRISP-DM guide les projets de science des données dans
ce qu’il faut livrer et dans quel ordre, tandis qu’Agile nous aide à livrer le produit
de travail avec succès en termes d’efficacité et de satisfaction des parties
prenantes.
17
2. Les phases du projet
Après avoir choisie la méthodologie de ce projet , j’ai décidé de diviser ce projet
en 7 phases principales , comme le montre ce diagramme :
Figure 5: Les phases du projet
2.1. Identification des taches et estimation de chaque phase
 Compréhension Métier en anglais Business Understanding

Estimée à 6 jours entre :
o Recherche et préparation
o Présentation
o Formation Jira
o Enquête & Formulaire
o Examination & lecture Verticale de projets jira open-source
 Planification et conception
o Recherche et identification des “Milestones” du projet
o Identification des tâches
o Estimation durée et ordonnancement des tâches
o Gestion de priorités
o Identification des ressources potentiels
o Gestion de risques
o Planification & implémentation du diagramme de Gantt
o Etude des users story possibles
18
 Lancement Projet
o Data collection & data study
o Compréhension données
 Intégration de données : Data Warehousing

o Recherche & conception
o Modélisation Data warehouse
o Implémentation
o Tests et reporting
 Exploration at analyse des données en anglais Data Analysis

o Transformation objectif métier →objectif Data mining
o Implémentation solution et application des algorithmes DM
o Choix des modèles répondants à nos objectifs
o Résultat, Test et reporting
 Data Visualisation
o Recherche et identification KPI
o Mise en place des formule KPI
o Conception Dashboarding
o Réalisation et implémentation plots
o Assemblage et Dashboarding
 Finalisation et reporting
o Présentation finale
o Validation projet
o Elaboration et validation rapport
19
2.2. Identification des ressources technologiques de chaque phase
 Planification et conception :
Figure 8: Logo de Lucidchart Figure 7: Logo de Google Figure 6: Logo Gantt Diagramme
Forms
 Lancement Projet :
Figure 9: Logo Power Query Figure 10: Logo

Excel/csv
Pour débuter le projet il nous faut aussi des projet Jira open Sources.
 Data Warehousing :
Figure 13: Talend for Data Integration Figure 12 : Power AMC for Modeling Figure 11 : PostGre SQL
L’outil Talend est pour l’intégration de données et l’outil Postgre SQL est dédié au
stockage de ces derniers
20
 Exploration données ou Data Analysis :
Figure 14: Python in Google Colab IDE
La phase de data mining et analyse de données a été réalisé avec le langage

Python sur Google Collab qui est un IDE en ligne proposé par Google.
 Data Visualisation :
Figure 15 : Logo de
Tableau
Il y a une phase de Benchmarking pour les différents outils de dataviz qui va être
détaillée lors du chapitre 4.
 Finalisation et reporting :
Figure 17: Logo docs et Word Figure 18: Logo Canva Figure 16: Logo de Lucidchart
3. Gestion des risques

Durant cette partie nous allons identifier chaque risque potentiel qui affectera la
réalisation de ce projet.
21
3.1. Identification des risques
Réalisateur projet : Myriam Khachlouf
Client : Mr Akram Anaya
ID Nature Catégorie Risque Gravité Probabilité Conséquences
Technique: Données
Très - Insatisfaction
1 Fiabilité Donnés Interne extraites inadéquate Critique
collectées à l’équipe
probable client
- Non validation
Technique: de sprints
Interne Ne pas répondre aux
2 Spécification Critique probable - Rétrospective
/Externe exigences clients
fonctionnelle lente
- Délais
Organisationnel:
- Délais
Planification et Mauvaise estimation Peu
3 Interne Mineur - Retard
estimation des délais probable Livraison
tâches
Tableau 1: Identification et classification des risques
3.2. Résolution et actions préventives
ID Risque Solution Statut
 Se renseigner à propos de l'équipe.

 Collecter des données fiables de
Données différentes sources.
1 extraites inadéquate à  Faire en sorte que les données ressemblent Clôturé
l’équipe en tous points à celles de l'équipe
(Domaine d’activité , nombre de
collaborateurs , types de tâches …).
 Bonne compréhension et analyse des

besoins clients.
Ne pas répondre aux
2  Investissement du client au cours du projet. Clôturé
exigences clients
 Prise en considération des remarques lors
de la phase rétrospective.
 Planification globale et détaillée des

différentes tâches de tout le projet à
Mauvaise estimation des
3 l’avance. Clôturé
délais
 Bonne planification des sprints et des
scénarios de validations.
Tableau 2 : Solution adéquate à chaque risque
22
4. Implémentation diagramme de Gantt
Après avoir étudier chaque phase, je suis maintenant prête pour dresser le
planning final de l’ensemble du projet, et ceci en implémentant le diagramme de
Gantt qui est un outil pratique pour planifier des projets. Grâce à une vue
d'ensemble des tâches planifiées, je peux suivre mon avancement et aider mon
encadrant avec une traçabilité réelle.
Le diagramme de Gantt détaillé du projet a été réalisé sur Excel dont la capture :
Figure 19 : Capture d'écran du réel diagramme de Grantt du projet
Cependant, et pour avoir une vue assez globale du planning du projet voici un
diagramme approximatif généralisé :
Figure 20 : Planning globale du déroulement de projet
23
5. Les Types d’accès disponible pour la solution
Vue 1 + Vue 2 + Vue 3 Vue 1 + Vue 2 Vue 1
Manager Team Leaders

Team Members
“Akram Anaya” “Malek” & “Ahmed”
 Project Management  Project Management  Informations sur les

Informations et suivi des Tracking projet et tâche projets assignés, leurs
projets, et de leurs tâches + projet, estimation durée tâches et les
KPI de suivi des phases de tâche (par membre/par différents
développement et de projet) +KPI avancement avancements.
production + Relations
cachées et estimation
 Team Management :  Informations sur son
Information et suivi des rendement (Durant
 Team Management : membres de l’équipe, et de un projet, un mois, un
Informations et suivi de leur statut “busy/ready”, trimestre, une année
l'équipe, de leurs rendements, estimation productivité ...)
détection des membres ayant membre, +KPI performances
le plus de travail réussi, des membre
membres ayant le plus de  KPI pour ses objectifs
travail accumulé (Durant un à atteindre.
projet, un mois, un trimestre,  Skills development
une année ...) Matrice de compétences
(Membre/compétences) +  Les membres de
KPI évolution compétences l'équipe avec qui il
partage le plus de
 Skills development tâches ou projets
Traçage des compétences et  Customer satisfaction
de l’évolution des membres Suivi des bugs, des
l'équipe, Détection des profils améliorations et des  Alertes : limite pour
par niveau d'expertise réouvertures tickets réouverture ticket
 Customer satisfaction  Suggestion :  Suggestion : Next

Suivi qualité des livrables , suivi Assignation de tâche skill to unlock
des bugs , des réouvertures suivant la
tickets ,détection anomalies compétence et
,rapport délais/qualité .. disponibilité
Tableau 3 : Les 3 types d'accès
Conclusion
Durant ce chapitre on a choisi la méthodologie du projet, on a réalisé un planning
détaillé avec sa gestion des priorité et gestion de risque pour finalement dresser
le diagramme de Gantt. On entamera la compréhension métier dans le troisième
chapitre qui est la première phase de notre projet.
24
CHAPITRE 3 : Compréhension
Métier
Introduction
Après avoir terminé la phase de conception et de planification, on poursuit avec

la réalisation du projet, et selon la méthodologie choisie, indiquée
précédemment, la première phase est celle de la compréhension métier.
1. Réalisation d’une étude sur le domaine du projet
1.1. Réalisation d’une présentation sur Canva portant sur la BI
Thème de présentation : Qu’est-ce qu’un Consultant Business Intelligence et

qu’est ce qu’il fait ?
Pour avoir une réponse claire et complète on passera par 4 grands points :
 Data et son usage au quotidien : Big Data

 Les appellations infinies du monde de la Data
 Business Intelligence et ses outils
 Les compétences nécessaires pour ce poste
Réponse durant la présentation :
Un consultant BI, ou le consultant Décisionnel, propose aux décideurs un outil

d’aide à la décision.
Le consultant BI n’est ni un Data Scientiste, ni un Architecte Data.
Un consultant BI doit être un Consultant Métier, Data engineer (Data Integrator)

et un DataViz spécialiste
L’atout le plus important chez ce consultant hormis l’axe technique est le volet
des Soft Skills incluant la communication, l’esprit analytique, la persuasion etc ...
25
Les outils de data integration les plus utilisés : Talend, SSIS, Pentaho, Informatica.
Les outils de Data Visualisation les plus utilisés : Power BI, Tableau, QlikView,
QlikSense.
1.2. Formation Jira Software
Dans le cadre du sujet de stage, j’ai débuté la formation dédiée à la

compréhension des informations pertinentes à partir d’un Board Jira-Software,
cela m’aidera à mettre le doigt sur les informations à explorer et à exploiter.
Figure 21 : Capture d'écran du Certificat Jira
1.3. Recherche et lecture Verticale de projets jira open-source
Exemple 1 : Jira Spring
Exemple 2 : Jira Hibernate
Exemple 3 : Jira Dataset from kaggle
26
2. Réalisation formulaire dans le cadre de l'enquête
Pour mieux comprendre le besoin du client, qui dans ce cas est Mr Akram Anaya ,
un questionnaire a été réalisé et lui a été envoyé .
Figure 22 : Capture du mail envoyé au client
La réponse de Mr Akram a été analysée et avait un poids lors de la réalisation du projet.
2.1. L’analyse des résultats de l’enquête
Le client a répondu au questionnaire en indiquant précisément ses besoins , une

réunion a été faite pour en discuter d’avantage afin de rafiner les details de la
solution.
Figure 23 : Capture d'écran des réponses du questionnaire
27
L'équipe R&D contient 10 membres qui réalisent souvent des projets en parallèle,
certains de ces projets ont des délais courts avec des taches critiques.
Les types et les domaines de projets diffèrent (entre Software development, Data
engineering & Project Management), mais tous ces projets sont tracés, suivis et
gérés sur Jira.
Conclusion
Après avoir bien étudier le domaine, après avoir fait des réunions avec l’ensemble
de l’équipe, le lancement de projet peut se faire en temps et en ordre.
La prochaine étape est l’implémentation de la solution en suivant le planning fixé

et validé avec l’encadrant du stage.
28
CHAPITRE 4 : Intégration des
données
Introduction
Durant ce chapitre, on verra toutes les étapes du Datawarehousing, de la collecte
des données, jusqu’à leurs organisation et stockage dans notre entrepôt de
données.
1. Collecte des données
1.1. Source de données
Des projets Jira open source sont disponibles sous Jira Hibernante , Jira Spring et
autres ..
On peut récupérer les données à partir de ces projets via un simple clic
télécharger sous format csv, sauf qu’on ne peut pas récupérer un Dataset dont sa
taille dépasse les 1000 enregistrements
Figure 24 : Capture détaillant la taille maximale des datasets
On a pu récupérer plus de 10 Datasets différents sauf que ces datasets étaient

inutilisables donc on a dû les prétraiter avant la phase Data Warehousing.
Exemple de projets Hibernante récupéré : Green House
29
1.2. Prétraitement des données
Durant cette étape nous verront les étapes de traitements des fichiers bruts
collectés.
Cette étape a été assurée avec l’extension existante dans Power BI et dans
Microsoft Excel qui est Power Query*.
Voici un exemple d’un dataset téléchargé à son état brut
Figure 25 : Dataset à son état brut
On verra après, ce même dataset prétraité, puis on peut voir ces mêmes données
passer à un état structuré sans caractères spéciaux, prêts pour la phase
d’intégration avec l’outil choisi.
*Power Query est un moteur de transformation et de préparation de données. Power

Query est fourni avec une interface graphique permettant d’obtenir des données à partir
de sources, et avec l’éditeur Power Query qui permet d’appliquer des transformations
30
Figure 26 : Dataset prétraité
Figure 27 : Dataset structuré
Nous allons poursuivre maintenant avec la définition de la structure de donnée

du projet qui est dans notre cas notre entrepôt de donnée en anglais
Datawarehouse.
31
2. Structure de donnée choisi pour le projet
2.1. Réalisation d’une présentation sur la structure de données BI
Une présentation a été réaliser dans le but de répondre à la question :
Quelle est la structure de donnée d’un projet BI ?
Pour répondre à cette question il Ya eu une introduction :
Lors de la digitalisation de l’information, on a eu recours au stockage données :

Que ce soit en Direct Area Storage ou en Network Based Storage , sous plusieurs
formes ; Object Storage, File Storage , Block Storage et Database Storage
Puis un résultat :
On s'intéresse dans notre cas aux bases de données structurée (Base de donnée
relationnelle) ou non structurée (NOSQL) et de leurs typologies (La manière la
plus populaire de classer les bases de données est selon l'usage qui en est fait, et
l'aspect temporel du contenu)
Figure 28 : Différences entre les types de bases de données
Bases opérationnelles ou OLTP (de l'anglais online transaction processing) sont

destinées à assister des usagers à tenir l'état d'activités quotidiennes
Bases d'analyse dites aussi OLAP (de l'anglais online analytical processing) sont
composées d'informations historiques telles que des mesures sur lesquelles sont
effectuées des opérations massives en vue d'obtenir des statistiques et des
prévisions. Les bases de données sont souvent des entrepôts de données (anglais
Datawarehouse)
32
Tableau 4 : Comparaison LOTP et OLAP
2.2. Structure choisie
La structure donnée du projet : Datawarehouse ou entrepôt de données, qui est

une base de données dédiée au stockage de l'ensemble des données utilisées
dans ce cadre pour la prise de décision et de l'analyse décisionnelle.
Pour Réaliser cet entrepôt de donnée on a besoin de définir une approche

spécifique pour sa conception. Les deux méthodologies de conception
d'entrepôt de données ont leurs propres avantages et inconvénients. Examinons-
les en détail pour déterminer lequel est le meilleur.
33
Figure 29 : Exemple d'un cube OLAP
2.3. Approche choisie pour l’implémentation de la Datawarehouse
Selon une étude réalisée par datastudies voici les différences entre ces
approches
Tableau 5 : Comparaison des approches de Datawarehousing
34
Figure 30 : L'approche Inmon
L'approche de conception de Bill Inmon offre les avantages suivants :
 L'entrepôt de données agit comme une source de vérité unifiée pour

l'ensemble de l'entreprise, où toutes les données sont intégrées.
 Cette approche a une très faible redondance des données. Ainsi, il y a
moins de possibilité d'irrégularités de mise à jour des données, ce qui rend
le processus d'entrepôt de données basé sur le concept ETL plus simple et
moins susceptible d'échouer.
 Cela simplifie les processus métier, car le modèle logique représente des
objets métier détaillés.
 Cette approche offre une plus grande flexibilité, car il est plus facile de
mettre à jour l'entrepôt de données en cas de changement dans les
exigences de l'entreprise ou les données sources.
 Il peut gérer diverses exigences de reporting à l'échelle de l'entreprise.
35
3. Conception de la Datawarehouse
3.1. Compréhension données
Des Datasets de projets d’une centaine de lignes ; tous partagent le même

entête :
Type Clé ID de Résumé Responsable ID de Rapporteur ID de Priorité Etat Résolution

de de ticket responsable rapporteur
ticket ticket
3.2. Identification des axes d’analyses
 Skills( Front-end/Back-end/Data Science..)

 Projects(nom projet/phase projet)
 Status(Résolu/priorité/état)
 Type de ticket (Bug /Amélioration /Tâche ...)
 Date
 Dimension hiérarchique : Equipe → Titre Collaborateur → Collaborateurs
3.3. Modélisation de la datawarehouse
Après avoir définis les axes d’analyse nous procédons par la modélisation de
notre structure de donnée réalisée sur l’outil DbSchema qui est un outil universel
de conception de bases de données pour la gestion des schémas, la
documentation des schémas, la conception en équipe et le déploiement sur
plusieurs bases de données.
Voici la version finale de notre Datawarehouse faites en anglais validé par

l’encadrant du stage :
36
Figure 31 : Modélisation Datawarehouse
4. Implémentation de la Datawarehouse
4.1. Différences entres les outils d’intégration de données
Plusieurs outils d’intégration de donnée existent sur le marché quelquesuns open

source dont :
 SSIS : SQL Server Integration Services (SSIS) est un ETL (Extract Transform
Load). Il permet de se connecter à n'importe quelle source de données (Excel,
fichier plat csv, XML, base de données, etc...). SSIS offre la possibilité de
collecter des données, de les transformer en données exploitables par les
outils d'analyse qui, elles-mêmes, vont alimenter une ou plusieurs bases de
données dédiées (bases de données relationnelles ou multidimensionnelles).
37
Figure 32 : Logo SSIS
Pentaho :PDI (Pentaho Data Integration), qui était auparavant connu sous le nom
de Kettle, est un logiciel d’ETL (Extract, Transform, Load) Open Source qui permet
la conception ainsi que l’exécution des opérations de manipulation et de
transformation de données très complexes.
Figure 33 : Logo Pentaho
Talend : Talend est un éditeur de logiciel dont la particularité est d’être spécialisé
dans l’intégration de données.Créé en 2006, Talend joue encore aujourd’hui un
grand rôle dans l’exploitation des données des entreprises. En effet, Talend est
classé leader depuis plusieurs années consécutives dans le Magic Quadrant de
Gartner.
Figure 34 : Logo Talend
38
Et d’autre payants comme :
Informatica est un ETL (Extract Transform Load) payant, conçu par la société
américaine Informatica. Cet outil est une gamme de solutions d’intégration des
données qui assure la simplicité de travail des équipes décisionnelles des
entreprises pour alimenter les entrepôts de données, sans la nécessité de
développer en code des programmes de transfert de données.
Figure 35 : Logo Informatica
4.2. Test sur deux outils open-source
Pour avoir un avis personnel sur les outils open source un test s’impose avec le
même Dataset ; On constate que :
 A l’encontre de Talend, SSIS exécute rapidement les jobs, mais ce dernier a
quelques problèmes de connectivités, par exemple avec les fichiers de forme
XLSX.
Pour se connecter à un fichier excel je dois manuellement modifier son type de
XLSX à XLS.
Talend a montré sa performance sur tous les points (plateforme/souple à
manipuler /connectivité …) sauf par rapport au temps d'exécution (qui est
carrément le double de SSIS)
Talend possédé aussi un large panel de connectivité et de fonctionnalités dans

quelques composants qui n’existe même pas dans SSIS comme le montre le
tableau suivant :
39
Tableau 6 : Différences entre les composants de chaque outils
40
4.3. Choix de l’outil d’intégration de donnée
Le choix final s’est tourné vers Talend qui est beaucoup plus riche en
fonctionnalités et en composants de connectivités et de manipulation data.
4.4. Implémentation des dimensions sur Talend
Rappelons que 8 dimensions existent qui reliés à la table de fait contenant les
mesures principales.
Une liaison hiérarchique existe entre les 3 tables “Employee”,”Role” et “Team”.
Dans cette partie on verra les Jobs Talend de chaque dimension.
Avant de détailler les jobs d’implémentation, une vue d’ensemble sur les
composants du projet est nécessaire.
Effectivement on verra maintenant la liste complète des composants pour tous

les Jobs.
tFileInputExcel : Lit un fichier Excel ligne par ligne pour les diviser en champs en
utilisant des expressions régulières, puis envoie les champs tels que définis dans
le schéma au composant suivant.
tDBOutput : Ce composant permet d’écrire, de mettre à jour, de modifier ou de

supprimer des entrées dans une base de données.
tDBInput : Ce composant permet de lire une base de données et d’en extraire des
champs en utilisant des requêtes et de les mettre dans une liste qui sera
transmise au composant suivant via une connexion de flux.
trowGenerator : Génère autant de lignes et de champs que nécessaire en utilisant

des valeurs aléatoires tirées d’une liste. Il peut être utilisé pour créer un flux
d’entrée dans une tâche à des fins de test, en particulier pour les ensembles de
tests limites.
tUniqRow : Compare les entrées et trie les entrées en double du flux d’entrée,
assure la qualité des données d’entrée ou de sortie dans une tâche.
41
tUnite : Centralise les données provenant de sources diverses et hétérogènes.
Fusionne les données provenant de diverses sources, sur la base d’un schéma
commun.
tMap : Transforme et achemine les données de sources simples ou multiples vers

des destinations uniques ou multiples. C’est un composant avancé, qui s’intègre
comme un plugin à Talend Studio.
tSortRow : Trie les données d’entrée en fonction d’une ou de plusieurs colonnes,

par type et ordre de tri, aide à créer des mesures et une table de classification.
tLogRow : affiche les données ou les résultats dans la console Run.
TFilterRow: Ce composant filtre les lignes d’entrée en définissant une ou

plusieurs conditions sur les colonnes sélectionnées.
tConvertType: Ce composant permet de convertir automatiquement des

données de type Java Talend vers un autre type, ce qui permet d’éviter les
erreurs de compilation.
4.4.1. Dimension Employee
Figure 36 : Capture d'écran du Job “Alimentation Dimension Employee” sur Talend
42
On voit ici la récupération de donnée des différentes sources existantes et leurs
traitements pour enfin les stocké dans une table sur l’outil PostgreSQL*
Figure 37 : Capture d'écran de la dimension Employee sur PostgreSQL
On voit dans la figure précédente la table Employee avec une clé étrangère qui
est le rôle de l’employée en question.
On continue maintenant avec la dimension suivante qui est la dimension rôle.
*PostgreSQL est un système de gestion de base de données relationnelle et objet. C'est

un outil libre disponible selon les termes d'une licence de type BSD. Ce système est
comparable à d'autres systèmes de gestion de base de données, qu'ils soient libres, ou
propriétaires.
43
4.4.2. Dimension Role
Figure 38 : Capture d'écran du Job “Alimentation Dimension Role” sur Talend
Ici on va une récupération de donnée avec une jointure avec une table s’appelant
Team, avant de vous monter cette table, on verra le résultat de cette
implémentation dans notre outil de stockage.
Figure 39 : Dimension Role
44
4.4.3. Dimension Team
Figure 40 :Capture d'écran du Job “Alimentation Dimension Team” sur Talend
Une création simple de données simple s’impose ici pour faire adapter notre
Dataset avec l’entreprise d’accueil, nous montrant finalement les équipes qui
existe dans Vermeg.
Voici le résultat obtenu sur PostGreSQL :
Figure 41 : Dimension Team
45
4.4.4. Dimension Skills
Figure 42 :Capture d'écran du Job “Alimentation Dimension Skills” sur Talend
Pour que notre Dataset soit adéquat à la situation réelle de l’équipe la table de
compétences s’aligne avec les compétences des membres de l’équipe qui sont :
Figure 43 : Dimension Skills
46
4.4.5. Dimension Date
Ici on verra une création totale de la dimension date, avec une génération de
variables et le traitement des lignes :
Figure 44 : Capture d'écran du Job “Alimentation Dimension Date” sur Talend
Dans ce composant « Tmap », on voit les détails de la génération des attributs :
Figure 45 : Capture de la génération des attributs de la dimension Date sur Tmap
47
4.4.6. Dimension Projets
Ici on verra le Job Projet contenant la récupération des données et leurs

transformations:
Figure 46 :Capture d'écran du Job “Alimentation Dimension Projets” sur Talend
Figure 47 : Capture sur la requête de génération de l'ID projet
48
Voici le résultat de la dimension projet dans notre base de donnée.
Figure 48 : Dimension Projet
4.4.7. Dimension TicketType
On passera maintenant aux types de tickets ou plutôt aux types de taches

existants dans les projets.
Figure 49 : Capture d'écran du Job “Alimentation Dimension TicketType” sur Talend
49
Voici le résultat du Job d’alimentation TicketType où on voit les types de taches
possible :
Figure 50 : Dimension TicketType
4.4.8. Dimension Status
On procède maintenant avec la 8éme et dernière dimension de notre

Datawarehouse qui est la dimension Status, contenant les états et les statut
possible pour un Ticket JIRA.
Figure 51 : Capture d'écran du Job “Alimentation Dimension Status” sur Talend
50
Figure 52 : Dimension Status
Après avoir terminé l’alimentation des 8 axes d’analyses de notre projet on va

clôturer la partie de l’intégration des données avec l’implémentation de notre
Table de Fait où on verra toutes ces différentes dimensions interférant avec les
mesures présentes.
4.5. Implémentation de la table de fait sur Talend
Les tables de faits contiennent des données qui sont utilisées pour
calculer les mesures dans les rapports de mesures. Les tables de faits sont
uniquement renseignées par des transformations ETL. Pour identifier un
objet métier comme une table de faits, dans notre cas on parlera plutôt de
gestion des tickets JIRA.
4.5.1. Mesures calculées ajoutée à la table

Les mesures dans la table de fait varient selon les dimensions et les axes
d’analyse. On verra ici les deux mesures ajoutées:
 Budget : Fait références au budget "jour-homme" correspond au travail

d'une personne pendant un jour.
 Temps de résolution :Date dépassement →par tâche :maj-création
51
4.5.2. Alimentation de la table de fait sur Talend
Figure 53 : Capture d'écran du Job “Alimentation Table de Fait” sur Talend
La Table de fait a 6 dimensions directement reliée à elle, d’où la jointure et les clés
étrangères qui existent dans notre table de fait.
Figure 54 : Capture du composant Tmap de notre table de fait
52
4.6. Amélioration et automatisation :
Une automatisation de l’exécution des Jobs est possible.

Effectivement, pour planifier l'exécution d'un Job créé à partir du Studio Talend,
on doit créer une tâche d'exécution basée sur ce Job dans la page Job
Conductor. Cette tâche est ensuite planifiée pour être générée, déployée et
exécutée à une heure donnée.
Une fois votre Job exécuté plusieurs fois via la page Job Conductor de Talend
Administration Center, vous pouvez monitorer ses exécutions (grille de
monitoring, informations statistiques et logs d'exécution).
(Talend, s.d.)
Figure 55 : Capture du Job Conductor
Conclusion
Durant ce quatrième chapitre on va vu toute la phase de l’intégration des

données. Cette phase est généralement réalisée par un Ingénieur BI ou un
Ingénieur Data. On a vu tout ce processus qui nous guidera maintenant, avec des
données bien ordonnées, à notre phase suivante du projet qui est la phase
d’exploration donnée, afin d’extraire le maximum d’informations cachés.
53
CHAPITRE 5 : Analyse des
données
Introduction
Durant ce chapitre on verra l’extraction, l’exploration et l’analyse des données en
anglais ce processus se nomme Datamining. Pour exploiter tout le potentiel des
data, le Datamining s’appuie sur un certain nombre de procédés et de modèles
qu’il vous faut connaître.
Il existe deux types de méthodes d’exploration de données : les méthodes

descriptives et les méthodes prédictives.
1. Les objectifs Data Mining de Jira-Analytics
1.1 Traduction des objectifs Métiers en Objectifs Datamining
Cette phase est l’équivalent de la phase de spécifications fonctionnelles d’un

projet de développement informatique.
Cette phase consiste à : • Énoncer clairement les objectifs globaux du projet et

les contraintes de l’entreprise et traduire ces objectifs et ces contraintes en un
problème de datamining. Il s’agit donc de formuler une recherche de
corrélations, c’est-à-dire la recherche de règles du type : si A alors B.
Dans notre cas voici une traduction des objectifs métiers en objectifs
d’exploration des données.
Objectifs métiers Objectifs Data Mining
○ Analyser et comprendre le  Classifier les équipes selon

comportement de son équipe lors leur comportement et leur
de la réalisation d’un projet → réalisation des projets
Team Management assignées
○ Détecter les profils par niveau  Segmenter les profils des

d'expertise → Skills development employés selon leurs
compétences
Tableau 7 : Traduction objectifs métiers en objectifs Datamining
54
On se propose aussi d’ajouter d’un objectif prédictif: À partir des heures de
travail, de la tâche prise, des retards de réalisation de tâche, on pourra prédire la
motivation de l’employé en question
1.2 Vue globale sur les objectifs et leurs algorithmes datamining associés
Les méthodes descriptives de forage de données cherchent à mettre en valeur

des informations pertinentes, mais qui sont au départ noyées dans une masse de
données.
Les méthodes prédictives de l’exploration de données s’appuient sur des

informations connues pour deviner de futures données. On recherche ici une
variable “cible”, c’est-à-dire une donnée dont on souhaite connaître la valeur.
Figure 56 : Objectifs Datamining
La réalisation de ces objectifs se fera avec l’utilisation des ensembles de méthodes de série-
temporelle.
55
2. Implémentation avec le langage Python
2.1. Objectif Prédictif Avec l’Algorithme Deep Learning Keras.
Figure 57 : Différences entre Deep Learning et Machine Learning
On a utilisé un API Deep Learning dû à la précision de ce dernier s’élevant à 96% à

l’encontre des algorithmes machine Learning s’élevant au maximum à 88 %.
Keras est une API conçue pour les êtres humains, pas les machines. Keras suit les
meilleures pratiques pour réduire la charge cognitive : il offre des API cohérentes
et simples, il minimise le nombre d’actions utilisateur requises pour les cas
d’utilisation courante, et il fournit des messages d’erreur clairs et réalisables. Il
dispose également d’une documentation complète et des guides du
développeur.
On va s’intéresser à répondre à la question :

Est-ce que ce membre de l'équipe est motivé ?
La motivation affecte directement la performance du membre de l'équipe c’est

pourquoi on s’y est intéressé
 On va prédire à partir des heures de travail, des retards de livraisons et des
réouvertures tickets si cet employé est motivé ou s’il manque de
motivation.
 Pour ce faire on a eu recours à un Dataset d’apprentissage de 1000
enregistrements
Les colonnes de ce dataset sont :
56
Figure 58 : Dataset de l'objectif prédictive
 'EmployeeID' :
 'Total Months of Exp’: Représente les mois d’expérience de cet employé
 'Total Projects Worked': Représente le nombre de projets sur lesquels cet
employé a travaillé
 'Monthinlastproj’: Représente le cumul des mois de travail du dernier
projet
 'Issues Reopen’: Représente le nombre moyen de réouverture de ticket par
projet
 'Average Feedback’: Représente le nombre de réponses sur tickets.
 'Delayed Issues’: Représente le nombre moyen des retards de livraisons.
 'Motivation': Représente notre variable cible, c’est qu’on essaye de prédire.
Nous commençons par charger les données à l'aide de pandas dans un cadre de
données, puis nous examinons les données chargées, leur structure et leur
contenu. Nous pouvons constater que les données ont été chargées
57
correctement. En classification, il est toujours bon de comprendre la relation
entre la caractéristique et les variables cibles, en particulier quelles variables de la
caractéristique ont le plus d'impact sur la variable cible. Pour ce faire, nous
utilisons l'analyse de corrélation. Ici, nous faisons une analyse de corrélation sur la
variable cible, la motivation.
Figure 59 : Importation du Dataset
Nous voyons que la variable 'Delayed Issues' a un impact Significatif Négatif sur
la motivation, ce qui signifie que les employés qui ont une tendance à être en
retard dans la réalisation de leurs tâches sont le plus souvent démotivés.
Figure 60 : Corrélation entre les variables
Ensuite, nous préparons les données pour l'apprentissage automatique. Nous

commençons par convertir l'ensemble de données en un tableau NumPy de type
float. Il s'agit du format d’entrée préféré de Keras.
Après, nous divisons la caractéristique et les variables cibles en X et Y. Nous

laissons de côté l'EmployeeID. Nous pourrions également procéder au centrage
et à la mise à l'échelle, si la précision est trop faible. Pour la variable cible, nous
58
utiliserons le codage à chaud en utilisant la fonction to_categorical de Keras.
Comme l'attrition est booléenne, elle a deux valeurs uniques.
Enfin, nous imprimons les formes sur X et Y. Exécutons ce code et examinons les
résultats. Nous voyons qu'il y a mille échantillons. X a six colonnes pour les six
attributs. Y a deux colonnes car il a un codage à un coup pour deux valeurs
uniques.
Figure 61 : Configuration Keras
59
Maintenant, nous pouvons créer un modèle Keras. Ensuite, nous ajoutons une
couche cachée dense avec ReLU comme activation. Nous ajoutons ensuite une
deuxième couche cachée. Enfin, nous ajoutons une couche dense de sortie avec
une activation softmax. Nous compilons le modèle avec Adam optimizer et
utilisons la crossentropie catégorielle comme dernière fonction. Nous mesurons
également la précision du modèle. Ensuite, nous ajustons le modèle pour ces
données d'entrée. Cet ensemble d'étapes est un modèle standard pour la
construction de modèles d'apprentissage profond de base. Nous pouvons voir
que le modèle a fini avec une précision de 96%.
Figure 62 : Le modéle Keras Final
60
Afin de prédire la motivation, nous devons obtenir le même ensemble de six
variables de caractéristiques concernant le nouvel employé pour lequel nous
devons prédire l'attrition. La prédiction est alors un simple appel à la méthode
model.predict_classes qui produira un zéro ou un un en fonction des
caractéristiques.
Nous pouvons voir que l'algorithme prédit que l'employé est motivé. Nous
pouvons également faire des prédictions en masse pour plusieurs employés.
Nous devons créer un tableau de tableaux, le tableau interne représentant un
employé. L'appel de la méthode est le même.
Voici enfain le résultat du modèle , en faisant entrer quelques parametres on

pourra voir si l’employée en question est motivé ou pas :
Figure 63 : Résultat du modèle Keras
61
2.1. Objectifs descriptifs : Identifier les profils de membres de l'équipes
suivant leurs compétences
2.1.1. L'analyse en composantes principales (ACP ou PCA en anglais pour

principal component analysis)
L’objectif de l’analyse en composantes principales (ou ACP) est purement

descriptif : il s’agit « d’explorer » un ensemble d’observations rassemblées sous la
forme d’un tableau de données indiquant pour chaque unité statistique les
valeurs observées d’un certain nombre de variables quantitatives.
Figure 64 : Dataset pour l'algorithme ACP
Pour travailler avec cet algorithme on a besoin d’un Dataset quantitatif.

Nous avons calculé le nombre de tickets réalisé par chaque membre de l'équipe.
62
 Nous avons sélectionné les 3 colonnes :
o « ISSUE DATA SCIENCE »: représente le nombre de tickets data
science que le membre a travaillé dessus.
o « ISSUE BACKEND »: représente le nombre de tickets Backend que
le membre a travaillé dessus.
o « ISSUE FRONTEND »: représente le nombre de tickets Frontend que
le membre a travaillé dessus.
Figure 65 : Déterminer le nombre d’axes de l’analyse pour ACP
63
Pour répondre à cette question, il faut consulter le tableau des valeurs propres
qui accompagne l’ACP. Les valeurs propres sont classées de façon décroissante.
L’inertie de chaque axe et l’inertie cumulée figurent également dans ce tableau

pour déterminer le nombre d’axes à prendre en compte :
- Un critère absolu : ne retenir que les axes dont les valeurs propres sont
supérieures à 1 (c'est le critère de Kaiser).
Figure 66 : L'information présentes sur les axes ACP
Le 1er et le 2eme axe représentent le maximum de cumul d’informations.
Les mapping de l’ACP sont les projections des variables et des individus sur un
plan factoriel déterminé. On commencera par interpréter le premier plan factoriel
(celui formé par les facteurs F1 et F2) car c’est celui qui concentre la plus grande
partie de l’information du nuage. On ira voir ensuite et le cas échéant les autres
plans factoriels. Sur un plan factoriel, On n’interprète que les variables et les
individus qui sont bien représentés. Pour les individus, on utilisera les
64
contributions absolues et relatives alors que pour les variables, on n'interprète
que celles qui sont proches du cercle de corrélation.
La représentation des variables :
Figure 67 : Le cercle de corrélations sur ACP
65
Lecture directe :
Issue_backend et Issue_datascience sont orthogonaux → Le coefficient de

corrélation =0
Issue_backend et Issue_frontend sont opposé avec une petite dominance de

Issue_backend → Le coefficient de corrélation = -1
Issue_backend et Issue_frontend sont opposé avec une petite dominance de

Issue_datascience → Le coefficient de corrélation = -1
Figure 68 : La corrélations des Variables
Interprétation variables:
Les variables à interprété ici sont les tickets Backend, data science et Frontend ;
on voit notamment que les variables Backend et data science sont orthogonaux
avec backend purement positive ; ce qui signifie que ceux qui travaillent
principalement sur des tâches backend n’ont pas tendance à travailler sur des
tickets data science et le contraire n’est pas vrai ; ceux qui travaillent sur des
tâches data science peuvent travailler sur des tickets backend plutôt que sur des
tâches frontend.
66
La représentation des individus :
Pour n le nombre de membres d'équipe = 10
Figure 69 : Représentation des individus
Lecture directe :
On distingue quelques individus très bien représenté comme
o Lynn diaz qui est corrélé positivement avec les deux axes
o Stormy muto et Curtis rocha qui sont presque superposés et aussi corrélé
avec l’axe des abscisses
67
Interprétation variables:
Il existe plusieurs interprétations possibles :
On peut distinguer ceux qui ont un comportement similaire : une gestion de

tickets similaire et des types de tâches similaires ; ces individus sont
généralement superposés comme dans le cas des membres de l'équipe Stormy
muto et Curtis rocha qui se ressemble le plus.
On peut aussi interpréter les individus selon le cercle de corrélation des variables
: Avec cette analyse on peut déduire selon la position du nom de membre de
l'équipe sur l'échelle , son profil le plus adéquat ; par exemple on voit la position
de Lynn diaz en haut à droite comme Issue_backend dans le cercle ; c’est à dire ,
le profil de cette employé est un profil de développeur backend , prenons un
autre exemple ; dans n = 50 , on voit deux profils qui se distinguent en bas à
droite , Joan Laird et Stephen Bruno sont deux membres de l'équipe qui ont un
comportement similaire et un profil de data scientistes.
Figure 71 : Représentation pour n le nombre de Figure 70 :Représentation pour n le nombre de membres

membres d'équipe = 20 d'équipe = 50
68
2.2. K-means (ou k-moyennes) : Algorithme de clustering
C’est un algorithme simple d’apprentissage non supervisé utilisé pour résoudre
les problèmes de clustering.
Ce dernier est déployé pour découvrir des groupes qui n’ont pas été
explicitement définis.
1.Tout d'abord, nous aurons besoin de trouver le nombre de groupes “k” optimal à
l’aide de la méthode du coude.
Figure 72 : la méthode de coude pour déterminer le nombre de cluster
69
On distingue donc que le nombre de clusters optimaux peut être 2, 3 ou 6 donc
on va essayer afin de distinguer le nombre optimal
2.Afin de répondre à notre objectif métier nous avons choisi de sélectionner 3

cluster chacun correspondant à un profil
Figure 73 : Création des clusters
Visualisation et interprétation des clusters de de leurs centroïdes
Figure 74 : Plot de visualisation des clusters
70
On voit la large dominance des profils data science et des profils backend par
rapport aux profils frontend.
On voit que les profils data science sont présents dans la réalisation des tâches
front end mais aussi backend.
On voit que chaque cluster a 3 centroïdes et qu’un centroïde est perdu entre les
profils backend et frontend
Conclusion algorithme :
→ Les profils data science sont les profils les plus flexibles ; ce sont les profils qui
peuvent travailler sur des tâches front end comme sur des tâches backend.
→ Les profils dominants sont ceux travaillant sur des tickets backend surement
pour la complexité des tâches ou pour le besoin actuel de l’équipe.
→ Une migration du profil Data Science au profil backend est apparente avec le
centroïde de DS dans les limites back.
→ Une migration du profil Data Science au profil frontend est légèrement visible
avec le centroïde de DS proche des limites front end.
Conclusion
Durant ce cinquième chapitre, on a pu extraire de l’information à partir d’une

large quantité de données comme ça, on aura plus de faciliter à prendre une
décision concernant l’équipe. On s’intéresse maintenant à notre sixième et
dernier chapitre qui concerne la visualisation des données.
71
CHAPITRE 6 : Visualisation des
données
Introduction
Finalement, on arrive à la partie de la DataViz, dans laquelle on a principalement
réaliser des plots, étudier des formules de KPI’s et assembler des Dashboards.
1. Benchmarking des outils de Visualisation de

données
Avant de partager avec vous le résultat final, nous voulions revenir sur un critère
marquant pour chacune des solutions de dashboarding pour justifier l’outil
choisi.
 La créativité avec Tableau Desktop
Figure 75: Logo de Tableau
C’est LA solution créative de cette sélection. L’interface est user-friendly et vous

laisse une grande liberté de personnalisation. Le menu “Montre-moi” dispose d’une
quantité limitée de formes graphiques de base. Elles permettent de créer une vue
basée sur une sélection de champs à votre guise ; libre aux développeurs plus
expérimentés de laisser libre cours à leur imagination.
72
 Le « bon rapport qualité-prix » avec Power BI
Figure 76 : Logo de Power BI
Power BI allie prix très compétitif et offre très complète. La solution se place
dans le top des 3 des solutions les plus choisies par les clients sur ces dernières
années. Power BI a beaucoup progressé sur les viz, la gestion des objets est
similaire à celle de PowerPoint avec ses avantages et ses inconvénients. De plus,
une marketplace permet de télécharger des viz développées par d’autres
utilisateurs si celles natives ne correspondent pas à vos besoins. Power BI
s’intègre naturellement à la suite office et est très recommandé pour des
tableaux de bord opérationnels et personnels des métiers au quotidien.
 Le « Big Data » avec Qlik Sense
Figure 77 : Logo le Qlik Sense
Qlik Sense s’assure une place parmi les leaders avec son modèle associatif très
performant permettant de traiter de très gros volumes de données ; le meilleur
dans ce domaine. C’est une très bonne solution ; facile à prendre en main pour la
partie dataviz. Un éventail de viz est déjà disponible et le générateur de tableau
de bord est une interface intuitive. Cependant sur la partie modélisation en
amont, une expertise peut s’avérer nécessaire.
(Synalitic, s.d.)
73
2. Différences entres les types de graphiques
En général, les types de graphiques les plus populaires sont les graphiques à
colonnes, à barres, à secteurs, à beignets, à lignes, à zones, à dispersion, à
araignée (radar), les jauges et les cartes de comparaison. Voici un aperçu rapide
de tous ces types de graphiques. Le plus grand défi est de choisir le type de
graphique le plus efficace pour votre projet.
Ci-dessous, nous pouvons voir certains graphiques -les plus communs- avec une
explication rapide pour leur mise en pratique.
2.1. Graphiques à barres
Figure 78 : Diagramme à barres
Les graphiques à barres sont souvent utilisés pour mettre en parallèle des
données à un instant T. Les données sont représentées à l’aide de rectangles. Ils
sont utilisés pour montrer des proportions, des tendances, des comparaisons ou
des contrastes.
Proportions : Le graphique à barres représenté ci-dessus pourrait représenter par

exemple les résultats des votes obtenus par cinq partis politiques distincts. Le
parti représenté par la barre bleue aurait gagné, suivi de près par celui représenté
par la barre rouge. Le minimum de votes aurait été celui représenté par la barre
verte.
74
2.2. Graphiques linéaire (ou à ligne)
Figure 79 : Diagramme linéaire
Les graphiques linéaires utilisent des lignes pour démontrer des tendances de
données dans un intervalle-temps déterminé. C’est pour cela qu’ils sont utilisés
pour mettre en évidence les tendances ou l’avancée d’un phénomène particulier.
Ce type de graphique peut montrer par exemple les tendances ou la

progression de l’utilisation de trois réseaux sociaux au cours du temps. Celui
représenté par la ligne bleue met en évidence un développement rapide au
début puis une légère chute ; le jaune, une croissance constante.
2.3. Histogramme
Figure 80 : Histogramme
L’histogramme est semblable au graphique à barres, avec une donnée

supplémentaire.
Dans cet exemple, sur l’axe des X, pourrait être reportés différents catégories
sportives (foot, basket, ski, etc …) et sur la barre des Y, le nombre de personnes
qui pratiquerait chaque activité sportive, distinguées en trois catégories, les
mineurs, les adultes et les séniors, différenciés par trois couleurs différentes.
75
2.4. Graphique à barres positif et négatif
Figure 81 : Graphique à barres positif et négatif
Un graphique à barres positif/ négatif est utile pour montrer une évolution positive
ou négative.
L’exemple pourrait représenter l’évolution économique d’un magasin ouvert

récemment, en mettant en parallèle les dépenses soutenues au départ, et les
bénéfices qui seraient réalisés au cours du temps.
2.5. Graphique (ou diagramme) circulaire
Figure 82 : Le camembert
Un graphique circulaire (ou camembert) est constitué d’une aire divisée en

segments ou en parts comme un gâteau. Il exprime les proportions des différents
éléments qui le constituent en pourcentage (%). Leur somme est égale à 100%.
Par exemple ce type de graphique pourrait être utilisé pour montrer comment
une personne dépense son argent en un mois : la section A représenterait
l’argent dépensé pour le loyer, en B la nourriture, en C l’habillement, en D les
transports et en E toutes les dépenses variées.
76
2.6. Histogramme en pile
Figure 83 : Histogramme en pile
C’est un type d’histogramme dans lequel une colonne est remplacée par
différentes barres placées les unes sur les autres. Ce type de graphique permet
de comparer la contribution en pourcentage de chacune des valeurs par rapport
à un total réunissant diverses catégories.
Proportions – Par exemple, si je veux montrer combien de fruits sont consommés

par un groupe de personnes (par ex., colonne 1 Italiens, colonne 2 Anglais,
colonne 3 Français, etc …), et les différents fruits consommés (oranges, bananes,
pommes), en divisant la colonne en trois barres distinctes superposées on peut
comprendre non seulement la catégorie consommée par groupe au total, mais
aussi le pourcentage d’oranges, de bananes et de pommes consommées par
chacun des groupes.
3. Solution finale et Dashboarding
Figure 84 : Dashboard Final
77
Ici un exemple d’une première itération d’un Dashboard pour le team leader avec
plusieurs filtres (sur le type de projet, l’état du ticket, le nom du membre de
l’équipe …), des KPI pour l’avancement des projets en cours et la participation de
chacun.
Ça leur permettra aussi de voir quel est le membre le plus éligible pour une
assignation future des taches.
Ce Dashboard accueil 5 types de graphique avec 7 filtres différents qui

interagissent avec tous les plots présents.
Conclusion
Durant ce dernier chapitre on a conçu un Dashboard adéquat aux besoins de

l’acteur en question. Une conception des autres Dashboards a été réaliser
permettant une aide à la décision, pour la gestion de l’équipe, la gestion de
projet, le suivi des compétences et de leurs développements ainsi pour la
satisfaction client et le suivi des bugs après livraison.
78
Conclusion Générale
Ce rapport présente notre travail, effectué au sein de Vermeg, dont l’objectif

principal est la validation du stage ingénieur qui est le stage pré-projet de fin
d’étude. Ce projet se nommant « JIRA ANALYTICS », consiste à concevoir et à
développer une solution d’aide à la décision en exploitant les données de JIRA.
Après deux mois de travail acharné, après trois présentations, cinq livrables et
neufs différents outputs entre notebook, Dashboard et job Talend, ce projet a été
validé avec excellence.
Tout au long de ce stage, nous avons utilisé le cadre méthodologique Scrum

croisé avec CRISP-DM pour garantir la bonne gestion du projet.
Cette méthode nécessite un découpage du projet en des sprints adéquats au

phases de traitement de données. Dans le cas de notre projet, nous avons
structuré les fonctionnalités demandées en cinq sprints :
Le premier concerne la compréhension métier, le deuxième porte sur la

conception et l’implémentation, le troisième avait pour objectif l’intégration des
données, le quatrième sprint était l’analyses de ces derniers pour finir avec la
visualisation et le dashboarding.
Ce stage était une expérience bénéfique autant sur le plan professionnel que sur
le plan connaissance. On a appris plein de choses telles que le travail en équipe,
l’amélioration de nos connaissances pratiques ainsi que la gestion du temps et
des tâches. À la fin ce stage on a réussi à satisfaire les objectifs fixés en réalisant
toutes les parties initialement conçues.
Ce projet peut avoir des potentielles améliorations :
 L’automatisation de la récupération du traitement de donnée dans la

phase d’intégration de données.
 La réalisation d’autres objectifs prédictifs.
 L’intégration de la phase d’analyse de donnée dans les Dashboards.
79
Bibliographie
CrispDM Methodology. (s.d.). Récupéré sur Towards Data Science:

https://towardsdatascience.com/crisp-dm-methodology-for-your-first-
data-science-project-769f35e0346c
JIRA. (s.d.). Récupéré sur A quoi sert Jira:

https://www.atlassian.com/fr/software/jira/guides/use-cases/what-is-
jira-used-for#Jira-for-requirements-&-test-case-management
Synalitic. (s.d.). Benchmarking BI. Récupéré sur

https://www.synaltic.fr/blog/business-intelligence-la-grille-de-
benchmarking
Talend. (s.d.). Talend Help. Récupéré sur Automatisations:

https://help.talend.com/r/fr-FR/8.0/administration-center-user-
guide/how-to-generate-deploy-and-run-your-job-manually
Vermeg. (s.d.). Récupéré sur A propos de Vermeg: https://www.vermeg.com/fr/
80
Annexe
Le lien de la présentation « Que fait un Business Intelligence Analyste ? » :
https://www.canva.com/design/DAFGTqKsJLQ/JACfxYWprlExjQ7ijthg1w/view?
utm_content=DAFGTqKsJLQ&utm_campaign=designshare&utm_medium=link2
&utm_source=sharebutton
Le lien de mon certificat personnel « JIRA & AGILE » :
https://www.coursera.org/account/accomplishments/certificate/825H3JQDLC
K6
Le lien de la présentation « C’est quoi la structure de donnée dans projet BI ? » :
https://www.canva.com/design/DAFIEdG7bWk/Lc7dp_5G_0RXG6hgvjCbhQ/vi
ew?utm_content=DAFIEdG7bWk&utm_campaign=designshare&utm_medium=li
nk2&utm_source=sharebutton
Le lien de la présentation finale du projet « JIRA Analytics » :
https://www.canva.com/design/DAFLZdc4FTU/dQK7RE0Z8GbBmEDtOTiFDA/v
iew?utm_content=DAFLZdc4FTU&utm_campaign=designshare&utm_medium=li
nk2&utm_source=sharebutton
Guide et Documentation pour l’algorithme Datamining ACP :
https://www.soft-concept.com/surveymag/comment-lire-une-acp.html
Lien du Dashboard final « Team Leader’s View » sur Tableau :
https://public.tableau.com/app/profile/myriam.khachlouf/viz/Teamleadviewv0
/Tableaudebord1?publish=yes
81

Rapport de Stage - Myriam Khachlouf

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Rapport de Stage - Myriam Khachlouf

Transféré par

Droits d'auteur :

Formats disponibles

1

Je remercie également toute l’équipe de recherche et développement (R&D) qui

À tout ami qui m’a aidé même avec une idée.

À la mémoire des chers qui nous ont quittés vers l’éternité.

Merci à tous d’être présents dans ma vie et d’être là pour moi.

La Business Intelligence (BI) est un processus technologique d'analyse des

Aujourd'hui, les entreprises s'appuient sur les logiciels de Business Intelligence

Dans ce cadre se pose le sujet de mon stage d’ingénieur chez Vermeg.

Effectivement mon stage avait comme objectif d’élaborer un projet au sein de

Ce rapport présente la combinaison du travail durant deux mois de stage. Ce

• Le deuxième chapitre présente la méthodologie adaptée, la planification et la

• Le troisième chapitre détaille la compréhension métier et l’enquête réalisée.

• Le quatrième chapitre présente le lancement du projet avec sa première phase

• Le cinquième chapitre dévoile les relations cachées existantes dans nos

• Le sixième et dernier chapitre présente la solution finale qui est un Dashboard

CHAPITRE 1 : ÉTUDE PRÉLIMINAIRE.............................................................................. 10

1.1 Présentation de l’entreprise

1.2 Logo et charte graphique de l’enseigne

Figure 1 : Logo de l'entreprise Vermeg

1.3 Equipe Assignée

Sous l’encadrement de Monsieur Akram Anaya, le manager de l’équipe

2.1. Enoncé du sujet de stage :

2.2. Analyse des besoins du projet :

Les taches et projets réalisés au sein de l’entreprise sont tracés, suivis et

Cet outil offre aussi des fonctionnalités d’observation et de visualisation :

Dans ce cadre se pose ce sujet de stage, en ajoutant quelques fonctionnalités à

D’autres fonctionnalités seront ajoutées au fur et à mesure de l’avancement du

 Prise en compte du reporting existant :

2.4. Solution demandée

Un outil d'aide à la décision ; un Dashboard interactif adéquat à tout projet R&D,

Afin d’obtenir un résultat efficace et dans le but de réaliser un produit de qualité,

CRISP-DM (CRoss-Industry Standard Process for Data Mining) est un modèle de

Figure 3: Méthodologie CRISP-DM

 Compréhension des activités et des données

 Compréhension et préparation des données

Scrum est une méthodologie Agile dominante et un processus utilisant un

Figure 4 : Méthodologie Scrum

Le processus itératif CRISP-DM respecte la nature expérimentale et ouverte aux

En outre, une méthodologie Agile comme Scrum, apporte beaucoup plus

1.4. Choix finale de la méthodologie

Lorsque nous interférons le processus CRISP-DM et Scrum pour la livraison des

Alors que nous livrons itérativement en sprints, notre compréhension des

En conclusion, la comparaison entre CRISP-DM et Agile n’est pas comparable. Ils

Figure 5: Les phases du projet

2.1. Identification des taches et estimation de chaque phase

 Compréhension Métier en anglais Business Understanding

 Intégration de données : Data Warehousing

 Exploration at analyse des données en anglais Data Analysis

Figure 9: Logo Power Query Figure 10: Logo

Figure 14: Python in Google Colab IDE

La phase de data mining et analyse de données a été réalisé avec le langage

3. Gestion des risques

ID Nature Catégorie Risque Gravité Probabilité Conséquences

3.2. Résolution et actions préventives

ID Risque Solution Statut

 Se renseigner à propos de l'équipe.

 Bonne compréhension et analyse des

 Planification globale et détaillée des

Figure 19 : Capture d'écran du réel diagramme de Grantt du projet

Figure 20 : Planning globale du déroulement de projet

Vue 1 + Vue 2 + Vue 3 Vue 1 + Vue 2 Vue 1

Manager Team Leaders

 Project Management  Project Management  Informations sur les

 Customer satisfaction  Suggestion :  Suggestion : Next