Académique Documents
Professionnel Documents
Culture Documents
REMERCIEMENTS
C’est avec un grand plaisir que je réserve cette page en signe de gratitude et de
profonde reconnaissance à tous ceux qui m’ont aidé à la réalisation de ce travail.
Mes vifs remerciements s’adressent à Monsieur Akram Anaya qui m’a fait
l’honneur d’être mon encadrant au sein de l’entreprise d’accueil, pour son
soutien, pour le temps qu’il m’a réservé malgré ses grandes charges
professionnelles, ainsi que pour ses critiques constructives et innovantes à la fois
tout au long de ma période de stage.
À tous ceux et celles qui m’ont enseigné et m’ont enrichi avec leurs savoirs
spécialement Madame Dorra Trabelsi, Madame Ines Slimen et Madame Imen
Kochbati.
J’adresse ma gratitude à toute ma famille qui m’a toujours été d’un grand soutien
moral et matériel, ceux qui m’ont toujours soutenu et cru en moi. C’est grâce à
vos sacrifices et précieux conseils que je parviens à accomplir des grandes
réalisations dans ma vie avec succès.
À Libertad.
2
INTRODUCTION GÉNÉRALE
• Le premier chapitre expose l’étude préliminaire du projet qui donnera une vision
générale sur ce dernier.
3
Table des matières
4
1.1. Réalisation d’une présentation sur Canva portant sur la BI .................... 25
1.2. Formation Jira Software ............................................................................... 26
1.3. Recherche et lecture Verticale de projets jira open-source ................... 26
2. Réalisation formulaire dans le cadre de l'enquête .......................................... 27
2.1. L’analyse des résultats de l’enquête ........................................................... 27
Conclusion..................................................................................................................... 28
CHAPITRE 4 : Intégration des données ........................................................................ 29
Introduction .................................................................................................................. 29
1. Collecte des données ........................................................................................... 29
1.1. Source de données ........................................................................................ 29
1.2. Prétraitement des données.......................................................................... 30
2. Structure de donnée choisi pour le projet ........................................................ 32
2.1. Réalisation d’une présentation sur la structure de données BI .............. 32
2.2. Structure choisie ............................................................................................ 33
2.3. Approche choisie pour l’implémentation de la Datawarehouse ............ 34
3. Conception de la Datawarehouse ...................................................................... 36
3.1. Compréhension données ............................................................................. 36
3.2. Identification des axes d’analyses ............................................................... 36
3.3. Modélisation de la datawarehouse ............................................................. 36
4. Implémentation de la Datawarehouse .............................................................. 37
4.1. Différences entres les outils d’intégration de données ........................... 37
4.2. Test sur deux outils open-source ................................................................ 39
4.3. Choix de l’outil d’intégration de donnée ..................................................... 41
4.4. Implémentation des dimensions sur Talend .............................................. 41
4.5. Implémentation de la table de fait sur Talend ........................................... 51
4.6. Amélioration et automatisation : ................................................................. 53
Conclusion..................................................................................................................... 53
CHAPITRE 5 : Analyse des données .............................................................................. 54
Introduction .................................................................................................................. 54
1. Les objectifs Data Mining de Jira-Analytics...................................................... 54
1.1 Traduction des objectifs Métiers en Objectifs Datamining ..................... 54
1.2 Vue globale sur les objectifs et leurs algorithmes datamining associés 55
2. Implémentation avec le langage Python .......................................................... 56
2.1. Objectif Prédictif Avec l’Algorithme Deep Learning Keras. ......................... 56
2.1. Objectifs descriptifs : Identifier les profils de membres de l'équipes
suivant leurs compétences ..................................................................................... 62
5
2.1.1. L'analyse en composantes principales (ACP ou PCA en anglais pour
principal component analysis)................................................................................ 62
Conclusion...................................................................................................................... 71
CHAPITRE 6 : Visualisation des données ..................................................................... 72
Introduction .................................................................................................................. 72
1. Benchmarking des outils de Visualisation de données ................................... 72
2. Différences entres les types de graphiques ..................................................... 74
2.1. Graphiques à barres ....................................................................................... 74
2.2. Graphiques linéaire (ou à ligne) ................................................................... 75
2.3. Histogramme .................................................................................................. 75
2.4. Graphique à barres positif et négatif .......................................................... 76
2.5. Graphique (ou diagramme) circulaire ......................................................... 76
2.6. Histogramme en pile ..................................................................................... 77
3. Solution finale et Dashboarding ......................................................................... 77
Conclusion..................................................................................................................... 78
Conclusion Générale ....................................................................................................... 79
Bibliographie .................................................................................................................... 80
Annexe ............................................................................................................................... 81
6
Table des figures
Figure 1 : Logo de l'entreprise Vermeg .......................................................................... 10
Figure 2: Logo de Jira Software...................................................................................... 12
Figure 3: Méthodologie CRISP-DM ................................................................................ 15
Figure 4 : Méthodologie Scrum ...................................................................................... 16
Figure 5: Les phases du projet ........................................................................................ 18
Figure 6: Logo Gantt Diagramme .................................................................................. 20
Figure 7: Logo de Google Forms ................................................................................... 20
Figure 8: Logo de Lucidchart ........................................................................................ 20
Figure 9: Logo Power Query .......................................................................................... 20
Figure 10: Logo Excel/csv............................................................................................... 20
Figure 11 : PostGre SQL.................................................................................................... 20
Figure 12 : Power AMC for Modeling ............................................................................ 20
Figure 13: Talend for Data Integration .......................................................................... 20
Figure 14: Python in Google Colab IDE .......................................................................... 21
Figure 15 : Logo de Tableau ............................................................................................. 21
Figure 16: Logo de Lucidchart ......................................................................................... 21
Figure 17: Logo docs et Word Figure 18: Logo Canva.................................. 21
Figure 19 : Capture d'écran du réel diagramme de Grantt du projet ....................... 23
Figure 20 : Planning globale du déroulement de projet............................................ 23
Figure 21 : Capture d'écran du Certificat Jira .............................................................. 26
Figure 22 : Capture du mail envoyé au client .............................................................. 27
Figure 23 : Capture d'écran des réponses du questionnaire .................................... 27
Figure 24 : Capture détaillant la taille maximale des datasets ................................. 29
Figure 25 : Dataset à son état brut ................................................................................ 30
Figure 26 : Dataset prétraité ........................................................................................... 31
Figure 27 : Dataset structuré .......................................................................................... 31
Figure 28 : Différences entre les types de bases de données .................................. 32
Figure 29 : Exemple d'un cube OLAP ........................................................................... 34
Figure 30 : L'approche Inmon ........................................................................................ 35
Figure 31 : Modélisation Datawarehouse ..................................................................... 37
Figure 32 : Logo SSIS ....................................................................................................... 38
Figure 33 : Logo Pentaho ................................................................................................ 38
Figure 34 : Logo Talend ................................................................................................... 38
Figure 35 : Logo Informatica .......................................................................................... 39
Figure 36 : Capture d'écran du Job “Alimentation Dimension Employee” sur
Talend ................................................................................................................................ 42
Figure 37 : Capture d'écran de la dimension Employee sur PostgreSQL ................ 43
Figure 38 : Capture d'écran du Job “Alimentation Dimension Role” sur Talend.... 44
Figure 39 : Dimension Role ............................................................................................ 44
Figure 40 :Capture d'écran du Job “Alimentation Dimension Team” sur Talend .. 45
Figure 41 : Dimension Team ........................................................................................... 45
Figure 42 :Capture d'écran du Job “Alimentation Dimension Skills” sur Talend .... 46
Figure 43 : Dimension Skills............................................................................................ 46
Figure 44 : Capture d'écran du Job “Alimentation Dimension Date” sur Talend ... 47
7
Figure 45 : Capture de la génération des attributs de la dimension Date sur Tmap
............................................................................................................................................ 47
Figure 46 :Capture d'écran du Job “Alimentation Dimension Projets” sur Talend 48
Figure 47 : Capture sur la requête de génération de l'ID projet ............................... 48
Figure 48 : Dimension Projet.......................................................................................... 49
Figure 49 : Capture d'écran du Job “Alimentation Dimension TicketType” sur
Talend ................................................................................................................................ 49
Figure 50 : Dimension TicketType................................................................................. 50
Figure 51 : Capture d'écran du Job “Alimentation Dimension Status” sur Talend . 50
Figure 52 : Dimension Status .......................................................................................... 51
Figure 53 : Capture d'écran du Job “Alimentation Table de Fait” sur Talend ......... 52
Figure 54 : Capture du composant Tmap de notre table de fait .............................. 52
Figure 55 : Capture du Job Conductor ......................................................................... 53
Figure 56 : Objectifs Datamining ................................................................................... 55
Figure 57 : Différences entre Deep Learning et Machine Learning ......................... 56
Figure 58 : Dataset de l'objectif prédictive .................................................................. 57
Figure 59 : Importation du Dataset ............................................................................... 58
Figure 60 : Corrélation entre les variables ................................................................... 58
Figure 61 : Configuration Keras ...................................................................................... 59
Figure 62 : Le modéle Keras Final ................................................................................. 60
Figure 63 : Résultat du modèle Keras............................................................................ 61
Figure 64 : Dataset pour l'algorithme ACP .................................................................. 62
Figure 65 : Déterminer le nombre d’axes de l’analyse pour ACP ............................. 63
Figure 66 : L'information présentes sur les axes ACP ................................................ 64
Figure 67 : Le cercle de corrélations sur ACP .............................................................. 65
Figure 68 : La corrélations des Variables...................................................................... 66
Figure 69 : Représentation des individus..................................................................... 67
Figure 70 :Représentation pour n le nombre de membres d'équipe = 50 ............. 68
Figure 71 : Représentation pour n le nombre de membres d'équipe = 20 ............. 68
Figure 72 : la méthode de coude pour déterminer le nombre de cluster............... 69
Figure 73 : Création des clusters ................................................................................... 70
Figure 74 : Plot de visualisation des clusters ............................................................... 70
Figure 75: Logo de Tableau ............................................................................................ 72
Figure 76 : Logo de Power BI ......................................................................................... 73
Figure 77 : Logo le Qlik Sense ........................................................................................ 73
Figure 78 : Diagramme à barres .................................................................................... 74
Figure 79 : Diagramme linéaire...................................................................................... 75
Figure 80 : Histogramme................................................................................................ 75
Figure 81 : Graphique à barres positif et négatif ......................................................... 76
Figure 82 : Le camembert .............................................................................................. 76
Figure 83 : Histogramme en pile ................................................................................... 77
Figure 84 : Dashboard Final ............................................................................................ 77
8
Table des tableaux
Tableau 1: Identification et classification des risques ................................................ 22
Tableau 2 : Solution adéquate à chaque risque .......................................................... 22
Tableau 3 : Les 3 types d'accès ...................................................................................... 24
Tableau 4 : Comparaison LOTP et OLAP ...................................................................... 33
Tableau 5 : Comparaison des approches de Datawarehousing ............................... 34
Tableau 6 : Différences entre les composants de chaque outils ............................. 40
Tableau 7 : Traduction objectifs métiers en objectifs Datamining .......................... 54
9
CHAPITRE 1 : ÉTUDE PRÉLIMINAIRE
Introduction
Ce premier chapitre a pour objectif de situer le projet dans son cadre général.
Pour cela, nous commençons par définir l’organisme d’accueil et les concepts de
base de notre projet. Ensuite, nous établissons une étude afin de définir les
grandes lignes et les besoins du projet.
1.Organisme D’accueil
Leurs solutions métiers ont été conçues pour adresser les enjeux de la
transformation actuelle et future de l’industrie de la finance, mais aussi pour
accompagner ces acteurs dans la refonte de leur système d’information ; à
travers la réduction de leurs coûts, la maitrise de leur Time-To-Market et la
modernisation de leurs systèmes d’information.
10
Cette entreprise a décidé d’avoir une charte graphique simple composée
de deux couleurs principales ; le rouge et le noir.
2.Sujet de Stage
Jira Analytics - Mise en place d'une solution décisionnelle pour analyser les
tickets jira de l’équipe R&D
Prise en compte du reporting existant.
Identification des indicateurs de suivi des projets (KPI de productivité).
Proposition d’un nouveau modèle de reporting homogène à l’ensemble
des projets.
Génération des plans de production de l’activité.
Génération du suivi du besoin de ressources par activité
11
Figure 2: Logo de Jira Software
Mais
Jira n’utilise pas toutes ces ressources données et cela rend la prise de décision
pour le manager difficile.
12
2.3. Analyse du sujet proposé
Conclusion
Dans ce premier chapitre, nous avons présenté le cadre de stage. Ensuite, nous
avons fait une étude approfondie du projet de stage afin de déterminer le besoin
du client en question qui est ici le manager de l’équipe. Dans le second chapitre
on va approfondir cette étude pour une conception finale et détaillée de ce
projet en interne.
13
CHAPITRE 2 : Conception et
Planification
Introduction
Dans le premier chapitre, nous avons bien abordé tous les points qui concernent
l’étude de projet et l’analyse de ces besoins. Dans ce nouveau chapitre, intitulé
"Conception et Planification", nous allons entamer le plan du travail, la
méthodologie utilisée ainsi
1. Méthodologie adaptée
1.1. CRISP-DM
14
.
En outre, le processus entier peut être répété pour les déploiements itératifs.
Effectivement, dans la pratique, les boucles d’itération pourraient même se
produire entre:
15
1.2. Méthode Agile (Scrum)
La méthode Agile est une approche de gestion de projet fondée sur la réalisation
de projets (ou de produits) itératifs et progressifs. Aujourd’hui, Agile est utilisé
comme terme générique pour une grande variété de méthodologies, partageant
les mêmes principes et valeurs.
Dans Scrum, la portée des travaux est divisée en un arriéré de tâches à accomplir.
En itérations d’une à quatre semaines (appelé sprint), l’équipe livre des
incréments de produit expédiable (SPI) ou produit minimum viable (MVP).
L’image suivante montre le processus Scrum.
16
1.3. Combinaison des deux méthodes CRISP-DM et Scrum
Toutefois, s’il n’est pas encadré par une méthodologie Agile et mis en œuvre
selon le processus de livraison MVP (Minimum Viable Product), les projets de
science des données se retrouveront probablement entre les phases sans fin de
mise à l’essai de la mise en œuvre des idées.
Les réunions de planification de sprint et, dans une certaine mesure, les revues
de sprint offrent une excellente occasion d’engagement avec les intervenants sur
l’exigence de compréhension des activités et des données.
17
2. Les phases du projet
Après avoir choisie la méthodologie de ce projet , j’ai décidé de diviser ce projet
en 7 phases principales , comme le montre ce diagramme :
Planification et conception
Estimée à 7 jours entre :
o Recherche et identification des “Milestones” du projet
o Identification des tâches
o Estimation durée et ordonnancement des tâches
o Gestion de priorités
o Identification des ressources potentiels
o Gestion de risques
o Planification & implémentation du diagramme de Gantt
o Etude des users story possibles
18
Lancement Projet
Estimée à 4 jours entre :
o Data collection & data study
o Compréhension données
Data Visualisation
Estimée à 9 jours entre :
o Recherche et identification KPI
o Mise en place des formule KPI
o Conception Dashboarding
o Réalisation et implémentation plots
o Assemblage et Dashboarding
Finalisation et reporting
Estimée à 6 jours entre :
o Présentation finale
o Validation projet
o Elaboration et validation rapport
19
2.2. Identification des ressources technologiques de chaque phase
Planification et conception :
Figure 8: Logo de Lucidchart Figure 7: Logo de Google Figure 6: Logo Gantt Diagramme
Forms
Lancement Projet :
Pour débuter le projet il nous faut aussi des projet Jira open Sources.
Data Warehousing :
Figure 13: Talend for Data Integration Figure 12 : Power AMC for Modeling Figure 11 : PostGre SQL
L’outil Talend est pour l’intégration de données et l’outil Postgre SQL est dédié au
stockage de ces derniers
20
Exploration données ou Data Analysis :
Data Visualisation :
Figure 15 : Logo de
Tableau
Il y a une phase de Benchmarking pour les différents outils de dataviz qui va être
détaillée lors du chapitre 4.
Finalisation et reporting :
Figure 17: Logo docs et Word Figure 18: Logo Canva Figure 16: Logo de Lucidchart
21
3.1. Identification des risques
Réalisateur projet : Myriam Khachlouf
Client : Mr Akram Anaya
Technique: Données
Très - Insatisfaction
1 Fiabilité Donnés Interne extraites inadéquate Critique
collectées à l’équipe
probable client
- Non validation
Technique: de sprints
Interne Ne pas répondre aux
2 Spécification Critique probable - Rétrospective
/Externe exigences clients
fonctionnelle lente
- Délais
Organisationnel:
- Délais
Planification et Mauvaise estimation Peu
3 Interne Mineur - Retard
estimation des délais probable Livraison
tâches
Tableau 1: Identification et classification des risques
22
4. Implémentation diagramme de Gantt
Après avoir étudier chaque phase, je suis maintenant prête pour dresser le
planning final de l’ensemble du projet, et ceci en implémentant le diagramme de
Gantt qui est un outil pratique pour planifier des projets. Grâce à une vue
d'ensemble des tâches planifiées, je peux suivre mon avancement et aider mon
encadrant avec une traçabilité réelle.
Le diagramme de Gantt détaillé du projet a été réalisé sur Excel dont la capture :
Cependant, et pour avoir une vue assez globale du planning du projet voici un
diagramme approximatif généralisé :
23
5. Les Types d’accès disponible pour la solution
Conclusion
Durant ce chapitre on a choisi la méthodologie du projet, on a réalisé un planning
détaillé avec sa gestion des priorité et gestion de risque pour finalement dresser
le diagramme de Gantt. On entamera la compréhension métier dans le troisième
chapitre qui est la première phase de notre projet.
24
CHAPITRE 3 : Compréhension
Métier
Introduction
Pour avoir une réponse claire et complète on passera par 4 grands points :
L’atout le plus important chez ce consultant hormis l’axe technique est le volet
des Soft Skills incluant la communication, l’esprit analytique, la persuasion etc ...
25
Les outils de data integration les plus utilisés : Talend, SSIS, Pentaho, Informatica.
Les outils de Data Visualisation les plus utilisés : Power BI, Tableau, QlikView,
QlikSense.
26
2. Réalisation formulaire dans le cadre de l'enquête
Pour mieux comprendre le besoin du client, qui dans ce cas est Mr Akram Anaya ,
un questionnaire a été réalisé et lui a été envoyé .
27
L'équipe R&D contient 10 membres qui réalisent souvent des projets en parallèle,
certains de ces projets ont des délais courts avec des taches critiques.
Les types et les domaines de projets diffèrent (entre Software development, Data
engineering & Project Management), mais tous ces projets sont tracés, suivis et
gérés sur Jira.
Conclusion
Après avoir bien étudier le domaine, après avoir fait des réunions avec l’ensemble
de l’équipe, le lancement de projet peut se faire en temps et en ordre.
28
CHAPITRE 4 : Intégration des
données
Introduction
Durant ce chapitre, on verra toutes les étapes du Datawarehousing, de la collecte
des données, jusqu’à leurs organisation et stockage dans notre entrepôt de
données.
Des projets Jira open source sont disponibles sous Jira Hibernante , Jira Spring et
autres ..
On peut récupérer les données à partir de ces projets via un simple clic
télécharger sous format csv, sauf qu’on ne peut pas récupérer un Dataset dont sa
taille dépasse les 1000 enregistrements
29
1.2. Prétraitement des données
Durant cette étape nous verront les étapes de traitements des fichiers bruts
collectés.
Cette étape a été assurée avec l’extension existante dans Power BI et dans
Microsoft Excel qui est Power Query*.
On verra après, ce même dataset prétraité, puis on peut voir ces mêmes données
passer à un état structuré sans caractères spéciaux, prêts pour la phase
d’intégration avec l’outil choisi.
30
Figure 26 : Dataset prétraité
31
2. Structure de donnée choisi pour le projet
On s'intéresse dans notre cas aux bases de données structurée (Base de donnée
relationnelle) ou non structurée (NOSQL) et de leurs typologies (La manière la
plus populaire de classer les bases de données est selon l'usage qui en est fait, et
l'aspect temporel du contenu)
Bases d'analyse dites aussi OLAP (de l'anglais online analytical processing) sont
composées d'informations historiques telles que des mesures sur lesquelles sont
effectuées des opérations massives en vue d'obtenir des statistiques et des
prévisions. Les bases de données sont souvent des entrepôts de données (anglais
Datawarehouse)
32
Tableau 4 : Comparaison LOTP et OLAP
33
Figure 29 : Exemple d'un cube OLAP
Selon une étude réalisée par datastudies voici les différences entre ces
approches
34
Figure 30 : L'approche Inmon
35
3. Conception de la Datawarehouse
Après avoir définis les axes d’analyse nous procédons par la modélisation de
notre structure de donnée réalisée sur l’outil DbSchema qui est un outil universel
de conception de bases de données pour la gestion des schémas, la
documentation des schémas, la conception en équipe et le déploiement sur
plusieurs bases de données.
36
Figure 31 : Modélisation Datawarehouse
4. Implémentation de la Datawarehouse
SSIS : SQL Server Integration Services (SSIS) est un ETL (Extract Transform
Load). Il permet de se connecter à n'importe quelle source de données (Excel,
fichier plat csv, XML, base de données, etc...). SSIS offre la possibilité de
collecter des données, de les transformer en données exploitables par les
outils d'analyse qui, elles-mêmes, vont alimenter une ou plusieurs bases de
données dédiées (bases de données relationnelles ou multidimensionnelles).
37
Figure 32 : Logo SSIS
Pentaho :PDI (Pentaho Data Integration), qui était auparavant connu sous le nom
de Kettle, est un logiciel d’ETL (Extract, Transform, Load) Open Source qui permet
la conception ainsi que l’exécution des opérations de manipulation et de
transformation de données très complexes.
Talend : Talend est un éditeur de logiciel dont la particularité est d’être spécialisé
dans l’intégration de données.Créé en 2006, Talend joue encore aujourd’hui un
grand rôle dans l’exploitation des données des entreprises. En effet, Talend est
classé leader depuis plusieurs années consécutives dans le Magic Quadrant de
Gartner.
38
Et d’autre payants comme :
Informatica est un ETL (Extract Transform Load) payant, conçu par la société
américaine Informatica. Cet outil est une gamme de solutions d’intégration des
données qui assure la simplicité de travail des équipes décisionnelles des
entreprises pour alimenter les entrepôts de données, sans la nécessité de
développer en code des programmes de transfert de données.
Pour avoir un avis personnel sur les outils open source un test s’impose avec le
même Dataset ; On constate que :
A l’encontre de Talend, SSIS exécute rapidement les jobs, mais ce dernier a
quelques problèmes de connectivités, par exemple avec les fichiers de forme
XLSX.
Pour se connecter à un fichier excel je dois manuellement modifier son type de
XLSX à XLS.
Talend a montré sa performance sur tous les points (plateforme/souple à
manipuler /connectivité …) sauf par rapport au temps d'exécution (qui est
carrément le double de SSIS)
39
Tableau 6 : Différences entre les composants de chaque outils
40
4.3. Choix de l’outil d’intégration de donnée
Le choix final s’est tourné vers Talend qui est beaucoup plus riche en
fonctionnalités et en composants de connectivités et de manipulation data.
Rappelons que 8 dimensions existent qui reliés à la table de fait contenant les
mesures principales.
Une liaison hiérarchique existe entre les 3 tables “Employee”,”Role” et “Team”.
Dans cette partie on verra les Jobs Talend de chaque dimension.
Avant de détailler les jobs d’implémentation, une vue d’ensemble sur les
composants du projet est nécessaire.
tFileInputExcel : Lit un fichier Excel ligne par ligne pour les diviser en champs en
utilisant des expressions régulières, puis envoie les champs tels que définis dans
le schéma au composant suivant.
tDBInput : Ce composant permet de lire une base de données et d’en extraire des
champs en utilisant des requêtes et de les mettre dans une liste qui sera
transmise au composant suivant via une connexion de flux.
tUniqRow : Compare les entrées et trie les entrées en double du flux d’entrée,
assure la qualité des données d’entrée ou de sortie dans une tâche.
41
tUnite : Centralise les données provenant de sources diverses et hétérogènes.
Fusionne les données provenant de diverses sources, sur la base d’un schéma
commun.
42
On voit ici la récupération de donnée des différentes sources existantes et leurs
traitements pour enfin les stocké dans une table sur l’outil PostgreSQL*
On voit dans la figure précédente la table Employee avec une clé étrangère qui
est le rôle de l’employée en question.
43
4.4.2. Dimension Role
Ici on va une récupération de donnée avec une jointure avec une table s’appelant
Team, avant de vous monter cette table, on verra le résultat de cette
implémentation dans notre outil de stockage.
44
4.4.3. Dimension Team
Une création simple de données simple s’impose ici pour faire adapter notre
Dataset avec l’entreprise d’accueil, nous montrant finalement les équipes qui
existe dans Vermeg.
45
4.4.4. Dimension Skills
Pour que notre Dataset soit adéquat à la situation réelle de l’équipe la table de
compétences s’aligne avec les compétences des membres de l’équipe qui sont :
46
4.4.5. Dimension Date
Ici on verra une création totale de la dimension date, avec une génération de
variables et le traitement des lignes :
47
4.4.6. Dimension Projets
48
Voici le résultat de la dimension projet dans notre base de donnée.
49
Voici le résultat du Job d’alimentation TicketType où on voit les types de taches
possible :
50
Figure 52 : Dimension Status
Les tables de faits contiennent des données qui sont utilisées pour
calculer les mesures dans les rapports de mesures. Les tables de faits sont
uniquement renseignées par des transformations ETL. Pour identifier un
objet métier comme une table de faits, dans notre cas on parlera plutôt de
gestion des tickets JIRA.
51
4.5.2. Alimentation de la table de fait sur Talend
La Table de fait a 6 dimensions directement reliée à elle, d’où la jointure et les clés
étrangères qui existent dans notre table de fait.
52
4.6. Amélioration et automatisation :
(Talend, s.d.)
Conclusion
53
CHAPITRE 5 : Analyse des
données
Introduction
Durant ce chapitre on verra l’extraction, l’exploration et l’analyse des données en
anglais ce processus se nomme Datamining. Pour exploiter tout le potentiel des
data, le Datamining s’appuie sur un certain nombre de procédés et de modèles
qu’il vous faut connaître.
Dans notre cas voici une traduction des objectifs métiers en objectifs
d’exploration des données.
54
On se propose aussi d’ajouter d’un objectif prédictif: À partir des heures de
travail, de la tâche prise, des retards de réalisation de tâche, on pourra prédire la
motivation de l’employé en question
1.2 Vue globale sur les objectifs et leurs algorithmes datamining associés
La réalisation de ces objectifs se fera avec l’utilisation des ensembles de méthodes de série-
temporelle.
55
2. Implémentation avec le langage Python
Keras est une API conçue pour les êtres humains, pas les machines. Keras suit les
meilleures pratiques pour réduire la charge cognitive : il offre des API cohérentes
et simples, il minimise le nombre d’actions utilisateur requises pour les cas
d’utilisation courante, et il fournit des messages d’erreur clairs et réalisables. Il
dispose également d’une documentation complète et des guides du
développeur.
56
Figure 58 : Dataset de l'objectif prédictive
'EmployeeID' :
'Total Months of Exp’: Représente les mois d’expérience de cet employé
'Total Projects Worked': Représente le nombre de projets sur lesquels cet
employé a travaillé
'Monthinlastproj’: Représente le cumul des mois de travail du dernier
projet
'Issues Reopen’: Représente le nombre moyen de réouverture de ticket par
projet
'Average Feedback’: Représente le nombre de réponses sur tickets.
'Delayed Issues’: Représente le nombre moyen des retards de livraisons.
'Motivation': Représente notre variable cible, c’est qu’on essaye de prédire.
Nous commençons par charger les données à l'aide de pandas dans un cadre de
données, puis nous examinons les données chargées, leur structure et leur
contenu. Nous pouvons constater que les données ont été chargées
57
correctement. En classification, il est toujours bon de comprendre la relation
entre la caractéristique et les variables cibles, en particulier quelles variables de la
caractéristique ont le plus d'impact sur la variable cible. Pour ce faire, nous
utilisons l'analyse de corrélation. Ici, nous faisons une analyse de corrélation sur la
variable cible, la motivation.
Nous voyons que la variable 'Delayed Issues' a un impact Significatif Négatif sur
la motivation, ce qui signifie que les employés qui ont une tendance à être en
retard dans la réalisation de leurs tâches sont le plus souvent démotivés.
58
utiliserons le codage à chaud en utilisant la fonction to_categorical de Keras.
Comme l'attrition est booléenne, elle a deux valeurs uniques.
Enfin, nous imprimons les formes sur X et Y. Exécutons ce code et examinons les
résultats. Nous voyons qu'il y a mille échantillons. X a six colonnes pour les six
attributs. Y a deux colonnes car il a un codage à un coup pour deux valeurs
uniques.
59
Maintenant, nous pouvons créer un modèle Keras. Ensuite, nous ajoutons une
couche cachée dense avec ReLU comme activation. Nous ajoutons ensuite une
deuxième couche cachée. Enfin, nous ajoutons une couche dense de sortie avec
une activation softmax. Nous compilons le modèle avec Adam optimizer et
utilisons la crossentropie catégorielle comme dernière fonction. Nous mesurons
également la précision du modèle. Ensuite, nous ajustons le modèle pour ces
données d'entrée. Cet ensemble d'étapes est un modèle standard pour la
construction de modèles d'apprentissage profond de base. Nous pouvons voir
que le modèle a fini avec une précision de 96%.
60
Afin de prédire la motivation, nous devons obtenir le même ensemble de six
variables de caractéristiques concernant le nouvel employé pour lequel nous
devons prédire l'attrition. La prédiction est alors un simple appel à la méthode
model.predict_classes qui produira un zéro ou un un en fonction des
caractéristiques.
Nous pouvons voir que l'algorithme prédit que l'employé est motivé. Nous
pouvons également faire des prédictions en masse pour plusieurs employés.
Nous devons créer un tableau de tableaux, le tableau interne représentant un
employé. L'appel de la méthode est le même.
61
2.1. Objectifs descriptifs : Identifier les profils de membres de l'équipes
suivant leurs compétences
62
Nous avons sélectionné les 3 colonnes :
o « ISSUE DATA SCIENCE »: représente le nombre de tickets data
science que le membre a travaillé dessus.
o « ISSUE BACKEND »: représente le nombre de tickets Backend que
le membre a travaillé dessus.
o « ISSUE FRONTEND »: représente le nombre de tickets Frontend que
le membre a travaillé dessus.
63
Pour répondre à cette question, il faut consulter le tableau des valeurs propres
qui accompagne l’ACP. Les valeurs propres sont classées de façon décroissante.
- Un critère absolu : ne retenir que les axes dont les valeurs propres sont
supérieures à 1 (c'est le critère de Kaiser).
Les mapping de l’ACP sont les projections des variables et des individus sur un
plan factoriel déterminé. On commencera par interpréter le premier plan factoriel
(celui formé par les facteurs F1 et F2) car c’est celui qui concentre la plus grande
partie de l’information du nuage. On ira voir ensuite et le cas échéant les autres
plans factoriels. Sur un plan factoriel, On n’interprète que les variables et les
individus qui sont bien représentés. Pour les individus, on utilisera les
64
contributions absolues et relatives alors que pour les variables, on n'interprète
que celles qui sont proches du cercle de corrélation.
65
Lecture directe :
Interprétation variables:
Les variables à interprété ici sont les tickets Backend, data science et Frontend ;
on voit notamment que les variables Backend et data science sont orthogonaux
avec backend purement positive ; ce qui signifie que ceux qui travaillent
principalement sur des tâches backend n’ont pas tendance à travailler sur des
tickets data science et le contraire n’est pas vrai ; ceux qui travaillent sur des
tâches data science peuvent travailler sur des tickets backend plutôt que sur des
tâches frontend.
66
La représentation des individus :
Lecture directe :
o Lynn diaz qui est corrélé positivement avec les deux axes
o Stormy muto et Curtis rocha qui sont presque superposés et aussi corrélé
avec l’axe des abscisses
67
Interprétation variables:
On peut aussi interpréter les individus selon le cercle de corrélation des variables
: Avec cette analyse on peut déduire selon la position du nom de membre de
l'équipe sur l'échelle , son profil le plus adéquat ; par exemple on voit la position
de Lynn diaz en haut à droite comme Issue_backend dans le cercle ; c’est à dire ,
le profil de cette employé est un profil de développeur backend , prenons un
autre exemple ; dans n = 50 , on voit deux profils qui se distinguent en bas à
droite , Joan Laird et Stephen Bruno sont deux membres de l'équipe qui ont un
comportement similaire et un profil de data scientistes.
68
2.2. K-means (ou k-moyennes) : Algorithme de clustering
C’est un algorithme simple d’apprentissage non supervisé utilisé pour résoudre
les problèmes de clustering.
Ce dernier est déployé pour découvrir des groupes qui n’ont pas été
explicitement définis.
1.Tout d'abord, nous aurons besoin de trouver le nombre de groupes “k” optimal à
l’aide de la méthode du coude.
69
On distingue donc que le nombre de clusters optimaux peut être 2, 3 ou 6 donc
on va essayer afin de distinguer le nombre optimal
70
On voit la large dominance des profils data science et des profils backend par
rapport aux profils frontend.
On voit que les profils data science sont présents dans la réalisation des tâches
front end mais aussi backend.
On voit que chaque cluster a 3 centroïdes et qu’un centroïde est perdu entre les
profils backend et frontend
Conclusion algorithme :
→ Les profils data science sont les profils les plus flexibles ; ce sont les profils qui
peuvent travailler sur des tâches front end comme sur des tâches backend.
→ Les profils dominants sont ceux travaillant sur des tickets backend surement
pour la complexité des tâches ou pour le besoin actuel de l’équipe.
→ Une migration du profil Data Science au profil backend est apparente avec le
centroïde de DS dans les limites back.
→ Une migration du profil Data Science au profil frontend est légèrement visible
avec le centroïde de DS proche des limites front end.
Conclusion
71
CHAPITRE 6 : Visualisation des
données
Introduction
Finalement, on arrive à la partie de la DataViz, dans laquelle on a principalement
réaliser des plots, étudier des formules de KPI’s et assembler des Dashboards.
Avant de partager avec vous le résultat final, nous voulions revenir sur un critère
marquant pour chacune des solutions de dashboarding pour justifier l’outil
choisi.
72
Le « bon rapport qualité-prix » avec Power BI
Power BI allie prix très compétitif et offre très complète. La solution se place
dans le top des 3 des solutions les plus choisies par les clients sur ces dernières
années. Power BI a beaucoup progressé sur les viz, la gestion des objets est
similaire à celle de PowerPoint avec ses avantages et ses inconvénients. De plus,
une marketplace permet de télécharger des viz développées par d’autres
utilisateurs si celles natives ne correspondent pas à vos besoins. Power BI
s’intègre naturellement à la suite office et est très recommandé pour des
tableaux de bord opérationnels et personnels des métiers au quotidien.
Qlik Sense s’assure une place parmi les leaders avec son modèle associatif très
performant permettant de traiter de très gros volumes de données ; le meilleur
dans ce domaine. C’est une très bonne solution ; facile à prendre en main pour la
partie dataviz. Un éventail de viz est déjà disponible et le générateur de tableau
de bord est une interface intuitive. Cependant sur la partie modélisation en
amont, une expertise peut s’avérer nécessaire.
(Synalitic, s.d.)
73
2. Différences entres les types de graphiques
En général, les types de graphiques les plus populaires sont les graphiques à
colonnes, à barres, à secteurs, à beignets, à lignes, à zones, à dispersion, à
araignée (radar), les jauges et les cartes de comparaison. Voici un aperçu rapide
de tous ces types de graphiques. Le plus grand défi est de choisir le type de
graphique le plus efficace pour votre projet.
Ci-dessous, nous pouvons voir certains graphiques -les plus communs- avec une
explication rapide pour leur mise en pratique.
Les graphiques à barres sont souvent utilisés pour mettre en parallèle des
données à un instant T. Les données sont représentées à l’aide de rectangles. Ils
sont utilisés pour montrer des proportions, des tendances, des comparaisons ou
des contrastes.
74
2.2. Graphiques linéaire (ou à ligne)
Les graphiques linéaires utilisent des lignes pour démontrer des tendances de
données dans un intervalle-temps déterminé. C’est pour cela qu’ils sont utilisés
pour mettre en évidence les tendances ou l’avancée d’un phénomène particulier.
2.3. Histogramme
Figure 80 : Histogramme
Dans cet exemple, sur l’axe des X, pourrait être reportés différents catégories
sportives (foot, basket, ski, etc …) et sur la barre des Y, le nombre de personnes
qui pratiquerait chaque activité sportive, distinguées en trois catégories, les
mineurs, les adultes et les séniors, différenciés par trois couleurs différentes.
75
2.4. Graphique à barres positif et négatif
Un graphique à barres positif/ négatif est utile pour montrer une évolution positive
ou négative.
Figure 82 : Le camembert
Par exemple ce type de graphique pourrait être utilisé pour montrer comment
une personne dépense son argent en un mois : la section A représenterait
l’argent dépensé pour le loyer, en B la nourriture, en C l’habillement, en D les
transports et en E toutes les dépenses variées.
76
2.6. Histogramme en pile
C’est un type d’histogramme dans lequel une colonne est remplacée par
différentes barres placées les unes sur les autres. Ce type de graphique permet
de comparer la contribution en pourcentage de chacune des valeurs par rapport
à un total réunissant diverses catégories.
77
Ici un exemple d’une première itération d’un Dashboard pour le team leader avec
plusieurs filtres (sur le type de projet, l’état du ticket, le nom du membre de
l’équipe …), des KPI pour l’avancement des projets en cours et la participation de
chacun.
Ça leur permettra aussi de voir quel est le membre le plus éligible pour une
assignation future des taches.
Conclusion
78
Conclusion Générale
Après deux mois de travail acharné, après trois présentations, cinq livrables et
neufs différents outputs entre notebook, Dashboard et job Talend, ce projet a été
validé avec excellence.
Ce stage était une expérience bénéfique autant sur le plan professionnel que sur
le plan connaissance. On a appris plein de choses telles que le travail en équipe,
l’amélioration de nos connaissances pratiques ainsi que la gestion du temps et
des tâches. À la fin ce stage on a réussi à satisfaire les objectifs fixés en réalisant
toutes les parties initialement conçues.
79
Bibliographie
80
Annexe
https://www.canva.com/design/DAFGTqKsJLQ/JACfxYWprlExjQ7ijthg1w/view?
utm_content=DAFGTqKsJLQ&utm_campaign=designshare&utm_medium=link2
&utm_source=sharebutton
https://www.coursera.org/account/accomplishments/certificate/825H3JQDLC
K6
https://www.canva.com/design/DAFIEdG7bWk/Lc7dp_5G_0RXG6hgvjCbhQ/vi
ew?utm_content=DAFIEdG7bWk&utm_campaign=designshare&utm_medium=li
nk2&utm_source=sharebutton
https://www.canva.com/design/DAFLZdc4FTU/dQK7RE0Z8GbBmEDtOTiFDA/v
iew?utm_content=DAFLZdc4FTU&utm_campaign=designshare&utm_medium=li
nk2&utm_source=sharebutton
https://www.soft-concept.com/surveymag/comment-lire-une-acp.html
https://public.tableau.com/app/profile/myriam.khachlouf/viz/Teamleadviewv0
/Tableaudebord1?publish=yes
81