Vous êtes sur la page 1sur 57

Projet de fin d’études

Mise en place d’un système de prédiction


et de la visualisation de la masse salariale
Présenté par : Heni Koussay

Composition du Jury :

Encadrant Académique : M. Jbalia Aymen


Encadrant Entreprise : Mme. Abbadi Sammar

Année universitaire
2022-2023
I Introduction

II Contexte du projet

Plan III Etude des besoins

IV Réalisation

V Conclusion

2
III

I Introduction

3
Introduction

Un Hub Économique en Pleine


Optimisation des Prises Eclaircissement et Transformation à travers le
de Décisions estimation de l’avis du développement de modèles
commerciaux
client

44
II Contexte du projet

5
Entreprise d’accueil

Institué le 30 Décembre 1975

Devenir un référentiel numérique à l’internationale

Développer des systèmes informatiques ainsi que héberger des


applications avec ou sans exploitation

Application INSAF assure la gestion des volets administratifs et financiers des personnels de l’état public

6
Problématique

Augmentation des
L’apparition de nouveaux emplois Une pression sur la trésorerie de
rémunérations
l’entreprise
mensuelles
Mise en valeur des Encouragement du départ
Augmentation du nombre de volontaires et négliger les
primes existantes et salariés employés par l’état
mise en place de facteurs d’indemnités et les
nouveaux primes recrutements

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 7


Etude de l’existant
• Systèmes existants dans l’état tunisien

Interfaces Fonctionnalités Prédiction de la Visualisation des différents facteurs de


Ergonomiques Gratuites Disponibilité masse salariale la masse salariale

• Critique des différentes systèmes


Limitations :

1. Gestion des employés des différentes établissements publics 1. Interface non ergonomique et pas facile à utiliser,
2. Accès aux différents informations comme les primes, fiches de paie, 2. Fonctionnalités limitées et pas gratuites
salaires de base 3. Ni visualization , Ni prediction de la masse salariale

6
Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 8
Solution proposée

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 9


Solution proposée

Modèle intégré pour Interface utilisateur conviviale


Prédiction de la masse
salariale future

Visualisation des statistiques Détection des facteurs responsables de

concernant les recrutements, l’augmentation de la masse salariale

indemnités et masse salariale

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 10


Méthodologie adoptée
CRISP-DM

Phase 1 Compréhension du Domaine

Phase 2 Compréhension des Données

Phase 3 Préparation des Données

Phase 4 Modélisation

Phase 5 Évaluation

Phase 6 Déploiement

9 Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 11


III
III Etude des besoins

12
Besoins Fonctionnels

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 13


Besoins Fonctionnels

 Ajouter des utilisateurs.


 Avoir une idée sur les facteurs dont dépend la masse salariale et leurs variations.
 Suivre l’évolution les différents indicateurs de performance (KPI) nécessaires
pour l'analyse.
 Visualiser les tableaux de bord pour représenter les données de manière claire.
 Développer des algorithmes de régression pour des tâches spécifiques.
 Prévoir la masse salariale future

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 14


Besoins non fonctionnels

Evolutivité
Sécurité

Performance Ergonomie Disponibilité

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 15


21
Besoins Non Fonctionnels

 Performance : La capacité de traiter un grand nombre de données


 Sécurité: L’application doit prendre en considération la sécurité des données des
utilisateurs surtout au niveau de l’authentification
 Ergonomie: les éléments des différents interfaces doivent étre cohérentes dans
leurs apparences et leurs comportements
 Evolutivité : la capacité de maintenir des temps de réponses acceptables
 Disponibilité: la solution doit être disponible et fonctionnelle tout le temps

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 16


V Réalisation

17
Organisation du travail

Construire les modèles Implémentation de la


Identification du besoin de prédiction solution
métier

1 3 5

2 4 6

Evaluation des différentes Déploiement du


Analyse exploratoire et modèle
préparation des données. modèles

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 18


Objectifs métiers

Visualisation des
Faciliter l’échange des
données sous forme
différents informations
de graphiques
dans les différentes
établissements publics
Visualisation
de la masse
salariale

Meilleure planification Ajuster la


du budget en prenant rémunération et
en compte les rester dans la limite
indemnités et les
6 budgétaire
recrutements

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 19


Analyse exploratoire et
préparation

 D’après le BOXPLOT de la variable cible on remarque l’absence des points individuels au-
dessus de l’extrémité supérieure du diagramme en boite ce qui indique l’absence des valeurs
aberrantes.

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 20


Analyse exploratoire et
préparation

 D’après l’observation de notre courbe on observe pour tous les mois la valeur du montant_ind
6
est compris entre 175 et 200 pour tous les mois et pour le mois d’Octobre et Novembre ce
sont les mois qui se caractérisent par une élévation du taux de montant d’indemnité donc il
n’existe pas une anomalie de donnée et la variabilité est normale.

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 21


Analyse exploratoire et
préparation

 On peut expliquer les résultats du mois de Mars par des rémunérations annuelles, pour le mois du Juin aussi par des
paiements d’indemnité de performance ou de fin d’année pour certains agents 6

 Pour le mois de Décembre, cette élévation anormale est due à la mise en place de nouveaux primes de fin d’année

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 22


Préparation des données

Supprimer les Supprimer les


données inutiles valeurs nulles

Supprimer les Conversion des


données ayant un types de données
taux élevée de Pré-traitement
valeurs manquantes
Imputation des
valeurs manquantes

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion


23 23
23
Analyse exploratoire et
préparation

Aperçu de notre base


de données

 Base contient 799914 lignes et 34 colonnes ayant des colonnes contenant beaucoup
de valeurs manquantes, de type objets datetime , String

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 24


Analyse exploratoire et
préparation

Calcul de la colonne
masse salariale

 Le but de principale de cette application est de prédire la masse salariale, nous commençons par le calcul
6
de la masse salariale qui est la somme des montants indemnités pour chaque mois et on ajoute ces valeurs
à notre jeu de données.

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 25


Analyse exploratoire et
préparation

Ajout des colonnes externes


total_recrutements et
montant_ind_total

 l’enrichissement des données dont on dispose et qui a un impact sur la qualité de la base dont on
dispose comme le total des montants d’indemnités regroupé par année et type de paiement ainsi on
ajoute total_recrutements c’est la somme de nombre de recrutements par année qui est déjà calculé
6

dans la DATASET recrutement

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 26


Données inutiles

Pas nécessaires à Pas d’influence sur les


Redondantes résultats
l’objectif du projet

 Codetab: même valeur pour toute ligne qui correspond au ministère de culture
 Numligne : n’ayant aucune relation avec notre objectif de prédiction

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 27


Conversion type de données

Etape 2
Division des
colonnes dates

Etape 1
Conversion des
Etape 3
colonnes de type Label Encoder
objects

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 28


28
Analyse exploratoire et
préparation

Conversion de type objects

 Pour ce faire, nous avons procédé à la préparation d’une fonction dédié à la


conversion de type OBJECT en STRING
6

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 29


Analyse exploratoire et
préparation

Division type date

 Pour ce faire, nous avons procédé à la préparation d’une fonction dédié à la conversion de type OBJECT
en STRING
6

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 30


Analyse exploratoire et
préparation

suppression variables taux


élevé manquants

 « parag », « sparag » ont un taux élevé de valeur manquants donc on procède à


leur suppression
6

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 31


Analyse exploratoire et
préparation

Conversion de type de données

 « parag », « sparag » ont un taux élevé de valeur manquants donc on procède à


leur suppression
6

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 32


Analyse exploratoire et
préparation

Label Encoder

• remplir les catégories par des nombres allant de 1 à n-1 ou n est le nombre de catégories distinctes de la
variable. 6

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 33


Analyse exploratoire et
préparation

Imputation des valeurs


manquantes

• Dans notre jeu de donnée, nous avons utilisé l’imputation par modèle et on a utilisé la stratégie d’imputation
par la moyenne. 6

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 34


Analyse exploratoire et
préparation

Suppression des valeurs


fortements corrélées

• La figure ci-dessus nous a identifié la corrélation entre les variables. On peut conclure
6
que les variables echellon et indice sont fortement corrélés et c’est normal
• ces deux variables nous donnent une idée sur le niveau de classification de l’employé
coté expérience, performance et compétence dans le secteur public

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 36


Modélisation des algorithmes de
prédiction

Les Algorithmes de prédiction testés

Decision tree
XGBOOST ADABOOST Random Forest Regressor
Regressor

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 39


36
Selection features
Technique K-Beast

 C’est une technique relative à la sélection des caractéristiques les plus


importantes,
 ayant pour objectif de dégager un nombre K de meilleurs variables
explicatives ou caractéristiques à partir d’un ensemble large de variables
explicatives en se basant sur leurs scores par rapport à la variable à
prédire

13
Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 40
Construire les modèles de prédiction
Decision Tree regresor

 Établit une relation entre les variables d’entrées et de sorties en utilisant


un arbre de decision,
 Procède au choix de la caractéristique et le seuil qui arrive à minimizer
l’erreur de regression

13
Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 41
Construire les modèles de prédiction
Random Forrest Regressor

 C’est un modèle basé sur la technique d’arbre aléatoires ayant pour


objectif l’amélioration des Performances de la prédiction en faisant
l’assemblage les prédictions individuelles de chaque arbre

Hyper parameter tuning

1. Nombre estimateurs
2. Nombre minimum d’échantillons requis
3. Nombre de caractéristiques

13
Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 42
Construire les modèles de prédiction
ADABOOST

 C’est un modèle ensembliste dédié à l’apprentissage automatique qui


consiste à augmenter la prédiction d’un apprenant ayant un score
atténué en faisant l’assemblage de plusieurs instances de ce modèle de
mauvaise qualité

13 du Projet
Contexte Etude préalable Etude des besoins Réalisation Conclusion 43
Construire les modèles de prédiction
XGBOOST

 Correspond à une bibliothèque Open-Source utilisée pour obtenir des


modèles de haute performance en se basant sur techniques
d’amélioration appliqués sur des arbres de décision.

Hyper parameter tuning

1. Nombre estimateurs (arbres de decision)


2. Profondeur maximale de chaque arbre de décision
3. Taux d’apprentissage de chaque estimateur

13
Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 44
Critères d’évaluation

Performance Vitesse

R2 MAE RMSE MAPE Prédiction Formation

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 45


42
 Etude comparative entre les algorithmes

RMSE MAE R² MAPE


Decision Tree Regressor 246174 156917 0,876 0,0119

Random Forrest Regressor 119728 79486 0,97 0,612

Adaboost 246172 156968 0,876 0,0119

XGBOOST 275619 214439 0,844 0,0116

 Nous constatons que les meilleures valeurs des métriques de performance sont données par l’algorithme
DECISION TREE REGRESSOR car il possède une valeur importante de R2 et les faibles valeurs de MAE et RMSE
et MAPE
 RANDOM FORREST REGRESSOR possède la valeur importante de R2 ,MAE et RMSE mais un pourcentage
d’erreur très important
 XGBOOST un pourcentage d’erreur favorable mais un MAE et RMSE élevé par rapport aux autres algorithmes

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 46


Technologies utilisées

Python Spring boot Angular MySQL

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 47


44
Architecture Logique
1 Database
Query
Database
2 Response

3 HttpRequest

http
4
Response 6
5 Detection
Request
Detection 4 5
6 3
Response
1

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 48


 Etude comparative entre les algorithmes

 Nous constatons que DECISION TREE REGRESSOR possède un taux réduit en temps de formation et de
prédiction donc on peut conclure que ce dernier est le modèle favorable en performance et vitesse
d’estimation et d’entrainement

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 49


Déploiement du modèle

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 50


Déploiement du modèle

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 51


Déploiement du modèle

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 52


Visualisation des données

Montant individuels par Nombre de recrutements Masse salariale par année


par année .
mois

Montant individuels par Masse Salariale annuelle


Nombre de recrutement
selon la nature
année
par mois et selon le nature

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 53


Déploiement du modèle

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 54


Déploiement du modèle

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 55


Déploiement du modèle

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 56


Déploiement du modèle

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 57


VI Conclusion et perspective

58
Conclusion et perspective

Conclusion
Mise en place d’un système de visualisation de
l’évolution et de la prédiction de la masse
salariale » nous a permis d’élargir nos
connaissances en apprentissage automatique et
développement web

Perspective
un module conçu pour les employés
qui les aident à consulter leurs
fiches de paie, modifier leurs
informations personnelles
concernant les diplômes,
expériences professionnelles...

Contexte du Projet Etude préalable Etude des besoins Réalisation Conclusion 59


Merci pour votre attention

Vous aimerez peut-être aussi