Vous êtes sur la page 1sur 43

Rapport de Projet SID & DM

Réalisé par : Encadré par :


Amal TOUHAMI Pr. Abdelhadi FENNAN
Oumaima EL KHATTABI
Remerciements
Au terme de cette étude, Nous tenons à exprimer nos profondes reconnaissances à
notre prof Mr. Abdelhadi FENNAN pour la confiance, la rigueur et les
conseils encourageants qu’elle nous a transmis tout au long de ce module. On le
remercie pour la richesse de ses remarques, ses conseils, qui ne participent que
d’une volonté de me permettre d’aller à l’avant et pour sa disponibilité à servir
ainsi que l’expérience qu’elle a partagée avec nous, avec toute générosité et
modestie. Nous tenons aussi à exprimer notre gratitude à tout le corps
professionnel de la FSTT.
Table de matière :
Introduction : ................................................................................................................................................ 5
I. Outils utilisés: ....................................................................................................................................... 6
II. Traitement des données:...................................................................................................................... 8
• Schema en Etoile : ............................................................................................................................ 8
➔ Inscription: ...................................................................................................................................... 8
➔ Réussite et Echec: .......................................................................................................................... 9
➔ Diplôme:.......................................................................................................................................... 9
• Extract - Transform - load: .............................................................................................................. 10
→Extract : ........................................................................................................................................... 10
✓ Transform: .................................................................................................................................. 11
✓ Load: ........................................................................................................................................... 11
III. Génération des rapports: ............................................................................................................... 12
Objectif : ................................................................................................................................................. 12
1- Inscription : ..................................................................................................................................... 13
➔Taux d'inscription par série de bac: ............................................................................................ 13
➔ Taux d'inscription par ville: ......................................................................................................... 14
➔Taux d'inscription par ville, année et série de Bac:................................................................... 15
➔Taux d'inscription par sexe, filiere et année: ............................................................................. 17
➔Taux d'inscription par type de bac pour chaque Filière : ........................................................ 18
2- Réussite et échec : .......................................................................................................................... 20
➔Taux de réussite et d'échec par module .................................................................................... 20
➔Taux de réussite par filière:.......................................................................................................... 23
➔Taux d'échec par filière: ............................................................................................................... 25
➔Taux de réussite et échec par année pour chaque filière: ....................................................... 27
➔Statistiques par session pour chaque filière:............................................................................. 29
➔Statistique de réussite par semestre pour chaque filière : ...................................................... 31
➔Taux d’échec selon les villes: ....................................................................................................... 32
➔Taux d’échec selon le type de bac: ............................................................................................. 33
➔ Taux d’échec selon le sexe: ........................................................................................................ 34
➔Taux d’obtention de diplôme :.................................................................................................... 35
➔Taux d’obtention de Redoublement: ......................................................................................... 35
IV. Data Mining : .................................................................................................................................. 36
1- Arbre de décision :.......................................................................................................................... 36
➔ Arbre de décision "Réussite" : ............................................................................................. 36
2- Clustering: ....................................................................................................................................... 40
➔ Cluster "Réussite": ................................................................................................................. 40
➔ Probabilité de réussite selon la colonne: ........................................................................... 40
➔ Graphes de cluster représentant les relations entre les variables: ................................. 41
Conclusion: ................................................................................................................................................. 43
Introduction :

Au fur et à mesure de l'évolution des technologies analytiques et du big data dans le


monde professionnel, de nouvelles perspectives ont émergé pour mieux comprendre et exploiter
ces données. Il est devenu essentiel de savoir comment les analyser et les traiter de manière
optimale afin d'optimiser la prise de décision au sein des entreprises. C'est ainsi qu'est née la
discipline de la Business Intelligence.
La Business Intelligence regroupe un ensemble de méthodologies, de processus,
d'architectures et de technologies qui transforment les données brutes en informations
pertinentes et utiles. Ces informations permettent une prise de décision éclairée, tant au niveau
stratégique qu'opérationnel. En plaçant la Business Intelligence dans le contexte d'un système
d'information global, on comprend qu'elle fait partie intégrante de l'informatique décisionnelle. En
effet, la prise de décision est au cœur même de la Business Intelligence.
Cependant, la portée de la prise de décision ne se limite pas uniquement à des choix
ponctuels. La Business Intelligence permet à une organisation de définir ses objectifs et de suivre
leur réalisation de manière intelligente et collaborative. Elle offre ainsi une vision globale et précise
de la performance de l'entreprise, en mettant en évidence les tendances, les opportunités et les
risques potentiels. Grâce à la Business Intelligence, les décideurs peuvent analyser les données en
temps réel, partager des informations clés avec les parties prenantes et collaborer de manière plus
efficace pour atteindre les objectifs fixés.
En somme, la Business Intelligence joue un rôle crucial dans l'optimisation de la prise de
décision dans les entreprises. Elle permet de transformer les données en connaissances
exploitables, fournissant ainsi des informations précieuses pour une gestion stratégique et
opérationnelle avisée.
I. Outils utilisés:
● Python:
Python est un langage de programmation généraliste
interprété de haut niveau.
Sa philosophie de conception met l'accent sur la lisibilité du
code grâce à l'utilisation d'une indentation significative.
Python est parmi les langages les plus utiles pour le business
intelligence et data Analytics.

● Microsoft Bi Suite:
Il s'agit d'une suite complète d'outils de Business Intelligence proposée
par Microsoft. Cette suite comprend des outils tels que Power BI, SQL
Server Analysis Services et SQL Server Integration Services, qui
permettent de réaliser des analyses de données, de créer des rapports
et des tableaux de bord interactifs, et d'extraire, transformer et charger
les données (ETL).

● Visual Studio :
Microsoft Visual Studio est un environnement de développement
intégré (IDE) de Microsoft. Il est utilisé pour développer des
programmes informatiques, ainsi que des sites Web, des
applications Web, des services Web et des applications mobiles.
Visual Studio utilise les plateformes de développement de
logiciels
Microsoft telles que Windows API, Windows Forms, Windows
Presentation Foundation, Windows Store et Microsoft Silverlight.
Il peut produire à la fois du code natif et du code managé.
● Microsoft SQL server :
Microsoft SQL Server est un système de gestion de base de
données relationnelle développé par Microsoft. En tant que
serveur de base de données, il s'agit d'un produit logiciel dont la
fonction principale est de stocker et de récupérer les données
demandées par d'autres applications logicielles, qui peuvent
s'exécuter soit sur le même ordinateur, soit sur un autre
ordinateur sur un réseau (y compris Internet). Microsoft
commercialise au moins une douzaine d'éditions différentes de
Microsoft SQL Server, destinées à différents publics et pour des
charges de travail allant de petites applications mono-machine à
de grandes applications Internet avec de nombreux utilisateurs
simultanés.

● Microsoft SQL Analysis Services :

Microsoft SQL Server Analysis Services (SSAS) est un outil de


traitement analytique en ligne (OLAP) et d'exploration de données
dans Microsoft SQL Server. SSAS est utilisé comme un outil par les
organisations pour analyser e tdonner un sens aux informations
éventuellement réparties sur plusieurs bases de données, ou dans des
tables ou des fichiers disparates. Microsoft a inclus ou certain nombre
de services dans SQL Server liés à l'informatique décisionnelle et à
l'entreposage de données.

● Tableau :
Tableau est une plate-forme d'analyse visuelle qui transforme la façon dont
nous utilisons les données pour résoudre les problèmes, Tableau propose une
gamme complète dans son offre BI dont les principales caractéristiques sont la
rapidité, la facilité d’utilisation et l’interactivité. Avec tous les types connus de
sources de données, Tableau Software supporte le processus de préparation,
modélisation et visualisation des données structurées, web, document et aussi
Big Data.
II. Traitement des données:

• Schema en Etoile :
On débute par la réalisation d’un schéma en étoile, afin de trouver les paramètres qui
contribuent aux phénomènes qu’on veut étudier.
➔ Inscription:

Schéma d'étoile d’inscription


➔ Réussite et Echec:

➔ Diplôme:
• Extract - Transform - load:

Après avoir réalisé les schema en etoile, on commence le processus d'extract-transform-load


(ETL), ce processus qui permet de réaliser un ensemble des opérations enchaînée afin d’avoir des
données en forme utilisable et traitable, ces processus sont :
● collecte à partir d'un nombre illimité de sources
● structuration
● centralisation dans un référentiel unique.

→Extract :

Cette partie est l’extraction des données d’un ensemble des ressources, ces données sont
souvent bruitées et nécessitent un traitement, dans notre cas, les données sont :
Un ensemble des fichiers Excel, contenant des infos sur les étudiants, la réussite et d'autres
données.

sructure des fichiers excel


✓ Transform:

Cette partie concerne le traitement des données, leur structuration et préparation afin que ces
derniers soient utilisables pour notre objectif.
Dans notre cas ce traitement a constitué par :
● Réduire les colonnes identiques en une seule colonne.
● Ajouter la colonne filière
● Ajouter la colonne Session
● Ajouter la colonne Module

➔ Données avant traitement :

✓ Load:

Création de la base de données avec les données après traitement, notre BD est composée d'une
seule table.

Base de données
Table de BD

III. Génération des rapports:

Objectif :

Le projet consistait à concevoir et réaliser une solution décisionnelle complète permettant d'analyser
facilement les indicateurs de performance de la faculté des sciences et techniques.

On s’intéressera tout particulièrement à trois thèmes :

● Inscription

● Réussite

● Lauréats.

L’objectif est de générer des tableaux de bord qui offrent une meilleure visibilité pour les dirigeants.
1- Inscription :

Dans la première section, on s'intéresse au tableau de bord, statistique et indicateurs de


performance de la partie d’inscription.

➔Taux d'inscription par série de bac:

Dans cet histogramme, on s'intéresse au taux d’inscription par type de bac,on remarque que le plus
grand nombre des inscrits à la fstt sont des étudiants avec un bac type Physique-chimie, suivis par
Science de la vie et la terre ,ensuite

science mathématique A.
➔ Taux d'inscription par ville:

Le Taux d’inscription est élevé au nord du Maroc et surtout à Tanger.

On peut interpréter ce résultat par la situation géographique de la FSTT ce qui

explique l’abondance d'inscription des étudiants tangérois, avec un nombre de

1369 inscrits.
➔Taux d'inscription par ville, année et série de Bac:

Notre Figure montre le taux d’inscription par rapport aux types de bac, l’année et la ville.
Alors on remarque que tanger est la ville de plus en tous les années et surtout l’année 2015, le
type de Bac Physique et chimie est le plus typé inscrit .
Plusieurs couleurs sont affichées, qui représentent les différentes types de Bac et toujours la
ville dominante est Tanger avec le type du bac Physique chimie
Par exemple: la ville Larache pour le type de bac: sc. de la Vie et de la terre en 3 année 2014
,2015, 2016.
➔Taux d'inscription par sexe, filiere et année:

Le taux d’inscription est élevé en MIPC en 2014 et 2015 environ 400 inscrits par année.
Mais en 2016 le taux d’inscription a diminué à cause de l’ouverture de nouvelle filière MIP.
En 2éme classement on trouve la filière BCG avec un taux d’environ 300 inscrits.
La filière GEGM connaît un taux d’inscription d’environ 150 à 200 inscrits par an.
Remarque: La filière MIP était créer pour la première fois en 2016
➔Taux d'inscription par type de bac pour chaque Filière :

On a choisi cette représentation circulaire:


● Chaque filière est marquée par ligne.
● chaque type de bac est représenté par une couleur.
Pour plus de clarté en utilise des pourcentages :
● 19,25% sont des étudiants en total de la base de données inscrits en BCG et
avec un bac type Sc.de la Vie et de la Terre.
● 3,20% sont des étudiants inscrits en GEGM de bac type Sc.Physique et Chimie.
● Pour la filière MIPC, 25,18% sont des étudiants inscrits de bac type Sc.Physique
et Chimie.
2- Réussite et échec :

Notre Fait “Taux de Réussite et d'échec" a comme dimensions :

● Année
● Module
● Résultat
● Session
● Parcours.

➔Taux de réussite et d'échec par module


✓ Histogramme de validation :

Dans ce cas, afin de bien visualiser le taux de validation, on peut sélectionner juste
le taux de validation :
✓ Histogramme de Rattrapage:

✓ Histogramme d'échec (non validation):


✓ Histogramme de compensation:

➔Taux de réussite par filière:


Dans ce cas, on s'intéresse aux taux de réussite et d'échec par filière.
✓ Histogramme de validation par filière :

➔ BCG

➔ GEGM:
➔ MIPC:

➔Taux d'échec par filière:


✓ MIPC
✓ GEGM:

✓ BCG:
➔Taux de réussite et échec par année pour chaque filière:

✓ Réussite :

Dans cette étape on filtre nos résultats pour obtenir seulement les V “Validé” et
les AC "Après compensation”.
✓ Echec:
➔Statistiques par session pour chaque filière:
On visualise les statistiques de réussite par session pour chaque filière.
✓ Statistiques en nombre
✓ Statistiques en pourcentage

✓ Avec les filières :


➔Statistique de réussite par semestre pour chaque filière :

NOTE : Les partie blues sont les valeurs null on va les traiter dans l'étape des étudiants
abandonner.
➔Taux d’échec selon les villes:

➔ On observe que la plupart des échecs viennent des étudiants tangérois car la majorité des
étudiants sont des tangérois.
➔Taux d’échec selon le type de bac:

➔ On observe que la majorité des échecs vient des étudiants qui ont eu leur bac en Science de vie et
de terre et physique-chimie, et ça peut être expliqué par la raison que la majorité des étudiants
ont eu leur bac dans ces filières.
➔ Taux d’échec selon le sexe:

➔ On observe que pour l'algèbre l'échec sont plus au moins identiquement distribuée entre les
hommes et les femmes, sauf pour l'algèbre G ou la majorité des étudiants qui n’ont pas validé ce
module sont des hommes, et cela peut etre explique par la fréquence des hommes contre les
femmes.
➔ Dans ce cas, on observe que le taux d'échec est immensément plus grand entre les hommes, et ça
peut être dû à leur grand nombre et à leur faiblesse au niveau linguistique.

➔Taux d’obtention de diplôme :


Le taux d’obtention de diplôme c‘est la validation de toute 4 semestres de DEUST.

➔Taux d’obtention de Redoublement:


IV. Data Mining :

1- Arbre de décision :

Un arbre de décision est un outil d'aide à la décision représentant un ensemble de choix sous la forme
graphique d'un arbre. Les différentes décisions possibles sont situées aux extrémités des branches, et
sont atteintes en fonction de décisions prises à chaque étape. L'arbre de décision est un outil utilisé
dans des domaines variés tels que la sécurité, la fouille de données, la médecine, etc. Il a l'avantage
d'être lisible et rapide à exécuter. Il s'agit de plus d'une représentation calculable automatiquement
par des algorithmes d'apprentissage supervisé.

➔ Arbre de décision "Réussite" :


Dans notre cas, on s'intéresse à un arbre pour la prédiction de la réussite, avec la session comme un
noeud principal et le résultat comme un noeud de prédiction.

On peut voir la probabilite de reussite pour chaque noeud de l’arbre, on trouve


que:
✓ Probabilité de réussite selon Session :

Session 2

Session 1
✓ Probabilité de réussite selon Filière :

GEGM

MIPC

BCG
✓ Probabilité de réussite selon le code du module

TLMP2304 TLGE2304

TLGE4404 TLMP1204
2- Clustering:

Le clustering est une méthode d'analyse statistique utilisée pour organiser des données brutes
en silos homogènes. A l'intérieur de chaque grappe, les données sont regroupées selon une
caractéristique commune. L'outil d'ordonnancement est un algorithme qui mesure la proximité
entre chaque élément à partir de critères définis.

➔ Cluster "Réussite":
Dans notre cas, notre objectif est de prédire la réussite en créant des clusters.

➔ Probabilité de réussite selon la colonne:


➔ Graphes de cluster représentant les relations entre les variables:

✓ Cluster Population

✓ Cluster Filière
✓ Cluster Modules

✓ Cluster Résultat
Conclusion:

En conclusion, il est indéniable que la Business Intelligence joue un rôle crucial dans l'analyse et
l'exploitation des données. Cette discipline nous offre la possibilité de comprendre en détail les
informations contenues dans nos données, ce qui nous permet de gagner une perspective précieuse sur
le fonctionnement d'un phénomène quelconque. Grâce à une analyse approfondie, la Business
Intelligence nous permet d'optimiser la prise de décision.

L'importance et l'influence positive d'une bonne analyse ne peuvent être négligées. En comprenant les
tendances, les modèles et les relations cachées dans les données, nous sommes en mesure de prendre
des décisions plus éclairées et stratégiques. La Business Intelligence nous fournit les outils, les méthodes
et les technologies nécessaires pour transformer des données brutes en informations pertinentes et
utiles.

En utilisant la Business Intelligence, les organisations peuvent améliorer leur performance, identifier de
nouvelles opportunités, anticiper les défis et les risques, et collaborer de manière plus efficace. Elle
favorise une approche basée sur les faits et les données, ce qui permet d'éviter les décisions prises à
l'aveugle ou basées sur des intuitions.

En définitive, la Business Intelligence représente une discipline essentielle pour les entreprises cherchant
à maximiser leur potentiel. En comprenant et en exploitant pleinement les données à leur disposition,
les organisations peuvent prendre des décisions éclairées, stimuler leur croissance et améliorer leur
compétitivité sur le marché. La Business Intelligence est une clé pour une gestion stratégique et
opérationnelle plus efficace et une optimisation continue de la prise de décision.

Vous aimerez peut-être aussi