Projet SID&DM

Projet
Encadré par : Réalisé par :

Pr. Abdelhadi FENNAN BERBAR Mohammed
ABEGIG Ghizlane
Logiciel et système intelligent 2021-2022

Tables des matières :
Introduction……………………………………………………………………………………………………..3
Logiciels utilisés ................................................................................................. 4
Analyse du système d’information décisionnel : ................................................. 6
Tableau croisée dynamique………………………………………………………………………………9
Génération de rapports…………………………………………………………………………………..17
Analyse Datamining : ........................................................................................ 73
Conclusion………………………………………………………………………………….…………………104

Introduction :
Le terme Business Intelligence (BI), ou informatique décisionnelle, désigne les applications, les
infrastructures, les outils et les pratiques offrant l’accès à l’information, et permettant
d’analyser l’information pour améliorer et optimiser les décisions et les performances d’une
entreprise. En d’autres termes, la Business Intelligence est le processus d’analyse de données
dirigé par la technologie dans le but de déceler des informations utilisables pour aider les
dirigeants d’entreprises et autres utilisateurs finaux à prendre des décisions plus informées.
Les données de business intelligence peuvent inclure des informations historiques, mais aussi
de nouvelles données en provenance de systèmes sources, collectées dès qu’elles sont
générées. Ainsi, les analyses BI permettent de prendre aussi bien des décisions tactiques que des
décisions stratégiques.
Les programmes BI peuvent également incorporer des formes d’analyses avancées comme le
Data Mining. Le Data Mining est utilisé pour collecter des informations pertinentes et dégager
des insights. La Business Intelligence peut aussi être pensée comme le résultat du Data Mining,
puisqu’elle consiste à utiliser des données pour acquérir des insights.
Le Data Mining permet de chercher des ensembles de données pertinents, tandis que la Business
Intelligence permet de dégager des insights. Ainsi, les analystes utilisent le Data Mining pour
trouver les informations donc ils ont besoin, et utilisent la Business Intelligence pour déterminer
pourquoi elles sont importantes.

Objectif :
Le projet consistait à concevoir et réaliser une solution décisionnelle complète permettant
d'analyser facilement les indicateurs de performance de la faculté des sciences est techniques.
On s’intéressera tout particulièrement à trois thèmes : inscription, réussite et Lauréats.
L’objectif est de générer des tableaux de bord qui offrent une meilleure visibilité pour les
dirigeants.
Logiciels utilisés :
1. Analyse du système d’information décisionnel :
• Pentaho :
Pentaho est une solution d’informatique décisionnelle open source entièrement développée en
Java. Elle porte sur toute la chaîne décisionnelle et utilise différents outils et composants :
• Pour la collecte et l’intégration : les outils d’ETL Kettle ou Mondarian,

• Pour la diffusion : un serveur d’application JBoss ou TOMCAT,
• Pour la présentation : JFreeReport, BIRT ou encore JasperReport.
• Tableau Desktop :
Tableau Desktop correspond à un outil de développement d’analyse décisionnelle. Il vous
permet d’explorer vos données, de les analyser, d’y accéder instantanément et de partager vos
informations avec des superbes tableaux de bord. Facile à utiliser et à maitriser surtout si vous
êtes un utilisateur d’Excel, il est 10 à 100 fois plus rapide que les solutions existantes. Il se base
sur une technologie innovante qui transforme des images de données en requêtes de bases de
données optimisées.

• Power Pivot :
Power Pivot est un complément Excel qui permet d’effectuer de puissantes analyses de
données et de créer des modèles de données sophistiqués. Il peut gérer de gros volumes de
données (des millions de lignes) provenant de différentes sources, le tout dans un seul fichier
Excel.
2. Analyse Datamining :
• Microsoft Bi suite :
Outil tout en un pour gérer un projet de BI.
SQL Server Integration Services (SSIS) : Un ETL (Extract, Transform and load) est destiné à la
mise en place de logiques de flux de données, notamment pour alimenter des entrepôts de
données (data warehouse).
SQL Server Analysis Services (SSAS) : Il permet de générer des cubes OLAP, données agrégées
et multidimensionnelles. Il permet également d’implémenter des algorithmes de Data Mining.
SQL Server Reporting Services (SSRS) : SSRS est l’outil de restitution des données. Il vous
permet de récupérer vos rapports, fondés sur les données calculées par SSAS, sous forme de
fichier Excel, PDF, Word ou HTML.

• SQL Server Management Studio (SSMS):
SSMS est un environnement de développement intégré pour la gestion de toute infrastructure
SQL. Il est utilisé pour accéder, gérer, configurer et développer tous les composants de SQL
Server et de la base de données SQL. Il et C’est l’un des logiciels de gestion de bases de données
et de serveurs les plus utilisés et il a été optimisé au fil des années par Microsoft.
• Visual studio 2019:

Visual studio est un ensemble d'outils de développement permettant de développer différents
types d'applications. Il présente un ensemble des extensions qui nous servent à réaliser des
projets business intelligence ces extensions sont SSIS, SSAS et SSRS.

I. Analyse du système d’information décisionnel :
La modélisation en étoile est la plus communément utilisée aujourd’hui encore dans la mesure
où elle simplifie les requêtes SQL et en réduit au maximum le temps d’exécution, y compris sur
d’énormes volumes de données.
Les tables de dimensions sont utilisées pour décrire les données que l’on souhaite stocker dans
le Data Warehouse. Les tables de faits contiennent les données que l’on souhaite voir
apparaître dans les rapports d’analyse, sous forme de métriques. Les données des tables de
faits sont agrégées à partir des tables de dimensions qui leur sont associées.
• Thème inscription :
Table de fait : Inscription.
Tables de dimensions : Délégation, Etudiant, Baccalauréat, Parcours, Semestre.
• Thème réussite :
Table de fait : Réussite.
Tables de dimensions : Délégation, Etudiant, Baccalauréat, Parcours, Semestre, Année, Module.

• Thème Lauréats :
Table de fait : Lauréats.
Tables de dimensions : Délégation, Etudiant, Parcours, Année.

II. Tableau Croisé Dynamique :
Tableaux Croisés Dynamiques facilitent la manipulation des lignes et colonnes
pour une étude plus pointue des informations et une meilleure compréhension
du sens. Elles sont tout à fait adéquates pour manipuler le cube OLAP d'une
base décisionnelle.
1. Cas inscription :
• Données des étudiants 2014 :
C’est un très grand tableau, on a pris Screenshot d’une partie du tableau.

2. Cas réussite :
• Données MIPC 1 2015 :
Ci-après est représenté un tableau croisé affichant taux de validation pour les différents
sessions et années.

On peut utiliser Les graphiques croisés dynamiques pour mieux visualiser nos données.

On va faire la même chose sur les donnes d’année 2014.

On va étudier aussi les données de 2013, pour pouvoir comparer les résultats.

3. Cas lauréat :
• Données MIPC 2013 :
Ci-après est représenté un tableau croisé affichant taux d’obtention du diplôme pour les différents
semestres.
D’après ces résultats, il y ‘a 59 lauréats de MIPC 2013.
• Données MIPC 2015 :

Ci-après est représenté un tableau croisé affichant taux d’obtention du diplôme pour les
différents semestres.

D’après ces résultats, il y ‘a 44 lauréats de MIPC 2015.

III. Génération de rapports : (Utilisation du Tableau)
A. Première Méthode :
Avec les rapports d'intelligence décisionnelle, on va comprendre les données entrantes et
passées afin de tirer des conclusions significatives sur ce que devrait être le plan d'action futur.
Les outils de reporting de Business Intelligence accumulent ces données et exécutent une
analyse. Ensuite, ces informations sont triées en diagrammes à secteurs, histogrammes ou
tableaux pour générer des modelés de prévision visuelle afin de mieux comprendre ce que
toutes les informations contenues dans la table signifient réellement par rapport à la faculté de
sciences et techniques.
Mais avant de commencer notre reporting, on doit nettoyer les données. On va les nettoyer en
appliquant l’opérations de filtrage.
Voilà les données dans un premier temps :
Apres nettoyage :

Puis on a défini l'emplacement de publication de notre étape de sortie. Dans le volet Flux, on a
sélectionné l'étape de sortie. Puis dans le volet de publication, sélectionnez Publier en tant que
source de données.
1. Taux d’inscription :
1.1. Pour 2014 :
• Selon âge :

Pour l’année 2014, les étudiants de 19 ans est le plus nombreux à s’inscrire à la FST.
• Selon sexe :
Il y’a à peu près le même nombre des inscris des garçons que des filles sur la FST.
• Selon parcours :
402 étudiants choisissent la filière MIPC. Donc MIPC est la filière la plus choisie à la FST.
• Selon parcours/type baccalauréat :

Les lauréats du baccalauréat science de la vie et de la terre choisissent la filière BCG.
Les lauréats du baccalauréat science physique et chimique choisissent la filière MIPC.
Les lauréats du baccalauréat science et techno. Electrique et science et techno. Mécanique
choisissent la filière GEGM.
• Par Parcours/sexe :
Le nombre des filles dans la filière de BCG est le double de nombre des garçons. Au contraire, le
nombre des garçons dans GEGM est plus que le double du nombre de filles. Pour la filière MIPC,
il y’a à peu près le même nombre.
• Selon date d’obtention de baccalauréat :

La plus par des étudiants sont des lauréats du baccalauréat 2014.
1.2. Pour 2015 :

• Selon âge :
Pour l’année 2015, les étudiants de 18 ans est le plus nombreux à s’inscrire à la FST. Ce n’est
pas la même chose que l’année 2014.
• Selon sexe :
Le nombre des filles est un peu plus que de garçons.
441 étudiants choisissent la filière MIPC. Donc MIPC est la filière la plus choisie à la FST pour
l’année 2015.
• Selon parcours/type baccalauréat :

Les lauréats du baccalauréat science physique et chimique choisissent la filière MIPC.
La même chose que les résultats de 2014.
• Selon parcours/sexe :

Le nombre des filles dans la filière de BCG est le double de nombre des garçons. Au contraire, le
nombre des garçons dans GEGM est plus que le double du nombre de filles. Pour la filière MIPC,
le nombre des filles est plus que le nombre des garçons. Donc par rapport à l’année 2014, il y’a
juste un changement au niveau de la filière MIPC, le nombre de filles a augmentée.
• Selon date d’obtention du baccalauréat :
1.3. Pour 2016 :

• Selon âge :
Pour l’année 2016, les étudiants de 17 ans est le plus nombreux à s’inscrire à la FST. Ce n’est
pas la même chose que l’année 2015 et 2014.
• Selon sexe :
Le nombre des filles est plus que de garçons.

L’apparition d’une novelle filière MIP. 361 étudiants choisissent la filière BCG. Donc BCG est la
filière la plus choisie à la FST pour l’année 2016.
• Selon parcours/type de baccalauréat :

Les lauréats du baccalauréat science physique et chimique et science mathématiques A et B
choisissent la filière MIPC.

Les lauréats du baccalauréat science physique et chimique choisissent la filière MIP.
• Selon parcours/sexe :
Le nombre des filles dans la filière de BCG est plus que le double de nombre des garçons. Au
contraire, le nombre des garçons dans GEGM est plus que le double du nombre de filles. Pour la
filière MIPC, le nombre des filles est plus que le nombre des garçons. Mais pour la filière MIP le
nombre des filles et de garons est équilibré.
• Selon date d’obtention de baccalauréat :
Conclusion de visualisation du taux de réussite :

• L’âge des nouveaux inscris a passé de 19 ans en 2014 à 17 en 2016.
• Le nombre des filles en 2016 a augmenté par rapport à 2014.
• Pour la plupart des nouveaux inscris, l’année d’obtention du baccalauréat et l’année
d’inscription à la FST.

• Les filles lauréates du baccalauréat science de la vie et de la terre choisissent la filière
BCG.
• L’apparition de la filière MIP contribue a la réduction de nombre des étudiants de MIPC.
2. Taux de réussite :
2.3 MIPC 1 2013 :
• Par semestre :
Le nombre des non validé dans le premier semestre est moins que le nombre des validés. Mais
il est élevé pour le deuxième semestre.
• Par semester/session:

Pour les deux semestres, tous les NV du premier semestre sont des résultats de la deuxième
session(rattrapage). Mais les V sont distribuées sur les deux sessions.
• Semestre/Année :
Toutes les NV sont obtenus en 2013. Mais les V sont distribués sur les années 2011, 2012 et
2013.

Toutes les NV sont obtenus en 2013. Mais les V sont distribués sur les années 2010, 2011, 2012
et 2013.
2.2 MIPC 1 2014 :

• Par semestre :
Le nombre des non validé dans le premier semestre est plus que le nombre des validés. Mais il
est bas pour le deuxième semestre.

Pour les deux années, tous les NV du premier semestre sont des résultats de la deuxième
session(rattrapage). Mais les V sont distribuées sur les deux sessions.
et 2014.

Toutes les NV sont obtenus en 2014. Mais les V sont distribués sur les années 2013 et 2014.
2.1. MIPC 1 2015 :

• Par semestre :
Le nombre des non validé est trop élevé pour les deux semestres.
• Par semestre/session :

Tous les résultats du premier semestre sont des résultats de la deuxième session(rattrapage).
Les résultats NV et AC sont des résultats de la deuxième session(rattrapage). Mais le nombre de

validations dans la deuxième session est plus que le double de la première session.

et 2015.
Toutes les NV et AC sont obtenus en 2015. Mais les V sont distribués sur les années 2013, 2014
et 2015.
2.4 MIPC 2 2014 :

• Par semestre :
Le taux de la validation dans les deux semestre est elevé.


Presque tous les résultats sont de la deuxième session.

Tous les résultats sont de 2014.
2.5 MIPC 2 2015 :

• Par semestre :

Le taux de la validation dans les deux semestre est elevé.
Les résultats NV et AC sont des résultats de la deuxième session(rattrapage). Mais le nombre de

validations dans la deuxième session est plus que le double de la première session.

Pour les deux semestres, les résultats NV et AC sont des résultats de la deuxième
session(rattrapage). Mais le nombre de validations dans la deuxième session est plus que le
double de la première session.

Tous les résultats NV et AC sont de 2015. Mais le résultat V est distribué sur les années 2014 et
2015.
2.6 MIPC 2 S3 2013 :

• Par semestre :
Le taux de la validation est elevé.
• Par module :
Le taux de la validation dans les tous les modules est elevé.
2.7 BCG 1 2014 :

• Par semestre :

Le nombre des Nv est plus que le nombre des V dans les deux semestres.
• Par module :
Les modules de la semestre 1 :
Le nombre de validation dans le module Biologie cellulaire est élevé.
Le nombre de validation dans le module Cosmologie & Géodynamique interne est élevé. Mais
le contraire pour les modules Optique et Radioactivité et Structure de la matière.

Le nombre de validation dans le module LC1 est élevé. Mais le contraire dans le cas d’Algèbre 1.
Le nombre de validation dans le module LC2, Biologie animale, Géodynamique externe et

Réactivité chimique est plus que le nombre des non validés (Non rattrapage est un NV). Mais le
contraire dans le cas de Thermodynamique / Mécanique des fluides et Analyse.

• Par semestre/année :

2.8) BCG 2 2014 :

• Par semestre :
Le nombre des V est plus que le nombre des NV dans les deux semestres.
• Par module :

Le taux de validation du module Biologie végétale, Electricité, Stratigraphie & Paléoenvironnement,
Chimie Minérale 1 et Probabilités/ Statistiques est plus élevé que le taux d’échec. Au contraire, le taux
de validation du module Chimie Organique 1 est trop bas.

Le taux de validation de tous les modules de la deuxième année est plus élevé que le taux d’échec.

2.9) GEGM 1 2014 :

• Par semestre :

Pour le premier semstre, le nombre de validations est a peu plus que le nombre de NV. Mais le
contraire pour le deuxieme semestre.

Le nombre de validations et de Nv dans la deuxième session est plus que le double de la
première session.
Pour les deux semestres, tous les résultats NV sont de 2014. Mais les validations sont distribuées
sur les années 2012, 2013 et 2014.

2.10) GEGM 2 2014 :
• Par semestre :
Le nombre des V est plus que le nombre des NV dans les deux semestres.


3. Analyse des modules avec échecs élevés :
3.1) MIPC 1 2015 :
• Circuits électriques et électroniques :
Analyse des résultats du Circuits électriques et électroniques en fonction du type de

baccalauréat :
Analyse des résultats du Circuits électriques et électroniques en fonction du sexe :

Analyse des résultats du Circuits électriques et électroniques en fonction de la ville de
naissance :
Donc, parmi les caractéristiques des étudiants qui n’ont pas validés le module de circuits
électriques et électroniques sont :
✓ Sexe : filles,
✓ Type de baccalauréat : science physique et chimique,
✓ Ville de naissance : Casablanca

• Electricité :
Analyse des résultats d’électricité en fonction du sexe :
Analyse des résultats du Circuits électriques et électroniques en fonction de type du

baccalauréat :

Analyse des résultats du Circuits électriques et électroniques en fonction de la ville de naissance :
Donc, parmi les caractéristiques des étudiants qui n’ont pas validés le module d’électricité
sont :
✓ Sexe : filles,
• Analyse 1 :

Analyse des résultats d’Analyse 1 en fonction du sexe :
Analyse des résultats d’Analyse 1 en fonction de la ville de naissance :

Analyse des résultats d’Analyse 1 en fonction de type de baccalauréat :
Donc, parmi les caractéristiques des étudiants qui n’ont pas validés le module d’Analyse 1 sont :
✓ Sexe : filles,

• Mécanique du point et Optique géométrique :
Analyse des résultats de la Mécanique du point et Optique géométrique en fonction du sexe :
Analyse des résultats de la Mécanique du point et Optique géométrique en fonction du type de

baccalauréat :

Analyse des résultats de la Mécanique du point et Optique géométrique en fonction de la ville
de naissance :
Donc, parmi les caractéristiques des étudiants qui n’ont pas validés le module Mécanique du
point et Optique géométrique sont :
✓ Sexe : filles,
✓ Ville de naissance : LARACHE.

• Analyse 2 :
Analyse des résultats de la Mécanique d’Analyse 2 en fonction du sexe :
Analyse des résultats d’Analyse 2 en fonction du type de baccalauréat :

Analyse des résultats d’Analyse 2 en fonction de la ville de naissance :
Donc, parmi les caractéristiques des étudiants qui n’ont pas validés le module d’Analyse 2 sont :
✓ Sexe : filles,
✓ Ville de naissance : Ksar EL Kbir.

3.2) BCG 1 2014 :
• Optique et Radioactivité :
Analyse des résultats d’Optique et Radioactivité en fonction du type de baccalauréat :
Analyse des résultats d’Optique et Radioactivité en fonction du sexe :

Donc, parmi les caractéristiques des étudiants qui n’ont pas validés le module d’Optique et
Radioactivité sont :
✓ Sexe : filles,
✓ Type de baccalauréat : science de la vie et de la terre.
• Structure de la matière :
Analyse des résultats de Structure de la matière en fonction du type de baccalauréat :

Analyse des résultats de Structure de la matière en fonction du sexe :
Donc, parmi les caractéristiques des étudiants qui n’ont pas validés le module de Structure de la
matière sont :
✓ Sexe : filles,

• Thermodynamique / Mécanique des fluides :
Analyse des résultats du Thermodynamique / Mécanique des fluides en fonction du type de

baccalauréat :
Analyse des résultats du Thermodynamique / Mécanique des fluides en fonction du sexe :

Donc, parmi les caractéristiques des étudiants qui n’ont pas validés le module du
Thermodynamique / Mécanique des fluides sont :
✓ Sexe : filles,
3.3) GEGM 1 2014 :

• Circuits électriques et électroniques :

Analyse des résultats de Circuits électriques et électroniques en fonction du type de
baccalauréat :
Parmi les caractéristiques des étudiants qui n’ont pas validés le module de circuits électriques
et électroniques sont :
✓ Type de baccalauréat : SC. et Techno. Mécanique.

• Electricité :
Analyse des résultats d’Electricité en fonction du type de baccalauréat :

• Algèbre 1 :
Analyse des résultats d’Algèbre 1 en fonction du type de baccalauréat :

• Analyse 2 :
Analyse des résultats d’Analyse 2 en fonction du type de baccalauréat :

4. Les taux de redoublement, d'obtention du diplôme, d'abandon

par filière et année :
• MIPC 2015 :
• Taux d’abandon :
On a un manque des données donc on ne peut pas trouver le nombre d’abandon.

Mais on peut considérer le nombre 796 comme nombre d’abandon, puisqu’on a
prix les code des étudiants de MIPC 1 et ses résultats de semestre 3.
• Taux d’obtention du diplôme :

A partir de ces rapports, le nombre d’obtention du diplôme DEUST MIPC 2015 est 44.
• Taux de Redoublement MIPC 2015 :

25 des redoublements mais ce résultat n’est pas sûr à cause de manque des données.

B. Deuxième Méthode :
La phase d’extraction est déjà faite donc on va commencer la transformation des données :
1. Schéma en étoile :
Les schémas en étoile :
a. Inscription :
b. Réussite / Echec :

Maintenant, on peut commencer notre transformation :
➢ Inscription :
L’outil qu’on va utiliser dans cette partie est PENTAHO qui va se charger de tous les ETL qu’on
va construire.
Dans un premier temps, on va travailler sur les données de l’inscription, mais avant de les
charger dans PENTAHO, on va commencer d’abord par ajouter la colonne ANNEE à notre Excel,
afin de rassembler nos trois feuilles dans une seule.
Les fichiers de l’inscription avant la modification :

Les fichiers de l’inscription après la modification :
D’abord, il y a l’extraction du fichier csv qui contient les informations sur les nouveaux inscris
d’années 2014, 2015 et 2016 :
Les données à extraire de ce fichier sont : année d’inscription, délégation, le type de bac, le
sexe, et le parcours.

A chaque fois on va extraire les données de chaque colonne, les trier, supprimer les doublons,
puis les ajouter dans une table de dimension de notre base de données MYSQL scolarité.
Par la suite on va vous montrer le contenu de chaque élément dans notre transformation
d’inscription jusqu’à sa fin.
Voici comment on a pu créer la table de dimension dim_parcours, d’abord sélection de la
colonne PARCOURS :
Maintenant on trie la colonne qu’on a sélectionné :
Et puis on supprime toute sorte de dédoublonnage :

Et enfin, on crée notre table de dimension dim_parcours :
Voici comment on a pu créer la table de dimension dim_sexe, d’abord sélection de la colonne

SEXE :

Et enfin, on crée notre table de dimension dim_sexe :

Voici comment on a pu créer la table de dimension dim_type_bac, d’abord sélection de la
colonne TYPE BAC :

Dans ce cas, les choses vont se différencier un petit peu, car on va utiliser l’élément Table de
correspondance, afin d’exprimer les types de bac qu’on les écrire avec plusieurs manières d’une
façon plus normalisé.

Et enfin, on crée notre table de dimension dim_type_bac :

Voici comment on a pu créer la table de dimension dim_code, d’abord sélection de la colonne
CODE :

Et enfin, on crée notre table de dimension dim_code :

Voici comment on a pu créer la table de dimension dim_delegation, d’abord sélection de la
colonne DELEGATION :

Et enfin, on crée notre table de dimension dim_delegation :
Voici comment on a pu créer la table de dimension dim_année, d’abord sélection de la colonne

ANNEE :

Et enfin, on crée notre table de dimension dim_année :

Voici le résultat qu’on a obtenu après la génération de tous les tables de dimension dont on
aura besoin par la suite pour générer notre table de faits :
Dans cette étape, on va passer à créer notre table de faits, on va utiliser notre élément
Recherche valeurs dans base de données de notre palette de création, afin de créer notre table
de dimension fact_inscription :
Concernant la recherche du TYPE BAC dans dim_type_bac :

Concernant la recherche du PARCOURS dans dim_parcours :
Concernant la recherche du SEXE dans dim_sexe:

Concernant la recherche du DELEGATION dans dim_delegation :
Concernant la recherche du CODE dans dim_code :
Concernant la recherche d’Année dans dim_année :

Par la suite, on va créer la constante inscription, qu’on va la remplir par des zéros et qui va nous servir
lors du calcul du total des étudiants :
Après cette phase, on passe pour générer notre table des faits à partir de tout ce qu’on a réalisé
jusqu’à maintenant :

Voici la forme finale de notre transformation :
➢ Load Data :
Et voilà notre base de données scolarité :
Voici notre schéma concepteur :

➢ Réussite/Echec :
Voilà les données :
On va utiliser juste les données des années 2014, 2015 car on va par la suite concaténer les
données des modules avec les données des étudiants qu’on va les extraire à partir de la
transformation Inscription qu’on a déjà réalisé, mais cette dernière ne contient que les
inscriptions des années 2014, 2015 et 2016.

On commence la phase de transformation, on va réutiliser PENTAHO pour faire nos
transformations.
Les étapes qu’on va suivre dans cette partie sont les suivant :
• La normalisation des données de résultats.

• Rassembler toutes les données dans un seul fichier csv.
• Elimination des valeurs nulles.
• Création des tables de dimension et de la table de fait de réussite.
Commençant d’abord par normaliser les données, afin d’éviter toute sorte d’anomalie
transactionnelle qui peut découler d’une mauvaise modélisation des données et ainsi pour ne
pas faire face à plusieurs problèmes. Ce traitement va être effectuer au niveau de toutes les
filières mais juste au niveau des années 2014, 2015 pour garder la compatibilité avec les
données d’inscription avec lesquelles on va concaténer par la suite :
Voici la transformation pour BCG1 2014 :


Voici la transformation pour GEGM1 2014 :


Voici la transformation pour MIPC1 2014 :


Après la normalisation, après avoir afficher tous les modules pour chaque étudiant, on
rassemble tous les fichiers dans un seul fichier csv.
Le fichier code modules était comme cela au début, mais on a le transformer en utilisant Excel,
afin de l’utiliser par la suite.

Le fichier code modules avant la modification :
Le fichier code modules après la modification :
On passe maintenant pour faire une jointure à partir de la base de données qu’on a déjà
générée, afin d’avoir à la fin une table dont il y a les informations de réussite avec les
informations d’inscription :
Voici les résultats qu’on a obtenu après tout ce traitement :

Comme c’est remarquable, il existe plusieurs valeurs nulles, dont on doit se débarrasser par la
suite, pour cela on a choisi d’utiliser les filtres qui sont offert par Excel et qui sont simple à
utiliser :
Mais d’abord, on va commencer par supprimer les champs dont on n’aura pas besoin : CNE,
type_bac_id, parcours_id, sexe_id, delegation_id, année_id.
Le résultat qu’on a obtenu est le suivant :
Après le choix de la colonne dont on veut filtrer, on passe à choisir l’option toute à droite Sort &
Filter : et choisir juste les lignes vides par rapport à la colonne SEXE par exemple et puis
supprimer toutes les lignes avec des valeurs nulles, ainsi de suite jusqu’à terminer tout le travail
et se débarrasser des valeurs nulles :

Le résultat qu’on a obtenu après tout ce processus de filtrage est le suivant :
On a constaté que le nombre des enregistrements s’est beaucoup diminué, surtout qu’on avait
les données d’inscription de 2013, 2014, 2015 et les données de réussite / échec de 2014, 2015,
2016 et qu’il se peut que des étudiants sont inscrits avant les années dont on a leurs
enregistrements.
Avant la création des tables de dimensions et de la table des faits, on aura besoin de
concaténer les données des modèles avec les données qu’on a déjà obtenu à partir des
données d’inscription.
Voici la transformation qui effectue ce travail sur PENTAHO :

On passe maintenant pour créer les tables des dimensions et des faits de la même manière
avec laquelle on a déjà créé les tables et dimensions et des faits pour l’inscription.
Voici les résultats de notre exécution :
➢ Load Data :
Et voilà notre base de données réussite/échec :

Voici notre schéma concepteur :
➢ Génération des rapports :

1. Taux d’inscription :
On connecte notre base de données Maria DB avec Tableau et on commence sans tarder la
partie de la visualisation.
Voici notre schéma en étoile d’inscription après avoir connecter la base de données :

Taux d’inscription par ville :
Taux d’inscription par série de bac :

Taux d’inscription par année :
Taux d’inscription par sexe/année :
Taux d’inscriptions par parcours :

Taux d’inscription par parcours et année :
Taux d’inscription par série de bac et parcours :

Taux d’inscriptions parcours/sexe et année :
2. Taux de réussite / échec :

Voici notre schéma en étoile de réussite/ échec après avoir connecter la base de données :

Taux de réussite par filière :

Taux de réussite par ville :
Taux de réussite par série de bac et sexe :

Taux de réussite par session :
Taux d’échec par semestre et parcours :

On constate que le premier semestre est le semestre le plus difficile car le taux d’échec est trop
élevé pour les filières MIPC et GEGM, comme vous voyez.
Taux d’échec par semestre et parcours et sexe :
Taux d’échec par série de bac et parcours :

Taux d’échec par délégation :

Taux d’échec par filière et module :

IV.Analyse Datamining :
SQL Server Analysis Services (SSAS) contient des fonctionnalités permettant de développer des
modèles d'exploration de données à l'aide de divers algorithmes d'exploration de données pour
l'analyse prédictive. Une fois ces modèles déployés sur SSAS, ils peuvent être interrogés à l'aide
des extensions d'exploration de données.
Premièrement, on doit créer un flux de données SSIS, appelé aussi Data Flow. C’est à dire créer
un flux de données dans un package Integration Services. Dans ce flux de données, on va copier
des données de notre fichiers csv à une base de données SQL Server.
Nous allons faire glisser le composant Flat file Source ou source fichier plat sur notre espace de
travail.
Ensuite, il nous faut ouvrir la source de données afin de lui affecter notre fichier cliquant sur
celle-ci. Cela nous amène à cette fenêtre ou bien entendu nous allons cliquer sur new.

Passons dans l'onglet colums ou colonnes de notre fenêtre. Nous pouvons constater qu'un
premier aperçu des données est disponible et que notre ligne d'entête a bien été ignorée.
Notons aussi que SSIS est intelligent, il a reconnu de lui-même le séparateur de données
présent dans le fichier source. Bien entendu il y en a d'autres possibles dans la liste de sélection
comme « ; », tabulation ou autres.

Nous validons le traitement du fichier puis nous retournons à la fenêtre initiale au niveau
de l'onglet colums ou colonne. C'est ici que nous sélectionnons les colonnes qui nous
intéressent.
Pour transformer le type de données en fonction de la destination. Nous devons ajouter un

composant SSIS, data conversion entre la source et la destination, pour convertir les données
en Unicode String.

Nous avons géré notre source de données, nous avons converti les données, maintenant nous
allons configurer l'import. Notre cible est OLE DB Destination. On configure la connexion avec
notre base de données destinataire :
Dans l'onglet manager de connexion, nous spécifions la connexion à utiliser ainsi que la table
destination de notre base de données. Dans notre cas, la table Etudiants :

Au niveau de l'onglet Mapping, SSIS arrive à associer les bonnes colonnes entre elles.
Pour l'import des données, soit il nous faut cliquer droit sur la tâche de l'onglet flux de contrôle
afin de l'exécuter (en particulier si nous ne souhaitons pas l'exécution d'autres tâches en même
temps), soit nous exécutons tout le package (F5). Si l'exécution se déroule correctement, tout
s'affiche en vert et le nombre de lignes insérées est visible.
Voici notre table Etudiants après exécution de notre package SSIS :
On refait ces étapes pour les autres fichiers sources de données.

1. Clustering :
Le clustering est une méthode d'analyse statistique utilisée pour organiser des données brutes
en silos homogènes. A l'intérieur de chaque grappe, les données sont regroupées selon une
caractéristique commune. L'outil d'ordonnancement est un algorithme qui mesure la proximité
entre chaque élément à partir de critères définis.
• Nouveau inscris 2014 :

L'onglet Diagramme de cluster fournit une vue d'ensemble des clusters. Plus le nombre
d'enregistrements dans le cluster est élevé, plus la couleur d'arrière-plan est intense. De plus, la
force des connexions entre les clusters (similitudes de certaines caractéristiques) est
visuellement visible à travers l'épaisseur des lignes.
Donc, on peut observer que les étudiants féminins existent plus dans les clusters 4,10,5,3,1,6 et
2.
Les plages de valeurs des attributs individuels peuvent être analysées dans le profil de cluster.

Dans l'onglet Caractéristiques du cluster, les plages de valeurs les plus significatives d'un
cluster spécifique sont disponibles.

Le dernier onglet Discrimination des clusters offre la possibilité de comparer les
caractéristiques de deux clusters. Ici, il peut être déterminé avec quelle probabilité un
ensemble de données dont l'attribut se situe dans une certaine plage de valeurs préfère l'un
des deux clusters.

Mining Model nous montre les entrées de notre model.
Voilà les clusters trouvés. Parmi les caractéristiques des clusters 3, 10, 7, 8 et 2 est les étudiants
de 17 ans.
Parmi les caractéristiques des clusters 3, 8 et 1 est les étudiants ayant un baccalauréat sciences
mathématiques A.

Voilà les plages de valeurs des attributs dans chaque cluster.

Et voilà les caractéristiques de chaque clusters :

On va réaliser même étude :

Concernant le cluster 2, on a les étudiants féminins de 17 ans avec baccalauréat science de la vie
et de la terre de 2016 qui ont choisi le parcours bcg.
• Les résultats de la première année MIPC, BCG ET GEGM 2014 :

On va construire des clusters base sur les résultats de la première année des tous les filières
pour l’année 2014.

Par exemple, le cluster 4 contient les étudiants de la filière BCG avec non validée dans les deux
semestres et les deux NV sont obtenues dans la session 2 l’année 2014.
Voilà les caractéristiques du premier cluster :

L’étudiant avec NV dans le deuxième semestre a la probabilité d’appartient au cluster 1 plus
élevée que la probabilité du deuxième cluster donc il est probable qu’il n’a pas valide le
deuxième semestre dans la deuxième session année 2014.
• MIPC 2 2015 :

On peut remarquer que cluster numéro 5 contient les étudiants qui n’ont pas validée les deux
semestres dans la session 2 l’année 2015.
2. Arbres de décision :
Cet outil d’aide à la décision ou d’exploration de données permet de représenter un ensemble
de choix sous la forme graphique d’un arbre. C’est une des méthodes d’apprentissage
supervisé les plus populaires pour les problèmes de classification de données.

2.1) Inscription : (2015)
Le but de notre premier arbre de décision est de créer un modèle qui prédit la valeur de
parcours en fonction des entrées (âge, date d’obtention du baccalauréat, délégation, sexe, type
de baccalauréat et ville de naissance).
L'image ci-dessous montre la fenêtre Visual Studio Solution Explorer et l'onglet Mining
Structure du modèle d'exploration de données qui a été créé dans l’étape ci-dessus.

Voila l’image suivante montre les entrées et le champ à prédire :
L’image suivant montre notre modèle d'arbre de décision :

MIPC a la plus grande probabilité. Donc le nombre des inscris dans MIPC est plus grand que les autres
filières pour l’année 2015.
Si on met dans background GEGM, on remarque que les étudiants de GEGM sont des lauréats du
baccalauréat sciences expérimentales et sciences mathématiques A et B.
Pour MIPC, il y’a des lauréats du baccalauréat science physique et sciences mathématique A.

Pour BCG, les étudiants sont des lauréats du baccalauréat science de la vie et de la terre. En plus, le
nombre des filles dans cette filière est plus que les garçons.
Graphe des dépendances. Un graphe des dépendances entre la cible et les variables prédictives
est affiché dans l’onglet « Dependency network ». Les liens mis en évidence dépendent du niveau
de profondeur sélectionné. Si l’on s’en tient aux 2 plus fortes liaisons, nous obtiendrons le graphe
suivant.
• La matrice de classification est en quelque sorte un résumé des résultats de prédiction

pour un problème particulier de classification. Elle compare les données réelles pour
une variable cible à celles prédites par un modèle.

On retrouve les bonnes prédictions sur la diagonale.
On a donc ici:
• 63 étudiants ayant été classés BCG sur un total de 98 étudiants, ce qui est
bien.
• Pour les étudiants de la filière GEGM, 50 sur 57 ont bien été identifiés.
• Et 117 sur 127 ont bien été identifiés comme étudiants de la filière MIPC.
3. Prédiction :
3.1) Naïve Bais :
La classification naïve bayésienne s'apparente à une classification bayésienne
probabiliste simple (dite naïve). Elle repose sur le théorème de Bayes, qui n'est autre
qu'un modèle de probabilités.
• Dans cette partie, on va prédire le type de baccalauréat à partir du parcours, sexe
et date d’obtention du baccalauréat.

Graphe des dépendances (Dependency Newtwork). Il hiérarchise les variables selon leur
pertinence dans la prédiction.
Profils des attributs (Attributes Profiles). Cette fenêtre montre les distributions sdes variables
conditionnellement aux valeurs de la cible.

D’après ces résultats, on remarque que la proportion des filles lauréates du baccalauréat
science expérimentales est plus élevée que des garçons et ces filles sont distribuées sur les
filières BCG et MIPC mais les garçons sont du baccalauréat étrangère ou science
mathématiques ou science techno. Mécanique ou électrique.
• Dans cette partie, on va prédire le parcours des étudiants à partir de leurs baccalauréat
et sexe. (Etudiants de 2016)

Cette fenêtre montre les distributions des modalités des variables conditionnellement aux
valeurs de la cible.

On remarque que la plupart des étudiants de la filière BCG sont des lauréates du baccalauréat
science de la vie et de la terre.
D’après l’onglet Caractéristiques des attributs (Attribute Characteristics), on remarque que la

plupart des étudiants de GEGM sont des lauréats du baccalauréat sciences et technologie
Mécanique et sciences et technologie Electrique.

On constate que la plupart des étudiants de MIPC sont des lauréats du baccalauréat physique et
chimique.
D’après ce résultat, On conclure que la plupart des étudiants de MIP sont des lauréats du
baccalauréat physique et chimique et science mathématiques A et B.
Ce tableau nous indique que, à 50 % de la population, le modèle que nous avons créé prédit
correctement 38.96 % des cas. Nous pourrions considérer cela comme un modèle plus au moins
précis.

3.2) Réseaux de neurones (Perceptron) :
SSAS s’appuie sur un perceptron multicouche. Le perceptron multicouche (multilayer
perceptron MLP) est un type de réseau neuronal artificiel organisé en plusieurs couches au sein
desquelles une information circule de la couche d'entrée vers la couche de sortie uniquement ;
il s'agit donc d'un réseau à propagation directe (feedforward). Chaque couche est constituée
d'un nombre variable de neurones, les neurones de la dernière couche (dite « de sortie ») étant
les sorties du système global.
Dans ce cas, on va prédire le résultat du semestre 4 à partir du résultat du premier semestre,
session et l’année pour toutes les filières d’année 2014 de tous les filières.
Visualisation du modèle. Les sorties sont relativement succinctes pour le réseau de neurones.
Nous observons dans la fenêtre l’influence des variables prédictives sur l’une ou l’autre valeur
de la cible.
Par exemple, si le résultat de semestre 1 est validé alors le résultat favori du semestre 4 est
validé.

correctement 41.53 % des cas. Nous pourrions considérer cela comme un modèle
raisonnablement précis.
On a ici:
• 121 résultats du semestre 2 ayant été classés NV sur un total de 153, ce qui est
bien.
• Et 169 ayant été classés V sur 234 ont bien été identifiés.
On peut utiliser ce modèle sur les données de MIPC 1 2015 pour prédire le résultat du
semestre 2 :

Une expression est une combinaison d'identificateurs, de valeurs et d'opérateurs que Microsoft
SQL Server Analysis Services peut évaluer pour obtenir un résultat.

4. Règles d’association :
Les règles d'association est une méthode populaire étudiée d'une manière approfondie
dont le but est de découvrir des relations ayant un intérêt pour le statisticien entre deux
ou plusieurs variables stockées dans de très importantes bases de données.
4.1) Inscription : (2014)

Dans ce cas, on va utiliser les champs âge, sexe et type de baccalauréat comme entrée
et le champ à prédire sera le parcours.
Nous disposons de la liste des règles dans l’onglet « Rules ».
Enfin, le graphe des dépendances est visible dans l’onglet « Dependency Network ».

Les liaisons entre les items indiquent les associations. La direction des flèches retrace traduit le
sens des relations en accord avec les règles extraites.

Nous cliquons sur Lift Chart, la courbe LIFT s’affiche directement avec score. Lift Chart
représente graphiquement l'amélioration qu'un modèle d'exploration de données fournit par
rapport à une estimation aléatoire, et mesure le changement en termes de score
d’élévation. En comparant les scores d'amélioration de différents modèles, vous pouvez
déterminer quel modèle est le meilleur.
correctement 44.68 % des cas. Nous pourrions considérer cela comme un modèle
raisonnablement précis.

Conclusion
En conclusion, nous pouvons constater que ces dix dernières années, l’adoption de solutions
d’intelligence décisionnelle a fait un bon de géant. La data visualisation a permis de rendre
accessible le pilotage par la donnée à tous les niveaux de l’entreprise, mais ce n’est pas la seule
raison qui explique cette progression massive.
En plus, Les techniques et l'utilisation du Data Mining sont amenés à se développer et à se
démocratiser. De nombreux logiciels existent déjà, libres comme commerciaux. Tous
nécessitent évidemment une formation à la hauteur de la complexité des données traitées,
mais tout laisse penser que le Data Mining sera source de grandes avancées dans les temps
futurs.

Références
[1] https://www.erpsoftwareblog.com/2014/06/using-ssas-sql-
server-analysis-services-data-mining-to-automate-marketing-
analysis/
[2] https://www-paso--solutions-com.translate.goog/blog/ssas-data-
mining-clustering?_x_tr_sl=de&_x_tr_tl=fr&_x_tr_hl=fr&_x_tr_pto=sc
[3] https://www.cours-gratuit.com/tutoriel-excel/tutoriel-excel-
analyses-des-donnees-avec-power-pivot
[4]https://www.javatpoint.com/ssis#:~:text=SSIS%20is%20used%20t
o%20combine,into%20a%20single%20data%20source.
[5] https://www.tableau.com/products/cloud-bi
[6] https://www.mssqltips.com/sqlservertutorial/2000/sql-server-
analysis-services-ssas-tutorial/

Projet SID&DM

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Projet SID&DM

Transféré par

Droits d'auteur :

Formats disponibles

Projet

Encadré par : Réalisé par :

Logiciel et système intelligent 2021-2022

Logiciel et système intelligent 2021-2022

Logiciel et système intelligent 2021-2022

• Pour la collecte et l’intégration : les outils d’ETL Kettle ou Mondarian,

Logiciel et système intelligent 2021-2022

Logiciel et système intelligent 2021-2022

• Visual studio 2019:

Logiciel et système intelligent 2021-2022

Logiciel et système intelligent 2021-2022

Logiciel et système intelligent 2021-2022

C’est un très grand tableau, on a pris Screenshot d’une partie du tableau.

• Données des étudiants 2015 :

Logiciel et système intelligent 2021-2022

Logiciel et système intelligent 2021-2022

Logiciel et système intelligent 2021-2022

Logiciel et système intelligent 2021-2022

Logiciel et système intelligent 2021-2022

D’après ces résultats, il y ‘a 59 lauréats de MIPC 2013.

• Données MIPC 2015 :

Logiciel et système intelligent 2021-2022

Logiciel et système intelligent 2021-2022

Logiciel et système intelligent 2021-2022

Logiciel et système intelligent 2021-2022

• Selon parcours/type baccalauréat :

Logiciel et système intelligent 2021-2022

• Selon date d’obtention de baccalauréat :

Logiciel et système intelligent 2021-2022

1.2. Pour 2015 :

Le nombre des filles est un peu plus que de garçons.

• Selon parcours/type baccalauréat :

Logiciel et système intelligent 2021-2022

Logiciel et système intelligent 2021-2022

• Selon date d’obtention du baccalauréat :

La plus par des étudiants sont des lauréats du baccalauréat 2015.

1.3. Pour 2016 :

Le nombre des filles est plus que de garçons.

Logiciel et système intelligent 2021-2022

• Selon parcours/type de baccalauréat :

Les lauréats du baccalauréat science de la vie et de la terre choisissent la filière BCG.

Logiciel et système intelligent 2021-2022

• Selon date d’obtention de baccalauréat :

La plus par des étudiants sont des lauréats du baccalauréat 2016.

Conclusion de visualisation du taux de réussite :

Logiciel et système intelligent 2021-2022

Logiciel et système intelligent 2021-2022

Logiciel et système intelligent 2021-2022

2.2 MIPC 1 2014 :

Logiciel et système intelligent 2021-2022

Logiciel et système intelligent 2021-2022

2.1. MIPC 1 2015 :

Logiciel et système intelligent 2021-2022

Les résultats NV et AC sont des résultats de la deuxième session(rattrapage). Mais le nombre de

Logiciel et système intelligent 2021-2022

2.4 MIPC 2 2014 :

Le taux de la validation dans les deux semestre est elevé.

Logiciel et système intelligent 2021-2022

Logiciel et système intelligent 2021-2022

2.5 MIPC 2 2015 :

Logiciel et système intelligent 2021-2022

Les résultats NV et AC sont des résultats de la deuxième session(rattrapage). Mais le nombre de

Logiciel et système intelligent 2021-2022