Académique Documents
Professionnel Documents
Culture Documents
Introduction……………………………………………………………………………………………………..3
Logiciels utilisés ................................................................................................. 4
Analyse du système d’information décisionnel : ................................................. 6
Tableau croisée dynamique………………………………………………………………………………9
Génération de rapports…………………………………………………………………………………..17
Analyse Datamining : ........................................................................................ 73
Conclusion………………………………………………………………………………….…………………104
Les programmes BI peuvent également incorporer des formes d’analyses avancées comme le
Data Mining. Le Data Mining est utilisé pour collecter des informations pertinentes et dégager
des insights. La Business Intelligence peut aussi être pensée comme le résultat du Data Mining,
puisqu’elle consiste à utiliser des données pour acquérir des insights.
Le Data Mining permet de chercher des ensembles de données pertinents, tandis que la Business
Intelligence permet de dégager des insights. Ainsi, les analystes utilisent le Data Mining pour
trouver les informations donc ils ont besoin, et utilisent la Business Intelligence pour déterminer
pourquoi elles sont importantes.
Logiciels utilisés :
1. Analyse du système d’information décisionnel :
• Pentaho :
Pentaho est une solution d’informatique décisionnelle open source entièrement développée en
Java. Elle porte sur toute la chaîne décisionnelle et utilise différents outils et composants :
• Tableau Desktop :
Tableau Desktop correspond à un outil de développement d’analyse décisionnelle. Il vous
permet d’explorer vos données, de les analyser, d’y accéder instantanément et de partager vos
informations avec des superbes tableaux de bord. Facile à utiliser et à maitriser surtout si vous
êtes un utilisateur d’Excel, il est 10 à 100 fois plus rapide que les solutions existantes. Il se base
sur une technologie innovante qui transforme des images de données en requêtes de bases de
données optimisées.
2. Analyse Datamining :
• Microsoft Bi suite :
Outil tout en un pour gérer un projet de BI.
SQL Server Integration Services (SSIS) : Un ETL (Extract, Transform and load) est destiné à la
mise en place de logiques de flux de données, notamment pour alimenter des entrepôts de
données (data warehouse).
SQL Server Analysis Services (SSAS) : Il permet de générer des cubes OLAP, données agrégées
et multidimensionnelles. Il permet également d’implémenter des algorithmes de Data Mining.
SQL Server Reporting Services (SSRS) : SSRS est l’outil de restitution des données. Il vous
permet de récupérer vos rapports, fondés sur les données calculées par SSAS, sous forme de
fichier Excel, PDF, Word ou HTML.
• Thème inscription :
Table de fait : Inscription.
Tables de dimensions : Délégation, Etudiant, Baccalauréat, Parcours, Semestre.
• Thème réussite :
Table de fait : Réussite.
Tables de dimensions : Délégation, Etudiant, Baccalauréat, Parcours, Semestre, Année, Module.
2. Cas réussite :
• Données MIPC 1 2015 :
Ci-après est représenté un tableau croisé affichant taux de validation pour les différents
sessions et années.
Apres nettoyage :
1. Taux d’inscription :
1.1. Pour 2014 :
• Selon âge :
• Selon sexe :
Il y’a à peu près le même nombre des inscris des garçons que des filles sur la FST.
• Selon parcours :
402 étudiants choisissent la filière MIPC. Donc MIPC est la filière la plus choisie à la FST.
• Par Parcours/sexe :
Le nombre des filles dans la filière de BCG est le double de nombre des garçons. Au contraire, le
nombre des garçons dans GEGM est plus que le double du nombre de filles. Pour la filière MIPC,
il y’a à peu près le même nombre.
Pour l’année 2015, les étudiants de 18 ans est le plus nombreux à s’inscrire à la FST. Ce n’est
pas la même chose que l’année 2014.
• Selon sexe :
• Selon parcours :
441 étudiants choisissent la filière MIPC. Donc MIPC est la filière la plus choisie à la FST pour
l’année 2015.
• Selon parcours/sexe :
Pour l’année 2016, les étudiants de 17 ans est le plus nombreux à s’inscrire à la FST. Ce n’est
pas la même chose que l’année 2015 et 2014.
• Selon sexe :
• Selon parcours :
• Selon parcours/sexe :
Le nombre des filles dans la filière de BCG est plus que le double de nombre des garçons. Au
contraire, le nombre des garçons dans GEGM est plus que le double du nombre de filles. Pour la
filière MIPC, le nombre des filles est plus que le nombre des garçons. Mais pour la filière MIP le
nombre des filles et de garons est équilibré.
2. Taux de réussite :
2.3 MIPC 1 2013 :
• Par semestre :
Le nombre des non validé dans le premier semestre est moins que le nombre des validés. Mais
il est élevé pour le deuxième semestre.
• Par semester/session:
• Semestre/Année :
Toutes les NV sont obtenus en 2013. Mais les V sont distribués sur les années 2011, 2012 et
2013.
Le nombre des non validé dans le premier semestre est plus que le nombre des validés. Mais il
est bas pour le deuxième semestre.
• Par semester/session:
• Semestre/Année :
Toutes les NV sont obtenus en 2014. Mais les V sont distribués sur les années 2010, 2012, 2013
et 2014.
Le nombre des non validé est trop élevé pour les deux semestres.
• Par semestre/session :
• Semestre/Année :
Toutes les NV et AC sont obtenus en 2015. Mais les V sont distribués sur les années 2013, 2014
et 2015.
• Semestre/Année :
• Par semestre/session :
• Semestre/Année :
• Par module :
• Par module :
Les modules de la semestre 1 :
Le nombre de validation dans le module Cosmologie & Géodynamique interne est élevé. Mais
le contraire pour les modules Optique et Radioactivité et Structure de la matière.
• Par semestre/session :
• Par semestre/année :
Le nombre des V est plus que le nombre des NV dans les deux semestres.
• Par module :
Les modules de la semestre 3 :
• Par semestre/session :
Pour les deux semestres, les résultats NV et AC sont des résultats de la deuxième
session(rattrapage). Mais le nombre de validations dans la deuxième session est plus que le
double de la première session.
• Par semestre/année :
• Par semestre/session :
• Par semestre/année :
Pour les deux semestres, tous les résultats NV sont de 2014. Mais les validations sont distribuées
sur les années 2012, 2013 et 2014.
Le nombre des V est plus que le nombre des NV dans les deux semestres.
• Par semestre/session :
• Par semestre/année :
Donc, parmi les caractéristiques des étudiants qui n’ont pas validés le module de circuits
électriques et électroniques sont :
✓ Sexe : filles,
✓ Type de baccalauréat : science physique et chimique,
✓ Ville de naissance : Casablanca
Donc, parmi les caractéristiques des étudiants qui n’ont pas validés le module d’électricité
sont :
✓ Sexe : filles,
✓ Type de baccalauréat : science physique et chimique,
✓ Ville de naissance : Casablanca
• Analyse 1 :
Donc, parmi les caractéristiques des étudiants qui n’ont pas validés le module d’Analyse 1 sont :
✓ Sexe : filles,
✓ Type de baccalauréat : science physique et chimique,
✓ Ville de naissance : Casablanca
Donc, parmi les caractéristiques des étudiants qui n’ont pas validés le module Mécanique du
point et Optique géométrique sont :
✓ Sexe : filles,
✓ Type de baccalauréat : science physique et chimique,
✓ Ville de naissance : LARACHE.
Donc, parmi les caractéristiques des étudiants qui n’ont pas validés le module d’Analyse 2 sont :
✓ Sexe : filles,
✓ Type de baccalauréat : science physique et chimique,
✓ Ville de naissance : Ksar EL Kbir.
Donc, parmi les caractéristiques des étudiants qui n’ont pas validés le module de Structure de la
matière sont :
✓ Sexe : filles,
✓ Type de baccalauréat : science de la vie et de la terre.
Parmi les caractéristiques des étudiants qui n’ont pas validés le module de circuits électriques
et électroniques sont :
✓ Type de baccalauréat : SC. et Techno. Mécanique.
Parmi les caractéristiques des étudiants qui n’ont pas validés le module de circuits électriques
et électroniques sont :
✓ Type de baccalauréat : SC. et Techno. Mécanique.
Parmi les caractéristiques des étudiants qui n’ont pas validés le module de circuits électriques
et électroniques sont :
• Analyse 2 :
1. Schéma en étoile :
Les schémas en étoile :
a. Inscription :
b. Réussite / Echec :
➢ Inscription :
L’outil qu’on va utiliser dans cette partie est PENTAHO qui va se charger de tous les ETL qu’on
va construire.
Dans un premier temps, on va travailler sur les données de l’inscription, mais avant de les
charger dans PENTAHO, on va commencer d’abord par ajouter la colonne ANNEE à notre Excel,
afin de rassembler nos trois feuilles dans une seule.
Les fichiers de l’inscription avant la modification :
D’abord, il y a l’extraction du fichier csv qui contient les informations sur les nouveaux inscris
d’années 2014, 2015 et 2016 :
Les données à extraire de ce fichier sont : année d’inscription, délégation, le type de bac, le
sexe, et le parcours.
Dans ce cas, les choses vont se différencier un petit peu, car on va utiliser l’élément Table de
correspondance, afin d’exprimer les types de bac qu’on les écrire avec plusieurs manières d’une
façon plus normalisé.
Dans cette étape, on va passer à créer notre table de faits, on va utiliser notre élément
Recherche valeurs dans base de données de notre palette de création, afin de créer notre table
de dimension fact_inscription :
Concernant la recherche du TYPE BAC dans dim_type_bac :
Après cette phase, on passe pour générer notre table des faits à partir de tout ce qu’on a réalisé
jusqu’à maintenant :
➢ Load Data :
Et voilà notre base de données scolarité :
On va utiliser juste les données des années 2014, 2015 car on va par la suite concaténer les
données des modules avec les données des étudiants qu’on va les extraire à partir de la
transformation Inscription qu’on a déjà réalisé, mais cette dernière ne contient que les
inscriptions des années 2014, 2015 et 2016.
Après la normalisation, après avoir afficher tous les modules pour chaque étudiant, on
rassemble tous les fichiers dans un seul fichier csv.
Le fichier code modules était comme cela au début, mais on a le transformer en utilisant Excel,
afin de l’utiliser par la suite.
On passe maintenant pour faire une jointure à partir de la base de données qu’on a déjà
générée, afin d’avoir à la fin une table dont il y a les informations de réussite avec les
informations d’inscription :
Voici les résultats qu’on a obtenu après tout ce traitement :
Après le choix de la colonne dont on veut filtrer, on passe à choisir l’option toute à droite Sort &
Filter : et choisir juste les lignes vides par rapport à la colonne SEXE par exemple et puis
supprimer toutes les lignes avec des valeurs nulles, ainsi de suite jusqu’à terminer tout le travail
et se débarrasser des valeurs nulles :
On a constaté que le nombre des enregistrements s’est beaucoup diminué, surtout qu’on avait
les données d’inscription de 2013, 2014, 2015 et les données de réussite / échec de 2014, 2015,
2016 et qu’il se peut que des étudiants sont inscrits avant les années dont on a leurs
enregistrements.
Avant la création des tables de dimensions et de la table des faits, on aura besoin de
concaténer les données des modèles avec les données qu’on a déjà obtenu à partir des
données d’inscription.
Voici la transformation qui effectue ce travail sur PENTAHO :
➢ Load Data :
Et voilà notre base de données réussite/échec :
Nous allons faire glisser le composant Flat file Source ou source fichier plat sur notre espace de
travail.
Ensuite, il nous faut ouvrir la source de données afin de lui affecter notre fichier cliquant sur
celle-ci. Cela nous amène à cette fenêtre ou bien entendu nous allons cliquer sur new.
Dans l'onglet manager de connexion, nous spécifions la connexion à utiliser ainsi que la table
destination de notre base de données. Dans notre cas, la table Etudiants :
Pour l'import des données, soit il nous faut cliquer droit sur la tâche de l'onglet flux de contrôle
afin de l'exécuter (en particulier si nous ne souhaitons pas l'exécution d'autres tâches en même
temps), soit nous exécutons tout le package (F5). Si l'exécution se déroule correctement, tout
s'affiche en vert et le nombre de lignes insérées est visible.
Voici notre table Etudiants après exécution de notre package SSIS :
Donc, on peut observer que les étudiants féminins existent plus dans les clusters 4,10,5,3,1,6 et
2.
Les plages de valeurs des attributs individuels peuvent être analysées dans le profil de cluster.
Voilà les clusters trouvés. Parmi les caractéristiques des clusters 3, 10, 7, 8 et 2 est les étudiants
de 17 ans.
Parmi les caractéristiques des clusters 3, 8 et 1 est les étudiants ayant un baccalauréat sciences
mathématiques A.
• MIPC 2 2015 :
2. Arbres de décision :
Cet outil d’aide à la décision ou d’exploration de données permet de représenter un ensemble
de choix sous la forme graphique d’un arbre. C’est une des méthodes d’apprentissage
supervisé les plus populaires pour les problèmes de classification de données.
L'image ci-dessous montre la fenêtre Visual Studio Solution Explorer et l'onglet Mining
Structure du modèle d'exploration de données qui a été créé dans l’étape ci-dessus.
Si on met dans background GEGM, on remarque que les étudiants de GEGM sont des lauréats du
baccalauréat sciences expérimentales et sciences mathématiques A et B.
Pour MIPC, il y’a des lauréats du baccalauréat science physique et sciences mathématique A.
Graphe des dépendances. Un graphe des dépendances entre la cible et les variables prédictives
est affiché dans l’onglet « Dependency network ». Les liens mis en évidence dépendent du niveau
de profondeur sélectionné. Si l’on s’en tient aux 2 plus fortes liaisons, nous obtiendrons le graphe
suivant.
3. Prédiction :
3.1) Naïve Bais :
La classification naïve bayésienne s'apparente à une classification bayésienne
probabiliste simple (dite naïve). Elle repose sur le théorème de Bayes, qui n'est autre
qu'un modèle de probabilités.
• Dans cette partie, on va prédire le type de baccalauréat à partir du parcours, sexe
et date d’obtention du baccalauréat.
Profils des attributs (Attributes Profiles). Cette fenêtre montre les distributions sdes variables
conditionnellement aux valeurs de la cible.
• Dans cette partie, on va prédire le parcours des étudiants à partir de leurs baccalauréat
et sexe. (Etudiants de 2016)
D’après ce résultat, On conclure que la plupart des étudiants de MIP sont des lauréats du
baccalauréat physique et chimique et science mathématiques A et B.
Ce tableau nous indique que, à 50 % de la population, le modèle que nous avons créé prédit
correctement 38.96 % des cas. Nous pourrions considérer cela comme un modèle plus au moins
précis.
Par exemple, si le résultat de semestre 1 est validé alors le résultat favori du semestre 4 est
validé.
On a ici:
• 121 résultats du semestre 2 ayant été classés NV sur un total de 153, ce qui est
bien.
• Et 169 ayant été classés V sur 234 ont bien été identifiés.
On peut utiliser ce modèle sur les données de MIPC 1 2015 pour prédire le résultat du
semestre 2 :
Enfin, le graphe des dépendances est visible dans l’onglet « Dependency Network ».
Ce tableau nous indique que, à 50 % de la population, le modèle que nous avons créé prédit
correctement 44.68 % des cas. Nous pourrions considérer cela comme un modèle
raisonnablement précis.