Vous êtes sur la page 1sur 26

Programme analyse et gestion de

données avec la suite Microsoft BI et


Power BI

Module 1 : Introduction à la Business Intelligence

Sara EL HABBARI
Avant de commencer

Présentations

•Qui êtes-vous ?

•Vos expériences en analyse de données, en reporting, en Business Intelligence,


etc.

•Vos attentes concernant cette formation


Module 1 : Introduction à la Business Intelligence

Bases de données
Introduction à la BI

Etapes de la chaine Modélisation des


décisionnelle données

Projets BI
Outils BI
Introduction à la BI
• La Business Intelligence « BI » ou l’Informatique Décisionnel : Moyens, outils et méthodes permettant de :
 Comprendre : le besoin du client
 Modéliser : une base de données
 Collecter : via des outils adéquats
 Consolider : préparation de l’information
 Restituer : de façon simple les données de l’entreprise en vue d'offrir une aide à la décision
Introduction à la BI

De la BI traditionnelle au self service BI :


o Data communicante

o Accessible par tous, simplement, sans contrainte d’apprentissage d’une

quelconque technologie de développement

o Personnalisée afin qu’elle corresponde exactement au niveau d’attente

de l’utilisateur

o Contextualisée à l’aide d’images, de vidéos, de documents métiers …

o Commentée pour être plus facilement analysée

o Collaborative pour favoriser l’échange et profiter des connaissances de

chacun

o Exploitable en toute autonomie par les responsables métiers sans devoir

faire des allers et retours avec l’IT


Introduction à la BI
 Vocabulaire BI
• DATAWAREHOUSE (DWH) : Base de données regroupant, sur un serveur dédié, l'ensemble des données de l'entreprise qui sont utilisées par des applications décisionnelles.
L'objectif du DW est de stocker ces données de façon intégrée (codage et représentation unique) et historisée.

• STAGING AREA (STG) : Couche d’intégration temporaire des données sources, son contenu peut être vidé après chaque chargement du Datawarehouse.

• OPERATIONAL DATA STORE (ODS) : Couche de stockage intermédiaire des données atomiques pouvant provenir de plusieurs sources et dans différents formats. Ces
données sont nettoyées et rendues intègres avant intégration dans le Datawarehouse.

• DATAMART (DM) : Base de données destinée à l'analyse, comportant des données agrégées et modélisées en dimensions et indicateurs. L'objectif d'un datamart est d'offrir à
ses utilisateurs un temps de réponse optimal pour leur besoin analytique.

• Système d’Information Décisionnel (SID) :


o Un entrepôt de données (ou datawarehouse) pour stocker l’information provenant des
systèmes opérants dans une base relationnelle
o Un outil d’Extraction, de Transformation et de Chargement des données : ETL
o Des outils de restitution :
 Reporting institutionnel : rapports standards, tableaux de bord, graphiques,…
 Analyse multidimensionnelle : sur la base de cubes
 Requêtage et reporting utilisateur : sur la base des données de détail
Etapes de la chaine décisionnelle

1. Collecter, nettoyer et consolider les données provenant de sources hétérogènes.


2. Stocker et centraliser les données structurées et traitées afin qu'elles soient disponibles pour un usage décisionnel.
3. Distribuer et faciliter l'accessibilité des informations selon les fonctions et les types d'utilisation.
4. Exploiter et assister du mieux possible l'utilisateur afin qu'il puisse dégager le maximum d’informations utiles pour le suivi de son
activité.
Outils BI
Il existe plusieurs catégories d’outils sur le marché de la BI :

• MDM : Les outils Master Data Management permettent de gérer efficacement les données de référence. Ces outils centralisent les données pour créer un
enregistrement unique et fiable de l'information pour toute l’entreprise.

• ETL : Les outils ETL permettent de consolider les données à l’aide des trois opérations suivantes:
 Extraction
 Transformation
 Chargement

• REPORTING : Les outils de reporting permettent de mettre en scène des données récupérées à un instant T et de les présenter de manière claire afin qu’elles
puissent être analysées et exploitées par une tierce personne généralement pour des fins d’aide à la décision.

• MULTIDIMENSIONNEL : Les outils multidimensionnels permettent de modéliser des données selon plusieurs axes. Ces données sont stockées dans des cubes :
structure de données stockant les faits comme des mesures indexées par plusieurs dimensions.

• DATAMINING : Les outils de datamining permettant l'analyse d'une grande quantité de données contenues dans une base. L’objectif étant de faire apparaître des
corrélations entre des phénomènes en apparence distincts afin d'anticiper des tendances.
Outils BI

Quelque outils BI de Microsoft


Outils BI
• Power Query : un outil ETL qui permet aux utilisateurs de récupérer, d’extraire et de façonner des données avant de passer aux étapes de modélisation et
de restitution. Power Query s’exécute avec le langage «M» (Mashup Query Language).

• Power Pivot : un composant permettant l’importation d’ensembles de données à partir de diverses sources et la création de modèles de données plus
sophistiqués grâce à son langage de formules appelé DAX (Data Analysis Expressions).

• Power BI : une solution d’analyse et de visualisation d’entreprise basée sur les moteurs Power Pivot et Power Query. Les utilisateurs peuvent utiliser «Obtenir
des données» (Power Query) et le «modèle de Données» (Power Pivot) pour extraire et analyser leurs données à partir de centaines de sources différentes.
Ils peuvent ensuite créer des tableaux de bord et des rapports interactifs ainsi que visualiser leurs données avec plusieurs types de graphiques.
Bases de données
• Base de données = Socle fondamentale des systèmes de gestion informatisés applicatifs :
o Accès centralisé aux données pour les utilisateurs et les programmes
o Exploitation optimisée des transactions (ajout, mise à jour, suppression, lecture)
o Information organisée de façon modulaire sous forme de tables
o Concept relationnel : connexion logique entre les tables (« relation »)

• SGBDR (systèmes de gestion de bases de données relationnel ) :


o Données représentées dans différents tableaux pouvant être liés entre eux
o Dialogue entrant/sortant avec les données de la base
o Gestion du stockage physique des données (fichiers)
o Sécurisation des échanges/transactions
o Cohérence du contenu & gestion des dysfonctionnements (pannes, erreurs…)

• Principaux produits du marché :


• Oracle
• Microsoft SQL Server
• IBM DB2
• Sybase
• MySQL
• Microsoft Office Access
c
Bases de données

• Table : entité d’organisation composée de n colonnes proposant une collection cohérente de données connexes
(même structure)

• Colonne (ou champ) : attribut unitaire d’une table défini par un type :
• Texte (alphanumérique) : caractères, chaines
• Numérique : entiers, valeurs décimales signées ou non
• Date : date, date heure
• Booléen/Binaire : vrai/faux, 0/1
… et une taille pour le stockage de valeur.

• Enregistrement : ligne élémentaire d’une table comportant une valeur pour chacune des colonnes composant la
table.
Bases de données

• Clé primaire (PK) : colonne(s) permettant d’identifier de façon unique un


enregistrement dans une table

• Contrainte : règle de gestion appliquée aux valeurs d’une colonne se devant


d’être respectée
Ex : Unicité (contrainte de clé primaire), Valeur par défaut (si pas de valeur)…

• Clé étrangère : colonne faisant référence à la clé primaire d’une autre table,
permettant via une contrainte, d’assurer l’intégrité au sein du modèle
relationnel (suppression d’une valeur de clé verrouillée par son utilisation dans
une table disposant d’une telle contrainte).

• Index : objet permettant d’optimiser la recherche dans une table


Bases de données
 le langage SQL
• Structured Query Language : dialoguer avec la base de données :
o Normalisé mais spécifique au SGBDR (variantes) : Transact SQL, P/L SQL…
o Utilisé pour effectuer des opérations sur des bases de données (ordre/instruction)
o Géré sous forme de transactions potentiellement multi-instruction

• Ordres de manipulation de données (DML) :


o Rechercher des enregistrements : SELECT <Colonnes>
FROM <Table>
(WHERE <Colonne1>=<Valeur>…)
o Ajouter des enregistrements : INSERT (<Valeurs>) INTO <Table>
o Modifier des enregistrements : UPDATE <Table> SET <Colonne1>=<Valeur>
(WHERE <Colonne1>=<Valeur>…)
o Supprimer des enregistrements : DELETE FROM <Table>

(WHERE <Colonne1>=<Valeur>…)

• Ordres de définition de l’organisation données / objets (DDL) :


o Créer un objet : CREATE <Objet>
o Supprimer un objet : DROP <Objet>
o Modifier un objet : ALTER <Objet>
Modélisation des données
Un modèle de données est un schéma qui décrit la manière dont sont représentées
les données dans une organisation métier, un système d'information ou une base de
données. Il s’agit d’une traduction du besoin fonctionnel en :
o Entité (module d’information autonome)
Déploiement
o Relation (modalité de jointure entre 2 entités)
o Contrainte (intégrité)

• Langage technico-fonctionnel commun et normé :


o Méthode de référence (FR) = MERISE : Méthode d’Etude et de
Réalisation Informatique pour les Systèmes d’Entreprise.
o Formalisation conceptuelle : Modèle Conceptuel de Données (MCD)
o Déclinaison « technique » : Modèle Physique de Données (MPD)

Le MCD est du niveau de l’analyse fonctionnelle, il est adapté à la


maîtrise d’ouvrage (MOA). Le MPD est du niveau de l’analyse technique,
il et est adapté à la maîtrise d’œuvre (MOE).
Modélisation des données
TMA – Maintenance évolutive

• L’Entité :
o Objet représentatif de l'activité à modéliser et préfigurant une table
o Proposant une ou plusieurs propriétés/attributs, préfigurant les champs de la table
o Identifiée par une propriété unique et discriminante, préfigurant la clef primaire
o Déclinée en occurrences, préfigurant les enregistrements de la table cible

• La Relation (ou Association) :


o Lien sémantique (verbe/phrase) entre 2 Entités
o Réciprocité systématique de l’association
o Possiblement porteuse d’une ou plusieurs propriétés
o Notion de cardinalité : nombre minimum (0 ou 1) et maximum (1 à n) de fois ou une
occurrence d’une Entité peut participer à l’association

• La cardinalité:
o Couples de valeur que l'on trouve entre chaque entité et ses associations liées. Elles expriment
le nombre de fois qu’une occurrence de cette entité peut être impliquée dans une occurrence
de l'association, au minimum et au maximum
o 4 combinaisons de valeurs possibles :
 0,1 au plus un(e)
 1,1 un(e) et un(e) seul(e)
 1,n un(e) ou plusieurs
 0, n zéro ou plusieurs
Modélisation des données
TMA – Maintenance évolutive

 La modélisation dimensionnelle :
• Définition : Technique de conception logique permettant de structurer les données de manière à les rendre intuitives aux utilisateurx métiers et
offrir une bonne performance aux requêtes.

• Caractéristiques :
o Simple à créer
o Stable et intuitivement compréhensible par les utilisateurs finaux
o Divise les données en faits et dimensions :
 Les Tables de Dimensions : contenu référentiel descriptif propre à un axe :
 Ensemble des attributs relatifs à l’axe (code, libellé, valeur…)
 Hiérarchies éventuelles
 Exemples : Tables de dimension Produit, Client

 Les Tables de Faits : collection de données dites « transactionnelles » proposant :


 Date d’évènement
 Ensemble des clés étrangères des dimensions d’analyse
 Indicateurs/mesures numériques
 Détail ou agrégation plus ou moins importante
 Exemples : Tables de faits des Commandes de Ventes, Analyse de Vente mensuelle
Modélisation des données
TMA – Maintenance évolutive
 La modélisation dimensionnelle :

• Le schéma en étoile (« Star schéma ») :


o Hautement recommandé pour l’optimisation du reporting et du requêtage
o Une table de fait comportant les clés étrangères des tables de dimension
o n tables de dimensions associées à la table de fait via leur clé primaire
Modélisation des données
TMA – Maintenance évolutive
 La modélisation dimensionnelle :

• Le schéma en flocon (« Snow flake schema ») :


o Chaque dimension est représentée avec plusieurs tables (Hiérarchie de dimensions)
o Modèle plus complexe et son appréhension par l'utilisateur métier est difficile
o Moins performant que le modèle en étoile à cause des jointures additionnelles
Projets BI
Projets BI
Plusieurs méthodes de gestion de projet existent, en BI on utilise principalement :
• Cycle en V
• Agile

Scrum Product Owner


Master
Backlog
Daily Scrum Refinement

Equipe de Utilisateurs
réalisation finaux
Sprint
Planning
Sprint de 2 à
4 semaines Incrément

Product Sprint Sprint


Backlog planning Backlog
meeting
Sprint review
&
Sprint
Retrospective
Produit final

Cycle en V Agile
Projets BI
Comment délivrer plus efficacement en créant de la valeur rapidement ?

• La structuration d’un projet par décomposition en parties plus petites, permet d’en améliorer la visibilité et la maitrise, de désigner des responsables et de fixer des
objectifs à chacun d’entre eux.

• La structuration assure la cohérence : technique, coût, planning, responsabilités, ressources.

• Pour un projet BI, la structuration va se faire en fonction :


 Sources de données, nombre de flux
 Nombre de restitutions
 Indicateurs, dimension
Projets BI
Exemple d’un déroulé d’un projet en suivant une démarche itérative :

SPRINT 1 – DEVELOPPEMENT DE L’ALIMENTATION

• Développement des interfaces, capture des données

• Initialisation de la couche sémantique

• Produit de sortie : Modèle de données


Projets BI
Exemple d’un déroulé d’un projet en suivant une démarche itérative :

SPRINT 2 – MODELISATION DES INDICATEURS

• Création des indicateurs lot 1

• Développement d’un premier rapport avec un TCD contenant les indicateurs


Projets BI
Exemple d’un déroulé d’un projet en suivant une démarche itérative :

SPRINT 3 – RAPPORT D’ENTREPRISE DU LOT 1

• Création des rapports du lot 1

• Développement des interfaces pour le prochain domaine fonctionnel du lot 2


Projets BI
DU LANCEMENT A L’INDUSTRIALISATION

Rythme soutenu coté métier et intégrateur


- Les sprints de production sont courts (entre 1 et 4 semaines)
- Donner un objectif clair à chaque sprint
- Se concentrer sur un périmètre fonctionnel par sprint
- Intégrer dans le sprint uniquement les besoins clairement identifiés et spécifiés

L’acquisition des données


- Anticiper l’identification des sources avant chaque sprint : les besoins à intégrer au sprint suivant doivent être finalisés avant la fin du sprint en cours

Principe de voir grand et commencer petit


- Partager la vision globale du décisionnel et les attentes métiers (besoin d’historique, fréquence de mise à jour…)
- Identifier le cœur du décisionnel métier (les ventes, le collaborateur…)
- Lotir sous forme de sprints d’une même durée
- Le 1er sprint ne produit pas forcément de valeur métier

Ne pas négliger la documentation


- Accepter de produire moins de valeur métier sur certains sprints pour rédiger de la documentation

Vous aimerez peut-être aussi