Académique Documents
Professionnel Documents
Culture Documents
Architecture Le cours
Outils et technologies
UPMC
1 / 45
Prsentation
Architecture Le cours
Outils et technologies
Organisation du cours
http://www-connex.lip6.fr/~schwander/enseignement/
2015-2016/m2stat_bi/
Horaires et salles
I Mardi de 14h 17h, salle 1525-101 ou 1525-102
I Cours puis TD/TP (mais pas toujours)
Contenu
I Business intelligence
I Bases de donnes, extraction de donnes
I Interventions dindustriels
valuation
I Note de TP et travail la maison
I Examen final 2 / 45
Prsentation
Architecture Le cours
Outils et technologies
Inspiration
Cours de Ludovic Denoyer
I Master 1 Donnes Apprentissage Connaissances
I Beaucoup plus dheures
I Pas le mme public (informaticiens)
Autres sources
I Indiques au fur et mesure 3 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI
Objectifs
4 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI
Contexte
Entreprise
I On veut gagner de largent
I On cherche faire des choix intelligents
I On peut collecter beaucoup de donnes
I On a les ressources pour les traiter
I On cherche les comptences pour les traiter
Vous
I Des mathmaticiens, des statisticiens
I Des tudiants intgrer dans le monde du travail
I Lien faire entre vos comptences et le vocabulaire et les
besoins de lentreprise
5 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI
Contexte
6 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI
Dfinition
7 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI
Motivation
Mots-cls
I donnes, information, connaissance, savoir
I optimiser, partager, sources diverses
8 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI
Applications
source : Rapport CIGREF 2009
I Finance, avec les reportings financiers et budgtaires par
exemple ;
I Vente et commercial, avec lanalyse des points de ventes,
lanalyse de la profitabilit et de limpact des promotions par
exemple ;
I Marketing, avec la segmentation clients, les analyses
comportementales par exemple ;
I Logistique, avec loptimisation de la gestion des stocks, le suivi
des livraisons par exemple ;
I Ressources humaines, avec loptimisation de lallocation des
ressources par exemple ;
9 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI
10 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI
11 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI
12 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI
Pyramide du BI
Sagesse
Connaissance
Information
(Big) Data
13 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI
Les mtiers du BI
4 mtiers
I Data Integrator
I Data Analyst
I Data Scientist
I Data Steward (Responsable des donnes)
14 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI
Bas niveau
Data Integration
I Combiner des informations htrognes venants de sources
diffrentes
Data Analysis
I Inspection, nettoyage, transformation et modlisation des
donnes.
I Data Mining, Data Vizualisation
I Rendre la donne comprhensible
I Communiquer partir de la donne
15 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI
Haut niveau
Data Scientist
Il sagit de disposer de comptences de haut niveau en matire
danalyse de donnes, en combinant la fois les mthodes
statistiques, mais aussi dautres connaissances telles que la
linguistique, la smantique, utiles notamment pour travailler sur des
donnes non structures, sans oublier la bonne comprhension du
mtier sur lequel on travaille, et de mettre en oeuvre une dmarche
danalyse itrative, en acceptant de tester des hypothses sans a
priori sur le rsultat recherch.
Data Steward - Responsable des Donnes
[. . . ] susceptibles sur un primtre mtier sur lequel ils dtiennent
une expertise reconnue, de spcifier les exigences sur les donnes et
den contrler la qualit. Ces responsables de donnes peuvent tre
positionns diffrents niveaux dans lorganisation, et peuvent tre
pilots par des coordinateurs au niveau dun mtier, dune fonction
16 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Architecture
Les donnes oprationnelles sont extraites priodiquement de
sources htrognes : fichiers plats, fichiers Excel, base de donnes
(DB2, Oracle, SQL Server, etc.), service web, donnes massives et
stockes dans un entrept de donnes.
Les donnes sont restructures, enrichies, agrges, reformates,
nomenclatures pour tre prsentes lutilisateur sous une forme
smantique (vues mtiers ayant du sens) qui permettent aux
dcideurs dinteragir avec les donnes sans avoir connatre leur
structure de stockage physique, de schmas en toile qui
permettent de rpartir les faits et mesures selon des dimensions
hirarchises, de rapports pr-prpars paramtrables, de tableaux
de bords plus synthtiques et interactifs.
Ces donnes sont livres aux divers domaines fonctionnels (direction
stratgique, finance, production, comptabilit, ressources humaines,
etc.) travers un systme de scurit ou de datamart spcialiss
des fins de consultations, danalyse, dalertes prdfinies, 17 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Architecture
Extraction des donnes
I Bases de donnes
I Autres sources
Stockage
Base de donnes oprationnelle
I Fonctionnement normal de lentreprise
I Pas forcment un historique trs grand
I Peut changer dans le temps
Datawarehouse
I Stockage pour le BI
I Archivage sur toute lhistoire de lentreprise
I Format stable dans le temps
Datamart
I Vue mtier
I destination du dcideur
19 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Dfinitions
Datawarehouse
Le terme entrept de donnes (ou base de donnes dcisionnelle, ou
encore data warehouse) dsigne une base de donnes utilise pour
collecter, ordonner, journaliser et stocker des informations
provenant de base de donnes oprationnelles et fournir ainsi un
socle laide la dcision en entreprise.
Datamart
Un DataMart (littralement en anglais magasin de donnes) est un
sous-ensemble dun DataWarehouse destin fournir des donnes
aux utilisateurs, et souvent spcialis vers un groupe ou un type
daffaire.
20 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Datawarehouse
21 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Les fonctions
I Collecte de donnes
I Intgration
I Diffusion (ou distribution)
I Prsentation
22 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Fonction de collecte
Dfinition
La fonction collecte (parfois appele datapumping) recouvre
lensemble des tches consistant dtecter, slectionner, extraire et
filtrer les donnes brutes issues des environnements pertinents
Tche
I Rcuprer les donnes
I Mthodologie ETL
23 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Donnes htrognes
Plusieurs types de sources
I Fichiers plats
I Fichers Excel
I Bases de donnes (SQL)
I Services web
I Systmes de stockages pour donnes massives
I Interfaces exotiques
Donnes statiques
I Image un instant donn de ltat de lentreprise
I Rapports dactivit, bilans, inventaire
Flux de donnes
I Mise jour en temps rel
I Compte rendus quotidiens, commandes, livraisons
25 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Recodage
26 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
ETL
Mthodologie et outils
Extract
I Extraire les donnes de sources htrognes
Transform
I Transformation des donnes pour les mettre dans un format
acceptable
Load
I Charger les donnes dans le datawarehouse
27 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
ETL
Ensemble de connecteurs
28 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Logiciels dETL
Interfaces graphiques pour le non-spcialiste
I Anatella2
I DataStudio (Data)
I Feature Manipulation Engine (FME)
I Hurence avec un ETL natif Hadoop
I IBM InfoSphere DataStage
I Informatica PowerCenter
I MapReport
I Microsoft SQL Server Integration Services (SSIS)
I OpenText Genio
I Oracle Data Integrator (Sunopsis)
I Oxio Data Intelligence solution ETL
I SAP Data Services
I SAS Data Integration Studio
I Stambia
I STATISTICA ETL (StatSoft) 29 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
30 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Fonction dintgration
Dfinition
La fonction dintgration consiste concentrer les donnes
collectes dans un espace unifi, dont le socle informatique essentiel
est lentrept de donnes. lment central du dispositif, il permet
aux applications dcisionnelles de masquer la diversit de lorigine
des donnes et de bnficier dune source dinformation commune,
homogne, normalise et fiable, au sein dun systme unique et si
possible normalis.
Tches
I Deuxime passe de filtrage et validation
I Synchronisation
I Certification (liens avec des documents lgaux)
31 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Fonction de diffusion
Dfinition
La fonction de diffusion met les donnes la disposition des
utilisateurs, selon des schmas correspondant aux profils ou aux
mtiers de chacun, sachant que laccs direct lentrept de
donnes ne correspond gnralement pas aux besoins spcifiques
dun dcideur ou dun analyste.
Tche
I Choisir les donnes en fonction des besoins des utilisateurs
I Mthodoligie OLAP
32 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Dfinition
Analyse sur-le-champ dinformations selon plusieurs axes, dans le
but dobtenir des rapports de synthse
But
I Les donnes sont dans un espace de grande dimension
I Beaucoup de donnes
I Comment grer a ?
33 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Hypercube
34 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Rotate
36 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Slicing
37 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Scoping
38 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Drill-up, drill-down
39 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Concrtement
Chiffre daffaire
Produit Geographie
Temps
40 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions
Fonction prsentation
Dfinition
Cette quatrime fonction, la plus visible pour lutilisateur, rgit les
conditions daccs de lutilisateur aux informations, dans le cadre
dune interface Homme-machine dtermin (IHM).
Tche
I Visualisation
I Rapports
I En lien direct avec lutilisateur final
41 / 45
Prsentation Sources de donnnes
Architecture Business Intelligence
Outils et technologies Datamining
Extrmement rpandu
I pour toutes sortes dutilisations
42 / 45
Prsentation Sources de donnnes
Architecture Business Intelligence
Outils et technologies Datamining
Sites web
Service web
I Sites coopratifs, publics ou privs
I Une interface documente pour extraire des donnes
I Formats standardiss, grs par les suites BI
Web scraping
I Sites non-coopratifs
I Analyse des pages webs fournies aux navigateurs webs
I Ncessite de programmer et de formater les donnes
43 / 45
Prsentation Sources de donnnes
Architecture Business Intelligence
Outils et technologies Datamining
Pentaho
44 / 45
Prsentation Sources de donnnes
Architecture Business Intelligence
Outils et technologies Datamining
Datamining
Plus loin que la visualisation et les rapports
I Prdire partir des donnes
I Aide la dcision : pas une bote noire
Logiciels
I Langages de programmation : R
I Interfaces graphiques : Weka, Orange, Tanagra
I Mixtes : SPSS, Matlab, Excel 45 / 45