Vous êtes sur la page 1sur 45

Prsentation

Architecture Le cours
Outils et technologies

Business Intelligence - Introduction

Olivier Schwander <olivier.schwander@lip6.fr>

UPMC

1 / 45
Prsentation
Architecture Le cours
Outils et technologies

Organisation du cours
http://www-connex.lip6.fr/~schwander/enseignement/
2015-2016/m2stat_bi/
Horaires et salles
I Mardi de 14h 17h, salle 1525-101 ou 1525-102
I Cours puis TD/TP (mais pas toujours)

Contenu
I Business intelligence
I Bases de donnes, extraction de donnes
I Interventions dindustriels

valuation
I Note de TP et travail la maison
I Examen final 2 / 45
Prsentation
Architecture Le cours
Outils et technologies

Inspiration
Cours de Ludovic Denoyer
I Master 1 Donnes Apprentissage Connaissances
I Beaucoup plus dheures
I Pas le mme public (informaticiens)

Cours de Bernard Espinasse


I Ecole Polytechnique Universitaire de Marseille
I Public encore plus spcialis

Article Wikipedia Informatique dcisionnelle

Autres sources
I Indiques au fur et mesure 3 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI

Objectifs

Analyse de donnes pour lentreprise


I Donner des clefs de comprhension autour du rle et de la
gestion des donnes en entreprise
I Aborder des problmatiques de traitement/intgration de
donnes sur des exemples concrets
I Prsenter des outils du domaine pro

Analyse de donnes en pratique


I Donner des lments de bases de donnes
I Prsenter des cas concrets dextaction de donnes

4 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI

Contexte
Entreprise
I On veut gagner de largent
I On cherche faire des choix intelligents
I On peut collecter beaucoup de donnes
I On a les ressources pour les traiter
I On cherche les comptences pour les traiter

Vous
I Des mathmaticiens, des statisticiens
I Des tudiants intgrer dans le monde du travail
I Lien faire entre vos comptences et le vocabulaire et les
besoins de lentreprise
5 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI

Contexte

6 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI

Dfinition

LInformatique Dcisionnelle (ID), en anglais Business Intelligence


(BI), est linformatique lusage des dcideurs et des dirigeants des
entreprises. Les systmes de ID/BI sont utiliss par les dcideurs
pour obtenir une connaissance approfondie de lentreprise et de
dfinir et de soutenir leurs stratgies daffaires, par exemple :
dacqurir un avantage concurrentiel, damliorer la performance de
lentreprise, de rpondre plus rapidement aux changements,
daugmenter la rentabilit, et dune faon gnrale la cration de
valeur ajoute de lentreprise.

7 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI

Motivation

Enjeux Business des donnes - CIGREF 2014


Pour qui russit optimiser son usage, la donne devient
information, puis, bien partage au sein de lentreprise, elle se
transforme en connaissance et constitue son savoir. Elle peut tre
une source de services et dinnovations, notamment lorsquon la
croise avec dautres donnes et quelle provient de sources diverses.

Mots-cls
I donnes, information, connaissance, savoir
I optimiser, partager, sources diverses

8 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI

Applications
source : Rapport CIGREF 2009
I Finance, avec les reportings financiers et budgtaires par
exemple ;
I Vente et commercial, avec lanalyse des points de ventes,
lanalyse de la profitabilit et de limpact des promotions par
exemple ;
I Marketing, avec la segmentation clients, les analyses
comportementales par exemple ;
I Logistique, avec loptimisation de la gestion des stocks, le suivi
des livraisons par exemple ;
I Ressources humaines, avec loptimisation de lallocation des
ressources par exemple ;

9 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI

Etude IDC - Microsoft 2014

10 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI

Etude IDC - Microsoft 2014

11 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI

Etude IDC - Microsoft 2014

12 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI

Pyramide du BI

Sagesse

Connaissance

Information

(Big) Data

13 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI

Les mtiers du BI

4 mtiers
I Data Integrator
I Data Analyst
I Data Scientist
I Data Steward (Responsable des donnes)

14 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI

Bas niveau

Data Integration
I Combiner des informations htrognes venants de sources
diffrentes

Data Analysis
I Inspection, nettoyage, transformation et modlisation des
donnes.
I Data Mining, Data Vizualisation
I Rendre la donne comprhensible
I Communiquer partir de la donne

15 / 45
Prsentation Contexte
Architecture Motivation
Outils et technologies Les mtiers du BI

Haut niveau
Data Scientist
Il sagit de disposer de comptences de haut niveau en matire
danalyse de donnes, en combinant la fois les mthodes
statistiques, mais aussi dautres connaissances telles que la
linguistique, la smantique, utiles notamment pour travailler sur des
donnes non structures, sans oublier la bonne comprhension du
mtier sur lequel on travaille, et de mettre en oeuvre une dmarche
danalyse itrative, en acceptant de tester des hypothses sans a
priori sur le rsultat recherch.
Data Steward - Responsable des Donnes
[. . . ] susceptibles sur un primtre mtier sur lequel ils dtiennent
une expertise reconnue, de spcifier les exigences sur les donnes et
den contrler la qualit. Ces responsables de donnes peuvent tre
positionns diffrents niveaux dans lorganisation, et peuvent tre
pilots par des coordinateurs au niveau dun mtier, dune fonction
16 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Architecture
Les donnes oprationnelles sont extraites priodiquement de
sources htrognes : fichiers plats, fichiers Excel, base de donnes
(DB2, Oracle, SQL Server, etc.), service web, donnes massives et
stockes dans un entrept de donnes.
Les donnes sont restructures, enrichies, agrges, reformates,
nomenclatures pour tre prsentes lutilisateur sous une forme
smantique (vues mtiers ayant du sens) qui permettent aux
dcideurs dinteragir avec les donnes sans avoir connatre leur
structure de stockage physique, de schmas en toile qui
permettent de rpartir les faits et mesures selon des dimensions
hirarchises, de rapports pr-prpars paramtrables, de tableaux
de bords plus synthtiques et interactifs.
Ces donnes sont livres aux divers domaines fonctionnels (direction
stratgique, finance, production, comptabilit, ressources humaines,
etc.) travers un systme de scurit ou de datamart spcialiss
des fins de consultations, danalyse, dalertes prdfinies, 17 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Architecture
Extraction des donnes
I Bases de donnes
I Autres sources

Structuration des donnes


I Prtraitements
I Aggrgation
I Interface

Prsentation des donnes


I Visualisation, alertes automatiques
I Pour une tche donne
I destination dun dcideur
18 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Stockage
Base de donnes oprationnelle
I Fonctionnement normal de lentreprise
I Pas forcment un historique trs grand
I Peut changer dans le temps

Datawarehouse
I Stockage pour le BI
I Archivage sur toute lhistoire de lentreprise
I Format stable dans le temps

Datamart
I Vue mtier
I destination du dcideur
19 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Dfinitions

Datawarehouse
Le terme entrept de donnes (ou base de donnes dcisionnelle, ou
encore data warehouse) dsigne une base de donnes utilise pour
collecter, ordonner, journaliser et stocker des informations
provenant de base de donnes oprationnelles et fournir ainsi un
socle laide la dcision en entreprise.

Datamart
Un DataMart (littralement en anglais magasin de donnes) est un
sous-ensemble dun DataWarehouse destin fournir des donnes
aux utilisateurs, et souvent spcialis vers un groupe ou un type
daffaire.

20 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Datawarehouse

21 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Les fonctions

I Collecte de donnes
I Intgration
I Diffusion (ou distribution)
I Prsentation

22 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Fonction de collecte

Dfinition
La fonction collecte (parfois appele datapumping) recouvre
lensemble des tches consistant dtecter, slectionner, extraire et
filtrer les donnes brutes issues des environnements pertinents

Tche
I Rcuprer les donnes
I Mthodologie ETL

23 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Donnes htrognes
Plusieurs types de sources
I Fichiers plats
I Fichers Excel
I Bases de donnes (SQL)
I Services web
I Systmes de stockages pour donnes massives
I Interfaces exotiques

Plusieurs types de donnes


I Chiffres, texte, image
I Donnes statiques, flux
I Donnes bruites, manquantes, errones
24 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Flux de donnes et donnes statiques

Donnes statiques
I Image un instant donn de ltat de lentreprise
I Rapports dactivit, bilans, inventaire

Flux de donnes
I Mise jour en temps rel
I Compte rendus quotidiens, commandes, livraisons

25 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Recodage

Mise sous forme canonique


I Choix dune reprsentation unique
I Indpendante de la reprsentation en entre

Stabilit dans le temps


Un changement dans les formats dentres en doit pas perturber
lanalyse.

26 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

ETL

Mthodologie et outils
Extract
I Extraire les donnes de sources htrognes

Transform
I Transformation des donnes pour les mettre dans un format
acceptable

Load
I Charger les donnes dans le datawarehouse

27 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

ETL
Ensemble de connecteurs

28 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Logiciels dETL
Interfaces graphiques pour le non-spcialiste
I Anatella2
I DataStudio (Data)
I Feature Manipulation Engine (FME)
I Hurence avec un ETL natif Hadoop
I IBM InfoSphere DataStage
I Informatica PowerCenter
I MapReport
I Microsoft SQL Server Integration Services (SSIS)
I OpenText Genio
I Oracle Data Integrator (Sunopsis)
I Oxio Data Intelligence solution ETL
I SAP Data Services
I SAS Data Integration Studio
I Stambia
I STATISTICA ETL (StatSoft) 29 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Pentaho Data Integration

30 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Fonction dintgration
Dfinition
La fonction dintgration consiste concentrer les donnes
collectes dans un espace unifi, dont le socle informatique essentiel
est lentrept de donnes. lment central du dispositif, il permet
aux applications dcisionnelles de masquer la diversit de lorigine
des donnes et de bnficier dune source dinformation commune,
homogne, normalise et fiable, au sein dun systme unique et si
possible normalis.

Tches
I Deuxime passe de filtrage et validation
I Synchronisation
I Certification (liens avec des documents lgaux)

31 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Fonction de diffusion

Dfinition
La fonction de diffusion met les donnes la disposition des
utilisateurs, selon des schmas correspondant aux profils ou aux
mtiers de chacun, sachant que laccs direct lentrept de
donnes ne correspond gnralement pas aux besoins spcifiques
dun dcideur ou dun analyste.

Tche
I Choisir les donnes en fonction des besoins des utilisateurs
I Mthodoligie OLAP

32 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

OLAP - Online Analytical Processing

Dfinition
Analyse sur-le-champ dinformations selon plusieurs axes, dans le
but dobtenir des rapports de synthse

But
I Les donnes sont dans un espace de grande dimension
I Beaucoup de donnes
I Comment grer a ?

33 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Hypercube

34 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Oprations sur lhypercube


I Rotate : slection du couple de dimensions cibler,
I Slicing : extraction dune tranche dinformation,
I Scoping : extraction dun bloc de donnes (opration plus
gnrale que le slicing),
I Drill-up : synthse des informations en fonction dune
dimension (exemple de drill-up sur laxe temps : passer de la
prsentation de linformation jour par jour sur une anne,
une valeur synthtique pour lanne),
I Drill-down : cest lquivalent dun zoom , opration
inverse du drill-up,
I Drill-through : lorsquon ne dispose que de donnes agrges
(indicateurs totaliss), le drill through permet daccder au
dtail lmentaire des informations (voir notamment les outils
H-OLAP).
35 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Rotate

36 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Slicing

37 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Scoping

38 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Drill-up, drill-down

39 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Concrtement

Chiffre daffaire

Produit Geographie

Temps

40 / 45
Prsentation Architecture gnrale
Architecture Stockage
Outils et technologies Fonctions

Fonction prsentation

Dfinition
Cette quatrime fonction, la plus visible pour lutilisateur, rgit les
conditions daccs de lutilisateur aux informations, dans le cadre
dune interface Homme-machine dtermin (IHM).

Tche
I Visualisation
I Rapports
I En lien direct avec lutilisateur final

41 / 45
Prsentation Sources de donnnes
Architecture Business Intelligence
Outils et technologies Datamining

Bases de donnes relationnelles

Stockage organis de donnes


I Base oprationnelle (les donnes de lactivi de lentreprise)
I Datawarehouse et datamart

Un langage de requtes standardis : SQL


I SELECT ... FROM ... WHERE ...
I INSERT INTO ... VALUES ...

Extrmement rpandu
I pour toutes sortes dutilisations

42 / 45
Prsentation Sources de donnnes
Architecture Business Intelligence
Outils et technologies Datamining

Sites web

Service web
I Sites coopratifs, publics ou privs
I Une interface documente pour extraire des donnes
I Formats standardiss, grs par les suites BI

Web scraping
I Sites non-coopratifs
I Analyse des pages webs fournies aux navigateurs webs
I Ncessite de programmer et de formater les donnes

43 / 45
Prsentation Sources de donnnes
Architecture Business Intelligence
Outils et technologies Datamining

Pentaho

Une suite complte


I ETL
I OLAP
I Visualisation et rapports
I Datamining

44 / 45
Prsentation Sources de donnnes
Architecture Business Intelligence
Outils et technologies Datamining

Datamining
Plus loin que la visualisation et les rapports
I Prdire partir des donnes
I Aide la dcision : pas une bote noire

Techniques de machine learning


I Classification (en particulier les mthodes interprtables, telles
que les arbres de dcision)
I Clustering

Logiciels
I Langages de programmation : R
I Interfaces graphiques : Weka, Orange, Tanagra
I Mixtes : SPSS, Matlab, Excel 45 / 45