Vous êtes sur la page 1sur 175

Système d’information décisionnel

Pr. MOHAMED HAMLICH


Dr en informatique et agrégé en GE

Moha.hamlich@gmail.com
Plan

 Chapitre 1: Les systèmes d’information

 Chapitre 2: Les systèmes d’information décisionnels

 Chapitre 3: De l’entreposage à la fouille de données (Data Mining)


 Apprentissage supervisé: Arbres de décision
 Apprentissage non supervisé: Clustering (K_means)

 Chapitre 4: Modélisation multidimensionnelle des DataWarehouse

 Chapitre 5: L'analyse en ligne: OLAP

 Logiciel Business Intelligence: Power BI


2
Chapitre 1 :

Le Système d’information

3
1.1-Notion d’information

• Une information, c’est une donnée qui a un sens pour celui qui en a
besoin.

Le modèle est
connu,
l’interprétation Le modèle est
donne du sens aux inconnu, le sens est
données plus difficile à
percevoir ou
incomplet 4
1.2-L’information est un facteur de production
presque comme les autres
• L’information a une valeur, variable selon son importance, son
ancienneté…
• L’information doit être
– extraite,
– stockée,
– traitée,
– maintenue…
 c’est la tâche du système d’information !

5
1.3-L’information est omniprésente

• L’ordinateur n’est Contrôle accès

qu’un élément Recherche et développement


Fabrication
Contrôle
Inventaire

Expédition
Distribution

parmi beaucoup Personnel

d’autres. Tout Réception Entrepôt

SAV

élément est
susceptible de
produire, $

consommer ou Banque

véhiculer de Base de données

l’information !
6
1.4-Notion de système d’information

contraintes

Flux de décisions
Système de
pilotage

Flux Système d’information


d’informations

Entrées Système opérationnel Sorties


7
1.5-Les parties prenantes du SI

Personne, machine, logiciel…


producteur ou consommateur Le gestionnaire du L’informaticien
d’information SI (interne ou externe)
Interne Externe
 Simple opérateur  Client  Responsable de la  Analyse des besoins
 Cadre  Fournisseur cohérence du SI, de  Programmation
 Directeur  Administration
son évolution, de la  Déploiement des
sécurité, de la solutions
 Actionnaire  Organisme
formation des
 Propriétaire financier utilisateurs, des
… … procédures, de
l’interopérabilité…

8
1.6-Différents niveaux d’utilisation d’une
même information

SP

SI 0100010010
11110
10
BD

01000100101001
010001001010011100
010001001010011100110
PGI

1001
00
1 EDI

SO Opérateur de saisie
(ou numérisation)
Entrepôt

9
1.7-SI, pour quoi faire ?
• Différentes missions du SI
– Collecter (sources externes et internes)
• Saisie, numérisation
• Extraction, veille
– Stocker
• Supports divers et multiples
• Indexation, mots clés, thesaurus…
• Maintenir en état d’utilisation sur une période longue
– Traiter
• Produire des informations sous la forme appropriée aux besoins de
l’utilisateur
– Restituer, diffuser (sous différentes formes)
• Électronique ou papier
• Importance des formats de fichiers
• Supports de communication (filaire, non-filaire…)

10
1.8-SI et fonctions de l’entreprise

Source : http://www.commentcamarche.net/entreprise/e- 11
business.php3
Chapitre 2 :

Le Système d’information décisionnel : SID

12
2.1 Pourquoi le décisionnel?
• Le décisionnel ne concerne souvent que les entreprises qui gèrent un
historique de leurs événements passés (faits, transactions etc.).

• Les entreprises qui viennent de naître n'ont souvent pas besoin de


faire du décisionnel car elles n'ont pas encore besoin de catégoriser
ou de fidéliser leurs clients.

• Le soucis majeur pour elles serait plutôt d'avoir le maximum de


clients et c'est après en avoir récupéré un grand nombre qu'elles
penseront certainement à les fidéliser et leur proposer d'autres
produits susceptibles de les intéresser.

• C'est ce que l'on appelle Customer RelationShip Management (CRM


ou gestion des relations clients).
13
2.2 Qui a besoin du décisionnel?
• les décideurs sont les principaux utilisateurs des systèmes
décisionnels. Les décideurs sont généralement des " marketeurs " ou
analystes en général.

• Ces derniers établissent généralement des plans marketing qui leur


permettent de mieux cibler leurs clients, de les fidéliser etc.. Et pour
cela, ils ont besoin d'indicateurs et des données résumées de leur
activités (ils n'ont souvent besoin de détail que pour des cas
spécifiques).
• Par exemple, contrairement aux systèmes relationnels (ou SGBDR) où
les utilisateurs chercheront à connaître leurs transactions pour faire
un bilan, les systèmes décisionnels eux cherchent plutôt à donner un
aperçu global pour connaître les tendances des clients (d'où
l'opposition des deux modes [quantitatif contre qualitatif] ).
14
« Prise de décision »

• Les systèmes " opérationnels " (ou de " production ", ou de


" gestion " ) sont dédiés aux métiers de l’entreprise pour les
assister dans leurs tâches de gestion quotidiennes (et
directement opérationnels).
ERP
• Les systèmes " décisionnels " sont dédiés au management
de l’entreprise pour l’aider au pilotage de l’activité (et
indirectement opérationnels).
Ils offrent au décideur une vision transversale de
l’entreprise.

DW
2.3 Architecture des systèmes décisionnels (1)

16
17
18
2.3 Architecture des systèmes décisionnels (2)

• L'entrepôt (ou encore infocentre) centralise les données


issues de plusieurs sources (bases de production de
l'entreprise, fichiers textes, documents web [html, xml,
sgml etc.] etc.).
• Ces données sont fusionnées dans l'entrepôt qui est
généralement une grosse base de données (SQL Server,
Oracle etc.) Ensuite, une fois l'entrepôt confectionné, des
données sont extraites dans des serveurs d'analyse ou
serveurs OLAP sous forme de cubes de données (Analysis
Server, EssBase etc.) afin d'être analysées.
19
2.3 Architecture des systèmes décisionnels (3)

 Enfin des générateurs d'états (Business Objects, Crystal Report


etc.) sont utilisés afin de présenter l'étude aux utilisateurs finaux
ou décideurs(Ex: analystes marketing).

 Les sources de données sont souvent diverses et le but est de


trouver des outils ETL (Extraction,Transformation, Loading) afin
de les extraire, de les nettoyer, de les transformer et de les
mettre dans l'entrepôt de données

20
2.4 Enjeux des entreprises (1)
Objectifs stratégiques
 Améliorer les performances décisionnelles de l’entreprise.
– Identifier les tendances du marché.
– Connaître le passé pour anticiper sur le futur.
– Simuler des situations.
– Augmenter le rendement des actions commerciales.
– Augmenter les services fournis.
– Fidéliser sa clientèle.
 Transformer les données du si en informations cohérentes et
de qualités.
– Meilleure connaissance de son activité.
– Disposer d’un pilotage fiable.
– Réaliser des analyses.
– Présenter des statistiques.
21
– Forer les informations.
2.4 Enjeux des entreprises (2)

 Comment ?
• En répondant aux demandes d’analyse des décideurs.
– Réponses correctes et rapides
 Exemple :
• Clientèle : Qui sont mes clients ? Comment les conserver ,
les fidéliser ou les faire revenir ? Qui sont mes meilleurs
clients depuis 5 ans.
• Marketing : comment améliorer le ciblage de mes actions
commerciales ? Ou placer ce produit dans les rayons.
• Simuler les risques

22
2.4 Enjeux des entreprises (3)

– Défi :
• Transformer leur système d’information qui avait une
vocation de production à un SI décisionnel dont la
vocation de pilotage devient majeure:

– Évoluer d’un SI production à un SI production + un


SI décisionnel.

( Si = système d’information ) .

23
2.5 Problématique (1)
 Une grande masse de donnée :
• Éparpillées
• Volatiles
• Incohérentes
• Pas ou peu de données externes.
 Pour une utilisation par :
• Décideur
– Pilotage par agrégats , investigations, analyses
transversales
• Gestionnaire
– Préparation de décision, simulation…
• Opérationnel
– Accès à l’information élémentaires, requêtes adhoc
24
• = utilisation par des NON INFORMATICIENS
2.6 Métiers du décisionnel
– SPM : Strategic performance management.
• Déterminer et controler les indicateurs clé de la performance
de l’entreprise.
– FI : Finance intelligence.
• Planifier, analyser et diffuser l’information financière.
• Mesurer et gérer les risques.
– CRM : Customer relationship management.
• Améliorer la connaissance client. Identifier et prévoir la
rentabilité client.
• Accroître l’efficacité du marketing client.
– SRM : Supplier relationship management.
• Classifier et évaluer l’ensemble des fournisseurs.
• Planifier et piloter la stratégie Achat.
25
2.7 la solution : Le sid (1)
– L’ information courante et passée devient vitale pour l’
entreprise.

– Toutes les données utiles , qu’ elles proviennent du


système de production de l’entreprise ou qu’elles soient
achetées vont devoir être :
» Organisées dans un ensemble cohérent.
» Intégrées.
» Stockées.
–  Pour constituer la mémoire de l’entreprise.
» Modèle d’intégration
–  Pour donner à l’utilisateur une vue intégrée et orientée métier de
ces informations.

26
2.7 la solution : le data warehouse (2)

– Le système d’information décisionnel :

est un système d’information dédié aux applications décisionnelles :

• En aval des bases de production ( des bases opérationnelles )


• En amont des prises de décision

•  sid = data warehouse

27
28
29
30
Différences SIO / SID
Chapitre 3:
De l’entreposage à la fouille de données (Data Mining)

Algorithmes utilisés:
 les machines à vecteur de support ;
 le boosting ;
 les réseaux de neurones, dont les méthodes d'apprentissage
profond (deep learning en anglais) pour un apprentissage
supervisé ou non-supervisé ;
 la méthode des k plus proches voisins
 les arbres de décision, méthodes à l'origine des Random Forest,
par extension également du boosting (notamment xgboost) ;
 les méthodes statistiques comme le modèle de mixture
gaussienne ;
 la régression logistique ;
 l'analyse discriminante linéaire ;
 les algorithmes génétiques 32
3.1 Qu’est ce que le Data Mining?

Le Data Mining, ou fouille de données, est l'ensemble des


méthodes et techniques destinées à l'exploration et l'analyse de
bases de données informatiques, afin d'en tirer des
connaissances ,des règles, des associations, des structures
particulières restituant l'essentiel de l'information utile en
réduisant la quantité de données.

DATA
Entrepôt des Connaissances
MINING (décision)
données

Découverte de Compréhension
modèles Prédiction
3.2- Le Data Mining est un processus
 Formaliser un problème que l'organisation cherche à résoudre en
terme de données

 Accéder aux données qu'elles en soient


 Préparer les données en vue des traitements et utilisations futurs
 Modéliser les données en leur appliquant des algorithmes d'analyse
 Évaluer et valider les connaissances ainsi extraites des analyses
 Déployer les analyses dans l'entreprise pour une utilisation effective
3.4- Les principales qualités d'un outil de Data Mining

 doit offrir des richesses analytiques d'un niveau équivalent aux


outils statistiques traditionnels.

 Les résultats fournis par l'outil doivent être clairs et


compréhensibles

 il ne doivent pas contenir trop de termes techniques statistiques


 Ils ne doivent pas être dédiés à un domaine particulier et doivent
pouvoir résoudre différents problèmes provenant de contextes

différents.
3.5 Quel sont les techniques du Data Mining ?

Réseaux neuronaux Découverte des règles

les techniques
du Data Mining

Clustering Arbres de décision


3.6 Domaines d'application du DATA MINING

Secteur
bancaire
Marketing
stratégique La grande
distribution

Gestion de Domaines d'application Assurance


la relation client du DATA MINING de biens et
de personnes

Gestion Vente par


du risque Correspondance
(VPC)
Secteur médical
3.7 Le Data Mining dans l'architecture du Data WareHouse
Bases de
production Data
Marts
Meta données (Dictionnaire)

Utilisateurs SIAD

OLAP

Data Warehouse

Utilisateurs
OLAP Data Mining

Data Mining

Outils
d’alimentation Utilisateurs requêteurs
Bases externes
3.8 Apprentissage automatique:
 L'apprentissage automatique (en anglais : machine
learning, litt. « apprentissage machine »), apprentissage
artificiel ou apprentissage statistique est un champ d'étude de
l'intelligence artificielle qui se fonde sur des approches
mathématiques et statistiques pour donner aux ordinateurs la
capacité d'« apprendre » à partir de données.

 Il existe deux types d’apprentissage automatique:


 Supervisée: la classe est connue; exemple: les arbres de décision
 Non supervisée: la classe est non connue; exemple: K_means

39
la classe :
Golf
N° Pif Temp Humid Vent Golf
1 soleil chaud haute faux NePasJouer
2 soleil chaud haute vrai NePasJouer
3 couvert chaud haute faux Jouer
4 pluie bon haute faux Jouer
5 pluie frais normale faux Jouer
6 pluie frais normale vrai NePasJouer
7 couvert frais normale vrai Jouer
8 soleil bon haute faux NePasJouer
9 soleil frais normale faux Jouer
10 pluie bon normale faux Jouer
11 soleil bon normale vrai Jouer
12 couvert bon haute vrai Jouer
13 couvert chaud normale faux Jouer
14 pluie bon haute vrai NePasJouer

40

3.8 Apprentissage automatique:
L'apprentissage automatique comporte généralement deux phases:
 La première consiste à estimer un modèle à partir de données,
appelées observations, qui sont disponibles et en nombre fini, lors de
la phase de conception du système. L'estimation du modèle consiste
à résoudre une tâche pratique. Cette phase dite « d'apprentissage »
ou « d'entraînement » est généralement réalisée préalablement à
l'utilisation pratique du modèle.

 La seconde phase correspond à la mise en production : le modèle


étant déterminé, de nouvelles données peuvent alors être soumises
afin d'obtenir le résultat correspondant à la tâche souhaitée. En
pratique, certains systèmes peuvent poursuivre leur apprentissage
une fois en production, pour peu qu'ils aient un moyen d'obtenir un
retour sur la qualité des résultats produits.
41
i. Arbres de décision

Origines:
Ces méthodes ont pris essentiellement leur essor dans le cadre des
approches d'apprentissage automatique supervisée en Intelligence
Artificielle.

42
• Particularités (de l'I.A. en général):
– => en classification supervisee: sortie de resultats sous la forme de
règles logiques de classification:
– "SI tel ensemble de conditions sur telles variables est satisfait
ALORS le cas
appartient a telle classe".
– => resultats plus facilement interpretables et donc exploitables
– => communication plus aisée avec les spécialistes du domaine
traite.
• Ex d'algorithme: ID3 (Inductive Decision Tree) et son successeur
C4.5, CART (Classification and Regression Tree), CHAID (Chi-Square
Automatic Interaction Detection)

43
44
45
46
47
48
49
50
51
52
Estimation de l'erreur réelle d'une hypothèse
• Matrice de confusion ou de contingence

Accuracy =
(TP+TN)/(TP+FP+FN+TN)

53
• Décider du nombre k fixe de partitions des exemples
• Couper les données en k partitions égales
• Utiliser une partition pour le test, les k-1 autres pour
l'apprentissage
• Répéter le processus k fois (par permutation circulaire)
• Erreur = moyenne des erreurs sur les k partitions

k-validation croisée (k-fold cross-validation)


10 partitions très utilisées en pratique (bon compromis entre
le nombre d'exemples pour l'apprentissage et pour le test)

54
55
56
i. 1 Les arbres de décision : exemple
• Les arbres de décision sont des classifieurs pour des instances
représentées dans un formalisme attribut/valeur

– Les noeuds de l’arbre testent les attributs


– Il y a une branche pour chaque valeur de l’attribut testé
– Les feuilles spécifient les catégories (deux ou plus)

douleur?

abdomen gorge poitrine aucune

appendicite fievre ? infarctus toux ?


non oui
oui non
rien fievre ?
rhume mal de gorge
oui non
rhume refroidissement
i. 2- Les arbres de décision : le problème
• Chaque instance est décrite par un vecteur d’attributs/valeurs
Toux Fièvre Poids Douleur
Marie non oui normal gorge
Fred non oui normal abdomen
Julie oui oui maigre aucune
Elvis oui non obese poitrine
• En entrée : un ensemble d’instances et leur classe (correctement
associées par un “professeur” ou “expert”)
Toux Fièvre Poids Douleur Diagnostic
Marie non oui normal gorge rhume
Fred non oui normal abdomen appendicite
.....

• L’algorithme d’apprentissage doit construire un arbre de


décision
E.g. Un arbre de décision pour le diagnostic

Une des principales applications de l’apprentissage !


i. 3- Les arbres de décision : pouvoir de représentation

• Le choix des attributs est très important !


• Si un attribut crucial n’est pas représenté on ne pourra pas
trouver d’arbre de décision qui apprenne les exemples
correctement.
• Si deux instances ont la même représentation mais
appartiennent à deux classes différentes, le langage des
instances (les attributs) est dit inadéquat.

Toux Fièvre Poids Douleur Diagnostic


Marie non oui normal abdomen rhume
Polo non oui normal abdomen appendicite
.....

langage inadéquat
i. 4- Les arbres de décision : le choix d’un arbre

Couleur Ailes Plumes Sonar Concept


Faucon jaune oui oui non oiseau
Pigeon B&N oui oui non oiseau
chauve-souris brun oui non oui pas oiseau

Quatre arbres de décision cohérents avec les données:


Plumes ?
DT1 DT3 DT4
oui non
Couleur ? Plumes ?
oiseau pas oiseau
brun jaune oui non
B&N
pas oiseau oiseau Couleur ? pas oiseau
DT2 Sonar ? oiseau
brun jaune
oui non
B&N
pas oiseau oiseau
pas oiseau oiseau oiseau
i. 5 Les arbres de décision : le choix d’un arbre
• Si le langage est adéquat,
il est toujours possible de construire un arbre de décision qui classe
correctement les exemples d’apprentissage.
• Il y a le plus souvent de nombreux arbres de décision possibles
corrects.

å Quelle valeur attribuer à un arbre ?

• Impossibilité de procéder par énumération /


évaluation (NP-complet)
A
V Ai 4 attributs & 3 valeurs / attribut : 55296 arbres
i
i 1

Nécessité d’une démarche constructive itérative


i. 6- Induction d’arbres de décision : Exemple
[Quinlan,86]
Attributs Pif Temp Humid Vent
Valeurs possibles soleil,couvert,pluie chaud,bon,frais normale,haute vrai,faux

N° Pif Temp Humid Vent Golf


1 soleil chaud haute faux NePasJouer
2 soleil chaud haute vrai NePasJouer
3 couvert chaud haute faux Jouer
4 pluie bon haute faux Jouer
5 pluie frais normale faux Jouer
6 pluie frais normale vrai NePasJouer
7 couvert frais normale vrai Jouer
8 soleil bon haute faux NePasJouer
9 soleil frais normale faux Jouer
10 pluie bon normale faux Jouer
11 soleil bon normale vrai Jouer
12 couvert bon haute vrai Jouer
13 couvert chaud normale faux Jouer
14 pluie bon haute vrai NePasJouer
la classe
i. 7- La sélection d’un bon attribut de test

• Comment obtenir un arbre “simple” ?


– Arbre simple :
Minimise l’espérance du nombre de tests pour classer un
nouvel objet
– Comment traduire ce critère global en une procédure de
choix locale ?

• Critères de choix de chaque noeud


– On ne sait pas associer un critère local au critère global
objectif
Recours à des heuristiques
– La notion de mesure d’”impureté”
• Index Gini
• Critère entropique (ID3, C4.5, C5.0)
• ...
i. 8- Mesure d’impureté : le critère Gini

• Idéalement :
– Mesure nulle si les populations sont homogènes
– Mesure maximale si les populations sont maximalement
mélangées

• Index Gini [Breiman et al.,84]


i. 9- Le critère entropique (1/3)

• L’entropie de Boltzmann ...


• ... et de Shannon
– Shannon en 1949 a proposé une mesure d’entropie valable pour
les distributions discrètes de probabilité.
– Elle exprime la quantité d’information, c’est à dire le nombre de
bits nécessaire pour spécifier la distribution
– L’entropie d'information est:
I = -  pi  log2 (pi )
i=1..k

où pi est la probabilité de la classe Ci.


i. 10- Le critère entropique (2/3)

Entropie d'information de S (en C classes) :

C
I(S)    p(c i ) log p(ci )
i 1

p(ci) : probabilité de la classe ci

- Nulle quand il n’y a qu’une classe


- D’autant plus grande que les classes sont équiprobables
- Vaut log2(k) quand les k classes sont équiprobables
- Unité: le bit d’information
i. 11- Gain entropique associé à un attribut

Sv
Gain(S, A)  I(S)   S
 I(Sv )
v  val eurs( A)

|Sv| : taille de la sous-population dans la branche v de A

En quoi la connaissance de la valeur de l’attribut A


m’apporte une information sur la classe d’un exemple
i. 12- Exemple (1/4)

• Entropie de l’ensemble initial d’exemples


I(p,n) = - 9/14 log2(9/14) - 5/14 log2(5/14)
• Entropie des sous-arbres associés au test sur Pif ?
– p1 = 4 n1 = 0 : I(p1,n1) = 0
– p2 = 2 n2 = 3 : I(p2,n2) = 0.971
– p3 = 3 n3 = 2 : I(p3,n3) = 0.971
• Entropie des sous-arbres associés au test sur Temp ?
– p1 = 2 n1 = 2 : I(p1,n1) = 1
– p2 = 4 n2 = 2 : I(p2,n2) = 0.918
– p3 = 3 n3 = 1 : I(p3,n3) = 0.811
i. 12- Exemple (2/4)

I(S) N objets
n+p=N

Attribut A

val1 val2 val3

N1 objets N2 objets N3 objets


N1+N2+N3=N
n1+p1=N1 n2+p2=N2 n3+p3=N3

E(N,A)= N1/N x I(p1,n1) + N2/N xI(p2,n2) + N3/N x I(p3,n3)

Le gain d’entropie de A vaut: GAIN(A)= I(S)-E(N,A)


i. 12- Exemple (3/4)

• Pour les exemples initiaux


I(S) = - 9/14 log2(9/14) - 5/14 log2(5/14)
• Entropie de l’arbre associé au test sur Pif ?
– E(Pif) = 4/14 I(p1,n1) + 5/14 I(p2,n2) + 5/14 I(p3,n3)
 Gain(Pif) = 0.940 - 0.694 = 0.246 bits

– Gain(Temp) = 0.029 bits


– Gain(Humid) = 0.151 bits
– Gain(Vent) = 0.048 bits

 Choix de l’attribut Pif pour le premier test


i. 12- Exemple (4/4)

• Arbre final obtenu :

Pif

couvert soleil pluie

Humid Vent
jouer
normal haute non oui

jouer ne pas jouer jouer ne pas jouer


i. 13. Outils de data mining: WEKA, un logiciel libre
d’apprentissage et de data mining
Structure d’un fichier d’extension: arff
• @relation test
• @attribute ratiolen real
• @attribute ratiodia real
• @attribute ratiotm real
• @attribute class {s,f}
• @data
• 0.964285714285714,0.8,0.857142857142857,s
• 0.838709677419355,1.45454545454545,0.808333333333333,s
• 0.864864864864865,0.833333333333333,1.0625,f
• 0.761904761904762,1.23529411764706,0.722222222222222,f
• 0.828571428571429,1.05555555555556,1.13333333333333,f
• 0.851063829787234,1.5,1.0,s
• 0.939393939393939,1.07692307692308,1.32727272727273,s
• 0.675675675675676,0.8,0.928571428571429,s
72
• 0.75,0.882352941176471,0.933333333333333,s
73
74
75
76
77
Clustering
Qu’est-ce que le clustering ?
• Processus qui partitionne un ensemble de données
en sous-classes (clusters) ayant du sens

• Classification non-supervisée : classes non pré-


définies
– Les regroupements d'objets (clusters) forment
les classes

• Optimiser le regroupement
– Maximisation de la similarité intra-classe
– Minimisation de la similarité inter-classes

• Principales applications
– Observer la distribution des données en
identifiant les groupes et leurs caractéristiques
(découvrir des corrélations)
– Préparation des données pour un autre
algorithme ou application
78
Cj

Ci
wl

wm

wk

Les individus d’une même Les individus de deux classes


classe sont le « plus ressemblants » différentes sont « le plus dissemblables »
possible possible

79
Applications du Clustering
• Reconnaissance de formes
• Analyse des données spatiales:
• Traitement d’images
• Market Research
• Recherche d’information
– Catégorisation de documents ou de termes
– Visualisation de l’information et interfaces de recherche
d’information

• Web Mining
– Clustering des usages du web pour découvrir des groupes
d’accès similaires
– Personalisation du Web

80
Méthodologies de Clustering
• Deux méthodologies générales
– Algorithmes de partitionnment
– Algorithmes hiérarchiques

• Partitionnment
– Diviser un ensemble de N items en K clusters

• Hiérarchique
– Par agglomerations : les paires d’items ou de clusters sont
successivement lié pour produire des clusters plus grands
(bottom-up)
– Par dvisisions : commencer par l’ensemble entier comme cluster
et successivement diviser en de plus petites partitions (top-down)

81
Structures des données
• Représentation de vecteurs dans un espace à N
dimensions et une distance
D1: 57,M,195,0,125,95,39,25,0,1,0,0,0,1,0,0,0,0,0,0,1,1,0,0,0,0,0,0,0,0
D2: 78,M,160,1,130,100,37,40,1,0,0,0,1,0,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0
...
Dn: 18,M,165,0,110,80,41,30,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0

Distance (D1,D2) = ???


• Distances 2 à 2 entre les points
• Distance : 0 = proche, ∞ = loin,
• Similarité : 0 = loin, ∞ = proche
82
Qualité d’une méthode de clustering
• Une des questions difficiles du clustering : à quel point les
clusters trouvés sont bons ?
• Capacité à traiter différents types d’attributs
• Découverte de clusters de formes arbitraires
• Connaissances minimales du domaines requises pour définir les
paramètres
• Capacité à traiter les données bruitées et les exceptions
• Insensibilité à l’ordre des objets du jeu de données
• Capacité à traiter de très nombreux attributs
• Extraction de clusters en intégrant des contraintes spécifiées par
l’utilisateur
• Résultat interprétable et utilisable

83
Combien de clusters ?

84
Combien de clusters ?

85
Types de données pour l’analyse de
clusters
• 3 types différents de variables nécessitent des traitements
différents:

• Numériques linéaires
– Ex : poids, taille, longitude, latitude, etc.

• Binaires : une valeur parmi deux possibles


– 0 : la variable est absente, 1 : la variable est présente

• Nominale : valeur prise dans une liste finie


– Ex : couleur : « vert, bleu, rouge, jaune, noir »
86
Variables numériques continues
• Souvent, les distances sont utilisées
• Propriétés des distances :
– Symétrie : Pour tout A et tout B, D(A, B)  0, and D(A, B) =
D(B, A)
– Pour tout A, D(A, A) = 0
– Inégalité triangulaire : D(A, C)  D(A, B) + D(B, C)
• Distances classiques :
– Distance Euclidienne :
– X(x1,x2,…………,xN)
– Y(y1,y2,…………,yN)
D(X,Y) = [(x1 –y1)2 + (x2 –y2)2 + ... + (xN –yN)2]1/2

– Distance de Manhattan (q=1) :

D(X,Y) = | x1 –y1| + | x2 –y2|+ ... + xN –yN|


87
Variables binaires

• Une table de contingence pour données binaires


Objet j
a= nombre de
positions où i a 1 et j
1 0 sum
a1
1 a b a b
Objet i
0 c d cd
sum a  c b  d p

• Exemple oi=(1,1,0,1,0) et oj=(1,0,0,0,1)


a=1, b=2, c=1, d=1
88
Mesures de distances
• Coefficient d’appariement (matching) simple
(invariant pour variables symétriques):
d (i, j)  bc
a bc  d

Exemple oi=(1,1,0,1,0) et oj=(1,0,0,0,1)


d(oi, oj)=3/5
• Coefficient de Jaccard d (i, j)  bc
a bc
d(oi, oj)=3/4
89
Variables binaires (I)
• Variable symétrique: Ex. le sexe d’une personne, i.e coder
masculin par 1 et féminin par 0 c’est pareil que le codage
inverse

• Variable asymétrique: Ex. Test HIV. Le test peut être positif


ou négatif (0 ou 1) mais il y a une valeur qui sera plus
présente que l’autre. Généralement, on code par 1 la
modalité la moins fréquente
– 2 personnes ayant la valeur 1 pour le test sont plus
similaires que 2 personnes ayant 0 pour le test

90
Méthodes par partitionnement

• Partitionnement : les objets du jeu de données sont


groupés en k clusters
• Étant donnée une valeur k, trouver une partition de k
clusters qui optimise le critère de partionnement (fonction
de similarité)
• Approches heuristiques :
– K-means : chaque cluster est représenté par son centre
de gravité
– K-medoïds : chaque cluster est représenté par un objet
du cluster

91
La méthode des k-moyennes (K-Means)
• L’algorithme k-means est en 4 étapes :

1. Choisir k objets formant ainsi k clusters

2. (Ré)affecter chaque objet O au cluster Ci de centre Mi


tel que dist(O,Mi) est minimal

3. Recalculer Mi de chaque cluster (le barycentre)

4. Aller à l’étape 2 si on vient de faire une affectation

92
K-Means :Exemple
• A={1,2,3,6,7,8,13,15,17}. Créer 3 clusters à partir de A

• On prend 3 objets au hasard. Supposons que c’est 1, 2 et 3. Ca


donne C1={1}, M1=1, C2={2}, M2=2, C3={3} et M3=3

• Chaque objet O est affecté au cluster au milieu duquel, O est le


plus proche. 6 est affecté à C3 car dist(M3,6)<dist(M2,6) et
dist(M3,6)<dist(M1,6)
On a C1={1}, M1=1,
C2={2}, M2=2
C3={3, 6,7,8,13,15,17}, M3=69/7=9.86

93
K-Means :Exemple (suite)
• dist(3,M2)<dist(3,M3)3 passe dans C2. Tous les autres objets ne bougent pas.
C1={1}, M1=1, C2={2,3}, M2=2.5,C3={6,7,8,13,15,17} et M3= 66/6=11

• dist(6,M2)<dist(6,M3)6 passe dans C2. Tous les autres objets ne bougent pas.
C1={1}, M1=1, C2={2,3,6}, M2=11/3=3.67, C3={7,8,13,15,17}, M3= 12

• dist(2,M1)<dist(2,M2)2 passe en C1. dist(7,M2)<dist(7,M3) 7 passe en C2. Les


autres ne bougent pas. C1={1,2}, M1=1.5, C2={3,6,7}, M2=5.34, C3= {8,13,15,17},
M3=13.25

• dist(3,M1)<dist(3,M2)3 passe en 1. dist(8,M2)<dist(8,M3)8 passe en 2


C1={1,2,3}, M1=2, C2={6,7,8}, M2=7, C3={13,15,17}, M3=15

Plus rien ne bouge

94
Algorithme K-Means
• Exemple
10 10

9 9

8 8

7 7

6 6

5 5

4 4

3 3

2 2

1 1

0 0
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10

10 10

9 9

8 8

7 7

6 6

5 5

4 4

3
3
2
2
1
1
0
0
0 1 2 3 4 5 6 7 8 9 10
95 0 1 2 3 4 5 6 7 8 9 10
Commentaires sur la méthode des K-Means
• Force
– Relativement efficace: O(tkn), où n est # objets, k est #
clusters, et t est # itérations. Normalement, k, t << n.
– Tend à réduire
E   p  mi
k 2

pCi
• Faiblesses i 1

– N’est pas applicable en présence d’attributs qui ne sont pas du


type intervalle (moyenne=?)
– On doit spécifier k (nombre de clusters)
– Les clusters sont construits par rapports à des objets
inexistants (les milieux)
– Ne peut pas découvrir les groupes non-convexes

96
2.1 K-Means
• Méthode des K-moyennes (MacQueen’67)
– choisir K éléments initiaux "centres" des K groupes
– placer les objets dans le groupe de centre le plus
proche
– recalculer le centre de gravité de chaque groupe
– itérer l'algorithme jusqu'à ce que les objets ne
changent plus de groupe
• Encore appelée méthode des centres mobiles
Algorithme
• Étapes:
– fixer le nombre de clusters: k
– choisir aléatoirement k tuples comme graines (centres)
– assigner chaque tuple à la graine la plus proche
– recalculer les k graines
– tant que des tuples ont été changés
• réassigner les tuples
• recalculer les k graines

• C'est l'Algorithme le plus utilisé


Exemple de K-Means (k=2)

Choisir 2 graines Assigner les tuples

Recalculer les centroïdes Réassigner les tuples


Trajectoire des centres

Trajectoires des 3
centres d’un nuage
de points
bidimensionnel
Les hyperplans
séparateurs entre les
classes
Autre exemple (1)
• 27-51-52-33-45-22-28-44-40-38-20-57
• K=3
• distance = différence/amplitude maximum

27 51 52 33 45 22 28 44 40 38 20 57
G raine 27 0.00 0.65 0.68 0.16 0.49 0.14 0.03 0.46 0.35 0.30 0.19 0.81
G raine 51 0.65 0.00 0.03 0.49 0.16 0.78 0.62 0.19 0.30 0.35 0.84 0.16
G raine 52 0.68 0.03 0.00 0.51 0.19 0.81 0.65 0.22 0.32 0.38 0.86 0.14
M inim um 0 0 0 0.16 0.16 0.14 0.03 0.19 0.3 0.3 0.19 0.14
Affectation 1 2 3 1 2 1 1 2 2 1 1 3

• Cluster 1 : 27 - 33 - 22 - 28 - 38 - 20
• Cluster 2 : 51 - 45 - 44 - 40
• Cluster 3 : 52 - 57
Suite exemple (2)
27 51 52 33 45 22 28 44 40 38 20 57
G ra in e 2 8 0 .0 3 0 .6 2 0 .6 5 0 .1 4 0 .4 6 0 .1 6 0 0 .4 3 0 .3 2 0 .2 7 0 .2 2 0 .7 8
G ra in e 4 5 0 .4 9 0 .1 6 0 .1 9 0 .3 2 0 0 .6 2 0 .4 6 0 .0 3 0 .1 4 0 .1 9 0 .6 8 0 .3 2
G ra in e 5 4 .5 0 .7 4 0 .0 9 0 .0 7 0 .5 8 0 .2 6 0 .8 8 0 .7 2 0 .2 8 0 .3 9 0 .4 5 0 .9 3 0 .0 7
M in im u m 0 .0 3 0 .0 9 0 .0 7 0 .1 4 0 0 .1 6 0 0 .0 3 0 .1 4 0 .1 9 0 .2 2 0 .0 7
A ffe c ta tio n 1 3 3 1 2 1 1 2 2 2 1 3

• Cluster 1:
– 27 - 33 - 22 - 28 - 20 Jeunes majeurs - Centre = 26
• Cluster 2:
– 45 - 44 - 40 - 38 Quadragénaires - Centre = 41.75
• Cluster 3:
– 51 - 52 - 57 Quinquagénaires - Centre = 53.33
Faiblesse
• Mauvaise prise en compte des "outliers"
– points extrêmes en dehors des groupes
– fausses les moyennes et donc les centres
• Convergence plus ou moins rapide
• Amélioration:
– utilisation de points centraux (médoïdes)
Algorithme des K-Means
• Algorithme de base :
1. selectionner K points comme les représentants initiaux
2. for i = 1 to N, affecter l’item xi au centre le plus similaire (ceci donne K clusters)
3. for j = 1 to K, recalculer le centre du cluster Cj
4. repéter les étapes 2 et 3 jusqu’à ce qu’il n’y ait plus (ou peu) de changement dans les
clusters
• Exemple: Clustering de mots

Affectation initiale arbitraire :


C1 = {T1,T2}, C2 = {T3,T4}, C3 = {T5,T6} Centres des Clusters

T1 T2 T3 T4 T5 T6 T7 T8 C1 C2 C3
Doc1 0 4 0 0 0 2 1 3 4/2 0/2 2/2
Doc2 3 1 4 3 1 2 0 1 4/2 7/2 3/2
Doc3 3 0 0 0 3 0 3 0 3/2 0/2 3/2
Doc4 0 1 0 3 0 0 2 0 1/2 3/2 0/2
Doc5 2 2 2 3 1 4 0 2 4/2 5/2 5/2

104
K-Means : exemple
En utilisant la mesure de similarité classique, calculer la nouvelle
matrice de similarités aux clusters

T1 T2 T3 T4 T5 T6 T7 T8
Classe1 29/2 29/2 24/2 27/2 17/2 32/2 15/2 24/2
Classe2 31/2 20/2 38/2 45/2 12/2 34/2 6/2 17/2
Classe3 28/2 21/2 22/2 24/2 17/2 30/2 11/2 19/2
Affecté à Classe2 Classe1 Classe2 Classe2 Classe3 Classe2 Classe1 Classe1

Calculer les centres des nouveaux clusters en utilisant la matrice initiale

T1 T2 T3 T4 T5 T6 T7 T8 C1 C2 C3
Doc1 0 4 0 0 0 2 1 3 8/3 2/4 0/1
Doc2 3 1 4 3 1 2 0 1 2/3 12/4 1/1
Doc3 3 0 0 0 3 0 3 0 3/3 3/4 3/1
Doc4 0 1 0 3 0 0 2 0 3/3 3/4 0/1
Doc5 2 2 2 3 1 4 0 2 4/3 11/4 1/1

Le processus est répété jusqu’à ce que les clusters ne soient plus modifiés
K-means : Illustration

Calcul des
Choix aléatoire de centres des
k objets, centres clusters et
initiaux et calcul recalcul des
des clusters clusters

On stoppe Calcul des


lorsque les centres des
clusters sont clusters et
stables recalcul des
clusters
Indice de validité VRC
• Une trentaine d'indices de validité étudiés par Mulligan & Cooper 85
• Meilleures performances obtenues par l'indice VRC (variance ratio
criterion) dispersion inter  groupes B
VRC  
dispersion intra  groupes W
1 K
B  N t mt  m
2

K  1 t 1
K 2
1
W
N K
 xm
t 1
t

m = grand centre (vecteur des moyennes prises sur toutes les N données )
mi = centre du groupe i
• Choisir le K qui maximise VRC.
K-means : bilan
• Force des k-means:
– Relativement efficaces : O(tkn), où n est le nb d’objets, k est le nb de clusters,
et t est le nb d’itérations. Normalement, k, t << n
– Terminent souvent dans un optimum local

• Faiblesse des k-means:


– Besoin de préciser k à l’avance
– Sensibles aux données bruitées et aux exceptions, aux cas aberrants
– Sensibles à l’initialisation
• lancer plusieurs éxecutions avec différents états initiaux
• retenir la configuration jugée la meilleure
– marche mal lorsque les groupes se chevauchent => variante : K-means flou

• Les variantes des K-Means diffèrent dans :


– La sélection des k initiaux
– Calcul de la dissimilarité
– Stratégies pour calculer la moyenne d’un cluster
faits (définition)
 Fait:
 Un fait est la plus petite information analysable.

 C'est une information qui contient les données


observables (les faits) que l'on possède sur un sujet et
que l'on veut étudier, selon divers axes d'analyse(les
dimensions).

112
faits (suite)
 Fait:
 Ce que l’on souhaite mesurer
 Quantités vendues, montant des ventes…

 Trois types de faits:


 Additif
 Semi additif
 Non additif

113
Typologie des faits
 Additif: additionnable suivant toutes les dimensions
 Quantités vendues, chiffre d’affaire
 Peut être le résultat d’un calcul:
 Bénéfice = montant vente - coût
 Semi additif: additionnable suivant certaines
dimensions
 Solde d’un compte bancaire:
 Pas de sens d’additionner sur les dates
 Σ sur les comptes: on connaît ce que nous
possédons en banque
 Non additif: fait non additionnable quelque soit la
dimension
 Prix unitaire: l’addition sur n’importe quelle
dimension donne un nombre dépourvu de sens

114
Granularité de la table de faits

 Répondre à la question :
 Que représente un enregistrement de la table de
faits?
 La granularité définit le niveau de détails de la table de
faits:
 Exemple: une ligne de commande par produit, par
client et par jour

Précision des analyses

ti + Finesse
Taille de l’entrepôt

115
dimension: définition

 Une dimension est une ''table'‘ qui représente un axe


d'analyse selon lequel on veut étudier les données
observables(les faits)qui, donnent aux utilisateurs des
renseignements nécessaires à la Prise de décision.

 On appelle donc ''dimension'' un axe d'analyse. Il peut


s'agir des Clients ou des Produits d'une entreprise, d'une
Période de temps.

116
Table de dimension (suite)
 Dimension = axe d’analyse
 Client, produit, période de temps…
 Contient souvent un grand nombre de colonnes
 L’ensemble des informations descriptives des faits
 Contient en général beaucoup moins d’enregistrements
qu’une table de faits

117
Granularité d’une dimension
 Une dimension contient des membres organisés en
hiérarchie :
 Chacun des membres appartient à un niveau
hiérarchique (ou niveau de granularité) particulier
 Granularité d’une dimension : nombre de niveaux
hiérarchiques
 Temps :
 année – semestre – trimestre - mois

118
Évolution des dimensions

 Dimensions à évolution lente


 Dimensions à évolution rapide

119
Évolution des dimensions

 Dimensions à évolution lente (SCD: Slowly Changing


Dimension)
 Un client peut se marier, avoir des enfants…
 Un produit peut changer de noms ou de formulation:
 « Raider » en « Twix »
 « yagourt à la vanille » en « yagourt saveur vanille »

120
Évolution des dimensions
 Dimensions à évolution lente (SCD: Slowly Changing
Dimension)
 Gestion de la situation, 3 solutions:

1. Écrasement de l’ancienne valeur


2. Versionnement (Ajout d’un nouvel
enregistrement)
3. Valeur d’origine / valeur courante

121
Dimensions à évolution lente (1/3)
 Écrasement de l’ancienne valeur :
 Correction des informations erronées
 Avantage:
 Facile à mettre en œuvre
 Inconvénients:
 Perte de la trace des valeurs antérieures des attributs
 Perte de la cause de l’évolution dans les faits mesurés

Clé produit Description du produit Groupe de produits

12345 IntellitiKids Logiciel

Jeux éducatifs
122
Dimensions à évolution lente (2/3)
 Ajout d’un nouvel enregistrement:
 Utilisation d’une clé de substitution
 Avantages:
 Permet de suivre l’évolution des attributs
 Permet de segmenter la table de faits en fonction de
l’historique
 Inconvénient:
 Accroit le volume de la table
Clé produit Description du produit Groupe de produits

12345 IntellitiKids Logiciel

25963 IntellitiKids Jeux éducatifs

123
Dimensions à évolution lente (3/3)
 Ajout d’un nouvel attribut:
 Valeur origine/valeur courante
 Avantages:
 Avoir deux visions simultanées des données :
 Voir les données récentes avec l’ancien attribut
 Voir les données anciennes avec le nouvel attribut
 Voir les données comme si le changement n’avait pas
eu lieu
 Inconvénient:
 Inadapté pour suivre plusieurs valeurs d’attributs
intermédiaires

Clé produit Description du Groupe de Nouveau groupe de


produit produits produits

12345 IntellitiKids Logiciel Jeux éducatifs


124
Évolution des dimensions
 Dimensions à évolution lente

 Dimensions à évolution rapide


 Subit des changements très fréquents (par ex tous les
mois) des attributs dont on veut garder l’historique.

 Solution:
isoler les attributs qui changent rapidement

125
Dimensions à évolution rapide

Exemple :
 Si l'on veut préserver l'historique des changements
d'adresse dans la dimension «Clients» dans un pays où
70% de la population déménage une fois par année (le
1er juillet par exemple au Canada).

 La dimension «Clients» devient dans ce cas une


dimension à évolution rapide (RCD: Rapid Changing
Dimension)

126
L'analyse en ligne:
OLAP

128
1. OLAP

129
1. OLAP

« Il s’agit d’une catégorie de logiciels axés sur

l’exploration et l’analyse rapide des données

selon une approche multidimensionnelle à

plusieurs niveaux d’agrégation » (Caron, 1998)

130
1. OLAP: objectifs attendus

 Catégorie de logiciels :
 S’exprime par une grande quantité de produits
logiciels disponibles sur le marché
 Exploration et analyse rapide :
 OLAP vise à assister l’usager dans son analyse en
lui facilitant l’exploration de ses données et en
lui donnant la possibilité de les traiter
rapidement

facilité et Rapidité

131
1. OLAP: objectifs attendus

 Facilité
 L’usager n’a pas besoin de maîtriser des langages
d’interrogation et des interfaces complexes
 L’usager interroge directement les données, en
interagissant avec celles-ci
 Rapidité
 OLAP exploite une pré-agrégation des données
 L’usager devient opérationnel en très peu de
temps
L’usager peut se concentrer sur son analyse et
non sur le processus (les moyens utilisés pour
l’analyse)

132
1. OLAP: les 12 règles

133
1. Vocabulaire OLAP
 Dimension : axe d’analyse selon lequel les données seront
analysées.
 Ex. Temps, Produits

 Mesure / Fait :
 Ex. coût des travaux, nombre d’accidents, ventes,
dépenses

 Cube : Un ensemble de mesures organisées selon un


ensemble de dimensions

 Ex. Un cube de ventes qui comprend :


 Les dimensions Temps, Produit, Magasin
 La mesure Ventes en Dh
134
1. Vocabulaire OLAP: Cube

Les cubes OLAP ont les caractéristiques suivantes :


1. obtenir des informations déjà agrégées selon les
besoins de l’utilisateur.
2. simplicité et rapidité d’accès
3. capacité à manipuler les données agrégées selon
différentes dimensions
4. un cube utilise les fonctions classiques
d’agrégation : min, max, count, sum, avg.

135
1. un exemple de cube OLAP

Dans notre exemple, nous allons nous intéresser


aux ventes de tous les magasins "XXX".
Voyons maintenant
comment peut-on
utiliser ce cube. Pour
cela, nous allons
nous intéresser aux
différentes vues de ce
cube.
Source : Système décisionnel Par Eddy Meylan
(HES)

136
1. un exemple de cube OLAP

Vue n° 1 : On
s'intéresse à toutes
les ventes du
magasin d'ANNECY
(toutes catégories
confondues durant
toute les mois)

Source : Système décisionnel Par Eddy Meylan


(HES)
137
1. un exemple de cube OLAP

Vue n° 2 : On
s'intéresse aux
ventes de la
catégorie
"vêtements pour
enfants" (tous les
magasins durant
toute les mois)

Source : Système décisionnel Par Eddy Meylan


(HES)
138
1. un exemple de cube OLAP

Vue n° 3 : On
s'intéresse à
toutes les ventes
durant le mois de
Février (toutes
catégories
confondues et
dans tous les
magasins)

Source : Système décisionnel Par Eddy Meylan


(HES)
139
1. un exemple de cube OLAP

Vue n° 4 : On s'intéresse
aux ventes du magasin
d'ANNECY dans la
catégorie "vêtements pour
enfants" durant le mois de
Février)

Source : Système décisionnel Par Eddy Meylan


(HES)
140
Multi‐représentations du
Cube Ventes

141
Les différentes opérations
d'agrégation : Roll up ou drill-up
Roll up : Forage vers le haut :Agrégation de données : Passage
de mesures détaillées à résumées en remontant dans la
hiérarchie de la dimension .(Ex. visualiser les ventes par année
au lieu de par mois).
Roll up sur la dimension ‘’Produits’’

142
Les différentes opérations
d'agrégation : Roll up
Roll up sur les dimensions ‘’Produits’’ et ''Dates''

Roll up sur les 3 dimensions ''Produits'',''Dates'' et ''Villes''

143
Les différentes opérations
d'agrégation : Drill down
Drill down:forage de données vers le bas
Drill down sur la mesure ‘CA’ selon la dimension ‘’ville ‘’

Le résultat du Drill down donne:

144
Les différentes opérations
d'agrégation : Drill down
Drill down sur la mesure ‘CA’ selon la valeur ''Lyon'‘ de la dimension
‘’ville ‘’

Le résultat du Drill down donne:

145
Samedi
22/12//2018
Business VISION GLOBALE D’UNE
Intelligence
FeatureENTREPRISE

Prepare
Décider des actions à Système de
conduire. Pilotage
contrôle l’exécution
des travaux
Explore
analyse
l’environnement
Collecter,
contrôle le système
mémoris Système
opéranter,
Report d’INFORMAT
traiter,
ION
distribuer
,
l’informa
Assurer
tion. les fonctions :
Share &
collaborate
. fabriquer les produits
, . facturer les clients, Système
.… OPERANT
• exécutent les ordres du système de
pilotage
Business
Intelligence
Contexte de la BI
Feature

Prepare
l’enjeu des années 2000 pour les entreprises

Diversité Augmentation
Explore
des produits de la qualité

Augmentation
Diminution des
de la concurrence
coûts de
Report
fabrication.
Augmentation
Ouverture
de la réactivité
des marchés
Share &
collaborate

Quels outils donner au décideur pour comprendre,


piloter et gérer ?
Business
Intelligence
Contexte de la BI
Feature

Prepare
Besoin: Améliorer les performances
décisionnelles de l'entreprise :
•Décisions stratégiques
Explore •Décisions rapides
Pourquoi:
besoin de réactivité face à la concu
Report
Qui :
les décideurs (non informaticiens)
Share & Comment:
collaborate

en répondant aux demandes d’ana


Business
Intelligence
Problématique
Feature Ces clients
seront-ils
intéressants
Prepare pour moi ?
Pourquoi Comment
sont-ils les
mes clients conserver
? ou les faire
revenir ?
Explore

Qui sont Catégorie


mes socioprofessi
meilleurs onnel des
Report meilleurs
clients?
clients de
chaque
région?
Qui sont
mes
Share & clients?
collaborate Quelle
catégorie de
clients
achètent un
types de
produits?
Business
Intelligence
Problématique
Feature

Prepare Evolution de Quels sont


la part de nos 10
marché d’un produits les
produit plus
particulier? bénéficiaires
Explore sur la période
2012-2017?

Report

Nombre
Quel est le d'employé de
profil des l'entreprise
employés par classe
Share &
les plus d'âge, par
collaborate
performants sexe, par
? grade?
Business La solution
Intelligence Feature

Prepare
Business Intelligence : extraire de la
valeur à partir de l’analyse de vos
Explore données

Report

Share &
collaborate
Business La solution
Intelligence Feature

Prepare
Des outils pour faire de la Business
Intelligence
Explore

Report

Share &
collaborate
Power BI
Experience your data. Any data, any way, anywhere
Power BI
Experience your data. Any data, any way, anywhere
What is Power BI
Desktop ?
Créer du contenu Power
BI
Connectez-vous aux données et
créez des rapports pour Power BI
Power BI Desktop Prepare, explore, report and
Featurecollaborate with Power BI Desktop

Prepare

Explore

Report

Share &
collaborate

Available as a free, downloadable desktop companion to the Power BI service,


Power BI Desktop is a visual data exploration and reporting tool
Power BI Desktop

Feature

Prepare

Explore

Report

Share &
collaborate
Power BI Desktop Accès aux données
Feature

Prepare

Data sources available through Power BI Desktop


Explore
File Database Azure Other

• Excel • SQL Server • SQL Database • Web • SweetIQ


• CSV • Direct Query for • Direct Query for • SharePoint List • Twilio
• XML SQL Server SQL Database • Odata Feed • Zendesk
Report • Text • Access • SQL Data • Hadoop File (HDFS) • Spark
• Folde • SQL Server Warehouse • Active Directory • Blank Query
r Analysis Services • Marketplace • Microsoft Exchange • Mail Chimp
• Oracle • HDInsight • Dynamics CRM
• IBM DB2 • Blob Storage Online
• MySQL • Table Storage • Facebook
• PostgreSQL • HDInsight Spark • Google Analytics
• Sybase • DocumentDB • Salesforce Objects
Share & • Teradata • Salesforce Reports
collaborate • ODBC
• appFigures
• GitHub
• QuickBooks Online
Power BI Desktop Transformer les données en fonction des besoins
Feature

Prepare

Explore

Report

Share &
collaborate
Power BI Desktop Création de modèle
Feature

Prepare

Explore

Report

Share &
collaborate
Power BI Desktop Explorer les données en toute liberté
Feature

Prepare

Explore

Power BI Desktop allows you to


explore your data and create
insightful visualizations on a
Report freeform canvas

Share &
collaborate
Power BI Desktop Création de rapports
Feature

Prepare

Explore

Report Power BI Desktop allows you


to create and customize
reports that tell visually
compelling data stories

Share &
collaborate
Power BI Desktop Partager des rapports, des données avec un large
public
Feature

Prepare

Explore

Import Power BI Desktop file in Power


BI service
Report

Share &
collaborate

Publish from Power BI Desktop to


Power BI service
Power BI Desktop Prepare, explore, report and collaborate with
Power BI Desktop (Résumé)
Feature

Prepare

Explore

Report

Share &
collaborate
Power BI Desktop Prepare, explore, report and collaborate with
Power BI Desktop (Résumé): Exemple
Feature

Prepare

Explore

Report

Share &
collaborate
Power BI Desktop Prepare, explore, report and
Featurecollaborate with Power BI Desktop

Prepare
(Résumé): Exemple

Explore

Report

Share &
collaborate
Power BI Desktop Prepare, explore, report and
Featurecollaborate with Power BI Desktop

Prepare
(Résumé): Exemple

Explore

Report

Share &
collaborate
Power BI Desktop Prepare, explore, report and
Featurecollaborate with Power BI Desktop

Prepare
(Résumé): Exemple

Explore

Report

Share &
collaborate
Demos
Power BI Desktop Accès aux données
Feature

Prepare

Explore

Report

Share &
collaborate
Power BI Desktop Accès aux données
Feature

Prepare

Explore

Report

Share &
collaborate
Power BI Desktop Accès aux données
Feature

Prepare

Explore

Report

Share &
collaborate
Power BI Desktop Accès aux données
Feature

Prepare

Explore

Report

Share &
collaborate
Power BI Desktop Accès aux données
Feature

Prepare
groupe
transformations

Explore

Report

Share &
collaborate
Power BI Desktop Accès aux données
Feature
Résultat
Prepare

Explore

Report

Share &
collaborate
Power BI Desktop Transformer les données en fonction
Featuredes besoins
Créer une copie en créant
Prepare une référence

Explore

Report

Share &
collaborate
Power BI Desktop Transformer les données en fonction des besoins
Feature
Append tables
Prepare

Explore

Report

Share &
collaborate
Power BI Desktop

Feature

Prepare

Préparer les données de vente


Explore

bd-vente.xslx
Report
Importation

Share &
collaborate

transformations

Vous aimerez peut-être aussi