Vous êtes sur la page 1sur 74

Plateforme dcisionnelle SAS

Grgoire de Lassence

Copyright 2010 SAS Institute Inc. All rights reserved.

Grgoire de Lassence Responsable Pdagogie et Recherche Dpartement Acadmique


Tel : +33 1 60 62 12 19 gregoire.delassence@fra.sas.com http://www.sas.com/france/academic

Copyright 2010, SAS Institute Inc. All rights reserved.

SAS dans le monde


1976 : Cration en Caroline du Nord Socit prive CA 2010 : 2.43 milliards $ 11 000 employs 24 % du CA rinvesti en R&D

SAS en France
280 collaborateurs

Copyright 2010, SAS Institute Inc. All rights reserved.

Services SAS Academic


Cours http://www.sas.com/offices/europe/france/academic/index.html
academic@fra.sas.com Dveloppement de programmes, tudes de cas, support pdagogique Experts SAS, e-learning, Certification SAS

Club SAS Academic


SAS pendant le stage : CPPS Licence Gratuite Domicile Offres de stage et dembauche de nos clients

Divers
Newsletter Internationale Student Ambassador Competition / Papiers SFF Recherche & Chaires Evnements & Sponsoring
Copyright 2010, SAS Institute Inc. All rights reserved.

Plateforme dcisionnelle

Copyright 2010 SAS Institute Inc. All rights reserved.

Quel projet dcisionnel ?

Descriptif

Business Intelligence ?
Copyright 2010, SAS Institute Inc. All rights reserved.

SAS Mobile Business Intelligence

Copyright 2010, SAS Institute Inc. All rights reserved.

SAS Mobile Business Analytics

Copyright 2010, SAS Institute Inc. All rights reserved.

Prdictif

Analytique
9
Copyright 2010, SAS Institute Inc. All rights reserved.

10

Copyright 2010, SAS Institute Inc. All rights reserved.

Matriser la chane dcisionnelle

SGBD/R

Extraire Transformer Charger Nettoyer

Agrger Transposer

Data Mart OLAP Data Mart Reporting

Pilotage

Rapports

ERP Fichiers plats

Data Warehouse

Data Mart Analytique ETL Qualit des donnes

Data Mining Prvisions

Modle de donnes Mthodologie

SGBD/R
OLAP

Requtes, rapports Prvision, modlisation Pilotage, Portail Optimisation


11

Copyright 2010, SAS Institute Inc. All rights reserved.

La plate forme dcisionnelle Enterprise Intelligence Platform

12

Copyright 2010, SAS Institute Inc. All rights reserved.

Enterprise Intelligence Platform Une dclinaison mtier

13

Copyright 2010, SAS Institute Inc. All rights reserved.

Enterprise Intelligence Platform Une dclinaison sectorielle

14

Copyright 2010, SAS Institute Inc. All rights reserved.

Secteurs dactivit

Systme dinformation
Copyright 2010, SAS Institute Inc. All rights reserved.

Mtiers
15

Le dcisionnel au cur des processus de lentreprise

16

Copyright 2004, SAS Institute Inc. All rights reserved.

Copyright 2010, SAS Institute Inc. All rights reserved.

Client Tier

SAS Data Integration Studio SAS Management Console SAS Information Map Studio

SAS Enterprise Guide SAS Add-In for Microsoft Office

SAS Web Report Studio SAS Information Delivery Portal

HTTP Server

SDK Java Servlet Container

Middle Tier

webDAV Server

Web Infrastructure Kit

Metadata Server

Server Tier

Workspace Server SAS9

Stored Process Server

OLAP Server

SAS/CONNECT Server
17

Foundation
Copyright 2010, SAS Institute Inc. All rights reserved.

SAS Business Intelligence Personas


IT Support
IT Admin (Ahmed)
User administration Reporting administration Software administration

Power Users
Business Analyst (Jacques)
No DBMS or programming Strong Excel Ad hoc queries OLAP Create reports Publish reports Custom reports Understands business metrics

Information Consumers
C-level Execs
Annotation E-mail

Data Modeler (Marcel)


Business View manager Understands physical data model SQL programmer

Middle Management (Henri)


Drill down Manipulation Annotation

Power User (Gloria)


Some DBMS and programming Strong Excel Ad hoc queries Custom reports Modeling Analytics Detail data Understands business domain

Operational Consumers
Sales Marketing Customer Service Finance Technical Support

Report Administrator (Robert)


Report Builder Schedule reports Monitor queue
Copyright 2010, SAS Institute Inc. All rights reserved.

18

Le Cas Orion

Copyright 2010 SAS Institute Inc. All rights reserved.

La socit : Orion
Cette socit fictive, prsente au niveau mondial, est spcialise dans la commercialisation darticles de sport et dextrieur
Le sige sociale aux tats-Unis, gre des filiales en Belgique, Pays Bas, Allemagne, Royaumes Unis, Danemark, France, Italie, Espagne et Australie. Les produits sont vendu en magasin, par catalogue et par Internet. Il y a 5 ans de transaction, depuis le 1er janvier 2003. Nous somme aujourdhui le 1er janvier 2008.
20

Copyright 2010, SAS Institute Inc. All rights reserved.

Structure de lorganisation : (suite)


Les employs sont enregistrs dans la base de donnes selon cinq niveaux:
Pays Compagnie Dpartement Section Groupe

Les informations complmentaires sur les employs sont notamment:


Date dentre et de dpart de lemploy Date de dbut et de fin de contrat (pour certain contrat) Adresse Sexe Salaire Responsable hirarchique
Copyright 2010, SAS Institute Inc. All rights reserved.

21

Loffre
La socit Orion propose environ 5500 rfrences. Certains ne sont pas vendus dans tous les pays, dautres, de part les volumes commercialiss, refltent certaines particularits rgionales, certains sports nationaux. Tous les noms sont fictifs. Les produits sont organiss selon 4 niveaux:
Ligne de produit Catgorie de produit Groupe de produit Produit

Chaque produit a un cot et un prix de vente. Le systme informatique gre tous les prix en dollars. En utilisant les dates de dbut et de fin, ces prix varient en fonction du temps. Cet historique est sauvegard. Le systme gre aussi les remises pour certains produits, certaines priodes. Les prix sont gnralement uniques de part le monde.
Copyright 2010, SAS Institute Inc. All rights reserved.

22

Les clients

Les clients dOrion Star sont repartis travers le monde, notamment dans les pays o se trouvent des filiales, mais pas uniquement. Les noms et adresses sont fictifs, mme si les villes, rgions/comts et pays, sont rels. La base de donnes enregistre environ 90 000 clients, pas tous actifs. Ladresse des clients comprend tout ou partie des informations:
Rue Code postal Ville Rgion / dpartement / cont Etat Pays Continent

La gestion des adresses est contrle par des pointeurs (identifiant de colonnes), ce qui facilite le changement dadresse. Les clients sont classs dans des groupes en fonction de leur activit dachat.
Copyright 2010, SAS Institute Inc. All rights reserved.

23

Les commandes

La plupart des commandes de cette tude de cas sont pour des clients dtenteurs de la carte de fidlit Orion Star, clients pour lesquels les informations sont enregistres. Chaque commande pointe vers le commercial qui a enregistr la vente. Environ 980 000 commandes sont enregistres dans cette tude de cas, commandes qui refltent notamment les saisonnalits.
Chaque commande comprend une ou plusieurs lignes, une ligne par produit.
24
Copyright 2010, SAS Institute Inc. All rights reserved.

Schma relationnel normalis des donnes de production

25

Copyright 2010, SAS Institute Inc. All rights reserved.

Cahier des Charges !


Suite un audit interne, voici les principales questions recenses :
Quelle est la tendance des ventes :
Quels produits sont disponibles en stock ? O ? Quels sont les produits qui se vendent le mieux ? Y a-t-il une relation entre le temps, lespace et la vente de produit ? Qui a fait le plus de vente ?

Quels sont les produits en perte de vitesse :


Quels sont les produits les moins vendus? Est-ce que ces mauvaises ventes sont corrles lespace ou au temps? Quels sont les produits qui contribuent moins de 0.05% du CA pour un Pays/une anne donn(e)? Est-ce que ces produits peuvent tre remiss?
Copyright 2010, SAS Institute Inc. All rights reserved.

26

Cahier des Charges : (suite)


Marge
Quelle est la marge gnre par ce produit, ce groupe de produit, catgorie de produit et ligne de produit ?

Est-ce que la marge dpend de la quantit vendue ?

Remise
Est-ce que les remises font augmenter les ventes ? Est-ce que les remises font augmenter la marge ?

Clients
Quels groupes de clients sont identifis ? Quel client achte par quel canal ? Quels sont les clients les plus rentables ?

Fournisseur
Quel fournisseur me propose des produits rentables?
27

Copyright 2010, SAS Institute Inc. All rights reserved.

Mission :

Lobjectif de cette tude de cas est de prsenter un POC au comit de direction de la socit Orion, rpondant au cahier des charges et prsentant lintrt de lintgration dun systme dcisionnel dans cette socit.

28

Copyright 2010, SAS Institute Inc. All rights reserved.

lment de solution du cas Orion :

Copyright 2010 SAS Institute Inc. All rights reserved.

Supports Physiques Varis !


Relationnel normalis Relationnel d-normalis Fichiers plats Multidimensionnel Virtuel

Index Partition
Copyright 2010, SAS Institute Inc. All rights reserved.

30

Orion DW, DM ?

ETL
ODS

ETL
Star

ETL
Gold

ETL
Cube

IMS

DM
DW DM DM

IMS

Administration

31

Copyright 2010, SAS Institute Inc. All rights reserved.

32

Copyright 2010, SAS Institute Inc. All rights reserved.

OLAP

Copyright 2010 SAS Institute Inc. All rights reserved.

Structure multidimensionnelle
Base n-dimensions
Donnes Relationnelles
Produit Ecrous Ecrous Ecrous Vis Vis Vis Boulons Boulons Boulons Joints Joints Joints Ecrous Ecrous Ecrous Vis Vis Vis Boulons Boulons Boulons Joints Joints Joints Region Nord Sud Centre Nord Sud Centre Nord Sud Central Nord Sud Central Nord Sud Centre Nord Sud Centre Nord Sud Centre Nord Sud Centre Temps T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T1 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 T2 Ventes 100 70 50 80 70 40 50 40 10 40 40 30 90 70 40 90 60 35 45 45 20 30 35 30

Sud Centre Nord Ecrous Vis Boulons Joints T1 T2 T3 T4

Responsable Produits

Responsable Ventes

Responsable Financier 34

Copyright 2010, SAS Institute Inc. All rights reserved.

Structure multidimensionnelle
Quest-ce que la consolidation??

Le seul moyen dobtenir des temps de rponse performants consiste pr-calculer tous les totaux logiques

35

Copyright 2010, SAS Institute Inc. All rights reserved.

Structure multidimensionnelle
On Line Analytical Processing
Rolap

: Relational olap
olap

Multidimensional Hybrid

olap

36

Copyright 2010, SAS Institute Inc. All rights reserved.

Structure multidimensionnelle
Rolap

Repose sur une structure relationnelle,


Pas de structure de stockage ddie,

Calcul la vole des agrgats demands par l utilisateur.

Requtes SQL

37

Copyright 2010, SAS Institute Inc. All rights reserved.

Structure multidimensionnelle
Molap
Indicateur

Forme OLAP la plus pure Repose sur une structure multidimensionnelle.

accs direct

Accs immdiat lagrgat dsir.

38

Copyright 2010, SAS Institute Inc. All rights reserved.

MOLAP

ROLAP

HOLAP

Espace disque

Temps de rponse

Complexit

Complexit
39

Copyright 2010, SAS Institute Inc. All rights reserved.

Le march de la BI

Copyright 2010 SAS Institute Inc. All rights reserved.

41

Copyright 2010, SAS Institute Inc. All rights reserved.

42

Copyright 2010, SAS Institute Inc. All rights reserved.

43

Copyright 2010, SAS Institute Inc. All rights reserved.

44

Copyright 2010, SAS Institute Inc. All rights reserved.

45

Copyright 2010, SAS Institute Inc. All rights reserved.

Enterprise Marketing Management

Data Quality Tools

BI Platforms

Operational Risk Managmt Software for Financial Services : Leaders' Quadrant Enterprise Marketing Management : Visionaries Quadrant Data Quality Tools : Leaders' Quadrant CRM Multichannel Campaign Management : Leaders Quadrant Energy Trading and Risk Management Platforms : Visionaries Quadrant Marketing Resource Management : Visionaries' Quadrant Business Intelligence Platforms : Leaders' Quadrant Data Integration Tools : Visionaries' Quadrant
Copyright 2010, SAS Institute Inc. All rights reserved.

46

47

Copyright 2010, SAS Institute Inc. All rights reserved.

Total Cost of Ownership

Components of the Total Cost of Ownership are:


Software costs Hardware costs Manpower costs to deploy and maintain the solution Many companies based their investment decisions mainly based on the software acquisition costs This is only a minor component of the TCO

Manpower costs are by far more important and this is the focus of this presentation
48

Copyright 2010, SAS Institute Inc. All rights reserved.

TCO in over 5 years


10 000 000 9 000 000 8 000 000 7 000 000

TCO in

6 000 000 5 000 000 4 000 000 3 000 000 2 000 000 1 000 000 0
1 - 49 50 - 149 Ranges of users BO Cognos SAP BW SAS 150 - 499 Over 500

49

Copyright 2010, SAS Institute Inc. All rights reserved.

Le Data Mining avec Enterprise Miner

Copyright 2010 SAS Institute Inc. All rights reserved.

Dfinition
Les 2 familles de techniques de DM
Les techniques descriptives : segmentation ( clustering ) Recherche dassociations (squences) Algorithmes gntiques (SAS OR) Les techniques prdictives : rgression logistique arbres de dcision rseaux de neurones Raisonnement base de cas SVM Autres choses

Traitement de gros volumes et intgration du DM dans les processus de production


Copyright 2010, SAS Institute Inc. All rights reserved.

51

Les 10 tapes dun projet


Choix du sujet - Dfinition des objectifs Inventaire des donnes existantes

Collecte, nettoyage et mise en forme des donnes


Constitution de la base danalyse Mise en uvre des algorithmes (segmentation, scoring) Elaboration des modles

Validation et choix dun modle


Dclaration la CNIL Dploiement du modle Formation des utilisateurs Analyse des retours de laction et suivi des outils
Source http://data.mining.free.fr/
52

Copyright 2010, SAS Institute Inc. All rights reserved.

Segmentation RFM
Nombre de commandes Rcence T1 4 3 2 1

1111

T2
T3

1110 1101 1011 0111

1100 1010 1001 0110 0101 0011

1000

0100
0010 0001

T-4
53

Copyright 2010, SAS Institute Inc. All rights reserved.

Les donnes utilises en Data Mining

A partir des donnes oprationnelles :


O ( lieux gographiques, Internet, ) Quand ( Frquence, rcence, ) Comment ( mode de payement, ) Combien ( nombre de TE, ) Quoi ( Produit, )

54

Copyright 2010, SAS Institute Inc. All rights reserved.

Distribution du prnom Charlotte

http://www.meilleursprenoms.com
55

Copyright 2010, SAS Institute Inc. All rights reserved.

Multidisciplinary
Statistics Pattern Neurocomputing Recognition Machine Data Mining Learning

AI

Databases KDD
56

Copyright 2010, SAS Institute Inc. All rights reserved.

Required Expertise

Domain Data Analytical Methods

57

Copyright 2010, SAS Institute Inc. All rights reserved.

Predictive Modeling
Inputs
... ... ... ... ... ... ... ... ... ... Target

Cases . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . .
58

Copyright 2010, SAS Institute Inc. All rights reserved.

...

Overfitting
Training Set Test Set

19 e = 90 %

49 e = 75 %
Copyright 2010, SAS Institute Inc. All rights reserved.

59

Better Fitting
Training Set Test Set

34 e = 83%

43 e =78%
Copyright 2010, SAS Institute Inc. All rights reserved.

60

Model Complexity

Too flexible

Not flexible enough

61

Copyright 2010, SAS Institute Inc. All rights reserved.

Arbre de dcision

Copyright 2010 SAS Institute Inc. All rights reserved.

10 000
Condition A (Condition sparant au mieux Les individus de chaque classe)

4 000
Condition B

6 000
Condition C

3 000

1 000

1 000

5 000

Si A et B

Si A et non B

Si non A et C

Si non A et non C

63

Copyright 2010, SAS Institute Inc. All rights reserved.

The Right-Sized Tree


Stunting

Pruning

64

Copyright 2010, SAS Institute Inc. All rights reserved.

A Field Guide to Tree Algorithms

AID THAID CHAID


CART

ID3 C4.5 C5.0

65

Copyright 2010, SAS Institute Inc. All rights reserved.

Measurement:
unary - one value for example, a variable with a particular value that was used to create a data subset binary - two values for example, the variable MARITAL that contains No or Yes nominal - more than two non-numeric values, but no implied order for example, STATECOD that contains AK, AL, AR, AZ, etc. ordinal - more than two but not more than ten numeric values, with implied order for example, NUMCARS that contains values from 0 to 3

interval - more than ten numeric values for example, AMOUNT that contains many different dollar values

66

Copyright 2010, SAS Institute Inc. All rights reserved.

Missing Value Imputation


Inputs ? ? ? Cases ? ? ? ?

? ?
67
Copyright 2010, SAS Institute Inc. All rights reserved.

Rseau Neuronaux

Copyright 2010 SAS Institute Inc. All rights reserved.

Artificial Neural Networks


Neuron

Hidden Unit

69

Copyright 2010, SAS Institute Inc. All rights reserved.

Multilayer Perceptron
Hidden Layers
Input Layer Output Layer

Hidden Unit
70

Copyright 2010, SAS Institute Inc. All rights reserved.

INPUT

HIDDEN

OUTPUT

AGE

COMBINATION

ACTIVATION tanh(1+ 2AGE+ 3INC) =A

1+ 2AGE+ 3INC

INCOME
COMBINATION 4+ 5AGE+ 6INC ACTIVATION tanh(4+ 5AGE+ 6INC) =B COMBINATION 10+11A+ 12B+13C

COMBINATION 7+ 8AGE+ 9INC

ACTIVATION tanh(7+ 8AGE+ 9INC) =C


71

Copyright 2010, SAS Institute Inc. All rights reserved.

Activation Function

Input Layer

72

Copyright 2010, SAS Institute Inc. All rights reserved.

Universal Approximator
6+A-2B+3C

B
C
73

Copyright 2010, SAS Institute Inc. All rights reserved.

Association Rules
A B C
A CD B CD ADE

B C E

Rule AD CA AC B&CD

Support 2/5 2/5 2/5 1/5


Copyright 2010, SAS Institute Inc. All rights reserved.

Confidence 2/3 2/4 2/3 1/3


74