Vous êtes sur la page 1sur 31

Plan du cours

Bibliographie
SYSTEMES D’INFORMATION DÉCISIONNELS
Besoins liés aux SI décisionnels
Brique SIMAN Architecture générale des SI décisionnels

Focus sur les entrepôts de données

Georges Hébrail Focus sur la fouille de données (data mining)

Conclusion
TELECOM Paris

Année 2005-2006

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 2

Bibliographie (entrepôts de données) Bibliographie (fouille de données)

“Data Mining : gestion de la relation client, personnalisation de sites


“Entrepôts de données : guide pratique du concepteur de data web”, R.Lefébure, G.Venturini, Eyrolles 2001.
warehouse”, R.Kimball, International Thomson Publishing, 1997.
“Méthodes statistiques en gestion”, M.Tenenhaus, Dunod, 1996.
“Concevoir et déployer un data warehouse”, R.Kimball, L.Reeves,
“Bases de données et statistique”, A.Morin, P.Bosc, G.Hébrail,
M.Ross, W.Thornthwaite, Eyrolles, 2000.
L.Lebart, Dunod, 2002.
“Bases de données : objet et relationnel”, G.Gardarin, Eyrolles, 1999. “Data Mining, concepts and techniques”, J. Han, M.Kamber, 2001,
Morgan Kaufmann.
“ The Data Warehousing Information Center ”, L.Greenfield,
www.dwinfocenter.org “Statistique textuelle”, L.Lebart, A.Salem, Dunod, 1994.

http://www.kdnuggets.com

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 3 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 4


Plan du cours Besoins à l’origine des SI décisionnels

Contenu type du SI d’entreprise


Bibliographie
– Gestion de la production de l’entreprise (métier)
Besoins à l’origine des SI décisionnels – Gestion des stocks, des achats, des fournisseurs
– Gestion du personnel, comptabilité
Architecture générale des SI décisionnels
– Gestion des ventes, des clients
Focus sur les entrepôts de données
Besoins à l’origine des SI décisionnels
Focus sur la fouille de données (data mining)
– Pilotage de l’entreprise : ‘reporting’
Conclusion
• Sur la production, l’activité, le niveau des stocks, les achats
• Sur les ventes, les clients, les personnels
– Optimisation/automatisation de certaines activités

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 5 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 6

Besoins à l’origine des SI décisionnels (2) Plan du cours

Optimisation/automatisation de certaines activités : exemples

– Optimisation des stocks, de la production, de la logistique Bibliographie


– Contrôle qualité, diagnostic de panne Besoins liés aux SI décisionnels
– Octroi de crédits, risque client (banque, assurance)
– Détection de fraude (carte bancaire, télécoms) Architecture générale des SI décisionnels
– Marketing et gestion de la relation client (CRM)
Focus sur les entrepôts de données
– Analyse des ventes dans les grandes surfaces
Focus sur la fouille de données (data mining)
Utilisateurs de la partie décisionnelle du SI
Conclusion
– Direction de l’entreprise
– Responsables des différentes unités de l’entreprise
– Responsables marketing (stratégique et opérationnel)

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 7 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 8


Architecture générale des SI décisionnels Architecture générale des SI décisionnels (2)

Systèmes transactionnels Obstacles à l’analyse dans les systèmes transactionnels


Création, mise à jour des informations détaillées – Données actuelles, sans archive historique
Réservation de billets de train, d’avion
Mouvements sur les comptes bancaires
– Données seulement internes
Passages en caisse, mise à jour du stock dans les magasins – Sous-systèmes indépendants
Relevé de consommation d’électricité, de gaz, d’eau – Structure de données relationnelle normalisée
Edition d’une commande, d’une facture
• Adaptée à la mise à jour des données détaillées
Etablissement de la paie, suivi de parcours professionnel, …
(redondance minimum, intégrité des données, facilité de mise à jour)
• Inadaptée aux requêtes de ‘reporting’ (complexité, jointure, agrégats)
Transaction : ensemble d’opérations élémentaires de mise à jour des
informations, effectuées pour le compte d’un utilisateur.
Æ Nécessité d’une architecture dédiée pour la partie décisionnelle
Utilisateurs : agents d’exécution, de maîtrise

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 9 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 10

Architecture générale des SI décisionnels (3) Architecture générale des SI décisionnels (4)

Systèmes de gestion
Bases de données transactionnelles
Entrepôts de données Æ On Line Transactional Processing (OLTP)
Æ Bases de données transactionnelles
Alimentation
Nettoyage
Systèmes décisionnels
ÆOn Line Analytical Processing (OLAP)
Requêtes
Fusion Æ Entrepôts/magasins de données (data warehouse, data mart)
Æ Outils d’alimentation (extract, transform, load)
Æ Requêteurs (querying, reporting tools)
Saisie Æ Cubes de données (cf. OLAP)
Æ Fouille de données (data mining)
Données externes Data mining Analyse Olap

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 11 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 12


Plan du cours Focus sur les entrepôts de données

Objectif
Bibliographie

Besoins liés aux SI décisionnels Structuration des données en relationnel

Architecture générale des SI décisionnels • Principes de structuration


• L’alimentation des données
Focus sur les entrepôts de données • L’analyse par les requêtes

Focus sur la fouille de données (data mining) Structuration multi-dimensionnelle (OLAP)


Conclusion
• Le modèle de données multi-dimensionnel
• L’analyse multi-dimensionnelle (OLAP)
• Stockage d’un cube de données
• Conception d’un cube de données

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 13 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 14

Objectif des entrepôts de données Objectif des entrepôts de données (2)

Définition d’un entrepôt de données Stockage des données pour l’activité décisionnelle (machine distincte)

Quel contenu ?
« A data warehouse is a copy of transaction data specifically
– Intégration de différentes sources de données internes/externes
structured for querying and reporting. »
– Constitution d’historiques
(Kimball/Greenfield)
– Alimentation périodique des données

Difficultés

– Volumes importants : place, temps de réponse

– Homogénéisation des données, nettoyage

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 15 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 16


Objectif des entrepôts de données (3) Objectif des entrepôts de données (4)

Utilisation de l’entrepôt Distinction Entrepôt et Magasin de données


– En consultation seulement (pas de mise à jour) – Entrepôt (Data Warehouse) : généraliste
– Utilisateurs : analystes, responsables marketing, administratif, – Magasin (Data Mart) : avec un objectif précis
budget, RH, décideurs, …

Structuration
Trois types d’interaction
– Requêtes – Modèle de données relationnel

– Analyse multi-dimensionnelle (OLAP) – Modèle de données multi-dimensionnel

– Fouille de données (Data Mining)

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 17 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 18

Focus sur les entrepôts de données Structuration des entrepôts de données en relationnel

Objectif
L’entrepôt est une base de données relationnelle
Structuration des données en relationnel
Dénormalisation
• Principes de structuration On introduit de la redondance pour
• L’alimentation des données
• L’analyse par les requêtes • Faciliter la consultation

Structuration multi-dimensionnelle (OLAP) • Eviter de longues opérations de jointures

• Le modèle de données multi-dimensionnel


• L’analyse multi-dimensionnelle (OLAP) Æ tables plus larges (ex : table client, table produit, …)
• Stockage d’un cube de données
• Conception d’un cube de données

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 19 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 20


Structuration des entrepôts de données en relationnel (2) Structuration des entrepôts de données en relationnel (3)

DÉNORMALISATION
CLIENT VILLE
ID_CLIENT NOM ADRESSE CODE CODE VILLE
1 Dupont 25, Rue de Paris 92230 92230 Bagneux
2 Duval 12, Bd Jaurès 92230 75002 Paris
3 Vincent - 75002 78200 Vélizy
4 Firin 34, Rue Irun 78200

CLIENT
ID_CLIENT NOM ADRESSE CODE VILLE
1 Dupont 25, Rue de Paris 92230 Bagneux
2 Duval 12, Bd Jaurès 92230 Bagneux
3 Vincent - 75002 Paris
4 Firin 34, Rue Irun 78200 Vélizy

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 21 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 22

Structuration des entrepôts de données en relationnel (4) Focus sur les entrepôts de données

Objectif
Principaux constructeurs du marché
Structuration des données en relationnel
– ORACLE
– SYBASE • Principes de structuration
– IBM (DB2) • L’alimentation des données
– NCR (TERADATA) • L’analyse par les requêtes
– MICROSOFT (SQL Server)
Structuration multi-dimensionnelle (OLAP)
– …
• Le modèle de données multi-dimensionnel
• L’analyse multi-dimensionnelle (OLAP)
• Stockage d’un cube de données
• Conception d’un cube de données

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 23 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 24


L’alimentation des données L’alimentation des données (2)

Opérations à effectuer
Opérations à effectuer (suite)
1. Extraction des données depuis les systèmes de gestion

– Systèmes, machines différentes

– Utilisation du réseau informatique


3. Chargement de l’entrepôt et des magasins de données

2. Transformation des données • Chargements périodiques aux heures creuses

• Constitution des historiques • Automatisation de la planification


• Homogénéisation des nomenclatures des différentes sources • Suivi des exécutions des chargements
• Intégration de données externes

• Filtrage, agrégation, mise à la granularité

• Nettoyage, suppression d’erreurs

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 25 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 26

L’alimentation des données (3) L’alimentation des données : les ETL (4)
Solutions informatiques
– Développement de programmes ad’hoc
– Utilisation d’un logiciel ETL

Qu’est qu’un ETL ?


– Extract : Extraction des données
• de bases de données relationnelles
• de fichiers séquentiels
– Transform : Traitement des données
• transformations Définition des sources de données et des cibles (BDR, fichiers séquentiels, accès SQL, ODBC)
• filtrages Transformations, agrégations (éditeur graphique générant du SQL)
– Load : Chargement des données
Utilisation de tables pour modifier des nomenclatures
• vers des bases de données relationnelles
• vers des fichiers séquentiels Fusionner des données (éditeur graphique générant des jointures SQL)

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 27 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 28


L’alimentation des données : les ETL (5) Focus sur les entrepôts de données

Les ETL facilitent l’ensemble des opérations d’alimentation Objectif


– Éditeurs graphiques
– Gestion de l’exécution des programmes de chargement Structuration des données en relationnel
(parallélisme, reprise, rapports, …)
• Principes de structuration
– Constitution de méta-données sur l’alimentation
• L’alimentation des données
• L’analyse par les requêtes
Mais très chers !
Structuration multi-dimensionnelle (OLAP)
Principaux logiciels du marché
• Le modèle de données multi-dimensionnel
– Datastage (Ascential Software)
• L’analyse multi-dimensionnelle (OLAP)
– PowerCenter (Informatica) • Stockage d’un cube de données
– Suites décisionnelles • Conception d’un cube de données

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 29 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 30

L’analyse par les requêtes L’analyse par les requêtes (2)

Consultation de l’entrepôt de données relationnel

– Requêtes SQL avec éditeur graphique

– Possibilité d’agrégats (GROUP BY)

– Univers/requêtes préparés

– Restitutions sous forme :

• Tableaux
• Graphiques
• Sur fond de carte géographique

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 31 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 32


L’analyse par les requêtes (3) L’analyse par les requêtes (4)

Principaux constructeurs du marché

– Business Objects
– Brio
– Microstrategy
– Cognos (Impromptu)
– Hyperion
– SAS

Architectures informatiques

Volumétrie, temps de réponse

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 33 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 34

Focus sur les entrepôts de données Le modèle de données multi-dimensionnel

Objectif
Nouvelle structure de données
Structuration des données en relationnel
– Matrice à plusieurs dimensions
• Principes de structuration
– Permettra la production de tableaux croisés dynamiques
• L’alimentation des données
• L’analyse par les requêtes

Structuration multi-dimensionnelle (OLAP) Modèle de données récent en bases de données


• Le modèle de données multi-dimensionnel
• L’analyse multi-dimensionnelle (OLAP)
• Stockage d’un cube de données Synonymes : structure de cube, d’hypercube, OLAP
• Conception d’un cube de données

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 35 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 36


Le modèle de données multi-dimensionnel (2) Le modèle de données multi-dimensionnel (3)

Magasin

Exemple • Dimensions : ici Magasin, Produit, Temps

– Mais il peut y en avoir plus


Mai 2002
– Valeurs non numériques
Bagneux

Temps • Mesures : ici Effectif, CA

– Valeurs numériques
Baguette

– Doivent être additives


Nb vendus : 42
CA : 30 euros
Produit

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 37 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 38

Le modèle de données multi-dimensionnel (4) Focus sur les entrepôts de données

Objectif
Hiérarchies sur les dimensions
Structuration des données en relationnel
Ville Æ Département Æ Région Æ Pays
• Principes de structuration
• L’alimentation des données
Jour Æ Mois Æ Trimestre Æ Année • L’analyse par les requêtes

Structuration multi-dimensionnelle (OLAP)

• Le modèle de données multi-dimensionnel


• L’analyse multi-dimensionnelle (OLAP)
• Stockage d’un cube de données
• Conception d’un cube de données

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 39 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 40


L’analyse multi-dimensionnelle L’analyse multi-dimensionnelle (2)

Consultation des cubes de données

– Construction de tableaux croisés

• Préparés par un administrateur

• Choisis dynamiquement par l’utilisateur

Cf. les tableaux croisés dynamiques EXCEL

– Exploitation des hiérarchies des dimensions

– Bon temps de réponse assuré, même sur de gros volumes

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 41 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 42

L’analyse multi-dimensionnelle (3) L’analyse multi-dimensionnelle (4)

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 43 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 44


L’analyse multi-dimensionnelle (5) L’analyse multi-dimensionnelle (6)

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 45 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 46

L’analyse multi-dimensionnelle (7) L’analyse multi-dimensionnelle (8)

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 47 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 48


L’analyse multi-dimensionnelle (9) L’analyse multi-dimensionnelle (10)

Principales opérations sur un cube de données

– Roll up : résumer les données – (agrégation)


• En remontant une hiérarchie ou supprimant une dimension
– Drill down : augmenter les détails – (forage vers le bas)
• Opérations inverses
– Slicing : sélectionner une partie des données (sélection)
• Ex: année 2002 et bricolage
– Pivot (rotate) : pivoter le cube
• Pour faire apparaître la vue 2D souhaitée
– Drill through : retrouver les données de détail

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 49 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 50

Focus sur les entrepôts de données Stockage d’un cube de données

Objectif
Stockage d’un cube de données
Structuration des données en relationnel – MOLAP : Multi-dimensional OLAP
• Principes de structuration – ROLAP : Relational OLAP
• L’alimentation des données
– HOLAP : Hybrid OLAP
• L’analyse par les requêtes

Structuration multi-dimensionnelle (OLAP) ROLAP

• Le modèle de données multi-dimensionnel


– Schéma en étoile
• L’analyse multi-dimensionnelle (OLAP) – Schéma en flocon
• Stockage d’un cube de données
• Conception d’un cube de données – Schéma en constellation

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 51 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 52


Stockage d’un cube de données : schéma en étoile (2) Stockage d’un cube de données : schéma en étoile (3)
TEMPS Id_temps Jour Jour_semaine Mois Année
234 26/05/03 Lundi Mai 2003 2003 TEMPS MAGASIN
235 27/05/03 Mardi Mai 2003 2003 Id_temps Id_mag
… … … … … Jour Ville
Jour_semaine Dept
Mois VENTES Statut
VENTES Id_temps Id_mag Id_prod Quantité CA
Année Id_temps
234 324 546 12 36,43
Id_mag
234 324 77 5 456,44
Id_prod
… … … … …
Id_prom
PRODUIT
Quantité
PROMOTION Id_prod
MAGASIN Id_mag Ville Dept Statut PRODUIT Id_prod Nom Type Marque CA
Id_prom Nom
324 Bagneux 92 FR 546 Marteau Brico Facom
Libellé Type
123 Paris 12 75 NFR 547 Lait UHT Laitage Sunalp
Type Marque
… … … … … … … …

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 53 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 54

Stockage d’un cube de données (4) Stockage d’un cube de données (5)

Remplissage inégal des cases Principaux logiciels du marché

• Express (Oracle)
Consolidation
• Essbase (Hyperion)
– Pré-calcul d’agrégats
– Temps de réponse • Powerplay (Cognos)
• Intégration suites décisionnelles (SAS, BO, …)
Index pour accélérer les requêtes

Exemple EXCEL 2000

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 55 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 56


Stockage d’un cube de données (6) Stockage d’un cube de données (7)

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 57 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 58

Stockage d’un cube de données (8) Focus sur les entrepôts de données

Objectif

Structuration des données en relationnel

• Principes de structuration
• L’alimentation des données
• L’analyse par les requêtes

Structuration multi-dimensionnelle (OLAP)

• Le modèle de données multi-dimensionnel


• L’analyse multi-dimensionnelle (OLAP)
• Stockage d’un cube de données
• Conception d’un cube de données

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 59 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 60


Conception d’un cube de données Conception d’un cube de données (2)

Conception du schéma d’un modèle multi-dimensionnel Conception du schéma d’un modèle multi-dimensionnel (suite)

1. Définition du processus d’activité à modéliser (ventes,


commandes, factures, production, ...) 4. Choix des mesures

2. Définition du grain du cube (ex : mois, ville, produit) • Propriété d’additivité

3. Choix des dimensions • Mode d’agrégation (ici Somme)

– Définition des hiérarchies sur les dimensions 5. Estimation des volumes


• Temps : jour, mois, trimestre, année, … 6. Définition des agrégats pré-calculés (consolidation)
• Magasin : magasin, ville, département, région, …
7. Choix du mode d’implémentation (ROLAP, MOLAP, …)
• Produit : type de produit, marque, rayon, …

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 61 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 62

Plan du cours Plan du focus sur la fouille de données

Bibliographie Définition et applications du data mining


Besoins liés aux SI décisionnels Préparation des données
Architecture générale des SI décisionnels
Principales méthodes exploratoires
Focus sur les entrepôts de données
Principales méthodes décisionnelles
Focus sur la fouille de données (data mining)

Conclusion
Web mining

Mise en œuvre opérationnelle

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 63 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 64


Définition et applications du data mining Définition du data mining

Bases de données transactionnelles «Knowledge Discovery in Databases is the non-trivial


Entrepôts de données
process of identifying valid, novel, potentially useful, and
Alimentation ultimately understandable patterns in data.»
Nettoyage
La découverte de connaissances dans les bases de données
est le processus d’extraction non trivial permettant
Requêtes
Fusion d’identifier, par analyse de données, des propriétés
valides, nouvelles, utilisables et interprétables.

Saisie
“Advances in Knowledge Discovery and Data Mining”, Fayyad .M., Piatetsky-Shapiro G.,
Données externes Data mining Analyse Olap Smyth P., Uthurusamy R., (eds.), Menlo Park, California: AAAI Press, 1996.

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 65 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 66

Définition du data mining (2) Définition du data mining (3)

Knowledge Data Discovery (KDD) versus Data Mining Terme ‘Data Mining’ (fouille de données, orpaillage)
Processus non trivial
Data
(1) compréhension globale du projet
Valid
(2) compréhension des données

(3) préparation des données Novel


(4) modélisation (c’est la phase de data mining) Potentially useful
(5) évaluation des résultats
Ultimately understandable (qui est l’utilisateur ?)
(6) déploiement des résultats

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 67 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 68


Définition du data mining (4) Applications du data mining

Domaine financier et commercial

Octroi de crédits, risque client (banque, assurance)


Approche pluri-disciplinaire Détection de fraude (carte bancaire, télécoms)

– Intelligence artificielle (apprentissage) Marketing et gestion de la relation client (CRM)

Analyse des ventes dans les grandes surfaces


– Mathématiques (analyse statistique des données)
Domaine industriel

– Informatique (bases de données, visualisation) Contrôle qualité, diagnostic de panne

Biologie, Médecine, Génôme

Diagnostic médical, test/efficacité des médicaments, choix de traitement

Recherche de causes génétiques à des maladies et handicaps

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 69 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 70

Plan du focus sur la fouille de données Préparation des données

Notion de tableau de données


Définition et applications du data mining – Individus/variables, lignes/colonnes, n-uplets/attributs

– Type des variables


Préparation des données
• Identifiant
Principales méthodes exploratoires • Numérique (quantitative)

• Qualitative (nominale)
Principales méthodes décisionnelles
• Qualitative (nominale) ordonnée

Web mining
NO_CLI NOM DEPT REVENU SATISFACTION

Mise en œuvre opérationnelle 213 Dupont 75 45342 Très satisfait


325 Duval 94 34546 Insatisfait
… … … … …

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 71 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 72


Préparation des données (2) Plan du focus sur la fouille de données

Construction d’un tableau de données


Définition et applications du data mining
– À partir de l’entrepôt de données (gros volume)

– Requête SQL (une analyse ? analyse périodique ?) Préparation des données


– Intégration des données (plusieurs magasins, données externes cf. météo)
Principales méthodes exploratoires
– Transformation des données (agrégation, codage)

Nettoyage des données (data cleaning)


Principales méthodes décisionnelles

– Données manquantes (rejet, renseignement, estimation) Web mining


– Valeurs erronées, atypiques, bruitées
Mise en œuvre opérationnelle
– Réduction de dimension (sélection d’attributs, échantillonnage)

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 73 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 74

Principales méthodes exploratoires Statistique descriptive et visualisation


cylindree puissance vitesse poids longueur largeur
honda_civic 1396 90 174 850 369 166
renault_19 1721 92 180 965 415 169
Analyser un tableau de données pour comprendre fiat_tipo 1580 83 170 970 395 170
peugeot_405 1769 90 180 1080 440 169
renault_21 2068 88 180 1135 446 170
citroen_bx 1769 90 182 1060 424 168
bmw_530i 2986 188 226 1510 472 175
Statistique descriptive et visualisation rover_827i
renault_25
2675
2548
177
182
222 1365
226 1350
469
471
175
180
opel_omega 1998 122 190 1255 473 177
peugeot_405b 1905 125 194 1120 439 171
Analyse en composantes principales ford_sierra 1993 115 185 1190 451 172
bmw_325ix 2494 171 208 1300 432 164
audi_90_quattro 1994 160 214 1220 439 169
Classification automatique ford_scorpio 2933 150 200 1345 466 176
renault_espace 1995 120 177 1265 436 177
nissan_vanette 1952 87 144 1430 436 169
vw_caravelle 2109 112 149 1320 457 184
Recherche de règles d’associations ford_fiesta 1117 50 135 810 371 162
fiat_uno 1116 58 145 780 364 155
peugeot_205 1580 80 159 880 370 156
peugeot_205r 1294 103 189 805 370 157
seat_ibiza_s 1461 100 181 925 363 161
citroen_ax_s 1294 95 184 730 350 160

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 75 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 76


Statistique descriptive et visualisation (2) Statistique descriptive et visualisation (3)

Distribution des valeurs d’une variable (quantitatif, qualitatif)

Comptages, tendance centrale, dispersion

---------------------------------------------+----------------------+----------------------+----------------------
NUM . IDEN - LIBELLE EFFECTIF | MOYENNE ECART-TYPE | MINIMUM MAXIMUM | MIN.2 MAX.2
---------------------------------------------+----------------------+----------------------+----------------------
1 . CYL - CYLINDREE 24 | 1906.125 516.794 | 1116.000 2986.000 | 1117.000 2933.000
2 . PUIS - PUISSANCE 24 | 113.667 37.968 | 50.000 188.000 | 58.000 182.000
3 . VITE - VITESSE 24 | 183.083 24.685 | 135.000 226.000 | 144.000 222.000
4 . POID - POIDS 24 | 1110.833 225.442 | 730.000 1510.000 | 780.000 1430.000
5 . LONG - LONGUEUR 24 | 421.583 40.470 | 350.000 473.000 | 363.000 472.000
6 . LARG - LARGEUR 24 | 168.833 7.493 | 155.000 184.000 | 156.000 180.000
---------------------------------------------+----------------------+----------------------+----------------------

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 77 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 78

Statistique descriptive et visualisation (4) Statistique descriptive et visualisation (5)

Analyse bivariée
Boîtes à moustaches

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 79 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 80


Statistique descriptive et visualisation (6) Statistique descriptive et visualisation (7)

MATRICE DES CORRELATIONS

| CYL PUIS VITE POID LONG LARG


-----+------------------------------------------
CYL | 1.00
PUIS | 0.86 1.00
VITE | 0.69 0.89 1.00
POID | 0.90 0.75 0.49 1.00
LONG | 0.86 0.69 0.53 0.92 1.00
LARG | 0.71 0.55 0.36 0.79 0.86 1.00
-----+------------------------------------------
| CYL PUIS VITE POID LONG LARG

MATRICE DES VALEURS-TESTS


| CYL PUIS VITE POID LONG LARG
-----+------------------------------------------
CYL | 99.99
PUIS | 6.35 99.99
VITE | 4.19 7.06 99.99
POID | 7.34 4.72 2.64 99.99
LONG | 6.42 4.14 2.90 7.69 99.99
LARG | 4.34 3.05 1.86 5.26 6.41 99.99
-----+------------------------------------------
| CYL PUIS VITE POID LONG LARG

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 81 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 82

Principales méthodes exploratoires Analyse en composantes principales

Statistique descriptive et visualisation Principal Component Analysis (PCA)

Analyse en composantes principales Variables quantitatives

Classification automatique Réduction de dimension par exploitation des corrélations

Recherche de règles d’associations Représentation graphique (visualisation)

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 83 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 84


Analyse en composantes principales (2) Analyse en composantes principales (3)
cylindree puissance vitesse poids longueur largeur
honda_civic 1396 90 174 850 369 166
renault_19 1721 92 180 965 415 169
fiat_tipo 1580 83 170 970 395 170
peugeot_405 1769 90 180 1080 440 169
renault_21 2068 88 180 1135 446 170
citroen_bx 1769 90 182 1060 424 168
bmw_530i 2986 188 226 1510 472 175
rover_827i 2675 177 222 1365 469 175
renault_25 2548 182 226 1350 471 180
opel_omega 1998 122 190 1255 473 177
peugeot_405b 1905 125 194 1120 439 171
ford_sierra 1993 115 185 1190 451 172
bmw_325ix 2494 171 208 1300 432 164
audi_90_quattro 1994 160 214 1220 439 169
ford_scorpio 2933 150 200 1345 466 176
renault_espace 1995 120 177 1265 436 177
nissan_vanette 1952 87 144 1430 436 169
vw_caravelle 2109 112 149 1320 457 184
ford_fiesta 1117 50 135 810 371 162
fiat_uno 1116 58 145 780 364 155
peugeot_205 1580 80 159 880 370 156
peugeot_205r 1294 103 189 805 370 157
seat_ibiza_s 1461 100 181 925 363 161
citroen_ax_s 1294 95 184 730 350 160

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 85 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 86

Analyse en composantes principales (4) Analyse en composantes principales (5)

Interprétation des axes


Application : comportement des clients

– CA viandes

– CA légumes

– CA surgelés

– CA bricolage

– …

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 87 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 88


Principales méthodes exploratoires Classification automatique

Statistique descriptive et visualisation Clustering

Analyse en composantes principales Réduction du nombre d’individus

Classification automatique Partitionnement direct (variables numériques)

Recherche de règles d’associations Classification hiérarchique (tableau de distance)

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 89 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 90

Classification automatique (2) Classification automatique (3)

Construction d’un tableau de distance entre individus


Partitionnement par les centres mobiles 1.44 1.06 2.16 2.64 1.81 5.96 5.17 5.37 3.72 2.65 2.93 4.09 3.56 4.88 3.14 3.41 4.17
0 0.73 0.79 1.25 0.50 4.83 4.02 4.23 2.38 1.42 1.59 3.20 2.59 3.64 1.96 2.57 3.09
0 0 1.32 1.75 1.05 5.36 4.58 4.76 2.86 2.01 2.11 3.73 3.15 4.15 2.25 2.56 3.19
0 0 0 0.64 0.42 4.44 3.66 3.89 1.83 1.13 1.04 2.98 2.37 3.23 1.59 2.12 2.71
0 0 0 0 0.88 4.06 3.33 3.60 1.57 1.17 0.82 2.78 2.34 2.75 1.39 1.95 2.44
Classe:1 Classe:2 Classe:3 0 0 0 0 0 4.55 3.78 4.02 2.12 1.21 1.28 2.95 2.38 3.38 1.76 2.25 2.95
renault_19 honda_civic bmw_530i 0 0 0 0 0 0 0.92 1.27 3.12 3.50 3.47 2.32 2.67 1.61 3.51 4.76 4.26
fiat_tipo ford_fiesta rover_827i 0 0 0 0 0 0 0 0.73 2.36 2.66 2.70 1.84 1.87 1.23 2.81 4.26 3.72
peugeot_405 fiat_uno renault_25 0 0 0 0 0 0 0 0 2.42 2.87 2.92 2.43 2.15 1.60 2.90 4.56 3.70
renault_21 peugeot_205 bmw_325ix 0 0 0 0 0 0 0 0 0 1.30 0.92 2.63 1.91 2.00 1.04 2.57 1.95
0 0 0 0 0 0 0 0 0 0 0.64 2.11 1.31 2.46 1.23 2.60 2.70
citroen_bx peugeot_205r audi_90_quattro 0 0 0 0 0 0 0 0 0 0 0 2.31 1.71 2.28 0.88 2.13 2.21
opel_omega seat_ibiza_s ford_scorpio 0 0 0 0 0 0 0 0 0 0 0 0 1.27 2.06 2.66 3.60 3.94
peugeot_405b citroen_ax_s 0 0 0 0 0 0 0 0 0 0 0 0 0 2.26 2.09 3.48 3.53
ford_sierra 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2.29 3.54 2.94
renault_espace 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2.01 1.57
nissan_vanette 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 2.21
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
vw_caravelle 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 91 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 92


Classification automatique (4) Classification automatique (5)

Classification hiérarchique COUPURE DE L’ARBRE EN 3 CLASSES


CLASSE 1/ 3
EFFECTIF: 7
peugeot_205 seat_ibiza_s
honda_civic citroen_ax_s
peugeot_205r fiat_uno
ford_fiesta

CLASSE 2/ 3
EFFECTIF: 11
ford_sierra renault_21
peugeot_405 renault_espace
citroen_bx peugeot_405b
renault_19 opel_omega
fiat_tipo nissan_vanette

CLASSE 3/ 3
EFFECTIF: 6
rover_827i renault_25
ford_scorpio bmw_530i
bmw_325ix audi_90_quattro

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 93 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 94

Classification automatique (6) Principales méthodes exploratoires

Caractérisation/description des classes


CARACTERISATION PAR LES CONTINUES DES CLASSES OU MODALITES
DE COUPURE 'a' DE L'ARBRE EN 3 CLASSES
CLASSE 1 / 3
Statistique descriptive et visualisation
+--------+-------+-------------------+-------------------+-----------------------------------------------------------------------+
| V.TEST | PROBA | MOYENNES | ECARTS TYPES | VARIABLES CARACTERISTIQUES |
| | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE IDEN |
+--------+-------+-------------------+-------------------+-----------------------------------------------------------------------+
| CLASSE 1 / 3 ( POIDS = 7.00 EFFECTIF = 7 ) aa1a |
Analyse en composantes principales
| |
| | | | | |
| -2.04 | 0.021 | 166.71 183.08 | 19.23 24.68 | 3.VITESSE VITE |
| -2.54 | 0.005 |

| -3.80 | 0.000 |
82.29

159.57
113.67 |
| -3.47 | 0.000 | 1322.57 1906.12 |
168.83 |
19.28
159.19
3.58
37.97 |
516.79 |
7.49 |
2.PUISSANCE
1.CYLINDREE
6.LARGEUR
PUIS |
CYL |
LARG |
Classification automatique
| -3.89 | 0.000 | 825.71 1110.83 | 60.14 225.44 | 4.POIDS POID |
| -4.28 | 0.000 | 365.29 421.58 | 6.88 40.47 | 5.LONGUEUR LONG |
+--------+-------+-------------------+-------------------+-----------------------------------------------------------------------+
CLASSE 2 / 3
+--------+-------+-------------------+-------------------+-----------------------------------------------------------------------+
Recherche de règles d’associations
| V.TEST | PROBA | MOYENNES | ECARTS TYPES | VARIABLES CARACTERISTIQUES |
| | | CLASSE GENERALE | CLASSE GENERAL | NUM.LIBELLE IDEN |
+--------+-------+-------------------+-------------------+-----------------------------------------------------------------------+
| CLASSE 2 / 3 ( POIDS = 11.00 EFFECTIF = 11 ) aa2a |
| |
| 2.08 | 0.019 | 172.36 168.83 | 4.72 7.49 | 6.LARGEUR LARG |
| 1.73 | 0.042 | 437.45 421.58 | 20.01 40.47 | 5.LONGUEUR LONG |
| 1.02 | 0.155 | 1162.73 1110.83 | 138.86 225.44 | 4.POIDS POID |
| | | | | |
| -0.08 | 0.466 | 1896.27 1906.12 | 156.82 516.79 | 1.CYLINDREE CYL |
| -1.33 | 0.091 | 102.18 113.67 | 15.64 37.97 | 2.PUISSANCE PUIS |
| -1.35 | 0.089 | 175.55 183.08 | 14.99 24.68 | 3.VITESSE VITE |
+--------+-------+-------------------+-------------------+-----------------------------------------------------------------------+

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 95 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 96


Recherche de règles d’association Recherche de règles d’association (2)

Analyse des tickets de caisse En sortie : des règles d’association


(basket analysis) Si un client achète du pain et des bonbons, Alors il achète aussi une poupée

Support : 5% de transactions où il y a ‘pain’, ‘bonbons’, et ‘poupée’

Confiance :
Données en entrée 40% de transactions avec ‘poupée’ parmi celles ‘pain’ et ‘bonbons’

– Ensemble de ‘transactions’
Possibilité de plusieurs items à gauche et à droite de la règle

Autres critères d’évaluation (lift)

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 97 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 98

Recherche de règles d’association (3) Plan du focus sur la fouille de données

Définition et applications du data mining

Préparation des données

Principales méthodes exploratoires

Principales méthodes décisionnelles

Web mining

Mise en œuvre opérationnelle

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 99 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 100


Principales méthodes décisionnelles Régression simple et multiple

Analyser un tableau de données pour décider


Prédire une valeur numérique en utilisant un tableau de données
– A partir d’une variable numérique (régression simple)
Régression simple et multiple
– A partir de plusieurs variables numériques (régression multiple)
Discrimination
– Prise en compte de variables non numériques
– Arbres de décision (régression sur indicatrices)

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 101 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 102

Régression simple Régression simple (2)

REGRESSION SUR 28 APPARTEMENTS Prix = 26,77 * Surface – 147,33


surface prixkf yprevu inf sup residu studentise
censier 1 28 650 602 -704 1909 48 0.081
constrescarpe 2 50 1400 1191 -102 2484 209 0.348
stsimon 3 106 3250 2690 1400 3980 560 0.931
rapp 4 196 4000 5099 3725 6473 -1099 -1.977
standre 5 55 1340 1325 34 2616 15 0.025
5equais 6 190 3950 4938 3573 6303 -988 -1.762
gobelins 7 110 2500 2797 1506 4088 -297 -0.494
gobelins2 8 60 1600 1459 169 2748 141 0.235
censier2 9 48 1250 1137 -157 2432 113 0.188
pantheon2 10 35 1250 789 -512 2091 461 0.773
madame 11 86 1750 2155 869 3441 -405 -0.670
….
mazarine 22 52 1000 1244 -48 2537 -244 -0.407
censier3 23 80 1350 1994 708 3280 -644 -1.067
assaslux 24 60 1475 1459 169 2748 16 0.027
observatoire 25 140 4950 3600 2291 4909 1350 2.282
savoie 26 20 425 388 -925 1701 37 0.063
luxembourg 27 100 2475 2529 1241 3817 -54 -0.090
gobelins3 28 28 425 602 -704 1909 -177 -0.299

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 103 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 104
Régression simple (3) Régression multiple et sur variables indicatrices

Extension à plusieurs prédicteurs et au type non numérique


Résolution d’un système linéaire à 2 inconnues

Attention :

– Ne s’utilise pas les yeux fermés (indicateurs)

– Intervalle de confiance de prédiction

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 105 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 106

Régression multiple et sur variables indicatrices (2) Principales méthodes décisionnelles

Résolution d’un système d’équations linéaires


Régression simple et multiple
Attention à la validité !
Discrimination
Exemples d’applications
– Arbres de décision
– Prédiction d’une valeur client (banque)

– Prédiction d’une consommation

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 107 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 108
Discrimination Principales méthodes décisionnelles

Prédiction d’une valeur non numérique


– Enrichissement de bases de données
Régression simple et multiple
– Décision d’octroyer un prêt (credit scoring)
Discrimination
– Fraude à la carte bancaire
– Arbres de décision
Très nombreuses méthodes, les plus populaires :
– Arbres de décision

– Réseaux de neurones

– Régression logistique

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 109 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 110

Arbres de décision Arbres de décision (2)

Exemple des vins de Bordeaux


Prédicteurs de type hétérogène
Annee Temper Insol Chaleur Pluie Qualite
1924 3064 1201 10 361 moyen
Possibilité de prédire une valeur numérique 1925 3000 1053 11 338 mediocre
(arbres de régression) 1926 3155 1133 19 393 moyen
1927 3085 970 4 467 mediocre
Résultat interprétable sous forme de règles 1928 3245 1258 36 294 bon
1929 3267 1386 35 225 bon
1930 3080 966 13 417 mediocre
1931 2974 1189 12 488 mediocre
1932 3038 1103 14 677 mediocre
… … … … … …

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 111 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 112
Arbres de décision (3) Arbres de décision (4)

Evaluation des résultats (méthodologie d’apprentissage)

– Evaluation empirique de la performance

• Nb de bien classés

• Prise en compte de coûts de mauvais classement

– Echantillon d’apprentissage

– Echantillon de test

– Eviter l’apprentissage par cœur (cf. élagage)

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 113 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 114

Plan du focus sur la fouille de données Web mining

Web usage mining


Définition et applications du data mining
– Analyse de la fréquentation des sites par les données de log
Préparation des données – Analyse de toute l’activité d’un internaute (multi-sites)
– Clickstream analysis, log analysis
Principales méthodes exploratoires
– Maintenance du site versus Centres d’intérêt des internautes
Principales méthodes décisionnelles Text mining
Web mining – Recherche d’information, synthèse d’information
– Classement de documents (categorization)
Mise en œuvre opérationnelle
– Pré-traitement d’extraction de termes (linguistique)

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 115 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 116
Plan du focus sur la fouille de données Mise en œuvre opérationnelle

Logiciels de Data Mining


Définition et applications du data mining
– http://www.kdnuggets.com
Préparation des données
– Suites (tout le processus, multi-méthodes) :
Principales méthodes exploratoires • SAS Enterprise Miner

Principales méthodes décisionnelles • IBM Intelligent Miner

Web mining • SPSS Clementine

– Logiciels mono-méthode
Mise en œuvre opérationnelle (ex. Alice Isoft, SPSS AnswerTree)

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 117 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 118

Mise en œuvre opérationnelle (2) Plan du cours

Processus de Data Mining : projet Bibliographie


(1) compréhension globale du projet
(2) compréhension des données Besoins liés aux SI décisionnels
(3) préparation des données
(4) modélisation (c’est la phase de data mining) Architecture générale des SI décisionnels
(5) évaluation des résultats
(6) déploiement des résultats Focus sur les entrepôts de données

Focus sur la fouille de données (data mining)


Compétences nécessaires
Conclusion
– Utilisateur final décideur
– Chef de projet
– Spécialiste bases de données
– Spécialiste statisticien/fouille de données

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 119 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 120
Conclusion Conclusion (2)

A retenir Le projet décisionnel


– À mener comme un véritable projet
– L’architecture globale du SI d’entreprise – Évaluer les gains et les coûts
découplage transactionnel et décisionnel – Ne pas céder à la pression commerciale
– L’entrepôt de données relationnel
Les applications à la mode
historisation et intégration de données (ETL)
– CRM ou GRC (gestion de la relation client)
dénormalisation
– Analyse du comportement des internautes
– Le modèle de données multi-dimensionnel
consultation de cubes de données Mais aussi :
– Les méthodes de fouille de données (data mining) – Pilotage de la production
l’approche exploratoire – Pilotage des RH
l’approche décisionnelle – …

G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 121 G.Hébrail - SI Décisionnels – 6 et 7 Juin 2006 122