Vous êtes sur la page 1sur 30

Auteur : Marie Fesneau, Fabien Ducher (Stagiaires lEISTI)

Date : Avril 2002

Linformatique dcisionnelle

.I CHAINE DECISIONNELLE...............................................................................................................................................................................................4
.I.1 Schma Complet de la chane......................................................................................................................................................................................4
.I.2 Phase de MODELISATION :......................................................................................................................................................................................6
.I.2.1 Schma..................................................................................................................................................................................................................6
.I.2.2 1re tape : Interviews utilisateurs / Cerner les besoins utilisateurs....................................................................................................................7
Avant linterview : ...................................................................................................................................................................................................7
Pendant linterview...................................................................................................................................................................................................7
Aprs linterview.......................................................................................................................................................................................................8
.I.2.3 2me tape : Modlisation du DataWareHouse...................................................................................................................................................8
Types dobjets : ........................................................................................................................................................................................................9
.I.2.4 3me tape : Constitution des Data Mart...........................................................................................................................................................10
.I.2.5 Avantages des DataWareHouses........................................................................................................................................................................10
.I.2.6 Les Outils :..........................................................................................................................................................................................................11
.I.3 Phase dALIMENTATION.......................................................................................................................................................................................12
.I.3.1 Schma................................................................................................................................................................................................................12
.I.3.2 Sources de donnes :...........................................................................................................................................................................................12
.I.3.3 Alimentation ETL :..........................................................................................................................................................................................12
.I.3.4 Problmes rencontrs :........................................................................................................................................................................................13
.I.3.5 Les outils :...........................................................................................................................................................................................................13
.I.4 Phase de RESTITUTION et de PILOTAGE.............................................................................................................................................................16
.I.4.1 Schma................................................................................................................................................................................................................16
.I.4.2 Moyens de restitution.........................................................................................................................................................................................16
.I.4.3 Moyens de pilotage.............................................................................................................................................................................................19
.I.4.4 Les Outils............................................................................................................................................................................................................21
Requteur :..............................................................................................................................................................................................................21
Pilotage :..................................................................................................................................................................................................................21
Pilotage :..................................................................................................................................................................................................................22
.I.5 Phase dANALYSE :.................................................................................................................................................................................................23
.I.5.1 Schma................................................................................................................................................................................................................23
.I.5.2 Principe gnral du Data Mining :......................................................................................................................................................................23
Page 2

Avril 2002

Linformatique dcisionnelle

.I.5.3 A quoi sert le Data Mining ?..............................................................................................................................................................................24


.I.5.4 Les tches du datamining...................................................................................................................................................................................24
La classification......................................................................................................................................................................................................24
Lestimation............................................................................................................................................................................................................25
La prdiction...........................................................................................................................................................................................................25
Le groupement par similitude.................................................................................................................................................................................26
Lanalyse des clusters.............................................................................................................................................................................................26
La description..........................................................................................................................................................................................................26
.I.5.5 Mthodes du datamining....................................................................................................................................................................................26
Infrences statistiques :...........................................................................................................................................................................................26
Analyse de donnes :...............................................................................................................................................................................................27
Panier de la mnagre :...........................................................................................................................................................................................27
Raisonnement bas sur la mmoire RBM :.........................................................................................................................................................27
Dtection de clusters :.............................................................................................................................................................................................28
Arbre de Dcision :.................................................................................................................................................................................................28
Rseau de Neurones :..............................................................................................................................................................................................28
.I.5.6 Tableau des appariements des techniques aux tches........................................................................................................................................30
.I.5.7 Les outils.............................................................................................................................................................................................................30

Page 3

Avril 2002

Linformatique dcisionnelle

.I
.I.1

CHAINE DECISIONNELLE
Schma Complet de la chane
Sources de Donnes

Outil
dalimentation

Entrepts de donnes

Bases ddies

DM

ORACLE
Bases de donnes

DWH

DataMart

Outils de
Restitution,
de pilotage
et danalyse

Requteur
Pilotage

Extract

SYBASE

DataWareHouse

DM

Transform
Load

Cubes

Phase de Restitution

Data Mining

Cube

Excel

Phase dAnalyse

Phase dAlimentation

Phase de Modlisation

Page 4

Avril 2002

Linformatique dcisionnelle

La chane dcisionnelle est compose de plusieurs parties :


Alimentation du DataWareHouse,
DataWareHouse,
Restitution des donnes : Pilotage ou Requtage,
Analyse des Donnes.
Le DataWareHouse est le centre de la chane dcisionnelle. Les utilisateurs nauront accs quaux outils de requtage, de pilotage et/ou danalyse.
Toute la partie alimentation et celle de restitution des donnes sont gres par une quipe informatique, interne ou externe lentreprise, spcialise en
gestion de base de donnes et en dcisionnel.

Gestion de Projet :
Il ny a pas deux projets dcisionnels identiques car les entreprises ont des besoins, des demandes, des structures informatiques diffrents. Pour chaque
projet dcisionnel, on ne doit pas ncessairement mettre en place toutes les parties de la chane. On pourra avoir mettre en place simplement un outil
de requtage ou de pilotage, sans concevoir un DataWareHouse ( car les sources de lentreprise sont bien structures), ou restructurer les sources en
crant un DataWareHouse. Les sujets sont multiples et distincts.
Si on a toute la chane concevoir, on commencera par la phase de modlisation du DataWareHouse. Par la suite, on peut raliser lAlimentation ou les
phases de Restitution et dAnalyse de Donnes. Mais il faut imprativement entamer son projet par la phase de Modlisation qui entraine la
agencement des deux autres.

Page 5

Avril 2002

Linformatique dcisionnelle

.I.2

Phase de MODELISATION :

.I.2.1 Schma
Requteur
Pilotage

DM

ORACLE
DWH

Bases de donnes
SYBASE

Extract

DataMart

DataWareHouse

DM
Data Mining

Transform
Load

Cubes
Cube

Excel

Phase de Modlisation
Page 6

Avril 2002

Linformatique dcisionnelle

Dfinition : Un DataWareHouse est une collection de donnes thmatiques, intgres ( au niveau qui intresse les utilisateurs), non volatiles (on ne
peut pas les modifier) et histories (on garde un historique des donnes) pour la prise de dcision.
Le DataWareHouse est lentrept de donnes qui va permettre la mise en place dun systme de Reporting et dAnalyse. Il ne contient donc que les
donnes tudier. Il faut procder par tape pour mettre en place correctement le DataWareHouse.
.I.2.2 1re tape : Interviews utilisateurs / Cerner les besoins utilisateurs
Le DataWareHouse est au centre de la chane dcisionnelle, il faut donc le concevoir avec prcaution. Une phase pralable dinterviews
auprs des utilisateurs est ncessaire, mme si un cahier des charges a t rdig, afin de mettre en vidence les donnes qui leur sont
vraiment utiles.
On rencontre 3 types dutilisateurs :
ceux qui ne veulent pas un systme trop compliqu : il faut les conseiller donc connatre leur langage mtier
ceux qui veulent un systme trop compliqu : il faut les freiner
ceux qui connaissent le domaine du dcisionnel avec qui il est facile de communiquer.
Dans tous les cas, comprendre le langage mtier de son interlocuteur est essentiel.

Avant linterview :
Lors dune interview utilisateur, il faut arriver :
avec les tableaux de bords prdfinis dans le cahier des charges
en connaissant le mtier et le quotidien de lutilisateur
avec de nouveaux tableaux de bord susceptibles dintresser lutilisateur ou qui permettront de lancer dautres ides ( regrouper
tel et tel tableau, ).

Pendant linterview
Pendant lentretien, il faut poser des questions ouvertes pour laisser lutilisateur parler le plus possible et rcolter un maximum
dinformations. De plus, pour tout indicateur, il faut expliciter le calcul car parfois un mme nom dindicateur peut correspondre plusieurs
formules ( par exemple, diffrents Chiffres dAffaires selon les services ).

Page 7

Avril 2002

Linformatique dcisionnelle

On peut tre amener auditer dans diffrents services, on doit alors grer les demandes contradictoires, les donnes qui se recoupent pour
structurer au mieux le DataWareHouse.

Aprs linterview
Une fois les divers entretiens achevs, on doit rassembler les besoins et les analyser afin de conserver les donnes utiles au systme
dcisionnel mettre en place.

.I.2.3 2me tape : Modlisation du DataWareHouse


Aprs, les interviews auprs des utilisateurs, les donnes ncessaires sont connues. Il faut les organiser de manire obtenir des modles, de
type toile ou double toile ( cf. PARTIE III ) afin de pouvoir y accder facilement. On dfinit les objets que lutilisateur va pourvoir utiliser
pour crer ses requtes et ses tableaux.
BusinessObjects :
On dfinit les diffrentes classes qui composent un univers. Souvent on retrouve une classe gographique, une temporelle, une ou plusieurs
concernant certains postes particuliers de lentreprise. Il y a quasiment tout le temps une classe contenant les indicateurs. On trouve environ
une bonne dizaine de classes dans un univers. Par ncessit de clart et de fonctionnalit, on trouve rarement plus de 30 classes dans un
univers.
De plus, on met en place les cubes, systmes de modlisation des donnes multidimensionnel pour pouvoir grer les agrgats. On dfinit les
axes danalyse qui peuvent tre, entre autre, laxe temporel
(anne, trimestre, mois, semaine), laxe gographique (continent, pays, rgion,
Axe Gographique
dpartement, ville), et les indicateurs. Lanalyse multidimensionnelle permet d'tudier les indicateurs,Anne
comme le chiffre daffaire ou la
marge, en fonction des diffrents axes. Lavantage de ce systme est quon peut passer dun niveau un niveau plus dtaill : du chiffre
daffaire par pays au chiffre daffaire par rgion.
Trimestre
Remarque : souvent le DataWareHouse se compose comme suit : une ou plusieurs tables de faits ( table qui contient les indicateurs) au
centre do partent les diffrents axes danalyse.
Mois
Faits
Pour plus de dtails et dexemples sur les DataWareHouse et les cubes, voir la PARTIE III.
Rgion
Ville
Page 8
Autre Axe

Pays
Avril 2002

Axe Temporel

Linformatique dcisionnelle

Types dobjets :
Objet dimension : Ils reprsente le plus souvent une entit de la base de donne ou un objet date .
Objet information : Ce sont des dtails sur les objets dimension auxquels ils sont rattachs.
Objet indicateur : ils restituent des donnes numriques, ce sont des oprations de comptage ou de moyenne sur des donnes de la base.

Page 9

Avril 2002

Linformatique dcisionnelle

.I.2.4 3me tape : Constitution des Data Mart


Une fois le DataWareHouse cr, on peut mettre en place un systme de Reporting et dAnalyse pour diffrents services : un pour le service
Financier, un pour le service Marketing, un pour le service Client, On va construire alors par service un mini DataWareHouse qui
contiendra uniquement les donnes utilises au sein du service ( on ne garde que les tables ncessaires ). Ce mini DataWareHouse est
appel DataMart qui donne une vision dpartementale ou mtier des donnes. On le construit de la mme faon quon met en place un
DataWareHouse, cest--dire quun DataMart se compose de plusieurs tables organises le plus simplement possible. On retrouvera une ou
plusieurs tables de faits au centre do partent diffrents axes danalyse.
.I.2.5 Avantages des DataWareHouses
Les DataWareHouse permettent une vision mtier transversale.
Lavantage majeur est quils sont volutifs, cest dire quon peut inclure de nouvelles sources de donnes, ajouter de nouveaux indicateurs,
modifier la volumtrie tout en conservant une visibilit claire et prcise. De plus, ils nous permettent davoir une vision historise dans le
temps.
La conception dun DataWareHouse dbouche naturellement vers une approche multidimensionnelle, donc sur la mise en place de cube qui
va plus loin, encore, dans lanalyse des donnes.
Pour finir, cela permet que les donnes restitues soient :
normalises
de meilleure qualit
homognes.

Page 10

Avril 2002

Linformatique dcisionnelle

.I.2.6 Les Outils :


BusinessObjects le Module Designer permet la cration dun univers ( dun modle ) manuellement ou partir de tables de
diffrentes bases de donnes.
Cognos Module PowerPlay Transformer est un outil de modlisation qui sert construire des modles multidimensionnels partir de
sources de donnes.
Cognos Module PowerCube
Informatica Module PowerCenter
permet la cration dun modle manuellement ou partir de diffrentes tables : on cre et alimente
les diffrentes tables qui composent le DataWareHouse.
SAS Module DataWareHouse Administrator permet la cration dun modle manuellement ou partir de diffrentes tables: on cre et
alimente les diffrentes tables qui composent le DataWareHouse.

Page 11

Avril 2002

Linformatique dcisionnelle

.I.3

Phase dALIMENTATION
Requteur
Pilotage

.I.3.1 Schma
Cette partie de la chane dcisionnelle concerne lalimentation du DataWareHouse cr dans la phase de MODELISATION.

.I.3.2ORACLE
Sources de donnes :
Le DataWareHouse est compos de diffrentes tables quil va falloir remplir. Dans une entreprise, les informations peuvent tre stockes
sous diffrentes formes : dans une base de donnes, dans
un fichier, dans un tableau, etc. Ils existent
plus de 90 sources diffrentes possibles
DWH
DataMart
Bases pour
de donnes
alimenter un DataWareHouse.
DataWareHouse
DM
.I.3.3 SYBASE
Alimentation ETL : Extract
Pour alimenter le DataWareHouse, on utilise un ETL ( Extract, Transform and Load ), outil bas sur le principe de mtabases.
Il Mining
dcrit les
Data
donnes, leur provenance
et les transformations effectues. Il permet dagrger, de classifier, de normaliser, de qualifier, de nettoyer et de
Transform
consolider les donnes extraites. De plus, les concepteurs doivent mettre en place une stratgie de mise jour pour lhistorisation et prvoir
la volumtrie. Lalimentation peut tre en batch ou file de leau. Les ETL peuvent tre intgrs aux outils de modlisations ou de restitution.
Load
Cubes
Les ETL peuvent se concevoir de 2 manires :
manuellement : en lanant des scripts ( PL/SQL, ) Cube
Excel avec des logiciels ( qui sont chers : ~100kF ) cf. paragraphe suivant.
Le chargement des donnes correspond 60-70 % du projet : analyser dcrire expliquer exposer
Identifier les sources
O ? Mainframe, fichiers, SGBDR, ERP, Internet,
Comment ? Rseau local, WAN, transferts des fichiers.
Quand ? Cohrence, normalisation.
Construire
le
rfrentiel
Phase dAlimentation
Dfinir la frquence des chargements
Dcrire le niveau dhistorisation
Page 12

Avril 2002

Linformatique dcisionnelle

Expliquer la volumtrie
Analyser la qualit des donnes
Exposer la complexit des transformations
Considrer la reprise des donnes
Grer les rejets
Mettre en place les sauvegardes/restaurations

.I.3.4 Problmes rencontrs :


Souvent peu dentreprises ont des logiciels qui permettent la cration dETL, car ce sont des outils coteux. Il faut souvent raliser
lalimentation la main.
La frquence de mise jour du DataWareHouse ( quotidiennement, hebdomadairement, mensuellement, ) peut influencer sa
structure. De plus, une volumtrie des flux trop importante peut entraner un problme dexploitation.
En concevant le modle du DataWareHouse, il faut penser la volumtrie des sources de donnes et la frquence de mise jour.
Faire attention aux environnements trop mouvants, cest dire aux mises jour trop frquentes : il faut le prvoir dans lETL.
Synchroniser lalimentation des diffrents Data Mart qui composent son outil dcisionnel sinon on peut obtenir des rapports dans la
phase de RESTITUTION fausss.
Sassurer que les diffrentes mta bases soient cohrentes.
.I.3.5 Les outils :
Eti * Extract : pour de grandes bases de donnes ( grande distribution )
INFORMATICA Module PowerCenter permet la cration dun modle quon alimente en dcrivant les diffrents flux partir de
diffrentes sources de donnes.
SAGENT Module Sagent
HUMMINGBIND Module Gnio : plutt dans le domaine pharmaceutique.
INFORMIX Module DataStage

Page 13

Avril 2002

Linformatique dcisionnelle

Page 14

Avril 2002

Linformatique dcisionnelle

Informatica PowerCenter Designer Mapping Designer


Interface avec laquelle on cr les flux et les transformations appliqus aux donnes

Page 15

Avril 2002

Linformatique dcisionnelle

.I.4

Phase de RESTITUTION et de PILOTAGE

.I.4.1 Schma
Data Mining
Les outils de restitution ou de pilotage sont la finalit de la chane dcisionnelle, ils sont utiliss par les utilisateurs qui ne connaissent pas forcment
linformatique dcisionnelle. Ce sont donc des outils de Reporting assez facile prendre en main et manipuler.
ORACLE
DM
.I.4.2 Moyens de restitution
Les outils de Requtage sont des gnrateurs de code SQL : Analyse then Query .
DWH
DataMart
Bases de donnes
Il y a deux types dutilisateurs :
o Les utilisateurs qui crent les rapports : ils peuvent, ou pas, connatre linformatique dcisionnelle. Ils ont accs aux univers
DM dans les classes pour crer divers
SYBASE
Extract
et aux cubes.
Ils manipulent, DataWareHouse
partir de linterface du requteur, les objets contenus
tableaux. Ils composent des rapports quils peuvent diffuser, par la suite, aux personnes concernes.
Requteur
o Les utilisateurs, qui rafrachissent priodiquement les rapports, nont alors pas accs lunivers et ne manipulent aucune
Pilotage
T
ransform
donne. Ils analysent les informations que leur prsentent les rapports. Souvent ces utilisateurs ne connaissent pas
linformatique dcisionnelle.

Load

Cubes

Cube
Il est possible de lire des rapports via le Net avec des outils adapts ( comme Webby pour BusinessObjects). Avec ces outils, on ne peut que
Excel
lire des rapports mais pas en crer.
Les rapports sont composs dun ou plusieurs lments :
de tableaux,
de diagrammes (courbes, camembert, ) en 2D ou 3D,
de zones de texte,
dimages.

Page 16

Phase de Restitution
et de Pilotage

Avril 2002

Linformatique dcisionnelle

Module Reporter
Interface de lEditeur de requtes Univers qui concerne une entreprise de la mode.

Page 17

Avril 2002

Linformatique dcisionnelle

Exemple de rapport cr par un outil de requtage :

Module Reporter
Tableau plusieurs entres sur lactivit de la Socit ASTEK S.A.

Page 18

Avril 2002

Linformatique dcisionnelle

.I.4.3 Moyens de pilotage


Les outils de Pilotage sont du type : Query then Analyse , cest dire que lutilisateur va pourvoir zoomer par axes pour comprendre les
donnes du tableau. Il pourra ainsi analyser lactivit de lentreprise.
On retrouve pour ces moyens les mmes types dutilisateurs que pour les moyens de restitution.
Si lutilisateur dispose dun outil multidimensionnel (et que le rapport le permet), il peut dtailler les donnes quil visualise, est dire
avoir diffrents niveaux de dtails.

A ETTOFFER !!!!!!

Page 19

Avril 2002

Linformatique dcisionnelle

Exemple de rapport cr par un outil de pilotage :

Module PowerPlay for Windows


Diagramme en 3D sur lactivit de la Socit Vacances et Aventures

Page 20

Avril 2002

Linformatique dcisionnelle

.I.4.4 Les Outils

Requteur :
BusinessObjects Module REPORTER : lutilisateur dispose dun univers composes de classes contenant des objets. Il peut alors crer
des rapports en gnrant les requtes voulues en croisant diffrents objets et en crant des conditions.
Cognos Module IMPROMPTU
BrioTech Module Brio

Pilotage :
R OLAP : Relational On line Analytical Processing
BusinessObjects Module REPORTER, EXPLORER ?
Cognos Modules PowerPlay for Windows, PowerPlay for Excel ou PowerPlay Web : lutilisateur peut avoir directement accs aux
donnes du Cube, il peut facilement analyser, examiner les indicateurs de performance de son organisation en crant des rapports .
Avantages : plus rapide mettre en place, moins cher.
Inconvnient : temps de rponse plus long
M OLAP : Multidimensional On Line Analytical Processing
ORACLE Module EXPRESS
HYPERION Module ESSBASE
Avantages : performant
Inconvnients : plus cher, assez dur mettre en place.

Page 21

Avril 2002

Linformatique dcisionnelle

Pilotage :
R OLAP : Relational On line Analytical Processing
BusinessObjects Module REPORTER, EXPLORER ?
Cognos Modules PowerPlay for Windows, PowerPlay for Excel ou PowerPlay Web : lutilisateur peut avoir directement accs aux
donnes du Cube, il peut facilement analyser, examiner les indicateurs de performance de son organisation en crant des rapports .
Avantages : plus rapide mettre en place, moins cher.
Inconvnient : temps de rponse plus long
M OLAP : Multidimensional On Line Analytical Processing
ORACLE Module EXPRESS
HYPERION Module ESSBASE
Avantages : performant
Inconvnients : plus cher, assez dur mettre en place.

Page 22

Avril 2002

Linformatique dcisionnelle

.I.5

Phase dANALYSE :
Requteur
Pilotage

.I.5.1 Schma

.I.5.2ORACLE
Principe gnral du Data Mining :

DM

Les entreprises stockent une quantit importante de


donnes mais on peut constater que celles-ci
ne constituent pas pour autant un
DWH
DataMart
Bases connaissance
de donnes sur lactivit de lentreprise. Les outils du Data Mining permettent dextraire des informations forte valeur ajoute partir
des donnes.
SYBASE

Extract

DataWareHouse

DM
Data Mining

Transform
Load

Transformer linformation
en connaissances

Cubes

Cube
Le DATA MINING

Excel
Identifier lopportunit
commerciale ou autre

Agir sur les informations

Phase dAnalyse
Des Donnes
Mesurer les rsultats des actions

Page 23

Avril 2002

Linformatique dcisionnelle

Le Cercle Dcisionnel

.I.5.3 A quoi sert le Data Mining ?


Lobjectif principal du Data Mining est dexploit les donnes de son systme afin den tirer des informations susceptibles de nous donner un
avantage face la concurrence.
Le Data Mining permet de :
Fidliser et satisfaire les clients
Mieux cibler les efforts commerciaux
Amliorer la qualit des perstations
Dtecter des comportements frauduleux
Analyser les donnes techniques.
Le Data Mining est un processus automatis, il permet le passage de la donne brute une information daide la prise de dcision. A chaque tape,
on a une plus value informationnelle.

.I.5.4 Les tches du datamining

La classification
La mthode de Classification dfinit, priori, une partition dun ensemble clairement identifi. Elle permet laffectation dun nouvel objet
lune des classes de la partition.
Page 24

Avril 2002

Linformatique dcisionnelle

Principes :
Dfinir prcisment les classes
Apprentissage avec une base dexemples pr classs
Mise au point dun modle pour classer les nouvelles donnes
Exemples :
Affectation de mots cls aux articles qui arrivent dans une rdaction de journal
Classification de demandeurs de crdit dans des classes de risque bas, de risque moyen et de risque haut

Lestimation
La mthode dEstimation se rfre des valeurs continues alors celle de Classification des vnements discrets.
Principe :
Estimer une valeur continue qui dcrit un objet revient classer cet objet dans un ensemble partitionn en un nombre infini de classes.
Exemples :
La dure de vie dun client
La probabilit de rponse un mailing

La prdiction
Principe :
La Prdiction est assimilable au classement ou lestimation mais les objets sont classs en fonction dun comportement futur prdit.
On ne peut vrifier la prcision de la Classification ou de lEstimation quaprs coup.
Exemples :
Prdiction des clients qui vont disparatre dans 6 mois
Prdiction dun volume de vente dun produit dans les mois venir
Page 25

Avril 2002

Linformatique dcisionnelle

Le groupement par similitude


Principe :
La mthode du groupement par similitude est de regrouper des objets qui vont naturellement ensemble pour dfinir des rgles dassociation.
Exemples :
Dans un supermarch, dterminer les produits qui se retrouvent dans le mme caddie
Dans une base de donnes de cinphiles, trouver les associations entre les films

Lanalyse des clusters


Principe :
LAnalyse des Clusters permet de dcouper posteriori une population htrogne en classes homognes.
Exemples :
En fonction de critres dachats dune voiture, faire une segmentation des acheteurs
En fonction des notes obtenues dans diffrentes matires, faire une segmentation des tudiants

La description
Principe :
Il sagit de dcrire les donnes pour essayer de dcouvrir et de comprendre le processus qui est lorigine de ces donnes. Il sagit souvent
du dmarrage dune tude, o on a peu de connaissances sur le phnomne tudi.
Cette description permet denchaner sur une ou plusieurs des tches prcdemment dcrites.

.I.5.5 Mthodes du datamining

Infrences statistiques :
Estimations de paramtres
Page 26

Avril 2002

Linformatique dcisionnelle

Thories des tests

Analyse de donnes :
Analyse en composantes principales
Analyse des correspondances
Analyse discriminante

Panier de la mnagre :
Principe :
On liste toutes les transactions (ensemble dobjets pris par un individu)
On dresse un tableau de co-occurrences des objets
On dtermine des rgles de la forme Si condition alors rsultats avec des taux de confiances et damlioration
P1 = P(condition) P2 = P(rsultat) P3 = P(condition et rsultat)
Confiance = P3 / P1
Amlioration = P3 / ( P1 * P2 )

Raisonnement bas sur la mmoire RBM :


Principe :
Le principe du RBM est de trouver les voisins dun nouvel enregistrement dans une base denregistrements connus (<=> la mmoire) des
fins de Classement ou de Prdiction.
Deux fonctions :
La fonction de distance entre deux enregistrements
La fonction de combinaison pour donner la rponse partir des rsultats obtenus sur les voisins :
- faire voter les k voisins les plus proches avec le poids 1/k, k impair
- affecter un poids chaque voisin de faon inverse proportionnellement la distance avec le nouvel enregistrement et faire voter
ces voisins avec ce poids
Page 27

Avril 2002

Linformatique dcisionnelle

utiliser des techniques de rgression

Dtection de clusters :
Cette mthode sert uniquement trouver, posteriori, des classes homognes.
On peut utiliser diffrentes mthodes :
la mthode des K-moyennes
la mthode des nues dynamique de M. E. Diday
Classification par agglomration (classification ascendante)

Arbre de Dcision :
Cest un outil de Prdiction et de Classification bas sur des rgles identifies grce une base pr classe.
Principe :
Construction dune arborescence qui, chaque niveau, maximise lexpression
Diversit (avant division) ( diversit (fils gauche) + diversit ( fils droit) )
Chaque feuille de larbre est affecte une classe avec un taux derreur

Rseau de Neurones :
Cest une mthode pour Prdire ou Classer sans avoir besoin de comprendre le pourquoi de la Prdiction ou du Classement.
Principe :
Le rseau est construit par apprentissage sur une base pr prdite ou pr classe
Cette mthode permet une meilleure approche des problmes non linaires.
Un neurone = des entres couples avec des poids + fonction de combinaison C + fonction de transfert F
Page 28

Avril 2002

Linformatique dcisionnelle

S = F( Cp1,,pk (e1,,ek) )

Page 29

Avril 2002

Linformatique dcisionnelle

.I.5.6 Tableau des appariements des techniques aux tches


On peut utiliser plusieurs techniques pour une mme tche. A nous de la choisir selon nos donnes de dpart et le rsultat attendu.
Tches
Techniques
Statistiques
Normales
Panier de la
Mnagre
RBM
Dtection des
Clusters
Arbres de
Dcision
Rseau de
Neurones

Classification Estimation

Prdiction Groupe par Analyse des Description


Similitudes
Clusters

.I.5.7 Les outils


SAS Diffrents modules de SAS qui vont des statistiques gnrales aux tudes plus approfondies, telles que les diverses analyses ou les
rseaux de neurones.

Page 30

Avril 2002