Académique Documents
Professionnel Documents
Culture Documents
18/10/2022 3
Rappel
la collecte
l’intégrité
la diffusion
la présentation
l’administration des données
18/10/2022 4
Rappel
La collecte:
La collecte des données brutes dans leurs environnements d’origine, ce
qui implique des activités plus ou moins élaborées de détection et de
filtrage, car un excédent de données, un défaut de fiabilité ou un trop
mauvais rapport signal/bruit sont pires que l’absence de données.
18/10/2022 5
Rappel
L’intégrité:
L’intégration des donnes ,c’est-à-dire leur regroupement en un ensemble
technique, logique et sémantique homogène approprié aux besoins de
l’organisation.
h,f
1,0 h,f
homme, femme
18/10/2022 6
Rappel
La diffusion:
Diffusion, ou la distribution d’informations élaborées à partir des données
dans des contextes appropriés au besoin des individus ou des groupes de
travail utilisateurs.
18/10/2022 7
Rappel
18/10/2022 8
Rappel
Le contexte BI
Comment
Qui
Pourquoi: les
besoins
9
Rappel
Les besoins
Augmentation Diminution
Amélioration
de la des couts de
de la qualité
réactivité fabrication
Amélioration Augmentation
Evolution du
de la de la
marchés
productivité concurrence
10
Rappel
Comment ???
La mise au point d’une stratégie susceptible pour mieux atteindre les
objectifs
La mise en place de :
11
Rappel
Qui???
Pour une utilisation par:
• Des expert et des analystes d’un métier
• Non informaticiens
• Non statisticiens
Par l’u0lisa0on du BI
• Informa8que décisionnelle
• Datamining
• Datawerhouse
On se basant sur
• Des base de production BD opérationnelles
• Des prises de décision basé sur des indicateurs key business
Indicator ‘KBI’
12
Rappel
Le BI «Business Intelligence»
13
Rappel
Architecture générale
Zone de
Zone de préparaBon Zone de stockage présentation
E
X C
T H
R A
Transformations: Data Requêtes
A R
Nettoyage warehouse Rapports
C G
Standardisation Visualisation
T E
… Data Mining
I M
…
O E
N N
Sources de Datamart
T
données
14
Rappel
15
Rappel
Datawerhouse
• L'organisation des données est conçue pour que les personnes intéressées
aient accès rapidement et sous forme synthétique à l'information stratégique
dont elles ont besoin pour la prise de décision.
18/10/2022 16
Le passage du datawerhouse vers le datamining
Datawerhouse
18/10/2022 17
Le passage du datawerhouse vers le datamining
Fig2.decouverte de l’information
18/10/2022 18
Le passage du datawerhouse vers le datamining
Etape du processus
18/10/2022 19
Datamining
18/10/2022 20
Datamining
18/10/2022 21
Datamining
Pourquoi la naissance du datamining ?
Augmentation des capacités de stockage des données (disques durs de giga
octets).
Maturation des principes des bases de données (maturation des bases de données
relationnelles).
Plus grande disponibilité des données grâce aux réseaux (intranet et internet).
Intérêt du datamining
18/10/2022 23
Datamining
Intérêt du datamining
Déterminer
Identifier
les moyens
les nouveaux
pour fidéliser
marchés
les clients
Anticiper les
changements de
comportement
Identifier les
Minimiser les nouveaux
risques produits ou
services
24
Datamining
Processus d'ECD (KDD)
18/10/2022 25
Datamining
Les techniques du datamining
• Méthodes non-supervisées
– Extraire des informations nouvelles et originales
(aucun attribut n’est plus important qu’un autre)
– Analyse du résultat fourni (retenu ou rejeté)
– Isoler l’information utile
– Constituer des groupes homogènes d’objets (grouper
des patients qui ont le même comportement).
18/10/2022 26
Datamining
Les techniques du datamining
• Exemples
– Réseau de Neurones
–…
18/10/2022 27
Datamining
Les techniques du datamining
• Méthodes supervisées
• Découverte de règles ou formules (patterns)
pour ranger les données dans des classes
prédéfinies
• Processus en deux étapes
– Construction d'un modèle sur les données dont la
classe est connue (training data set)
– Utilisation pour classification des nouveaux arrivants
18/10/2022 28
Datamining
Les techniques du datamining
• Exemples
– Discrimination linéaire
– Régression
– Arbres de décision
18/10/2022 29
Datamining
Applications du datamining
• Publics:
Ø Le scientifique : pour comprendre certains phénomènes.
Ø L’analyste : pour produire des rapports pour les décideurs.
Ø Le décideur (au sens large) : pour l’aide à la décision.
18/10/2022 30
Datamining
Gestion de la relation client
Customer Relationship Management (CRM)
18/10/2022 31
Datamining
Autres grands domaines d’application
Secteur bancaire : le scoring, pour mieux cibler les propositions de prêts et éviter les
surendettements (et donc les mauvais payeurs).
Secteur de la téléphonie : prédiction de l’attrition (usure, churn en anglais), c’est-à-dire
le changement d’opérateur.
Grande distribution : analyse du panier de la ménagère pour déterminer les produits
achetés simultanément.
Web mining et e-commerce : 50% des clients d’un constructeur de machine achètent
ses machines à travers le web. Mais seulement 0,5% des visiteurs du site deviennent
clients. L’idée est de stocker les séquences de click des visiteurs et d’analyser les
caractéristiques des acheteurs pour adapter le contenu du site.
Text mining pour analyser les lettres de réclamation.
Scientifique : identification et classification d'objets célestes.
Médical : analyse de résultat d’une expérimentation
Sécurité informatique : recherche de transactions frauduleuses par la police suivi des
opérations des traders.
18/10/2022 32
Le processus standard d’une étude de data mining: Le besoin d’un contrôle humain dans le data mining
18/10/2022 34
Le processus standard d’une étude de data mining: Le besoin d’un contrôle humain dans le data mining
18/10/2022 35
Le processus standard d’une étude de data mining: Présentation du CRISP-DM
tableau1.processus du datamining
18/10/2022 36
Le processus standard d’une étude de data mining: Présentation du CRISP-DM
1 : Compréhension du métier
Cette phase consiste à :
Ø Énoncer clairement les objectifs globaux du projet et les contraintes de
l’entreprise.
Ø Traduire ces objectifs et ces contraintes en un problème du datamining.
Ø Préparer une stratégie initiale pour atteindre ces objectifs.
18/10/2022 37
Le processus standard d’une étude de data mining: Présenta@on du CRISP-DM
Cette phase fait suite à la compréhension des données. Celle-ci a mis au jour les corrélations,
les valeurs aberrantes, les valeurs manquantes : on peut donc faire la préparation.
4 : Modélisation
Cette phase consiste à :
Ø Sélectionner les techniques de modélisation appropriées (souvent plusieurs techniques
peuvent être utilisées pour le même problème).
Ø Calibrer les paramètres des techniques de modélisation choisies pour optimiser les
résultats.
Ø Éventuellement revoir la préparation des données pour l’adapter aux techniques
utilisées.
18/10/2022 38
Le processus standard d’une étude de data mining: Présentation du CRISP-DM
5 : Evaluation de la modélisation
Cette phase consiste à produire le rapport final :
Ø Pour chaque technique de modélisation utilisée, évaluer la qualité (la
pertinence, la signification) des résultats obtenus.
Ø Déterminer si les résultats obtenus atteignent les objectifs globaux identifiés
pendant la phase de compréhension du métier.
Ø Décider si on passe à la phase suivante (le déploiement) ou si on souhaite
reprendre l’étude en complétant le jeu de données.
18/10/2022 39
Datamining
Les logiciels de data mining
Il existe de nombreux logiciels de statistiques et de data mining sur
PC. Certains sont gratuits, d’autres sont payants. Certains sont mono-
utilisateur. D’autres fonctionnent en architecture clients-serveur.
• Parmi les gros logiciels, on peut citer :
– SPSS Modeler qui est la solution de data mining la plus vendue dans le monde.
– Entreprise Miner de SAS.
– Statistica Data Miner de StatSoft
– XL Miner (data mining sous excel)
– ORACLE, comme d’autres SGBD, fournit des outils de data mining
• Parmi les logiciels gratuits, on peut citer :
– TANAGRA, logiciel de data mining gratuit pour l'enseignement et la
recherche.
– ORANGE, logiciel libre d’apprentissage et de data mining.
– WEKA, logiciel libre d’apprentissage et de data mining.
18/10/2022 40