Introduction Datamining

Rappel
Informatique décisionnelle (BI)
• L’informatique décisionnelle (en anglais :DSS pour Decision Support

System), s’insère dans l’architecture plus large d’un système d'information.
• L’informatique décisionnelle représente un ensemble de moyens, d’outils et

de méthodes permettant de collecter, consolider, modéliser et de restituer
les données de l’entreprise dans le but d’apporter une aide à la prise de
décision.
• Un autre atout de l’informatique décisionnelle est de permettre aux

responsables de la stratégie d’une entreprise d’avoir une vue d’ensemble de
l’activité traitée.
18/10/2022 3
Rappel

• Tous les systèmes d’information décisionnelles, tels que les datawerhouses
mettent en œuvre 5 fonctions fondamentales:
la collecte
l’intégrité
la diffusion
la présentation
l’administration des données
18/10/2022 4
Rappel
La collecte:
La collecte des données brutes dans leurs environnements d’origine, ce
qui implique des activités plus ou moins élaborées de détection et de
filtrage, car un excédent de données, un défaut de fiabilité ou un trop
mauvais rapport signal/bruit sont pires que l’absence de données.
18/10/2022 5
Rappel
L’intégrité:
L’intégration des donnes ,c’est-à-dire leur regroupement en un ensemble
technique, logique et sémantique homogène approprié aux besoins de
l’organisation.
h,f
1,0 h,f
homme, femme
18/10/2022 6
Rappel
La diffusion:
Diffusion, ou la distribution d’informations élaborées à partir des données
dans des contextes appropriés au besoin des individus ou des groupes de
travail utilisateurs.
18/10/2022 7
Rappel

la présentation :
La présentation, c’est-à-dire les conditions de mise à disposition de
l’information (contrôle d’accès, personnalisation ..).
l’administration des données:

L’administration qui gère l’ensemble de données de bout en bout ,car le
système d’information doit être contrôlé par un système de pilotage.
Ø Remarque: en pratique, les fonctions de collecte et d’intégration sont

étroitement liées entre elles et généralement associées au
datawerhouse.
18/10/2022 8
Rappel
Le contexte BI
Comment
Qui
Pourquoi: les
besoins
9
Rappel
Les besoins
Augmentation Diminution
Amélioration
de la des couts de
de la qualité
réactivité fabrication
Amélioration Augmentation
Evolution du
de la de la
marchés
productivité concurrence
10
Rappel
Comment ???
La mise au point d’une stratégie susceptible pour mieux atteindre les
objectifs
Le traitement des grandes masses de données :
Distribuer Hétérogène Très détaillé
La mise en place de :
Synthèse/résumer Visualiser Analyser
11
Rappel
Qui???
Pour une utilisation par:
• Des expert et des analystes d’un métier
• Non informaticiens
• Non statisticiens
Par l’u0lisa0on du BI
• Informa8que décisionnelle
• Datamining
• Datawerhouse
On se basant sur
• Des base de production BD opérationnelles
• Des prises de décision basé sur des indicateurs key business
Indicator ‘KBI’
12
Rappel
Le BI «Business Intelligence»
13
Rappel
Architecture générale
Zone de
Zone de préparaBon Zone de stockage présentation
E
X C
T H
R A
Transformations: Data Requêtes
A R
Nettoyage warehouse Rapports
C G
Standardisation Visualisation
T E
… Data Mining
I M
…
O E
N N
Sources de Datamart
T
données
14
Rappel
Organisation du flux d’information et les acteurs
15
Rappel
Datawerhouse
• datawarehouse (ou entrepôt de données) est un serveur informatique dans

lequel est centralisé un volume important de données consolidées à partir
des différentes sources de renseignements d'une entreprise (notamment les
bases de données internes).
• L'organisation des données est conçue pour que les personnes intéressées
aient accès rapidement et sous forme synthétique à l'information stratégique
dont elles ont besoin pour la prise de décision.
18/10/2022 16
Le passage du datawerhouse vers le datamining
Datawerhouse
Ensemble de techniques d'exploration de données afin d'en tirer des

connaissances (la signification profonde) sous forme de modèles
présentés à l’utilisateur averti pour examen c’est le Datamining
Fig1.du datawerhouse vers le datamining
18/10/2022 17
Processus de découverte d’information
Fig2.decouverte de l’information
18/10/2022 18
Etape du processus
1. Compréhension du domaine d’application

2. Création du fichier cible (Target data set)
3. Traitement des données brutes (data cleaning and preprocessing)
4. Réduction des données (data réduction and projection)
5. Définition des tâches de fouille de données
6. Choix des algorithmes appropriés de fouille de données
7. Fouille de données (data mining)
8. Interprétation des formes extraites (mined patterns)
9. Validation des connaissances extraites
18/10/2022 19
Datamining
• Qu’est-ce que le datamining

• Pourquoi la naissance du datamining?
• Intérêt du data mining
• Méthodes et technique du datamining
• Grands domaine d’Application du datamining
• Le processus standard d’une étude de datamining
• Les logiciels de datamining
18/10/2022 20
Datamining
Qu’est-ce que le Datamining

Frawley et Piatesky-Shapiro
"l'extraction d'informations originales, auparavant inconnues,
potentiellement utiles à partir de données"
John Page
"la découverte de nouvelles corrélations, tendances et modèles par le
tamisage d'un large volume de données"
Kamran Parsaye
"un processus d'aide à la décision où les utilisateurs cherchent des
modèles d'interprétation dans les données"
Dimitris Chorafas
"torturer l'information disponible jusqu'à ce qu'elle avoue"
18/10/2022 21
Datamining
Pourquoi la naissance du datamining ?
Augmentation des capacités de stockage des données (disques durs de giga
octets).
Augmentation des capacités de traitement des données (facilité d’accès aux

données : il n’y a plus de bandes magnétiques ; accélération des traitements).
Maturation des principes des bases de données (maturation des bases de données
relationnelles).
Croissance exponentielle de la collecte des données (scanners de supermarché,

internet, etc.)
Croissance exponentielle des bases de données : capacités atteignant le terabits

(1012 bits) et émergence des entrepôts de données : data warehouse, rendant
impossible l’exploitation manuelle des données.
Plus grande disponibilité des données grâce aux réseaux (intranet et internet).
Développement de logiciels de data mining.

18/10/2022 22
Datamining
Intérêt du datamining
Le datamining permet d’exploiter ces données pour améliorer la rentabilité

d’une activité.
Le datamining permet d’augmenter le retour sur investissement des

systèmes d’information.
Le datamining est un outil qui permet de produire de la connaissance :
Ø dans le but de comprendre les phénomènes dans un premier temps : SAVOIR

Ø dans le but de prendre des décisions dans un second temps : PREVOIR pour
DECIDER.
18/10/2022 23
Datamining
Intérêt du datamining
Déterminer
Identifier
les moyens
les nouveaux
pour fidéliser
marchés
les clients
Anticiper les
changements de
comportement
Identifier les
Minimiser les nouveaux
risques produits ou
services
24
Datamining
Processus d'ECD (KDD)
18/10/2022 25
Datamining
Les techniques du datamining
• Méthodes non-supervisées
– Extraire des informations nouvelles et originales
(aucun attribut n’est plus important qu’un autre)
– Analyse du résultat fourni (retenu ou rejeté)
– Isoler l’information utile
– Constituer des groupes homogènes d’objets (grouper
des patients qui ont le même comportement).
18/10/2022 26
Datamining
• Exemples
– Réseau de Neurones
– Recherche des K Plus Proches Voisins
– Recherche d'Associations (Règles Associatives)
–…
18/10/2022 27
Datamining
• Méthodes supervisées
• Découverte de règles ou formules (patterns)
pour ranger les données dans des classes
prédéfinies
• Processus en deux étapes
– Construction d'un modèle sur les données dont la
classe est connue (training data set)
– Utilisation pour classification des nouveaux arrivants
18/10/2022 28
Datamining
• Exemples
– Discrimination linéaire
– Régression
– Arbres de décision
– Machines à vecteur de support (SVM)

–…
18/10/2022 29
Datamining
Applications du datamining
• Publics:
Ø Le scientifique : pour comprendre certains phénomènes.
Ø L’analyste : pour produire des rapports pour les décideurs.
Ø Le décideur (au sens large) : pour l’aide à la décision.
• Principaux secteurs utilisant le data mining:

Les banques Les télécommunications Le e-commerce
La détection des fraudes Les études scientifiques
Le marketing direct Les assurances La distribution
La biologie L’industrie pharmaceutique
18/10/2022 30
Datamining
Gestion de la relation client
Customer Relationship Management (CRM)
• Principe : amélioration de la rentabilité par l’amélioration de la

connaissance du client.
• Matière première : les données sur le client.
• Le CRM se divise en deux parties :

– CRM analytique : collecte et analyse des données.
– CRM opérationnel : choix des campagnes marketing (stratégie) et
gestion des canaux de communication (forces commerciales, centres
d’appel téléphoniques, internet, télévision, etc.)
• Difficulté : tirer partie de la masse de données. Ne pas se noyer dedans.
18/10/2022 31
Datamining
Autres grands domaines d’application
Secteur bancaire : le scoring, pour mieux cibler les propositions de prêts et éviter les
surendettements (et donc les mauvais payeurs).
Secteur de la téléphonie : prédiction de l’attrition (usure, churn en anglais), c’est-à-dire
le changement d’opérateur.
Grande distribution : analyse du panier de la ménagère pour déterminer les produits
achetés simultanément.
Web mining et e-commerce : 50% des clients d’un constructeur de machine achètent
ses machines à travers le web. Mais seulement 0,5% des visiteurs du site deviennent
clients. L’idée est de stocker les séquences de click des visiteurs et d’analyser les
caractéristiques des acheteurs pour adapter le contenu du site.
Text mining pour analyser les lettres de réclamation.
Scientifique : identification et classification d'objets célestes.
Médical : analyse de résultat d’une expérimentation
Sécurité informatique : recherche de transactions frauduleuses par la police suivi des
opérations des traders.
18/10/2022 32
Le processus standard d’une étude de data mining: Le besoin d’un contrôle humain dans le data mining
Une discipline et pas un produit

• À l’origine, le datamining était vue comme un procédé automatique ou
semi automatique.
• Aujourd’hui, on est revenu de cette illusion. Le datamining n’est pas un

produit qui peut être acheté, mais bien une discipline qui doit être maîtrisée.
• Avant d’appliquer automatiquement des algorithmes de calculs sur les

données, il faut passer par une phase d’exploration et d’analyse qui ne
saurait être automatisée : elle fait intervenir le bon sens et la connaissance
du contexte (culture générale).
• Quand on veut produire de la connaissance, le problème ne se limite pas à

répondre à des questions. Il faut d’abord poser les questions. C’est cette
première étape qui, pour l’essentiel, fait que le datamining est une
discipline et pas un simple produit.
18/10/2022 33
Comment faire du mauvais datamining ?
En travaillant sans méthode
En ne préparant pas correctement ses données.
En appliquant des boîtes noires de calculs sans les comprendre.
Un mauvais datamining peut amener à des conclusions erronées et donc à des

conséquences très coûteuses.
18/10/2022 34
Comment faire du bon datamining ?
En suivant une méthode
En préparant les données correctement
En comprenant le principe des modes opératoires (des algorithmes de

calculs). En étant capable de savoir pourquoi on en choisit un plutôt qu’un
autre. Une compréhension des modèles statistiques appliqués par le logiciel
est donc nécessaire.
18/10/2022 35
Le processus standard d’une étude de data mining: Présentation du CRISP-DM
• Le datamining est un processus méthodique : une suite ordonnée

d'opérations aboutissant à un résultat.
• Le CRISP-DM (Cross Industry Standard Process for Data Mining) décrit le

datamining processus itératif complet constitué de 4 étapes divisées en tout
en 6 phases.
tableau1.processus du datamining
18/10/2022 36
1 : Compréhension du métier
Cette phase consiste à :
Ø Énoncer clairement les objectifs globaux du projet et les contraintes de
l’entreprise.
Ø Traduire ces objectifs et ces contraintes en un problème du datamining.
Ø Préparer une stratégie initiale pour atteindre ces objectifs.
2 : Compréhension des données

Ø Recueillir les données.
Ø Utiliser l’analyse exploratoire pour se familiariser avec les données,
commencer à les comprendre et imaginer ce qu’on pourrait en tirer comme
connaissance.
Ø Évaluer la qualité des données.
Ø Éventuellement, sélectionner des sous-ensembles intéressants.
18/10/2022 37
Le processus standard d’une étude de data mining: Présenta@on du CRISP-DM
3 : Préparation des données

Ø Préparer, à partir des données brutes, l’ensemble final des données qui va être utilisé
pour toutes les phases suivantes.
Ø Sélectionner les cas et les variables à analyser.
Ø Réaliser si nécessaire les transformations de certaines données.
Ø Réaliser si nécessaire la suppression de certaines données.
Cette phase fait suite à la compréhension des données. Celle-ci a mis au jour les corrélations,
les valeurs aberrantes, les valeurs manquantes : on peut donc faire la préparation.
4 : Modélisation
Ø Sélectionner les techniques de modélisation appropriées (souvent plusieurs techniques
peuvent être utilisées pour le même problème).
Ø Calibrer les paramètres des techniques de modélisation choisies pour optimiser les
résultats.
Ø Éventuellement revoir la préparation des données pour l’adapter aux techniques
utilisées.
18/10/2022 38
5 : Evaluation de la modélisation
Cette phase consiste à produire le rapport final :
Ø Pour chaque technique de modélisation utilisée, évaluer la qualité (la
pertinence, la signification) des résultats obtenus.
Ø Déterminer si les résultats obtenus atteignent les objectifs globaux identifiés
pendant la phase de compréhension du métier.
Ø Décider si on passe à la phase suivante (le déploiement) ou si on souhaite
reprendre l’étude en complétant le jeu de données.
6 : Déploiement des résultats obtenus

Cette phase est externe à l’analyse du datamining. Elle concerne le maître
d’ouvrage.
Ø Prendre les décisions en conséquences des résultats de l’étude de datamining
Ø Préparer la collecte des informations futures pour permettre de vérifier la
pertinence des décisions effectivement mis en œuvre.
18/10/2022 39
Datamining
Les logiciels de data mining
Il existe de nombreux logiciels de statistiques et de data mining sur
PC. Certains sont gratuits, d’autres sont payants. Certains sont mono-
utilisateur. D’autres fonctionnent en architecture clients-serveur.
• Parmi les gros logiciels, on peut citer :
– SPSS Modeler qui est la solution de data mining la plus vendue dans le monde.
– Entreprise Miner de SAS.
– Statistica Data Miner de StatSoft
– XL Miner (data mining sous excel)
– ORACLE, comme d’autres SGBD, fournit des outils de data mining
• Parmi les logiciels gratuits, on peut citer :
– TANAGRA, logiciel de data mining gratuit pour l'enseignement et la
recherche.
– ORANGE, logiciel libre d’apprentissage et de data mining.
– WEKA, logiciel libre d’apprentissage et de data mining.
18/10/2022 40

Introduction Datamining

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Introduction Datamining

Transféré par

Droits d'auteur :

Formats disponibles

Rappel

Informatique décisionnelle (BI)

• L’informatique décisionnelle (en anglais :DSS pour Decision Support

• L’informatique décisionnelle représente un ensemble de moyens, d’outils et

• Un autre atout de l’informatique décisionnelle est de permettre aux

Informatique décisionnelle (BI)

Informatique décisionnelle (BI)

Informatique décisionnelle (BI)

Informatique décisionnelle (BI)

Informatique décisionnelle (BI)

l’administration des données:

Ø Remarque: en pratique, les fonctions de collecte et d’intégration sont

Le traitement des grandes masses de données :

Distribuer Hétérogène Très détaillé

Synthèse/résumer Visualiser Analyser

Organisation du flux d’information et les acteurs

• datawarehouse (ou entrepôt de données) est un serveur informatique dans

Ensemble de techniques d'exploration de données afin d'en tirer des

Fig1.du datawerhouse vers le datamining

Processus de découverte d’information

1. Compréhension du domaine d’application

• Qu’est-ce que le datamining

Qu’est-ce que le Datamining

Augmentation des capacités de traitement des données (facilité d’accès aux

Croissance exponentielle de la collecte des données (scanners de supermarché,

Croissance exponentielle des bases de données : capacités atteignant le terabits

Développement de logiciels de data mining.

Le datamining permet d’exploiter ces données pour améliorer la rentabilité

Le datamining permet d’augmenter le retour sur investissement des

Le datamining est un outil qui permet de produire de la connaissance :

Ø dans le but de comprendre les phénomènes dans un premier temps : SAVOIR

– Recherche des K Plus Proches Voisins

– Recherche d'Associations (Règles Associatives)

– Machines à vecteur de support (SVM)

• Principaux secteurs utilisant le data mining:

La détection des fraudes Les études scientifiques

Le marketing direct Les assurances La distribution

La biologie L’industrie pharmaceutique

• Principe : amélioration de la rentabilité par l’amélioration de la

• Matière première : les données sur le client.

• Le CRM se divise en deux parties :

• Difficulté : tirer partie de la masse de données. Ne pas se noyer dedans.

Une discipline et pas un produit

• Aujourd’hui, on est revenu de cette illusion. Le datamining n’est pas un

• Avant d’appliquer automatiquement des algorithmes de calculs sur les

• Quand on veut produire de la connaissance, le problème ne se limite pas à

Comment faire du mauvais datamining ?

En travaillant sans méthode

En ne préparant pas correctement ses données.

En appliquant des boîtes noires de calculs sans les comprendre.

Un mauvais datamining peut amener à des conclusions erronées et donc à des

Comment faire du bon datamining ?

En suivant une méthode

En préparant les données correctement

En comprenant le principe des modes opératoires (des algorithmes de

• Le datamining est un processus méthodique : une suite ordonnée

• Le CRISP-DM (Cross Industry Standard Process for Data Mining) décrit le

2 : Compréhension des données

3 : Préparation des données

6 : Déploiement des résultats obtenus

Vous aimerez peut-être aussi