Vous êtes sur la page 1sur 40

Rappel

Informatique décisionnelle (BI)

• L’informatique décisionnelle (en anglais :DSS pour Decision Support


System), s’insère dans l’architecture plus large d’un système d'information.

• L’informatique décisionnelle représente un ensemble de moyens, d’outils et


de méthodes permettant de collecter, consolider, modéliser et de restituer
les données de l’entreprise dans le but d’apporter une aide à la prise de
décision.

• Un autre atout de l’informatique décisionnelle est de permettre aux


responsables de la stratégie d’une entreprise d’avoir une vue d’ensemble de
l’activité traitée.

18/10/2022 3
Rappel

Informatique décisionnelle (BI)


• Tous les systèmes d’information décisionnelles, tels que les datawerhouses
mettent en œuvre 5 fonctions fondamentales:

la collecte
l’intégrité
la diffusion
la présentation
l’administration des données

18/10/2022 4
Rappel

Informatique décisionnelle (BI)

La collecte:
La collecte des données brutes dans leurs environnements d’origine, ce
qui implique des activités plus ou moins élaborées de détection et de
filtrage, car un excédent de données, un défaut de fiabilité ou un trop
mauvais rapport signal/bruit sont pires que l’absence de données.

18/10/2022 5
Rappel

Informatique décisionnelle (BI)

L’intégrité:
L’intégration des donnes ,c’est-à-dire leur regroupement en un ensemble
technique, logique et sémantique homogène approprié aux besoins de
l’organisation.

h,f

1,0 h,f

homme, femme

18/10/2022 6
Rappel

Informatique décisionnelle (BI)

La diffusion:
Diffusion, ou la distribution d’informations élaborées à partir des données
dans des contextes appropriés au besoin des individus ou des groupes de
travail utilisateurs.

18/10/2022 7
Rappel

Informatique décisionnelle (BI)


la présentation :
La présentation, c’est-à-dire les conditions de mise à disposition de
l’information (contrôle d’accès, personnalisation ..).

l’administration des données:


L’administration qui gère l’ensemble de données de bout en bout ,car le
système d’information doit être contrôlé par un système de pilotage.

Ø Remarque: en pratique, les fonctions de collecte et d’intégration sont


étroitement liées entre elles et généralement associées au
datawerhouse.

18/10/2022 8
Rappel

Le contexte BI

Comment

Qui

Pourquoi: les
besoins

9
Rappel

Les besoins

Augmentation Diminution
Amélioration
de la des couts de
de la qualité
réactivité fabrication

Amélioration Augmentation
Evolution du
de la de la
marchés
productivité concurrence

10
Rappel

Comment ???
La mise au point d’une stratégie susceptible pour mieux atteindre les
objectifs

Le traitement des grandes masses de données :

Distribuer Hétérogène Très détaillé

La mise en place de :

Synthèse/résumer Visualiser Analyser

11
Rappel

Qui???
Pour une utilisation par:
• Des expert et des analystes d’un métier
• Non informaticiens
• Non statisticiens

Par l’u0lisa0on du BI
• Informa8que décisionnelle
• Datamining
• Datawerhouse

On se basant sur
• Des base de production BD opérationnelles
• Des prises de décision basé sur des indicateurs key business
Indicator ‘KBI’

12
Rappel

Le BI «Business Intelligence»

13
Rappel

Architecture générale
Zone de
Zone de préparaBon Zone de stockage présentation
E
X C
T H
R A
Transformations: Data Requêtes
A R
Nettoyage warehouse Rapports
C G
Standardisation Visualisation
T E
… Data Mining
I M

O E
N N
Sources de Datamart
T
données

14
Rappel

Organisation du flux d’information et les acteurs

15
Rappel

Datawerhouse

• datawarehouse (ou entrepôt de données) est un serveur informatique dans


lequel est centralisé un volume important de données consolidées à partir
des différentes sources de renseignements d'une entreprise (notamment les
bases de données internes).

• L'organisation des données est conçue pour que les personnes intéressées
aient accès rapidement et sous forme synthétique à l'information stratégique
dont elles ont besoin pour la prise de décision.

18/10/2022 16
Le passage du datawerhouse vers le datamining

Datawerhouse

Ensemble de techniques d'exploration de données afin d'en tirer des


connaissances (la signification profonde) sous forme de modèles
présentés à l’utilisateur averti pour examen c’est le Datamining

Fig1.du datawerhouse vers le datamining

18/10/2022 17
Le passage du datawerhouse vers le datamining

Processus de découverte d’information

Fig2.decouverte de l’information

18/10/2022 18
Le passage du datawerhouse vers le datamining

Etape du processus

1. Compréhension du domaine d’application


2. Création du fichier cible (Target data set)
3. Traitement des données brutes (data cleaning and preprocessing)
4. Réduction des données (data réduction and projection)
5. Définition des tâches de fouille de données
6. Choix des algorithmes appropriés de fouille de données
7. Fouille de données (data mining)
8. Interprétation des formes extraites (mined patterns)
9. Validation des connaissances extraites

18/10/2022 19
Datamining

• Qu’est-ce que le datamining


• Pourquoi la naissance du datamining?
• Intérêt du data mining
• Méthodes et technique du datamining
• Grands domaine d’Application du datamining
• Le processus standard d’une étude de datamining
• Les logiciels de datamining

18/10/2022 20
Datamining

Qu’est-ce que le Datamining


Frawley et Piatesky-Shapiro
"l'extraction d'informations originales, auparavant inconnues,
potentiellement utiles à partir de données"
John Page
"la découverte de nouvelles corrélations, tendances et modèles par le
tamisage d'un large volume de données"
Kamran Parsaye
"un processus d'aide à la décision où les utilisateurs cherchent des
modèles d'interprétation dans les données"
Dimitris Chorafas
"torturer l'information disponible jusqu'à ce qu'elle avoue"

18/10/2022 21
Datamining
Pourquoi la naissance du datamining ?
Augmentation des capacités de stockage des données (disques durs de giga
octets).

Augmentation des capacités de traitement des données (facilité d’accès aux


données : il n’y a plus de bandes magnétiques ; accélération des traitements).

Maturation des principes des bases de données (maturation des bases de données
relationnelles).

Croissance exponentielle de la collecte des données (scanners de supermarché,


internet, etc.)

Croissance exponentielle des bases de données : capacités atteignant le terabits


(1012 bits) et émergence des entrepôts de données : data warehouse, rendant
impossible l’exploitation manuelle des données.

Plus grande disponibilité des données grâce aux réseaux (intranet et internet).

Développement de logiciels de data mining.


18/10/2022 22
Datamining

Intérêt du datamining

Le datamining permet d’exploiter ces données pour améliorer la rentabilité


d’une activité.

Le datamining permet d’augmenter le retour sur investissement des


systèmes d’information.

Le datamining est un outil qui permet de produire de la connaissance :

Ø dans le but de comprendre les phénomènes dans un premier temps : SAVOIR


Ø dans le but de prendre des décisions dans un second temps : PREVOIR pour
DECIDER.

18/10/2022 23
Datamining

Intérêt du datamining

Déterminer
Identifier
les moyens
les nouveaux
pour fidéliser
marchés
les clients
Anticiper les
changements de
comportement
Identifier les
Minimiser les nouveaux
risques produits ou
services

24
Datamining
Processus d'ECD (KDD)

18/10/2022 25
Datamining
Les techniques du datamining

• Méthodes non-supervisées
– Extraire des informations nouvelles et originales
(aucun attribut n’est plus important qu’un autre)
– Analyse du résultat fourni (retenu ou rejeté)
– Isoler l’information utile
– Constituer des groupes homogènes d’objets (grouper
des patients qui ont le même comportement).

18/10/2022 26
Datamining
Les techniques du datamining

• Exemples
– Réseau de Neurones

– Recherche des K Plus Proches Voisins

– Recherche d'Associations (Règles Associatives)

–…

18/10/2022 27
Datamining
Les techniques du datamining

• Méthodes supervisées
• Découverte de règles ou formules (patterns)
pour ranger les données dans des classes
prédéfinies
• Processus en deux étapes
– Construction d'un modèle sur les données dont la
classe est connue (training data set)
– Utilisation pour classification des nouveaux arrivants

18/10/2022 28
Datamining
Les techniques du datamining

• Exemples
– Discrimination linéaire

– Régression

– Arbres de décision

– Machines à vecteur de support (SVM)


–…

18/10/2022 29
Datamining
Applications du datamining

• Publics:
Ø Le scientifique : pour comprendre certains phénomènes.
Ø L’analyste : pour produire des rapports pour les décideurs.
Ø Le décideur (au sens large) : pour l’aide à la décision.

• Principaux secteurs utilisant le data mining:


Les banques Les télécommunications Le e-commerce

La détection des fraudes Les études scientifiques

Le marketing direct Les assurances La distribution

La biologie L’industrie pharmaceutique

18/10/2022 30
Datamining
Gestion de la relation client
Customer Relationship Management (CRM)

• Principe : amélioration de la rentabilité par l’amélioration de la


connaissance du client.

• Matière première : les données sur le client.

• Le CRM se divise en deux parties :


– CRM analytique : collecte et analyse des données.
– CRM opérationnel : choix des campagnes marketing (stratégie) et
gestion des canaux de communication (forces commerciales, centres
d’appel téléphoniques, internet, télévision, etc.)

• Difficulté : tirer partie de la masse de données. Ne pas se noyer dedans.

18/10/2022 31
Datamining
Autres grands domaines d’application
Secteur bancaire : le scoring, pour mieux cibler les propositions de prêts et éviter les
surendettements (et donc les mauvais payeurs).
Secteur de la téléphonie : prédiction de l’attrition (usure, churn en anglais), c’est-à-dire
le changement d’opérateur.
Grande distribution : analyse du panier de la ménagère pour déterminer les produits
achetés simultanément.
Web mining et e-commerce : 50% des clients d’un constructeur de machine achètent
ses machines à travers le web. Mais seulement 0,5% des visiteurs du site deviennent
clients. L’idée est de stocker les séquences de click des visiteurs et d’analyser les
caractéristiques des acheteurs pour adapter le contenu du site.
Text mining pour analyser les lettres de réclamation.
Scientifique : identification et classification d'objets célestes.
Médical : analyse de résultat d’une expérimentation
Sécurité informatique : recherche de transactions frauduleuses par la police suivi des
opérations des traders.
18/10/2022 32
Le processus standard d’une étude de data mining: Le besoin d’un contrôle humain dans le data mining

Une discipline et pas un produit


• À l’origine, le datamining était vue comme un procédé automatique ou
semi automatique.

• Aujourd’hui, on est revenu de cette illusion. Le datamining n’est pas un


produit qui peut être acheté, mais bien une discipline qui doit être maîtrisée.

• Avant d’appliquer automatiquement des algorithmes de calculs sur les


données, il faut passer par une phase d’exploration et d’analyse qui ne
saurait être automatisée : elle fait intervenir le bon sens et la connaissance
du contexte (culture générale).

• Quand on veut produire de la connaissance, le problème ne se limite pas à


répondre à des questions. Il faut d’abord poser les questions. C’est cette
première étape qui, pour l’essentiel, fait que le datamining est une
discipline et pas un simple produit.
18/10/2022 33
Le processus standard d’une étude de data mining: Le besoin d’un contrôle humain dans le data mining

Comment faire du mauvais datamining ?

En travaillant sans méthode

En ne préparant pas correctement ses données.

En appliquant des boîtes noires de calculs sans les comprendre.

Un mauvais datamining peut amener à des conclusions erronées et donc à des


conséquences très coûteuses.

18/10/2022 34
Le processus standard d’une étude de data mining: Le besoin d’un contrôle humain dans le data mining

Comment faire du bon datamining ?

En suivant une méthode

En préparant les données correctement

En comprenant le principe des modes opératoires (des algorithmes de


calculs). En étant capable de savoir pourquoi on en choisit un plutôt qu’un
autre. Une compréhension des modèles statistiques appliqués par le logiciel
est donc nécessaire.

18/10/2022 35
Le processus standard d’une étude de data mining: Présentation du CRISP-DM

• Le datamining est un processus méthodique : une suite ordonnée


d'opérations aboutissant à un résultat.

• Le CRISP-DM (Cross Industry Standard Process for Data Mining) décrit le


datamining processus itératif complet constitué de 4 étapes divisées en tout
en 6 phases.

tableau1.processus du datamining
18/10/2022 36
Le processus standard d’une étude de data mining: Présentation du CRISP-DM

1 : Compréhension du métier
Cette phase consiste à :
Ø Énoncer clairement les objectifs globaux du projet et les contraintes de
l’entreprise.
Ø Traduire ces objectifs et ces contraintes en un problème du datamining.
Ø Préparer une stratégie initiale pour atteindre ces objectifs.

2 : Compréhension des données


Cette phase consiste à :
Ø Recueillir les données.
Ø Utiliser l’analyse exploratoire pour se familiariser avec les données,
commencer à les comprendre et imaginer ce qu’on pourrait en tirer comme
connaissance.
Ø Évaluer la qualité des données.
Ø Éventuellement, sélectionner des sous-ensembles intéressants.

18/10/2022 37
Le processus standard d’une étude de data mining: Présenta@on du CRISP-DM

3 : Préparation des données


Cette phase consiste à :
Ø Préparer, à partir des données brutes, l’ensemble final des données qui va être utilisé
pour toutes les phases suivantes.
Ø Sélectionner les cas et les variables à analyser.
Ø Réaliser si nécessaire les transformations de certaines données.
Ø Réaliser si nécessaire la suppression de certaines données.

Cette phase fait suite à la compréhension des données. Celle-ci a mis au jour les corrélations,
les valeurs aberrantes, les valeurs manquantes : on peut donc faire la préparation.

4 : Modélisation
Cette phase consiste à :
Ø Sélectionner les techniques de modélisation appropriées (souvent plusieurs techniques
peuvent être utilisées pour le même problème).
Ø Calibrer les paramètres des techniques de modélisation choisies pour optimiser les
résultats.
Ø Éventuellement revoir la préparation des données pour l’adapter aux techniques
utilisées.
18/10/2022 38
Le processus standard d’une étude de data mining: Présentation du CRISP-DM

5 : Evaluation de la modélisation
Cette phase consiste à produire le rapport final :
Ø Pour chaque technique de modélisation utilisée, évaluer la qualité (la
pertinence, la signification) des résultats obtenus.
Ø Déterminer si les résultats obtenus atteignent les objectifs globaux identifiés
pendant la phase de compréhension du métier.
Ø Décider si on passe à la phase suivante (le déploiement) ou si on souhaite
reprendre l’étude en complétant le jeu de données.

6 : Déploiement des résultats obtenus


Cette phase est externe à l’analyse du datamining. Elle concerne le maître
d’ouvrage.
Cette phase consiste à :
Ø Prendre les décisions en conséquences des résultats de l’étude de datamining
Ø Préparer la collecte des informations futures pour permettre de vérifier la
pertinence des décisions effectivement mis en œuvre.

18/10/2022 39
Datamining
Les logiciels de data mining
Il existe de nombreux logiciels de statistiques et de data mining sur
PC. Certains sont gratuits, d’autres sont payants. Certains sont mono-
utilisateur. D’autres fonctionnent en architecture clients-serveur.
• Parmi les gros logiciels, on peut citer :
– SPSS Modeler qui est la solution de data mining la plus vendue dans le monde.
– Entreprise Miner de SAS.
– Statistica Data Miner de StatSoft
– XL Miner (data mining sous excel)
– ORACLE, comme d’autres SGBD, fournit des outils de data mining
• Parmi les logiciels gratuits, on peut citer :
– TANAGRA, logiciel de data mining gratuit pour l'enseignement et la
recherche.
– ORANGE, logiciel libre d’apprentissage et de data mining.
– WEKA, logiciel libre d’apprentissage et de data mining.

18/10/2022 40

Vous aimerez peut-être aussi