Vous êtes sur la page 1sur 34

Extraction de Connaissances

à partir des Données


Introduction
Philippe Lenca
philippe.lenca@enst-bretagne.fr

Département IASC
ENST Bretagne

Extraction de Connaissancesà partir des DonnéesIntroduction – p.1/34


Extraction de Connaissances à partir des Données

Knowledge Discovery in Data Bases


ECD - (1995) :
cycle complet de découverte
validation, nettoyage, etc.
grand intérêt industriel
Fouille de Données - 1990 - (Data Mining) :
étape de découverte
intérêt plutôt académique

Extraction de Connaissancesà partir des DonnéesIntroduction – p.2/34


Définitions

l’extraction d’informations originales, auparavant


inconnues, potentiellement utiles à partir des
données (Frawley et Piatetski-Shapiro)
le processus complexe permettant l’identification, au
sein des données, de patterns valides, nouveaux,
potentiellement intéressants et les plus
compréhensibles possible (Fayyad, Piatetski-Shapiro
& Smith)
la découverte de nouvelles corrélations, tendances
et modèles par le tamisage d’un large volume de
données (John Page)
un processus d’aide à la décision où les utilisateurs
cherchent des modèles d’interprétation dans les
données (Kamran Parsaye) Extraction de Connaissancesà partir des DonnéesIntroduction – p.3/34
Des données (de production) à l’utilisateur

Données Fouille de données

Nettoyage Apprentissage IHM


Réseaux connexionistes Evaluation
Fenétrage Réseaux Baysiens Utilisateur
SGBD Interface
Statistiques Visualisation
Sélection
Analyse de données
....
Arbres de décision
Règles d’association
Langages BD

Base de connaissances

utilisation des données telles que fournies par


l’utilisateur (données réelles)
connaissances utiles, intelligibles (évaluation des
propriétés découvertes)
Extraction de Connaissancesà partir des DonnéesIntroduction – p.4/34
Définitions

ECD extrait une connaissance :


potentiellement utile (orientée utilisateur métier)
auparavant inconnue
de masses énormes de données
croissance exponentielle de l’information
croissance linéaire de son utilisation
Connaissance :
ensemble de relations (règles, phénomènes,
exceptions, tendances, etc.) entre les données

ECD crée des techniques adaptées

Extraction de Connaissancesà partir des DonnéesIntroduction – p.5/34


Enjeux - Information et Décision

Information :
avant
utilisation pour contrôle et comptabilité
désormais
nouvelle ressource de l’entreprise
intelligence pour
marketing
ressources humaines
observation de la concurrence
médecine
qualité
etc.

Extraction de Connaissancesà partir des DonnéesIntroduction – p.6/34


Enjeux - Exigences de l’environnement

Facteur économique
Exigences de l’environnement :
concurrence croissante, temps de réaction de plus
en plus court
nécessité de gagner en productivité
nécessité de mesurer de façon fiable, à tout moment,
force et faiblesse
Développement passe par :
capacité à obtenir des informations “décisionnelles”
utiles pour les défis à venir mais aussi à faire évoluer
les compétences humaines

Extraction de Connaissancesà partir des DonnéesIntroduction – p.7/34


Enjeux - Exigences de l’environnement

Facteur économique
D’une politique :
orienté produit ... à une politique orientée client
Mme ne veut pas les mêmes produits que Mr


améliorer les produits et les services
ciblage des mailings (coût)
offre adaptée (fidéliser et gagner)

Extraction de Connaissancesà partir des DonnéesIntroduction – p.8/34


Enjeux - Exigences de l’environnement

Enjeu stratégique
Connaissance :
capital qui a une valeur économique
ressource productive stratégique
élément de stabilité de l’entreprise
avantage concurrentiel décisif
Connaissance :
actif de l’entreprise (valeur boursière valeur
financière)
dernières normes qualités tiennent compte du
facteur “avantage concurrentiel décisif”
Extraction de Connaissancesà partir des DonnéesIntroduction – p.9/34
Enjeux - Exigences de l’environnement

Gestion des connaissances


Acteurs de l’entreprise :
ne sont plus uniquement que des coûts
mais un capital

Gestion des hommes/femmes, des savoirs faire –


Extraction et gestion de la connaissance.

Extraction de Connaissancesà partir des DonnéesIntroduction – p.10/34


Enjeux - Constat : richesses inexploitées

Contexte favorable
Développement des Systèmes d’informations
Systèmes décisionnels :
entrepôts de données - datawarehouse
reporting, visualisations graphiques
etc.
Quantité d’informations stockées :
très importante
coût élevé
... mais inexploitée

Exploiter ce patrimoine de l’entreprise.


Extraction de Connaissancesà partir des DonnéesIntroduction – p.11/34
Enjeux - Constat : richesses inexploitées

Exploiter ce patrimoine de l’entreprise


Deux questions :
comment ?
dans quel but ? ... pour des systèmes d’aide à la
décision

Les décideurs ont un besoin grandissant d’obtenir


des informations pour des prises de décisions de
plus en plus rapide.

Produire une connaissance actionnable


la bonne information, au bon moment, à la bonne personne.

Extraction de Connaissancesà partir des DonnéesIntroduction – p.12/34


Exemples - Banque

Recherche de formes caractéristiques d’une fraude :


à la carte (au milieu de milliers de transactions)
Prédiction :
des clients qui vont partir
des clients qui vont augmenter leurs avoirs
Décision :
en matière de crédit (analyse du risque client)
des autorisations en crédit-revolving
Aide à l’arbitrage :
basé sur analyse de formes historiques des cours

Extraction de Connaissancesà partir des DonnéesIntroduction – p.13/34


Exemples - Banque

Extraction de Connaissancesà partir des DonnéesIntroduction – p.14/34


Exemples - Assurance

modèles de sélection et de tarification


analyse des sinistres
recherche des critères explicatifs
du risque
de fraude
prévision d’appels sur les plates-formes d’assurance
directe

Extraction de Connaissancesà partir des DonnéesIntroduction – p.15/34


Exemples - ...

Tous les secteurs sont touchés :


médecine
production
télécoms
droit
etc.

Extraction de Connaissancesà partir des DonnéesIntroduction – p.16/34


Industries concernées

Extraction de Connaissancesà partir des DonnéesIntroduction – p.17/34


Nouveautés

Exploratoire vs. confirmatoire

FD devrait être exploratoire


chercher tout azimut
sans préjugés
Statistiques sont confirmatoires
vérifier une hypothèse
vérifier une intuition
FD plus une extension qu’une révolution ?

Extraction de Connaissancesà partir des DonnéesIntroduction – p.18/34


Un processus en plusieurs étapes

poser le problème
rechercher les données
sélectionner les données pertinentes
nettoyer les données
transformer les variables
rechercher le modèle
évaluer les résultats
intégrer la connaissance

Extraction de Connaissancesà partir des DonnéesIntroduction – p.19/34


Un processus en plusieurs étapes

Connaissance

Interprétation
Evaluation

Patterns
Transformation
Fouille de Données

Pré−traitement Données transformées

Données pré−traitées
Sélections

Données cibles

Données

Extraction de Connaissancesà partir des DonnéesIntroduction – p.20/34


Fouille de Données

le Raisonnement à Base de Cas


les Agents Intelligents
les Règles d’Association
les Arbres de Décision
les Algorithmes Génétiques
les Réseaux Bayésiens
les Réseaux Connexionnistes
les Outils de Visualisation
l’Analyse de Données
etc.

Extraction de Connaissancesà partir des DonnéesIntroduction – p.21/34


Compromis entre les techniques

expert en modélisation compétences utilisateur métier


Etudier et prédire

élevé réseaux connexionnistes

algorithmes génétiques

réseaux bayésiens
pouvoir de prédiction

classification

régression

arbres de décision

règles d’association

raisonnements à base de cas


faible

faible lisibilité des résultats élevé

Voir et résoudre

Extraction de Connaissancesà partir des DonnéesIntroduction – p.22/34


Techniques utilisées

Extraction de Connaissancesà partir des DonnéesIntroduction – p.23/34


Logiciels utilisés

Extraction de Connaissancesà partir des DonnéesIntroduction – p.24/34


Méthodologies utilisées

Extraction de Connaissancesà partir des DonnéesIntroduction – p.25/34


Données et Connaissances

Donnée :
décrit des événements précis
exactitude vérifiable par référence au mode réel
numérique/symbolique
Connaissance :


catégorie abstraite (bon client/mauvais client ;


des clients qui achètent le produit achètent aussi le


produit )


couvre plusieurs exemples


expertise (humaine) formaliser la connaissance


remise en cause possible, pas exacte à


Extraction de Connaissancesà partir des DonnéesIntroduction – p.26/34
Des données aux connaissances et à la décision

Le chemin est long . . .


données brutes
récupération, transformation
alimentation
modélisation
recherche de connaissances
aide à la décision

Extraction de Connaissancesà partir des DonnéesIntroduction – p.27/34


L’ECD . . . essentiellement de l’ingénierie.

Statistiques

Bases de données Intelligence artificielle

Apprentissage Concepts

Reconnaissance des formes Modèles de décision

Analyse de données Bases de connaissances

Données Interface homme machine

Optimisation

Ensemble de techniques combinées de façon


opportuniste pour faire sortir des modèles, des
connaissances, des concepts à partir des données.
Extraction de Connaissancesà partir des DonnéesIntroduction – p.28/34
Entrepôt de données (Data warehouse)

le Data warehouse est une base d’informations


organisées pour répondre aux besoins spécifiques
de la prise de décision.
le Data warehouse est une application d’informatique
décisionnelle, dont la fonction est la récupération de
données existantes, le stockage et ces données
historiques, figées et référencées, et la mise à
disposition de l’utilisateur de ces informations sous
forme d’outils d’intérrogation, d’analyse relationnelle
ou multidimensionnelle, ou de visualisation.

Extraction de Connaissancesà partir des DonnéesIntroduction – p.29/34


Entrepôt de données (Data warehouse)

systèmes de production (domaines comptables,


facturation, ...) : grands volumes de données, très
détaillées
le Data warehouse : transformer ces masses de
données en informations dans un but d’aide à la
décision en mettant à la disposition des décideurs
des éléments d’analyse synthétiques

Extraction de Connaissancesà partir des DonnéesIntroduction – p.30/34


Entrepôt de données (Data warehouse)

Système Data
de production warehouse
Niveau de détail détaillé synthétique
des informations
Fonctions une seule plusieurs
de l’entreprise
Données figées non oui
Comparaison des données non, archivage oui, analyse
sur plusieurs années
Opérations à réaliser consultation, maj consultation

Extraction de Connaissancesà partir des DonnéesIntroduction – p.31/34


Entrepôt de données (Data warehouse)

Data Warehouse
SIAD

Méta Data

OLAP

EIS, tableurs

Data Marts
Bases
de production

Requeteurs
Administrateur
Extraction de Connaissancesà partir des DonnéesIntroduction – p.32/34
Les outils d’alimentation

Les outils d’alimentation servent à alimenter les


entrepôts de données :
les outils d’alimentation extraient, transforment et
stockent les données issues des bases de
production à destination de l’entrepôt de données, et
mettent à jour le dictionnaire de données (méta data)

extraction des données des bases de production


transformation des données (règles de gestion)
stockage des données et alimentation du dictionnaire
de données

Extraction de Connaissancesà partir des DonnéesIntroduction – p.33/34


Les outils d’alimentation

Méta données : informations qualifiant les données


extraites
date et heure de l’extraction
application(s) de production et base(s) de données
d’origines
mode de calcul
fréquences d’extraction
date de validité agrégée
etc.
Traçabilité sur les informations – autoriser le chemin
inverse.

Extraction de Connaissancesà partir des DonnéesIntroduction – p.34/34