Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
2020-2021
1
Data/des données
2
Data Mining ?
• Forage de données, explorations de données ou fouilles de données, ce sont les traductions possibles
du data mining.
• En règle générale, le terme Data Mining désigne l’analyse de données depuis différentes perspectives et le
fait de transformer ces données en informations utiles, en établissant des relations entre les données.
5
5
3
Introduction
Motivation: Le besoin crée l’invention
Les outils de collecte automatique des données et les bases de données conduisent à d’énormes masses de
données stockées dans des entrepôts
- Entrepôts du Web
Introduction
Motivation: Le besoin crée l’invention
4
Introduction
Motivation: Le besoin crée l’invention
Introduction
Motivation: Le besoin crée l’invention
10
5
Introduction
Motivation: Le besoin crée l’invention
11
Introduction
Motivation: Le besoin crée l’invention
12
6
Introduction
Motivation: Le besoin crée l’invention
Métaphore
•Trop de données...
– Paradoxe : trop données mais pas assez d’informations
13
Introduction
Motivation: Le besoin crée l’invention
14
7
Evolution des sciences
15
16
8
Data warehouse
O Data warehouse est un entrepôt de données d’une entreprise qui contient quelques données opérationnelles,
données agrégées (agrégations), données historiques, données évolutives et possiblement des données externe à
l’entreprise qui ont une relation avec l’activité de l’entreprise.
O Ces données sont stockées dans une ou plusieurs base de données relationnelle et sont accessibles par toutes
les applications orientées aide à la décision.
Data Warehouse est usuellement le point de départ de Data Mining.
O Data Warehouse et Data Mining sont des parties du processus KDD.
17
Pourquoi maintenant?
18
9
Fouille de données: Définition
Ce qu’est le Data Mining
• Terme récent (1990) représentant un mélange d’idées et d’outils provenant de la Statistique, l’Intelligence
Artificielle et l’Informatique.
• La définition exacte reste peu claire et les terminologies associées au Data-Mining sont encore floues.
Une définition suivant un critère égocentré :
Le data-mining est un processus de découverte de règle, relations, corrélations et/ou dépendances à
travers une grande quantité de données, grâce à des méthodes statistiques, mathématiques et de
reconnaissances de formes.
Autres définitions :
•Data mining : Un processus d’extractions automatique d’informations prédictives à partir de grandes bases
de données.
19
• Data mining :
– Extraction d’informations intéressantes (implicites, et potentiellement utiles)
à partir de grandes bases de données.
20
10
Fouille de données: Définition
• Autres appellations:
Analyse de données/patterns,
21
22
11
BD VS DATA MINING
23
O En Data mining
O Des millions d’individus
O Des centaines de variables
O Données recueillies sans étude préalable
O Nécessité de calculs rapides
O Corpus d’apprentissage.
24
12
A quoi sert?
Services financiers Marketing
–Attrition (churn) –Gestion de la relation client (CRM)
–Détection de fraudes –Optimisation de campagnes marketing
–Identification opportunités de ventes –Ventes croisées
25
Application
O Gestion et analyse commerciales
O Analyse clientèle ou CRM analytique (gestion de la relation client) :
O Qui sont mes clients ? Pourquoi sont-ils mes clients ? Comment les conserver ou les faire revenir ?
O Marketing ciblé, actions commerciales, vente croisée :
O Où placer ce produit dans les rayons ? Comment cibler plus précisément le mailing concernant ce produit ?
O Analyse du risque
O Prédiction, fidélisation des clients, contrôle qualité, compétitivité
O Détection des fraudes, analyse des incidents
O Autres applications
O Gestion, indexation et classification de documents, du web et de la navigation sur Internet.
O Moteurs de recherche intelligents
26
13
Application
O Mieux connaître le client
→ Pour mieux le servir
→ Pour augmenter sa satisfaction
→ Pour augmenter sa fidélité
(+ coûteux d’acquérir un client que le conserver)
27
Applications
• L’analyse d’une BD de transactions d’un supermarché permet d’étudier le comportement des clients :
– réorganiser les rayons/ segmentation du marché
– Ajuster les promotions
– Associations/co-relations entre ventes de produits
• L’analyse de données médicales :
– Support pour la recherche
• L’analyse de données financières :
– Prédire l’évolution des actions
– Organismes de crédit (dresser des profils de clients)
• Domaine d’astronomie
• Autres Applications
– Text mining : emails, documents Web.
– des algorithmes de data mining pour réorganiser leurs sites WEB afin de faciliter la navigation.
28
14
La fouille de données : autres domaines
30
15
Applications KDD : Commerce électronique
31
• Customer
• But : partitionner les consommateurs par rapport à leurs achats
• Motivation :
- product packages
- établir une nouvelle politique tarifaire
• Problème : 50% des clients de Dell achètent leurs machines à travers le site Web. Mais seulement 0.5% des
visiteurs du site deviennent clients.
• Solution : Stocker les séquences de clicks des visiteurs, analyser les caractéristiques des acheteurs et lors de
la visite d’un client potentiel, adapter le contenu du site pour maximiser la probabilité d’un achat.
32
16
Applications KDD : puces ADN
33
O Cette recherche est effectuée à l’aide des méthodes mathématiques, statistiques ou algorithmiques
17
Le processus KDD : Knowledge Discovery from Databases
36
18
Le processus KDD
1-«Focussing»
• Comprendre l’application
• Définir l’objectif KDD
• Ex. : Etablir des «profils de consommateurs»
• Acquisition des données
• Ex. : Bases de données des factures
• Gestion des données
• Système de fichiers ou SGBD ?
• Sélection des données pertinentes
Ex. : considérer les 100 000 clients les plus importants et tous leurs appels sur l’année 2019
37
Le processus KDD
2- « Pré-traitement »
• «Complétion»
• Le cas des valeurs manquantes
le cas du bruits
• Le pré-traitement des
données est souvent la tâche
la plus coûteuse dans le
processus KDD!
38
19
Le processus KDD
3-Transformation
Discrétisation des attributs numériques
• Indépendamment de la tâche de fouille de données
• Ex. : partitionner le domaine des attributs en des intervalles de même longueur.
• Spécifique de la tâche de fouille de données
• Partitionner en des intervalles qui maximisent le gain d’information par rapport à la classe
• Agrégation d’un ensembles d’attributs
• Ex. : à partir d’appels
• nb d’appels par jour, semaine...
•Généralisation des données
•Normalisation des données
39
Le processus KDD
4-Fouille de données
• l’application d’algorithmes efficaces qui identifient les motifs contenus dans une base de données
• Ensemble de techniques d'exploration des données permettant d'extraire d'une base de données des
connaissances sous la forme de modèles de description afin de :
-décrire le comportement actuel des données et/ou
- prédire le comportement futur des données
• Les différentes tâches de fouille :
40
20
Le processus KDD
4-Fouille de données
• Applications
• Clustering
- Segmentation, structuration d’un ensemble de documents «web», découvertes de communautés
• Classification :
- prédiction de la fonction d’une protéine, accorder un crédit, interpréter des images en astronomie, etc.
• Règles d’association :
- mise en rayon, promotion, améliorer la structure d’un site web ...
41
Le processus KDD
visualisation
5- Evaluation appropriée
• Présentation des motifs découverts avec une visualisation appropriée
• Evaluation des motifs par l’utilisateur
• Si l’évaluation n’est pas satisfaisante, alors relancer la fouille avec :
• des paramètres différents
• d’autres méthodes
• d’autres données
• Si l’évaluation est positive :
• Intégrer les connaissances découvertes dans une base de connaissance
• Utiliser ces connaissances dans les futures processus KDD
42
21
Data Mining: Données, information, connaissance
43
Exemple: Tester le pourcentage des clients qui consultent leurs comptes bancaires sur le web
Données?
Information?
Connaissance?
44
22
Les données
Dans le domaine de la gestion et de la finance, de très nombreuses données (informations), de types très variés, peuvent être
relevées: C’est pour ces besoins
que sont mis en œuvre
• nombre de ventes par mois d’un commercial,
les outils d’analyse de
• prix d’achat d’une matière première au cours du temps, données
• bénéfices d’une société sur plusieurs exercices,
• préférences d’achat de consommateurs,
• avis de clients sur des produits à commercialiser,
• indicateurs de performance de plusieurs entreprises, à un instant T ou au cours du temps...
Les données brutes sont en général peu aisées d’interprétation directe: ce sont de "gros" tableaux remplis de "chiffres"....
45
Les données
Les données Quelles données ?
Population: groupe ou ensemble d’individus que l’on analyse.
Sondage: étude d’une partie seulement d’une population appelée échantillon.
Variables: ensemble de caractéristiques d’une population
— quantitatives : nombres sur lesquels les opérations usuelles (somme, moyenne,...) ont un sens ; elles peuvent
être discrètes ou continues;
— qualitatives : appartenance à une catégorie donnée ; elles peuvent être nominales ou ordinales quand les
catégories sont ordonnées
- Les modalités d’une variable sont l’ensemble des valeurs qu’elle prend dans les données ex : les modalité de
notes sont {0, 1, 2, · · · , 20} les modalités de couleur sont {bleu,vert,noir,...}
46
23
Les données
Les données: tableau individu*variables
47
Attribut - valeur
▶ La valeur d’un attribut est un nombre ou un symbole.
▶ Ne pas confondre attribut et valeur
48
24
Les données: tableau individu*variables
Les données
brutes sont
difficiles à
interpréter.
49
50
25
But et méthode de l’analyse de données
ACP
51
• Sciences de la vie
- médecine : patients et maladies
- génomique : gènes, patients,
• Marketing
-fichiers clients
-traces d’usage (site web, communication mobile)
-Achats
• Industrie
- senseurs : température, vibration
52
26
Outils utilisés
Statistiques élémentaires
on calcule des moyennes, variances corrélations...
Statistiques inférentielles
on utilisera quelques tests statistiques.
Matrices les tableaux de données
sont vus comme des matrices : opérations élémentaires, vecteurs propres...
Espaces métriques
les données sont aussi vues comme des nuages de points en grande dimension : produits scalaires,
…
53
Description : consiste à trouver les caractéristiques générales relatives aux données fouillées
Prédiction : consiste à faire de l’inférence à partir des données actuelles pour prédire des évolutions
futures
54
27
Fonctionnalités du Data Mining
55
56
28
Fonctionnalités du Data Mining
Techniques prédictives
57
Prédiction
29
Fonctionnalités du Data Mining
Techniques prédictives
Classification
– Arbres de décision
– Classification bayésienne
– Réseaux neuronaux
– Régression
– …
59
60
30
Un exemple de découverte d'information et de connaissance
61
- réalisable en SQL à partir des données opérationnelles sous réserve d'indexations suffisantes des tables concernées
- seule difficulté : ne pas pénaliser le serveur transactionnel par des requêtes trop longues
Q2 : A-t-on vendu plus d'abonnements de magazines de sport cette année que l'année dernière ?
-nécessite de conserver toutes les dates de souscription même pour les abonnements résiliés
- l'utilisateur devrait poser de nombreuses requêtes
62
31
Un exemple de découverte d'information et de connaissance
réponse formulée par une valeur estimant la probabilité que la règle soit vraie
• en général des outils statistiques sont utilisés
• cette question peut être généralisée, on pourrait ainsi :
- chercher des associations fréquentes entre acheteurs de magazine pour effectuer des actions promotionnelles
- introduire une composante temporelle pour chercher si le fait d'être lecteur d'un magazine implique d'être, plus tard,
lecteur d'un autre magazine
63
Q5 : Peut-on prévoir les pertes de clients et prévoir des mesures pour les diminuer ?
question ouverte : Il faut disposer d'indicateurs comme : durées d'abonnement, délais de paiement, ...
• question avec une forte composante temporelle et nécessite des données historiques
64
32
Data Mining: Confluence de plusieurs Disciplines
IA Statistique
Autres
Reconnaissance des formes Disciplines
65
Logiciels libres
- R: https://cran.r-project.org/bin/windows/base/
-Weka ;
- RapidMiner ;
- Orange ;
- SIPINA/Tanagra.
66
33
Questions
???
67
34