Académique Documents
Professionnel Documents
Culture Documents
Partie 1
1
DATA MINING
Plan du cours
1. introduction
2. problématique
3. Données, informations et connaissances
4. Data mining: définitions
5. Data mining et les autres sciences
6. Méthodes et techniques
7. Logiciels de data mining
2
Introduction
3
Introduction
4
Introduction
5
Introduction
6
Introduction
1
Problématique
• KDD:
• générer et valider automatiquement de nouvelles
hypothèses à partir de données existantes
• transformer les données enfouies dans des bases de
données en information utile
1
Données, Informations et connaissances
• Un tableau de données
– N lignes : les individus, les objets d’étude
– P colonnes : les variables, les caractéristiques des objets
• Une base de données relationnelle
– des tables des tableaux
– des liens entre les tables : un client (dans la table des clients) a acheté
des produits (dans la table des produits)
• Un entrepôt de données (data warehouse)
– Un entrepôt de données (data warehouse) : mise en commun de bases
de données
– agrégation de valeurs : nombre de commandes par enseigne et par
mois d’un produit
• Difficultés
– Données complexes, hétérogènes, évolutives et volumineuses
1
Les données dans les SI
1
Les données dans les SI
• Attribut qualitatif ordinal : un attribut
qui contient un ordre. Exemple: Degré de
satisfaction
Exemple: très satisfait, satisfait, insatisfait,
très insatisfait.
• Attribut qualitatif nominal: un attribut
qui correspond à des noms, il n’y a aucun
ordre précis.
Exemple: Sexe(F,M)
1
Les données dans les SI
1
Les données dans les SI
• Textes
Corpus documentaires, bases de connaissances,
sites web (blogs, forums), etc.
Exemple: PageRank de Google
• Transactions
Liste d'achats, visites de sites web, mouvements
de fonds, etc.
Exemple: Amazon, cartes de fidélité
• Multimédia:
Exemples: images, sons, vidéos
1
L’informatique décisionnelle
2
Processus de décision
2
Data mining et les autres sciences
Base de données
Data
IA mining Statistiques
Autres
2
Data mining et les autres sciences
2
Les étapes à suivre pour l’extraction des
connaissances
2
Les étapes à suivre pour l’extraction des
connaissances (2)
1. Compréhension du domaine d’application
2. Création du sous-ensemble cible de données
3. Nettoyage des données (erreurs, données manquantes, valeurs atypiques)
4. Transformation des données (normalisation, linéarisation, découpage en classes,
compression)
5. Explicitation de l’objectif et de la stratégie d’analyse
6. Choix des méthodes
7. Test, en précisant les critères
8. Exploitation
9. Diffusion
2
Data mining et le KDD
2
Data mining et le KDD (Exemple)
Décision stratégique
-Promouvoir le produit P dans la
région R
connaissances/ Data mining - Réaliser un mailing sur le produit P
pour les famille de profile F
-Une quantité Q du produit P est
vendu dans la région R
-Les familles de profile F utilise
M% du produit p durant la
période N
Information / requêtes
-X habite la région R
-Y à A ans
-Z dépense son argent dans la
ville V de la région R
Données
Clients
Magasins
Ventes
Démographies
2 Géographie
Data mining: Exemple de problème
2
Data mining: Exemple de problème (suite)
3
Data Mining ou non?
OUI NON
3
Tester vos connaissances
3
Méthodes de fouilles de données
3
Les algorithmes
Classification supervisée:
• Méthode de Bayes naïf
• k plus proches voisins
• Arbres de décision
• Réseaux de neurones
Classification non supervisée :
• K means
3
Data mining: Techniques
3
Exemple
3
Exemple
Nouvel exemple
EX8: (Temps=Soleil; Humidité=Haute; Vent=Non)
Jouer: Oui ou Non?
3
Exemple
4
Exemple
4
Logiciels de Data mining
• Logiciels commerciaux
• Logiciels libres
• TANAGRA
• ORANGE
• WEKA
4
DATA MINING