Académique Documents
Professionnel Documents
Culture Documents
MATHÉMATIQUES ET
INFORMATIQUE
Fouille de Données
« Data Mining »
INTISSAR SALHI
UNIVERSITÉ HASSAN II DE CASABLANCA
ECOLE NORMALE SUPÉRIEURE DE L ’ENSEIGNEMENT TECHNIQUE DE
MOHAMMEDIA
Chapitre 1:
Introduction au
Data Mining
3
23/12/2022
Qu’est-ce que le DM ? 4
23/12/2022
Qu’est-ce que le DM ? 5
23/12/2022
Qu’est-ce que le DM ? 6
• Abduction : un procès réversible où les résultats sont toujours impliqués aux causes et vice-
versa
singuliers
• La clio a 4 roues
• La BMW M3 a 4 roues
Utilisée en Data mining (tirer une conclusion à partir d ’une série de faits,
pas sûre à 100%).
23/12/2022
Motivations (1/2) 9
23/12/2022
Motivations (2/2) 10
• Améliorer la productivité
▪ Forte pression due à la concurrence du marché
▪ Brièveté du cycle de vie des produits
▪ Besoin de prendre des décisions stratégiques efficaces:
- Exploiter le vécu (données historiques) pour prédire le futur et anticiper le marché
- individualisation d es consommateurs (dé-massification).
23/12/2022
Le processus de découverte de
11
connaissances (Knowledge Data Discovery)
23/12/2022
Démarche méthodologique (1/2) 12
Comprendre l’application
• connaissances a priori, objectifs, etc.
23/12/2022
Data Mining et aide à la décision
14
Potentiel de
support de
décision Prise de décisions
Présentation des
connaissances
Décideur(s)
Techniques de
visualisation
Exploration de données
(Statistiques, requêtes,…)
Sources de données
( Papier , fichiers, fournisseurs d’information, SGBD…)
23/12/2022
Objectifs 15
23/12/2022
Data Mining et Statistiques 16
23/12/2022
Découverte de modèles fonctionnels 17
Méthodes de régression :
Régression linéaire : Y = aX+ b (a, b : valeurs réelles)
Nombre de petits
commerçants
Nombre de
grandes surfaces
23/12/2022
Découverte de modèles fonctionnels 18
Nombre de petits
commerçants Techniques statistiques inadéquates :
nombre de facteurs important, modèles
non linéaires.
Nombre de
grandes surfaces
23/12/2022
Domaines d’application 19
Vous êtes un agent d’assurance et vous devez définir un paiement mensuel adapté à
un jeune de 18 ans qui a acheté une Ferrari.
Vous êtes à l’étranger et quelqu’un a volé votre carte de crédit et votre mobile .
compagnies bancaires
compagnies Téléphoniques
23/12/2022
22
Paramètres d’un processus KDD
23/12/2022
Les données 23
Valeurs des champs des enregistrements des tables de l’entrepot (base de données).
Types :
• Données discrètes : données binaires (sexe, …), données énumératives
(couleur, …), énumératives ordonnées (réponses 1:très satisfait, 2:satisfait, …).
• Données continues : données entières ou réelles (âge, salaire, …)
• Dates
• Données textuelles
• Pages/liens web, Multimédia, …
23/12/2022
Tâches du Data Mining 24
• Classification
• Clustering (Segmentation)
• Recherche d’associations
• Recherche de séquences
• Détection de déviation
23/12/2022
Classification 25
Elle permet de prédire si une instance de donnée est membre d’un groupe ou
• Classes :
• Groupes d’instances avec des profils particuliers
• Apprentissage supervisé : classes connues à l’avance
23/12/2022
Clustering (Segmentation) 26
23/12/2022
Règles d’association 27
Corrélations (ou relations) entre attributs (méthode non supervisée- les classes sont
inconnues) .
• applications : grande distribution, gestion des stocks, web (pages visitées), etc.
• Exemple:
❑ BD commerciale : panier de la ménagère
❑ Articles figurant dans le même ticket de caisse
❑…
23/12/2022
Recherche de séquences 28
• Exemple:
❑ BD commerciale (ventes par correspondance)
❑ Commandes de clients
❑… 23/12/2022
Détection de déviation 29
23/12/2022
Techniques utilisées 30
❑ K-moyennes, A-priori, K-NN
❑ Réseaux de neurones
❑ Algorithmes génétiques
❑ Chaînes de Markov cachées
❑ Arbres de décision
❑ Réseaux bayesiens
❑ Soft computing : ensembles flous
❑ CART, OC1
❑ FP-growth, FCP-growth,,,,
23/12/2022
Résumé - Introduction 31