Académique Documents
Professionnel Documents
Culture Documents
Data Mining (Partie 1)
Data Mining (Partie 1)
Département Informatique
Idriss MOUMEN
2022/2023
Idriss.moumen@uit.ac.ma
Plan de cours
Partie 1
Data Mining : Techniques & Concepts
Partie 2
Exploration et visualisation des données en R
Partie 3
Manipulation des données en R
Partie 4
Etude de cas
2
Qu'est-ce que le Data Mining ?
Introduction
C'est analyser les données pour trouver des modèles (patterns) cachés en utilisant
des moyens automatiques.
3
Où le Data Mining est-il utilisé?
Communications
Pour prédire le comportement des clients afin de proposer des campagnes très
ciblées et pertinentes.
4
Où le Data Mining est-il utilisé?
Assurance
5
Où le Data Mining est-il utilisé?
Education
Data Mining permet aux enseignants d'accéder aux données des élevés, de prévoir
leurs niveaux de performance et de trouver des élevés ou des groupes d'élevés qui
nécessitent une attention particulière.
Exemple
les étudiants qui sont faibles en matière de mathématiques.
6
Où le Data Mining est-il utilisé?
Fabrication
Avec l'aide de Data Mining, les fabricants peuvent prévoir l'usure des actifs de
production. Ils peuvent anticiper la maintenance, ce qui les aide a les réduire et a
minimiser les temps d'arrêts .
7
Où le Data Mining est-il utilisé?
Bancaire
Data Mining aide le secteur banquier a se faire une idée des risques du marché et a
gérer la conformité règlementaire. Il aide les banques a identifier les défaillants
probables afin de décider d'émettre des cartes de crédit, des prêts, etc.
8
Où le Data Mining est-il utilisé?
Vente en details
Les techniques de Data Mining aident les centres commerciaux et les épiceries a
identifier et organiser les articles les plus vendables dans les positions les plus
attentives.
Il aide les propriétaires de magasins a proposer une offre qui encourage les clients a
augmenter leurs dépenses.
9
Où le Data Mining est-il utilisé?
Service providers
10
Où le Data Mining est-il utilisé?
E-Commerce
Les sites web de commerce électronique utilisent Data Mining pour proposer des
ventes croisées et des ventes supplémentaires via leurs sites web. L'un des noms les
plus célèbres est Amazon, qui utilise des techniques d'exploration de données pour
attirer davantage de clients dans sa boutique en ligne.
11
Où le Data Mining est-il utilisé?
Enquête criminelle
Data Mining aide les agences d'enquêtes criminelles a déployer des forces de police
(ou un crime est-il le plus susceptible de se produire et quand ?).
12
Où le Data Mining est-il utilisé?
Bio-informatique
Data Mining permet d'exploiter des données biologiques a partir d'énormes datasets
rassembles en biologie et en médecine.
13
Sur quels types de données s'applique le Data Mining?
Types de données
Fichiers plats • Capteurs → variables quantitatives,
qualitatives, ordinales
BD's relationnelles • Texte → Chaîne de caractères
Data warehouses • Parole → Séries temporelles
• Images → données 2D
BD's transactionnelles
• Videos → données 2D + temps
BD's avancées • Réseaux → Graphes
• BD's objet et objet-relationnelles • Flux → Logs, coupons. . .
• BD's spatiales
• Séries temporelles
• BD's Textes et multimédia
• BD's Hétérogènes
• WWW (web mining)
14
Data Mining vs KDD
Data Mining : C'est l'utilisation des algorithmes pour extraire information et/ou modelés
comme partie du processus KDD.
15
Data Mining vs KDD
Processuc KDD
Data Mining: Le cœur du processus
d'extraction de connaissances.
16
Data Mining vs Statistiques
17
Data Mining vs
machine Learning
Machine Learning: C'est un sujet de l'intelligence artificielle (IA) qui s'occupe de la façon
d'écrire des programmes qui peuvent apprendre. Dans le Data Mining, Machine Learning est
habituellement utilises pour la prédiction et classification.
18
Data Mining vs
machine Learning
Apprentissage
Classification
supervisé
Machine Learning
Apprentissage non
Clustering
supervisé
19
Application du Data Mining
Applications par
domaine
20
Les étapes du
Data Mining
21
Cycle de vie d'un
projet de Data Mining
1. Apprentissage du domaine d'application :
• Connaissances nécessaires et buts de l'application
2. Création du jeu de données cible :
• sélection des données
3. Nettoyage et prétraitement des données (jusqu'a 60% du travail !)
4. Réduction et transformation des données:
• Trouver les caractéristiques utiles, dimensionnalité/réduction des variables
5. Choix des fonctionnalités Data Mining synthèse, classification régression, association, clustering;
6. Choix des algorithmes;
7. Data Mining : recherche de motifs (patterns) intéressants
8. Evaluation des motifs et représentation des connaissances: visualisation, transformation, élimination des motifs
redondants, etc.
9. Utilisation des connaissances découvertes.
22
Les techniques du Data Mining
Sequential
Prediction Association rules
patterns
23
Taches en Data Mining
Descriptives Regression
24
Les algorithmes basiques du Data Mining
Les algorithmes
basiques
Règles
Classication Clustering Régression
d'association
Classification
26
SVM (Support Vector Machine)
• La machine a vecteurs de support SVM appelés aussi séparateurs a vaste marge est une technique
d’apprentissage supervise destinée a résoudre des problèmes de classification.
• SVM est une méthode de classification a deux classes qui tente de séparer parfaitement les deux
ensembles d’exemples.
• La méthode cherche alors l’hyperplan qui sépare les ensembles de données, en garantissant que la
marge entre le plus proche de ces données soit maximale.
27
SVM (Support Vector Machine)
X2
= +1
Donnée:
= -1
<𝑥𝑖 ,𝑦𝑖 >, i=1,2,3,4….,+∞
𝑑 Hyperplan
𝑥𝑖 ∈ 𝑅
𝑦𝑖 ∈ {−1 , +1}
28
SVM (Support Vector Machine)
X2
= +1
Donnée: = -1
29
SVM (Support Vector Machine)
Avantages de
SVM
30
SVM (Support Vector Machine)
Inconvénients de
SVM
31
Arbre de decision C4.5
Arbre de décision
C4.5
Les arbres de décision sont des schémas représentant les résultats possibles d’une série de choix
interconnectes. Ils sont des classifier(non des classeurs) qui opérant sur des instances représentées par
des formalismes attribut/valeur.
Les nœuds testent les attributs. Il y a une branche pour chaque valeur testé. Les feuilles servent a
spécifier les catégories (deux ou plus).
Arbre de décision
C4.5
L’objectifs de C4.5 est de construire un arbre de décision avec un attribut a chaque nœud. Cet
algorithme a quelques cas de base:
33
Arbre de decision C4.5
Avantages de
C4.5
34
Arbre de decision C4.5
Inconvénients de
C4.5
• Ils sont instables, càd un petit changement dans les données peut entrainer une modification
importante de la structure de l’arbre de décision optimal.
• Les calcules peuvent devenir très complexes.
• Ne gère pas les données en streaming
• Evolutivité dans le temps: si les données évoluent dans le temps, il est nécessaire de relancé la phase
d'apprentissage
35
la méthode des k plus proches voisins
36
la méthode des k plus proches voisins
37
la méthode des k plus proches voisins
Résumé de
l’algorithme k-NN
Etape 1:
• Définissez la distance ou mesure de similarité de deux échantillons(instances)
Etape 2:
• Déterminer k (généralement impaire pour faciliter le vote)
Etape 3:
• Calculer les distances entre la nouvelle entrée et toutes les données de la base de l’apprentissage
Etape 4:
• Triez la distance et déterminez les k plus proches voisins sur la base de la distance minimale
Etape 5:
• Rassemblez les étiquettes de classe de ces voisins
Etape 6:
• Déterminer l’étiquette de prédiction en fonction de votre classe majoritaire
38
la méthode des k plus proches voisins
Avantages de
k-NN
• Apprentissage rapide
• Méthode facile a comprendre
• Adapte aux domaines ou chaque classe est représenté par plusieurs prototypes
39
la méthode des k plus proches voisins
Inconvénients de
k-NN
• Prédiction lente car il faut revoir tous les exemples a chaque fois
• Méthode gourmande en place mémoire
• Vulnérable aux données de grande dimension
40
Naïve Bayes
Naïve Bayes
La classification Naïve Bayésienne est un type de classification probabiliste simple basée sur le
théorème de bayes avec une forte indépendance (naïve).
But: affecter a une instance X la classe C telle que P(C|X) est maximale
41
Les techniques du Data Mining
Clustering
• Identifier les données qui se ressemblent. Ce processus aide a comprendre les differences et les
similitudes entre les données. c'est similaire a la classification, sauf que les groupes no sont pas
prédéfinies.
• L'objectif est de décomposer ou de segmenter un ensemble de données ou individus en groupes qui
peuvent être disjoints ou non.
• Les groupes se forment a base de la similarité des données o des individus en certaines variables
• Comme groupes suggères (imposes) par les données, l'expert doit donner une interprétation des
groupes qui se forment.
Méthodes :
• K-means
• Classification hiérarchique (groupes disjoints)
• Classification pyramidale (groupes non disjoints)
42
Les algorithmes basiques du Data Mining
Qualité d'un
clustering
Une bonne méthode de clustering produira des clusters d'excellente qualité avec :
43
Les algorithmes basiques du Data Mining
Objectifs du
clustering
44
Classification supervisé
Workflow de
Classification supervisée
Test Data Training data
Feature Feature
Extraction/Selection Extraction/Selection
Training
Classifier model Algorithm
45
Les algorithmes basiques du Data Mining
Important !
46
K-means
Avantages de
K-Means
47
Clustering
Inconvénients de
K-Means
48
Les techniques du Data Mining
Régression
Règles d'association
• Cette technique d'exploration de données permet de trouver l'association entre deux ou plusieurs
éléments. Il découvre un motif caché dans le jeu de données.
• Analyse d'anuité : connue comme (Link Analysis) se réfère a découvrir les relations non évidentes
entre les données.
Méthodes :
Règles d'associations (association rules)
Analyse de corrélation
50
Les techniques du Data Mining
Prédiction
• Prédiction a utilisé une combinaison des autres techniques d'exploration de données telles que les
tendances, les modelés séquentiels, les regroupements, la classification, etc.
• Elle analyse les évènements ou instances passées dans le bon ordre pour prédire un évènement futur.
51
Avantages du Data Mining
• Il y a des chances que les entreprises vendent des informations utiles de leurs clients a d'autres
entreprises pour de l'argent.
• Par exemple: American Express a vendu les achats effectués par carte de crédit de ses clients a
d'autres sociétés.
• De nombreux logiciels d'analyse de Data Mining sont difficiles a utiliser et nécessitent une formation
avancée.
• Différents outils d'exploration de données fonctionnent de différentes manières en raison des
différents algorithmes utilisés dans leur conception. Par conséquent, la sélection d'un outil
d'exploration de données correct est une tache très difficile.
53
Conclusion
Résumé
54
Conclusion
Résumé
• Le langage R et Oracle Data Mining sont des outils du Data Mining de premier plan.
• La technique du Data Mining aide les entreprises a obtenir des informations basées sur les
connaissances.
• Le principal inconvénient du Data Mining est que de nombreux logiciels d'analyse sont difficiles a
utiliser et nécessitent une formation avancée.
• Le Data Mining est utilisé dans divers secteurs tels que les communications, les assurances,
l'éducation, la fabrication, la banque, la vente au détails, les prestataires de services, le commerce
électronique, la bio-informatique des supermarchés.
55