Data Mining (Partie 1)

Data Mining (Partie 1)
Département Informatique
Master Big Data & Cloud Computing
Idriss MOUMEN
2022/2023
Idriss.moumen@uit.ac.ma
Plan de cours
Partie 1
Data Mining : Techniques & Concepts
Partie 2
Exploration et visualisation des données en R
Partie 3
Manipulation des données en R
Partie 4
Etude de cas
2
Qu'est-ce que le Data Mining ?
Introduction
Extraction d'informations intéressantes a partir de grandes bases de données
C'est analyser les données pour trouver des modèles (patterns) cachés en utilisant
des moyens automatiques.
C'est un processus non élémentaire de recherche de relations, corrélations,

dépendances, associations, modèles, structures, tendances, classes (clusters),
segments, lesquelles sont obtenues de grande quantité de données
L'objectif principale de Data Mining c'est de créer un processus automatique qui a

comme point de départ les données y comme finalité l'aide a la prise des décisions.
3
Où le Data Mining est-il utilisé?
Communications
Pour prédire le comportement des clients afin de proposer des campagnes très
ciblées et pertinentes.
4
Assurance
Data Mining aide les compagnies d'assurance a rentabiliser leurs produits et a

promouvoir de nouvelles offres auprès de leurs clients existants ou nouveaux.
5
Education
Data Mining permet aux enseignants d'accéder aux données des élevés, de prévoir
leurs niveaux de performance et de trouver des élevés ou des groupes d'élevés qui
nécessitent une attention particulière.
Exemple
les étudiants qui sont faibles en matière de mathématiques.
6
Fabrication
Avec l'aide de Data Mining, les fabricants peuvent prévoir l'usure des actifs de
production. Ils peuvent anticiper la maintenance, ce qui les aide a les réduire et a
minimiser les temps d'arrêts .
7
Bancaire
Data Mining aide le secteur banquier a se faire une idée des risques du marché et a
gérer la conformité règlementaire. Il aide les banques a identifier les défaillants
probables afin de décider d'émettre des cartes de crédit, des prêts, etc.
8
Vente en details
Les techniques de Data Mining aident les centres commerciaux et les épiceries a
identifier et organiser les articles les plus vendables dans les positions les plus
attentives.
Il aide les propriétaires de magasins a proposer une offre qui encourage les clients a
augmenter leurs dépenses.
9
Service providers
Les fournisseurs de services comme les industries de la téléphonie mobile et des

services publics utilisent Data Mining pour prédire les raisons lorsqu'un client quitte
son entreprise.
Ils analysent les détails de la facturation, les interactions du service client, les plaintes
adressées a l'entreprise pour attribuer a chaque client un score de probabilité et des
incitations.
10
E-Commerce
Les sites web de commerce électronique utilisent Data Mining pour proposer des
ventes croisées et des ventes supplémentaires via leurs sites web. L'un des noms les
plus célèbres est Amazon, qui utilise des techniques d'exploration de données pour
attirer davantage de clients dans sa boutique en ligne.
11
Enquête criminelle
Data Mining aide les agences d'enquêtes criminelles a déployer des forces de police
(ou un crime est-il le plus susceptible de se produire et quand ?).
12
Bio-informatique
Data Mining permet d'exploiter des données biologiques a partir d'énormes datasets
rassembles en biologie et en médecine.
13
Sur quels types de données s'applique le Data Mining?
Types de données
Fichiers plats • Capteurs → variables quantitatives,
qualitatives, ordinales
BD's relationnelles • Texte → Chaîne de caractères
Data warehouses • Parole → Séries temporelles
• Images → données 2D
BD's transactionnelles
• Videos → données 2D + temps
BD's avancées • Réseaux → Graphes
• BD's objet et objet-relationnelles • Flux → Logs, coupons. . .
• BD's spatiales
• Séries temporelles
• BD's Textes et multimédia
• BD's Hétérogènes
• WWW (web mining)
14
Data Mining vs KDD
KDD (Knowledge Discovery in Databses) : C'est le processus de trouver information et/ou

modelés utiles a partir de données.
Data Mining : C'est l'utilisation des algorithmes pour extraire information et/ou modelés
comme partie du processus KDD.
15
Data Mining vs KDD
Data Mining: C'est une partie du

processus KDD
Processuc KDD
Data Mining: Le cœur du processus
d'extraction de connaissances.
16
Data Mining vs Statistiques
Data Mining Statistiques
• Des millions d'individus • Quelques centaines d'individus

• Des centaines de variables • Quelques variables
• Données recueillies sans étude VS • Fortes hypothèses sur les lois
préalable statistiques
• Nécessite de calculs rapide • Importance accordée au calcul
• Corpus d'apprentissage • Echantillon aléatoire
17
Data Mining vs
machine Learning
Machine Learning: C'est un sujet de l'intelligence artificielle (IA) qui s'occupe de la façon
d'écrire des programmes qui peuvent apprendre. Dans le Data Mining, Machine Learning est
habituellement utilises pour la prédiction et classification.
18
Data Mining vs
machine Learning
Apprentissage
Classification
supervisé
Machine Learning
Apprentissage non
Clustering
supervisé
• La différence distinct entre l'apprentissage supervisé et l'apprentissage non-supervisé est le fait

que l'apprentissage non-supervisé cherche a trouver des partitions de modèles par lui-même,
• l'extraction des données est donc descriptive.
• L'apprentissage supervisé est utilisé quand l'utilisateur sait labelliser les informations.
• l'extraction des données est donc prédictive.
19
Application du Data Mining
Applications par
domaine
20
Les étapes du
Data Mining
1. Nettoyage des données (erreurs, données manquantes);

2. Transformation éventuelle des données (normalisation, linéarisation...);
3. Explicitation de l'objectif de l'analyse en terme statistique (régression, classification,
clustering...);
4. Choix de la méthode a utiliser;
5. Mise en œuvre informatique
6. Test (validation de la qualité des résultats);
7. Exploitation
21
Cycle de vie d'un
projet de Data Mining
1. Apprentissage du domaine d'application :
• Connaissances nécessaires et buts de l'application
2. Création du jeu de données cible :
• sélection des données
3. Nettoyage et prétraitement des données (jusqu'a 60% du travail !)
4. Réduction et transformation des données:
• Trouver les caractéristiques utiles, dimensionnalité/réduction des variables
5. Choix des fonctionnalités Data Mining synthèse, classification régression, association, clustering;
6. Choix des algorithmes;
7. Data Mining : recherche de motifs (patterns) intéressants
8. Evaluation des motifs et représentation des connaissances: visualisation, transformation, élimination des motifs
redondants, etc.
9. Utilisation des connaissances découvertes.
22
Les techniques du Data Mining
LES TECHNIQUES DU Data Mining
Classification Clustering Regression Outlier Detection
Sequential
Prediction Association rules
patterns
23
Taches en Data Mining
Descriptives Regression
consiste à trouver les caractéristiques

Classification
générales relatives aux données
Predictive
fouillées (résumé/synthèse, Prediction
Clustering, Règles d’association)
Analyse des
series
temporelles
Data Mining
Clustering
Prédictives
Régles
Consiste à utiliser certaines variables d’association
Descriptive
pour prédire les valeurs futures
Discover
inconnues de la même variable ou sequences
d’autres variables (Séries temporelles,

Analyse
Régression, Classification). sommaire
24
Les algorithmes basiques du Data Mining
Les algorithmes
basiques
Règles
Classication Clustering Régression
d'association
Decision tree (C4.5)

K-means
SVM (Support Vector
Machine)
CART (Classification Apriori
And Regression Tree) Algorithms
K-NN (k-Nearest
Neighbor) EM (Expectation
Maximation)
Naive Bayes
25
Classification
• Cette analyse est utilisée pour extraire des informations importantes et

pertinentes sur les données et les métadonnées. Cette méthode
d'exploration de données permet de classer les données dans différentes
classes.
• Associer des données a des groupes prédéfinis (apprentissage supervisé). Methods
• Trouver des modelés (fonctions) qui décrivent et distinguent des concepts Arbres de décision;
pour de futures prédictions Règles de classification;
Réseaux neuronaux. tures prédictions
26
SVM (Support Vector Machine)
SVM (Support Vector

Machine )
• La machine a vecteurs de support SVM appelés aussi séparateurs a vaste marge est une technique
d’apprentissage supervise destinée a résoudre des problèmes de classification.
• SVM est une méthode de classification a deux classes qui tente de séparer parfaitement les deux
ensembles d’exemples.
• La méthode cherche alors l’hyperplan qui sépare les ensembles de données, en garantissant que la
marge entre le plus proche de ces données soit maximale.
27
SVM (Support Vector

Machine )
L'objectif est de faire une classification a deux classes qui tente de séparer les point positifs des point
négatives dans l’ensemble des exemples.
SVM linéaire cherche alors l’hyperplan qui sépare les deux classes des points. La distance entre le plus
proche des positifs et des négatives soit toujours maximale.
X2
= +1
Donnée:
= -1
<𝑥𝑖 ,𝑦𝑖 >, i=1,2,3,4….,+∞
𝑑 Hyperplan
𝑥𝑖 ∈ 𝑅
𝑦𝑖 ∈ {−1 , +1}
28
SVM (Support Vector

Machine)
Tous les hyperplans de 𝑅𝑑 sont paramètres par un vecteur (w) et une constant b.
w*x+b=0
Le but est de trouver un tel hyperplan f(x)=signe(w*x+b), qui classifie correctement ces points.
X2
= +1
Donnée: = -1
<𝑥𝑖 ,𝑦𝑖 >, i=1,2,3,4….,+∞

𝑥𝑖 ∈ 𝑅𝑑
𝑦𝑖 ∈ {−1 , +1}
F(x)
29
Avantages de
SVM
• Les SVM fournissent généralement des prévisions précises.

• Les SVM déterminant l’hyperplan optimal par les points les plus proches uniquement et non par des
points distants.
• Les points supports donne une bonne indication de la complexité du problème traité.
30
Inconvénients de
SVM
• Difficulté a identifier les bonnes valeurs des paramètres.

• Problème lorsque les classes sont bruitée (multiplication des ponts supports).
• Difficulté d’interprétations (ex pertinence des variables).
• Le traitement des problèmes multi-classes reste un question ouverte.
31
Arbre de decision C4.5
Arbre de décision
C4.5
Les arbres de décision sont des schémas représentant les résultats possibles d’une série de choix
interconnectes. Ils sont des classifier(non des classeurs) qui opérant sur des instances représentées par
des formalismes attribut/valeur.
Les nœuds testent les attributs. Il y a une branche pour chaque valeur testé. Les feuilles servent a
spécifier les catégories (deux ou plus).
Problème : choix de l’attribut Un arbre de décision est

un arbre ou :
Nœud : test sur un attribut
une branche d’un nœud : un test sur un attribut
Feuilles : classe donnée
32
Arbre de décision
C4.5
L’objectifs de C4.5 est de construire un arbre de décision avec un attribut a chaque nœud. Cet
algorithme a quelques cas de base:
• L’arbre est construit en commençant a la racine de l’arbre

• Trouver l’attribut avec un gain maximale d’information a la base de la fonction entropie
• Placez un nœud enfant pour chaque valeur de cette attribut
• Ajoutez tous les informations de l’ensemble d’apprentissage au nœud enfant correspondant
• Si tous les informations d’un nœud enfant appartiennent a la même classe, mettez la classe en-bas et
remonter dans l’arbre
• Sinon, continuez avec l'étape 2 pendant que les attributs sont affectées
• Quand plus d’abréviations sont affectées, mettez la classification de la majorité des informations a ce nœud.
33
Avantages de
C4.5
• Ils sont faciles a comprendre

• Multi-classe par nature
• De nouvelles options peuvent être ajoutées aux arbres existants.
• Ils permettant de sélectionner l’option la plus appropriée parmi plusieurs.
• Il est facile de les associer a d’autres outils de prise de décision
34
Inconvénients de
C4.5
• Ils sont instables, càd un petit changement dans les données peut entrainer une modification
importante de la structure de l’arbre de décision optimal.
• Les calcules peuvent devenir très complexes.
• Ne gère pas les données en streaming
• Evolutivité dans le temps: si les données évoluent dans le temps, il est nécessaire de relancé la phase
d'apprentissage
35
la méthode des k plus proches voisins
k-NN: la méthode des

k plus proches voisins
• Le k-NN est un algorithme qui peut server pour la classification supervise.
• Le principe de ce modèle consiste en effet a choisir les k instances les plus proches du point étudié
selon un distance a définir afin den prédire sa classe.
Le k-NN nécessite seulement:

Un entier k
Une base d’apprentissage
Une métrique pour la proximité (la distance euclidienne)
36
k-NN: la méthode des

k plus proches voisins
Exemple
Le but est de trouver la valeur de la classe de l’inconnu x

On prend la distance euclidienne et k=5 voisins.
Des 5 plus proches voisins (5-NN), 4 appartiennent a la clase w1 et 1
appartient a la classe w3.
Donc x est affecté a w1 classe majoritaire
37
Résumé de
l’algorithme k-NN
Etape 1:
• Définissez la distance ou mesure de similarité de deux échantillons(instances)
Etape 2:
• Déterminer k (généralement impaire pour faciliter le vote)
Etape 3:
• Calculer les distances entre la nouvelle entrée et toutes les données de la base de l’apprentissage
Etape 4:
• Triez la distance et déterminez les k plus proches voisins sur la base de la distance minimale
Etape 5:
• Rassemblez les étiquettes de classe de ces voisins
Etape 6:
• Déterminer l’étiquette de prédiction en fonction de votre classe majoritaire
38
Avantages de
k-NN
• Apprentissage rapide
• Méthode facile a comprendre
• Adapte aux domaines ou chaque classe est représenté par plusieurs prototypes
39
Inconvénients de
k-NN
• Prédiction lente car il faut revoir tous les exemples a chaque fois
• Méthode gourmande en place mémoire
• Vulnérable aux données de grande dimension
40
Naïve Bayes
Naïve Bayes
La classification Naïve Bayésienne est un type de classification probabiliste simple basée sur le
théorème de bayes avec une forte indépendance (naïve).
Le problème de classification peut être formulé:
P(C|X)= probabilité que le tuple X= <X1,……Xk> est dans la classe C
But: affecter a une instance X la classe C telle que P(C|X) est maximale
41
Clustering
• Identifier les données qui se ressemblent. Ce processus aide a comprendre les differences et les
similitudes entre les données. c'est similaire a la classification, sauf que les groupes no sont pas
prédéfinies.
• L'objectif est de décomposer ou de segmenter un ensemble de données ou individus en groupes qui
peuvent être disjoints ou non.
• Les groupes se forment a base de la similarité des données o des individus en certaines variables
• Comme groupes suggères (imposes) par les données, l'expert doit donner une interprétation des
groupes qui se forment.
Méthodes :
• K-means
• Classification hiérarchique (groupes disjoints)
• Classification pyramidale (groupes non disjoints)
42
Qualité d'un
clustering
Une bonne méthode de clustering produira des clusters d'excellente qualité avec :
-Similarité importante intra-classe

-Similarité faible inter-classe
La qualité d'un clustering dépend de :

-La mesure de similarité utilisée
-L'implémentation de la mesure de similarité
La qualité d'une méthode de clustering est évaluée par son habilité a découvrir certains ou tous les
"patterns" cachés.
43
Objectifs du
clustering
44
Classification supervisé
Workflow de
Classification supervisée
Test Data Training data
Feature Feature
Extraction/Selection Extraction/Selection
Training
Classifier model Algorithm
Class 1 Class 2 … Class n
45
Important !
• Pas de garantie que l’algorithme trouve la solution optimale

• Une mauvaise sélection initiale des centres peut conduire à un groupement pauvre
• Recommandation: Exécuter l’algorithme plusieurs fois avec des points différents.
• K-means, comme n’importe quel algorithme qui se calcule à base des distances, peut être affecté par
les unités de mesure des variables
• Les variables mesurées en grandes unités dominent la construction des clusters
• Recommandation: Standardiser les variables avant de commencer la recherche des clusters.
46
K-means
Avantages de
K-Means
• Rapidité, peut être appliqué à des bases données relativement grandes.

• Economique de point de vue stockage de données (stoker les K centres)
47
Clustering
Inconvénients de
K-Means
• Suppose la connaissance de K (en réalité jamais connu)

• Sensible à la présence des observations extrêmes
48
Régression
• L'analyse de régression est la méthode d'exploration de données permettant d'identifier et d'analyser

la relation entre les variables. Il est utilisé pour identifier la probabilité d'une variable spécifique, étant
donné la présence d'autres variables.
• Prédire les valeurs absentes d'une variable en se basant sur sa relation avec les autres variables de
l'ensemble de données.
• linéaire;
• non linéaire;
• logistique;
• logarithmique;
• univariee;
• multivariee;
49
• ....
Règles d'association
• Cette technique d'exploration de données permet de trouver l'association entre deux ou plusieurs
éléments. Il découvre un motif caché dans le jeu de données.
• Analyse d'anuité : connue comme (Link Analysis) se réfère a découvrir les relations non évidentes
entre les données.
Méthodes :
Règles d'associations (association rules)
Analyse de corrélation
50
Prédiction
• Prédiction a utilisé une combinaison des autres techniques d'exploration de données telles que les
tendances, les modelés séquentiels, les regroupements, la classification, etc.
• Elle analyse les évènements ou instances passées dans le bon ordre pour prédire un évènement futur.
51
Avantages du Data Mining
Avantages du Data Mining

• La technique du Data Mining aide les entreprises a obtenir des informations basées sur les
connaissances.
• L'exploration de données aide les organisations a effectuer les ajustements rentables en termes
d'exploitation et de production.
• L'exploration de données est une solution rentable et efficace par rapport a d'autres applications de
données statistiques.
• L'exploration de données facilite le processus de prise de décision.
• Facilite la prédiction automatisée des tendances et des comportements, ainsi que la découverte
automatisée des modelés caches.
• Il peut être implémenté dans de nouveaux systèmes ainsi que sur des plates-formes existantes.
• C'est le processus rapide qui permet aux utilisateurs d'analyser une quantité énorme de données en
moins de temps.
52
Inconvénients du Data Mining
Inconvénients du Data Mining
• Il y a des chances que les entreprises vendent des informations utiles de leurs clients a d'autres
entreprises pour de l'argent.
• Par exemple: American Express a vendu les achats effectués par carte de crédit de ses clients a
d'autres sociétés.
• De nombreux logiciels d'analyse de Data Mining sont difficiles a utiliser et nécessitent une formation
avancée.
• Différents outils d'exploration de données fonctionnent de différentes manières en raison des
différents algorithmes utilisés dans leur conception. Par conséquent, la sélection d'un outil
d'exploration de données correct est une tache très difficile.
53
Conclusion
Résumé
• Le Data Mining consiste a expliquer le passé et a prédire l'avenir pour analyse.

• Le Data Mining permet d'extraire des informations a partir d'énormes ensembles de données. C'est la
procédure d'extraction de connaissances a partir de données.
• Le processus du Data Mining comprend la compréhension des activités, la compréhension des
données, la préparation des données, la modélisation, l'évolution, le déploiement.
• Les techniques du Data Mining importantes sont la classification, la mise en cluster, la régression, les
règles d'association, la détection externe, les modelés séquentiels et la prédiction.
54
Conclusion
Résumé
• Le langage R et Oracle Data Mining sont des outils du Data Mining de premier plan.
• La technique du Data Mining aide les entreprises a obtenir des informations basées sur les
connaissances.
• Le principal inconvénient du Data Mining est que de nombreux logiciels d'analyse sont difficiles a
utiliser et nécessitent une formation avancée.
• Le Data Mining est utilisé dans divers secteurs tels que les communications, les assurances,
l'éducation, la fabrication, la banque, la vente au détails, les prestataires de services, le commerce
électronique, la bio-informatique des supermarchés.
55

Data Mining (Partie 1)

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Data Mining (Partie 1)

Transféré par

Droits d'auteur :

Formats disponibles

Data Mining (Partie 1)

Master Big Data & Cloud Computing

Extraction d'informations intéressantes a partir de grandes bases de données

C'est un processus non élémentaire de recherche de relations, corrélations,

L'objectif principale de Data Mining c'est de créer un processus automatique qui a

Data Mining aide les compagnies d'assurance a rentabiliser leurs produits et a

Les fournisseurs de services comme les industries de la téléphonie mobile et des

KDD (Knowledge Discovery in Databses) : C'est le processus de trouver information et/ou

Data Mining: C'est une partie du

Data Mining Statistiques

• Des millions d'individus • Quelques centaines d'individus

• La différence distinct entre l'apprentissage supervisé et l'apprentissage non-supervisé est le fait

1. Nettoyage des données (erreurs, données manquantes);

LES TECHNIQUES DU Data Mining

Classification Clustering Regression Outlier Detection

consiste à trouver les caractéristiques

d’autres variables (Séries temporelles,

Decision tree (C4.5)

• Cette analyse est utilisée pour extraire des informations importantes et

SVM (Support Vector

SVM (Support Vector

SVM (Support Vector

<𝑥𝑖 ,𝑦𝑖 >, i=1,2,3,4….,+∞

• Les SVM fournissent généralement des prévisions précises.

• Difficulté a identifier les bonnes valeurs des paramètres.

Problème : choix de l’attribut Un arbre de décision est

• L’arbre est construit en commençant a la racine de l’arbre

• Ils sont faciles a comprendre

k-NN: la méthode des

Le k-NN nécessite seulement:

k-NN: la méthode des

Le but est de trouver la valeur de la classe de l’inconnu x

Donc x est affecté a w1 classe majoritaire

Le problème de classification peut être formulé:

P(C|X)= probabilité que le tuple X= <X1,……Xk> est dans la classe C

-Similarité importante intra-classe

La qualité d'un clustering dépend de :

Class 1 Class 2 … Class n

• Pas de garantie que l’algorithme trouve la solution optimale

• Rapidité, peut être appliqué à des bases données relativement grandes.

• Suppose la connaissance de K (en réalité jamais connu)

• L'analyse de régression est la méthode d'exploration de données permettant d'identifier et d'analyser

Avantages du Data Mining

Inconvénients du Data Mining

• Le Data Mining consiste a expliquer le passé et a prédire l'avenir pour analyse.

Vous aimerez peut-être aussi