Vous êtes sur la page 1sur 55

Data Mining (Partie 1)

Département Informatique

Master Big Data & Cloud Computing

Idriss MOUMEN
2022/2023
Idriss.moumen@uit.ac.ma
Plan de cours

Partie 1
Data Mining : Techniques & Concepts

Partie 2
Exploration et visualisation des données en R

Partie 3
Manipulation des données en R
Partie 4
Etude de cas
2
Qu'est-ce que le Data Mining ?

Introduction

Extraction d'informations intéressantes a partir de grandes bases de données

C'est analyser les données pour trouver des modèles (patterns) cachés en utilisant
des moyens automatiques.

C'est un processus non élémentaire de recherche de relations, corrélations,


dépendances, associations, modèles, structures, tendances, classes (clusters),
segments, lesquelles sont obtenues de grande quantité de données

L'objectif principale de Data Mining c'est de créer un processus automatique qui a


comme point de départ les données y comme finalité l'aide a la prise des décisions.

3
Où le Data Mining est-il utilisé?

Communications

Pour prédire le comportement des clients afin de proposer des campagnes très
ciblées et pertinentes.

4
Où le Data Mining est-il utilisé?

Assurance

Data Mining aide les compagnies d'assurance a rentabiliser leurs produits et a


promouvoir de nouvelles offres auprès de leurs clients existants ou nouveaux.

5
Où le Data Mining est-il utilisé?

Education

Data Mining permet aux enseignants d'accéder aux données des élevés, de prévoir
leurs niveaux de performance et de trouver des élevés ou des groupes d'élevés qui
nécessitent une attention particulière.

Exemple
les étudiants qui sont faibles en matière de mathématiques.

6
Où le Data Mining est-il utilisé?

Fabrication

Avec l'aide de Data Mining, les fabricants peuvent prévoir l'usure des actifs de
production. Ils peuvent anticiper la maintenance, ce qui les aide a les réduire et a
minimiser les temps d'arrêts .

7
Où le Data Mining est-il utilisé?

Bancaire

Data Mining aide le secteur banquier a se faire une idée des risques du marché et a
gérer la conformité règlementaire. Il aide les banques a identifier les défaillants
probables afin de décider d'émettre des cartes de crédit, des prêts, etc.

8
Où le Data Mining est-il utilisé?

Vente en details

Les techniques de Data Mining aident les centres commerciaux et les épiceries a
identifier et organiser les articles les plus vendables dans les positions les plus
attentives.
Il aide les propriétaires de magasins a proposer une offre qui encourage les clients a
augmenter leurs dépenses.

9
Où le Data Mining est-il utilisé?

Service providers

Les fournisseurs de services comme les industries de la téléphonie mobile et des


services publics utilisent Data Mining pour prédire les raisons lorsqu'un client quitte
son entreprise.
Ils analysent les détails de la facturation, les interactions du service client, les plaintes
adressées a l'entreprise pour attribuer a chaque client un score de probabilité et des
incitations.

10
Où le Data Mining est-il utilisé?

E-Commerce

Les sites web de commerce électronique utilisent Data Mining pour proposer des
ventes croisées et des ventes supplémentaires via leurs sites web. L'un des noms les
plus célèbres est Amazon, qui utilise des techniques d'exploration de données pour
attirer davantage de clients dans sa boutique en ligne.

11
Où le Data Mining est-il utilisé?

Enquête criminelle

Data Mining aide les agences d'enquêtes criminelles a déployer des forces de police
(ou un crime est-il le plus susceptible de se produire et quand ?).

12
Où le Data Mining est-il utilisé?

Bio-informatique

Data Mining permet d'exploiter des données biologiques a partir d'énormes datasets
rassembles en biologie et en médecine.

13
Sur quels types de données s'applique le Data Mining?

Types de données
Fichiers plats • Capteurs → variables quantitatives,
qualitatives, ordinales
BD's relationnelles • Texte → Chaîne de caractères
Data warehouses • Parole → Séries temporelles
• Images → données 2D
BD's transactionnelles
• Videos → données 2D + temps
BD's avancées • Réseaux → Graphes
• BD's objet et objet-relationnelles • Flux → Logs, coupons. . .
• BD's spatiales
• Séries temporelles
• BD's Textes et multimédia
• BD's Hétérogènes
• WWW (web mining)
14
Data Mining vs KDD

KDD (Knowledge Discovery in Databses) : C'est le processus de trouver information et/ou


modelés utiles a partir de données.

Data Mining : C'est l'utilisation des algorithmes pour extraire information et/ou modelés
comme partie du processus KDD.

15
Data Mining vs KDD

Data Mining: C'est une partie du


processus KDD

Processuc KDD
Data Mining: Le cœur du processus
d'extraction de connaissances.

16
Data Mining vs Statistiques

Data Mining Statistiques

• Des millions d'individus • Quelques centaines d'individus


• Des centaines de variables • Quelques variables
• Données recueillies sans étude VS • Fortes hypothèses sur les lois
préalable statistiques
• Nécessite de calculs rapide • Importance accordée au calcul
• Corpus d'apprentissage • Echantillon aléatoire

17
Data Mining vs
machine Learning

Machine Learning: C'est un sujet de l'intelligence artificielle (IA) qui s'occupe de la façon
d'écrire des programmes qui peuvent apprendre. Dans le Data Mining, Machine Learning est
habituellement utilises pour la prédiction et classification.

18
Data Mining vs
machine Learning
Apprentissage
Classification
supervisé
Machine Learning
Apprentissage non
Clustering
supervisé

• La différence distinct entre l'apprentissage supervisé et l'apprentissage non-supervisé est le fait


que l'apprentissage non-supervisé cherche a trouver des partitions de modèles par lui-même,
• l'extraction des données est donc descriptive.
• L'apprentissage supervisé est utilisé quand l'utilisateur sait labelliser les informations.
• l'extraction des données est donc prédictive.

19
Application du Data Mining

Applications par
domaine

20
Les étapes du
Data Mining

1. Nettoyage des données (erreurs, données manquantes);


2. Transformation éventuelle des données (normalisation, linéarisation...);
3. Explicitation de l'objectif de l'analyse en terme statistique (régression, classification,
clustering...);
4. Choix de la méthode a utiliser;
5. Mise en œuvre informatique
6. Test (validation de la qualité des résultats);
7. Exploitation

21
Cycle de vie d'un
projet de Data Mining
1. Apprentissage du domaine d'application :
• Connaissances nécessaires et buts de l'application
2. Création du jeu de données cible :
• sélection des données
3. Nettoyage et prétraitement des données (jusqu'a 60% du travail !)
4. Réduction et transformation des données:
• Trouver les caractéristiques utiles, dimensionnalité/réduction des variables
5. Choix des fonctionnalités Data Mining synthèse, classification régression, association, clustering;
6. Choix des algorithmes;
7. Data Mining : recherche de motifs (patterns) intéressants
8. Evaluation des motifs et représentation des connaissances: visualisation, transformation, élimination des motifs
redondants, etc.
9. Utilisation des connaissances découvertes.
22
Les techniques du Data Mining

LES TECHNIQUES DU Data Mining

Classification Clustering Regression Outlier Detection

Sequential
Prediction Association rules
patterns

23
Taches en Data Mining

Descriptives Regression

consiste à trouver les caractéristiques


Classification
générales relatives aux données
Predictive
fouillées (résumé/synthèse, Prediction
Clustering, Règles d’association)
Analyse des
series
temporelles
Data Mining
Clustering
Prédictives
Régles
Consiste à utiliser certaines variables d’association
Descriptive
pour prédire les valeurs futures
Discover
inconnues de la même variable ou sequences

d’autres variables (Séries temporelles,


Analyse
Régression, Classification). sommaire

24
Les algorithmes basiques du Data Mining

Les algorithmes
basiques

Règles
Classication Clustering Régression
d'association

Decision tree (C4.5)


K-means
SVM (Support Vector
Machine)
CART (Classification Apriori
And Regression Tree) Algorithms
K-NN (k-Nearest
Neighbor) EM (Expectation
Maximation)
Naive Bayes
25
Les techniques du Data Mining

Classification

• Cette analyse est utilisée pour extraire des informations importantes et


pertinentes sur les données et les métadonnées. Cette méthode
d'exploration de données permet de classer les données dans différentes
classes.
• Associer des données a des groupes prédéfinis (apprentissage supervisé). Methods
• Trouver des modelés (fonctions) qui décrivent et distinguent des concepts Arbres de décision;
pour de futures prédictions Règles de classification;
Réseaux neuronaux. tures prédictions

26
SVM (Support Vector Machine)

SVM (Support Vector


Machine )

• La machine a vecteurs de support SVM appelés aussi séparateurs a vaste marge est une technique
d’apprentissage supervise destinée a résoudre des problèmes de classification.
• SVM est une méthode de classification a deux classes qui tente de séparer parfaitement les deux
ensembles d’exemples.
• La méthode cherche alors l’hyperplan qui sépare les ensembles de données, en garantissant que la
marge entre le plus proche de ces données soit maximale.

27
SVM (Support Vector Machine)

SVM (Support Vector


Machine )
L'objectif est de faire une classification a deux classes qui tente de séparer les point positifs des point
négatives dans l’ensemble des exemples.
SVM linéaire cherche alors l’hyperplan qui sépare les deux classes des points. La distance entre le plus
proche des positifs et des négatives soit toujours maximale.

X2

= +1
Donnée:
= -1
<𝑥𝑖 ,𝑦𝑖 >, i=1,2,3,4….,+∞
𝑑 Hyperplan
𝑥𝑖 ∈ 𝑅
𝑦𝑖 ∈ {−1 , +1}

28
SVM (Support Vector Machine)

SVM (Support Vector


Machine)
Tous les hyperplans de 𝑅𝑑 sont paramètres par un vecteur (w) et une constant b.
w*x+b=0
Le but est de trouver un tel hyperplan f(x)=signe(w*x+b), qui classifie correctement ces points.

X2

= +1
Donnée: = -1

<𝑥𝑖 ,𝑦𝑖 >, i=1,2,3,4….,+∞


𝑥𝑖 ∈ 𝑅𝑑
𝑦𝑖 ∈ {−1 , +1}
F(x)

29
SVM (Support Vector Machine)

Avantages de
SVM

• Les SVM fournissent généralement des prévisions précises.


• Les SVM déterminant l’hyperplan optimal par les points les plus proches uniquement et non par des
points distants.
• Les points supports donne une bonne indication de la complexité du problème traité.

30
SVM (Support Vector Machine)

Inconvénients de
SVM

• Difficulté a identifier les bonnes valeurs des paramètres.


• Problème lorsque les classes sont bruitée (multiplication des ponts supports).
• Difficulté d’interprétations (ex pertinence des variables).
• Le traitement des problèmes multi-classes reste un question ouverte.

31
Arbre de decision C4.5

Arbre de décision
C4.5
Les arbres de décision sont des schémas représentant les résultats possibles d’une série de choix
interconnectes. Ils sont des classifier(non des classeurs) qui opérant sur des instances représentées par
des formalismes attribut/valeur.
Les nœuds testent les attributs. Il y a une branche pour chaque valeur testé. Les feuilles servent a
spécifier les catégories (deux ou plus).

Problème : choix de l’attribut Un arbre de décision est


un arbre ou :
Nœud : test sur un attribut
une branche d’un nœud : un test sur un attribut
Feuilles : classe donnée
32
Arbre de decision C4.5

Arbre de décision
C4.5
L’objectifs de C4.5 est de construire un arbre de décision avec un attribut a chaque nœud. Cet
algorithme a quelques cas de base:

• L’arbre est construit en commençant a la racine de l’arbre


• Trouver l’attribut avec un gain maximale d’information a la base de la fonction entropie
• Placez un nœud enfant pour chaque valeur de cette attribut
• Ajoutez tous les informations de l’ensemble d’apprentissage au nœud enfant correspondant
• Si tous les informations d’un nœud enfant appartiennent a la même classe, mettez la classe en-bas et
remonter dans l’arbre
• Sinon, continuez avec l'étape 2 pendant que les attributs sont affectées
• Quand plus d’abréviations sont affectées, mettez la classification de la majorité des informations a ce nœud.

33
Arbre de decision C4.5

Avantages de
C4.5

• Ils sont faciles a comprendre


• Multi-classe par nature
• De nouvelles options peuvent être ajoutées aux arbres existants.
• Ils permettant de sélectionner l’option la plus appropriée parmi plusieurs.
• Il est facile de les associer a d’autres outils de prise de décision

34
Arbre de decision C4.5

Inconvénients de
C4.5
• Ils sont instables, càd un petit changement dans les données peut entrainer une modification
importante de la structure de l’arbre de décision optimal.
• Les calcules peuvent devenir très complexes.
• Ne gère pas les données en streaming
• Evolutivité dans le temps: si les données évoluent dans le temps, il est nécessaire de relancé la phase
d'apprentissage

35
la méthode des k plus proches voisins

k-NN: la méthode des


k plus proches voisins
• Le k-NN est un algorithme qui peut server pour la classification supervise.
• Le principe de ce modèle consiste en effet a choisir les k instances les plus proches du point étudié
selon un distance a définir afin den prédire sa classe.

Le k-NN nécessite seulement:


Un entier k
Une base d’apprentissage
Une métrique pour la proximité (la distance euclidienne)

36
la méthode des k plus proches voisins

k-NN: la méthode des


k plus proches voisins
Exemple

Le but est de trouver la valeur de la classe de l’inconnu x


On prend la distance euclidienne et k=5 voisins.
Des 5 plus proches voisins (5-NN), 4 appartiennent a la clase w1 et 1
appartient a la classe w3.

Donc x est affecté a w1 classe majoritaire

37
la méthode des k plus proches voisins

Résumé de
l’algorithme k-NN
Etape 1:
• Définissez la distance ou mesure de similarité de deux échantillons(instances)
Etape 2:
• Déterminer k (généralement impaire pour faciliter le vote)
Etape 3:
• Calculer les distances entre la nouvelle entrée et toutes les données de la base de l’apprentissage
Etape 4:
• Triez la distance et déterminez les k plus proches voisins sur la base de la distance minimale
Etape 5:
• Rassemblez les étiquettes de classe de ces voisins
Etape 6:
• Déterminer l’étiquette de prédiction en fonction de votre classe majoritaire
38
la méthode des k plus proches voisins

Avantages de
k-NN

• Apprentissage rapide
• Méthode facile a comprendre
• Adapte aux domaines ou chaque classe est représenté par plusieurs prototypes

39
la méthode des k plus proches voisins

Inconvénients de
k-NN
• Prédiction lente car il faut revoir tous les exemples a chaque fois
• Méthode gourmande en place mémoire
• Vulnérable aux données de grande dimension

40
Naïve Bayes

Naïve Bayes

La classification Naïve Bayésienne est un type de classification probabiliste simple basée sur le
théorème de bayes avec une forte indépendance (naïve).

Le problème de classification peut être formulé:

P(C|X)= probabilité que le tuple X= <X1,……Xk> est dans la classe C

But: affecter a une instance X la classe C telle que P(C|X) est maximale

41
Les techniques du Data Mining

Clustering

• Identifier les données qui se ressemblent. Ce processus aide a comprendre les differences et les
similitudes entre les données. c'est similaire a la classification, sauf que les groupes no sont pas
prédéfinies.
• L'objectif est de décomposer ou de segmenter un ensemble de données ou individus en groupes qui
peuvent être disjoints ou non.
• Les groupes se forment a base de la similarité des données o des individus en certaines variables
• Comme groupes suggères (imposes) par les données, l'expert doit donner une interprétation des
groupes qui se forment.
Méthodes :
• K-means
• Classification hiérarchique (groupes disjoints)
• Classification pyramidale (groupes non disjoints)
42
Les algorithmes basiques du Data Mining

Qualité d'un
clustering
Une bonne méthode de clustering produira des clusters d'excellente qualité avec :

-Similarité importante intra-classe


-Similarité faible inter-classe

La qualité d'un clustering dépend de :


-La mesure de similarité utilisée
-L'implémentation de la mesure de similarité
La qualité d'une méthode de clustering est évaluée par son habilité a découvrir certains ou tous les
"patterns" cachés.

43
Les algorithmes basiques du Data Mining

Objectifs du
clustering

44
Classification supervisé

Workflow de
Classification supervisée
Test Data Training data

Feature Feature
Extraction/Selection Extraction/Selection

Training
Classifier model Algorithm

Class 1 Class 2 … Class n

45
Les algorithmes basiques du Data Mining

Important !

• Pas de garantie que l’algorithme trouve la solution optimale


• Une mauvaise sélection initiale des centres peut conduire à un groupement pauvre
• Recommandation: Exécuter l’algorithme plusieurs fois avec des points différents.
• K-means, comme n’importe quel algorithme qui se calcule à base des distances, peut être affecté par
les unités de mesure des variables
• Les variables mesurées en grandes unités dominent la construction des clusters
• Recommandation: Standardiser les variables avant de commencer la recherche des clusters.

46
K-means

Avantages de
K-Means

• Rapidité, peut être appliqué à des bases données relativement grandes.


• Economique de point de vue stockage de données (stoker les K centres)

47
Clustering

Inconvénients de
K-Means

• Suppose la connaissance de K (en réalité jamais connu)


• Sensible à la présence des observations extrêmes

48
Les techniques du Data Mining

Régression

• L'analyse de régression est la méthode d'exploration de données permettant d'identifier et d'analyser


la relation entre les variables. Il est utilisé pour identifier la probabilité d'une variable spécifique, étant
donné la présence d'autres variables.
• Prédire les valeurs absentes d'une variable en se basant sur sa relation avec les autres variables de
l'ensemble de données.
• linéaire;
• non linéaire;
• logistique;
• logarithmique;
• univariee;
• multivariee;
49
• ....
Les techniques du Data Mining

Règles d'association

• Cette technique d'exploration de données permet de trouver l'association entre deux ou plusieurs
éléments. Il découvre un motif caché dans le jeu de données.

• Analyse d'anuité : connue comme (Link Analysis) se réfère a découvrir les relations non évidentes
entre les données.

Méthodes :
Règles d'associations (association rules)
Analyse de corrélation

50
Les techniques du Data Mining

Prédiction

• Prédiction a utilisé une combinaison des autres techniques d'exploration de données telles que les
tendances, les modelés séquentiels, les regroupements, la classification, etc.

• Elle analyse les évènements ou instances passées dans le bon ordre pour prédire un évènement futur.

51
Avantages du Data Mining

Avantages du Data Mining


• La technique du Data Mining aide les entreprises a obtenir des informations basées sur les
connaissances.
• L'exploration de données aide les organisations a effectuer les ajustements rentables en termes
d'exploitation et de production.
• L'exploration de données est une solution rentable et efficace par rapport a d'autres applications de
données statistiques.
• L'exploration de données facilite le processus de prise de décision.
• Facilite la prédiction automatisée des tendances et des comportements, ainsi que la découverte
automatisée des modelés caches.
• Il peut être implémenté dans de nouveaux systèmes ainsi que sur des plates-formes existantes.
• C'est le processus rapide qui permet aux utilisateurs d'analyser une quantité énorme de données en
moins de temps.
52
Inconvénients du Data Mining

Inconvénients du Data Mining

• Il y a des chances que les entreprises vendent des informations utiles de leurs clients a d'autres
entreprises pour de l'argent.
• Par exemple: American Express a vendu les achats effectués par carte de crédit de ses clients a
d'autres sociétés.
• De nombreux logiciels d'analyse de Data Mining sont difficiles a utiliser et nécessitent une formation
avancée.
• Différents outils d'exploration de données fonctionnent de différentes manières en raison des
différents algorithmes utilisés dans leur conception. Par conséquent, la sélection d'un outil
d'exploration de données correct est une tache très difficile.

53
Conclusion

Résumé

• Le Data Mining consiste a expliquer le passé et a prédire l'avenir pour analyse.


• Le Data Mining permet d'extraire des informations a partir d'énormes ensembles de données. C'est la
procédure d'extraction de connaissances a partir de données.
• Le processus du Data Mining comprend la compréhension des activités, la compréhension des
données, la préparation des données, la modélisation, l'évolution, le déploiement.
• Les techniques du Data Mining importantes sont la classification, la mise en cluster, la régression, les
règles d'association, la détection externe, les modelés séquentiels et la prédiction.

54
Conclusion

Résumé

• Le langage R et Oracle Data Mining sont des outils du Data Mining de premier plan.
• La technique du Data Mining aide les entreprises a obtenir des informations basées sur les
connaissances.
• Le principal inconvénient du Data Mining est que de nombreux logiciels d'analyse sont difficiles a
utiliser et nécessitent une formation avancée.
• Le Data Mining est utilisé dans divers secteurs tels que les communications, les assurances,
l'éducation, la fabrication, la banque, la vente au détails, les prestataires de services, le commerce
électronique, la bio-informatique des supermarchés.

55

Vous aimerez peut-être aussi