Techniquesdudatamining 160511213721

Techniques du Data Mining
DONIA HAMMAMI
ALYA LETAIF
2
Plan de la présentation
1) Introduction
2) Définition du Data Mining
3) Historique du Data Mining
4) Tâches du Data Mining
5) Techniques du Data Mining
6) Algorithmes du Data Mining
7) Conclusion
3
Introduction (1)
 L’entreposage de données nous permet de

regrouper toutes les données de
l’entreprise dans un seul système. De cet
entrepôt de données, nous pouvons
sélectionner, combiner et analyser
différents types de données.
 Ce dernier processus s’appelle Data
Mining. À l’aide des données disponibles,
nous essayons de trouver des associations
en comparant ou en combinant les données
de différentes sources.
4
Introduction (2)
 Le Data Mining est un domaine pluridisciplinaire permettant, à partir d’une

très importante quantité de données brutes, d’en extraire des informations
cachées, pertinentes et inconnues auparavant en vue d’une utilisation
industrielle ou opérationnelle de ce savoir.
 Le Data Mining est une découverte de modèles intéressants à partir d’un

ensemble de données de grande taille dans le but est d'extraire des données
disponibles au sein de toute entreprise les informations exploitables.
5
Définition du Data Mining
 Data Mining : forage de données

 Data Mining: ensemble des techniques et méthodes destinées à
l’exploration et l’analyse de grandes bases de données informatiques en vue
de détecter dans ces données des règles, des Associations, des structures
pour en extraire l’essentiel de l’information utile dont l’objectif est l’aide à
la décision.
6
Historique du Data Mining
 L’expression « Data Mining » serait apparue pour la première fois dans les
années 60.
 L’expression « Data Mining » réapparaît dans les années 80.
 Le concept apparaît en 1989 sous un premier nom de KDD (Knowledge

Discovery in Data bases).
 En 1991, le concept du Data Mining ou «fouille des données » apparaisse

pour la première fois aux États-Unis comme une nouvelle discipline à
l’interface de la statistique et des technologies de l’information.
7
Tâches du Data Mining (1)
 La classification automatique supervisée:

 Elle consiste à examiner les caractéristiques d’un objet nouvellement présenté afin
de l’affecter à une classe d’un ensemble prédéfini.
 Le modèle généré permet de prédire ou estimer la valeur manquante ou erronée

en utilisant le modèle de classification comme référence.
 La classification automatique non supervisée:

 Elle vise à identifier des ensembles d’éléments qui partagent certaines similarités.
Elle ne se base pas sur des classes prédéfinies.
8
Tâches du Data Mining (2)
 Les règles d’association :

 C’est une tâche qui permet de découvrir les rapports de lien qui peuvent
exister dans une base de données. Ces liens sont généralement exprimés
sous la forme ‘‘ A è B ’’ qui signifie que la présence de A implique la
présence de B (avec une certaine probabilité).
 Exemple : Un étudiant qui réussit en mathématiques réussira en

algorithmique dans 80% des cas.
9
Techniques du Data Mining
 Les techniques de « Data Mining » diffèrent en fonction des besoins de
l’utilisateur (selon les tâches à effectuer).
 Chacune des tâches regroupe une multitude d’algorithmes pour construire le
modèle auquel elle est associée.

Algorithmes de DATA Mining
10
DataMining
Apprentissage Apprentissage
Supervisé non supervisé
Clustering Règles Sequence

Les arbres de Les réseaux Associatives Mining
décision de neurones
11
Algorithme de segmentation non supervisé :
K-Means (1)
 L’algorithme des K-moyennes est un algorithme qui permet de trouver des

classes dans des données.
 Les classes qu’il construit n’entretiennent jamais de relations hiérarchiques:

une classe n’est jamais incluse dans une autre classe
 L’algorithme fonctionne en précisant le nombre de classes attendues.

 L’algorithme calcule les distances Intra-Classe et Inter-Classe.
12
K-Means (2)
Mesures de similarité :
 Il n’y a pas de définition unique de la similarité entre objets .
 Différentes mesures de distances d (x ,y).
 La définition de la similarité entre objets dépend de :
 Le type des données considérées
 Le type de similarité recherchée

13
K-Means (3)
 Données Numériques :
 Distance de Minkowski:
 Distance Euclidienne: K=2
 Distance de Manhattan : K=1

14
K-Means (4)
 Données binaires: d(0,0)=d(1,1)=0, d(0,1)=d(1,0)=1
 Donnée énumératives: Distance nulle si les valeurs sont égales et 1 sinon.
 Donnée énumératives ordonnées: idem. On peut définir une distance

utilisant la relation d’ordre.
15
K-Means (5)
Algorithme K-Means
Entrée : k le nombre de groupes cherchés
DEBUT
Choisir aléatoirement les centres des groupes
REPETER
i. Affecter chaque cas au groupe dont il est le plus proche au son centre
ii. Recalculer le centre de chaque groupe
JUSQU‘A (stabilisation des centres) OU (nombre d'itérations =t) OU (stabilisation de l’inertie
totale de la population)
FIN
16
K-Means (6)
17
K-Means (7)
Inconvénients du K-Means
 Le nombre de classes est un paramètre de l’algorithme. Un bon choix du nombre k est
nécessaire, car un mauvais choix de k produit de mauvais résultats.
 Les points isolés sont mal gérés (doivent-ils appartenir obligatoirement à un cluster ?)
 L'algorithme du K-Means ne trouve pas nécessairement la configuration la plus optimale
correspondant à la fonction objective minimale.
 Les résultats de l'algorithme du K-Means sont sensibles à l'initialisation aléatoires des centres.
18
K-Means (8)
Domaines D’application :
 Marketing : segmentation du marché en découvrant des groupes de clients distincts à
partir de la base de données des achats.
 Environnement : identification des zones terrestre similaire ( en terme d’utilisation ) dans
une base de donné d’observation de la terre.
 Assurance : identification des groupes d’assurés distincts associé à un nombre important
de déclarations.
 Planification de villes : identification des groupe d’habitants suivant le type d’habitation,
ville , localisation géographique …
 Médecine : Localisation de tumeurs dans le cerveau
19
Les règles d’association (1)
 Les règles d'association sont traditionnellement liées au secteur de la distribution car leur
principale application est «l'analyse du panier de la ménagère» qui consiste en la recherche
d'associations entre produits sur les tickets de caisse.
 Le but de la méthode est l'étude de ce que les clients achètent pour obtenir des
informations sur qui sont les clients et pourquoi ils font certains achats.
 Exemples de règles d'association:
 Si un client achète des plantes alors il achète du terreau,
 Si un client achète du poisson et du citron alors il achète du coca.
 Si un client achète une télévision, il achètera un magnétoscope dans un an.
20
Description de la méthode :
 On suppose avoir défini une liste d'articles.

 On dispose en entrée d'une liste d'achats.
Définitions:
 Une règle d'association est une règle de la forme: Si condition alors résultat.
 Dans la pratique, on se limite, à des règles où la condition est une conjonction d'apparition d'articles et le
résultat est constitué d'un seul article.
 Par exemple, une règle à trois articles sera de la forme: Si X et Y alors Z; règle dont la sémantique peut être
énoncée: Si les articles X et Y apparaissent simultanément dans un achat alors l'article Z apparaît.
21
 La méthode peut être appliquée à tout secteur d'activité pour lequel il est
intéressant de rechercher des groupements potentiels de produits ou de
services: services bancaires, services de télécommunications.
 Elle peut être utilisée dans le secteur médical pour la recherche de

complications dues à des associations de médicaments ou à la recherche de
fraudes en recherchant des associations inhabituelles.
22
Modèles de prédiction : Les arbres de décision (1)
 « Les arbres de décision » permettent de classifier une population d’individus selon les valeurs
de leurs attributs. C’est une représentation graphique de la procédure de classification où :
Une feuille indique une classe ;

Un nœud spécifie un test que doit subir un certain attribut ;
Chaque branche correspond à une valeur possible de l’attribut.
 Pour classifier un nouvel objet, on suit le chemin partant de la racine (nœud initial) à une feuille
en effectuant les différents tests d’attributs à chaque nœud.
23
Apprentissage des arbres de décision

Algorithme d'apprentissage par arbres de décision
donnée: un échantillon S de m enregistrements
initialisation: arbre vide ; nœud courant : racine ; échantillon courant : S
Répéter
décider si le nœud courant est terminal
Si le nœud courant est terminal Alors
étiqueter le nœud courant par une feuille
Sinon
sélectionner un test et créer le sous arbre
Finsi
nœud courant : un nœud non encore étudié
échantillon courant : échantillon atteignant le nœud courant
Jusque production d'un arbre de décision
sortie
24
Exemple :
Base d’apprentissage:
décisions prises les 8
jours précédents le
problème (4 attributs
binaires et une classe)
25
 Entropie d’une variable aléatoire w : H ( w )    p(u) log( p(u))

uDw
 Entropie de w conditionnée par a : H (w | a)    p(u, v) log( p(u | v))

u ,vDw * Da
 Résultat classique : I (w | a)  H (w)  H (w | a)

26

Devoirs finis Maman de bonne Temps = beau Goûter Décision
humeur pris
1 Vrai Faux Vrai Faux OUI
2 Faux Vrai Faux Vrai OUI
3 Vrai Vrai Vrai Faux OUI
4 Vrai Faux Vrai Vrai OUI
5 Faux Vrai Vrai Vrai NON
6 Faux Vrai Faux Faux NON
7 Vrai Faux Faux Vrai NON
8 Vrai Vrai Faux Faux NON
Calcul de H(w|DF), H(w|BH), H(w|TB) et H(w|GP) 5 3
H ( w | DF )  J ( DF  Vrai ) J ( DF  Faux)
8 8
3  3 2  2 1 2  2
J ( DF  Vrai )   log    log   1
J ( DF  Faux )   log    log  
H(w|BH) = 0.93, H(w|TB) = 0.8 et H(w|GP) = 1 5  5 5 5 3  3 3  3
27

28

29
 Compréhensible pour tout utilisateur (lisibilité du résultat –règles -arbre)
 Justification de la classification d’une instance (racine -> feuille)
 Tout type de données
 Robuste au bruit et aux valeurs manquantes
 Attributs apparaissent dans l’ordre de pertinence : tâche de pré- traitement (sélection

d’attributs)
 Classification rapide (parcours d’un chemin dans un arbre)
 Outils disponibles dans la plupart des environnements de data mining

30
Modèles de prédiction : Les réseaux de neurones(1)
 C’est une approche qui a été privilégiée par l'Intelligence Artificielle.

 Les réseaux de neurones sont fortement inspirés par le système nerveux
biologique.
 On peut entraîner un réseau de neurone pour une tâche spécifique

(reconnaissance de caractères par exemple) en ajustant
les valeurs des connections (ou poids) entre les éléments
neurone).
31

 Qu'est-ce qu'un neurone ?
Synapse
Un neurone est une cellule d'un
Synapse Dendrites
Axon
système permettant la Axon
communication et le traitement
de l'information. Soma Soma
Dendrites
 Qu'est-ce qu'un neurone Synapse
artificiel ?
Les réseaux de neurones artificiels sont un moyen de modéliser le mécanisme d'apprentissage et de

traitement de l'information qui se produit dans le cerveau humain.
32
Structure d’un neurone artificiel
Biological Neuron Artificial Neuron

corps cellulaire neurone
Dendrites inputs
Axone output
Synapse poids
Mise en correspondance neurone biologique / neurone artificiel

33
réseau naturel réseau artificiel
Réseaux de neurones
fonctionnement du réactions chimiques fonctions
naturels vs. artificiels neurone mathématiques
temps de réaction relativement lent très rapide
nombre de neurones environ 10¹º entre 10⁴ et 10⁵
nombre de connexions environ 10¹³ jusqu'à 10⁷

34

• Les entrées "E" du neurone E1 w1
proviennent soit d’autres
éléments "processeurs", soit de E2
l’environnement. w2
• Les poids "W" déterminent E3
w3 p
Σ FctΣ f S
l’influence de chaque entrée. w4
• La fonction de combinaison "p" E4 wn
combine les entrées et les poids.
• La fonction de transfert calcule En
la sortie "S" du neurone en FONCTION FONCTION
fonction de la combinaison en de de
entrée. COMBINAISON TRANSFERT
35
 La Fonction de Combinaison calcule E1 w1

l’influence de chaque entrée en tenant
compte de son poids. p = ∑ Wi Ei E2 w2 p
• Wi : Poids de la connexion à l’entrée i.
• Ei : Signal de l’entrée i. E3
w3
w4
Σ f S
E4 wn
 La Fonction de Transfert détermine l'état du
neurone (en sortie) En
• Calcul de la sortie : S = f(p) FONCTION FONCTION
de
• La fonction de transfert "f" peut avoir plusieurs formes.
de
COMBINAISON TRANSFERT
36
Les fonctions de
transfert :
37
Domaines d’application :
 Traitement du signal
 Reconnaissance des formes
 Robotique
 Diagnostique et suivi médical Demande de crédit
38
Reconnaissance des formes :

 A2iA est aujourd'hui un des spécialistes mondiaux de reconnaissance de
l‘écriture manuscrite ou imprimée de qualité quelconque.
 Elle a mis au point un système opérationnel de lecture automatique des
montants littéraux des chèques.
39
Reconnaissance des formes :

 Le logiciel permet de saisir le montant d'un cheque quelconque. Il combine la
reconnaissance du montant chiffre avec la reconnaissance du montant lettre, ce
qui permet d'augmenter le taux d'acceptation et de diminuer le taux de rejet, et
d'atteindre un taux de confusion très faible de l'ordre de 1 / 1 000, inférieur au
taux d'erreur de saisie humaine.
40
Inconvénients :
 Le modèle n’est pas très lisible
 Traitement des données numériques après normalisation
Avantages :
 Calcul de classification simple
 Temps d’apprentissage
 Apprentissage non incrémental
 Pas pour un grand nombre d’entrées
41
Algorithme de classification supervisée : K-NN (1)
 La méthode des k plus proches voisins est une méthode d’apprentissage supervisé,
dédiée à la classification.
 Encore appelée KNN : k-nearest neighbor.
 L’algorithme KNN figure parmi les plus simples algorithmes d’apprentissage artificiel.
 L’objectif de l’algorithme est de classer les exemples non étiquetés sur la base de leur
similarité avec les exemples de la base d’apprentissage .
 L’algorithme kNN est utilisée dans de nombreux domaines :
 La reconnaissance de formes.
 La recherche de nouveaux biomarqueurs pour le diagnostic.
 Algorithmes de compression.
 Analyse d’image satellite…
42
Principe de fonctionnement
 Paramètre : le nombre k de voisins
 Donnée : un échantillon de m exemples et leurs classes
 La classe d’un exemple X est c(X)
 Entrée : un enregistrement Y
 1. Déterminer les k plus proches exemples de Y en calculant les distances
 2. Combiner les classes de ces k exemples en une classe c
 Sortie : la classe de Y est c(Y)=c

43
Principe:
44
Exemple:
45
 Pas d’apprentissage: introduction de nouvelles données ne nécessite pas la reconstruction du
modèle. Tous les calculs doivent être effectues lors de la classification,
 Clarté des résultats,
 Tout type de données,
 Nombre d’attributs : La méthode permet de traiter des problèmes avec un grand nombre
d'attributs,
 Mais, plus le nombre d'attributs est important, plus le nombre d'exemples doit être grand.
46
Conclusion
 Les techniques de Data Mining ne font pas état des hypothèses fixées à priori, comme le font les
statistiques traditionnelles, mais cherchent à ‘‘établir’’ un modèle par l’exploration des bases de
données. Le Data Mining fait passer de l’analyse confirmatoire à l’analyse exploratoire.
 Le choix d’un algorithme approprié dépend fortement du contexte de son application, la nature des
données et les ressources disponibles. Une analyse attentive des données aide à bien choisir le
meilleur algorithme à partir du moment qu’il n’existe pas un algorithme qui peut répondre à toutes
les demandes.
Merci Pour votre attention 

Techniquesdudatamining 160511213721

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Techniquesdudatamining 160511213721

Transféré par

Droits d'auteur :

Formats disponibles

Techniques du Data Mining

2) Définition du Data Mining

3) Historique du Data Mining

4) Tâches du Data Mining

5) Techniques du Data Mining

6) Algorithmes du Data Mining

 L’entreposage de données nous permet de

 Le Data Mining est un domaine pluridisciplinaire permettant, à partir d’une

 Le Data Mining est une découverte de modèles intéressants à partir d’un

Définition du Data Mining

 Data Mining : forage de données

Historique du Data Mining

 L’expression « Data Mining » réapparaît dans les années 80.

 Le concept apparaît en 1989 sous un premier nom de KDD (Knowledge

 En 1991, le concept du Data Mining ou «fouille des données » apparaisse

Tâches du Data Mining (1)

 La classification automatique supervisée:

 Le modèle généré permet de prédire ou estimer la valeur manquante ou erronée

 La classification automatique non supervisée:

Tâches du Data Mining (2)

 Les règles d’association :

 Exemple : Un étudiant qui réussit en mathématiques réussira en

Techniques du Data Mining

 Les techniques de « Data Mining » diffèrent en fonction des besoins de

l’utilisateur (selon les tâches à effectuer).

 Chacune des tâches regroupe une multitude d’algorithmes pour construire le

modèle auquel elle est associée.

Clustering Règles Sequence

 L’algorithme des K-moyennes est un algorithme qui permet de trouver des

 Les classes qu’il construit n’entretiennent jamais de relations hiérarchiques:

 L’algorithme fonctionne en précisant le nombre de classes attendues.

 Différentes mesures de distances d (x ,y).

 La définition de la similarité entre objets dépend de :

 Le type des données considérées

 Le type de similarité recherchée

 Distance Euclidienne: K=2

 Distance de Manhattan : K=1

 Données binaires: d(0,0)=d(1,1)=0, d(0,1)=d(1,0)=1

 Donnée énumératives: Distance nulle si les valeurs sont égales et 1 sinon.

 Donnée énumératives ordonnées: idem. On peut définir une distance

 Le nombre de classes est un paramètre de l’algorithme. Un bon choix du nombre k est

nécessaire, car un mauvais choix de k produit de mauvais résultats.

 L'algorithme du K-Means ne trouve pas nécessairement la configuration la plus optimale

correspondant à la fonction objective minimale.

Les règles d’association (1)

d'associations entre produits sur les tickets de caisse.

Les règles d’association (2)

 On suppose avoir défini une liste d'articles.

Les règles d’association (3)

 Elle peut être utilisée dans le secteur médical pour la recherche de

Modèles de prédiction : Les arbres de décision (1)

Une feuille indique une classe ;

Modèles de prédiction : Les arbres de décision (2)

Apprentissage des arbres de décision

Modèles de prédiction : Les arbres de décision (3)

Modèles de prédiction : Les arbres de décision (4)

 Entropie d’une variable aléatoire w : H ( w )    p(u) log( p(u))

 Entropie de w conditionnée par a : H (w | a)    p(u, v) log( p(u | v))

 Résultat classique : I (w | a)  H (w)  H (w | a)

Modèles de prédiction : Les arbres de décision (5)

Modèles de prédiction : Les arbres de décision (6)

Modèles de prédiction : Les arbres de décision (7)

Modèles de prédiction : Les arbres de décision (8)