Académique Documents
Professionnel Documents
Culture Documents
DONIA HAMMAMI
ALYA LETAIF
2
Plan de la présentation
1) Introduction
7) Conclusion
3
Introduction (1)
Introduction (2)
L’expression « Data Mining » serait apparue pour la première fois dans les
années 60.
DataMining
Apprentissage Apprentissage
Supervisé non supervisé
Mesures de similarité :
Il n’y a pas de définition unique de la similarité entre objets .
Distance de Minkowski:
Les points isolés sont mal gérés (doivent-ils appartenir obligatoirement à un cluster ?)
Les résultats de l'algorithme du K-Means sont sensibles à l'initialisation aléatoires des centres.
18
Algorithme de segmentation non supervisé :
K-Means (8)
Domaines D’application :
Marketing : segmentation du marché en découvrant des groupes de clients distincts à
partir de la base de données des achats.
Environnement : identification des zones terrestre similaire ( en terme d’utilisation ) dans
une base de donné d’observation de la terre.
Assurance : identification des groupes d’assurés distincts associé à un nombre important
de déclarations.
Planification de villes : identification des groupe d’habitants suivant le type d’habitation,
ville , localisation géographique …
Médecine : Localisation de tumeurs dans le cerveau
19
Les règles d'association sont traditionnellement liées au secteur de la distribution car leur
principale application est «l'analyse du panier de la ménagère» qui consiste en la recherche
Le but de la méthode est l'étude de ce que les clients achètent pour obtenir des
informations sur qui sont les clients et pourquoi ils font certains achats.
Exemples de règles d'association:
Si un client achète des plantes alors il achète du terreau,
Si un client achète du poisson et du citron alors il achète du coca.
Si un client achète une télévision, il achètera un magnétoscope dans un an.
20
Description de la méthode :
Une règle d'association est une règle de la forme: Si condition alors résultat.
Dans la pratique, on se limite, à des règles où la condition est une conjonction d'apparition d'articles et le
résultat est constitué d'un seul article.
Par exemple, une règle à trois articles sera de la forme: Si X et Y alors Z; règle dont la sémantique peut être
énoncée: Si les articles X et Y apparaissent simultanément dans un achat alors l'article Z apparaît.
21
La méthode peut être appliquée à tout secteur d'activité pour lequel il est
intéressant de rechercher des groupements potentiels de produits ou de
services: services bancaires, services de télécommunications.
« Les arbres de décision » permettent de classifier une population d’individus selon les valeurs
de leurs attributs. C’est une représentation graphique de la procédure de classification où :
Exemple :
Base d’apprentissage:
décisions prises les 8
jours précédents le
problème (4 attributs
binaires et une classe)
25
neurone).
31
communication et le traitement
de l'information. Soma Soma
Dendrites
Qu'est-ce qu'un neurone Synapse
artificiel ?
Réseaux de neurones
fonctionnement du réactions chimiques fonctions
naturels vs. artificiels neurone mathématiques
E4 wn
La Fonction de Transfert détermine l'état du
neurone (en sortie) En
• Calcul de la sortie : S = f(p) FONCTION FONCTION
de
• La fonction de transfert "f" peut avoir plusieurs formes.
de
COMBINAISON TRANSFERT
36
Les fonctions de
transfert :
37
Domaines d’application :
Traitement du signal
Reconnaissance des formes
Robotique
Diagnostique et suivi médical Demande de crédit
38
Inconvénients :
Le modèle n’est pas très lisible
Traitement des données numériques après normalisation
Avantages :
Calcul de classification simple
Temps d’apprentissage
Apprentissage non incrémental
Pas pour un grand nombre d’entrées
41
La méthode des k plus proches voisins est une méthode d’apprentissage supervisé,
dédiée à la classification.
Encore appelée KNN : k-nearest neighbor.
L’algorithme KNN figure parmi les plus simples algorithmes d’apprentissage artificiel.
L’objectif de l’algorithme est de classer les exemples non étiquetés sur la base de leur
similarité avec les exemples de la base d’apprentissage .
L’algorithme kNN est utilisée dans de nombreux domaines :
La reconnaissance de formes.
La recherche de nouveaux biomarqueurs pour le diagnostic.
Algorithmes de compression.
Analyse d’image satellite…
42
Principe de fonctionnement
Paramètre : le nombre k de voisins
Entrée : un enregistrement Y
Principe:
44
Exemple:
45
Nombre d’attributs : La méthode permet de traiter des problèmes avec un grand nombre
d'attributs,
Mais, plus le nombre d'attributs est important, plus le nombre d'exemples doit être grand.
46
Conclusion
Les techniques de Data Mining ne font pas état des hypothèses fixées à priori, comme le font les
statistiques traditionnelles, mais cherchent à ‘‘établir’’ un modèle par l’exploration des bases de
Le choix d’un algorithme approprié dépend fortement du contexte de son application, la nature des
données et les ressources disponibles. Une analyse attentive des données aide à bien choisir le
meilleur algorithme à partir du moment qu’il n’existe pas un algorithme qui peut répondre à toutes
les demandes.
Merci Pour votre attention