Académique Documents
Professionnel Documents
Culture Documents
Fouille de Données
Fouille de Données
Fouille de Données
Introduction à la fouille de
données
Exemples
http://www.amazon.fr
Le panier de la ménagère
Connaissez-vous?
Questions
Est-ce une bonne idée de faire de la publicité
de musique rap dans des magazines pour
personnes âgées?
Est-ce que vous saviez que les compagnies
de cartes de crédit peuvent suspecter un vol
de carte, même si le propriétaire de la carte
n’est pas encore au courant?
Est-ce que vous savez pourquoi les
entreprises liées à la bourse sponsorisent les
tournois de golfs télévisés?
Plan et objectifs
Règles
Réseaux de neurones
Équations mathématiques…
Regroupements (clusters)
Exemples de modèles
Vue classique:
Si salaire annuel >= 30,000 et années de
service >= 5 et propriétaire = vrai
alors risque de défaut de paiement = faux
Age(X, “jeune”) et Salaire(X,”élevé”)
Classe(X,”A”)
Vue probabilistique:
La plupart des personnes qui ont un bon
crédit sont propriétaires
Exemples de modèles
Vue exemplaire:
Un exemple est déterminé comme une
instance d’un concept
Les exemples suivants sont considérés
comme ayant un bon crédit:
Salaire = 32,000, années = 6, propriétaire
Salaire = 52,000, années = 16, locataire
Exemples de modèles
Les exemples peuvent être présentés par
des tables:
Diagrammes:
Histogramme
Camembert
Arbre de décision
Cube de données
Applications: Grande
Distribution
Vente par Définition de
correspondance profils des
clients
Analyse du Prédiction des taux de
réponses à des listes de
panier de la diffusions
ménagère Optimisation des
réapprovisionnements
Analyse des
Propositions spécifiques
données liées au de services à des
paiement individus profilés
Élimination des
(adresse, sexe…)
“mauvais” clients
Application: Assurances
Assurances Définition des
profils des
clients
Analyse des données Élimination des
personnelles (sexe, age, “mauvais” clients
profession…)
Tarification du
Analyse des données
fraudes
Application: Banques
Banques Définition des
profils des
clients
Analyse de la Élimination des
situation bancaire “mauvais” clients
(solde, produits Autorisation de
bancaires …) crédits aux “bons”
Analyse de données clients
supplémentaires Propositions
(sexe, profession, spécifiques de
situation familiale…) services
Application: Banques
Banques Détection des
évolutions de
profils
Analyse de la situation Détection de la lassitude
bancaire (solde, produits d’un client (possibilité de
bancaires possédés…) trouver de nouvelles
Analyse des données propositions plus
supplémentaires adaptées)
(situation familiale, Détection de
profession…) l’amélioration ou de la
détérioration de la
situation bancaire
Application: Banques
Banques Détection de
comportements
particuliers
Analyse de la situation Détection des
bancaire (solde, produits
bancaires possédés…) fraudes
Analyse des données (utilisation
supplémentaires anormale des
(situation familiale,
profession…) systèmes de
paiement)
Application: Bourse
Analyse de
questionnaires
(prospectifs,
satisfaction…)
Application: Internet
Internet Détermination
d’un thème,
d’un sujet
Analyse Aide à l’organisation
automatique de des messages reçus
Moteur de
sites toile
recherche évolué
Analyse
(design des
automatique du systèmes)
courrier Décision de
électronique marketing
Espionnage
Application: Sport
Exemples:
Les clients loyaux / les clients non-loyaux
Algorithmes:
Arbres de décision, règles de classification, classification
Bayésienne, algorithmes génétiques, algorithme des k plus
proches voisins, l’approche Rough Sets, régression linéaire
et non linéaire
Les fonctions de la FDD:
Regroupement (Cluster)
Regroupement d’éléments de proche en
proche fondé sur leur ressemblance
Les classes sont inconnues, et sont donc
créées
Exemple:
Segmentation du marché
Algorithmes:
K-moyennes
Réseaux neuronaux
Les fonctions de la FDD:
Associations
Mise en relation des données
Exemples:
Le panier de la ménagère:
Les personnes qui achètent des chips achètent aussi du
coca-cola
Age(X, “20…29”) et Salaire(X, “20000…29000”)
Achete(X,”PC”) [ support = 2%, confidence =
60%]
L’algorithme A Priori pour obtenir des règles
d’association
Les fonctions de la FDD:
Caractérisation et Discrimination
Caractérisation: Généralise les données d’une
classe
Exemple:
Général profil des régions pluvieuses
Discrimination: Compare les données d’une
classe avec une ou plusieurs classes (de
comparaison)
Gestion des anomalies
Exemple:
Les ventes de logiciels qui ont augmenté de 10%
par rapport à celles qui ont augmente de 30%
Évaluation des modèles (1)
Génération d’un grand nombre de modèles
Le modèle est-il intéressant?
Mesures d’intérêt d’un modèle:
Nouveau
Facile à comprendre
Valide sur de nouvelles données (avec une
certaine mesure de certitude)
Utile
Confirme (ou infirme) les hypothèses d’un expert
Évaluation des modèles (2)
Évaluation d’un modèle
subjective (expert)
objective (statistiques et structure des modèles)
Peut-on trouver tous les modèles?
(Complétude)
Peut-on générer seulement les modèles
intéressants? (Optimisation)
Génération de tous les modèles et filtrage suivant
certaines mesures et caractéristiques
Non réaliste
Générer seulement les modèles vérifiant une
condition particulière
Mesure pour l’évaluation des
modèles
Exemple des règles d’association X Y
Support (X Y ) = P(X et Y)
Confidence ( X Y ) = P (Y | X) = P (X
et Y ) / P(X)
Exemple: Age(X, “20…29”) et Salaire(X,
“20000…29000”) Achète(X,”PC”) [
support = 2%, confidence = 60%]
Construction et évaluation
d’un modèle
http://depinfo.u-bourgogne.fr/DESS-
BDIA/DataMining/DataMining.ppt