Cours Fouille de Données Partie2

Cours Fouille de données
Introduction Fouille de données
• Quoi ?
Rechercher des informations
• Laquelle ?
Les informations précieuses et utiles (corrélation, pattern,
tendances, ...)
• Ou ?
Dans les grandes quantités de données stockes par les SI
• Comment ?
En utilisant les statistiques, IA, Reconnaissance des formes,
...etc.
Introduction
Ingénierie et recherche scientifique moderne
• Surveiller suffisamment un système
• Stocker un historique de son comportements (entrées

et sorties)
• Exploiter ces données pour extraire des modelés qui

décrivent le système
Introduction
Outils de fouille de données
Introduction Domaines d'utilisation de la fouille
de donnees(1)
• Attribution de crédits (Credit Scoring)
• Optimisation du nombre de places dans les avions, hôtels, ... )
surréservation
• 0rganisation des rayonnages dans les supermarchés : "les
clients qui achètent le produit X en fin de semaine, pendant
l t , a h te t g ale e t gale e t le p oduit Y" ;
• Organisation de campagne de publicité, promotions, ciblage
des offres, acquisition des clients, rétention
• Diagnostic médical : "les patients ayant tels et tels
• symptômes et demeurant dans des agglomérations de plus de
104 habitants développent couramment telle pathologie" ;
Introduction Domaines d'utilisation de la fouille
de données(2)
• Analyse du génome
• Assurance
• Classification d'objets (industrie, sécurité, astronomie, ...)
• Commerce électronique
• Analyser les pratiques et stratégies commerciales et leurs
impacts sur les ventes
• Moteur de recherche sur internet : Web mining
• ext a tio d i fo atio depuis des textes : fouille de
textes
• évolution dans le temps de données : fouille de séquences
Processus du data mining
Processus KDD
Introduction Fouille de données
Processus de data mining: CRISP-DM (Cross-Industry

Standard Process for Data Mining)
1. Denition et comprehension du probleme
• Compréhension indispensable
• La plupart des problèmes sont dus a la mal
compréhension du problème
• Généralement, comprendre le domaine d'application
(banques, médecine, biologie, marketing, ...etc)
• La compréhension est cruciale pour l'explication des
résultats et la urtication des coûts
• Pouvoir évaluer les résultats obtenus et convaincre
l'utilisateur de leur rentabilité
2. Collecte des donnees
• Sélection des données a utiliser selon le problème
défini
• Attention ! ! plusieurs formats et structures (textes,
BDD, pages web, images, vidéo, ...etc)
• Parfois : prendre une copie du système en cours de
fonctionnement
• Subdiviser les données en deux parties : Données
d'analyse et données de test
3. Prétraitement
• Souvent, données bruitées (erreurs de frappe, erreurs système, ...)
• Données incohérentes (qui sortent des intervalles permis)
• Unification des poids [0,1] ou [0,100], Lissage
• Réduction des données, verticale et horizontale (ACP)
• tendance centrale des données (moyenne, médiane), le
maximum et le minimum,
• Courbes, diagrammes, graphes,... etc, peuvent aider a la
sélection et le nettoyage des données.
• Stockage des Entrepôts de données (data warehouse)
4. Estimation du modele
• Choisir la bonne technique pour extraire les
connaissances
• Réseaux de neurones, Arbres de décision, Réseaux
bayésiens, Clustering, ...
• Utilisation de plusieurs de ces techniques
5. Interprétation du modelé et établissement des conclusions
• Fournir des modelés compréhensibles aux

utilisateurs
• Modelés simples plus compréhensibles mais moins
précis
• Modelés complexes plus précis mais difficiles a
interpréter.
Quel type de données fouiller ?
Echantillons, enregistrements, exemples, ensemble de données
• Une donnée est :

• Individu en statistique
• Instance objets informatique
• Tuple bases de données
• Point ou vecteur en géométrie
Attributs, Champs, Caractéristiques
Une donnée est caractérise par un ensemble de :
• Champs en bases e données

• Caractéristiques statistiques
• Attributs oriente objet
Types d'attributs
• Deux types
Numérique comportent les variables réelles ou entières tel que
la longueur, le poids, l'Age, ...
– relation d'ordre (5 < 7:5)
– mesure de distance (D(5; 7:5) = 2:5).
– Calcul de moyenne, variance, écart-type, ...
catégoriels (appelées aussi symboliques) tel que la couleur,
• l'adresse ou le groupe sanguin
– Pas de relation d'ordre (Egalite ou différence)
– Distance spécifique (nombre de caractères en commun,...)
– Utilisation du mode : la valeur la plus fréquente
ne possèdent aucune de ces caractéristiques. Deux
variables catégorielles ne peuvent t e u gales ou diff e tes.
Qualité des données
• Données précises : noms écrits correctement,

valeurs dans les bons intervalles et complètes,
• Données enregistrées dans les bon formats :
numérique , caractère, entière , réelle,...etc,
• La redondance doit être éliminée ou au moins
minimisée,
• ...etc.
Préparation
• Manuelle : nombre limite d ha tillo s

• Semi-automatique : nombre moyen d ha tillo s
• Automatiques : BDD immenses
• ...etc.
Tâches de la fouille de données
Tâches (supervisées, non supervisées)
Datamining
Modélisation descriptive Modélisation prédictive
Représentation Segmentation Association Classification Estimation

Classification et estimation
Classification et estimation
Estimation
• Classification + variable de sortie numérique

• Estimer la valeur d'une Action dans une bourse
• Estimer la tension d'un passion
R gles d asso iatio
Analyse des clusters
Analyse des clusters
Recherche des modèles fréquents
et
les gles d asso iatio s
Rappel: Applications
• L'analyse du panier du marche, pour comprendre les habitudes des

clients afin de mieux organiser les rayons d'articles, organiser les
promotions, ...etc,
• Analyse des comportements des internautes pour mieux organiser les
sites,
• L'analyse du climat en météorologie afin de mieux orienter
l'agriculture
Rappel: Applications
• Les motifs fréquents (fréquent itemsets) sont des motifs ou patterns qui
apparaissent fréquemment dans un ensemble de données.
Exemples :
• Ensemble d'items fréquent : le lait et le pain qui apparaissent souvent dans
une base de transactions dans un supermarché.
• Ensemble de pages web visitées souvent ensemble,
• Symptômes souvent lies chez des patients,
Trouver de tels motifs représente une Tâche importante dans le Data mining
Exemple de règles d'association pour l'analyse du panier de la ménagère :
• SI un client achète des plantes ALORS il achète des engrais
• SI un client achète une télévision, ALORS il achètera une caméra dans un an
BD formelle
• BD relationnelle booléenne,
• La recherche des motifs fréquents
• définie par un triplet (O; P;R)
– O est un ensemble ni d'objets.
– P est un ensemble fini de propriétés.
– R est une relation sur O x P qui permet d'indiquer si un objet x a
une propriété p (note x R p) ou non.
• Exemple d'un supermarché : O ensemble des transactions

d'achat, P ensemble d'articles et R la relation indiquant si un
article a est acheté dans la transaction t.
BD formelle
Motifs
Motifs
Motifs
Connexion de Galois
Connexion de Galois
Suppo t d u otif
Suppo t d u otif
Suppo t d u otif
Motif fréquent
Algorithme apriori
Algorithme apriori
Algorithme apriori
Algorithme apriori
Algorithme apriori
Remarque: Algorithme apriori
Motif fréquent
• Motif fréquent fermé
• Motif fréquent Maximal:

R gles d asso iatio
R gles d asso iatio
D fi itio d u e gle
Suppo t d u e gle
La o fia e d u e gle
Cal ul des gles d asso iatio
Cal ul des gles d asso iatio
Exemple
Génération des règles
Méthodes de Classification / Prédiction
classification et prédiction
Classification supervisée et non supervisée
Les arbres de décision
Exemple 1 d a e de d isio
Exemple – Jouer au tennis ?
De l a e de d isio aux gles de lassifi atio
Règle de décision
Arbres de décision
Arbres de décision
Critère de sélection d'attributs
Cal ul de lʼE t opie
Calcul du gain
Exemple
Exemple
Exemple
Exemple
Exemple
Exemple

Exemple
ARBRE DE DECESION
Exercice: calcul du gain
Validation du modèle
• Décomposer les données en 2 ensembles:

– un ensemble d'apprentissage: pour générer le modèle
– un ensemble de test: pour tester le modèle sur un autre
ensemble de données
• Validité du modèle:
– Nombre de cas corrects/nombre de cas total: pour cela on
réalise la Matrice de confusion.
– Matrice à 2 di e sio s do t l l e t (i,j) indique le nombre de
cas prédits par le modèle et observés comme étant réellement
trouvés sur les données de test
Validation: matrice de confusion
Arbre de décision sur Weka

Cours Fouille de Données Partie2

Transféré par

Droits d'auteur :

Formats disponibles

Vous aimerez peut-être aussi

Cours Fouille de Données Partie2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Fouille de Données Partie2

Transféré par

Droits d'auteur :

Formats disponibles

Cours Fouille de données

Introduction Fouille de données

• Stocker un historique de son comportements (entrées

• Exploiter ces données pour extraire des modelés qui

Processus de data mining: CRISP-DM (Cross-Industry

• Fournir des modelés compréhensibles aux

• Une donnée est :

Une donnée est caractérise par un ensemble de :

• Champs en bases e données

• Données précises : noms écrits correctement,

• Manuelle : nombre limite d ha tillo s

Modélisation descriptive Modélisation prédictive

Représentation Segmentation Association Classification Estimation

• Classification + variable de sortie numérique

• L'analyse du panier du marche, pour comprendre les habitudes des

• Exemple d'un supermarché : O ensemble des transactions

• Motif fréquent fermé

• Motif fréquent Maximal:

Méthodes de Classification / Prédiction

• Décomposer les données en 2 ensembles:

Méthodes de Classification / Prédiction

Vous aimerez peut-être aussi