Data Mining

Fouille des données
Introduction
Maria Malek
Filière TSI
EISTI
Fouille des données – p. 1/?

Vous avez dit ?
Data Mining ?

Vous avez dit ?
Data Mining ?
Découverte de connaissances à partir de données ?
un processus itératif par lequel on extrait des
connaissances valides, nouvelles, potentiellement
utiles et compréhensibles [Fayyad et al., 1995]

Vous avez dit ?
Data Mining ?
Découverte de connaissances à partir de données ?
un processus itératif par lequel on extrait des
connaissances valides, nouvelles, potentiellement
utiles et compréhensibles [Fayyad et al., 1995]
"Comment faire parler les données ? "

Autour du data mining : les domaines
Apprentissage Automatique (ML)

DM : suppose la pré-existence de très grands
volumes de données Data mining.

Autour du data mining : les domaines
Apprentissage Automatique (ML)

DM : suppose la pré-existence de très grands
volumes de données Data mining.
Statistiques, Analyse des données
Stat : but = vérification d’hypothèses.
DM : but = découverte de nouvelles connaissances.

Processus du Data Mining - 1
Analyse du problème d’application.


Sélection et exploration des données
évaluer la qualité des données,
visualiser, analyser les distributions et les
regroupements,
détecter les insuffisances, pathologies des données.


regroupements,
Pré-traitement des données


regroupements,
nettoyage bruit, valeurs manquantes, valeurs aberrantes,


regroupements,
réduction sélection des instances sélection, extraction,
combinaison des variables,


regroupements,
transformation discrétisation des variables continues,
binarisation des variables nominales, ajout de
nouvelles variables (induction constructive).

regroupements,
transformation discrétisation des variables continues,
binarisation des variables nominales, ajout de
nouvelles variables (induction constructive).
L’apprentissage «data mining» une méthode d’extraction

de connaissances.

L’apprentissage «data mining» une méthode d’extraction

de connaissances.
Evaluation et interprétation des résultats critères
différents suivant la tâche.

Les données ??
Une donnée est un enregistrement,un individu

(statistique), une instance (orienté objet), un point, un
vecteur.

Les données ??

vecteur.
peut être de nature qualitative ou quantitative,
Un attribut
ou même un enregistrement (comme la date).

Les données ??

vecteur.
Un attribut
Structure de base : un exemple/cas/observation =
vecteur de p attributs ou variables chaque attribut prend
sa valeur dans un domaine donné.

Les données ??

vecteur.
Un attribut
Ensemble d’attribut - valeur : Techniques de logique
d’ordre 0 ou propositionnelle.

Les données ??

vecteur.
Un attribut
Ensemble d’attribut - valeur : Techniques de logique
d’ordre 0 ou propositionnelle.
Attributs & relations : Apprentissage relationnel &
programmation inductive logique (logique de
prédicats).
Les données : exemple - 1
NUM CIEL TEMP. HUMI. VENT CLASSE

1 ensoleillé élevé forte non N
2 ensoleillé élevé forte oui N
3 couvert élevé forte non P
4 pluvieux moyenne forte non P
5 pluvieux basse normale non P
6 pluvieux basse normale oui N
7 couvert basse normale oui P
Table 1: Description des conditions météorologiques

Les données : exemple - 2
NUM CIEL TEMP. HUMI. VENT CLASSE

8 ensoleillé moyenne forte non N
9 ensoleillé basse normale non P
10 pluvieux moyenne normale non P
11 ensoleillé moyenne normale oui P
12 couvert moyenne forte oui P
13 couvert élevé normale non P
14 pluvieux moyenne forte oui N
Table 2: Description des conditions météorologiques

Nature des variables ..
Indépendante & Dépendante


Variable indépendante/explicative/prédictive : variable dont la
valeur est obtenue par observation


Variable dépendante/réponse/cible : variable dont la valeur
dépend d’autres variables


Apprentissage supervisé & non supervisé


Apprentissage non supervisé : pas de variable cible ex.
regroupement (clustering).


Apprentissage non supervisé : pas de variable cible ex.
regroupement (clustering).
Apprentissage supervisé : une variable cible (valeur à
prédire) ex. classification.

Résultat du processus
Connaissances sont extraites sous forme d’un :


modèle : un résumé global de l’ensemble de données
applicable sur n’importe quelle instance appartenant
à l’espace des données ;


modèle : un résumé global de l’ensemble de données
applicable sur n’importe quelle instance appartenant
à l’espace des données ;
motif (pattern) : résumé local d’une région de l’espace
des données ; exemple : une règle.

Applications du Data Mining
Domaines supervisés :

Chaque instance = p variables prédictives + 1 variable cible (à
prédire)

prédire)
Classification : variable cible discrète Exemple : diagnostiquer
une maladie, etc.

prédire)
une maladie, etc.
Régression : variable cible continue Exemple : estimer la
valeur d’un bien, etc.

prédire)
une maladie, etc.
Domaines non supervisés :

prédire)
une maladie, etc.
Regroupement(clustering) Exemple : détecter le profil
utilisateur,etc.

prédire)
une maladie, etc.
Regroupement(clustering) Exemple : détecter le profil
utilisateur,etc.
Association Exemple analyser les logs utilisateurs d’un serveur
web, etc.

Tâches du Data Mining
Prédiction :
Classification,
Régression,
Association.

Tâches du Data Mining
Prédiction :
Classification,
Régression,
Association.
Description
Visualisation,
Regroupement,
Association.

Conception d’un algorithme DM
Structure de modèle/motif : la forme des connaissances

à extraire des données : arbre de décision, réseau de
neurones.


neurones.
Fonction d’évaluation : permet de mesurer la qualité d’un
modèle ; Exemple : classification: taux d’exemples bien classés.


neurones.
Méthode de recherche : stratégie utilisée pour parcourir
l’espace d’hypothèses et pour trouver celle qui optimise
la fonction d’évaluation.


neurones.
Méthode de recherche : stratégie utilisée pour parcourir
l’espace d’hypothèses et pour trouver celle qui optimise
la fonction d’évaluation.
Stratégie de gestion des données : la façon de stocker,
d’indexer et d’accéder aux données.

Côté Pratique ..
Etude de la problématique de la classification

Côté Pratique ..

Comment valider un classifieur.

Côté Pratique ..

Etude de l’algorithme k plus proche voisins .

Côté Pratique ..

Etude de l’algorithme k plus proche voisins .
Utilisation du logiciel Weka.

La classification
Types de classeurs
Construction d’un modèle arborescent permettant de
prédire la classe d’une donnée.
Estimation directe de la classe d’une donnée en
fonction des exemples.
Construction d’un modèle réglable par l’humain (les
réseaux de neurones, et les machines à vecteurs
supports).

Validation d’un classeur - 1
L’erreur d’un classeur Er est la probabilité que ce

classeur ne prédise pas correctement la classe d’une
donnée.


donnée.
Le taux de succès est 1 − Er.


donnée.
L’erreur apparente Erapp est mesurée sur les exemples
utilisés pour la construction du classeur.


donnée.
L’erreur apparente Erapp est mesurée sur les exemples
utilisés pour la construction du classeur.
Estimer la qualité d’un classeur :
L’ensemble d’apprentissage Xapp ;
L’ensemble de test Xtest qui permet d’estimer l’erreur
de classification ; on connaît la classe de chaque
exemple dans cet l’ensemble.

Mesure de qualité d’un classeur : cas de classification binaire

:


:
VP/VN : Le nombre de vrais positifs/négatifs : les
exemples de classe positive/négative et dont la
classe est prédite comme positive/négative.


:
FP/FN : Les exemples de classe négative/positive et dont
la classe est prédite comme positive/négative.


:
FP/FN : Les exemples de classe négative/positive et dont
la classe est prédite comme positive/négative.
Construction de la matrice de confusion ..
+ -
+ VP FN
- FP VN


:


:
On définit dans la suite quatre mesures :
La précision pour les positifs et les négatifs : V PV+F
P
P,
VN
V N +F N ; le rappel sur les positifs et les négatifs
: V PV+F
P
N , : VN
V N +F P .
La précision mesure la proportion des exemples

vraiment positifs parmi ceux qui étaient classés
positifs.
Le rappel mesure la proportion des exemples positifs
trouvés parmi tous les exemples positifs.


:
P
P,
VN
: V PV+F
P
N , : VN
V N +F P .

positifs.


:
P
P,
VN
: V PV+F
P
N , : VN
V N +F P .

positifs.

Technique : validation croisée :

Découper l’ensemble d’exemples en n sous
ensembles disjoints.
Chaque classe doit apparaître avec les même
fréquence dans les n ensembles.
Soit A,B,C une division en trois sous ensemble,
Le classifieur construit à partir de A ∪ B est appelé
ADA∪B ,
L’erreur de généralisation calculée sur C est appelé
Erc .
Le taux d’erreur est alors estimée par
ErA +ErB +Erc
Er = 3

Technique : validation croisée :

Découper l’ensemble d’exemples en n sous
ensembles disjoints.
Chaque classe doit apparaître avec les même
fréquence dans les n ensembles.
Soit A,B,C une division en trois sous ensemble,
Le classifieur construit à partir de A ∪ B est appelé
ADA∪B ,
L’erreur de généralisation calculée sur C est appelé
Erc .
Le taux d’erreur est alors estimée par
ErA +ErB +Erc
Er = 3

Méthode Bootstrap :
Un ensemble E : nous construisons l’ensemble
d’apprentissage Xapp .
Les exemples qui restent constituent l’ensemble Xtest .
on effectue N tirages aléatoires a partir de E avec
remise.
La probabilité qu’un exemple x ne soit jamais tiré est
égal à (1 − N1 )N , N − > +∞, e−1 = 0.368
|Xapp | = 63.2, |Xgn | = 36.8
E = 0.368 ∗ Eapp + 0.632 ∗ Etest

Data Mining

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Data Mining

Transféré par

Droits d'auteur :

Formats disponibles

Fouille des données

Fouille des données – p. 1/?

Fouille des données – p. 2/?

Fouille des données – p. 2/?

Fouille des données – p. 2/?

Apprentissage Automatique (ML)

Fouille des données – p. 3/?

Apprentissage Automatique (ML)

Fouille des données – p. 3/?

Analyse du problème d’application.

Fouille des données – p. 4/?

Analyse du problème d’application.

Fouille des données – p. 4/?

Analyse du problème d’application.

Fouille des données – p. 4/?

Analyse du problème d’application.

Fouille des données – p. 4/?

Analyse du problème d’application.

Fouille des données – p. 4/?

Analyse du problème d’application.

Analyse du problème d’application.

L’apprentissage «data mining» une méthode d’extraction

Fouille des données – p. 5/?

L’apprentissage «data mining» une méthode d’extraction

Fouille des données – p. 5/?

Une donnée est un enregistrement,un individu

Fouille des données – p. 6/?

Une donnée est un enregistrement,un individu

Fouille des données – p. 6/?

Une donnée est un enregistrement,un individu

Fouille des données – p. 6/?

Une donnée est un enregistrement,un individu

Fouille des données – p. 6/?

Une donnée est un enregistrement,un individu

NUM CIEL TEMP. HUMI. VENT CLASSE

Table 1: Description des conditions météorologiques

Fouille des données – p. 7/?

NUM CIEL TEMP. HUMI. VENT CLASSE

Table 2: Description des conditions météorologiques

Fouille des données – p. 8/?

Indépendante & Dépendante

Fouille des données – p. 9/?

Indépendante & Dépendante

Fouille des données – p. 9/?

Indépendante & Dépendante

Fouille des données – p. 9/?

Indépendante & Dépendante

Fouille des données – p. 9/?

Indépendante & Dépendante

Fouille des données – p. 9/?

Indépendante & Dépendante

Fouille des données – p. 9/?

Connaissances sont extraites sous forme d’un :

Fouille des données – p. 10/?

Connaissances sont extraites sous forme d’un :

Fouille des données – p. 10/?

Connaissances sont extraites sous forme d’un :

Fouille des données – p. 10/?

Fouille des données – p. 11/?

Fouille des données – p. 11/?

Fouille des données – p. 11/?

Fouille des données – p. 11/?

Fouille des données – p. 11/?

Fouille des données – p. 11/?