Académique Documents
Professionnel Documents
Culture Documents
Introduction
Maria Malek
Filière TSI
EISTI
Data Mining ?
Data Mining ?
Découverte de connaissances à partir de données ?
un processus itératif par lequel on extrait des
connaissances valides, nouvelles, potentiellement
utiles et compréhensibles [Fayyad et al., 1995]
Data Mining ?
Découverte de connaissances à partir de données ?
un processus itératif par lequel on extrait des
connaissances valides, nouvelles, potentiellement
utiles et compréhensibles [Fayyad et al., 1995]
"Comment faire parler les données ? "
Domaines supervisés :
Domaines supervisés :
Chaque instance = p variables prédictives + 1 variable cible (à
prédire)
Domaines supervisés :
Chaque instance = p variables prédictives + 1 variable cible (à
prédire)
Classification : variable cible discrète Exemple : diagnostiquer
une maladie, etc.
Domaines supervisés :
Chaque instance = p variables prédictives + 1 variable cible (à
prédire)
Classification : variable cible discrète Exemple : diagnostiquer
une maladie, etc.
Régression : variable cible continue Exemple : estimer la
valeur d’un bien, etc.
Domaines supervisés :
Chaque instance = p variables prédictives + 1 variable cible (à
prédire)
Classification : variable cible discrète Exemple : diagnostiquer
une maladie, etc.
Régression : variable cible continue Exemple : estimer la
valeur d’un bien, etc.
Domaines non supervisés :
Domaines supervisés :
Chaque instance = p variables prédictives + 1 variable cible (à
prédire)
Classification : variable cible discrète Exemple : diagnostiquer
une maladie, etc.
Régression : variable cible continue Exemple : estimer la
valeur d’un bien, etc.
Domaines non supervisés :
Regroupement(clustering) Exemple : détecter le profil
utilisateur,etc.
Domaines supervisés :
Chaque instance = p variables prédictives + 1 variable cible (à
prédire)
Classification : variable cible discrète Exemple : diagnostiquer
une maladie, etc.
Régression : variable cible continue Exemple : estimer la
valeur d’un bien, etc.
Domaines non supervisés :
Regroupement(clustering) Exemple : détecter le profil
utilisateur,etc.
Association Exemple analyser les logs utilisateurs d’un serveur
web, etc.
Prédiction :
Classification,
Régression,
Association.
Prédiction :
Classification,
Régression,
Association.
Description
Visualisation,
Regroupement,
Association.
Types de classeurs
Construction d’un modèle arborescent permettant de
prédire la classe d’une donnée.
Estimation directe de la classe d’une donnée en
fonction des exemples.
Construction d’un modèle réglable par l’humain (les
réseaux de neurones, et les machines à vecteurs
supports).
Méthode Bootstrap :
Un ensemble E : nous construisons l’ensemble
d’apprentissage Xapp .
Les exemples qui restent constituent l’ensemble Xtest .
on effectue N tirages aléatoires a partir de E avec
remise.
La probabilité qu’un exemple x ne soit jamais tiré est
égal à (1 − N1 )N , N − > +∞, e−1 = 0.368
|Xapp | = 63.2, |Xgn | = 36.8
E = 0.368 ∗ Eapp + 0.632 ∗ Etest