Vous êtes sur la page 1sur 64

Fouille des donnes

Introduction
Maria Malek ` Filiere TSI EISTI

Fouille des donnees p. 1/?

Vous avez dit ?


Data Mining

Fouille des donnees p. 2/?

Vous avez dit ?


Data Mining

Dcouverte de connaissances partir de donnes ? un processus itratif par lequel on extrait des connaissances valides, nouvelles, potentiellement utiles et comprhensibles [Fayyad et al., 1995]

Fouille des donnees p. 2/?

Vous avez dit ?


Data Mining

Dcouverte de connaissances partir de donnes ? un processus itratif par lequel on extrait des connaissances valides, nouvelles, potentiellement utiles et comprhensibles [Fayyad et al., 1995] "Comment faire parler les donnes ? "

Fouille des donnees p. 2/?

Autour du data mining : les domaines


Apprentissage Automatique (ML) DM : suppose la pr-existence de trs grands volumes de donnes Data mining.

Fouille des donnees p. 3/?

Autour du data mining : les domaines


Apprentissage Automatique (ML) DM : suppose la pr-existence de trs grands volumes de donnes Data mining. Statistiques, Analyse des donnes Stat : but = vrication dhypothses. DM : but = dcouverte de nouvelles connaissances.

Fouille des donnees p. 3/?

Processus du Data Mining - 1


Analyse du problme dapplication.

Fouille des donnees p. 4/?

Processus du Data Mining - 1


Analyse du problme dapplication. Slection et exploration des donnes valuer la qualit des donnes, visualiser, analyser les distributions et les regroupements, dtecter les insufsances, pathologies des donnes.

Fouille des donnees p. 4/?

Processus du Data Mining - 1


Analyse du problme dapplication. Slection et exploration des donnes valuer la qualit des donnes, visualiser, analyser les distributions et les regroupements, dtecter les insufsances, pathologies des donnes. Pr-traitement des donnes

Fouille des donnees p. 4/?

Processus du Data Mining - 1


Analyse du problme dapplication. Slection et exploration des donnes valuer la qualit des donnes, visualiser, analyser les distributions et les regroupements, dtecter les insufsances, pathologies des donnes. Pr-traitement des donnes nettoyage bruit, valeurs manquantes, valeurs aberrantes,

Fouille des donnees p. 4/?

Processus du Data Mining - 1


Analyse du problme dapplication. Slection et exploration des donnes valuer la qualit des donnes, visualiser, analyser les distributions et les regroupements, dtecter les insufsances, pathologies des donnes. Pr-traitement des donnes nettoyage bruit, valeurs manquantes, valeurs aberrantes, reduction slection des instances slection, extraction, combinaison des variables,

Fouille des donnees p. 4/?

Processus du Data Mining - 1


Analyse du problme dapplication. Slection et exploration des donnes valuer la qualit des donnes, visualiser, analyser les distributions et les regroupements, dtecter les insufsances, pathologies des donnes. Pr-traitement des donnes nettoyage bruit, valeurs manquantes, valeurs aberrantes, reduction slection des instances slection, extraction, combinaison des variables, transformation discrtisation des variables continues, binarisation des variables nominales, ajout de nouvelles variables (induction constructive).

Fouille des donnees p. 4/?

Processus du Data Mining - 1


Analyse du problme dapplication. Slection et exploration des donnes valuer la qualit des donnes, visualiser, analyser les distributions et les regroupements, dtecter les insufsances, pathologies des donnes. Pr-traitement des donnes nettoyage bruit, valeurs manquantes, valeurs aberrantes, reduction slection des instances slection, extraction, combinaison des variables, transformation discrtisation des variables continues, binarisation des variables nominales, ajout de nouvelles variables (induction constructive).

Fouille des donnees p. 4/?

Processus du Data Mining - 4


Lapprentissage data mining une mthode dextraction de connaissances.

Fouille des donnees p. 5/?

Processus du Data Mining - 4


Lapprentissage data mining une mthode dextraction de connaissances. Evaluation et interprtation des rsultats critres diffrents suivant la tche.

Fouille des donnees p. 5/?

Les donnes ??
est un enregistrement,un individu (statistique), une instance (orient objet), un point, un vecteur.
Une donnee

Fouille des donnees p. 6/?

Les donnes ??
est un enregistrement,un individu (statistique), une instance (orient objet), un point, un vecteur.
Une donnee

peut tre de nature qualitative ou quantitative, ou mme un enregistrement (comme la date).


Un attribut

Fouille des donnees p. 6/?

Les donnes ??
est un enregistrement,un individu (statistique), une instance (orient objet), un point, un vecteur.
Une donnee

peut tre de nature qualitative ou quantitative, ou mme un enregistrement (comme la date).


Un attribut

Structure de base : un exemple/cas/observation = vecteur de p attributs ou variables chaque attribut prend sa valeur dans un domaine donn.

Fouille des donnees p. 6/?

Les donnes ??
est un enregistrement,un individu (statistique), une instance (orient objet), un point, un vecteur.
Une donnee

peut tre de nature qualitative ou quantitative, ou mme un enregistrement (comme la date).


Un attribut

Structure de base : un exemple/cas/observation = vecteur de p attributs ou variables chaque attribut prend sa valeur dans un domaine donn. Ensemble dattribut - valeur : Techniques de logique dordre 0 ou propositionnelle.

Fouille des donnees p. 6/?

Les donnes ??
est un enregistrement,un individu (statistique), une instance (orient objet), un point, un vecteur.
Une donnee

peut tre de nature qualitative ou quantitative, ou mme un enregistrement (comme la date).


Un attribut

Structure de base : un exemple/cas/observation = vecteur de p attributs ou variables chaque attribut prend sa valeur dans un domaine donn. Ensemble dattribut - valeur : Techniques de logique dordre 0 ou propositionnelle. Attributs & relations : Apprentissage relationnel & programmation inductive logique (logique de prdicats).

Fouille des donnees p. 6/?

Les donnes : exemple - 1


NUM CIEL TEMP. HUMI. VENT CLASSE 1 ensoleill lev forte non N 2 ensoleill lev forte oui N 3 couvert lev forte non P 4 pluvieux moyenne forte non P 5 pluvieux basse normale non P 6 pluvieux basse normale oui N 7 couvert basse normale oui P

Table 1: Description des conditions mtorologiques

Fouille des donnees p. 7/?

Les donnes : exemple - 2


NUM CIEL TEMP. HUMI. VENT CLASSE 8 ensoleill moyenne forte non N 9 ensoleill basse normale non P 10 pluvieux moyenne normale non P 11 ensoleill moyenne normale oui P 12 couvert moyenne forte oui P 13 couvert lev normale non P 14 pluvieux moyenne forte oui N

Table 2: Description des conditions mtorologiques

Fouille des donnees p. 8/?

Nature des variables ..


Indpendante & Dpendante

Fouille des donnees p. 9/?

Nature des variables ..


Indpendante & Dpendante
Variable independante/explicative/predictive

: variable dont la

valeur est obtenue par observation

Fouille des donnees p. 9/?

Nature des variables ..


Indpendante & Dpendante
Variable independante/explicative/predictive

: variable dont la

valeur est obtenue par observation Variable dependante/reponse/cible : variable dont la valeur dpend dautres variables

Fouille des donnees p. 9/?

Nature des variables ..


Indpendante & Dpendante
Variable independante/explicative/predictive

: variable dont la

valeur est obtenue par observation Variable dependante/reponse/cible : variable dont la valeur dpend dautres variables Apprentissage supervis & non supervis

Fouille des donnees p. 9/?

Nature des variables ..


Indpendante & Dpendante
Variable independante/explicative/predictive

: variable dont la

valeur est obtenue par observation Variable dependante/reponse/cible : variable dont la valeur dpend dautres variables Apprentissage supervis & non supervis Apprentissage non supervise : pas de variable cible ex. regroupement (clustering).

Fouille des donnees p. 9/?

Nature des variables ..


Indpendante & Dpendante
Variable independante/explicative/predictive

: variable dont la

valeur est obtenue par observation Variable dependante/reponse/cible : variable dont la valeur dpend dautres variables Apprentissage supervis & non supervis Apprentissage non supervise : pas de variable cible ex. regroupement (clustering). Apprentissage supervise : une variable cible (valeur prdire) ex. classication.

Fouille des donnees p. 9/?

Rsultat du processus
Connaissances sont extraites sous forme dun :

Fouille des donnees p. 10/?

Rsultat du processus
Connaissances sont extraites sous forme dun : ` modele : un rsum global de lensemble de donnes applicable sur nimporte quelle instance appartenant lespace des donnes ;

Fouille des donnees p. 10/?

Rsultat du processus
Connaissances sont extraites sous forme dun : ` modele : un rsum global de lensemble de donnes applicable sur nimporte quelle instance appartenant lespace des donnes ; motif (pattern) : rsum local dune rgion de lespace des donnes ; exemple : une rgle.

Fouille des donnees p. 10/?

Applications du Data Mining


Domaines superviss :

Fouille des donnees p. 11/?

Applications du Data Mining


Domaines superviss :
` Chaque instance = p variables predictives + 1 variable cible (a predire)

Fouille des donnees p. 11/?

Applications du Data Mining


Domaines superviss :
` Chaque instance = p variables predictives + 1 variable cible (a predire) Classication : variable une maladie, etc.

cible discrte Exemple : diagnostiquer

Fouille des donnees p. 11/?

Applications du Data Mining


Domaines superviss :
` Chaque instance = p variables predictives + 1 variable cible (a predire) Classication : variable une maladie, etc. Regression : variable valeur dun bien, etc.

cible discrte Exemple : diagnostiquer

cible continue Exemple : estimer la

Fouille des donnees p. 11/?

Applications du Data Mining


Domaines superviss :
` Chaque instance = p variables predictives + 1 variable cible (a predire) Classication : variable une maladie, etc. Regression : variable valeur dun bien, etc.

cible discrte Exemple : diagnostiquer

cible continue Exemple : estimer la

Domaines non superviss :

Fouille des donnees p. 11/?

Applications du Data Mining


Domaines superviss :
` Chaque instance = p variables predictives + 1 variable cible (a predire) Classication : variable une maladie, etc. Regression : variable valeur dun bien, etc.

cible discrte Exemple : diagnostiquer

cible continue Exemple : estimer la

Domaines non superviss :


Regroupement(clustering) Exemple : detecter le prol utilisateur,etc.

Fouille des donnees p. 11/?

Applications du Data Mining


Domaines superviss :
` Chaque instance = p variables predictives + 1 variable cible (a predire) Classication : variable une maladie, etc. Regression : variable valeur dun bien, etc.

cible discrte Exemple : diagnostiquer

cible continue Exemple : estimer la

Domaines non superviss :


Regroupement(clustering) Exemple : detecter le prol utilisateur,etc. Association Exemple analyser les logs utilisateurs dun serveur web, etc.

Fouille des donnees p. 11/?

Tches du Data Mining


Prdiction : Classication, Rgression, Association.

Fouille des donnees p. 12/?

Tches du Data Mining


Prdiction : Classication, Rgression, Association. Description
Visualisation,

Regroupement, Association.

Fouille des donnees p. 12/?

Conception dun algorithme DM


Structure de modle/motif : la forme des connaissances extraire des donnes : arbre de dcision, rseau de neurones.

Fouille des donnees p. 13/?

Conception dun algorithme DM


Structure de modle/motif : la forme des connaissances extraire des donnes : arbre de dcision, rseau de neurones.

Fonction dvaluation : permet de mesurer la qualit dun modle ; Exemple : classication: taux dexemples bien classes.

Fouille des donnees p. 13/?

Conception dun algorithme DM


Structure de modle/motif : la forme des connaissances extraire des donnes : arbre de dcision, rseau de neurones.

Fonction dvaluation : permet de mesurer la qualit dun modle ; Exemple : classication: taux dexemples bien classes. Mthode de recherche : stratgie utilise pour parcourir lespace dhypothses et pour trouver celle qui optimise la fonction dvaluation.

Fouille des donnees p. 13/?

Conception dun algorithme DM


Structure de modle/motif : la forme des connaissances extraire des donnes : arbre de dcision, rseau de neurones.

Fonction dvaluation : permet de mesurer la qualit dun modle ; Exemple : classication: taux dexemples bien classes. Mthode de recherche : stratgie utilise pour parcourir lespace dhypothses et pour trouver celle qui optimise la fonction dvaluation. Stratgie de gestion des donnes : la faon de stocker, dindexer et daccder aux donnes.

Fouille des donnees p. 13/?

Ct Pratique ..
Etude de la problmatique de la classication

Fouille des donnees p. 14/?

Ct Pratique ..
Etude de la problmatique de la classication
Comment valider un classieur.

Fouille des donnees p. 14/?

Ct Pratique ..
Etude de la problmatique de la classication
Comment valider un classieur. Etude de lalgorithme k plus proche voisins .

Fouille des donnees p. 14/?

Ct Pratique ..
Etude de la problmatique de la classication
Comment valider un classieur. Etude de lalgorithme k plus proche voisins . Utilisation du logiciel Weka.

Fouille des donnees p. 14/?

La classication
Types de classeurs Construction dun modle arborescent permettant de prdire la classe dune donne. Estimation directe de la classe dune donne en fonction des exemples. Construction dun modle rglable par lhumain (les rseaux de neurones, et les machines vecteurs supports).

Fouille des donnees p. 15/?

Validation dun classeur - 1


Lerreur dun classeur Er est la probabilit que ce classeur ne prdise pas correctement la classe dune donne.

Fouille des donnees p. 16/?

Validation dun classeur - 1


Lerreur dun classeur Er est la probabilit que ce classeur ne prdise pas correctement la classe dune donne. Le taux de succs est 1 Er.

Fouille des donnees p. 16/?

Validation dun classeur - 1


Lerreur dun classeur Er est la probabilit que ce classeur ne prdise pas correctement la classe dune donne. Le taux de succs est 1 Er. Lerreur apparente Erapp est mesure sur les exemples utiliss pour la construction du classeur.

Fouille des donnees p. 16/?

Validation dun classeur - 1


Lerreur dun classeur Er est la probabilit que ce classeur ne prdise pas correctement la classe dune donne. Le taux de succs est 1 Er. Lerreur apparente Erapp est mesure sur les exemples utiliss pour la construction du classeur. Estimer la qualit dun classeur : Lensemble dapprentissage Xapp ; Lensemble de test Xtest qui permet destimer lerreur de classication ; on connat la classe de chaque exemple dans cet lensemble.

Fouille des donnees p. 16/?

Validation dun classeur - 2


Mesure de qualit dun classeur : cas de classication binaire :

Fouille des donnees p. 17/?

Validation dun classeur - 2


Mesure de qualit dun classeur : cas de classication binaire : VP/VN : Le nombre de vrais positifs/ngatifs : les exemples de classe positive/ngative et dont la classe est prdite comme positive/ngative.

Fouille des donnees p. 17/?

Validation dun classeur - 2


Mesure de qualit dun classeur : cas de classication binaire : VP/VN : Le nombre de vrais positifs/ngatifs : les exemples de classe positive/ngative et dont la classe est prdite comme positive/ngative. FP/FN : Les exemples de classe ngative/positive et dont la classe est prdite comme positive/ngative.

Fouille des donnees p. 17/?

Validation dun classeur - 2


Mesure de qualit dun classeur : cas de classication binaire : VP/VN : Le nombre de vrais positifs/ngatifs : les exemples de classe positive/ngative et dont la classe est prdite comme positive/ngative. FP/FN : Les exemples de classe ngative/positive et dont la classe est prdite comme positive/ngative. Construction de la matrice de confusion .. + + VP FN - FP VN

Fouille des donnees p. 17/?

Validation dun classeur - 3


Mesure de qualit dun classeur : cas de classication binaire :

Fouille des donnees p. 18/?

Validation dun classeur - 3


Mesure de qualit dun classeur : cas de classication binaire : On dnit dans la suite quatre mesures :
P La prcision pour les positifs et les ngatifs : V PV+F P , VN V N +F N ; le rappel sur les positifs et les ngatifs VN P : V PV+F N , : V N +F P .

La prcision mesure la proportion des exemples vraiment positifs parmi ceux qui taient classs positifs. Le rappel mesure la proportion des exemples positifs trouvs parmi tous les exemples positifs.

Fouille des donnees p. 18/?

Validation dun classeur - 3


Mesure de qualit dun classeur : cas de classication binaire : On dnit dans la suite quatre mesures :
P La prcision pour les positifs et les ngatifs : V PV+F P , VN V N +F N ; le rappel sur les positifs et les ngatifs VN P : V PV+F N , : V N +F P .

La prcision mesure la proportion des exemples vraiment positifs parmi ceux qui taient classs positifs. Le rappel mesure la proportion des exemples positifs trouvs parmi tous les exemples positifs.

Fouille des donnees p. 18/?

Validation dun classeur - 3


Mesure de qualit dun classeur : cas de classication binaire : On dnit dans la suite quatre mesures :
P La prcision pour les positifs et les ngatifs : V PV+F P , VN V N +F N ; le rappel sur les positifs et les ngatifs VN P : V PV+F N , : V N +F P .

La prcision mesure la proportion des exemples vraiment positifs parmi ceux qui taient classs positifs. Le rappel mesure la proportion des exemples positifs trouvs parmi tous les exemples positifs.

Fouille des donnees p. 18/?

Validation dun classeur - 4


Technique : validation croise : Dcouper lensemble dexemples en n sous ensembles disjoints. Chaque classe doit apparatre avec les mme frquence dans les n ensembles. Soit A,B,C une division en trois sous ensemble, Le classieur construit partir de A B est appel ADAB , Lerreur de gnralisation calcule sur C est appel Erc . Le taux derreur est alors estime par
Er =
ErA +ErB +Erc 3

Fouille des donnees p. 19/?

Validation dun classeur - 4


Technique : validation croise : Dcouper lensemble dexemples en n sous ensembles disjoints. Chaque classe doit apparatre avec les mme frquence dans les n ensembles. Soit A,B,C une division en trois sous ensemble, Le classieur construit partir de A B est appel ADAB , Lerreur de gnralisation calcule sur C est appel Erc . Le taux derreur est alors estime par
Er =
ErA +ErB +Erc 3

Fouille des donnees p. 19/?

Validation dun classeur - 5


Mthode Bootstrap : Un ensemble E : nous construisons lensemble dapprentissage Xapp . Les exemples qui restent constituent lensemble Xtest . on effectue N tirages alatoires a partir de E avec remise. La probabilit quun exemple x ne soit jamais tir est 1 gal (1 N )N , N > +, e1 = 0.368 |Xapp | = 63.2, |Xgn | = 36.8
E = 0.368 Eapp + 0.632 Etest

Fouille des donnees p. 20/?

Vous aimerez peut-être aussi