Rapport TP03 Data Mining: Facult e Des Sciences Exactes D Epartement D'informatique

Faculté des sciences exactes
département d’informatique
Rapport TP03 Data Mining
Par
Wahiba DERDAZ
Option
ISI
Pour le cour
Data Mining
Enseigné par le professeur
Mr.FAHSI
Date : 05/06/2021
Contents
1 Partie 01 2
1.1 Description du data Choisis . . . . . . . . . . . . . . . . . . . 2
1.1.1 C4.5 J4.8 . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.2 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Discrétisation supervisée et non supervisée . . . . . . . . . . . 8
1.2.1 Discrétisation supervisée 1 . . . . . . . . . . . . . . . 8
1.2.2 Discrétisation supervisée 2 . . . . . . . . . . . . . . . 10
1.2.3 Discrétisation non supervisée 1 . . . . . . . . . . . . . 13
1.2.4 Discrétisation non supervisée 2 . . . . . . . . . . . . . 16
1.3 Filters et wrapper . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.3.1 Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.3.2 Wrapper . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4 Nettoyage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4.1 supression des instance qui contien valuer manquante . 22
1.4.2 remplacer les valeur manquante . . . . . . . . . . . . . 24
1.4.3 Les pretraitement ensemble . . . . . . . . . . . . . . . 27
1.4.4 select attributs (wrapper ) et discretisations (unsuper-
vised) et nettoyage SubsetByExpression . . . . . . . . 30
1.5 Conclusion Generale . . . . . . . . . . . . . . . . . . . . . . . 31
2 Partie 02 32
2.1 Mon dataset textuelle . . . . . . . . . . . . . . . . . . . . . . . 32
2.1.1 Header de dataset . . . . . . . . . . . . . . . . . . . . . 32
2.1.2 Références . . . . . . . . . . . . . . . . . . . . . . . . 33
2.1.3 Application de la fonction StringToWordVector . . . . 35
2.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2.1 Algorithmes utilisé : . . . . . . . . . . . . . . . . . . . 36
2.2.2 Methode d’evaluation : . . . . . . . . . . . . . . . . . . 37
1
2.2.3 Onerule . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.4 IBK Knn . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.5 C4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.6 Naive bayes . . . . . . . . . . . . . . . . . . . . . . . . 39
2
Chapter 1
Partie 01
1.1 Description du data Choisis

Informations sur les ensembles de données L’ensemble de données d’origine
sur les maladies thyroı̈diennes (ann-thyroı̈de) du référentiel d’apprentissage
machine UCI est un ensemble de données de classification, qui convient à
la formation des ANN. Il a 3772 instances de formation et 3428 instances
de test. Il a 15 attributs catégoriques et 6 attributs réels. Le problème
est de déterminer si un patient référé à la clinique est hypothyroı̈dien. Par
conséquent, trois classes sont construites: fonctionnement normal (pas hy-
pothyroı̈dien), hyperfonctionnement et fonctionnement subnormal. Pour la
détection des valeurs aberrantes, 3772 instances d’entraı̂nement sont utilisées,
avec seulement 6 attributs réels. La classe d’hyperfonction est traitée comme
une classe aberrante et les deux autres classes sont des inliers, car l’hyperfonction
est une classe minoritaire claire.
Source (citation)
F. Keller, E. Muller, K. Bohm. ”HiCS: sous-espaces à contraste élevé pour
le classement des valeurs aberrantes basé sur la densité.” ICDE, 2012.
C. C. Aggarwal et S. Sathe, Fondements théoriques et algorithmes pour les
ensembles aberrants. ACM SIGKDD Explorations Newsletter, vol. 17, non.
1, pp. 24–47, 2015.
Saket Sathe et Charu C. Aggarwal. LODES: La densité locale rencon-
tre la détection des valeurs aberrantes spectrales. Conférence SIAM sur
l’exploration de données, 2016.
Source: UCI
3
Author: Ross
Nombre instance : 3772
Nombre attributes :30
Nombre valeurs manquantes : 6064 / 5.4%
Le liens : https://archive.ics.uci.edu/ml/datasets/thyroid+disease
4
Attribute description:
Algorithmes utilisé :
OneRule
Knn
C45 J48
Naive Bayes
Kstar
Methode d’evaluation :
-cross-validation (13 folder)
-percentage split (73%)
-Leave one out
5
Méthodes de filtrage étudier
Discrétisation supervisée et non supervisée
méthodes filters et wrapper.
Nettoyage des données Combinaisons de ces 3 methode de filtrage pour

augmenter performance
OneR
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme OneRule est le poucen-
tage split avec split= 73% avec F-mesure =0.968
Knn IBK
6
Conclusion
la meilleure Méthode d’evaluation pour Knn est le cross validation fold = 13
avec F-mesure =0.962
1.1.1 C4.5 J4.8
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme C4.5 est le cross valida-
tion fold = 13 avec F-mesure =0.988
l’arbre
7
NaiveBayes
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme Naivebayes est le cross
validation fold = 13 avec F-mesure =0.938
Kstar
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme Kstar est le leave one
out avec F-mesure =0.954 .
8
1.1.2 Conclusion
Les meilleurs algorithmes
conclusion
Les deux meilleurs algorithmes qu’on va continuer avec sont le C4.5 et le One
rule
1.2 Discrétisation supervisée et non super-

visée
1.2.1 Discrétisation supervisée 1
Avec filter (supervised ) sur la dataset original Et range = 6
Binary= false
9
10
C4.5 J4.8
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme de C4.5 est le poucentage
split avec split= 73% avec F-mesure =0.978.
OneR
Conclusion
1.2.2 Discrétisation supervisée 2

Avec filter (supervised ) sur la dataset original Et range = 6
Binary= True
11
12
C4.5 J4.8
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme J4.8 est le cross valida-
tion fold= 13 et leave one out avec le meme F-mesure =0.978.
13
OneR
Conclusion
1.2.3 Discrétisation non supervisée 1

Avec filter (unsupervised ) sur la dataset original Et frequence egal ( useE-
qualFrequency = True )
bin = 10
14
15
C4.5 J4.8
Conclusion
la meilleure Méthode d’evaluation dans le cas de l’algorithme C4.5 est le cross
validation =13 avec F-mesure =0.976.
16
OneR
Conclusion
tage split avec split= 73% avec F-mesure =0.971.
1.2.4 Discrétisation non supervisée 2

Avec filter (unsupervised ) sur la dataset original Et frequence egal ( useE-
qualFrequency = False )
bin = 10
17
18
C4.5 J4.8
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme C4.5 est le cross valida-
tion fold= 13 et leave one out avec F-mesure =0.981.
19
OneR
Conclusion
tage split avec split= 73% avec F-mesure =0.971.
1.3 Filters et wrapper

1.3.1 Filter
Classify : AttributeSelectedClassifier.
Evaluator : GainRatioAttributeEval
Search : Ranker.
Test : Classifier C4.5 J48
Cross-Validation : 10 folds
20
Ranked attributes:
21
C4.5
OneRule
1.3.2 Wrapper
les resultats son les memes avec WrapperSubSetEval qui évalue les ensem-
bles d’attributs à l’aide d’un schéma d’apprentissage. La validation croisée
est utilisée pour estimer la précision du schéma d’apprentissage pour un en-
semble d’attributs.
22
Affichage de resultats
Remarque: aucun attribut est sélectionnée
1.4 Nettoyage
1.4.1 supression des instance qui contien valuer man-
quante
on utilise la methode SubsetByExpression
23
24
C4.5
OneRule
Conclusion
on remarque aussi que le performance n’a pas trop changer donc cette méthode
peut le diminuer .
1.4.2 remplacer les valeur manquante

Sur la dataset original on utilise ReplaceMissingValues
Cette methode de filtrage remplace les valeurs manquante avec la moyenne
25
26
C4.5
OneRule
Remarque
en comparant entre les résultats de la 1er et la 2ème méthode de nettoyage
Le performance a augmenté pour c45 et rien n’a changer avec oneR .
27
1.4.3 Les pretraitement ensemble
select attributs (filter) et discretisations (supervised)
C4.5
OneRule
28
select attributs (filter) et discretisations (unsupervised) equalfre=TRUE
C4.5
OneRule
Remarque
remarquons que le test avec la deuxieme methode et la premiers en utilisant
le’algorithme onerule rien n’a chnager
29
select attributs (filter) et discretisations (supervised) et nettoyage
C4.5
OneRule
30
1.4.4 select attributs (wrapper ) et discretisations (un-
supervised) et nettoyage SubsetByExpression
31
C4.5
OneRule
Remarque
remarquons que le test avec la dernière méthode en utilisant le’algorithme
onerule rien n’a changer par rapport au 2 premiers methodes.
1.5 Conclusion Generale

La combinaison des méthodes de filtrage peut augmenter le performance
pour certain algorithmes et méthodes comme il est possible de le diminuer
pour autre,pour le dataset que j’ai choisis on remarque que le performance
augmente en utilisant l’algorithme C4.5. l’utilisations de tout ses methodes
peut diminuer ou augmenter le performance selon le dataset choisis donc on
ne peut pas savoir au juste .
32
Chapter 2
Partie 02
2.1 Mon dataset textuelle

Texte mining qui contient un attribut de type string ( des phrase ) et une
classe ( la langue )
2.1.1 Header de dataset

@relation Data textuelle @attribute text String @attribute class Français,Anglais,Allemand,Espagno
@data
33
2.1.2 Références
1-3-Source de dataset :
Francais:
https://www.languefr.net/2019/07/paragraphe-sur-le-voyage.html?fullpost
Anglais:
https://writingcenter.unc.edu/tips-and-tools/paragraphs
Allemand:
https://www.seubert-pr.de/blog/2017/09/18/absatz-in-einem-text/
Espagnol:
34
https://www.textos.info/textos/mas-largos
croate:
https://hr.eferrit.com/spanjolski-prilozivi-pridjevi-dugi-obrazac/
Italien:
https://www.wikihow.it/Scrivere-un-Paragrafo
Estonien:
https://digi.geenius.ee/rubriik/uudis/13-lolli-kusimust-millele-iga-interneti-kasutaja-
peab-vastust-teadma/
Polonais:
https://sip.lex.pl/akty-prawne/dzienniki-UE/wykaz-dokumentow-podrozy-ktore-
uprawniaja-posiadacza-do-przekraczania-granic-68074441
Suedois:
https://www.vl.se/resa/villkor–ersattning/resevillkor/forseningsersattning/
Portugais:
https://www.in.gov.br/en/web/dou/-/portaria-n-2.227-de-31-de-dezembro-de-
2019-236265796
Letton:
http://likumi.lv/ta/id/150800-par-reklamas-likuma-parkapuma-konstatesanu-
tiesiska-pienakuma-uzliksanu-un-lietvedibas-uzsaksanu-administrativa-parkapuma
Malisien:
https://health.detik.com/kebugaran/d-4409891/tips-peregangan-praktis-buat-
pekerja-kantoran-yang-super-sibuk
néerlandais:
https://www.caorijk.nl/cao/10-reizen-en-vergoedingen
35
2.1.3 Application de la fonction StringToWordVector
cette fonction est utilisé pour convertit une chaı̂ne en un ensemble d’attributs
numériques contenant des informations d’occurrence de mot . Avant
36
Après
2.2 Evaluation
2.2.1 Algorithmes utilisé :
IBK Knn
Knn
C45 J48
Naive Bayes
37
Kstar
2.2.2 Methode d’evaluation :

-cross-validation (10 folder)
-percentage split (70%)
-Leave one out
38
2.2.3 Onerule
conclusion
La meilleure methode est Hold-out (Percentage Split =66) avec F-Measure
=0.067
2.2.4 IBK Knn
conclusion
La meilleure methode est est Leave one out ( folds =750 ) avec F-Measure
=0.650
2.2.5 C4.5
conclusion
La meilleure methode est Cross-validation ( folds =10 ) avec F-Measure
=0.966
39
2.2.6 Naive bayes
conclusion
La meilleure methode Leave one out et Cross-validation ( folds =750 ) avec
F-Measure =0.773
2.2.7 conclusion
entre les 4 algorithmes qu’on a utiliser les résultats est de naive bayes avec
la méthode Cross-validation ( folds =10 )
40
2.2.8 StringToWordVector avec IDFtrabsform = true
Conclusion
la meilleur resultats est de naive bayes avec la methode Cross-validation (
folds =10 ), même resultats precedante
41
2.2.9 StringToWordVector avec IDFtrabsform = false
et TFtrasform = true
Conclusion
Meme resultats precedante
42
2.2.10 StringToWordVector avec IDFtrabsform = true
et TFtrasform = true
Conclusion
Meme resultats precedante
43
2.2.11 StringToWordVector avec debug = true
Conclusion
aussi Meme resultats precedante
44
2.2.12 StringToWordVector avec normalizeDocLenth
= Normalize all data
Conclusion
remarquons que les résultats on été changer pour ce paramétré.
45
2.2.13 Conclusion genreale
Parmi tout les essais l’algorithme Naive bayes a obtenus les meilleurs re-
sultat avec sa methode de cross validation out =10 et l’algorithme avec les
plus mauvaise resultat et le onerule surtout avec le dernier paramétré de la
normalization .
46

Rapport TP03 Data Mining: Facult e Des Sciences Exactes D Epartement D'informatique

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Rapport TP03 Data Mining: Facult e Des Sciences Exactes D Epartement D'informatique

Transféré par

Droits d'auteur :

Formats disponibles

Faculté des sciences exactes