Académique Documents
Professionnel Documents
Culture Documents
département d’informatique
Par
Wahiba DERDAZ
Option
ISI
Pour le cour
Data Mining
Enseigné par le professeur
Mr.FAHSI
Date : 05/06/2021
Contents
1 Partie 01 2
1.1 Description du data Choisis . . . . . . . . . . . . . . . . . . . 2
1.1.1 C4.5 J4.8 . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.2 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Discrétisation supervisée et non supervisée . . . . . . . . . . . 8
1.2.1 Discrétisation supervisée 1 . . . . . . . . . . . . . . . 8
1.2.2 Discrétisation supervisée 2 . . . . . . . . . . . . . . . 10
1.2.3 Discrétisation non supervisée 1 . . . . . . . . . . . . . 13
1.2.4 Discrétisation non supervisée 2 . . . . . . . . . . . . . 16
1.3 Filters et wrapper . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.3.1 Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.3.2 Wrapper . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4 Nettoyage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4.1 supression des instance qui contien valuer manquante . 22
1.4.2 remplacer les valeur manquante . . . . . . . . . . . . . 24
1.4.3 Les pretraitement ensemble . . . . . . . . . . . . . . . 27
1.4.4 select attributs (wrapper ) et discretisations (unsuper-
vised) et nettoyage SubsetByExpression . . . . . . . . 30
1.5 Conclusion Generale . . . . . . . . . . . . . . . . . . . . . . . 31
2 Partie 02 32
2.1 Mon dataset textuelle . . . . . . . . . . . . . . . . . . . . . . . 32
2.1.1 Header de dataset . . . . . . . . . . . . . . . . . . . . . 32
2.1.2 Références . . . . . . . . . . . . . . . . . . . . . . . . 33
2.1.3 Application de la fonction StringToWordVector . . . . 35
2.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2.1 Algorithmes utilisé : . . . . . . . . . . . . . . . . . . . 36
2.2.2 Methode d’evaluation : . . . . . . . . . . . . . . . . . . 37
1
2.2.3 Onerule . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.4 IBK Knn . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.5 C4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.6 Naive bayes . . . . . . . . . . . . . . . . . . . . . . . . 39
2
Chapter 1
Partie 01
3
Author: Ross
Nombre instance : 3772
Nombre attributes :30
Nombre valeurs manquantes : 6064 / 5.4%
Le liens : https://archive.ics.uci.edu/ml/datasets/thyroid+disease
4
Attribute description:
Algorithmes utilisé :
OneRule
Knn
C45 J48
Naive Bayes
Kstar
Methode d’evaluation :
-cross-validation (13 folder)
-percentage split (73%)
-Leave one out
5
Méthodes de filtrage étudier
Discrétisation supervisée et non supervisée
OneR
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme OneRule est le poucen-
tage split avec split= 73% avec F-mesure =0.968
Knn IBK
6
Conclusion
la meilleure Méthode d’evaluation pour Knn est le cross validation fold = 13
avec F-mesure =0.962
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme C4.5 est le cross valida-
tion fold = 13 avec F-mesure =0.988
l’arbre
7
NaiveBayes
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme Naivebayes est le cross
validation fold = 13 avec F-mesure =0.938
Kstar
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme Kstar est le leave one
out avec F-mesure =0.954 .
8
1.1.2 Conclusion
Les meilleurs algorithmes
conclusion
Les deux meilleurs algorithmes qu’on va continuer avec sont le C4.5 et le One
rule
9
10
C4.5 J4.8
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme de C4.5 est le poucentage
split avec split= 73% avec F-mesure =0.978.
OneR
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme OneRule est le poucen-
tage split avec split= 73% avec F-mesure =0.971
11
12
C4.5 J4.8
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme J4.8 est le cross valida-
tion fold= 13 et leave one out avec le meme F-mesure =0.978.
13
OneR
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme OneRule est le poucen-
tage split avec split= 73% avec F-mesure =0.971
14
15
C4.5 J4.8
Conclusion
la meilleure Méthode d’evaluation dans le cas de l’algorithme C4.5 est le cross
validation =13 avec F-mesure =0.976.
16
OneR
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme OneRule est le poucen-
tage split avec split= 73% avec F-mesure =0.971.
17
18
C4.5 J4.8
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme C4.5 est le cross valida-
tion fold= 13 et leave one out avec F-mesure =0.981.
19
OneR
Conclusion
la meilleure Méthode d’evaluation pour l’algorithme OneRule est le poucen-
tage split avec split= 73% avec F-mesure =0.971.
20
Ranked attributes:
21
C4.5
OneRule
1.3.2 Wrapper
les resultats son les memes avec WrapperSubSetEval qui évalue les ensem-
bles d’attributs à l’aide d’un schéma d’apprentissage. La validation croisée
est utilisée pour estimer la précision du schéma d’apprentissage pour un en-
semble d’attributs.
22
Affichage de resultats
1.4 Nettoyage
1.4.1 supression des instance qui contien valuer man-
quante
on utilise la methode SubsetByExpression
23
24
C4.5
OneRule
Conclusion
on remarque aussi que le performance n’a pas trop changer donc cette méthode
peut le diminuer .
25
26
C4.5
OneRule
Remarque
en comparant entre les résultats de la 1er et la 2ème méthode de nettoyage
Le performance a augmenté pour c45 et rien n’a changer avec oneR .
27
1.4.3 Les pretraitement ensemble
select attributs (filter) et discretisations (supervised)
C4.5
OneRule
28
select attributs (filter) et discretisations (unsupervised) equalfre=TRUE
C4.5
OneRule
Remarque
remarquons que le test avec la deuxieme methode et la premiers en utilisant
le’algorithme onerule rien n’a chnager
29
select attributs (filter) et discretisations (supervised) et nettoyage
C4.5
OneRule
30
1.4.4 select attributs (wrapper ) et discretisations (un-
supervised) et nettoyage SubsetByExpression
31
C4.5
OneRule
Remarque
remarquons que le test avec la dernière méthode en utilisant le’algorithme
onerule rien n’a changer par rapport au 2 premiers methodes.
32
Chapter 2
Partie 02
33
2.1.2 Références
1-3-Source de dataset :
Francais:
https://www.languefr.net/2019/07/paragraphe-sur-le-voyage.html?fullpost
Anglais:
https://writingcenter.unc.edu/tips-and-tools/paragraphs
Allemand:
https://www.seubert-pr.de/blog/2017/09/18/absatz-in-einem-text/
Espagnol:
34
https://www.textos.info/textos/mas-largos
croate:
https://hr.eferrit.com/spanjolski-prilozivi-pridjevi-dugi-obrazac/
Italien:
https://www.wikihow.it/Scrivere-un-Paragrafo
Estonien:
https://digi.geenius.ee/rubriik/uudis/13-lolli-kusimust-millele-iga-interneti-kasutaja-
peab-vastust-teadma/
Polonais:
https://sip.lex.pl/akty-prawne/dzienniki-UE/wykaz-dokumentow-podrozy-ktore-
uprawniaja-posiadacza-do-przekraczania-granic-68074441
Suedois:
https://www.vl.se/resa/villkor–ersattning/resevillkor/forseningsersattning/
Portugais:
https://www.in.gov.br/en/web/dou/-/portaria-n-2.227-de-31-de-dezembro-de-
2019-236265796
Letton:
http://likumi.lv/ta/id/150800-par-reklamas-likuma-parkapuma-konstatesanu-
tiesiska-pienakuma-uzliksanu-un-lietvedibas-uzsaksanu-administrativa-parkapuma
Malisien:
https://health.detik.com/kebugaran/d-4409891/tips-peregangan-praktis-buat-
pekerja-kantoran-yang-super-sibuk
néerlandais:
https://www.caorijk.nl/cao/10-reizen-en-vergoedingen
35
2.1.3 Application de la fonction StringToWordVector
cette fonction est utilisé pour convertit une chaı̂ne en un ensemble d’attributs
numériques contenant des informations d’occurrence de mot . Avant
36
Après
2.2 Evaluation
2.2.1 Algorithmes utilisé :
IBK Knn
Knn
C45 J48
Naive Bayes
37
Kstar
38
2.2.3 Onerule
conclusion
La meilleure methode est Hold-out (Percentage Split =66) avec F-Measure
=0.067
conclusion
La meilleure methode est est Leave one out ( folds =750 ) avec F-Measure
=0.650
2.2.5 C4.5
conclusion
La meilleure methode est Cross-validation ( folds =10 ) avec F-Measure
=0.966
39
2.2.6 Naive bayes
conclusion
La meilleure methode Leave one out et Cross-validation ( folds =750 ) avec
F-Measure =0.773
2.2.7 conclusion
entre les 4 algorithmes qu’on a utiliser les résultats est de naive bayes avec
la méthode Cross-validation ( folds =10 )
40
2.2.8 StringToWordVector avec IDFtrabsform = true
Conclusion
la meilleur resultats est de naive bayes avec la methode Cross-validation (
folds =10 ), même resultats precedante
41
2.2.9 StringToWordVector avec IDFtrabsform = false
et TFtrasform = true
Conclusion
Meme resultats precedante
42
2.2.10 StringToWordVector avec IDFtrabsform = true
et TFtrasform = true
Conclusion
Meme resultats precedante
43
2.2.11 StringToWordVector avec debug = true
Conclusion
aussi Meme resultats precedante
44
2.2.12 StringToWordVector avec normalizeDocLenth
= Normalize all data
Conclusion
remarquons que les résultats on été changer pour ce paramétré.
45
2.2.13 Conclusion genreale
Parmi tout les essais l’algorithme Naive bayes a obtenus les meilleurs re-
sultat avec sa methode de cross validation out =10 et l’algorithme avec les
plus mauvaise resultat et le onerule surtout avec le dernier paramétré de la
normalization .
46