Vous êtes sur la page 1sur 47

Faculté des sciences exactes

département d’informatique

Rapport TP03 Data Mining

Par
Wahiba DERDAZ
Option
ISI
Pour le cour
Data Mining
Enseigné par le professeur
Mr.FAHSI

Date : 05/06/2021
Contents

1 Partie 01 2
1.1 Description du data Choisis . . . . . . . . . . . . . . . . . . . 2
1.1.1 C4.5 J4.8 . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.2 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2 Discrétisation supervisée et non supervisée . . . . . . . . . . . 8
1.2.1 Discrétisation supervisée 1 . . . . . . . . . . . . . . . 8
1.2.2 Discrétisation supervisée 2 . . . . . . . . . . . . . . . 10
1.2.3 Discrétisation non supervisée 1 . . . . . . . . . . . . . 13
1.2.4 Discrétisation non supervisée 2 . . . . . . . . . . . . . 16
1.3 Filters et wrapper . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.3.1 Filter . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.3.2 Wrapper . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.4 Nettoyage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4.1 supression des instance qui contien valuer manquante . 22
1.4.2 remplacer les valeur manquante . . . . . . . . . . . . . 24
1.4.3 Les pretraitement ensemble . . . . . . . . . . . . . . . 27
1.4.4 select attributs (wrapper ) et discretisations (unsuper-
vised) et nettoyage SubsetByExpression . . . . . . . . 30
1.5 Conclusion Generale . . . . . . . . . . . . . . . . . . . . . . . 31

2 Partie 02 32
2.1 Mon dataset textuelle . . . . . . . . . . . . . . . . . . . . . . . 32
2.1.1 Header de dataset . . . . . . . . . . . . . . . . . . . . . 32
2.1.2 Références . . . . . . . . . . . . . . . . . . . . . . . . 33
2.1.3 Application de la fonction StringToWordVector . . . . 35
2.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2.1 Algorithmes utilisé : . . . . . . . . . . . . . . . . . . . 36
2.2.2 Methode d’evaluation : . . . . . . . . . . . . . . . . . . 37

1
2.2.3 Onerule . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.4 IBK Knn . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.5 C4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.6 Naive bayes . . . . . . . . . . . . . . . . . . . . . . . . 39

2
Chapter 1

Partie 01

1.1 Description du data Choisis


Informations sur les ensembles de données L’ensemble de données d’origine
sur les maladies thyroı̈diennes (ann-thyroı̈de) du référentiel d’apprentissage
machine UCI est un ensemble de données de classification, qui convient à
la formation des ANN. Il a 3772 instances de formation et 3428 instances
de test. Il a 15 attributs catégoriques et 6 attributs réels. Le problème
est de déterminer si un patient référé à la clinique est hypothyroı̈dien. Par
conséquent, trois classes sont construites: fonctionnement normal (pas hy-
pothyroı̈dien), hyperfonctionnement et fonctionnement subnormal. Pour la
détection des valeurs aberrantes, 3772 instances d’entraı̂nement sont utilisées,
avec seulement 6 attributs réels. La classe d’hyperfonction est traitée comme
une classe aberrante et les deux autres classes sont des inliers, car l’hyperfonction
est une classe minoritaire claire.
Source (citation)
F. Keller, E. Muller, K. Bohm. ”HiCS: sous-espaces à contraste élevé pour
le classement des valeurs aberrantes basé sur la densité.” ICDE, 2012.
C. C. Aggarwal et S. Sathe, Fondements théoriques et algorithmes pour les
ensembles aberrants. ACM SIGKDD Explorations Newsletter, vol. 17, non.
1, pp. 24–47, 2015.
Saket Sathe et Charu C. Aggarwal. LODES: La densité locale rencon-
tre la détection des valeurs aberrantes spectrales. Conférence SIAM sur
l’exploration de données, 2016.
Source: UCI

3
Author: Ross
Nombre instance : 3772
Nombre attributes :30
Nombre valeurs manquantes : 6064 / 5.4%

Le liens : https://archive.ics.uci.edu/ml/datasets/thyroid+disease

4
Attribute description:

Algorithmes utilisé :
ˆ OneRule

ˆ Knn

ˆ C45 J48

ˆ Naive Bayes

ˆ Kstar

Methode d’evaluation :
-cross-validation (13 folder)
-percentage split (73%)
-Leave one out

5
Méthodes de filtrage étudier
ˆ Discrétisation supervisée et non supervisée

ˆ méthodes filters et wrapper.

ˆ Nettoyage des données Combinaisons de ces 3 methode de filtrage pour


augmenter performance

OneR

Conclusion
la meilleure Méthode d’evaluation pour l’algorithme OneRule est le poucen-
tage split avec split= 73% avec F-mesure =0.968

Knn IBK

6
Conclusion
la meilleure Méthode d’evaluation pour Knn est le cross validation fold = 13
avec F-mesure =0.962

1.1.1 C4.5 J4.8

Conclusion
la meilleure Méthode d’evaluation pour l’algorithme C4.5 est le cross valida-
tion fold = 13 avec F-mesure =0.988
l’arbre

7
NaiveBayes

Conclusion
la meilleure Méthode d’evaluation pour l’algorithme Naivebayes est le cross
validation fold = 13 avec F-mesure =0.938

Kstar

Conclusion
la meilleure Méthode d’evaluation pour l’algorithme Kstar est le leave one
out avec F-mesure =0.954 .

8
1.1.2 Conclusion
Les meilleurs algorithmes

conclusion
Les deux meilleurs algorithmes qu’on va continuer avec sont le C4.5 et le One
rule

1.2 Discrétisation supervisée et non super-


visée
1.2.1 Discrétisation supervisée 1
Avec filter (supervised ) sur la dataset original Et range = 6
Binary= false

9
10
C4.5 J4.8

Conclusion
la meilleure Méthode d’evaluation pour l’algorithme de C4.5 est le poucentage
split avec split= 73% avec F-mesure =0.978.

OneR

Conclusion
la meilleure Méthode d’evaluation pour l’algorithme OneRule est le poucen-
tage split avec split= 73% avec F-mesure =0.971

1.2.2 Discrétisation supervisée 2


Avec filter (supervised ) sur la dataset original Et range = 6
Binary= True

11
12
C4.5 J4.8

Conclusion
la meilleure Méthode d’evaluation pour l’algorithme J4.8 est le cross valida-
tion fold= 13 et leave one out avec le meme F-mesure =0.978.

13
OneR

Conclusion
la meilleure Méthode d’evaluation pour l’algorithme OneRule est le poucen-
tage split avec split= 73% avec F-mesure =0.971

1.2.3 Discrétisation non supervisée 1


Avec filter (unsupervised ) sur la dataset original Et frequence egal ( useE-
qualFrequency = True )
bin = 10

14
15
C4.5 J4.8

Conclusion
la meilleure Méthode d’evaluation dans le cas de l’algorithme C4.5 est le cross
validation =13 avec F-mesure =0.976.

16
OneR

Conclusion
la meilleure Méthode d’evaluation pour l’algorithme OneRule est le poucen-
tage split avec split= 73% avec F-mesure =0.971.

1.2.4 Discrétisation non supervisée 2


Avec filter (unsupervised ) sur la dataset original Et frequence egal ( useE-
qualFrequency = False )
bin = 10

17
18
C4.5 J4.8

Conclusion
la meilleure Méthode d’evaluation pour l’algorithme C4.5 est le cross valida-
tion fold= 13 et leave one out avec F-mesure =0.981.

19
OneR

Conclusion
la meilleure Méthode d’evaluation pour l’algorithme OneRule est le poucen-
tage split avec split= 73% avec F-mesure =0.971.

1.3 Filters et wrapper


1.3.1 Filter
Classify : AttributeSelectedClassifier.
Evaluator : GainRatioAttributeEval
Search : Ranker.
Test : Classifier C4.5 J48
Cross-Validation : 10 folds

20
Ranked attributes:

21
C4.5

OneRule

1.3.2 Wrapper
les resultats son les memes avec WrapperSubSetEval qui évalue les ensem-
bles d’attributs à l’aide d’un schéma d’apprentissage. La validation croisée
est utilisée pour estimer la précision du schéma d’apprentissage pour un en-
semble d’attributs.

22
Affichage de resultats

Remarque: aucun attribut est sélectionnée

1.4 Nettoyage
1.4.1 supression des instance qui contien valuer man-
quante
on utilise la methode SubsetByExpression

23
24
C4.5

OneRule

Conclusion
on remarque aussi que le performance n’a pas trop changer donc cette méthode
peut le diminuer .

1.4.2 remplacer les valeur manquante


Sur la dataset original on utilise ReplaceMissingValues
Cette methode de filtrage remplace les valeurs manquante avec la moyenne

25
26
C4.5

OneRule

Remarque
en comparant entre les résultats de la 1er et la 2ème méthode de nettoyage
Le performance a augmenté pour c45 et rien n’a changer avec oneR .

27
1.4.3 Les pretraitement ensemble
select attributs (filter) et discretisations (supervised)
C4.5

OneRule

28
select attributs (filter) et discretisations (unsupervised) equalfre=TRUE
C4.5

OneRule

Remarque
remarquons que le test avec la deuxieme methode et la premiers en utilisant
le’algorithme onerule rien n’a chnager

29
select attributs (filter) et discretisations (supervised) et nettoyage
C4.5

OneRule

30
1.4.4 select attributs (wrapper ) et discretisations (un-
supervised) et nettoyage SubsetByExpression

31
C4.5

OneRule

Remarque
remarquons que le test avec la dernière méthode en utilisant le’algorithme
onerule rien n’a changer par rapport au 2 premiers methodes.

1.5 Conclusion Generale


La combinaison des méthodes de filtrage peut augmenter le performance
pour certain algorithmes et méthodes comme il est possible de le diminuer
pour autre,pour le dataset que j’ai choisis on remarque que le performance
augmente en utilisant l’algorithme C4.5. l’utilisations de tout ses methodes
peut diminuer ou augmenter le performance selon le dataset choisis donc on
ne peut pas savoir au juste .

32
Chapter 2

Partie 02

2.1 Mon dataset textuelle


Texte mining qui contient un attribut de type string ( des phrase ) et une
classe ( la langue )

2.1.1 Header de dataset


@relation Data textuelle @attribute text String @attribute class Français,Anglais,Allemand,Espagno
@data

33
2.1.2 Références
1-3-Source de dataset :
Francais:
https://www.languefr.net/2019/07/paragraphe-sur-le-voyage.html?fullpost

Anglais:
https://writingcenter.unc.edu/tips-and-tools/paragraphs

Allemand:
https://www.seubert-pr.de/blog/2017/09/18/absatz-in-einem-text/

Espagnol:

34
https://www.textos.info/textos/mas-largos

croate:
https://hr.eferrit.com/spanjolski-prilozivi-pridjevi-dugi-obrazac/

Italien:
https://www.wikihow.it/Scrivere-un-Paragrafo

Estonien:
https://digi.geenius.ee/rubriik/uudis/13-lolli-kusimust-millele-iga-interneti-kasutaja-
peab-vastust-teadma/

Polonais:
https://sip.lex.pl/akty-prawne/dzienniki-UE/wykaz-dokumentow-podrozy-ktore-
uprawniaja-posiadacza-do-przekraczania-granic-68074441

Suedois:
https://www.vl.se/resa/villkor–ersattning/resevillkor/forseningsersattning/

Portugais:
https://www.in.gov.br/en/web/dou/-/portaria-n-2.227-de-31-de-dezembro-de-
2019-236265796

Letton:
http://likumi.lv/ta/id/150800-par-reklamas-likuma-parkapuma-konstatesanu-
tiesiska-pienakuma-uzliksanu-un-lietvedibas-uzsaksanu-administrativa-parkapuma

Malisien:
https://health.detik.com/kebugaran/d-4409891/tips-peregangan-praktis-buat-
pekerja-kantoran-yang-super-sibuk

néerlandais:
https://www.caorijk.nl/cao/10-reizen-en-vergoedingen

35
2.1.3 Application de la fonction StringToWordVector
cette fonction est utilisé pour convertit une chaı̂ne en un ensemble d’attributs
numériques contenant des informations d’occurrence de mot . Avant

36
Après

2.2 Evaluation
2.2.1 Algorithmes utilisé :
ˆ IBK Knn

ˆ Knn

ˆ C45 J48

ˆ Naive Bayes

37
ˆ Kstar

2.2.2 Methode d’evaluation :


-cross-validation (10 folder)
-percentage split (70%)
-Leave one out

38
2.2.3 Onerule

conclusion
La meilleure methode est Hold-out (Percentage Split =66) avec F-Measure
=0.067

2.2.4 IBK Knn

conclusion
La meilleure methode est est Leave one out ( folds =750 ) avec F-Measure
=0.650

2.2.5 C4.5

conclusion
La meilleure methode est Cross-validation ( folds =10 ) avec F-Measure
=0.966

39
2.2.6 Naive bayes

conclusion
La meilleure methode Leave one out et Cross-validation ( folds =750 ) avec
F-Measure =0.773

2.2.7 conclusion
entre les 4 algorithmes qu’on a utiliser les résultats est de naive bayes avec
la méthode Cross-validation ( folds =10 )

40
2.2.8 StringToWordVector avec IDFtrabsform = true

Conclusion
la meilleur resultats est de naive bayes avec la methode Cross-validation (
folds =10 ), même resultats precedante

41
2.2.9 StringToWordVector avec IDFtrabsform = false
et TFtrasform = true

Conclusion
Meme resultats precedante

42
2.2.10 StringToWordVector avec IDFtrabsform = true
et TFtrasform = true

Conclusion
Meme resultats precedante

43
2.2.11 StringToWordVector avec debug = true

Conclusion
aussi Meme resultats precedante

44
2.2.12 StringToWordVector avec normalizeDocLenth
= Normalize all data

Conclusion
remarquons que les résultats on été changer pour ce paramétré.

45
2.2.13 Conclusion genreale
Parmi tout les essais l’algorithme Naive bayes a obtenus les meilleurs re-
sultat avec sa methode de cross validation out =10 et l’algorithme avec les
plus mauvaise resultat et le onerule surtout avec le dernier paramétré de la
normalization .

46

Vous aimerez peut-être aussi