Vous êtes sur la page 1sur 4

Tutorial

Perhitungan Entropi dan Information Gain


Metode Pohon Keputusan

Oleh:
Dwi Wahyu Prabowo, S.Si, M.Eng.
11.041289.01


Misal terdapat dataset karyawan sebagai berikut:


Langkah-langkah yang perlu dilakukan untuk menghitung entropi, information gain dan gain ration
adalah sebagai berikut:
1) a. Hal yang perlu dilakukan untuk memodifikasi algoritme decision tree agar supaya kolom count
dapat dimanfaatkan adalah sebagai berikut.
Karena kolom count memberikan informasi mengenai jumlah instance dari setiap baris
pada tabel tersebut, maka jumlah instance tersebut harus disertakan pada kalkulasi proses
seleksi atribut (seperti pada penghitungan information gain).
Untuk memudahkan perhitungan, kolom count dapat dijadikan acuan untuk menentukan
kelas yang paling umum (paling banyak jumlahnya) di antara tuple-tuple yang lain.
b. Pada dataset ini, diasumsikan atribut status sebagai atribut kelas. Hal yang mendasari asumsi
ini adalah problem klasifikasi biner (hanya dua nilai yaitu senior dan junior) merupakan
problem yang mudah untuk diselesaikan, karena akan meringankan beban kalkulasi pada
proses seleksi atribut.

Langkah 1
Menghitung nilai entropy dataset employee.
4

Pr / log 3 /

=
/56

52
52
113
113
log 3

log 3

165
165
165
165
= 0.31515 log 3 0.31515 0.68485 log 3 0.68485
= 0.31515 1,66588 0.68458 0.54616
= 0.52500 + 0.37403
= 0.89903

=

Dwi Wahyu Prabowo, S.Si., M.Eng

Universitas Darwan Ali


Dimana: adalah dataset karyawan
6 adalah banyaknya status atau kelas "senior"
3 adalah banyaknya status atau kelas "junior"

Langkah 2
I. Menghitung nilai entropy atribut department.
IJ

1. EFGHE =

2. ELEMHN =

I6

4. EHUOHMFOL =

6T
T

6J

I6

log 3

log 3

66J
3I
I6

6J
6T
T
6J

log 3

log 3
T

6T
V

6J

log 3

= 0.84534

= 0.82381

I6

log 3

/56
66J

EFGHE +

6VZ

NFOPHMQRS +
=

KJ
66J
3I

T
6T
V
6J

= 0.86312
= 0.97095

/
/

WHXFOMNHRM =
=

6J

KJ

66J
K

log 3

3. NFOPHMQRS =

IJ

log 3

66J
K

66J

I6

I6
6VZ
6J

ELEMHN +

6VZ

6T
6VZ

EHUOHMFOL
6T

6J

0.84534 +
0.82381 +
0.86312 +

6VZ
6VZ
6VZ
0.97095
= 0.85042
6VZ


II.

Menghitung nilai entropy atribut age.


1. 363Z =
2. 3V...IJ =
3. I6IZ =
4. IVTJ =

J
3J
J

T\
IZ
]\
6J
6J
I

log 3
log 3

FSH =
=

/56
3J
6VZ
6J

]\
6J
I
I
T

6J

3J

3J
T\
T\
TT
]\
J
6J

log 3

log 3
log 3
log 3

log 3

I
J

I
J

log 3

3J
3J
T\
T\
TT
]\
J
6J

= 0
= 0
= 0.99062
= 0

= 0
= 0

/
/

363Z +

6VZ
3J

T\
IZ

I
T

6. TVZJ = log 3
Y

3J
J

log 3

5. T6TZ = log 3

log 3

IVTJ +
T\

]\

T\
6VZ
I

3V...IJ +

6VZ

]\
6VZ
T

T6TZ +
6J

I6IZ +

6VZ
I

TVZJ
T

=
0 +
0 +
0.99062 +
0 +
0 +
0
6VZ
6VZ
6VZ
6VZ
6VZ
6VZ
= 0.47430

Dwi Wahyu Prabowo, S.Si., M.Eng

Universitas Darwan Ali

III.

Menghitung nilai entropy atribut salary.


1. 3V^IJ^ =
2. I6^...IZ^ =

J
TV
J
TJ
T

log 3

3. IV^TJ^ = log 3
T
TJ

VI
K

log 3
K

EFGFOL =
=

TV
6VZ

/56

TJ
T
T
J

6. VV^]J^ = log 3

TV
J

T
J

4. T6^TZ^ = log 3
5. TV^ZJ^ =

log 3

TV
TJ
TJ

log 3
log 3

log 3

TJ
VI

T
T

3I
VI

log 3

log 3

T
T

log 3

J
K

TV
TV
TJ
TJ

= 0
= 0

= 0
= 0
3I
VI

= 0.94682

= 0

/
/

3V^IJ^ +
T

IV^TJ^ +

6VZ
K

TV^ZJ^ +
TV

TV

6VZ
T

TJ

TJ
6VZ

I6^...IZ^ +

T6^TZ^ +

VI
6VZ

T
6VZ

VV^]J^
T

VI

=
0 +
0 +
0 +
0 +
0.94682 +
0
6VZ
6VZ
6VZ
6VZ
6VZ
6VZ
= 0.36151

Langkah 3
I.
Menghitung information gain
1. , = WHXFOMNHRM
= 0.89903 0.85042 = 0.04861
2. , = FSH
= 0.89903 0.47430 = 0.42473
3. , = EFGFOL
= 0.89903 0.36151 = .

II.

Menghitung gain ratio

1. , =

SFQR l,WHXFOMNHRM
no
no
m touv
pqrs
n

0.04861
31
14
14
+
log 3
165
165
165

31
+
log 3
165
0.04861
=
= 0.03496
0.38998 + 0.45319 + 0.30197 + 0.24512

110
110
log 3
165
165

2. , =

SFQR l,FSH
no
no
m touv
pqrs
n

10
10
log 3
165
165

0.42473

20
20
49
49
79
79
10
10

log 3
+
log 3
+
log 3
+
log 3
165
165
165
165
165
165
165
165
3
3
4
4
+
log 3
+
log 3
165
165
165
165
0.42473
=
= 0.22613
0.36902 + 0.52018 + 0.50873 + 0.24512 + 0.10512 + 0.13009
SFQR l,EFGFOL
3. , =

n
n
=

m touv

Dwi Wahyu Prabowo, S.Si., M.Eng

o
n

pqrs

o
n

Universitas Darwan Ali

0.53752

46
46
40
40
4
4
4
4

log 3
+
log 3
+
log 3
+
log 3
165
165
165
165
165
165
165
165
63
63
8
8
+
log 3
+
log 3
165
165
165
165
0.53752
=
= .
0.51374 + 0.49561 + 0.13009 + 0.13009 + 0.53036 + 0.21170


Berdasarkan kalkulasi di atas, dapat disimpulkan bahwa atribut salary dipilih sebagai splitting
attribute. Karena atribut salary memiliki nilai information gain dan gain ratio tertinggi, yaitu
, = . dan , = . .

Dwi Wahyu Prabowo, S.Si., M.Eng

Universitas Darwan Ali