Vous êtes sur la page 1sur 5

Abstrak

Jurnal ini menyajikan sebuah metode tanpa pengawasan yang inovatif untuk ekstraksi kalimat
otomatis menggunakan algoritma Graph based ranking. Kami mengevaluasi metode dalam
konteks summarization tugas teks, dan menunjukkan bahwa hasil yang diperoleh baik
dibandingkan dengan hasil yang dipublikasikan sebelumnya pada tolok ukur yang ditetapkan.
1. Perkenalan
algoritma peringkat berbasis grafik, seperti HITS algoritma Kleinberg (Kleinberg, 1999) atau
Google PageRank (Brin dan Page, 1998), secara tradisional dan sukses digunakan dalam
analisis kutipan, jaringan sosial, dan analisis link-struktur World Wide Web. Singkatnya,
sebuah algoritma peringkat berbasis grafik adalah cara memutuskan pentingnya simpul
dalam grafik, dengan memperhatikan informasi global akun rekursif dihitung dari seluruh
grafik, daripada mengandalkan hanya pada informasi vertex-spesifik lokal.
Sebuah garis yang sama pemikiran dapat diterapkan untuk grafik leksikal atau semantik
diekstrak dari dokumen bahasa alami, sehingga model ranking berbasis grafik yang disebut
TextRank (Mihalcea dan Tarau, 2004), yang dapat digunakan untuk berbagai aplikasi
pengolahan bahasa alami mana pengetahuan yang diambil dari seluruh teks digunakan
dalam pengambilan keputusan peringkat / seleksi lokal. metode peringkat teks berorientasi
tersebut dapat diterapkan untuk tugas-tugas mulai dari ekstraksi otomatis dari Frase unik,
untuk ekstraktif summarization dan disambiguasi makna (Mihalcea et al., 2004).
Dalam makalah ini, kami menyelidiki berbagai algoritma peringkat graphbased, dan
mengevaluasi aplikasi mereka untuk ekstraksi kalimat tanpa pengawasan otomatis dalam
konteks tugas summarization teks. Kami menunjukkan bahwa hasil yang diperoleh
dengan metode tanpa pengawasan baru ini kompetitif dengan mengembangkan
sebelumnya state-of-the-art sistem.

2 Grafik Berbasis Algoritma Ranking


algoritma peringkat berbasis grafik pada dasarnya cara memutuskan pentingnya simpul
dalam grafik, berdasarkan informasi yang diperoleh dari struktur grafik.
Pada bagian ini, kami menyajikan tiga algoritma peringkat berbasis grafik - yang sebelumnya
ditemukan untuk menjadi sukses pada berbagai masalah peringkat. Kami juga menunjukkan
bagaimana algoritma ini dapat disesuaikan dengan grafik diarahkan dan tertimbang, yang
sangat berguna dalam konteks aplikasi ranking berbasis teks.
Mari G = (V, E) adalah graf diarahkan dengan himpunan vertex V dan set tepi E, di mana E
adalah bagian dari V? V. Untuk diberikan vertex Vi, biarkan Dalam (Vi) adalah himpunan
simpul yang mengarah ke itu (pendahulu), dan membiarkan Out (Vi) adalah himpunan
simpul yang simpul Vi poin ke (penerus).

2.1 HITS
HITS (Hyperlink Terimbas Topic Search) (Kleinberg, 1999) adalah suatu algoritma iteratif
yang dirancang untuk peringkat halaman Web sesuai dengan derajat mereka "otoritas".
Algoritma HITS membuat perbedaan antara "penguasa" (halaman dengan sejumlah besar
link masuk) dan "hub" (halaman dengan sejumlah besar link keluar). Untuk setiap vertex,
HITS menghasilkan dua set nilai - "otoritas" skor, dan "hub" skor:
HITSA (Vi) = XVj2In (Vi) HITSH (Vj) (1)
HITS (Vi) = XVj2Out (Vi) HITSA (Vj) (2)
2.2 Posisi Daya Fungsi
Diperkenalkan oleh (herings et al., 2001), fungsi kekuasaan posisional adalah algoritma
peringkat yang menentukan skor simpul sebagai fungsi yang menggabungkan kedua jumlah
penerus, dan skor penerusnya.
POSP (Vi) = 1 JV j X Vj2Out (Vi) (1 + POSP (Vj)) (3)
Counterpart dari fungsi kekuasaan posisional adalah fungsi kelemahan posisi, didefinisikan
sebagai:
POSW (Vi) = 1 JV j X Vj2In (Vi) (1 + POSW (Vj)) (4)
2.3 PageRank
PageRank (Brin dan Page, 1998) mungkin salah satu algoritma peringkat paling populer, dan
dirancang sebagai metode untuk analisa link Web. Tidak seperti peringkat lainnya
algoritma, PageRank mengintegrasikan dampak dari kedua link masuk dan keluar menjadi
satu model tunggal, dan oleh karena itu hanya menghasilkan satu set nilai:
PR (Vi) = (1 􀀀 d) + d? X Vj2In (Vi) PR (Vj) jOut (Vj) j (5)
mana d adalah parameter yang diatur antara 0 dan 1 1. Untuk masing-masing algoritma ini,
mulai dari nilai-nilai sewenang-wenang ditugaskan untuk setiap node dalam grafik,
perhitungan
iterates sampai konvergensi di bawah ambang batas tertentu tercapai. Setelah menjalankan
algoritma, skor dikaitkan dengan setiap sudut, yang merupakan "kepentingan"
atau "kekuatan" itu vertex dalam grafik. Perhatikan bahwa nilai akhir tidak terpengaruh oleh
pilihan nilai awal, hanya jumlah iterasi konvergensi mungkin berbeda.
2.4 diarahkan Grafik
Meskipun secara tradisional diterapkan pada grafik diarahkan, rekursif berbasis grafik
algoritma peringkat dapat juga diterapkan pada grafik diarahkan, dalam hal outdegree yang
dari simpul sama dengan di-derajat simpul tersebut.
Untuk grafik longgar terhubung, dengan jumlah tepi proporsional dengan jumlah simpul,
grafik diarahkan cenderung memiliki lebih banyak kurva konvergensi bertahap. Sebagai
konektivitas meningkat grafik (yaitu jumlah yang lebih besar dari tepi), konvergensi biasanya
dicapai setelah iterasi yang lebih sedikit, dan kurva konvergensi untuk grafik diarahkan dan
diarahkan praktis tumpang tindih.
2.5 Grafik tertimbang
Dalam konteks web surfing atau analisis kutipan, itu tidak biasa untuk vertex untuk
menyertakan beberapa atau sebagian link ke vertex lain, dan karenanya definisi asli untuk
algoritma peringkat berbasis grafik dengan asumsi grafik tertimbang.
Namun, dalam model TextRank kami grafik yang membangun dari teks bahasa alami, dan
mungkin termasuk beberapa atau parsial hubungan antara unit (simpul) yang diekstrak dari
teks. Mungkin karena itu berguna untuk menunjukkan dan memasukkan ke dalam model
"kekuatan" dari hubungan antara dua simpul Vi dan Vj sebagai wij berat ditambahkan ke tepi
sesuai yang menghubungkan dua simpul. Akibatnya, kami memperkenalkan formula baru
untuk peringkat berbasis grafik yang memperhitungkan keunggulan bobot ketika
menghitung skor terkait dengan simpul dalam grafik.
Sedangkan nilai akhir vertex (dan karena itu peringkat) untuk grafik tertimbang berbeda
secara signifikan dibandingkan dengan alternatif tertimbang mereka, jumlah iterasi
konvergensi dan bentuk kurva konvergensi hampir identik untuk grafik tertimbang dan
unweighted.
3 Kalimat Ekstraksi
Untuk mengaktifkan aplikasi algoritma peringkat berbasis grafik untuk teks bahasa alami,
TextRank dimulai dengan membangun sebuah grafik yang mewakili teks, dan interkoneksi
kata atau badan teks lainnya dengan hubungan yang bermakna.
Untuk tugas ekstraksi kalimat, tujuannya adalah untuk peringkat seluruh kalimat, dan karena
itu titik ditambahkan ke grafik untuk setiap kalimat dalam teks. Untuk membangun koneksi
(tepi) antara kalimat, kita mendefinisikan "kesamaan" hubungan, di mana "kesamaan"
diukur sebagai fungsi tumpang tindih konten. Seperti hubungan antara dua kalimat dapat
dilihat sebagai proses "rekomendasi": kalimat yang membahas konsep-konsep tertentu
dalam teks, memberikan pembaca "rekomendasi" untuk merujuk pada kalimat lainnya
dalam teks yang membahas konsep yang sama, dan karena itu link dapat ditarik antara dua
kalimat tersebut yang berbagi konten umum.
Tumpang tindih dari dua kalimat dapat ditentukan hanya sebagai jumlah token umum antara
representasi leksikal dari dua kalimat, atau dapat dijalankan melalui filter sintaksis, yang
hanya menghitung kata dari kategori sintaksis tertentu. Bahkan,
untuk menghindari mempromosikan kalimat yang panjang, kita menggunakan faktor
normalisasi, dan membagi tumpang tindih isi dua kalimat dengan panjang masing-masing
kalimat.
Secara formal, diberikan dua kalimat Si dan Sj, dengan kalimat yang diwakili oleh
serangkaian kata Ni yang muncul dalam kalimat:
Si = Wi 1; Wi 2; :::; Win i
.
kesamaan Si dan Sj didefinisikan sebagai:
Kesamaan (Si; Sj) = jWkjWk2Si & Wk2Sj j log (jSij) + log (jSj j)
Grafik yang dihasilkan sangat terhubung, dengan berat yang terkait dengan setiap tepi,
menunjukkan kekuatan hubungan antara berbagai pasangan kalimat dalam teks. Teks
karena itu direpresentasikan sebagai graf berbobot, dan akibatnya kita menggunakan
tertimbang berbasis grafik formula peringkat diperkenalkan dalam Bagian 2.5. grafik dapat
direpresentasikan sebagai: (a) grafik diarahkan sederhana; (B) diarahkan graf berbobot
dengan orientasi tepi set dari kalimat ke kalimat yang mengikuti dalam teks (diarahkan ke
depan); atau (c) diarahkan graf berbobot dengan orientasi tepi set dari kalimat ke kalimat
sebelumnya dalam teks (diarahkan ke belakang).
Setelah algoritma peringkat dijalankan pada grafik, kalimat diurutkan dalam urutan terbalik
dari nilai mereka, dan kalimat atas peringkat yang dipilih untuk dimasukkan dalam ringkasan.
Gambar 1 menunjukkan contoh teks, dan grafik tertimbang terkait dibangun untuk teks ini.
Angka tersebut juga menunjukkan bobot sampel melekat pada tepi terhubung ke simpul 93,
dan skor akhir dihitung untuk setiap titik, menggunakan rumus PR, diterapkan pada sebuah
grafik diarahkan. Kalimat dengan pangkat tertinggi yang dipilih untuk dimasukkan dalam
abstrak. Untuk artikel sampel ini, kalimat dengan id-s 9, 15, 16, 18 diekstrak,
mengakibatkan ringkasan sekitar 100 kata, yang menurut langkah-langkah evaluasi otomatis,
berada di peringkat kedua di antara ringkasan yang dihasilkan oleh 15 sistem lain (lihat
Bagian 4 untuk metodologi evaluasi).
4 Evaluasi
The TextRank algoritma ekstraksi kalimat dievaluasi dalam konteks tugas summarization
tunggal dokumen, menggunakan 567 artikel berita yang selama Evaluasi Dokumen
Memahami 2002 (DUC, 2002). Untuk setiap artikel, TextRank menghasilkan
100-kata Ringkasan-tugas yang dilakukan oleh sistem lain yang berpartisipasi dalam tugas
dokumen summarization tunggal ini.
Untuk evaluasi, kita menggunakan toolkit evaluasi ROUGE, yang merupakan metode
berdasarkan statistik Ngram, ditemukan sangat berkorelasi dengan evaluasi manusia (Lin
dan Hovy, 2003a). Dua ringkasan referensi yang diproduksi secara manual disediakan, dan
digunakan dalam process4 evaluasi.
Kami mengevaluasi ringkasan yang dihasilkan oleh TextRank menggunakan masing-masing
tiga algoritma peringkat berbasis grafik yang dijelaskan dalam Bagian 2. Tabel 1
menunjukkan hasil yang diperoleh dengan masing-masing algoritma, ketika menggunakan
grafik yang: (a) tidak diarahkan, (b) diarahkan ke depan, atau (c) diarahkan ke belakang.
Untuk evaluasi perbandingan, Tabel 2 menunjukkan hasil yang diperoleh pada data ini
ditetapkan oleh top 5 (dari 15) melakukan sistem berpartisipasi dalam dokumen tugas
summarization tunggal pada DUC 2002 (DUC, 2002). Ini juga daftar kinerja awal, dihitung
untuk ringkasan 100-kata yang dihasilkan dengan mengambil kalimat pertama dalam setiap
artikel.
Diskusi.
The TextRank pendekatan untuk kalimat ekstraksi berhasil mengidentifikasi kalimat yang
paling penting dalam teks berdasarkan informasi eksklusif diambil dari teks itu sendiri. Tidak
seperti sistem diawasi lainnya, yang mencoba untuk mempelajari apa yang membuat
ringkasan yang baik dengan pelatihan tentang koleksi ringkasan dibangun untuk artikel lain,
TextRank sepenuhnya tanpa pengawasan, dan hanya bergantung pada teks yang diberikan
untuk menurunkan suatu ekstraktif ringkasan.
Di antara semua algoritma, yang HITSA dan algoritma PageRank memberikan kinerja terbaik,
setara dengan sistem berkinerja terbaik dari DUC 20025. Ini membuktikan bahwa berbasis
grafik algoritma peringkat, sebelumnya ditemukan sukses dalam analisis link Web, dapat
berubah menjadi state-of alat-the-art untuk ekstraksi kalimat bila diterapkan grafik
diekstraksi dari teks.
Perhatikan bahwa TextRank melampaui kalimat "konektivitas" dalam teks. Misalnya, kalimat
15 dalam contoh yang diberikan pada Gambar 1 tidak akan diidentifikasi sebagai "penting"
berdasarkan jumlah koneksi itu dengan simpul lainnya di graph6, tapi itu adalah
diidentifikasi sebagai "penting" oleh TextRank (dan oleh manusia - menurut ringkasan
referensi untuk teks ini).
Keuntungan penting lainnya dari TextRank adalah memberikan peringkat di atas semua
kalimat dalam teks - yang berarti bahwa hal itu dapat dengan mudah disesuaikan dengan
penggalian ringkasan yang sangat singkat, atau lebih lama ringkasan lebih bersifat
menerangkan, yang terdiri dari lebih dari 100 kata.
5 Pekerjaan Terkait
ekstraksi kalimat dianggap merupakan langkah penting pertama untuk summarization teks
otomatis. Sebagai akibatnya, ada tubuh besar bekerja pada algoritma 5Notice bahwa baris
dua dan empat pada Tabel 1 sebenarnya berlebihan, karena "hub" ( "kelemahan") variasi
HITS (Posisi) algoritma dapat diturunkan dari mereka "otoritas" ( "kekuatan") rekan-rekan
dengan membalik orientasi tepi dalam grafik.
6Only tujuh ujung-ujungnya insiden dengan simpul 15, kurang dari mis sebelas tepi insiden
dengan simpul 14 - tidak dipilih sebagai "penting" oleh TextRank. untuk kalimat ekstraksi
dilakukan sebagai bagian dari latihan evaluasi DUC. pendekatan sebelumnya termasuk
diawasi
belajar (Teufel dan Moens, 1997), kesamaan vectorial dihitung antara abstrak awal dan
kalimat dalam dokumen yang diberikan, atau kesamaan intra-dokumen (Salton et al., 1997).
Hal ini juga dicatat studi yang dilaporkan dalam (Lin dan Hovy, 2003b) membahas kegunaan
dan keterbatasan ekstraksi kalimat otomatis untuk summarization, yang menekankan
perlunya alat yang akurat untuk ekstraksi kalimat, sebagai bagian integral dari sistem
summarization otomatis.
6 Kesimpulan
Secara intuitif, TextRank bekerja dengan baik karena tidak hanya bergantung pada konteks
lokal dari unit teks (vertex), melainkan memperhitungkan informasi rekursif diambil dari
keseluruhan teks (grafik). Melalui grafik itu dibangun di atas teks, TextRank mengidentifikasi
koneksi
antara berbagai entitas dalam teks, dan menerapkan konsep rekomendasi. Sebuah unit teks
merekomendasikan unit teks terkait lainnya, dan kekuatan rekomendasi tersebut secara
rekursif dihitung berdasarkan pentingnya unit membuat rekomendasi.
Dalam proses identifikasi kalimat penting dalam teks, kalimat menyarankan kalimat lain yang
membahas konsep serupa sebagai berguna untuk memahami keseluruhan teks. Kalimat
yang sangat dianjurkan oleh kalimat lain cenderung lebih informatif untuk teks yang
diberikan, dan oleh karena itu akan diberikan skor yang lebih tinggi.
Sebuah aspek penting dari TextRank adalah bahwa hal itu tidak memerlukan pengetahuan
yang mendalam linguistik, atau domain atau bahasa dijelaskan corpora tertentu, yang
membuatnya sangat portabel untuk domain lainnya, genre, atau bahasa.

Vous aimerez peut-être aussi