13
vii ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel, atau jurnal. Informasi yang dibagikan setiap harinya begitu banyak, tidak semua informasi yang dibagikan tersebut memuat informasi yang diperlukan oleh pembaca dan di dalam sebuah dokumen tidak semua teks adalah informasi yang penting. Idealnya dari sekian banyak kalimat yang ada pada dokumen hanya beberapa kalimat yang merupakan informasi penting yang ingin disampaikan. Untuk mencari informasi dari dokumen yang banyak digunakan metode Information Retreival (IR). Aplikasi peringkas teks pada penelitian ini menggunakan empat fitur dokumen untuk mendapatkan nilai dari masing – masing kalimat. Empat fitur tersebut yaitu : kemiripan antar-kalimat, kalimat yang menyerupai judul dokumen TF-ISF dan TF-IDF. Penelitian ini menggunakan 2 metode yang digabungkan yaitu metode Graph dan metode Ant Colony Optimization. Metode Graph ini dibangun dengan menggunakan bobot edge. Untuk mancari bobot dari setiap simpul pada Graph dengan menggunakan nilai dari empat fitur dokumen. Agar metode ant colony optimization bisa bekerja kalimat yang akan diringkas ditransformasi menjadi graph yang memiliki bobot pada sisi setiap simpulnya. Hasil ringkasan yang sudah didapatkan oleh aplikasi peringkas teks ini nantinya akan di uji dengan membandingkan hasil ringkasan dari aplikasi dengan hasil ringkasan manual, membandingkan hasil ringkasan sistem dengan hasil ringkasan menggunakan autosummary tools pada microsoft word dan membandingkan hasil ringkasan sistem dengan hasil ringkasan ahli yaitu guru SMA/SMK yang mengajar Bahasa Indonesia. Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen

ABSTRAK - IMISSU Single Sign On of Udayana University · 2017-07-21 · ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan

Embed Size (px)

Citation preview

Page 1: ABSTRAK - IMISSU Single Sign On of Udayana University · 2017-07-21 · ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan

vii

ABSTRAK

Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan mudah untuk berbagi informasi. Informasi yang dibagikan biasanya dalam bentuk dokumen, artikel, atau jurnal. Informasi yang dibagikan setiap harinya begitu banyak, tidak semua informasi yang dibagikan tersebut memuat informasi yang diperlukan oleh pembaca dan di dalam sebuah dokumen tidak semua teks adalah informasi yang penting. Idealnya dari sekian banyak kalimat yang ada pada dokumen hanya beberapa kalimat yang merupakan informasi penting yang ingin disampaikan. Untuk mencari informasi dari dokumen yang banyak digunakan metode Information Retreival (IR).

Aplikasi peringkas teks pada penelitian ini menggunakan empat fitur dokumen untuk mendapatkan nilai dari masing – masing kalimat. Empat fitur tersebut yaitu : kemiripan antar-kalimat, kalimat yang menyerupai judul dokumen TF-ISF dan TF-IDF. Penelitian ini menggunakan 2 metode yang digabungkan yaitu metode Graph dan metode Ant Colony Optimization. Metode Graph ini dibangun dengan menggunakan bobot edge. Untuk mancari bobot dari setiap simpul pada Graph dengan menggunakan nilai dari empat fitur dokumen. Agar metode ant colony optimization bisa bekerja kalimat yang akan diringkas ditransformasi menjadi graph yang memiliki bobot pada sisi setiap simpulnya.

Hasil ringkasan yang sudah didapatkan oleh aplikasi peringkas teks ini nantinya akan di uji dengan membandingkan hasil ringkasan dari aplikasi dengan hasil ringkasan manual, membandingkan hasil ringkasan sistem dengan hasil ringkasan menggunakan autosummary tools pada microsoft word dan membandingkan hasil ringkasan sistem dengan hasil ringkasan ahli yaitu guru SMA/SMK yang mengajar Bahasa Indonesia.

Kata kunci : Informasi, Information Retreival, Ant Colony Optimization, Graph, Fitur dokumen

Page 2: ABSTRAK - IMISSU Single Sign On of Udayana University · 2017-07-21 · ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan

viii

ABSTRACT

To get an information at this point is very easy. With the internet people with easy to share information. The information provided is usually in the form of documents, articles, or journals.The information shared so much every day, not all the information shared contains the information required by the reader and in a document not all the text is important information. Ideally, from the many sentences in the document, only a few sentences are important information to be conveyed. To find information from a document that is widely used method of Information Retreival (IR).

The text summary application in this study uses four document features to get the value of each sentence.Four features are: the similarity between sentences, sentences that resemble the title of documents TF-ISF and TF-IDF.This study uses two methods combined are Graph method and Ant Colony Optimization method.The Graph method is built using edge weights. To find the weight of each node in the Graph by using the value of the four features of the document.For ant colony optimization methods to work the sentence to be summarized is transformed into a graph that has a weight on the side of each node.

The summary results obtained by this text summary application will be tested by comparing the summary results of the application with manual summary results, comparing the results of system summaries with summary results using autosummary tools in microsoft word and comparing the results of system summaries with the results of expert summary ie high school teachers / vocational high school teaching Indonesian Language.

Keywords: Information, Information Retrieval, Ant Colony Optimization, Graph, Document Features

Page 3: ABSTRAK - IMISSU Single Sign On of Udayana University · 2017-07-21 · ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan

ix

DAFTAR ISI

SAMPUL DALAM ........................................................................................ i

PRASYARAT GELAR ................................................................................. ii

LEMBAR PERNYATAAN ORISINALITAS ............................................ iii

LEMBAR PENGESAHAN .......................................................................... iv

UCAPAN TERIMAKASIH .......................................................................... v

ABSTRAK .......................................................................... .......................... vii

ABSTRACT.......................................................................... .......................... viii

DAFTAR ISI .................................................................................................. ix

DAFTAR GAMBAR ..................................................................................... xii

DAFTAR TABEL ......................................................................................... xiii

DAFTAR KODE PROGRAM ..................................................................... xv

BAB I PENDAHULUAN

1.1 Latar Belakang .......................................................................................... 1

1.2 Rumusan Masalah ..................................................................................... 2

1.3 Tujuan Penelitian ...................................................................................... 2

1.4 Manfaat Penelitian .................................................................................... 3

1.5 Batasan Masalah ....................................................................................... 3

1.6 Sistematika Penulisan ............................................................................... 3

BAB II KAJIAN PUSTAKA

2.1 Tinjauan Mutakhir .................................................................................... 5

2.2 Peringkas Teks Otomatis .......................................................................... 7

2.3 Fitur Ekstraksi Teks .................................................................................. 7

2.4 TF-IDF ...................................................................................................... 11

2.5 TF-ISF ....................................................................................................... 12

2.6 Metode Graph ........................................................................................... 13

2.7 Ant Colony Optimization .......................................................................... 14

2.8 Perhitungan Bobot Edge ........................................................................... 16

2.9 Cosine Similarity ....................................................................................... 17

2.10 Autosummary Tools pada Microsoft Word ............................................... 17

Page 4: ABSTRAK - IMISSU Single Sign On of Udayana University · 2017-07-21 · ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan

x

2.11 Teknik Evaluasi Ekstrinsik ....................................................................... 19

2.12 Teknik Evaluasi Intrinsik .......................................................................... 19

2.13 Black Box Testing ..................................................................................... 20

2.14 HTML ....................................................................................................... 20

2.15 Javascript ................................................................................................. 21

2.16 PHP .......................................................................................................... 21

BAB III METODE PENELITIAN

3.1 Lokasi dan Waktu Penelitian ..................................................................... 23

3.2 Sumber dan Jenis Data Penelitian .............................................................. 23

3.3 Teknik Pengumpulan Data ......................................................................... 24

3.4 Tahapan Penelitian ..................................................................................... 25

3.5 Instrumen Penelitian .................................................................................. 26

3.5.1 Perangkat Keras ............................................................................... 27

3.5.2 Perangkat Lunak .............................................................................. 27

3.6 Gambaran Umum Sistem ........................................................................... 27

3.7 Skenario Sistem ......................................................................................... 28

3.7.1 Penginputan Dokumen dan Stemming ............................................. 28

3.7.2 Perhitungan Bobot Kalimat dan Relasi Antar Kalimat ................... 28

3.7.3 Metode Graph Jalur Terbaik Menggunakan Metode Ant Colony

Optimization dan Perhitungan Bobot Edge ..................................... 36

3.8 Perancangan Desain Antarmuka ................................................................ 40

3.8.1 Tampilan Halaman Utama ............................................................... 40

3.8.2 Tampilan Memilih Dokumen .......................................................... 40

3.8.3 Tampilan Hasil Ringkasan .............................................................. 41

3.9 Pengujian Sistem....................................................................................... 42

3.10 Jadwal Kegiatan ........................................................................................ 44

BAB IV HASIL DAN PEMBAHASAN

4.1 Hasil ........................................................................................................... 45

4.1.1 Proses Perhitungan Bobot Kalimat .................................................. 46

4.1.1.1 Perhitungan Kemiripan Antar Kalimat..................................... 46

4.1.1.2 Perhitungan Kalimat yang Menyerupai Judul Dokumen......... 47

Page 5: ABSTRAK - IMISSU Single Sign On of Udayana University · 2017-07-21 · ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan

xi

4.1.1.3 Perhitungan TF-IDF......... ........................................................ 48

4.1.1.4 Perhitungan TF-ISF......... ......................................................... 49

4.1.2 Metode Graph dan Perhitungan Bobot Edge ................................... 50

4.1.3 Metode Ant Colony Optimization .................................................... 52

4.2 Pengujian Hasil Ringkasan ........................................................................ 56

4.2.1 Pengujian Hasil Ringkasan Manual dan Ringkasan Sistem dengan

Menggunakan Cosine Similarity ..................................................... 59

4.2.2 Pengujian Hasil Ringkasan dengan Mengkelompokan Dokumen yang

memiliki Tema Sama ....................................................................... 60

4.2.3 Pengujian Hasil Ringkasan Sistem dengan Hasil Ringkasan Auto

Summary Tools pada Ms. Word Menggunakan Cosine Similarity . .. 62

4.2.4 Pengujian Hasil Ringkasan Sistem dengan Hasil Ringkasan yang

dilakukan oleh Ahli Menggunakan Cosine Similarity .................... 64

4.2.5 Compression Rate Hasil Ringkasan Sistem .................................... 65

4.3 Pengujian Black Box .................................................................................. 66

BAB V SIMPULAN DAN SARAN

5.1 Simpulan ................................................................................................... 67

5.2 Saran ......................................................................................................... 68

DAFTAR PUSTAKA .................................................................................... 69

LAMPIRAN

Page 6: ABSTRAK - IMISSU Single Sign On of Udayana University · 2017-07-21 · ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan

xii

DAFTAR GAMBAR

Gambar 2.1 Graf dengan 6 simpul dan 7 sisi ................................................... 13

Gambar 2.2 Jalur makanan semut .................................................................... 15

Gambar 3.1 Flowchart tahapan penelitian ....................................................... 25

Gambar 3.2 Gambaran umum pengguna aplikasi peringkas teks otomatis ..... 27

Gambar 3.3 Contoh diagram metode Graph .................................................... 38

Gambar 3.4 Tampilan halaman utama ............................................................. 40

Gambar 3.5 Tampilan memilih dokumen ........................................................ 41

Gambar 3.6 Tampilan hasil ringkasan ............................................................. 41

Gambar 4.1 Tampilan awal aplikasi peringkasan teks otomatis ...................... 45

Gambar 4.2 Tampilan proses meringkas dokumen .......................................... 46

Gambar 4.3 Hasil perbandingan ringkasan manual dan sistem menggunakan

cosine similarity .......................................................................... 60

Page 7: ABSTRAK - IMISSU Single Sign On of Udayana University · 2017-07-21 · ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan

xiii

DAFTAR TABEL

Tabel 2.1 Perkembangan versi HTML ............................................................ 20

Tabel 3.1 Contoh beberapa dokumen berbahasa Indonesia ............................. 23

Tabel 3.2 Asumsi masing-masing kalimat ....................................................... 29

Tabel 3.3 Term frequency dan inversed document frequency .......................... 33

Tabel 3.4 Term frequency dan inverse sentence frequency ............................. 35

Tabel 3.5 Hasil perhitungan penjumlahan dari bobot masing-masing kalimat 36

Tabel 3.6 Hasil perhitungan bobot edge .......................................................... 37

Tabel 3.7 Nilai roulite wheel dimulai dari titik A ............................................ 39

Tabel 3.8 Nilai pheromone………………................................………………………………..………… 39

Tabel 3.9 Contoh hasil ringkasan ..................................................................... 40

Tabel 3.10 Jadwal kegiatan .............................................................................. 44

Tabel 4.1 Hasil perhitungan kemiripan antar kalimat ...................................... 47

Tabel 4.2 Hasil perhitungan kalimat yang menyerupai judul dokumen .......... 48

Tabel 4.3 Hasil perhitungan TF-IDF ............................................................... 49

Tabel 4.4 Hasil perhitungan TF-ISF ................................................................ 49

Tabel 4.5 Nilai rata – rata bobot kalimat ......................................................... 49

Tabel 4.6 Perhitungan bobot edge ................................................................... 52

Tabel 4.7 Hasil ringkasan ................................................................................ 56

Tabel 4.8 Hasil perbandingan ringkasan manual dan sistem menggunakan cosine

similarity .......................................................................................... 59

Tabel 4.9 Hasil ringkasan dengan tema teknologi menggunakan cosine

similarity .......................................................................................... 60

Tabel 4.10 Hasil ringkasan dengan tema seni, budaya dan adat istiadat

menggunakan cosine similarity ..................................................... 61

Tabel 4.11 Hasil ringkasan dengan tema sejarah dan pendidikan kewarganegaraan

menggunakan cosine similarity ..................................................... 61

Tabel 4.12 Hasil ringkasan dengan tema pendidikan menggunakan cosine

similarity ....................................................................................... 61

Tabel 4.13 Hasil ringkasan sistem dengan hasil ringkasan microsoft word

Page 8: ABSTRAK - IMISSU Single Sign On of Udayana University · 2017-07-21 · ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan

xiv

menggunakan cosine similarity ..................................................... 62

Tabel 4.14 Hasil compression rate rongkasan sistem dan ringkasan microsoft

word .............................................................................................. 63

Tabel 4.15 Hasil ringkasan sistem dengan hasil ringkasan ahli menggunakan

cosine similarity ............................................................................ 64

Tabel 4.16 Compression Rate Hasil Ringkasan Sistem ................................... 65

Tabel 4.17 Pengujian black box ....................................................................... 66

Page 9: ABSTRAK - IMISSU Single Sign On of Udayana University · 2017-07-21 · ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan

xv

DAFTAR KODE PROGRAM

Kode Program 4.1 Kemiripan antar kalimat ................................................... 46

Kode Program 4.2 Kalimat yang menyerupai judul dokumen ........................ 47

Kode Program 4.3 TF-IDF ............................................................................... 48

Kode Program 4.4 TF-ISF ............................................................................... 49

Kode Program 4.5 Kombinasi graph ............................................................... 51

Kode Program 4.6 Perhitungan bobot edge ..................................................... 51

Kode Program 4.7 Tahapan membuat roulite wheel ....................................... 54

Kode Program 4.8 Metode ant colony optimization ........................................ 55

Kode Program 4.9 Hasil ringkasan .................................................................. 56

Page 10: ABSTRAK - IMISSU Single Sign On of Udayana University · 2017-07-21 · ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan

1

BAB I

PENDAHULUAN

1.1 Latar Belakang

Dengan adanya Internet, pada saat ini setiap orang menjadi lebih mudah

dalam berbagi informasi. Informasi yang dianggap valid dan bisa dipertanggung

jawabkan biasanya dimasukkan dalam bentuk dokumen, artikel, atau jurnal.

Karena pentingnya menyebarluaskan informasi sehingga dokumen berisi

informasi sangat banyak diunggah ke Internet. Dengan banyaknya pengguna

Internet di Indonesia dan jumlah situs-situs website yang memberikan informasi

maka banyak artikel yang diposting setiap harinya. Sebagai contoh situs yang

memberikan infomasi adalah http://wikipedia.org. Berdasarkan statistik yang

dicatat oleh wikipedia, jumlah data artikel wikipedia berbahasa Indonesia adalah

384.149 artikel (Wikipedia:Statistik, Wagino, 2010).

Dari begitu banyaknya dokumen, tidak semua dokumen tersebut memuat

informasi yang diperlukan oleh pembaca atau user, dan di dalam dokumen tidak

semua teks adalah informasi yang penting. Idealnya dari sekian banyak kalimat

yang ada pada dokumen hanya beberapa kalimat yang merupakan informasi

penting yang ingin disampaikan. Untuk mencari informasi dari dokumen yang

banyak, para peneliti di bidang Information Retreival (IR) sudah melakukan

penelitian sejak tahun 1950-an. Metode penggunaan IR dibagi menjadi 4 macam

yaitu : ad-hoc retrieval, clustering/classification, topic detection & tracking, dan

filtering. Sistem temu kembali dokumen adalah sistem yang dapat mencari

dokumen berdasarkan kata kunci, namun sistem temu kembali dokumen akan

menemui kendala jika harus mencari informasi spesifik dari dokumen yang

jumlahnya banyak dengan jumlah teks penyusun dokumen yang jumlahnya tidak

sedikit (Manning, 2008). Sejak tahun 1990-an, sudah banyak teknik dan metode

dari Information Retrieval yang dikembangkan dan dipakai untuk

menyempurnakan sistem temu kembali dokumen. Untuk membantu Information

Retrieval System (IRS), sebelumnya penelitian tentang Automatic Text

Summarization (ATS) sudah pernah dilakukan. Sebagai contoh penelitian yang

Page 11: ABSTRAK - IMISSU Single Sign On of Udayana University · 2017-07-21 · ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan

2

dilakukan oleh Aristoteles (2013) mengenai Penerapan Algoritma Genetika pada

Peringkas Teks Dokumen Bahasa Indonesia adalah meringkas dokumen bahasa

Indonesia yang berjenis file teks menggunakan metode algoritma genetika.

Dari permasalahan dan gambaran penelitian-penelitian yang sudah

dilakukan sebelumnya, pada penelitian ini akan dibangun Automatic Text

Summarization (ATS), dengan menggabungkan metode Graph dan metode Ant

Colony Optimization. Metode Ant Colony Optimization akan melakukan analisa

pada setiap titik-titik yang digambarkan dan metode Graph dibangun dengan

menggunakan bobot edge. Untuk mencari bobot dari setiap simpul pada Graph

dengan menggunakan empat fitur dokumen yaitu : kemiripan antar-kalimat (f4),

kalimat yang menyerupai judul dokumen (f5), TF-ISF dan TF-IDF.

1.2 Rumusan Masalah

Berdasarkan latar belakang yang sudah dijabarkan di atas, dapat

dirumuskan beberapa permasalahan antara lain :

1. Bagaimana rancang bangun Automatic Text Summarization (ATS)

menggunakan metode Graph dan metode ant colony optimization.

2. Bagaimana tingkat keberhasilan hasil ringkasan yang diuji dengan

melakukan perbandingan antara ringkasan secara manual dengan

ringkasan yang dilakukan oleh sistem, perbandingan antara ringkasan yang

dilakukan oleh autosummary tools pada Microsoft Word dengan ringkasan

yang dilakukan oleh sistem dan perbandingan antara ringkasan ahli dengan

ringkasan yang dilakukan oleh sistem.

1.3 Tujuan Penelitian

Adapun tujuan dari penelitian yang dilakukan ini adalah untuk membuat

suatu sistem peringkas teks otomatis dengan menggunakan gabungan metode

Graph dan metode ant colony optimization.

Page 12: ABSTRAK - IMISSU Single Sign On of Udayana University · 2017-07-21 · ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan

3

1.4 Manfaat Penelitian

Manfaat yang diharapkan dari penelitian yang dilakukan ini diantaranya

dapat mempermudah pembaca untuk mendapatkan informasi penting dan ide

pokok yang terdapat dalam suatu dokumen yang dibaca.

1.5 Batasan Masalah

Batasan masalah yang penulis ambil dalam penelitian ini adalah :

1. Menggunakan metode Garph dan metode ant colony optimization.

2. Perhitungan bobot dari tiap kalimat menggunakan empat fitur kalimat

(kemiripan antar-kalimat (f4), kalimat yang menyerupai judul dokumen

(f5), TF-ISF dan TF-IDF ) dan perhitungan bobot edge sebagai cost dari

graph.

3. Aplikasi dibangun berbasis Web dengan bahasa pemrograman PHP, dan

DBMS MySQL.

4. Sampel teks yang akan digunakan adalah teks dengan bahasa Indonesia.

1.6 Sistematika Penulisan

Berikut ini tahapan sistematika penulisan sebagai panduan dalam

pembuatan laporan dari dasar-dasar teori serta hasil yang diperoleh dalam

pengerjaan tugas akhir. Laporan penelitian ini terbagi menjadi lima bab sebagai

berikut :

BAB I : Pendahuluan

Pada bab ini dijelaskan mengenai latar belakang dari pembuatan

aplikasi peringkasan teks otomatis. Rumusan masalah yang akan

diselesaikan. Tujuan dan manfaat yang ingin dicapai melalui

penelitian ini. Batasan masalah yang menjadi tolak ukur kedalaman

penelitian.

BAB II : Kajian Pustaka

Bab ini berisi teori penunjang yang menjadi dasar dalam pembuatan

aplikasi peringkasan teks otomatis dengan menggunakan metode

Graph dan metode Ant Colony Optimization.

Page 13: ABSTRAK - IMISSU Single Sign On of Udayana University · 2017-07-21 · ABSTRAK Untuk mendapatkan sebuah informasi pada saat ini sangatlah mudah. Dengan adanya internet orang dengan

4

BAB III : Metode Penelitian

Bab ini membahas tentang metode penelitian yang akan digunakan,

meliputi lokasi dan waktu penelitian, sumber dan jenis data

penelitian, teknik pengumpulan data, tahapan penelitian, instrumen

penelitian, gambaran umum sistem, skenario sistem, rancangan

desain antarmuka, pengujian sistem, jadwal kegiatan.

BAB IV : Hasil dan Pembahasan

Bab ini menjelaskan mengenai uji coba aplikasi dan pengujian hasil

penelitian berdasarkan parameter-parameter yang ditetapkan.

BAB V : Simpulan dan Saran

Bab ini mencakup simpulan yang mengacu pada rumusan masalah,

tujuan penelitian dan hasil pembahasan serta saran untuk

pengembangan aplikasi selanjutnya.