Upload
dangtram
View
223
Download
0
Embed Size (px)
Citation preview
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
i
CLUSTERING DOKUMEN MENGGUNAKAN ALGORITMA
SELF-ORGANIZING MAP (SOM)
(STUDI KASUS : DOKUMEN SKRIPSI DI FAKULTAS
PERTANIAN UNS)
Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Sarjana
Jurusan Informatika
HALAMAN JUDUL
Disusun Oleh:
VERA SURYANINGSIH
NIM. M0509074
JURUSAN INFORMATIKA
FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM
UNIVERSITAS SEBELAS MARET
2015
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
ii
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
iii
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
iv
MOTTO
“Sesali masa lalu karena ada kekecewaan dan kesalahan-kesalahan, tetapi
jadikan penyesalan itu sebagai senjata untuk masa depan agar tidak terjadi
kesalahan lagi”
“Contoh yang baik adalah nasehat terbaik (Fuller)”
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
v
PERSEMBAHAN
Skripsi ini penulis persembahkan kepada:
“Orang tua tercinta, Bapak Suranto dan Ibu Eni Purwaningsih”
“Kakak dan kakak ipar,
Mbak Eri dan Mas Didik”
“Keponakan yang ganteng, Dik Naufal”
“Mas Sonny”
“Sahabat serta teman-teman
yang telah mensuport dan berjasa banyak”
“Jurusan Informatika FMIPA UNS”
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
vi
KATA PENGANTAR
Puji syukur kepada Allah SWT atas segala limpahan rahmat dan karunia-
Nya, sehingga penulis dapat menyelesaikan penulisan Tugas Akhir. Sholawat dan
salam senantiasa penulis haturkan kepada Rosululloh SAW sebagai pembimbing
seluruh umat manusia. Tugas Akhir ini tidak akan selesai tanpa adanya bantuan
dari banyak pihak, oleh karena itu penulis menyampaikan terima kasih kepada:
1. Bapak Ir. Ari Handono Ramelan, M.Sc. (Hons), Ph.D,. selaku Dekan FMIPA
UNS.
2. Bapak Drs. Bambang Harjito, M.App.Sc., Ph.D., selaku Ketua Jurusan S1
Informatika FMIPA UNS.
3. Ibu Sari Wdya Sihwi, S.Kom., M.T.I., selaku pembimbing I yang telah
dengan sabar memberikan bimbingan, petunjuk dan masukan.
4. Bapak Meiyanto Eko Sulistyo, S.T., M.Eng., selaku pembimbing II yang
telah dengan sabar memberikan bimbingan, petunjuk dan masukan.
5. Ibu Esti Suryani, S.Si., M.Kom. selaku Pembimbing Akademis yang telah
memberikan pengarahan selama proses penyelesaian Tugas Akhir ini.
6. Bapak Ristu Saptono, S.Si., M.T., selaku anggota dewan penguji yang telah
memberikan kritik, saran, dan masukan yang membangun.
7. Bapak Prof. Dr Samanhudi, SP, M.Si selaku Pembantu Dekan 1 fakultas
Pertanian UNS yang telah memberi validasi serta saran terhadap hasil Tugas
Akhir ini.
8. Bapak-Ibu dosen Jurusan Informatika UNS yang telah memberikan ilmu
pengetahuan dan pengalaman yang sangat berguna dalam penyusunan Tugas
Akhir ini.
9. Bapak Suranto, Ibu Eni Purwaningsih, Mbak Eri, Mas Didik, Naufal, Mas
Sonny, serta seluruh keluarga yang selalu mendukung, mendoakan, dan
memberi semangat.
10. Teman-teman Jurusan Informatika UNS khususnya angkatan 2009 yang
selalu bersedia untuk berbagi informasi, ilmu, dan pengalaman serta selalu
memberikan motivasi dan semangat.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
vii
11. Teman-teman kos Pondok Biru & Sri Tanjung yang selalu memberi
dukungan, dan hiburan.
12. Semua pihak yang tidak dapat penulis sebutkan satu persatu.
Semoga Allah SWT membalas jerih payah dan pengorbanan yang telah
diberikan dengan balasan yang lebih baik. Penulis berharap semoga skripsi ini
dapat bermanfaat bagi yang berkepentingan khususnya dan bagi pembaca
umumnya.
Surakarta, 11 Mei 2015
Vera Suryaningsih
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
viii
DOCUMENT CLUSTERING USING SELF-ORGANIZING MAP (SOM)
ALGORITHM (CASE STUDY: THESIS DOCUMENTS IN THE FACULTY
OF AGRICULTURE UNS)
VERA SURYANINGSIH
Department of Informatics. Faculty of Mathematics and Natural Sciences.
Sebelas Maret University
ABSTRACT
Faculty of Agriculture, Universitas Sebelas University has generated a lot
of research, especially thesis documents. If the thesis document is processed, it is
possible to be found a pattern that will give benefit for the faculty. Therefore, text
mining of the thesis document needs to be done.
This research performed clustering to thesis documents in the faculty of
Agriculture UNS 2008 to 2013 by using the Self-Organizing Map algorithm.
Before the clustering process, the abstracts were processed through the text
preprocessing stage and TF-IDF weighting. This research used 81 as cluster
number, 1000 as iteration number and 0,1 as learning rate.
The results showed that there are several clusters which has a theme that
possible can be collaborated with some or all of the department. There are also
cluster which it‟s theme possible can‟t be collaborated with another department,
because only certain department who has done research on the theme of the
cluster. But it could be, other departments has not done research on this theme.
Department of Agribusiness has a various themes in each year. While the
Department of Agrotechnology, department of ITP, and Department of Animal
Husbandry just took a few same theme each year.
Keyword : Text Mining, Text Preprocessing, TF-IDF, Clustering, Self-Organizing
Map.
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
ix
CLUSTERING DOKUMEN MENGGUNAKA ALGORITMA
SELF-ORGANIZING MAP (SOM) (STUDI KASUS : DOKUMEN SKRIPSI
DI FAKULTAS PERTANIAN UNS)
VERA SURYANINGSIH
Jurusan Informatika, Fakultas MIPA, Universitas Sebelas Maret
ABSTRAK
Fakultas Pertanian Universitas Sebelas Maret telah menghasilkan banyak
dokumen penelitian khususnya berupa skripsi. Jika kumpulan dokumen skripsi
tersebut diolah, dimungkinkan akan ditemukan suatu pola yang bermanfaat bagi
pihak fakultas. Oleh karena itu, perlu dilakukan text mining terhadap kumpulan
dokumen skripsi tersebut.
Penelitian ini akan melakukan clustering pada dokumen skripsi di fakultas
Pertanian UNS tahun 2008 sampai 2013 dengan menggunakan algoritma Self-
Organizing Map. Sebelum dilakukan proses clustering, abstrak terlebih dahulu
diolah melalui tahap text preprocessing dan pembobotan TF-IDF. Pada penelitian
ini menggunakan inputan cluster sebanyak 81, iterasi sebanyak 1000 dan learning
rate sebesar 0,1.
Hasil penelitian menunjukkan bahwa ada beberapa cluster yang
dimungkinkan tema pada cluster tersebut berpotensi untuk dikolaborasikan
dengan beberapa maupun semua prodi. Ada juga cluster yang dimungkinkan tema
pada cluster tersebut memang tidak bisa dilakukan kolaborasi, karena hanya prodi
tertentu yang pernah melakukan penelitian pada tema cluster tersebut. Namun bisa
jadi, prodi lain memang belum mencoba untuk melakukan penelitian pada tema
tersebut. Jurusan Agribisnis memiliki penyebaran tren tema yang bervariasi ditiap
tahunnya. Sedangkan pada prodi Agroteknologi, prodi ITP, serta prodi Peternakan
tema yang banyak diambil ditiap tahunnya hanya di beberapa tema saja.
Kata kunci : Text Mining, Text Preprocessing, TF-IDF, Clustering, Self-
Organizing Map
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
x
DAFTAR ISI
HALAMAN JUDUL ................................................................................................ i
HALAMAN PERSETUJUAN ............................... Error! Bookmark not defined.
HALAMAN PENGESAHAN ................................................................................. ii
HALAMAN MOTTO ............................................................................................ iii
HALAMAN PERSEMBAHAN ............................................................................. v
KATA PENGANTAR ............................................................................................. vi
ABSTRACK .......................................................................................................... viii
ABSTRAK ............................................................................................................. ix
DAFTAR ISI ........................................................................................................... x
DAFTAR TABEL .................................................................................................. xii
DAFTAR GAMBAR ........................................................................................... xiii
DAFTAR LAMPIRAN ........................................................................................ xiv
BAB I PENDAHULUAN ....................................................................................... 1
1.1. Latar Belakang ................................................................................... 1
1.2. Rumusan Masalah .............................................................................. 3
1.3. Batasan Masalah ................................................................................ 3
1.4. Tujuan Penelitian ............................................................................... 3
1.5. Manfaat Penelitian ............................................................................. 3
1.6. Sistematika Penulisan ........................................................................ 4
BAB II LANDASAN TEORI ................................................................................ 5
2.1. Dasar Teori ......................................................................................... 5
2.1.1. Text Mining .............................................................................. 5
2.1.2. Text Preprocessing ................................................................... 6
2.1.3. Algoritma Stemming Nazief & Afriani .................................. 7
2.1.4. Term Frequency (TF) dan Inverse Document Frequency
(IDF)....................................................................................... 9
2.1.5. DF Feature Selection ............................................................... 9
2.1.6. Min Max Normalization ......................................................... 10
2.1.7. Clustering ................................................................................ 11
2.1.8. Self-Organizing Map (SOM) .................................................. 11
2.2. Penelitian Terkait ............................................................................. 15
2.3. Kerangka Pemikiran ........................................................................ 17
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xi
BAB III METODOLOGI PENELITIAN ............................................................. 18
3.1. Studi Literatur ..................................................................................... 18
3.2. Pengumpulan Data ........................................................................... 18
3.3. Penerapan Metode ............................................................................ 19
3.3.1 Tahap Text Preprocessing ....................................................... 19
3.3.2 Tahap Pembobotan TF-IDF .................................................... 20
3.3.3. Tahap Clustering .................................................................... 20
3.3. Tahap Analisis .................................................................................. 21
3.4. Tahap Validasi .................................................................................. 21
BAB IV HASIL DAN PEMBAHASAN.............................................................. 22
2.3. Deskripsi Data .................................................................................. 22
2.4. Tahap Text Preprocessing ................................................................ 22
2.5. Tahap Pembobotan TF-IDF ............................................................. 25
2.6. Normalisasi Data .............................................................................. 29
2.7. Proses Clustering ............................................................................. 30
2.8. Analisis Hasil Clustering ................................................................. 36
2.9. Validasi ............................................................................................. 48
BAB V PENUTUP ................................................................................................ 49
5.1. KESIMPULAN ................................................................................ 49
5.2. SARAN ........................................................................................... 49
DAFTAR PUSTAKA ............................................................................................ 50
LAMPIRAN 1 ....................................................................................................... 52
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xii
DAFTAR TABEL
Tabel 2.1 Penelitian Terkait.......................................................................... 15
Tabel 4.1 Contoh dokumen untuk perhitungan TF-IDF................................ 26
Tabel 4.2 Hasil dari perhitungan TF serta DF yang belum mengalami
proses feature selection.................................................................. 27
Tabel 4.3 Hasil dari perhitungan TF serta DF yang sudah mengalami
proses feature selection................................................................. 27
Tabel 4.4 Hasil perhitungan TF, DF, IDF, dan TF-IDF................................ 29
Tabel 4.5 Perbandingan TF-IDF yang belum ternormalisasi dan TF-IDF
yang sudah dinormalisasi dengan Min Max Normalization......... 30
Tabel 4.6 Perkiraan tema pada setiap cluster C1 - C49................................. 37
Tabel 4.7 Distribusi Frekuensi Cluster per Prodi...................................... 38
Tabel 4.8 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agribisnis........ 40
Tabel 4.9 Distribusi Frekuensi Cluster Pertahun Pada Prodi Agroteknologi..... 42
Tabel 4.10 Distribusi Frekuensi Cluster Pertahun Pada Prodi ITP................ 44
Tabel 4.11 Distribusi Frekuensi Cluster Pertahun Pada Prodi Peternakan.... 46
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xiii
DAFTAR GAMBAR
Gambar 2.1 Proses Case Folding.................................................................. 6
Gambar 2.2 Proses Tokenizing....................................................................... 6
Gambar 2.3 Proses Filtering.......................................................................... 7
Gambar 2.4 Proses Stemming........................................................................ 7
Gambar 2.5 Arsitektur SOM (Kristanto, 2004)............................................. 12
Gambar 3.1 Metodologi Penelitian................................................................ 18
Gambar 3.2 Proses Text Preprocessing ........................................................ 19
Gambar 4.1 Abstrak dokumen contoh yang belum dilakukan Text
Preprocessing........................................................................... 22
Gambar 4.2 Hasil Case Folding terhadap Dokumen Contoh........................ 23
Gambar 4.3 Hasil Tokenizing terhadap Dokumen Contoh........................... 23
Gambar 4.4 Hasil Filtering terhadap Dokumen Contoh............................... 24
Gambar 4.5 Hasil Stemming terhadap Dokumen Contoh............................. 24
Gambar 4.6 Hasil Filtering - Stemming terhadap Dokumen Contoh............ 25
Gambar 4.7 Topologi SOM........................................................................... 30
Gambar 4.8 Salah Satu Dokumen Disajikan ke dalam Jaringan SOM....31
Gambar 4.9 Radius BMU.............................................................................. 31
Gambar 4.10 Topologi SOM untuk data contoh........................................... 32
Gambar 4.11 Contoh tampilan hasil per-cluster........................................... 36
perpustakaan.uns.ac.id digilib.uns.ac.id
commit to user
xiv
DAFTAR LAMPIRAN
LAMPIRAN 1 Hasil Clustering.................................................................... 52