KLASTERISASI DATA UNSUPERVISED MENGGUNAKAN METODE K-MEANS REPOSITORY OLEH HANGGARA BIMA PRAMESTI NIM. 1603115572 PROGRAM STUDI SISTEM INFORMASI JURUSAN ILMU KOMPUTER FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS RIAU PEKANBARU 2020
UNIVERSITAS RIAU
Mahasiswa Program Studi S1 Sistem Informasi
Jurusan Ilmu Komputer
ABSTRACT
Each year the research of student’s thesis is increasing and it is
possible to have the same
or similar topics, where this thesis document can be grouped or
clusterized based on the
similiarity pattern of titles. Before doing a thesis document
clustering, the title of the
thesis will be weighted using the Text Mining method and Term
Frequency-Inverse
Document Frequency (TF-IDF). The grouping method used is the
K-Means method
which is an unsupervised clustering technique with the calculation
distance of similarities
using Cosine Similarity and the selection of initial cluster
centroids that have been
developed using Improved K-Means, which combines distance and
density optimization
methods. The final result of the clustering using 73 data title
text of the thesis student
generates seven clusters where members of each cluster have a high
similiarity seen from
the title text of a fellow cluster member.
Keywords : Clustering, Cosine Similiarity, Improved K-Means,
K-Means, TF-IDF.
ABSTRAK
Setiap tahun penelitian skripsi mahasiswa semakin bertambah dan
memungkinkan
terdapat topik yang sama atau serupa, dimana dokumen skripsi ini
dapat dikelompokkan
atau diklasterisasi berdasarkan pola kemiripan judul. Sebelum
melakukan klasterisasi
dokumen skripsi, judul skripsi akan dilakukan pembobotan kata
menggunakan metode
Text Mining dan Term Frequency-Inverse Document Frequency (TF-IDF).
Metode
pengelompokan yang digunakan yaitu metode K-Means yang merupakan
teknik
klasterisasi unsupervised dengan perhitungan jarak similiaritas
menggunakan Cosine
Similiarity dan pemilihan centroid awal klaster yang telah
dikembangkan menggunakan
Improved K-Means yaitu menggabungkan metode optimasi jarak dan
densitas. Hasil
akhir dari klasterisasi menggunakan 73 data teks judul skripsi
mahasiswa menghasilkan
tujuh klaster dimana anggota tiap klaster memiliki tingkat
similiaritas yang tinggi dilihat
2
Kata Kunci : Cosine Similiarity, Improved K-Means, K-Means,
Klasterisasi, TF-IDF.
PENDAHULUAN
Skripsi adalah suatu karya tulis ilmiah yang wajib ditulis oleh
mahasiswa dan
merupakan persyaratan untuk mendapatkan status sarjana (S1) di
setiap Perguruan
Tinggi.
Setiap tahun penelitian skripsi mahasiswa semakin bertambah dan
memungkinkan
mahasiswa mengambil topik yang sama atau serupa, dimana dokumen
skripsi ini dapat
dikelompokkan atau diklasterisasi berdasarkan pola kemiripan
judul.
Teks judul skripsi tersebut akan dilakukan pembobotan kata
menggunakan metode
Text Mining dan Term Frequency-Inverse Document Frequency (TF-IDF)
yang
kemudian data vektor hasil pembobotan ini digunakan untuk melakukan
pengelompokan
dokumen skripsi berdasarkan kemiripan judul tiap skripsi. Metode
pengelompokan yang
digunakan yaitu metode K-Means dengan pemilihan centroid awal
klaster yang telah dikembangkan menggunakan Improved K-Means yaitu
menggabungkan metode optimasi
jarak dan densitas.
Untuk mengatasi permasalahan di atas, maka penelitian ini dilakukan
untuk menguji
metode yang sudah ada dan diterapkan pada kasus klasterisasi data
unsupervised
dokumen skripsi menggunakan metode k-means.
METODE PENELITIAN
Objek penelitian yang digunakan adalah data skripsi. Penulis
menerapkan beberapa
metode penelitian dalam pengumpulan data sebagai berikut :
1. Studi Literatur
Melakukan studi literatur tentang prinsip-prinsip kerja
perancangan, pembuatan
sistem informasi dan metode yang digunakan melalui referensi yang
ada di buku,
jurnal, laporan penelitian dan informasi dari internet.
2. Observasi
Melakukan observasi yaitu pengamatan secara langsung dan melakukan
pencatatan
data terhadap arsip data skripsi yang berupa CD pada prodi SI
jurusan Ilkom FMIPA
UNRI.
b. Peralatan yang Digunakan
1. Perangkat Keras (Hardware)
a) Laptop Asus Intel® Celeron® CPU 1007U @1.50GHz (2 CPUs),
~1.5GHz
b) Printer Epson L210
2. Perangkat Lunak (software)
3
c) XAMPP
g) Mozilla Firefox untuk browser menjalankan kode program.
c. Term Frequency-Inverse Document Frequency (TF-IDF)
Term Frequency-Inverse Document Frequency atau TF-IDF merupakan
suatu metode
yang digunakan dalam melakukan pembobotan terhadap kemunculan kata
dalam suatu
dokumen. TF menyatakan jumlah kata yang muncul dalam suatu dokumen.
Sedangkan
IDF menunjukkan tingkat kepentingan suatu kata yang terdapat dalam
kumpulan
dokumen (Susilowati dkk., 2015).
(, ) = (, )
.................................................................................................
(2.1)
dimana :
() = log (
(, ) = (, ) ()
...........................................................................
(2.3)
d. Cosine Similiarity
Cosine Similiarity atau kemiripan kosinus adalah ukuran jarak yang
digunakan untuk
data yang berupa vektor dokumen. Pada dasarnya sebuah dokumen bisa
dipandang
sebagai data yang berisi ratusan atau bahkan ribuan atribut, dimana
setiap atribut
menyatakan sebuah term atau istilah (kata) yang nilainya berupa
frekuensi kemunculan
istilah dalam dokumen tersebut. Vektor dokumen bisa memiliki ribuan
atribut (kata) yang
frekuensinya banyak bernilai 0 (Suyanto, 2017).
Kemiripan yang diberikan adalah 1 jika dua vektor x dan y sama, dan
bernilai 0 jika
kedua vektor x dan y berbeda (Prasetyo, 2014).
Berikut formula Cosine Similiarity untuk mengukur kesamaan antara
dua vektor :
(, ) = .
...................................................................................................
(2.4)
Dimana tanda titik (.) melambangkan inner-product, . = ∑ =1 , dan
adalah
panjang dari vektor x, = √∑ 2
=1 = √. .
Algoritma K-Means bekerja dengan empat langkah (Suyanto, 2017),
yaitu :
1. Dari himpunan data yang akan diklasterisasi, dipilih sejumlah k
objek secara acak
sebagai centroid awal.
4
2. Setiap objek yang bukan centroid dimasukkan ke klaster terdekat
berdasarkan ukuran
jarak tertentu.
3. Setiap centroid diperbarui berdasarkan rata-rata dari objek yang
ada di dalam setiap
klaster.
4. Langkah kedua dan ketiga tersebut diulang-ulang (diiterasi)
sampai semua centroid
stabil atau konvergen, dalam arti semua centroid yang dihasilkan
dalam iterasi saat
ini sama dengan semua centroid yang dihasilkan pada iterasi
sebelumnya.
Jadi, dalam clustering dokumen dengan K-Means dasar algoritmanya
adalah sebagai
berikut (Langgeni dkk., 2010) :
1. Inisialisasi cluster.
2. Masukkan setiap dokumen ke cluster yang paling cocok berdasarkan
ukuran
kedekatan dengan centroid.
Centroid adalah vektor term yang dianggap sebagai titik tengah
cluster.
Ukuran kedekatan yang digunakan adalah Cosine Similiarity
berdasarkan Persamaan
(2.4).
3. Setelah semua dokumen masuk ke cluster. Hitung ulang centroid
cluster berdasarkan
dokumen yang berada di dalam cluster tersebut.
Untuk menghitung centroid cluster ke-i, digunakan rumus mencari
rata-rata :
= ∑
: nilai atribut term j pada data anggota k
: jumlah data yang menjadi anggota cluster ke-i 4. Jika centroid
tidak berubah maka stop. Jika berubah, kembali ke langkah 2.
Pada penelitian ini jumlah klaster didapatkan dengan cara yang
paling sederhana yaitu
menggunakan estimasi atau memperkirakan, rumus yang digunakan
adalah (Suyanto,
2017) :
Jumlah klaster menggunakan rumus di atas akan menghasilkan bilangan
berkoma, maka
dilakukan perubahan untuk melakukan pembulatan keatas menjadi
:
= ⌈√
2 ⌉
.................................................................................................................
(2.7)
Menurut Xiong (2016) dikutip dalam jurnal (Abdurasyid dkk., 2018),
dalam beberapa
pendekatan untuk mengoptimasi K-Means, pemilihan centroid awal
dilakukan dengan
mengambil nilai jarak terjauh atau yang memiliki nilai densitas
terbesar antar objek data.
Akan tetapi jika di dalam dataset terdapat data yang kotor atau
terisolasi maka terdapat
kemungkinan data ini digunakan sebagai centroid awal. Oleh karena
itu dalam melakukan
pemilihan centroid awal dapat dilakukan dengan menggabungkan metode
optimasi jarak
5
Langkah-langkah dari algoritma Improved K-Means yang merupakan
kombinasi
antara metode optimasi jarak dan densitas dijelaskan sebagai
berikut :
Input : dataset dokumen D = {1, 2, … , } dan k
Output : k klaster
1. Hitung jarak antara setiap pasangan dua objek data yang berada
dalam dataset D
menggunakan Euclidean Distance.
( , ) = √(1 − 1)2 + (2 − 2)2 + + ( − )2 ......................
(2.8)
Dimana = (1, 2, … , ) dan = (1, 2, … , ) merupakan dua m
dimensi
objek data.
2 x ∑ ( , )
.............................................................................
(2.9)
Dimana C merupakan kombinasi pasangan jarak.
3. Hitung nilai parameter densitas seluruh objek data yang berada
dalam dataset D.
() = ∑ ( − ( , )) =1
.................................................. (2.10)
Dimana () merupakan sebuah fungsi bernilai 1 jika z lebih besar
dari 0 dan bernilai 0 jika sebaliknya.
4. Hitung rata-rata nilai parameter densitas dataset D.
5. Dengan menggunakan rata-rata densitas, tentukan objek data yang
terisolasi dan
hapus data ini dari D sehingga menghasilkan koleksi A yang memiliki
nilai parameter
densitas tertinggi.
() < α x ()
.....................................................................
(2.11) dimana α berada pada rentang 0 – 1 dalam menentukan data
terisolasi.
6. Pilih objek data yang memiliki nilai parameter densitas
tertinggi dari A sebagai nilai
centroid awal klaster pertama, masukkan kedalam koleksi B, dan
hapus dari A.
7. Dari koleksi A, pilih objek data yang memiliki jarak terjauh
dari objek data yang
berada dalam B sebagai nilai centroid awal klaster berikutnya,
masukkan kedalam B,
dan hapus dari A.
8. Ulangi langkah 7 hingga jumlah objek data k berada dalam koleksi
B.
9. Berdasarkan k centroid awal klaster, lakukan K-Means untuk
melakukan
pengelompokan terhadap objek data.
HASIL DAN PEMBAHASAN
a. Pengumpulan Data
Dari hasil pengumpulan data diperoleh data skripsi pada prodi SI
FMIPA UNRI
sebanyak 73 data. Tabel 1 menunjukkan beberapa data skripsi dari
hasil pengumpulan
data.
Mahasiswa Judul Skripsi
6
Informasi Akademik Menggunakan Metode End-User
Computing Satisfaction (Eucs) (Studi Kasus: Universitas
Riau)
1403114868
Sawit Dengan Bio-Speckle Imaging Menggunakan Metode
K-Means Clustering
Tahun Berbasis Android Dengan Metode Backward Chaining
… …
Menggunakan Algoritma Fp-Growth Berbasis Web
b. Tahapan Text Preprocessing
Pada tahap ini akan dilakukan proses text preprocessing, pertama
tahap case folding
dimana huruf dalam data diubah kedalam case yang sama menjadi huruf
kecil. Dalam
studi kasus ini juga dilakukan pembersihan karakter selain huruf
yaitu angka dan karakter
special, kecuali karakter special strip (-), karena ada beberapa
kata istilah yang
mengharuskan menggunakan karakter strip (-), seperti end-user,
multi-attribute, k-means,
dan sebagainya. Kata yang merupakan kata istilah tersebut akan
dibiarkan menjadi satu
kesatuan kata. Selanjutnya tahap filtering dengan stopwords yaitu
kata-kata yang
dianggap tidak deskriptif akan dibuang, seperti kata sambung, kata
depan dan kata
sandang. Lalu tahap stemming dimana kata-kata yang mempunyai kata
dasar akan
dikembalikan dan diubah menjadi kata dasar itu sendiri. Dan
terakhir adalah tahap
tokenizing yaitu semua kalimat dipotong berdasarkan tiap kata yang
menyusunnya.
Algoritma stopwords dan stemming yang digunakan adalah algoritma
stopword
remover dan stemmer yang ada pada package atau library Sastrawi.
Kata-kata stopwords
yang akan dihilangkan telah terdapat di dalam package/library
Sastrawi dan juga dapat
ditambahkan sesuai kebutuhan. Dalam studi kasus ini ada beberapa
kata yang telah
ditambahkan dalam kamus stopwords dimana tidak terdapat dalam kamus
sebelumnya.
Tabel 2 adalah hasil data setelah dilakukan text
preprocessing.
Tabel 2. Data Hasil Text Preprocessing
D Text Preprocessing
1 sistem, pakar, diagnosa, rusa, hardware, komputer, bas, web,
guna, metode,
forward, chaining
2 evaluasi, tingkat, puas, guna, layan, sistem, informasi,
akademik, guna, metode,
end-user, computing, satisfaction, eucs, studi, kasus, universitas,
riau
3 klasifikasi, matang, tandan, buah, segar, tbs, kelapa, sawit,
bio-speckle, imaging,
guna, metode, k-means, clustering
4 sistem, pakar, tolong, pertama, anak, usia, tahun, bas, android,
metode, backward,
chaining
7
73 terap, strategi, cross, selling, kombinasi, menu, guna,
algoritma, fp-growth, bas,
web
Setelah semua tahap text preprocessing dilakukan terhadap 73
dokumen skripsi
didapati jumlah total terms unik atau kata unik berdasarkan judul
skripsi sebanyak 392
kata yang dapat di lihat pada Tabel 3.
Tabel 3. Terms Unik Hasil Text Preprocessing
Kata Unik sistem pakar diagnosa rusa hardware komputer bas web guna
metode forward chaining evaluasi tingkat puas layan
informasi akademik end-user computing satisfaction eucs studi kasus
universitas riau klasifikasi matang tandan buah segar tbs kelapa
sawit bio-speckle imaging k-means clustering tolong pertama anak
usia tahun android backward
prediksi kelulus mahasiswa dasar jalur masuk kuliah naive bayes
manajemen informatika analisis sentimen go-jek
indonesia media twitter classifier learning vector quantization
identifikasi banding efektifitas algoritma apriori fp-
growth pola beli konsumen kafe bab dukung putus tentu terima
beasiswa bidikmisi smart simple multi attribute rating technique
tata kelola teknologi framework cobit domain dss deliver service
and support rumah sakit ukur
kualitas website goriau webqual deteksi sepeda motor matic injeksi
program minat bakat siswa tsukamoto profile
matching optimasi pendek distribusi air mineral bee colony
optimization registrasi pasien pieces kaca soal aplikasi
computer based test cbt fisher-yates shuffle fmipa sedia unit bekas
single exponential smoothing harga provinsi deep implementasi
rational unified process ancang prestasi autokorelasi spasial data
bakar hutan indeks moran importance
performance analysis ipa portal obat frequent pattern growth apotek
online public access catalog pustaka end user
terap teliti abdi masyarakat simlitabmas mendiagnosa hama tanam
karet nanas certainty factor cf analisa jahat jalan
street crime pekanbaru association rule rencana anggar biaya bangun
pt graha gemilang wi-fi fakultas guru ilmu didik servqual quality
pilih additive weighting dapodik technology acceptance model tam
dinas budaya kabupaten
siak calon bantu langsung tunai blt camat rimba lintang topsis
narkoba dempster-shafer laptop awal telinga hidung
tenggorok tht objective by ratio golong uang tunggal pasang
presiden dokumen bahasa machine ingat jadwal periksa
medis rawat rsud arifin achmad sms gateway kos kampus weighted
product beras sejahtera rastra fuzzy multiple decision making fmadm
rok hilir promethee proposal usul giat desa ganggu jiwa case
reasoning seleksi ppa
matakuliah kartu theory of use utaut optimisasi ruang ant geografis
meta lokasi tempat buang sampah tpss kota jual
mobil double sukses dekat delone mclean k-nearest neighbor kelompok
ukt cari rute sekolah floyd-warshall mobile
rekomendasi wisata sumatera barat electre page application amal
produksi ptpn regression market basket indomaret cabang duri kemas
makan organisasi himpun baik tingat antri umum daerah rawan titik
api dataset topic mini batch
padu scrum agile software development kantor tampan jurus tinggi
cafe multi-attribute sma simpel sman lubuk
jaring internet qos rma demam darah dengue dbd ripple down tengah
juru teknik information infrastructure library
itil versi strategi cross selling kombinasi menu
Total Kata : 392 Kata
c. Tahapan Pembobotan TF-IDF
Untuk perhitungan TF yaitu menghitung jumlah frekuensi terhadap
kemunculan kata
dalam suatu dokumen. Kata yang dihitung adalah 392 kata unik, yang
telah didapatkan
terhadap 73 dataset hasil text preprocessing menggunakan Persamaan
(2.1). Kemudian
sebelum mendapatkan nilai IDF dari Persamaan (2.2), dicari terlebih
dahulu nilai DF(t)
yaitu menghitung frekuensi dokumen yang mengandung kata t. Lalu
untuk perhitungan
IDF adalah hasil log dari jumlah seluruh data dibagi jumlah DF(t)
yaitu berdasarkan
Persamaan (2.2), log yang digunakan adalah log basis 10. Untuk
perhitungan TF-IDF
adalah hasil perkalian dari TF dan IDF menggunakan Persamaan (2.3).
Vektor hasil
proses TF-IDF dapat dilihat pada Tabel 4.
8
D
TF.IDF(d,t)
Sistem
(t1)
pakar
(t2)
diagnosa
(t3) …
kombinasi
(t391)
menu
(t392)
… … … … … … …
73 0.173126 0 0 … 1.863322 1.863322
Dari Tabel 4 dapat dilihat bentuk vektor hasil TF-IDF menghasilkan
matriks
berukuran 73 x 392, yaitu dari 73 data skripsi menghasilkan 392
kata unik berupa bobot
kemunculan tiap kata yang mewakili tingkat kepentingan kata
tersebut terhadap suatu
dokumen. Hasil vektor inilah yang digunakan sebagai acuan
klasterisasi. Sebelum
melakukan klasterisasi, tahap selanjutnya yaitu melakukan
inisialisasi centroid awal.
d. Tahapan Inisialisasi Centroid dengan Improved K-Means
Sebelum melakukan proses inisialisasi centroid, jumlah klaster
ditetapkan terlebih
dahulu dengan cara mengestimasi atau memperkirakan menggunakan
Persamaan (2.7).
Berikut perhitungan mencari jumlah klaster dari 73 data skripsi
:
= ⌈√ 73
Jadi, inisialisasi centroid awal akan ditentukan sebanyak tujuh
centroid klaster
menggunakan metode Improved K-Means. Hasil inisialisasi centroid
awal klaster dari
tahapan Improved K-Means dapat dilihat pada Tabel 5.
Tabel 5. Centroid Awal Klaster
C Centroid Cluster
1 Data ke-51 = [0.173126, 0, 0, …, 0, 0]
2 Data ke-36 = [0.173126, 0.821930, 1.164352, …, 0, 0]
3 Data ke-72 = [0.173126, 0, 0, …, 0, 0]
4 Data ke-14 = [0.173126, 0, 0, …, 0, 0]
5 Data ke-18 = [0.173126, 0, 0, …, 0, 0]
6 Data ke-63 = [0, 0, 0, …, 0, 0]
7 Data ke-22 = [0.173126, 0, 0, …, 0, 0]
Dari Tabel 5, centroid yang telah didapat akan digunakan sebagai
nilai centroid
awal klaster pada iterasi ke-1.
9
Selanjutnya adalah menjalankan algoritma K-Means. Berikut uraian
langkah-langkah
klasterisasi dengan K-Means menggunakan data hasil vektor TF-IDF
pada Tabel 4 :
1. Menghitung jarak tiap data objek dengan masing-masing centroid
klaster pada Tabel
5 menggunakan Cosine Similiarity berdasarkan Persamaan (2.4).
Iterasi 1 :
(1, 1) = 1.1
= 0.006748
(1, 2) = 1.2
= 0.137430
Hitung jarak data 1 terhadap tiap centroid hingga centroid cluster
7.
Jarak similiaritas data 1 dengan cluster 7 :
(1, 7) = 1.7
= 0.003463
klaster seperti cara di atas.
2. Setelah jarak tiap data ke masing-masing klaster telah didapat,
alokasikan tiap data
kedalam klaster terdekat yang memiliki jarak similiaritas
tertinggi. Hasil perhitungan
pada iterasi ke-1 dapat dilihat pada Tabel 6.
Tabel 6. Hasil Perhitungan Jarak Similiaritas Iterasi Ke-1
D Jarak Similiaritas (cos)
1 0.006748 0.137430 0.002053 0.024587 0.025139 0.000349
0.003463
2 0.005813 0.002368 0.137553 0.043454 0.002984 0.012736
0.295071
3 0.002259 0.000901 0.000230 0.001135 0.001160 0.134436
0.001160
4 0.004431 0.036293 0.001246 0.008821 0.009018 0 0.002274
5 0.150465 0.000865 0.023550 0.121857 0.044353 0.010181
0.108243
… … … … … … … …
73 0.000525 0.016249 0.070157 0.016623 0.016996 0.030200
0.000270
Pada data 1 mempunyai jarak similiaritas tertinggi terhadap cluster
2, maka data 1
masuk kedalam cluster 2. Pada data 2 mempunyai jarak similiaritas
tertinggi terhadap
cluster 7 maka data 2 masuk kedalam cluster 7. Proses pengalokasian
data dilakukan
hingga data ke-73.
3. Menghitung nilai centroid baru dengan menggunakan Persamaan
(2.5), yang
merupakan perhitungan rata-rata tiap atribut term data objek yang
tergabung dalam
anggota sebuah klaster.
10
Jumlah anggota pada cluster 1 berjumlah 18 yaitu data 5, 6, 7, 8,
20, 31, 33, 38, 40,
42, 50, 51, 54, 56, 58, 61, 66, 67.
Maka perhitungan centroid baru didapatkan dari hasil rata-rata
ke-392 atribut term
dari 18 data objek yang tergabung dalam cluster 1.
1,1 = 0 + 0 + 0.173126 + 0.173126 + + 0.173126
18 = 0.125036
18 = 0
1,73 = 0 + 0 + 0 + 0 + + 0
18 = 0
Perhitungan centroid baru dilanjutkan hingga cluster 7 seperti cara
di atas. Sehingga
menghasilkan centroid baru tiap klaster yang dapat dilihat pada
Tabel 7.
Tabel 7. Centroid Klaster Baru untuk Iterasi Ke-2
C Centroid Cluster
1 [0.125036, 0, 0, ..., 0, 0]
2 [0.173126, 0.821930, 0.582176, …, 0, 0]
3 [0.103876, 0, 0, …, 0.372664, 0.372664]
4 [0.194767, 0, 0, …, 0, 0]
5 [0.138501, 0.1643860, 0.277240, …, 0, 0]
6 [0.043281, 0, 0, …, 0, 0]
7 [0.103876, 0, 0, …, 0, 0]
4. Ulangi langkah 1 sampai 3 hingga perhitungan hasil centroid baru
untuk iterasi
selanjutnya sama dengan centroid pada iterasi sebelumnya. Jika
centroid baru dan
centroid lama tidak berubah maka iterasi dihentikan yang artinya
anggota tiap klaster
juga tidak berubah dan centroid saat ini telah stabil atau
konvergen.
Dari proses klasterisasi 73 data berdasarkan judul skripsi
menggunakan K-Means,
menghasilkan dua iterasi, dikarenakan pada saat perhitungan
centroid baru setelah
perhitungan jarak iterasi ke-2 yaitu centroid untuk iterasi ke-3
sama dengan centroid lama
dan iterasi dihentika yang artinya anggota tiap klaster juga tidak
akan berubah lagi dan
centroid saat ini telah stabil atau konvergen.Hasil akhir anggota
klaster dapat dilihat pada
Tabel 8.
Cluster Jumlah Anggota Data Anggota
1 18 5, 6, 7, 8, 20, 31, 33, 38, 40, 42, 50, 51, 54, 56, 58,
61,
66, 67
2 10 1, 4, 26, 27, 34, 35, 36, 44, 60, 70
3 5 25, 32, 48, 72, 73
4 8 10, 14, 41, 43, 45, 46, 68, 71
5 5 13, 18, 23, 52, 57,
6 12 3, 9, 15, 19, 21, 28, 39, 49, 55, 62, 63, 64
7 15 2, 11, 12, 16, 17, 22, 24, 29, 30, 37, 47, 53, 59, 65,
69
11
Penerapan setiap proses dituangkan kedalam kode program komputer,
mulai dari
tahap Text Preprocessing, pembobotan TF-IDF, inisialisasi centroid
awal dengan
Improved K-Means, dan klasterisasi dengan K-Means.
Gambar 1 adalah tampilan hasil akhir proses text preprocessing.
Gambar 2 adalah
tampilan hasil akhir proses pembobotan TF-IDF, Gambar 3 adalah
tampilan hasil akhir
proses inisialisasi centroid dengan Improved K-Means, dan Gambar 4
adalah tampilan
hasil akhir proses clustering dengan K-Means.
Gambar 1. Hasil Proses Text Preprocessing
Gambar 2. Hasil Proses Pembobotan TF-IDF
Gambar 3. Hasil Proses Inisialisasi Centroid Awal
12
KESIMPULAN
Berdasarkan hasil pengujian dapat diambil kesimpulan sebagai
berikut :
1. Dari 73 data skripsi yang dilakukan clustering berdasarkan teks
judul skripsi
menghasilkan tujuh klaster yang berbeda.
2. Dari tujuh klaster hasil clustering dengan Improved K-Means,
cluster 1, 6, dan 7
memiliki anggota yang jika dilihat bukan hanya menghasilkan anggota
dengan satu
13
kategori, bahkan lebih. Karena similiaritas yang diukur bukan hanya
berdasarkan kata
awal, kata akhir ataupun kata yang dianggap sebagai kategori suatu
data. Tetapi
diukur berdasarkan keseluruhan kata yang menyusunnya.
3. Dalam sebuah klaster terkadang terdapat data dengan kategori
yang berbeda dimana
satu kategori mendominasi dan satu nya lagi tidak, yang artinya
judul data yang
memiliki kategori tidak mendominasi ini belum banyak diambil dan
diminati oleh
mahasiswa, serta pihak prodi dapat menyarankan judul dengan
topik-topik tersebut
kepada mahasiswa aktif lainnya.
4. Kelemahan pada sistem ini adalah apabila jumlah data yang
diklaster terbilang
banyak, maka proses pembobotan TF-IDF dan inisialisasi centroid
Improved K-
Means memerlukan waktu yang cukup lama pula.
SARAN
Adapun saran dari penelitian ini adalah sebagai berikut :
1. Dibutuhkan suatu cara atau algoritma penentuan jumlah klaster
dan penentuan
centroid awal yang lebih baik untuk klasterisasi dokumen yang dapat
dijalankan
secara otomatis bersamaan pada saat fitur klasterisasi
dijalankan.
2. Penelitian ini dapat dikembangkan dengan algoritma pembototan
atau algoritma
clustering lainnya, serta dapat juga membandingkan atau
mengkombinasikan dengan
algoritma lain untuk mendapatkan hasil yang lebih baik.
UCAPAN TERIMA KASIH
Penulis mengucapkan terima kasih kepada Bapak Aidil
Fitriansyah,S.Kom., MIT yang telah membimbing, memberikan arahan,
masukan, dan memotivasi serta membantu penelitian dan penulisan
karya ilmiah ini.
DAFTAR PUSTAKA
Abdurasyid, M., Indriati, & Perdana, R. S. (2018). Implementasi
Metode Improved K-
Means Untuk Mengelompokkan Dokumen Jurnal Pengembangan
Teknologi
Informasi Dan Ilmu Komputer. Jurnal Pengembangan Teknologi
Informasi Dan
Ilmu Komputer, 2(10), 3939–3947.
Langgeni, D. P., Baizal, Z. A., & Wibowo, Y. F. A. (2010).
Clustering Artikel Berita
Berbahasa Indonesia Menggunakan Unsupervised Feature Selection.
Seminar
Nasional Informatika 2010, 1–10.
Prasetyo, E. (2014). Data Mining: Mengolah Data Menjadi Informasi
Menggunakan
Matlab. Yogyakarta: Andi.
Susilowati, E., Sabariah, M. K., & Gozali, A. A. (2015).
Implementasi Metode Support
Vector Machine untuk Melakukan Klasifikasi Kemacetan Lalu Lintas
pada Twitter.
E-Proceeding of Engineering, 2(1), 1478–1484.
Suyanto. (2017). Data Mining: Untuk Klasifikasi dan Klasterisasi
Data. Bandung:
Informatika Bandung.