View
237
Download
0
Category
Preview:
Citation preview
DETEKSI OUTLIER PADA DATA CAMPURAN
NUMERIK DAN KATEGORIKAL MENGGUNAKAN
ALGORITMA ENHANCED CLASS OUTLIER
DISTANCE BASED (ECODB) (Studi Kasus : Data Kredit BPR XYZ)
TUGAS AKHIR
Diajukan Untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Disusun Oleh :
MARIA KRISTILIA WIDOWATI
085314080
PROGRAM STUDI TEKNIK INFORMATIKA
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2014
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
i
DETEKSI OUTLIER PADA DATA CAMPURAN
NUMERIK DAN KATEGORIKAL MENGGUNAKAN
ALGORITMA ENHANCED CLASS OUTLIER
DISTANCE BASED (ECODB) (Studi Kasus : Data Kredit BPR XYZ)
TUGAS AKHIR
Diajukan Untuk Memenuhi Salah Satu Syarat
Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Disusun Oleh :
MARIA KRISTILIA WIDOWATI
085314080
PROGRAM STUDI TEKNIK INFORMATIKA
JURUSAN TEKNIK INFORMATIKA
FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA
YOGYAKARTA
2014
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
ii
OUTLIER DETECTION ON MIXED ATTRIBUTES
NUMERICAL AND CATEGORICAL DATA USING
ENHANCED CLASS OUTLIER DISTANCE BASED
(ECODB) ALGORITHM (Case Study : Credit Data of BPR XYZ)
A Thesis
Presented as Partial Fulfillment of the Requirements
To Obtain the Sarjana Komputer Degree
In Informatical Engineering Study Program
By :
MARIA KRISTILIA WIDOWATI
085314080
INFORMATICS ENGINEERING STUDY PROGRAM
DEPARTMENT OF INFORMATICS ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY
SANATA DHARMA UNIVERSITY
YOGYAKARTA
2014
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
v
HALAMAN PERSEMBAHAN
“Janganlah gelisah hatimu; percayalah kepada Allah,
percayalah juga kepada-Ku.”
(Yohanes 14:1)
“Tidak ada yang mustahil bagi orang yang percaya!”
(Markus 9:32)
“Pendidikan mempunyai akar yang pahit, tetapi buahnya manis.”
(Aristoteles)
“Tidak ada orang yang gagal selama dia menikmati hidup.” (William Feather)
“Setiap hal yang terjadi, baik ataupun buruk, selalu ada yang
menarik dan dapat dipelajari.”
Tugas akhir ini saya persembahkan untuk :
Allah Tritunggal
Orangtuaku, saudara- saudaraku,
sahabat – sahabatku
dan orang – orang terkasih.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
vii
ABSTRAK
Outlier adalah adalah obyek yang berbeda dibandingkan obyek – obyek lain
dalam suatu dataset. Dalam penambangan data, deteksi outlier adalah satu satu
bidang penelitian yang terus berkembang. Umumnya metode deteksi outlier tidak
memperhatikan secara khusus class label pada dataset dan hanya fokus pada
dataset yang seragam. Padahal, dataset yang nyata biasanya mempunyai
multiatribut. Pada deteksi outlier dengan algoritma Enhanced Class Outlier
Distance Based (ECODB), data yang menyimpang dari kumpulan class-nya dapat
ditemukan. Algoritma ECODB dapat diterapkan pada dataset dengan atribut
campuran numerik dan kategorikal.
Algoritma ECODB akan menghitung nilai Class Outlier Factor (COF) dari tiap
instances berdasarkan masukan nilai k dan top N. K adalah jumlah tetangga
terdekat dari suatu instances, sedangkan top N adalah jumlah instances yang
dideteksi sebagai outlier yang diurutkan secara kecil ke besar berdasarkan nilai
COF. COF adalah nilai probabilitas/derajat sebuah instance dapat menjadi outlier.
Outlier adalah data dengan nilai COF terendah.
Pada penelitian ini dilakukan pendeteksian outlier menggunakan algoritma
ECODB. Data yang digunakan adalah data debitur BPR XYZ yang mengangsur
kredit pada bulan Agustus 2013. Data tersebut berjumlah 97 record dalam format
Microsoft Excel (.xls). Pada penelitian ini akan diketahui bagaimana pengaruh
nilai k dan top N dalam proses deteksi outlier menggunakan algoritma ECODB.
Pengujian dilakukan dengan cara menghitung data debitur BPR XYZ
menggunakan algoritma ECODB dengan masukan k dan top N yang berbeda.
Kemudian hasil perhitungan tersebut dibandingkan untuk mendapatkan
kesimpulan. Selain itu juga dilakukan review hasil deteksi outlier oleh petugas
bank.
Dari hasil pengujian efek perubahan nilai k dan top N dapat disimpulkan bahwa
penentuan nilai k dan top N pada algoritma ECODB berpengaruh terhadap outlier
yang dihasilkan. Nilai k dan top N yang terlalu kecil atau besar menyebabkan
hasil deteksi outlier tidak optimal. Berdasarkan hasil pengujian review dan
validitas oleh petugas bank dapat disimpulkan bahwa hasil deteksi outlier yang
diperoleh layak dinyatakan sebagai outlier.
Kata kunci : penambangan data, deteksi outlier, ecodb, enhanced class outlier
distance based
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
viii
ABSTRACT
Outlier is an object which is different from any objects in one dataset. In data
mining, outlier detection is one of growing researches. Generally, outlier detection
methods find exception or rare cases in a dataset without considered class label as
an important thing and only can be used on dataset that have single datatypes. In
fact, real world dataset usually have mixed datatypes. On outlier detection using
Enhanced Class Outlier Distance Based (ECODB) algorithm, data which is
different from its class can be found. ECODB algorithm can be applied on dataset
that have numerical and categorical attributes.
ECODB algorithm count the Class Outlier Factor (COF) from each instances
based on k and top N value. K is the nearest neighbors of instances, whereas top N
is the number of top class outlier that rank from greatest to the least based on COF
value. COF is the probability/degree from an instance to be considered as outlier.
Outlier is data which have least COF value.
In this thesis, ECODB algorithm was used to perform outlier detection. The data
used in this thesis is credit data of BPR XYZ debtor whom lessened their credit on
August 2013. This data consist of 97 records on Microsoft Excel format (.xls). In
this thesis, it can be understand how k and top N value influenced on outlier
detection using ECODB algorithm.
The testing can be done by counting credit data of BPR XYZ using ECODB
algoritm with various input of k and top N. The results was compared to provide
the conclusion. Besides, it also validated the results of outlier detection by
reviewing the bank officer.
Based on the testing, it can be concluded that the determination of k and top N
value influence the results of outlier detection. Very small or very high of k and
top N value cause unoptimal outlier detection. Also, based on validation testing by
bank officer, the results of the outlier detection using ECODB algorithm are
confirmed as outliers.
Keyword : data mining, outlier detection, ecodb, enhanced class outlier distance
based
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
x
KATA PENGANTAR
Puji syukur penulis panjatkan ke hadirat Tuhan Yang Maha Esa atas
penyertaan-Nya sehingga penulis dapat menyelesaikan tugas akhir dengan judul
“Deteksi Outlier pada Data Campuran Numerik dan Kategorikal
Menggunakan Algoritma Enhanced Class Outlier Distance Based (ECODB)
(Studi Kasus : Data Kredit BPR XYZ)”. Penulisan tugas akhir ini ditujukan
untuk memenuhi salah satu syarat memperoleh gelar Sarjana Komputer Jurusan
Teknik Informatika.
Terselesaikannya penulisan tugas akhir ini tidak lepas dari peran serta
beberapa pihak, baik secara langsung maupun secara tidak langsung. Oleh karena
itu, penulis ingin menyampaikan terima kasih kepada pihak - pihak yang telah
ikut membantu dalam penulisan tugas akhir ini, baik dalam memberi bimbingan,
petunjuk kerjasama, kritikan, maupun saran,antara lain kepada:
1. Ibu P.H. Prima Rosa, S.Si., M.Sc., selaku Dekan Fakultas Sains dan
Teknologi Universitas Sanata Dharma Yogyakarta dan dosen pembimbing
yang telah memberikan masukan sehingga tugas akhir ini dapat terselesaikan.
2. Ibu Ridowati Gunawan, S.Kom., M.T., selaku Ketua Program Studi Teknik
Informatika Universitas Sanata Dharma Yogyakarta dan dosen penguji.
3. Sri Hartati Wijono, S.Si., M.Kom, selaku dosen penguji.
4. Seluruh staff pengajar dan karyawan Program Studi Teknik Informatika
Fakultas Sains dan Teknologi Universitas Sanata Dharma.
5. Direktur Utama BPR XYZ dan Kepala Bagian Humas BPR XYZ yang telah
memberikan ijin untuk melakukan penelitian di BPR XYZ.
6. Kedua orang tua tersayang, bapak Yohanes Suradi dan ibu Firmina Sri
Rahayuningsih yang selalu mendoakan, memberi petuah dan semangat
sehingga tugas akhir ini dapat terselesaikan.
7. Semua saudara, Agatha Ratih Firmita Adhi, Andreas Kresna Oki Raditya,
Rosa Ayu Famela Larasati, dan Juanetta Ruby de Bruyn yang telah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xi
memberikan semangat, perhatian, penghiburan dan doa sehingga penulis
dapat menyelesaikan tugas akhir ini.
8. Sahabat – sahabatku, alm. Vina, alm. Yoana, Murni, Rosa, Devi, mbak Putri,
Vina, Veni, Monic, Eny, Ria, Ita, Nana, Endah, Etik, Dhesie, Caca, Ulays,
Veverly, Justin, Helan, dan Violya.
9. Dan semua pihak yang tidak dapat disebutkan satu per satu yang telah
membantu terselesaikannya tugas akhir ini.
Penulis menyadari bahwa tugas akhir ini masih jauh dari sempurna. Oleh
karena itu, penulis dengan senang hati menerima sumbangan pikiran, baik saran
maupun kritik untuk perbaikan – perbaikan di masa datang. Akhir kata, penulis
berharap semoga laporan ini dapat bermanfaat bagi semua pihak.
Yogyakarta, Oktober 2014
Maria Kristilia Widowati
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xii
DAFTAR ISI
HALAMAN JUDUL……………………………………………………….. i
HALAMAN PERSETUJUAN.…………………………………………….. iii
HALAMAN PENGESAHAN..…………………………………………….. iv
HALAMAN PERSEMBAHAN..…………………………………………... v
PERNYATAAN KEASLIAN KARYA..…………………………………... vi
ABSTRAK..………………………………..……………………………….. vii
ABSTRACT..……………………………….………………………………... viii
LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI.……………… ix
KATA PENGANTAR……………………………………………………… x
DAFTAR ISI………………………………………………………………... xii
DAFTAR TABEL………………………………………………………..…. xv
DAFTAR GAMBAR………………………………………………………..
DAFTAR LAMPIRAN……………………………………………………...
xvi
xvii
BAB I PENDAHULUAN
A. Latar Belakang Masalah………………………..…………………. 1
B. Rumusan Masalah………….……………………...……………… 2
C. Tujuan Penelitian......…………………………………..…………. 3
D. Batasan Masalah.......………………………………..……………. 3
E. Manfaat Penelitian……………………………………………….. 4
F. Metodologi Penelitian……………………………………………. 4
G. Sistematika Penulisan……………………………….……………. 5
BAB II LANDASAN TEORI
A. Penambangan Data……………………………….…………….….. 7
1. Pengertian dan Fungsi Penambangan Data………………...…. 7
2. Pemrosesan Awal Data……………………………………..…. 8
B. Outlier…………………………………………….……………….. 12
C. Algoritma Enhanced Class Outlier Distance Based (ECODB).….. 15
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiii
BAB III METODE PENELITIAN
A. Metodologi Penelitian………………………..…………………… 19
B. Instrumen Penelitian………….……………………...…………… 20
C. Teknik Pengumpulan Data......…………………………………..… 20
D. Teknik Pengolahan Data.......………………………………..…….. 23
E. Tahap – Tahap Penelitian……………………………….…………. 23
F. Contoh Perhitungan Algoritma ECODB………………………….. 25
BAB IV HASIL DAN PEMBAHASAN
A. Sumber Awal Data……………………….…….…….…….……...
B. Pemrosesan Awal Data……………………………….………..….
1. Seleksi Data………………………………………………….….
2. Pengisian Missing Value………………………………………..
3. Normalisasi Data………………………………………………..
C. Penambangan Data Dengan Microsoft Excel……………………..
1. Menormalisasi Data………………………………………….....
2. Mencari Jarak Dari Tiap Data Dengan Menggunakan Fungsi
Jarak Mixed Euclidian Distance………………………………...
3. Menghitung PCL………………………………………………..
4. Meranking List Top N Outlier Dari Instance Dengan Nilai
PCL(T,K) Terkecil……………………………………………....
5. Menghitung Nilai Deviation(T)¸ Norm(Deviation(T)), Kdist(T),
Dan Norm(Kdist(T))………………………………………….….
6. Menghitung Nilai COF (Class Outlier Factor)………………....
7. Mengurutkan List Top N Secara Ascending Sesuai Nilai COF....
D. Hasil Deteksi Outlier Berdasarkan Algoritma ECODB Dengan
Microsoft Excel…………………………………………………….
E. Kesimpulan Hasil Percobaan Perhitungan Dengan Masukan K dan
Top N Yang Berubah - Ubah……………………………………….
F. Kesimpulan Hasil Pengujian Review dan Validitas oleh Pengguna..
30
30
30
36
37
38
38
39
40
40
41
43
43
44
66
67
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xiv
BAB V PENUTUP
A.Kesimpulan……………………………….………………………..... 73
G. Saran……………………………….……………………………....
DAFTAR PUSTAKA……………………………….………………………
LAMPIRAN……………………………….…………….………………….
74
75
77
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xv
DAFTAR TABEL
Tabel 3.1. Atribut – atribut pada dataset debitur ……………….…..…….………..……..... 21
Tabel 3.2. Hasil perhitungan PCL tiap instance ….………………….….…………….... 27
Tabel 3.3 Hasil perhitungan Deviation dan KDist dari tiap instance..….……………...... 28
Tabel 3.4. Hasil perhitungan COF dari tiap instance….………………….….…….…….... 28
Tabel 4.1. Contoh atribut pada dataset debitur sebelum normalisasi….……………….... 37
Tabel 4.2. Contoh atribut pada dataset debitur setelah normalisasi….………………….. 38
Tabel 4.3. Hasil deteksi outlier dengan masukan k dan top N yang berubah – ubah......... 44
Tabel 4.4. Nilai rata – rata COF berdasarkan masukan k dan top N yang berubah – ubah 47
Tabel 4.5 Nilai COF dengan k = 7 dan top N = 10………..………..………..………...... 48
Tabel 4.6 Nilai COF dengan k = 7 dan top N = 20………..………..………..……….... 48
Tabel 4.7 Nilai COF dengan k = 7 dan top N = 30………..………..………..……….... 49
Tabel 4.8 Nilai COF dengan k = 7 dan top N = 40………..………..………..……….... 49
Tabel 4.9 Nilai COF dengan k = 7 dan top N = 50………..………..………..……….... 50
Tabel 4.10 Nilai COF dengan k = 17 dan top N = 10………..………..………..……….. 51
Tabel 4.11 Nilai COF dengan k = 17 dan top N = 20………..………..………..……….. 52
Tabel 4.12 Nilai COF dengan k = 17 dan top N = 30………..………..………..……….. 52
Tabel 4.13 Nilai COF dengan k = 17 dan top N = 40………..………..………..……….. 53
Tabel 4.14 Nilai COF dengan k = 17 dan top N = 50………..………..………..……….. 54
Tabel 4.15 Nilai COF dengan k = 27 dan top N = 10………..………..………..……….. 55
Tabel 4.16 Nilai COF dengan k = 27 dan top N = 20………..………..………..……….. 55
Tabel 4.17 Nilai COF dengan k = 27 dan top N = 30………..………..………..……….. 56
Tabel 4.18 Nilai COF dengan k = 27 dan top N = 40………..………..………..……….. 57
Tabel 4.19 Nilai COF dengan k = 27 dan top N = 50………..………..………..……….. 58
Tabel 4.20 Nilai COF dengan k = 37 dan top N = 10………..………..………..……….. 59
Tabel 4.21 Nilai COF dengan k = 37 dan top N = 20………..………..………..……….. 59
Tabel 4.22 Nilai COF dengan k = 37 dan top N = 30………..………..………..……….. 60
Tabel 4.23 Nilai COF dengan k = 37 dan top N = 40………..………..………..……….. 60
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvi
Tabel 4.24 Nilai COF dengan k = 37 dan top N = 50………..………..………..……….. 61
Tabel 4.25 Nilai COF dengan k = 47 dan top N = 10………..………..………..……….. 62
Tabel 4.26 Nilai COF dengan k = 47 dan top N = 20………..………..………..……….. 63
Tabel 4.27 Nilai COF dengan k = 47 dan top N = 30………..………..………..……….. 63
Tabel 4.28 Nilai COF dengan k = 47 dan top N = 40………..………..………..……….. 64
Tabel 4.29 Nilai COF dengan k = 47 dan top N = 50………..………..………..……….. 65
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xvii
DAFTAR GAMBAR
Gambar 2.1 Metode pemrosesan awal data……………………….………..……..... 8
Gambar 2.2 Set data dengan outlier…………………………………….….....…...... 12
Gambar 3.1 Contoh dataset debitur……………………………….……….....…...... 25
Gambar 3.2 Data debitur yang telah dinormalisasi……………………………….… 26
Gambar 3.3 Perhitungan jarak setiap instance dari data debitur…………………… 26
Gambar 3.4 Tujuh tetangga terdekat dari tiap instance……………………………...
Gambar 4.1 Atribut pada data debitur setelah tahap seleksi data…………………....
27
36
Gambar 4.2 Isi data debitur setelah tahap pengisian missing value…………………. 37
Gambar 4.3 Contoh formula normalisasi data………………….………………….... 39
Gambar 4.4 Contoh formula mencari jarak………………….………………….…… 40
Gambar 4.5 Contoh formula menghitung PCL………………….………………...… 40
Gambar 4.6 Contoh meranking kecil ke besar berdasarkan nilai PCL(T,K) terkecil... 41
Gambar 4.7 Contoh formula menghitung Deviation………………………………… 42
Gambar 4.8 Contoh formula menghitung Norm(Deviation(T))………………...…… 42
Gambar 4.9 Contoh formula menghitung Kdist…………………………………….. 42
Gambar 4.10 Contoh formula menghitung Norm(KDist(T))………………………... 43
Gambar 4.11 Contoh formula menghitung COF (Class Outlier Factor)………….… 43
Gambar 4.12 Contoh meranking kecil ke besar berdasarkan nilai COF terkecil……. 44
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
xviii
DAFTAR LAMPIRAN
1. Tabel data debitur sebelum mengalami pemrosesan awal…………………… 77
2. Hasil seleksi atribut data debitur……………………………………………... 78
3. Hasil pengisian missing value………………………………………………... 79
4. Hasil normalisasi data………………………………………………………... 80
5. Hasil pemrosesan data………………………………………………………... 81
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
1
BAB I
PENDAHULUAN
A. Latar Belakang Masalah
Outlier adalah kumpulan obyek - obyek yang dipandang sangat
berbeda dibandingkan keseluruhan data (Han dan M. Kamber, 2006). Dalam
penambangan data, deteksi outlier adalah satu satu bidang penelitian yang
terus berkembang (Maryono, 2010). Deteksi data outlier sangat bermanfaat
untuk mendeteksi adanya perilaku atau kejadian yang tidak normal seperti
deteksi penipuan penggunaan kartu kredit, deteksi intrusi jaringan,
penggelapan asuransi, diagnosa medis, segmentasi pelanggan, dan
sebagainya (Breunig, et. al., 2000).
Ada bermacam – macam teknik yang digunakan untuk mendeteksi
outlier pada data. Namun, pada banyak metode deteksi outlier tidak
memperhatikan secara khusus class label pada dataset. Akibatnya data yang
merupakan outlier dalam suatu class label tidak dapat dideteksi. Selain itu,
metode – metode tersebut hanya fokus pada set data yang seragam, yaitu
hanya terdiri dari salah satu tipe atribut saja (Maryono, 2010). Padahal, set
data yang nyata tidak hanya mempunyai atribut numerik, tetapi juga
mempunyai atribut kategorikal (Aggarwal, 2013).
Contoh data nyata dengan atribut campuran dan mempunyai class
label adalah data debitur BPR XYZ. Data ini merupakan data debitur yang
mengangsur kredit pada bulan Agustus 2013. Untuk mengetahui outlier yang
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2
terdapat pada data debitur tersebut dapat dilakukan pendeteksian outlier
menggunakan algoritma Enhanced Class Outlier Distance Based (ECODB).
Menurut Hewahi dan M. K. Saad (2009), algoritma Enhanced
Class Outlier Distance Based (ECODB) dapat digunakan untuk mendeteksi
outlier pada data dengan multiatribut. Algoritma ini akan menghitung nilai
Class Outlier Factor (COF) dari tiap instances berdasarkan masukan nilai k
dan top N. K adalah jumlah tetangga terdekat dari suatu instances, sedangkan
top N adalah jumlah instances yang dideteksi sebagai outlier yang diurutkan
secara kecil ke besar berdasarkan nilai COF. COF adalah nilai
probabilitas/derajat sebuah instance dapat menjadi outlier. Outlier adalah
data dengan nilai COF terendah.
Pada penelitian ini dilakukan pendeteksian outlier pada data
debitur BPR XYZ menggunakan algoritma ECODB. Hasil penelitian ini
diharapkan dapat memberi gambaran apakah algoritma ECODB dapat
digunakan untuk mendeteksi outlier pada data debitur dengan atribut
campuran numerik dan kategorikal dengan kasus data debitur BPR XYZ dan
bagaimana pengaruh nilai k dan top N dalam proses deteksi outlier
menggunakan algoritma ECODB. Setelah outlier dideteksi, pihak bank dapat
menganalisa data dan outlier untuk menemukan faktor tertentu yang
berpengaruh pada keunikan data debitur tersebut.
B. Rumusan Masalah
Berdasarkan latar belakang masalah di atas, maka masalah yang
dapat diselesaikan adalah sebagai berikut :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
3
1. Apakah algoritma ECODB dapat digunakan untuk mendeteksi outlier
pada data debitur dengan atribut campuran numerik dan kategorikal
dengan kasus data debitur BPR XYZ?
2. Bagaimana pengaruh nilai k dan top N dalam proses deteksi outlier
menggunakan algoritma ECODB?
C. Tujuan Penelitian
Tujuan dari penelitian ini adalah :
1. Menguji apakah algoritma ECODB dapat digunakan untuk
menemukan outlier pada data debitur dengan atribut campuran
numerik dan kategorikal dengan kasus data debitur BPR XYZ.
2. Mengetahui pengaruh nilai k dan top N dalam proses deteksi
outlier menggunakan algoritma ECODB.
D. Batasan Masalah
Penelitian ini mempunyai beberapa batasan, yaitu :
1. Data yang digunakan adalah data debitur BPR XYZ yang
mengangsur kredit pada bulan Agustus 2013. Data tersebut
berjumlah 97 record dalam format Microsoft Excel.
2. Algoritma yang digunakan adalah algoritma ECODB (Enhanced
Class Outlier Distance Based).
3. Proses deteksi outlier dan analisa menggunakan Microsoft
Excel.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
4
E. Manfaat Penelitian
Penelitian ini mempunyai manfaat sebagai berikut :
1. Mengetahui apakah algoritma ECODB dapat digunakan untuk
menemukan outlier pada data debitur dengan atribut campuran
numerik dan kategorikal dengan kasus data debitur BPR XYZ.
2. Mengetahui pengaruh nilai k dan top N dalam proses deteksi
outlier menggunakan algoritma ECODB.
3. Membantu pihak bank untuk menemukan faktor tertentu yang
berpengaruh pada keunikan data debitur.
F. Metodologi Penelitian
Metodologi yang digunakan pada penelitian ini adalah
menggunakan metode KDD (Knowledge Discovery in Database), yang
dikemukakan oleh Han dan Kamber (2006). Langkah dari metodologi
tersebut adalah sebagai berikut :
1. Seleksi Data ( Data Selection )
Proses pemilihan atribut-atribut yang relevan untuk dilakukan
penambangan data. Atribut yang tidak relevan akan dihilangkan
karena akan membiaskan hasil penambangan data.
2. Pembersihan Data (Data Cleaning)
Proses pembersihan pada data yang menjadi fokus
KDD. Bentuk pembersihan data mencakup antara lain mengisi
missing value, menghaluskan data yang noisy, mengidentifikasi
dan menghilangkan outlier, dan menangani data yang tidak
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5
konsisten. Dalam penelitian ini dilakukan pengisian missing
value.
3. Transformasi Data (Data Transformation)
Proses transformasi pada data yang sudah diseleksi ke dalam
bentuk yang sesuai untuk ditambang.
4. Penambangan Data (Data Mining)
Proses mengaplikasikan metode untuk mendapatkan pola pada
suatu kumpulan data. Dalam penelitian ini, metode yang
digunakan adalah metode analisis outlier dengan menggunakan
algoritma ECODB.
5. Evaluasi Pola ( Pattern Evaluation )
Proses penerjemahan pola-pola yang dihasilkan dari
penambangan data. Tahap ini merupakan bagian dari proses
KDD yang mencakup pemeriksaan apakah pola atau informasi
yang ditemukan bertentangan dengan fakta atau hipotesa yang
ada sebelumnya.
G. Sistematika Penulisan
Secara umum dalam menyelesaikan penelitian ini, disusun suatu
sistematika sebagai berikut :
BAB I : PENDAHULUAN
Berisi latar belakang masalah, rumusan masalah, tujuan
penelitian, batasan masalah, manfaat penelitian,
metodologi penelitian dan sistematika penulisan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
6
BAB II : LANDASAN TEORI
Berisi teori - teori yang mendukung penelitian, antara lain
mengenai penambangan data, outlier dan algoritma
Enhanced Class Outlier Distance Based (ECODB).
BAB III : METODE PENELITIAN
Berisi penjelasan mengenai langkah atau metode yang
dilakukan untuk menyelesaikan masalah dalam
penelitian ini.
BAB IV : HASIL DAN PEMBAHASAN
Berisi penjelasan tentang hasil analisa yang diperoleh dari
penelitian. Pada bab ini, akan dijabarkan secara lengkap
proses perhitungan menggunakan Microsoft Excel, hasil
deteksi outlier yang didapat, hasil analisa algoritma
ECODB yang diterapkan ke dalam data debitur dan hasil
pengujian review dan validitas outlier oleh petugas bank
BPR XYZ.
BAB VII : PENUTUP
Berisi kesimpulan dan saran yang bermanfaat bagi
pengembangan penelitian ini lebih lanjut.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
7
BAB II
LANDASAN TEORI
A. Penambangan Data
1. Pengertian dan Fungsi Penambangan Data
Menurut Santosa (2007) “penambangan data adalah kegiatan yang
meliputi pengumpulan, pemakaian data historis untuk menemukan
keteraturan, pola atau hubungan dalam set data berukuran besar.
Keluaran dari penambangan data bisa dipakai untuk memperbaiki
pengambilan keputusan di masa depan”. Tool penambangan data mampu
memprediksi tren dan perilaku sehingga mampu membuat perusahaan
semakin proaktif dan memperkaya pengetahuan atau informasi dalam
membuat keputusan (Lee S dan Santana, 2010).
Menurut Lee S dan Santana (2010), fungsi penambangan data
yang digunakan untuk keperluan implementatif mencakup :
a. Mendeteksi pola kecurangan bertransaksi, klaim kartu kredit,
dll.
b. Memodelkan pola dan perilaku pembeli/konsumen.
c. Mengoptimasi performansi produk barang atau jasa.
d. Mendeteksi kejadian pada perilaku, seperti menelusuri riwayat
aktivitas yang unik atau tidak wajar.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
8
e. Memperlengkapi perusahaan dalam menemukan pola dan
korelasi data yang menuntun pada pengetahuan dan temuan
bernilai lainnya.
2. Pemrosesan Awal Data
Data yang belum diproses disebut data mentah. Data mentah perlu
disiapkan terlebih dahulu agar bisa dipakai dalam proses penambangan
data. Pada data mentah sering ditemukan noisy, missing value (nilai yang
hilang), dan data yang tidak konsisten. Data dengan kualitas rendah akan
menghasilkan kualitas penambangan yang buruk (Han dan Kamber,
2006). Maka perlu ditingkatkan kualitasnya dengan melakukan
pemrosesan awal data.
Sumber : Han dan Kamber, 2006
Gambar 2.1 Metode pemrosesan awal data
Ada beberapa metode pemrosesan awal data, yaitu :
a. Pembersihan data (data cleaning)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
9
Data yang akan ditambang mungkin saja mengalami
missing value, noisy, atau tidak konsisten. Pembersihan data
diperlukan untuk mengisi missing value, menghaluskan data
yang noisy, mengidentifikasi dan menghilangkan outlier, dan
menangani data yang tidak konsisten (Han dan Kamber,
2006).
Ada beberapa langkah pembersihan data untuk
menangani data yang missing value atau noisy.
1. Missing value
a. Membiarkan nilai yang hilang.
b. Mengisi nilai yang hilang secara manual.
c. Menggunakan konstanta \Unknown atau ∞
untuk mengisi nilai yang hilang.
d. Mengisi nilai yang hilang dengan nilai rata –
rata atribut.
e. Mengisi nilai yang hilang dengan nilai rata –
rata sampel dari kelas yang sama.
f. Mengisi dengan nilai yang paling besar
kemungkinan/kesesuaiannya dengan nilai yang
hilang (Han dan Kamber, 2006).
2. Noisy
a. Metode binning.
Ada 3 macam metode binning, yaitu :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
10
1. Smoothing dengan rata – rata (means)
dari bin.
Tiap nilai dari bin diganti dengan nilai
rata – rata bin.
2. Smoothing dengan nilai tengah (median)
dari bin.
Tiap nilai dari bin diganti dengan nilai
nilai tengah bin.
3. Smoothing dengan batas bin.
Nilai terendah dan tertinggi
diidentifikasi sebagai batas bin. Setiap
nilai bin diubah sesuai nilai batas bin
yang paling mendekati (Han dan
Kamber, 2006).
b. Regresi.
c. Clustering.
b. Integrasi data (data integration)
Integrasi data adalah suatu teknik mengkombinasikan
data dari beberapa sumber dalam satu tempat penyimpanan,
misalnya gudang data (data warehouse). Sumber tersebut
bisa berupa multiple database, data cube atau flat file (Han
dan Kamber, 2006).
c. Transformasi data (data transformation)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
11
Data mentah perlu dilakukan proses transformasi
untuk meningkatkan performanya. Dalam tranformasi data,
data diubah menjadi bentuk yang bisa ditambang (Han dan
Kamber, 2006).
Ada beberapa metode transformasi data, yaitu :
1. Smoothing.
2. Agregasi.
3. Generalisasi.
4. Normalisasi.
5. Konstruksi atribut. (Han dan Kamber, 2006)
d. Reduksi data (data reduction)
Data yang kompleks akan membutuhkan waktu yang
lama untuk menambang. Teknik reduksi data sangat
membantu mereduksi data yang kompleks tanpa mengurangi
integritas dari data yang asli dan tidak mengurangi kualitas
informasi yang dihasilkan (Han dan Kamber, 2006).
Ada beberapa metode yang digunakan untuk mereduksi
data, yaitu :
1. Agregasi data cube.
2. Mereduksi dimensi.
3. Mengkompresi data.
4. Mereduksi semua data (mengganti data yang asli
dengan model data).
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
12
5. Pendiskretan dan konsep hirarki (Han dan Kamber,
2006).
B. Outlier
Menurut Han dan Kamber (2006), data outlier adalah kumpulan
obyek - obyek yang dipandang sangat berbeda dibandingkan keseluruhan data.
Jadi dapat dikatakan, outlier adalah data yang berbeda/tidak sama atau tidak
konsisten dengan keseluruhan set data.
Sumber : Han dan Kamber, 2006
Gambar 2.2 Set data dengan outlier
Ada beberapa hal yang menyebabkan munculnya outlier, yaitu :
1. Kesalahan pengukuran data.
Sebagai contoh, munculnya data umur seseorang yaitu 999 tahun
karena kesalahan pengaturan default program.
2. Data pengukuran berasal dari populasi lain.
Contohnya yaitu gaji seorang pimpinan perusahaan dapat
dianggap sebagai outlier di antara gaji para karyawan di
perusahaan tersebut karena adanya perbedaan yang sangat
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
13
mencolok antara gaji seorang pimpinan dan gaji karyawan di
sebuah perusahaan (Han dan Kamber, 2006).
3. Data pengukuran yang benar tetapi mewakili peristiwa atau
keadaan unik yang jarang terjadi.
Misalnya, terdapat ada mahasiswa dengan IPK di atas 3,9
sementara sebagian besar mahasiswa mempunyai IPK di bawah
3,3, maka mahasiswa itu akan dianggap sebagai outlier.
Kebanyakan algoritma penambangan data mencoba untuk
mengurangi atau bahkan menghilangkan pengaruh outlier. Padahal outlier
sendiri kemungkinan memiliki informasi penting yang tersembunyi (Han
dan Kamber, 2006). Deteksi outlier dapat menghasilkan informasi penting
yang terdapat pada outlier. Dalam penambangan data, deteksi outlier adalah
satu satu bidang penelitian yang terus berkembang (Maryono, 2010). Deteksi
data outlier sangat bermanfaat untuk mendeteksi adanya perilaku atau
kejadian yang tidak normal seperti deteksi penipuan penggunaan kartu
kredit, deteksi intrusi jaringan, penggelapan asuransi, diagnosa medis,
segmentasi pelanggan, dan sebagainya (Breunig, et. Al., 2000).
Menurut Han dan Kamber (2006) , pendeteksian outlier
dikategorikan menjadi 4 metode yaitu :
a. Statistical Distribution Based Outlier Detection
Dalam metode ini data diasumsikan sebagai sebuah hipotesis
kerja. Setiap data obyek di dalam dataset dibandingkan
terhadap hipotesis kerja. Data yang dapat diterima maka akan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
14
masuk dalam hipotesis kerja, sedangkan data yang ditolak atau
tidak sesuai dengan hipotesis kerja maka ditetapkan menjadi
hipotesis alternatif (outlier).
b. Distance Based Outlier Detection
Metode ini adalah sebuah metode deteksi outlier dengan
menghitung jarak pada obyek tetangga terdekat (nearest neighbor).
Di dalam pendekatan ini sebuah obyek dibandingkan dengan
obyek – obyek terdekatnya yang didefinisikan sebagai k nearest
neighbor. Jika jarak sebuah obyek relatif dekat maka obyek
tersebut dikatakan normal, namun jika jarak antar obyek relatif
jauh maka obyek tersebut dikatakan tidak normal (outlier).
c. Density Based Local Outlier Detection
Metode density based tidak secara eksplisit mengklasifikasikan
sebuah obyek adalah outlier atau bukan, akan tetapi lebih kepada
pemberian nilai kepada obyek sebagai derajat kekuatan obyek
tersebut dapat dikategorikan sebagai outlier. Ukuran derajat
kekuatan ini adalah local outlier factor (LOF). Pendekatan untuk
pencarian outlier ini hanya membutuhkan sebuah parameter yaitu
MinPts. MinPts adalah jumlah tetangga terdekat yang
digunakan untuk mendefinisikan kumpulan lokal suatu obyek.
d. Deviation Based Outlier Detection
Metode deviation based tidak menggunakan pengujian statistik
ataupun perbandingan jarak untuk mengidentifikasi sebuah outlier.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
15
Metode ini mengidentifikasi sebuah outlier dengan memeriksa
karakteristik utama dari obyek dalam sebuah kumpulan data.
Obyek yang memiliki karakteristik di luar karakteristik utama
akan dianggap sebagai outlier (Han dan Kamber, 2006).
C. Algoritma Enhanced Class Outlier Distance Based (ECODB)
Algoritma Enhanced Class Outlier Distance Based (ECODB) adalah
algoritma deteksi outlier yang dikembangkan oleh Hewahi dan M. K. Saad
(2009). Algoritma ini merupakan penyempurnaan dari algoritma CODB
(Class Outlier Distance Based). Pada algoritma ini parameter α dan β
dihilangkan sehingga pada penghitungan Deviation(T) dan KDist(T) dilakukan
proses normalisasi (Hewahi dan M. K. Saad, 2009). Kedua parameter tersebut
dihilangkan untuk menghindari proses trial and error. Langkah – langkah
algoritma ECODB adalah sebagai berikut :
1. Untuk dataset yang diberikan, hitung nilai PCL(T,K) untuk
semua instance.
PCL(Probability of Class Label) adalah nilai
probabilitas/banyaknya kemunculan class label yang sama
dengan instance T dibandingkan K tetangga terdekatnya.
Misalkan ada 7 tetangga terdekat dari instance T (termasuk
dirinya) dari sebuah dataset dengan class label x dan y, dimana
5 dari tetangga terdekat mempunyai class label x dan sisanya
mempunyai class label y. Instance T dengan class label y
mempunyai nilai PCL 2/7.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
16
2. Meranking list top N outlier dari instance dengan nilai
PCL(T,K) terkecil. Top N adalah jumlah instances yang
dideteksi sebagai outlier yang diurutkan dari kecil ke besar
berdasarkan nilai COF.
3. Untuk setiap instance yang berada di list top N, menghitung
nilai Deviation(T) dan KDist(T) dan update nilai MaxDev,
MinDev, MaxKDist, dan MinKDist.
Misalkan ada subset DCL = {t1, t2, t3, ..., th} dari dataset D= {t1,
t2, t3, ..., tn}, dimana h adalah jumlah instance dari DCL dan n
adalah jumlah instance di D. Misalkan ada instance T, DCL
mengandung seluruh instance yang mempunyai label kelas
(class label) yang sama dengan instance T.
Deviation dari T adalah seberapa besar nilai instance T yang
menyimpang dari subset DCL. Deviation dihitung dengan
menjumlahkan jarak antara instance T dengan setiap instance
DCL. Deviation dihitung dengan rumus sebagai berikut :
(2.1)
KDist adalah jarak antara instance T pada dataset D dengan K
tetangga terdekat, seberapa dekat nilai K instance tetangga
terdekat dengan instance T. KDist dihitung dengan rumus
sebagai berikut :
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
17
(2.2)
Kemudian nilai Deviation dan KDist dinormalisasikan dalam
range 0 – 1 menggunakan rumus sebagai berikut :
(2.3)
Dimana,
Norm(Deviation(T)) : nilai deviation yang sudah ternormalisasi
dari instance T
Norm(KDist(T)) : nilai KDist yang sudah ternormalisasi dari
instance T
MaxDev : nilai deviation tertinggi dari top N class outlier
MinDev : nilai deviation terendah dari top N class outlier
MaxKDist : nilai KDist tertinggi dari top N class outlier
MinKDist : KDist terendah dari top N class outlier
4. Menghitung nilai COF (Class Outlier Factor) dari setiap
instance yang berada di list top N. COF adalah derajat dari suatu
instance T untuk dikategorikan sebagai outlier.
(2.4)
Dimana,
COF(T) : nilai Class Outlier Faktor dari instance T
K : jumlah tetangga instance T
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
18
PCL(T,K) : nilai probabilitas class label dari instance T dengan
class label dari K Nearest Neighbors
norm(Devation(T)) : nilai deviation yang sudah ternormalisasi
dari instance T
norm(KDist(T)) : nilai KDist yang sudah ternormalisasi dari dari
instance T
Class outlier adalah instance – instance yang memenuhi
pernyataan berikut :
a. KDist dari K tetangga terdekatnya terkecil.
b. Nilai Deviation-nya terbesar.
c. Mempunyai class label yang berbeda dengan K tetangga
terdekatnya.
5. Mengurutkan list top N dari kecil ke besar sesuai nilai COF.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
19
BAB III
METODE PENELITIAN
A. Metodologi Penelitian
Penelitian ini dilakukan untuk menemukan outlier pada data debitur
dengan data campuran numerik dan kategorikal menggunakan algoritma
ECODB. Penelitian ini menggunakan data debitur dari BPR XYZ sebagai
bahan studi kasus. Dengan melakukan pendeteksian outlier pada data tersebut,
dapat diketahui outlier pada suatu kumpulan data yang mempunyai classs label.
Penelitian dilakukan dengan cara menghitung data debitur BPR XYZ
bulan Agustus 2013 berdasarkan teori algoritma ECODB dengan menggunakan
Microsoft Excel. Perhitungan akan dilakukan dengan masukan k dan top N
yang berbeda. Kemudian hasil perhitungan tersebut akan dibandingkan untuk
mendapatkan kesimpulan dan dilakukan review hasil deteksi outlier oleh
petugas bank.
Hasil penelitian ini diharapkan dapat memberi gambaran apakah
algoritma ECODB dapat digunakan untuk mendeteksi outlier pada data debitur
dengan atribut campuran numerik dan kategorikal dengan kasus data debitur
BPR XYZ dan bagaimana pengaruh nilai k dan top N dalam proses deteksi
outlier menggunakan algoritma ECODB. Setelah outlier dideteksi, pihak bank
dapat menganalisa data dan outlier untuk menemukan faktor tertentu yang
berpengaruh pada keunikan data debitur tersebut.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
20
B. Instrumen Penelitian
Instrumen yang digunakan untuk melakukan penelitian ini adalah
sebagai berikut :
1. Microsoft Excel
Microsoft Excel digunakan untuk menghitung dan menganalisa
hasil penambangan data menggunakan algoritma ECODB. Data
akan mengalami pemrosesan awal dahulu kemudian akan dihitung
menggunakan algoritma ECODB. Rumus – rumus perhitungan
pada algoritma ECODB akan diterapkan dalam bentuk formula di
Microsoft Excel. Perhitungan akan dilakukan dengan masukan k
dan top N yang berbeda.
2. Grafik
Grafik digunakan untuk melihat persebaran dari hasil perhitungan
dengan masukan k dan top N yang berbeda. Dengan
memperhatikan grafik, maka dapat diambil kesimpulan tentang
pengaruh nilai nilai k dan top N dalam mendeteksi outlier
mengunakan algoritma ECODB.
C. Teknik Pengumpulan Data
Data yang digunakan dalam penelitian ini adalah data debitur yang
mengangsur kredit di BPR XYZ bulan Agustus 2013 sebanyak 97 data record.
Data tersebut dalam format Microsoft Excel (.xls). Data ini diperoleh setelah
mendapat ijin pengambilan dan penggunaan data untuk penelitian dari Kepala
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
21
Humas BPR XYZ. Data tersebut terdiri dari 33 atribut seperti dalam tabel
berikut :
Tabel 3.1 Atribut – atribut pada dataset debitur
Atribut Keterangan
NOREK
NOPK
NAMA
KODE_PEKER
J_USAHA
NAMAIBU
ALAMAT1
T_LAHIR
TGL_LAHIR
UMUR
IDENTITAS
NAMA_KTR
KODE_POS
JW
NOM_PINJ
SB
No rekening debitur di bank
No peminjaman debitur di bank.
Nama lengkap dari debitur.
Kode pekerjaan atau jenis usaha yang dilakukan
debitur
Jenis usaha atau pekerjaan yang dilakukan debitur.
Nama gadis ibu kandung debitur.
Alamat lengkap yang ditinggali debitur.
Tempat lahir debitur.
Tanggal lahir debitur.
Umur debitur ketika melakukan
peminjaman/kredit.
Nomor KTP debitur.
Nama kantor/tempat debitur bekerja.
Kode pos tempat tinggal debitur.
Jangka waktu peminjaman kredit yang dipilih
debitur.
Nominal/jumlah kredit yang diajukan debitur.
Jumlah suku bunga yang diterima debitur.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
22
JAMINAN
NJOP_NT
PINJ_KE
TUNG_POK
TUNG_BNG
TUNG_POKOK
TUNG_BUNGA
POKOK_BLN
BUNGA_BLN
GAJI/PENDAPATAN
JML_TANGGUNGAN
UANG _DIBAWA
STATUS_PINJAMAN
JML_SETORAN/BULAN
Jaminan yang digunakan debitur untuk
mengajukan kredit.
Nilai barang yang dijadikan jaminan oleh debitur.
Jumlah berapa kali debitur melakukan peminjaman
di BPR XYZ.
Jumlah berapa kali debitur menunggak
mengangsur kredit.
Jumlah berapa kali debitur menunggak
mengangsur bunga.
Jumlah total kredit yang ditunggak oleh debitur.
Jumlah total bunga yang ditunggak oleh debitur.
Jumlah kredit yang harus diangsur debitur tiap
bulan.
Jumlah bunga yang harus diangsur debitur tiap
bulan.
Gaji atau pendapatan debitur tiap bulan.
Jumlah anggota keluarga yang ditanggung debitur.
Jumlah uang yang dibawa pulang debitur.
Keterangan apakah debitur saat mengajukan kredit
telah melakukan peminjaman kredit di bank lain
atau tidak.
Jumlah setoran yang harus diangsur debitur di
bank lain tiap bulan.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
23
KOLBI1 Status peminjaman debitur baik atau bermasalah.
D. Teknik Pengolahan Data
Sampel data debitur akan diproses terlebih dahulu dengan teknik
transformasi data (data transformation), pembersihan data (data cleaning), dan
reduksi data (data reduction) untuk mengatasi missing value, noisy, data yang
tidak konsisten, dan pemilihan atribut yang digunakan. Selanjutnya data akan
dihitung berdasarkan teori algoritma ECODB dengan menerapkan rumus
perhitungan pada formula Microsoft Excel. Perhitungan akan dilakukan dengan
masukan k dan top N yang berbeda.
Kemudian hasil perhitungan tersebut akan dibandingkan dan
dilakukan review hasil deteksi outlier oleh petugas bank untuk mengetahui
kebenaran data yang dianggap mempunyai derajat tinggi sebagai outlier. Untuk
membandingkan hasil deteksi outlier menggunakan algoritma ECODB, data
hasil perhitungan akan ditampilkan dalam bentuk grafik. Grafik digunakan
untuk melihat persebaran dari hasil perhitungan masukan k dan top N yang
berbeda. Dengan memperhatikan grafik, maka dapat diambil kesimpulan
tentang pengaruh nilai nilai k dan top N dalam mendeteksi outlier mengunakan
algoritma ECODB.
E. Tahap – Tahap Penelitian
Langkah – langkah yang akan dilakukan untuk melakukan penelitian
adalah sebagai berikut :
1. Studi kepustakaan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
24
Studi kepustakaan melalui berbagai sumber yang mampu
dipertanggungjawabkan seperti buku, jurnal, makalah dan paper
seminar untuk mendapatkan teori mengenai penambangan data,
outlier, dan algoritma ECODB (Enhanced Class Outlier Distance
Based).
2. Pengumpulan Data
Pengumpulan data sekunder berupa data debitur BPR XYZ bulan
Agustus 2013 sebanyak 97 record.
3. Penerapan algoritma ECODB
Mendeteksi outlier pada data debitur BPR XYZ bulan Agustus
2013 berdasarkan teori algoritma ECODB menggunakan
Microsoft Excel. Perhitungan akan dilakukan dengan masukan k
dan top N yang berbeda.
5. Analisa hasil perhitungan
Membandingkan hasil perhitungan dengan masukan k dan top N
yang berbeda – beda untuk mendapatkan kesimpulan dan
melakukan review hasil deteksi outlier oleh petugas bank. Review
hasil deteksi outlier perlu dilakukan untuk mengetahui kebenaran
data yang dianggap mempunyai derajat tinggi sebagai outlier.
6. Pengambilan kesimpulan
Pengambilan kesimpulan berdasarkan hasil yang diperoleh dari
langkah – langkah sebelumnya.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
25
F. Contoh Perhitungan Algoritma ECODB
Berikut contoh perhitungan berdasarkan algoritma ECODB secara
manual. Misalkan ada dataset debitur berjumlah 13 record dengan atribut
KODE_PEKER, UMUR, NOM_PINJ, SB, JW, JAMINAN, NJOP_NT,
PINJ_KE, TUNG_POK, TUNG_BNG, TUNG_POKOK, TUNG_BUNGA,
POKOK_BLN, BUNGA_BLN, GAJI/PENDAPATAN,
JML_TANGGUNGAN, UANG _DIBAWA, STATUS_PINJAMAN,
JML_SETORAN/BULAN, dan STATUS sebagai berikut :
Gambar 3.1 Contoh dataset debitur
Pertama, tiap atribut bertipe numerik dinormalisasikan dengan range 0
- 1. Hasil normalisasi dapat dilihat pada gambar 3.2. Atribut bertipe kategorikal
adalah KODE_PEKER, JAMINAN, dan STATUS_ PINJAMAN.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
26
Gambar 3.2 Data debitur yang telah dinormalisasi
Kemudian dicari jarak dari setiap instance dengan menggunakan
fungsi jarak Mixed Euclidian Distance. Pada fungsi ini setiap instance bertipe
kategorikal akan diberi nilai 0 jika mempunyai kategori yang sama dan diberi
nilai 1 jika mempunyai kategori yang berbeda, sedangkan atribut numerik akan
dihitung menggunakan rumus :
(3.5)
Gambar 3.3 Perhitungan jarak setiap instance dari data debitur
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
27
Setelah menghitung jarak dari setiap instance, tahap selanjutnya
adalah mencari k tetangga terdekat, dengan asumsi k = 7. K melambangkan
jangkauan suatu instance terhadap tetangganya. Maka, dicari 7 tetangga
terdekat dari setiap instance.
Gambar 3.4 Tujuh tetangga terdekat dari tiap instance
Selanjutnya mencari nilai PCL dari tiap instance. PCL adalah nilai
probabilitas class label dari instance T dengan class label dari k tetangga
terdekat. PCL dihitung dengan cara membagi jumlah tetangga terdekat instance
T yang mempunyai class label yang sama (termasuk instance T sendiri)
dengan nilai k. Misalkan ada 7 tetangga terdekat dari instance T (termasuk
dirinya) dari sebuah dataset dengan class label x dan y, dimana 5 dari tetangga
terdekat mempunyai class label x dan sisanya mempunyai class label y.
Instance T dengan class label y mempunyai nilai PCL 2/7. Class label yang
digunakan adalah nilai/isi dari atribut STATUS.
Tabel 3.2 Hasil perhitungan PCL tiap instance
PCL PCL/7 Dev v'Dev Kdist v'Kdist COF
1 7 1.00
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
28
2 7 1.00
3 7 1.00
4 7 1.00
5 7 1.00
6 2 0.29
7 2 0.29
8 3 0.43
9 3 0.43
10 3 0.43
11 5 0.71
12 7 1.00
13 5 0.71
Kemudian meranking list top N dari instance dengan nilai PCL
terkecil. Misalkan top N = 5, maka dicari 5 instance dengan nilai PCL terkecil.
Ranking top N dapat dilihat pada tabel 3.3. Instance yang di-bold adalah
instance dengan nilai PCL terkecil. Selanjutnya mencari nilai Deviation(T) dan
KDist(T) dari instance pada top N berdasarkan rumus (2.4) dan (3.5).
Tabel 3.3 Hasil perhitungan Deviation dan KDist dari tiap instance
PCL PCL/7 Dev v'Dev Kdist v'Kdist COF
1 7 1.00 13.55 0.90 11.31 0.77
2 7 1.00 13.32 0.89 11.17 0.73
3 7 1.00 12.90 0.86 10.38 0.47
4 7 1.00 14.19 0.95 11.60 0.87
5 7 1.00 13.66 0.91 10.97 0.66
6 2 0.29 0.50 0.00 10.53 0.52
7 2 0.29 0.50 0.00 9.81 0.28
8 3 0.43 0.77 0.02 8.96 0.01
9 3 0.43 0.76 0.02 8.93 0.00
10 3 0.43 1.48 0.07 8.95 0.01
11 5 0.71 14.70 0.98 11.35 0.78
12 7 1.00 14.32 0.95 11.74 0.91
13 5 0.71 14.98 1.00 12.01 1.00
Setelah menghitung nilai Deviation dan KDist dari tiap instance pada
top N, tahap selanjutnya adalah menghitung COF (Class Outlier Factor) dari
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
29
instance pada top N berdasarkan rumus (2.4). Kemudian meranking tiap
instance pada list top N berdasarkan nilai COF terkecil.
Tabel 3.4 Hasil perhitungan COF dari tiap instance
PCL PCL/7 Dev v'Dev Kdist v'Kdist COF
7 2.00 0.29 0.50 0.00 9.81 0.28 2.28
6 2.00 0.29 0.50 0.00 10.53 0.52 2.52
10 3.00 0.43 1.48 0.07 8.95 0.01 2.94
9 3.00 0.43 0.76 0.02 8.93 0.00 2.98
8 3.00 0.43 0.77 0.02 8.96 0.01 2.99
11 5.00 0.71 14.70 0.98 11.35 0.78 4.80
13 5.00 0.71 14.98 1.00 12.01 1.00 5.00
3 7.00 1.00 12.90 0.86 10.38 0.47 6.61
5 7.00 1.00 13.66 0.91 10.97 0.66 6.75
2 7.00 1.00 13.32 0.89 11.17 0.73 6.84
1 7.00 1.00 13.55 0.90 11.31 0.77 6.87
4 7.00 1.00 14.19 0.95 11.60 0.87 6.92
12 7.00 1.00 14.32 0.95 11.74 0.91 6.96
Dari tabel di 3.4, ditemukan instance yang menjadi outlier yaitu
instance nomor 7, 6, 10, 9, dan 8. Dimana nasabah no. 7 dan 6 meminjam
dengan jumlah cukup besar (dibandingkan dengan tetangga terdekatnya) dan
menunggak sebanyak 6 kali. Sedangkan nasabah no. 10, 9, dan 8 mempunyai
jumlah pinjaman yang terkecil tetapi mempunyai tunggakan sebanyak 4 – 5
kali.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
30
BAB IV
HASIL DAN PEMBAHASAN
A. Sumber Data
Sumber data dalam penelitian ini adalah data debitur BPR XYZ
bulan Agustus 2013 sebanyak 97 data record. Data tersebut dalam format
Microsoft Excel (.xls). Data ini diperoleh setelah mendapat ijin pengambilan
dan penggunaan data untuk penelitian dari Kepala Humas BPR XYZ. Data
tersebut terdiri dari 32 atribut seperti dalam tabel 3.1.
Data debitur tersebut akan dihitung menggunakan algoritma ECODB
untuk mendeteksi outlier yang terdapat pada data tersebut. Setelah outlier
dideteksi, pihak bank dapat menganalisa data dan outlier untuk menemukan
faktor tertentu yang berpengaruh pada keunikan data debitur tersebut.
Sebelum ditambang, data akan akan mengalami pemrosesan awal terlebih
dahulu untuk menghasilkan data dengan kualitas yang baik untuk diolah.
B. Pemrosesan Awal Data
1. Seleksi Data
Tahap pertama yang dilakukan adalah seleksi atribut yang akan
digunakan dalam penambangan data. Seleksi ini dilakukan untuk
mendapatkan atribut-atribut dengan nilai yang relevan terhadap proses
deteksi outlier sehingga atribut-atribut yang dianggap berisi nilai yang
tidak relevan tidak lagi disertakan dalam dataset. Berdasarkan tabel 3.1,
diketahui terdapat sebanyak 32 atribut terdapat pada dataset debitur, yaitu
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
31
NOREK, NOPK, NAMA, KODE_PEKER, J_USAHA, NAMAIBU,
ALAMAT1, T_LAHIR, TGL_LAHIR, UMUR, IDENTITAS,
NAMA_KTR, KODE_POS, JW, NOM_PINJ, SB, JAMINAN, NJOP_NT,
PINJ_KE, TUNG_POK, TUNG_BNG, TUNG_POKOK,
TUNG_BUNGA, POKOK_BLN, BUNGA_BLN, GAJI/PENDAPATAN,
JML_TANGGUNGAN,STATUS_PINJAMAN,JML_SETORAN/BULAN
dan KOLBI1.
Atribut NOREK, NOPK, NAMA, NAMAIBU, ALAMAT1,
T_LAHIR, IDENTITAS, NAMA_KTR dan KODE_POS tidak digunakan
karena dianggap tidak relevan jika digunakan pada proses deteksi outlier.
Hal ini berdasarkan keterangan atribut pada tabel 3.1.
Atribut J_USAHA dan TGL_LAHIR juga tidak digunakan.
Atribut – atribut tersebut cukup relevan jika digunakan. Tetapi nilai dari
atribut tersebut dapat digantikan dengan atribut lainnya dengan nilai yang
mirip atau sama maka atribut – atribut tersebut tidak digunakan dalam
penelitian. J_USAHA diganti dengan KODE_PEKER dan atribut
TGL_LAHIR diganti dengan UMUR sehingga data tersebut tidak
kompleks lagi dan juga mempunyai kualitas informasi yang baik untuk
ditambang.
Atribut – atribut yang tersisa adalah KODE_PEKER, UMUR
NOM_PINJ, SB, JW, JAMINAN, NJOP_NT, PINJ_KE, TUNG_POK,
TUNG_BNG, TUNG_POKOK, TUNG_BUNGA, POKOK_BLN,
BUNGA_BLN, GAJI/PENDAPATAN, JML_TANGGUNGAN, UANG
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
32
_DIBAWA, STATUS_PINJAMAN, JML_SETORAN/BULAN, dan
KOLBI1. Hasil seleksi atribut dapat dilihat di lampiran 2.
Hasil yang di peroleh dari tahap seleksi atribut telah
menghasilkan sejumlah 20 atribut dan 97 instances. Berikut ini beberapa
keterangan yang berkaitan dengan atribut – atribut terpilih, yaitu :
a. KODE_PEKER
Atribut ini berisi kode pekerjaan berdasarkan jenis usaha yang
dijalankan debitur. Kode pekerjaan tersebut adalah 010 dan
014. Atribut ini bertipe kategorikal.
b. UMUR
Atribut ini berisi umur dari tiap debitur ketika mengajukan
kredit. Dalam atribut ini diketahui debitur paling muda berusia
18 tahun dan debitur paling tua berusia 63 tahun. Rata – rata
umur debitur ketika mengajukan kredit adalah 44, 5 tahun.
Atribut ini bertipe numerik.
c. NOM_PINJ
Atribut ini berisi jumlah pinjaman kredit yang diajukan debitur
dan telah disetujui oleh bank/kreditur. Nominal pinjaman
ditetapkan dalam rupiah (Rp). Atribut ini bertipe numerik.
d. SB
Atribut ini berisi jumlah suku bunga yang diterima debitur.
Suku bunga ditetapkan dalam bentuk persen (%).Atribut ini
bertipe numerik.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
33
e. JW
Atribut ini berisi jangka waktu kredit yang diajukan nasabah.
Jangka waktu kredit ditetapkan dalam waktu tertentu selama
beberapa bulan. Atribut ini bertipe numerik.
f. JAMINAN
Atribut ini berisi bentuk jaminan yang diberikan debitur
sebagai salah satu syarat pengajuan kredit. Bentuk – bentuk
jaminan tersebut adalah BPKB, GAJI, SERTIFIKAT, dan
TANAH. Atribut ini bertipe kategorikal.
g. NJOP_NT
Atribut ini berisi nilai/harga jaminan yang dipunyai debitur
berdasarkan hasil perkiraan bank. Nominal nilai jaminan
ditetapkan dalam rupiah (Rp). Atribut ini bertipe numerik.
h. PINJ_KE
Atribut ini berisi keterangan sejumlah berapa kali debitur
pernah mengajukan kredit di BPR Shinta Bhakti Wedi. Atribut
ini umumnya digunakan untuk mengetahui reputasi pengajuan
kredit debitur, khususnya selama mengajukan kredit di BPR
Shinta Bhakti Wedi. Atribut ini bertipe numerik.
i. TUNG_POK
Atribut ini berisi keterangan berapa kali debitur menunggak
mengangsur kredit. Atribut ini bertipe numerik.
j. TUNG_BNG
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
34
Atribut ini berisi keterangan berapa kali debitur menunggak
mengangsur bunga. Atribut ini bertipe numerik.
k. TUNG_POKOK
Atribut ini berisi jumlah total kredit yang ditunggak oleh
debitur. Atribut ini bertipe numerik.
l. TUNG_BUNGA
Atribut ini berisi jumlah total bunga yang ditunggak oleh
debitur. Atribut ini bertipe numerik.
m. GAJI/PENDAPATAN
Atribut ini berisi jumlah gaji atau pendapatan debitur tiap
bulan. Atribut ini bertipe numerik.
n. JML_TANGGUNGAN
Atribut ini berisi jumlah anggota keluarga yang ditanggung
oleh debitur. Atribut ini bertipe numerik.
o. UANG_DIBAWA
Atribut ini berisi jumlah nominal uang yang dibawa
pulang/diperoleh debitur setiap bulannya. Atribut ini bertipe
numerik.
p. STATUS_PINJAMAN
Atribut ini berisi keterangan apakah debitur saat mengajukan
kredit telah melakukan peminjaman kredit di bank lain atau
tidak. Atribut ini bertipe kategorikal.
q. JML_SETORAN/BULAN
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
35
Atribut ini berisi besar jumlah setoran yang harus diangsur
debitur di bank lain setiap bulannya (jika debitur saat
mengajukan kredit telah melakukan peminjaman kredit di bank
lain). Atribut ini bertipe numerik.
r. POKOK_BLN
Atribut ini berisi jumlah kredit yang harus diangsur debitur
setiap bulan. Atribut ini bertipe numerik.
s. BUNGA_BLN
Atribut ini berisi jumlah bunga yang harus diangsur debitur
setiap bulan. Atribut ini bertipe numerik.
t. KOLBI1
Atribut ini adalah atribut yang digunakan untuk menyatakan
status kredit debitur. Dimana nilai 1 berarti debitur
mengangsur dengan baik (lancar), 2 berarti debitur sedikit
tersendat dalam mengangsur (kurang lancar), 3 berarti debitur
cukup tersendat dalam mengangsur kredit (diragukan), dan 4
berarti debitur berhenti mengangsur (macet). Atribut ini
merupakan class label pada data debitur tersebut.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
36
Gambar 4.1 Atribut pada data debitur setelah tahap seleksi data
2. Pengisian Missing Value
Di dalam dataset debitur yang telah mengalami seleksi atribut
terdapat missing value pada kolom GAJI/PENDAPATAN,
JML_TANGGUNGAN, UANG _DIBAWA, STATUS_PINJAMAN,
JML_SETORAN/BULAN, baris 1, 18, 37, 38, 42, 50, dan 96. Untuk
mengatasi hal ini, kolom yang kosong akan diisi dengan means untuk data
dengan atribut numerik dan diisi dengan mode untuk data dengan atribut
kategorikal (Hewahi dan M. K. Saad, 2007). Hasil pengisian missing value
dapat dilihat di lampiran 3.
Gambar 4.2 Isi data debitur setelah tahap pengisian missing value
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
37
3. Normalisasi Data
Setelah mengisi missing value secara manual dengan teknik
means dan mode, dilakukan proses normalisasi atribut. Proses ini
dilakukan karena adanya perbedaan range nilai dari tiap – tiap atribut
sehingga perlu dilakukan normalisasi agar data memiliki nilai yang
tepat dan sama untuk ditambang. Atribut – atribut tersebut akan
dinormalisasi agar mempunyai range nilai 0 - 1. Hasil normalisasi dapat
dilihat di lampiran 4. Proses normalisasi menggunakan metode min-max
normalization sebagai berikut :
(4.6)
Dimana,
v’ : nilai yang sudah ternormalisasi
v : nilai lama yang belum ternormalisasi
min : nilai minimum dari suatu instance
max : nilai maksimum dari suatu instance
NewMax : nilai minimum baru dari suatu instance
NewMin : nilai maksimum baru dari suatu instance
Berikut contoh proses normalisasi data :
Tabel 4.1 Contoh atribut pada dataset debitur sebelum normalisasi
UMUR NOM_PINJ SB JW NJOP_NT POKOK_BLN BUNGA_BLN
39 30,000,000 11.4 50 3,344,778 600,000 285,000
50 15,000,000 7.2 60 3,229,280 250,000 90,000
52 27,000,000 9.6 40 4,110,556 675,000 216,000
49 21,000,000 9.6 60 3,827,169 350,000 168,000
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
38
49 30,000,000 9.6 60 3,803,224 500,000 240,000
47 30,000,000 9.6 60 3,984,900 500,000 240,000
51 21,000,000 9.6 50 3,819,900 420,000 168,000
Tabel 4.2 Contoh atribut pada dataset debitur setelah normalisasi
v'umur v'nom_pinj v'sb v'jw v'njop_nt v'pokok_bln v'bunga_bln
0.00 1.00 1.00 0.50 0.13 0.77 1.00
0.85 0.00 0.00 1.00 0.00 -0.31 0.00
1.00 0.80 0.57 0.00 1.00 1.00 0.65
0.77 0.40 0.57 1.00 0.68 0.00 0.40
0.77 1.00 0.57 1.00 0.65 0.46 0.77
0.62 1.00 0.57 1.00 0.86 0.46 0.77
0.92 0.40 0.57 0.50 0.67 0.22 0.40
C. Penambangan Data Dengan Microsoft Excel
Data yang telah mengalami pemrosesan akan ditambang berdasarkan
algoritma ECODB. Penambangan data menggunakan Microsoft Excel. Rumus
algoritma ECODB akan diterapkan dalam bentuk formula Microsoft Excel.
1. Menormalisasi Data
Sebelum ditambang, data yang telah mengalami pemrosesan awal
akan dinormalisasi terlebih dahulu. Proses normalisasi ini dilakukan
dengan tujuan membuat data memiliki nilai yang tepat dan sama untuk
ditambang. Atribut – atribut tersebut akan dinormalisasi agar mempunyai
range nilai 0 – 1. Proses normalisasi menggunakan metode min-max
normalization seperti pada rumus (4.6). Formula normalisasi dalam
Microsoft Excel adalah sebagai berikut :
=(cell1-min(cell))/(max(cell)-min(cell))*(1-0)+0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
39
Gambar 4.3 Contoh formula normalisasi data
2. Mencari Jarak Dari Tiap Data Dengan Menggunakan Fungsi Jarak
Mixed Euclidian Distance
Setelah menormalisasi data, dicari jarak dari tiap data dengan
menggunakan fungsi jarak mixed euclidian distance. Pada fungsi ini setiap
instance bertipe kategorikal akan diberi nilai 0 jika mempunyai kategori
yang sama dan diberi nilai 1 jika mempunyai kategori yang berbeda,
sedangkan atribut numerik akan dihitung berdasarkan rumus (5). Formula
mencari jarak dalam Microsoft Excel adalah sebagai berikut :
=SQRT((IF(cell1=cell2,0,1))^2+(cell3-cell4)^2+(cell5-
cell6)^2+(cell7-cell8)^2+(cell9-
cell10)^2+(IF(cell11=cell12,0,1))^2+(cell13-cell14)^2+
(cell15-cell16)^2+(cell17-cell18)^2+(cell19-cell20)^2+
(cell21-cell22)^2+(cell23-cell24)^2+(cell25-cell26)^2+
(cell27-cell28)^2+(cell29-cell30)^2+(cell31-cell32)^2+
(cell33-cell34)^2+(IF(cell35=cell36,0,1))^2+(cell37-cell38)^2)
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
40
Gambar 4.4 Contoh formula mencari jarak
3. Menghitung PCL
PCL(Probability of Class Label) adalah nilai
probabilitas/banyaknya kemunculan class label yang sama dengan
instance T dibandingkan k tetangga terdekatnya. PCL dihitung dengan
cara membagi jumlah tetangga terdekat instance T yang mempunyai class
label yang sama (termasuk instance T sendiri) dengan nilai k. Formula
menghitung PCL dalam Microsoft Excel adalah sebagai berikut :
=cell1/k
Gambar 4.5 Contoh formula menghitung PCL
4. Meranking List Top N Outlier Dari Instance Dengan Nilai PCL(T,K)
Terkecil
Setelah menghitung nilai PCL, data diranking secara kecil ke
besar berdasarkan nilai PCL(T,K) terkecil sesuai dengan masukan top N.
Top N adalah jumlah instances yang dideteksi sebagai outlier yang
diurutkan secara kecil ke besar. Misalkan masukan top N = 10, maka akan
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
41
diranking 10 instance dengan nilai PCL(T,K) terkecil. Untuk meranking
instance, digunakan fitur Sort & Filter dalam Microsoft Excel.
Gambar 4.6 Contoh meranking kecil ke besar berdasarkan nilai PCL(T,K)
terkecil
5. Menghitung Nilai Deviation(T)¸ Norm(Deviation(T)), Kdist(T), Dan
Norm(Kdist(T))
Kemudian instance yang berada di top N dihitung nilai
Deviation(T)¸ Norm(Deviation(T)), Kdist(T), dan Norm(Kdist(T))
berdasarkan rumus (2.1), (2.2), dan (2.3). Deviation(T) adalah seberapa
besar nilai instance T yang menyimpang dari subset DCL. KDist adalah
jarak antara instance T pada dataset D dengan K tetangga terdekat,
seberapa dekat nilai K instance tetangga terdekat dengan instance T.
Sedangkan Norm(Deviation(T)) adalah nilai deviation yang sudah
ternormalisasi dan Norm(KDist(T)) adalah nilai KDist yang sudah
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
42
ternormalisasi. Formula menghitung Deviation(T)¸ Norm(Deviation(T)),
Kdist(T), dan Norm(Kdist(T)) dalam Microsoft Excel adalah sebagai
berikut :
a. Mencari Deviation
=cell1+cell2+cell3+...+celln
Gambar 4.7 Contoh formula menghitung Deviation
b. Mencari Norm(Deviation(T))
=(cell1-min(cell))/(max(cell)-min(cell))
Gambar 4.8 Contoh formula menghitung Norm(Deviation(T))
c. Mencari Kdist
= cell1+cell2+cell3+...+celln
Gambar 4.9 Contoh formula menghitung Kdist
d. Mencari Norm(KDist(T))
=(cell1-min(cell))/(max(cell)-min(cell))
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
43
Gambar 4.10 Contoh formula menghitung Norm(KDist(T))
6. Menghitung Nilai COF (Class Outlier Factor)
Tahap selanjutnya adalah menghitung COF (Class Outlier
Factor) dari setiap instance yang berada di list top N. COF adalah derajat
dari suatu instance T untuk dikategorikan sebagai outlier. COF dihitung
berdasarkan rumus (2.4). Formula menghitung COF dalam Microsoft
Excel adalah sebagai berikut :
=k*cell1-cell2+cell3
Gambar 4.11 Contoh formula menghitung COF (Class Outlier Factor)
7. Mengurutkan List Top N Secara Kecil Ke Besar Sesuai Nilai COF
Tahap terakhir adalah mengurutkan list top N secara kecil ke besar sesuai
nilai COF. Misalkan masukan top N = 10, maka akan diranking 10
instance dengan nilai COF terkecil. Untuk meranking instance, digunakan
fitur Sort & Filter dalam Microsoft Excel.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
44
Gambar 4.12 Contoh meranking kecil ke besar berdasarkan nilai COF terkecil
D. Hasil Deteksi Outlier Berdasarkan Algoritma ECODB Dengan Microsoft
Excel
Hasil deteksi outlier berdasarkan algoritma ECODB menggunakan
Microsoft Excel dengan masukan k dan top N yang berubah – ubah dapat
ditampilkan dalam bentuk tabel – tabel di bawah. Dimana k adalah jumlah
tetangga terdekat dari suatu instances, sedangkan top N adalah jumlah
instances yang dideteksi sebagai outlier yang diurutkan secara kecil ke besar
berdasarkan nilai COF (Class Outlier Factor). COF adalah nilai
probabilitas/derajat sebuah instance dapat menjadi outlier. Outlier adalah data
dengan nilai COF terendah. Class outlier adalah instances yang mempunyai
derajat tinggi sebagai outlier. Jumlah class outlier ditentukan berdasarkan
masukan top N, jika top N = 10 maka akan ada 10 instances yang yang
mempunyai derajat tinggi sebagai outlier.
Tabel 4.3 Hasil deteksi outlier dengan masukan k dan top N yang berubah – ubah
k Top N Min COF
7 10 36, 92, 53, 96, 39, 64, 56, 24, 23, 37
20 36, 92, 53, 96, 65, 39, 64, 73, 97, 56, 24, 23, 88, 69,
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
45
87, 37, 27, 26, 25, 38
30
36, 92, 53, 96, 65, 39, 64, 73, 97, 56, 24, 23, 88, 69,
87, 37, 90, 27, 26, 25, 38, 55, 84, 63, 83, 15,, 70,
41, 1, 42
40
36, 92, 53, 96, 65, 39, 64, 73, 97, 56, 24, 23, 88, 69,
87, 37, 90, 27, 26, 25, 38, 55, 84, 63, 83, 15, 70, 41,
1, 42, 13, 46, 14, 33, 45, 60, 30, 44, 49, 32
50
36, 39, 53, 92, 96, 23, 24, 37, 56, 64, 65, 69, 73, 87,
88, 97, 25, 26, 27, 38, 55, 90, 42, 1, 15, 41, 63,70,
83,84, 13, 14, 30, 32, 33, 44, 45, 46, 49, 60, 61, 77,
80, 81, 82, 91, 94, 95, 2, 3
17
10 36,53, 39, 73, 64, 24, 56, 23, 69, 37
20 36, 53, 39, 92, 73, 64, 94, 97, 24, 56, 88, 23, 69, 87,
37, 96, 38, 55, 25, 26
30
36, 53, 39, 92, 73, 64, 94, 97, 24, 56, 88, 23, 69, 87,
37, 96, 38, 55, 27, 25, 26, 42, 65, 90, 17, 18, 13, 15,
11, 14
40
36, 53, 39, 92, 73, 64, 94, 97, 24, 56, 88, 23, 69, 87,
37, 96, 38, 55, 27, 25, 26, 42, 65, 90, 17, 18, 13, 15,
82, 70, 11, 14, 80, 19, 45, 12, 41, 16, 75, 1
50
36, 53, 39, 92, 73, 64, 94, 97, 24, 56, 88, 23, 69, 87,
37, 96, 38, 55, 27, 25, 26, 42, 65, 90, 17, 18, 13, 15,
82, 70, 11, 14, 80, 19, 45, 12, 41, 16, 75, 1, 83, 50,
81, 31, 52, 34, 84, 28, 29, 35
27
10 36, 53, 92, 64, 73, 94, 97, 24, 37, 39
20 36, 53, 92, 64, 73, 94, 97, 24, 37, 39, 88, 23, 69, 87,
96, 38, 55, 25, 26, 42
30
36, 53, 92, 64, 73, 94, 97, 24, 37, 39, 88, 23, 69, 87,
96, 38, 55, 56, 25, 26, 42, 27, 65, 90, 17, 11, 13, 14,
15, 16
40
36, 53, 92, 64, 73, 94, 97, 24, 37, 39, 88, 23, 69, 87,
96, 38, 55, 56, 25, 26, 42, 27, 65, 90, 17, 11, 18,
13, 14, 15, 16, 91, 8, 70, 19, 10, 2, 28, 12, 1
50
36, 53, 92, 64, 73, 94, 97, 24, 37, 39, 88, 23, 69, 87,
96, 38, 55, 56, 25, 26, 42, 27, 65, 90, 17, 11, 18, 13,
14, 15, 16, 91, 8, 70, 19, 10, 2, 50, 63, 31, 34, 59,
41, 45, 48, 28, 29, 35, 12, 1
37
10 36, 53, 92, 64, 73, 94, 97, 24, 37, 39
20 36, 53, 92, 64, 73, 94, 97, 24, 37, 39, 88, 23, 69, 87,
96, 38, 55, 25, 26, 42
30
36, 53, 92, 64, 73, 94, 97, 24, 37, 39, 88, 23, 69, 87,
96, 38, 55, 56, 25, 26, 42, 27, 65, 90, 17, 11, 13, 14,
15, 16
40 36, 53, 92, 64, 73, 94, 97, 24, 37, 39, 88, 23, 69, 87,
96, 38, 55, 56, 25, 26, 42, 27, 65, 90, 17, 11, 18, 13,
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
46
14, 15, 16, 91, 8, 70, 19, 10, 2, 28, 12, 1
50
36, 53, 92, 64, 73, 94, 97, 24, 37, 39, 88, 23, 69, 87,
96, 38, 55, 56, 25, 26, 42, 27, 65, 90, 17, 11, 18, 13,
14, 15, 16, 91, 8, 70, 19, 10, 2, 50, 63, 31, 34, 59,
41, 45, 48, 28, 29, 35, 12, 1
47
10 94, 97, 36, 88, 37, 96, 53, 38, 39, 42
20 94, 97, 36, 88, 37, 96, 64, 53, 56, 69, 87, 38, 39, 42,
92, 73, 23, 24, 55, 25
30
94, 97, 36, 88, 37, 96, 64, 53, 56, 69, 87, 38, 39, 42,
92, 73, 23, 24, 55, 27, 25, 26, 65, 90, 45, 76, 80, 82,
91, 43
40
94, 97, 36, 88, 37, 96, 64, 53, 56, 69, 87, 38, 39, 42,
92, 73, 23, 24, 55, 27, 25, 26, 65, 90, 45, 76, 80, 82,
91, 43, 51, 83, 66, 70, 18, 14, 16, 3, 11, 12
50
94, 97, 36, 88, 37, 96, 64, 53, 56, 69, 87, 38, 39, 42,
92, 73, 23, 24, 55, 27, 25, 26, 65, 90, 45, 76, 80, 82,
91, 43, 51, 83, 66, 70, 18, 14, 16, 63, 71, 62, 34, 44,
49, 60, 35, 3, 17, 11, 12, 19
COF adalah nilai probabilitas/derajat sebuah instance dapat
menjadi outlier. Outlier adalah data dengan nilai COF terendah. Class outlier
adalah instances yang mempunyai derajat tinggi sebagai outlier. Untuk dapat
mengetahui pengaruh k dan top N dalam proses deteksi outlier menggunakan
algoritma ECODB, dapat dilihat dari perubahan nilai COF berdasarkan
masukan k dan top N yang berubah – ubah.
Karena nilai COF bergantung pada masukan top N, maka untuk
memudahkan perbandingan dari hasil deteksi, nilai COF ditampilkan dalam
bentuk rata – rata/means. Kolom min COF dan max COF dapat digunakan
untuk melihat seberapa jauh jarak nilai means terhadap min COF dan max
COF. Dari tabel 4.8, dapat dilihat bahwa semakin tinggi nilai masukan k dan
top N, maka semakin tinggi pula nilai COF.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
47
Tabel 4.4 Nilai rata – rata COF berdasarkan masukan k dan top N yang
berubah - ubah
k Top N Min
COF
Max
COF
Means
COF
7
10 0.99 2.84 1.77
20 0.99 3.14 2.06
30 0.99 4.81 2.78
40 0.99 5.55 3.445
50 0.99 6.22 3.89
17
10 2.39 5.7 4.15
20 2.39 9.95 5.6
30 2.39 33.62 12.69
40 2.39 35.93 18.31
50 2.39 38.43 21.89
27
10 3.82 8.56 6.8
20 3.82 16.31 10.13
30 3.82 84.47 31.71
40 3.82 92.06 46.02
50 3.82 92.15 55.23
37
10 10.53 16.39 14.01
20 10.53 26.66 18.51
30 10.53 163.44 59.07
40 10.53 168.64 85.81
50 10.53 168.72 102.38
47
10 13.53 27.73 22.53
20 13.53 33.78 26.44
30 13.53 254.62 93.35
40 13.53 261.42 135.35
50 13.53 268.13 161.76
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
48
COF adalah nilai probabilitas/derajat sebuah instance dapat menjadi
outlier. Outlier adalah data dengan nilai COF terendah. Nilai COF dan class
outlier dengan masukan k = 7 dan top N yang berubah – ubah dapat
ditampilkan dalam tabel sebagai berikut :
Tabel 4.5 Nilai COF dengan k = 7 dan top N = 10
# Class PCL COF
36 3 1 0.99
92 3 1 1.04
53 2 1 1.08
96 4 1 1.38
39 3 1 1.58
64 2 2 2.03
56 3 2 2.12
24 2 2 2.13
23 2 2 2.14
37 4 2 2.44
Tabel 4.6 Nilai COF dengan k = 7 dan top N = 20
# Class PCL COF
36 3 1 0.99
92 3 1 1.04
53 2 1 1.08
96 4 1 1.38
65 1 2 1.44
39 3 1 1.58
64 2 2 2.03
73 2 2 2.03
97 3 2 2.11
56 3 2 2.12
24 2 2 2.13
23 2 2 2.14
88 3 2 2.14
69 2 2 2.17
87 2 2 2.18
37 4 2 2.44
27 3 3 3.12
26 3 3 3.13
25 3 3 3.14
38 4 3 3.5
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
49
Tabel 4.7 Nilai COF dengan k = 7 dan top N = 30
# Class PCL COF
36 3 1 0.99
92 3 1 1.04
53 2 1 1.08
96 4 1 1.38
65 1 2 1.44
39 3 1 1.58
64 2 2 2.03
73 2 2 2.03
97 3 2 2.11
56 3 2 2.12
24 2 2 2.13
23 2 2 2.14
88 3 2 2.14
69 2 2 2.17
87 2 2 2.18
37 4 2 2.44
90 1 3 2.49
27 3 3 3.12
26 3 3 3.13
25 3 3 3.14
38 4 3 3.5
55 3 3 3.84
84 1 5 4.44
63 1 5 4.45
83 1 5 4.45
15 1 5 4.47
70 1 5 4.48
41 1 5 4.52
1 1 5 4.6
42 4 4 4.81
Tabel 4.8 Nilai COF dengan k = 7 dan top N = 40
# Class PCL COF
36 3 1 0.99
92 3 1 1.04
53 2 1 1.08
96 4 1 1.38
65 1 2 1.44
39 3 1 1.58
64 2 2 2.03
73 2 2 2.03
97 3 2 2.11
56 3 2 2.12
24 2 2 2.13
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
50
23 2 2 2.14
88 3 2 2.14
69 2 2 2.17
87 2 2 2.18
37 4 2 2.44
90 1 3 2.49
27 3 3 3.12
26 3 3 3.13
25 3 3 3.14
38 4 3 3.5
55 3 3 3.84
84 1 5 4.44
63 1 5 4.45
83 1 5 4.45
15 1 5 4.47
70 1 5 4.48
41 1 5 4.52
1 1 5 4.6
42 4 4 4.81
13 1 6 5.44
46 1 6 5.44
14 1 6 5.45
33 1 6 5.47
45 1 6 5.47
60 1 6 5.47
30 1 6 5.49
44 1 6 5.49
49 1 6 5.49
32 1 6 5.55
Tabel 4.9 Nilai COF dengan k = 7 dan top N = 50
# Class PCL COF
36 3 1 0.99
39 3 1 1.58
53 2 1 1.08
92 3 1 1.04
96 4 1 1.38
23 2 2 2.14
24 2 2 2.13
37 4 2 2.44
56 3 2 2.12
64 2 2 2.03
65 1 2 1.44
69 2 2 2.17
73 2 2 2.03
87 2 2 2.18
88 3 2 2.14
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
51
97 3 2 2.11
25 3 3 3.14
26 3 3 3.13
27 3 3 3.12
38 4 3 3.5
55 3 3 3.84
90 1 3 2.49
42 4 4 4.81
1 1 5 4.6
15 1 5 4.47
41 1 5 4.52
63 1 5 4.45
70 1 5 4.48
83 1 5 4.45
84 1 5 4.44
13 1 6 5.44
14 1 6 5.45
30 1 6 5.49
32 1 6 5.55
33 1 6 5.47
44 1 6 5.49
45 1 6 5.47
46 1 6 5.44
49 1 6 5.49
60 1 6 5.47
61 1 6 5.42
77 1 6 5.44
80 1 6 5.46
81 1 6 5.46
82 1 6 5.47
91 1 6 5.46
94 3 6 5.54
95 1 6 5.54
2 1 7 6.22
3 1 7 6.16
Nilai COF dengan masukan k = 17 dan top N yang berubah – ubah
dapat ditampikan dalam tabel sebagai berikut :
Tabel 4.10 Nilai COF dengan k = 17 dan top N = 10
# Class PCL COF
36 3 1 2.38
53 2 1 2.52
39 3 1 2.98
73 2 2 4.91
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
52
64 2 2 4.92
24 2 2 5.06
56 3 2 5.06
23 2 2 5.08
69 2 2 5.12
37 4 2 5.3
Tabel 4.11 Nilai COF dengan k = 17 dan top N = 20
# Class PCL COF
36 3 1 2.38
53 2 1 2.52
39 3 1 2.98
92 3 2 4.89
73 2 2 4.91
64 2 2 4.92
94 3 2 4.93
97 3 2 4.97
24 2 2 5.06
56 3 2 5.06
88 3 2 5.06
23 2 2 5.08
69 2 2 5.12
87 2 2 5.12
37 4 2 5.3
96 4 3 7.74
38 4 3 7.81
55 3 3 8.11
25 3 4 9.94
26 3 4 9.94
Tabel 4.12 Nilai COF dengan k = 17 dan top N = 30
# Class PCL COF
36 3 1 2.38
53 2 1 2.52
39 3 1 2.98
92 3 2 4.89
73 2 2 4.91
64 2 2 4.92
94 3 2 4.93
97 3 2 4.97
24 2 2 5.06
56 3 2 5.06
88 3 2 5.06
23 2 2 5.08
69 2 2 5.12
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
53
87 2 2 5.12
37 4 2 5.3
96 4 3 7.74
38 4 3 7.81
55 3 3 8.11
27 3 4 9.92
25 3 4 9.94
26 3 4 9.94
42 4 4 10.57
65 1 9 21.4
90 1 10 23.86
17 1 11 26.21
18 1 11 26.22
13 1 12 28.7
15 1 12 28.72
11 1 13 31.07
14 1 13 31.13
Tabel 4.13 Nilai COF dengan k = 17 dan top N = 40
# Class PCL COF
36 3 1 2.38
53 2 1 2.52
39 3 1 2.98
92 3 2 4.89
73 2 2 4.91
64 2 2 4.92
94 3 2 4.93
97 3 2 4.97
24 2 2 5.06
56 3 2 5.06
88 3 2 5.06
23 2 2 5.08
69 2 2 5.12
87 2 2 5.12
37 4 2 5.3
96 4 3 7.74
38 4 3 7.81
55 3 3 8.11
27 3 4 9.92
25 3 4 9.94
26 3 4 9.94
42 4 4 10.57
65 1 9 21.4
90 1 10 23.86
17 1 11 26.21
18 1 11 26.22
13 1 12 28.7
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
54
15 1 12 28.72
82 1 13 31.04
70 1 13 31.06
11 1 13 31.07
14 1 13 31.13
80 1 14 33.47
19 1 14 33.49
45 1 14 33.49
12 1 14 33.5
41 1 14 33.51
16 1 14 33.53
75 1 14 33.61
1 1 14 33.62
Tabel 4.14 Nilai COF dengan k = 17 dan top N = 50
# Class PCL COF
36 3 1 2.38
53 2 1 2.52
39 3 1 2.98
92 3 2 4.89
73 2 2 4.91
64 2 2 4.92
94 3 2 4.93
97 3 2 4.97
24 2 2 5.06
56 3 2 5.06
88 3 2 5.06
23 2 2 5.08
69 2 2 5.12
87 2 2 5.12
37 4 2 5.3
96 4 3 7.74
38 4 3 7.81
55 3 3 8.11
27 3 4 9.92
25 3 4 9.94
26 3 4 9.94
42 4 4 10.57
65 1 9 21.4
90 1 10 23.86
17 1 11 26.21
18 1 11 26.22
13 1 12 28.7
15 1 12 28.72
82 1 13 31.04
70 1 13 31.06
11 1 13 31.07
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
55
14 1 13 31.13
80 1 14 33.47
19 1 14 33.49
45 1 14 33.49
12 1 14 33.5
41 1 14 33.51
16 1 14 33.53
75 1 14 33.61
1 1 14 33.62
83 1 15 35.89
50 1 15 35.9
81 1 15 35.9
31 1 15 35.91
52 1 15 35.91
34 1 15 35.92
84 1 15 35.92
28 1 15 35.93
29 1 15 35.93
35 1 15 35.95
Dengan masukan k = 27 dan top N yang berubah – ubah, nilai COF
dapat ditampikan dalam tabel sebagai berikut :
Tabel 4.15 Nilai COF dengan k = 27 dan top N = 10
# Class PCL COF
36 3 1 3.81
53 2 1 3.97
92 3 2 7.76
64 2 2 7.79
73 2 2 7.79
94 3 2 7.79
97 3 2 7.83
24 2 2 7.94
37 4 2 8.14
39 3 2 8.26
Tabel 4.16 Nilai COF dengan k = 27 dan top N = 20
# Class PCL COF
36 3 1 3.81
53 2 1 3.97
92 3 2 7.76
64 2 2 7.79
73 2 2 7.79
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
56
94 3 2 7.79
97 3 2 7.83
24 2 2 7.94
37 4 2 8.14
39 3 2 8.26
88 3 3 11.77
23 2 3 11.81
69 2 3 11.84
87 2 3 11.85
96 4 3 12.03
38 4 3 12.09
55 3 3 12.4
25 3 4 15.67
26 3 4 15.67
42 4 4 16.31
Tabel 4.17 Nilai COF dengan k = 27 dan top N = 30
# Class PCL COF
36 3 1 3.81
53 2 1 3.97
92 3 2 7.76
64 2 2 7.79
73 2 2 7.79
94 3 2 7.79
97 3 2 7.83
24 2 2 7.94
37 4 2 8.14
39 3 2 8.26
88 3 3 11.77
23 2 3 11.81
69 2 3 11.84
87 2 3 11.85
96 4 3 12.03
38 4 3 12.09
55 3 3 12.4
56 3 4 15.63
25 3 4 15.67
26 3 4 15.67
42 4 4 16.31
27 3 5 19.51
65 1 17 65.13
90 1 19 72.86
17 1 21 80.56
11 1 21 80.57
13 1 21 80.6
14 1 21 80.61
15 1 21 80.61
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
57
16 1 21 80.61
Tabel 4.18 Nilai COF dengan k = 27 dan top N = 40
# Class PCL COF
36 3 1 3.81
53 2 1 3.97
92 3 2 7.76
64 2 2 7.79
73 2 2 7.79
94 3 2 7.79
97 3 2 7.83
24 2 2 7.94
37 4 2 8.14
39 3 2 8.26
88 3 3 11.77
23 2 3 11.81
69 2 3 11.84
87 2 3 11.85
96 4 3 12.03
38 4 3 12.09
55 3 3 12.4
56 3 4 15.63
25 3 4 15.67
26 3 4 15.67
42 4 4 16.31
27 3 5 19.51
65 1 17 65.13
90 1 19 72.86
17 1 21 80.56
11 1 21 80.57
18 1 21 80.57
13 1 21 80.6
14 1 21 80.61
15 1 21 80.61
16 1 21 80.61
91 1 22 84.35
8 1 22 84.36
70 1 22 84.36
19 1 22 84.42
10 1 23 87.91
2 1 23 88.19
28 1 23 88.23
12 1 23 88.28
1 1 23 88.35
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
58
Tabel 4.19 Nilai COF dengan k = 27 dan top N = 50
# Class PCL COF
36 3 1 3.81
53 2 1 3.97
92 3 2 7.76
64 2 2 7.79
73 2 2 7.79
94 3 2 7.79
97 3 2 7.83
24 2 2 7.94
37 4 2 8.14
39 3 2 8.26
88 3 3 11.77
23 2 3 11.81
69 2 3 11.84
87 2 3 11.85
96 4 3 12.03
38 4 3 12.09
55 3 3 12.4
56 3 4 15.63
25 3 4 15.67
26 3 4 15.67
42 4 4 16.31
27 3 5 19.51
65 1 17 65.13
90 1 19 72.86
17 1 21 80.56
11 1 21 80.57
18 1 21 80.57
13 1 21 80.6
14 1 21 80.61
15 1 21 80.61
16 1 21 80.61
91 1 22 84.35
8 1 22 84.36
70 1 22 84.36
19 1 22 84.42
10 1 23 87.91
2 1 23 88.19
50 1 23 88.19
63 1 23 88.19
31 1 23 88.21
34 1 23 88.21
59 1 23 88.21
41 1 23 88.22
45 1 23 88.22
48 1 23 88.22
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
59
28 1 23 88.23
29 1 23 88.23
35 1 23 88.24
12 1 23 88.28
1 1 23 88.35
Dengan masukan k = 37 dan top N yang berubah – ubah, nilai COF
dapat ditampikan dalam tabel sebagai berikut :
Tabel 4.20 Nilai COF dengan k = 37 dan top N = 10
# Class PCL COF
36 3 1 3.81
53 2 1 3.97
92 3 2 7.76
64 2 2 7.79
73 2 2 7.79
94 3 2 7.79
97 3 2 7.83
24 2 2 7.94
37 4 2 8.14
39 3 2 8.26
Tabel 4.21 Nilai COF dengan k = 37 dan top N = 20
# Class PCL COF
36 3 1 3.81
53 2 1 3.97
92 3 2 7.76
64 2 2 7.79
73 2 2 7.79
94 3 2 7.79
97 3 2 7.83
24 2 2 7.94
37 4 2 8.14
39 3 2 8.26
88 3 3 11.77
23 2 3 11.81
69 2 3 11.84
87 2 3 11.85
96 4 3 12.03
38 4 3 12.09
55 3 3 12.4
25 3 4 15.67
26 3 4 15.67
42 4 4 16.31
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
60
Tabel 4.22 Nilai COF dengan k = 37 dan top N = 30
# Class PCL COF
36 3 1 3.81
53 2 1 3.97
92 3 2 7.76
64 2 2 7.79
73 2 2 7.79
94 3 2 7.79
97 3 2 7.83
24 2 2 7.94
37 4 2 8.14
39 3 2 8.26
88 3 3 11.77
23 2 3 11.81
69 2 3 11.84
87 2 3 11.85
96 4 3 12.03
38 4 3 12.09
55 3 3 12.4
56 3 4 15.63
25 3 4 15.67
26 3 4 15.67
42 4 4 16.31
27 3 5 19.51
65 1 17 65.13
90 1 19 72.86
17 1 21 80.56
11 1 21 80.57
13 1 21 80.6
14 1 21 80.61
15 1 21 80.61
16 1 21 80.61
Tabel 4.23 Nilai COF dengan k = 37 dan top N = 40
# Class PCL COF
36 3 1 3.81
53 2 1 3.97
92 3 2 7.76
64 2 2 7.79
73 2 2 7.79
94 3 2 7.79
97 3 2 7.83
24 2 2 7.94
37 4 2 8.14
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
61
39 3 2 8.26
88 3 3 11.77
23 2 3 11.81
69 2 3 11.84
87 2 3 11.85
96 4 3 12.03
38 4 3 12.09
55 3 3 12.4
56 3 4 15.63
25 3 4 15.67
26 3 4 15.67
42 4 4 16.31
27 3 5 19.51
65 1 17 65.13
90 1 19 72.86
17 1 21 80.56
11 1 21 80.57
18 1 21 80.57
13 1 21 80.6
14 1 21 80.61
15 1 21 80.61
16 1 21 80.61
91 1 22 84.35
8 1 22 84.36
70 1 22 84.36
19 1 22 84.42
10 1 23 87.91
2 1 23 88.19
28 1 23 88.23
12 1 23 88.28
1 1 23 88.35
Tabel 4.24 Nilai COF dengan k = 37 dan top N = 50
# Class PCL COF
36 3 1 3.81
53 2 1 3.97
92 3 2 7.76
64 2 2 7.79
73 2 2 7.79
94 3 2 7.79
97 3 2 7.83
24 2 2 7.94
37 4 2 8.14
39 3 2 8.26
88 3 3 11.77
23 2 3 11.81
69 2 3 11.84
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
62
87 2 3 11.85
96 4 3 12.03
38 4 3 12.09
55 3 3 12.4
56 3 4 15.63
25 3 4 15.67
26 3 4 15.67
42 4 4 16.31
27 3 5 19.51
65 1 17 65.13
90 1 19 72.86
17 1 21 80.56
11 1 21 80.57
18 1 21 80.57
13 1 21 80.6
14 1 21 80.61
15 1 21 80.61
16 1 21 80.61
91 1 22 84.35
8 1 22 84.36
70 1 22 84.36
19 1 22 84.42
10 1 23 87.91
2 1 23 88.19
50 1 23 88.19
63 1 23 88.19
31 1 23 88.21
34 1 23 88.21
59 1 23 88.21
41 1 23 88.22
45 1 23 88.22
48 1 23 88.22
28 1 23 88.23
29 1 23 88.23
35 1 23 88.24
12 1 23 88.28
1 1 23 88.35
Berdasarkan masukan k = 47 dan top N yang berubah – ubah, nilai
COF dapat ditampikan dalam tabel sebagai berikut :
Tabel 4.25 Nilai COF dengan k = 47 dan top N = 10
# Class PCL COF
94 3 2 13.48
97 3 2 13.52
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
63
36 3 3 20.08
88 3 3 20.27
37 4 3 20.54
96 4 3 20.55
53 2 4 26.93
38 4 4 27.34
39 3 4 27.36
42 4 4 27.73
Tabel 4.26 Nilai COF dengan k = 47 dan top N = 20
# Class PCL COF
94 3 2 13.48
97 3 2 13.52
36 3 3 20.08
88 3 3 20.27
37 4 3 20.54
96 4 3 20.55
64 2 4 26.91
53 2 4 26.93
56 3 4 27
69 2 4 27.07
87 2 4 27.07
38 4 4 27.34
39 3 4 27.36
42 4 4 27.73
92 3 5 33.6
73 2 5 33.63
23 2 5 33.73
24 2 5 33.74
55 3 5 34.4
25 3 6 40.48
Tabel 4.27 Nilai COF dengan k = 47 dan top N = 30
# Class PCL COF
94 3 2 13.48
97 3 2 13.52
36 3 3 20.08
88 3 3 20.27
37 4 3 20.54
96 4 3 20.55
64 2 4 26.91
53 2 4 26.93
56 3 4 27
69 2 4 27.07
87 2 4 27.07
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
64
38 4 4 27.34
39 3 4 27.36
42 4 4 27.73
92 3 5 33.6
73 2 5 33.63
23 2 5 33.73
24 2 5 33.74
55 3 5 34.4
27 3 6 40.44
25 3 6 40.48
26 3 6 40.48
65 1 33 221.06
90 1 34 227.79
45 1 36 241.19
76 1 37 247.9
80 1 37 247.9
82 1 37 247.9
91 1 37 247.9
43 1 37 247.91
Tabel 4.28 Nilai COF dengan k = 47 dan top N = 40
# Class PCL COF
94 3 2 13.48
97 3 2 13.52
36 3 3 20.08
88 3 3 20.27
37 4 3 20.54
96 4 3 20.55
64 2 4 26.91
53 2 4 26.93
56 3 4 27
69 2 4 27.07
87 2 4 27.07
38 4 4 27.34
39 3 4 27.36
42 4 4 27.73
92 3 5 33.6
73 2 5 33.63
23 2 5 33.73
24 2 5 33.74
55 3 5 34.4
27 3 6 40.44
25 3 6 40.48
26 3 6 40.48
65 1 33 221.06
90 1 34 227.79
45 1 36 241.19
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
65
76 1 37 247.9
80 1 37 247.9
82 1 37 247.9
91 1 37 247.9
43 1 37 247.91
51 1 38 254.61
83 1 38 254.61
66 1 38 254.62
70 1 38 254.62
18 1 38 254.69
14 1 38 254.71
16 1 38 254.75
3 1 39 261.39
11 1 39 261.41
12 1 39 261.41
Tabel 4.29 Nilai COF dengan k = 47 dan top N = 50
# Class PCL COF
94 3 2 13.48
97 3 2 13.52
36 3 3 20.08
88 3 3 20.27
37 4 3 20.54
96 4 3 20.55
64 2 4 26.91
53 2 4 26.93
56 3 4 27
69 2 4 27.07
87 2 4 27.07
38 4 4 27.34
39 3 4 27.36
42 4 4 27.73
92 3 5 33.6
73 2 5 33.63
23 2 5 33.73
24 2 5 33.74
55 3 5 34.4
27 3 6 40.44
25 3 6 40.48
26 3 6 40.48
65 1 33 221.06
90 1 34 227.79
45 1 36 241.19
76 1 37 247.9
80 1 37 247.9
82 1 37 247.9
91 1 37 247.9
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
66
43 1 37 247.91
51 1 38 254.61
83 1 38 254.61
66 1 38 254.62
70 1 38 254.62
18 1 38 254.69
14 1 38 254.71
16 1 38 254.75
63 1 39 261.32
71 1 39 261.32
62 1 39 261.33
34 1 39 261.34
44 1 39 261.34
49 1 39 261.34
60 1 39 261.34
35 1 39 261.36
3 1 39 261.39
17 1 39 261.4
11 1 39 261.41
12 1 39 261.41
19 1 39 261.41
E. Kesimpulan Hasil Percobaan Perhitungan Dengan Masukan K dan Top N
Yang Berubah - Ubah
Dari hasil percobaan perhitungan dengan masukan k dan top N yang
tertera pada tabel di atas, dapat disimpulkan sebagai berikut :
1. Berdasarkan percobaan perhitungan menggunakan algoritma
ECODB, dapat diketahui bahwa semakin besar nilai k, semakin
tinggi pula nilai COF. Hal ini dikarenakan bertambahnya jumlah
tetangga terdekat dari tiap instance yang kemudian membuat
nilai Kdist bertambah.
2. Berdasarkan percobaan perhitungan menggunakan algoritma
ECODB dengan masukan k dan top n yang berbeda – beda, dapat
diketahui bahwa penentuan nilai k dan top n bergantung pada
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
67
besarnya dataset, jumlah class label dan distribusi kelas.
Semakin besar dataset dan jumlah class label, semakin besar pula
masukan nilai k dan top n untuk mendapatkan hasil deteksi yang
optimal.
3. Nilai k yang terlalu kecil akan menyebabkan tahap
pengelompokan data berdasarkan tetangga terdekat menjadi tidak
optimal. Data yang termasuk tetangga terdekat suatu instances
dapat ‘terbuang’ dari kelompoknya. Sedangkan nilai k yang
terlalu besar akan menyebabkan data luar menjadi satu kelompok
dengan suatu instances.
4. Nilai top N yang terlalu kecil akan menyebabkan data yang
mempunyai derajat tinggi sebagai outlier tidak terdeteksi sebagai
class outlier. Sedangkan nilai top N yang terlalu besar akan
menyebabkan data yang bukan outlier ikut terdeteksi sebagai
outlier.
F. Kesimpulan Hasil Pengujian Review dan Validitas oleh Pengguna
Berdasarkan hasil pengujian hasil percobaan perhitungan pada data
yang kerap muncul sebagai outlier pada masukan k dan top N yang berbeda –
beda dan hasil analisa menurut pengguna (petugas BPR XYZ), dapat
disimpulkan bahwa :
1. Debitur 36 dinyatakan sebagai outlier karena memiliki
tunggakan pokok yang cukup besar padahal mempunyai jaminan
tanah senilai Rp 12.000.000,- dan pendapatan yang cukup besar
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
68
yakni Rp 11.400.000,-. Jumlah tanggungan keluarga debitur
juga kecil yaitu 1 orang. Debitur sebelumnya pernah
mengajukan kredit di BPR XYZ sebanyak 3 kali dan mampu
mengangsur kredit dengan lunas. Debitur 36 mengajukan kredit
sebesar Rp 6.000.000,- dan tidak sedang mengangsur kredit di
bank lain.
2. Debitur 92 dinyatakan sebagai outlier karena memiliki
tunggakan pokok yang besar padahal mempunyai jaminan tanah
senilai Rp 40.000.000,- dan pendapatan yang relatif besar yakni
Rp 8.937.500,-. Jumlah tanggungan keluarga debitur 92
sebanyak 2 orang. Debitur 92 mengajukan kredit sebesar Rp
20.000.000,- dan tidak sedang mengangsur kredit di bank lain.
3. Debitur 53 dinyatakan sebagai outlier karena memiliki
tunggakan pokok yang besar padahal mempunyai jaminan tanah
senilai Rp 40.000.000,- dan pendapatan yang cukup besar yakni
Rp 16.600.000,-. Debitur sebelumnya pernah mengajukan kredit
di BPR XYZ sebanyak 1 kali dan mampu mengangsur kredit
dengan lunas. Debitur 53 mengajukan kredit sebesar Rp
20.000.000,- dan tidak sedang mengangsur kredit di bank lain.
4. Debitur 73 dinyatakan sebagai outlier karena memiliki
tunggakan pokok yang besar padahal mempunyai jaminan tanah
senilai Rp 14.000.000,- dan pendapatan yang besar yakni Rp
24.000.000,-. Debitur sebelumnya pernah mengajukan kredit di
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
69
BPR XYZ sebanyak 1 kali dan mampu mengangsur kredit
dengan lunas. Debitur 73 mengajukan kredit sebesar Rp
7.000.000,- dan tidak sedang mengangsur kredit di bank lain.
5. Debitur 96 dinyatakan sebagai outlier karena memiliki
tunggakan bunga yang besar sebanyak 55 kali padahal
mempunyai jaminan BPKB senilai Rp 26.000.000,- dan
pendapatan yang besar yakni Rp 10.500.000,-. Jumlah
tanggungan keluarga debitur 96 sebanyak 2 orang. Debitur 96
mengajukan kredit sebesar Rp 13.000.000,- dan tidak sedang
mengangsur kredit di bank lain.
6. Debitur 39 dinyatakan sebagai outlier karena memiliki
tunggakan pokok yang besar padahal mempunyai jaminan tanah
senilai Rp 70.750.000,- dan pendapatan yang besar yakni Rp
139.520.000,-. Debitur sebelumnya pernah mengajukan kredit di
BPR XYZ sebanyak 3 kali dan mampu mengangsur kredit
dengan lunas. Jumlah tanggungan keluarga debitur 39 sebanyak
3 orang. Debitur 39 mengajukan kredit sebesar Rp 50.000.000,-.
7. Debitur 64 dinyatakan sebagai outlier karena memiliki
tunggakan pokok cukup besar padahal mempunyai jaminan
tanah senilai Rp 48.000.000,- dan pendapatan yang besar yakni
Rp 34.400.000,-. Debitur sebelumnya pernah mengajukan kredit
di BPR XYZ sebanyak 1 kali dan mampu mengangsur kredit
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
70
dengan lunas. Debitur 64 mengajukan kredit sebesar Rp
24.000.000,- dan tidak sedang mengangsur kredit di bank lain.
8. Debitur 24 dinyatakan sebagai outlier karena memiliki
tunggakan pokok dan tunggakan bunga yang besar padahal
mempunyai gaji tetap setiap bulan yang relatif besar yakni Rp
2.096.299,- dan jangka waktu mengangsur yang lama yaitu 40
bulan. Debitur 24 mengajukan kredit sebesar Rp 10.000.000,-
dan tidak sedang mengangsur kredit di bank lain. Debitur –
debitur lain yang berprofesi sebagai pegawai dan mempunyai
gaji yang hampir sama cenderung mampu melunasi kredit
bahkan untuk jumlah kredit yang lebih tinggi.
9. Debitur 23 dinyatakan sebagai outlier karena memiliki
tunggakan pokok dan tunggakan bunga yang besar padahal
mempunyai gaji tetap setiap bulan yang relatif besar gaji tetap
setiap bulan yang relatif besar yakni Rp 3.043.672,- dan jangka
waktu mengangsur yang lama yaitu 40 bulan. Debitur 23
mengajukan kredit sebesar Rp 10.000.000,- dan tidak sedang
mengangsur kredit di bank lain. Debitur – debitur lain yang
berprofesi sebagai pegawai dan mempunyai gaji yang hampir
sama cenderung mampu melunasi kredit bahkan untuk jumlah
kredit yang lebih tinggi.
10. Debitur 37 dinyatakan sebagai outlier karena memiliki
tunggakan pokok yang sangat besar padahal mempunyai
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
71
jaminan tanah senilai Rp 40.000.000,- dan pendapatan yang
relatif besar yakni Rp 9.000.000,-. Jumlah tanggungan keluarga
debitur 37 sebanyak 2 orang. Debitur 37 mengajukan kredit
sebesar Rp 20.000.000,- dan tidak sedang mengangsur kredit di
bank lain.
11. Kebanyakan debitur yang dideteksi sebagai outlier mengalami
perubahan status menjadi macet. Beberapa debitur pada
akhirnya melunasi angsuran kredit, tetapi sebagian debitur
mangkir bahkan tidak melunasi angsuran kredit hingga lewat
dari tanggal jatuh tempo.
12. Menurut pengguna, dalam pengajuan kredit, petugas tidak bisa
hanya melihat penghasilan debitur, jaminan, jumlah tanggungan
atau ada tidaknya kredit di bank lain. Petugas juga harus cermat
dalam memperhatikan keseharian debitur. Karena debitur yang
mengalami kredit macet umumnya tidak melulu karena kecilnya
penghasilannya tiap bulan, melainkan bisa jadi karena
kebutuhan konsumtif, adanya kebutuhan mendadak dalam
keluarga hingga faktor tidak terduga seperti bencana alam.
Dalam kasus yang jarang terjadi bisa juga karena debitur yang
bersangkutan mempunyai watak yang buruk atau dengan kata
lain sedari awal berniat untuk tidak melunasi kredit. Bahkan bisa
jadi pada pinjaman pertama, debitur mampu mengangsur hingga
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
72
lunas tanpa ada tunggakan sama sekali. Tetapi, pada pinjaman
berikutnya debitur menunggak angsuran kredit.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
73
BAB V
PENUTUP
A. Kesimpulan
Kesimpulan yang diperoleh sebagai hasil penyelesaian tugas akhir ini
adalah :
1. Algoritma ECODB dapat digunakan untuk mendeteksi outlier pada
data debitur dengan atribut campuran numerik dan kategorikal
dengan kasus data debitur BPR XYZ.
2. Berdasarkan percobaan perhitungan menggunakan algoritma
ECODB, dapat diketahui bahwa semakin besar nilai k, semakin
tinggi pula nilai COF. Hal ini dikarenakan bertambahnya jumlah
tetangga terdekat dari tiap instance yang kemudian membuat nilai
Kdist bertambah.
3. Berdasarkan percobaan perhitungan menggunakan algoritma
ECODB dengan masukan k dan top n yang berbeda – beda, dapat
diketahui bahwa penentuan nilai k dan top n bergantung pada
besarnya dataset dan jumlah class label. Semakin besar dataset dan
jumlah class label, semakin besar pula masukan nilai k dan top n
untuk mendapatkan hasil deteksi yang optimal.
4. Nilai k yang terlalu kecil akan menyebabkan tahap pengelompokan
data berdasarkan tetangga terdekat menjadi tidak optimal. Data
yang termasuk tetangga terdekat suatu instances dapat ‘terbuang’
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
74
dari kelompoknya. Sedangkan nilai k yang terlalu besar akan
menyebabkan data luar menjadi satu kelompok dengan suatu
instances.
5. Nilai top N yang terlalu kecil akan menyebabkan data yang
mempunyai derajat tinggi sebagai outlier tidak terdeteksi sebagai
class outlier. Sedangkan nilai top N yang terlalu besar akan
menyebabkan data yang bukan outlier ikut terdeteksi sebagai
outlier.
6. Berdasarkan pengujian review dan validitas oleh petugas bank BPR
XYZ dapat disimpulkan bahwa hasil deteksi outlier yang diperoleh
layak dinyatakan sebagai outlier.
B. Saran
Berdasarkan hasil analisis pada tugas akhir ini, saran yang dapat
diberikan untuk penelitian, perbaikan dan pengembangan lebih lanjut adalah
sebagai berikut :
1. Mengimplementasikan algoritma ECODB ke dalam bentuk sistem.
2. Melakukan penelitian atribut yang independen.
3. Menguji waktu yang dibutuhkan algoritma ECODB dalam
mendeteksi outlier berdasarkan besarnya dataset, jumlah class label
serta nilai masukan k dan top n.
4. Membandingkan hasil deteksi outlier menggunakan algoritma
ECODB dengan algoritma lain yang dapat mendeteksi oulier pada
data dengan atribut campuran numerik dan kategorikal.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
75
DAFTAR PUSTAKA
Aggarwal, C. C. (2013). Outlier Analysis. New York : Springer.
Blake, C., E. Keogh dan C. Merz. (1998). UCI Repository of Machine Learning
Databases. http://www.ics.uci.edu/~mlearn/MLRepository.htm,
diakses pada 1 Agustus 2014.
Breunig, M., et. al. (2000). LOF: Identifying Density-based Local Outliers.
Proceedings of the 2000 ACM SIGMOD International Conference
on Management of Data. Washington.
Han, J. dan M. Kamber. (2006). Data Mining : Concepts and Techniques 2nd
Edition. San Fransisco : Morgan Kaufmann Publishers.
Hartati, S., B. Suharto dan S. Wijono. (2007). Pemrograman GUI Swing Java
dengan Netbeans 5. Yogyakarta : Andi Offset.
Hewahi, N. M. dan M. K. Saad. (2007). Class Outlier Mining : Distance-Based
Approach. International Journal of Electrical and Computer
Engineering. 1 (2) : 55-68.
.......... (2009). A comparative Study of Oultier Mining and Class Outlier Mining.
ISSR Journal. 1 (1) : 1-9.
Lee, S. F. dan J. Santana. (2010). Data Mining : Meramalkan Bisnis Perusahaan.
Diterjemahkan oleh Feri Sulianta dan Dominikus Juju. Jakarta : Elex
Media Komputindo.
Maryono, D. (2010). Deteksi Outlier Berbasis Klaster pada Set Data dengan
Atribut Campuran Numerik dan Kategorikal. Jurnal Ilmiah Kursor. 5
(3) : 197-204.
Quinlan, J. R. (1993). C4.5: Programs for Machine Learning. San Fransisco :
Morgan Kaufmann Publishers.
Santosa, B. (2007). Teknik Pemanfaatan Data untuk Keperluan Bisnis.
Yogyakarta : Graha Ilmu.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
76
Sutikno, T., A. Pujianta dan Y. T. Supanti. (2007). Prediksi Risiko Kredit Dengan
Jaringan Syaraf Tiruan Backpropagation. Seminar Nasional Aplikasi
Teknologi Informasi (SNATI). Yogyakarta.
Tan, P. N., M. Steinbach dan V. Kumar. (2006). Introduction to Data
Mining. Boston : Pearson Addison Weisley.
Wahana Komputer. (2008). Shortcourse : Membuat Aplikasi Database dengan
Java dan MySQL. Yogyakarta : Andi Offset.
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
LAMPIRAN
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
77
LAMPIRAN 1
Tabel Data Debitur Sebelum Mengalami Pemrosesan Awal
NOREK NOPK NAMA KODE_PEKER J_
USAHA NAMAIBU ALAMAT1 T_
LAHIR TGL_ LAHIR
UMUR IDENTITAS NAMA_KTR
KODE_ POS
NOM_ PINJ SB JW JAMINAN
NJOP_ NT
1 2013 A 010 PNS A 57425 1 1965 48 1 KEC 1 57425 30000000 9.6 30 GAJI 0
2 2012 B 010 PNS B 57461 1 1973 39 2 KEC 1 57461 30000000 11.4 50 GAJI 0
3 2013 C 010 PNS C 57461 1 1963 50 3 KEC 1 57461 15000000 7.2 60 GAJI 0
4 2012 D 010 PNS D 57261 2 1960 52 4 PN 57261 27000000 9.6 40 GAJI 0
5 2013 E 010 PNS E 57467 3 1964 49 5 PN 57467 21000000 9.6 60 GAJI 0
6 2012 F 010 PNS F 57485 4 1963 49 6 PN 57485 30000000 9.6 60 GAJI 0
7 2012 G 010 PNS G 57434 6 1965 47 7 PN 57434 30000000 9.6 60 GAJI 0
8 2012 H 010 PNS H 57413 1 1961 51 8 KEC 2 57413 21000000 9.6 50 GAJI 0
9 2013 I 010 PNS I 57434 1 1965 48 9 KEC 2 57434 12000000 9.6 60 GAJI 0
10 2013 J 010 PNS J 57465 1 1968 45 10 P&K 1 57465 31500000 9.6 60 GAJI 0
PINJ_KE KOLBI1 TUNG_POK TUNG_BNG TUNG_POKOK TUNG_BUNGA POKOK_BLN BUNGA_BLN
GAJI/
PENDAPATAN
JML_
TANGGUNGAN
UANG
_DIBAWA
STATUS_
PINJAMAN
JML_SETORAN
/BULAN
1 1 0 0 0 0 1000000 240000
6 1 0 0 0 0 600000 285000 3344778 3 1384900 ADA 1552000
1 1 0 0 0 0 250000 90000 3229280 2 2882300 ADA 2192650
10 1 0 0 0 0 675000 216000 4110556 3 3665000 ADA 1705000
5 1 0 0 0 0 350000 168000 3827169 3 3417800 ADA 1788800
12 1 0 0 0 0 500000 240000 3803224 2 3399500 ADA 1941700
14 1 0 0 0 0 500000 240000 3984900 2 3538900 ADA 2240000
2 1 0 0 0 0 420000 168000 3819900 1 2427400 ADA 912500
3 1 0 0 0 0 200000 96000 3632378 3 3206600 TDKADA 0
1 1 0 0 0 0 525000 252000 2804075 2 2534600 ADA 1400000
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
78
LAMPIRAN 2
Hasil Seleksi Atribut Data Debitur
KODE_PEKER UMUR NOM_PINJ SB JW JAMINAN NJOP_NT PINJ_KE TUNG_POK TUNG_BNG TUNG_POKOK
014 34 25,000,000 9.6 80 GAJI 0 3 0 0 0
014 45 27,000,000 9.6 100 GAJI 0 3 0 0 0
010 48 19,500,000 9.6 60 GAJI 0 2 0 0 0
010 49 18,000,000 9.6 60 GAJI 0 7 0 0 0
010 53 30,000,000 9.6 60 GAJI 0 5 0 0 0
014 39 10,000,000 14.4 40 GAJI 0 1 6 6 1,500,000
014 32 10,000,000 14.4 40 GAJI 0 1 6 6 1,500,000
014 18 1,000,000 12 10 GAJI 0 1 4 5 400,000
014 19 1,000,000 12 10 GAJI 0 1 4 5 400,000
014 27 1,000,000 12 10 GAJI 0 1 5 6 500,000
TUNG_BUNGA POKOK_BLN BUNGA_BLN GAJI/PENDAPATAN JML_TANGGUNGAN UANG
_DIBAWA STATUS_PINJAMAN JML_SETORAN/BULAN STATUS
0 312,500 200,000 13,872,782 1 3,161,302 TDKADA 267,043 1
0 270,000 216,000 1,710,000 2 1,301,000 TDKADA 0 1
0 325,000 156,000 3,430,800 2 2,962,239 ADA 1,473,000 1
0 300,000 144,000 3,558,442 4 3,558,442 ADA 2,130,900 1
0 500,000 240,000 5,156,301 2 4,543,500 ADA 1,500,000 1
720,000 250,000 120,000 3,043,672 3 2,820,582 TDKADA 0 2
720,000 250,000 120,000 2,096,299 2 1,583,887 TDKADA 0 2
50,000 100,000 10,000 675,000 0 675,000 TDKADA 0 3
50,000 100,000 10,000 675,000 0 675,000 TDKADA 0 3
60,000 100,000 10,000 675,000 2 675,000 TDKADA 0 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
79
LAMPIRAN 3
Hasil Pengisian Missing Value
No GAJI/PENDAPATAN JML_TANGGUNGAN
UANG
_DIBAWA STATUS_PINJAMAN JML_SETORAN/BULAN
1 13872782 2 3161302 TDKADA 0
18 13872782 1 3161302 TDKADA 0
37 9000000 2 2550000 TDKADA 0
38 55800000 2 5950000 TDKADA 0
42 70000000 2 19000000 TDKADA 0
50 13872782 2 3161302 TDKADA 0
96 10500000 2 3000000 TDKADA 0
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
80
LAMPIRAN 4
Hasil Normalisasi Data
KODE_PEKER v'umur v'nom_pinj v'sb v'jw JAMINAN v'njop_nt v'pinj_ke v'tung_pok v'tung_bng v'tung_pokok
10 0.67 0.06 0.09 0.22 GAJI 0.22 0 0 0 0
10 0.47 0.06 0.16 0.44 GAJI 0.44 0.38 0 0 0
10 0.71 0.03 0 0.56 GAJI 0.56 0 0 0 0
10 0.76 0.05 0.09 0.33 GAJI 0.33 0.69 0 0 0
10 0.69 0.04 0.09 0.56 GAJI 0.56 0.31 0 0 0
10 0.69 0.06 0.09 0.56 GAJI 0.56 0.85 0 0 0
10 0.64 0.06 0.09 0.56 GAJI 0.56 1 0 0 0
10 0.73 0.04 0.09 0.44 GAJI 0.44 0.08 0 0 0
10 0.67 0.02 0.09 0.56 GAJI 0.56 0.15 0 0 0
10 0.6 0.06 0.09 0.56 GAJI 0.56 0 0 0 0
v'tung_bunga v'pokok_bln v'bunga_bln v'gaji v'tanggungan v'uang STATUS_PINJAMAN v'setoran KOLBI1
0 0.12 0.04 0.1 0.33 0.1 TDKADA 0 1
0 0.07 0.04 0.02 0.5 0.03 ADA 0.32 1
0 0.03 0.01 0.02 0.33 0.09 ADA 0.45 1
0 0.08 0.03 0.02 0.5 0.12 ADA 0.35 1
0 0.04 0.03 0.02 0.5 0.11 ADA 0.37 1
0 0.06 0.04 0.02 0.33 0.11 ADA 0.4 1
0 0.06 0.04 0.02 0.33 0.12 ADA 0.46 1
0 0.05 0.03 0.02 0.17 0.07 ADA 0.19 1
0 0.02 0.01 0.02 0.5 0.1 TDKADA 0 1
0 0.06 0.04 0.02 0.33 0.07 ADA 0.29 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
81
LAMPIRAN 5
Hasil Pemrosesan Data
KODE_ v'umur v'nom_ v'sb v'jw JAMINAN v'njop_ v'pinj_ v'tung_ v'tung_ v'tung_ v'tung_ v'pokok_ v'bunga_ v'gaji v'jml_ v'uang STATUS_ v'setoran KOLBI1
PEKER pinj nt ke pok bng pokok bunga bln bln tanggungan PINJAMAN
10 0.67 0.06 0.09 0.22 GAJI 0.22 0 0 0 0 0 0.12 0.04 0.1 0.33 0.1 TDKADA 0 1
10 0.47 0.06 0.16 0.44 GAJI 0.44 0.38 0 0 0 0 0.07 0.04 0.02 0.5 0.03 ADA 0.32 1
10 0.71 0.03 0 0.56 GAJI 0.56 0 0 0 0 0 0.03 0.01 0.02 0.33 0.09 ADA 0.45 1
10 0.76 0.05 0.09 0.33 GAJI 0.33 0.69 0 0 0 0 0.08 0.03 0.02 0.5 0.12 ADA 0.35 1
10 0.69 0.04 0.09 0.56 GAJI 0.56 0.31 0 0 0 0 0.04 0.03 0.02 0.5 0.11 ADA 0.37 1
10 0.69 0.06 0.09 0.56 GAJI 0.56 0.85 0 0 0 0 0.06 0.04 0.02 0.33 0.11 ADA 0.4 1
10 0.64 0.06 0.09 0.56 GAJI 0.56 1 0 0 0 0 0.06 0.04 0.02 0.33 0.12 ADA 0.46 1
10 0.73 0.04 0.09 0.44 GAJI 0.44 0.08 0 0 0 0 0.05 0.03 0.02 0.17 0.07 ADA 0.19 1
10 0.67 0.02 0.09 0.56 GAJI 0.56 0.15 0 0 0 0 0.02 0.01 0.02 0.5 0.1 TDKADA 0 1
10 0.6 0.06 0.09 0.56 GAJI 0.56 0 0 0 0 0 0.06 0.04 0.02 0.33 0.07 ADA 0.29 1
14 0.42 0.1 0.09 0.78 GAJI 0.78 0.31 0 0 0 0 0.08 0.06 0.02 0.33 0.08 TDKADA 0 1
14 0.62 0.1 0.09 1 GAJI 1 0.46 0 0 0 0 0.06 0.06 0.01 0.67 0.02 TDKADA 0 1
14 0.51 0.11 0.09 0.56 GAJI 0.56 0.38 0 0 0 0 0.11 0.07 0.02 0.33 0.09 TDKADA 0 1
14 0.56 0.12 0.09 0.56 GAJI 0.56 0.31 0 0 0 0 0.12 0.08 0.02 0.5 0.09 TDKADA 0 1
14 0.47 0.07 0.09 0.44 GAJI 0.44 0.31 0 0 0 0 0.08 0.04 0.02 0.33 0.05 TDKADA 0 1
14 0.24 0.1 0.14 1 GAJI 1 0.31 0 0 0 0 0.06 0.07 0.03 0.17 0.14 TDKADA 0 1
14 0.29 0.05 0.09 0.78 GAJI 0.78 0.23 0 0 0 0 0.04 0.03 0.01 0.33 0.01 TDKADA 0 1
14 0.36 0.05 0.09 0.78 GAJI 0.78 0.15 0 0 0 0 0.04 0 0.1 0.17 0.1 TDKADA 0 1
14 0.6 0.05 0.09 1 GAJI 1 0.15 0 0 0 0 0.03 0.03 0.01 0.33 0.03 TDKADA 0 1
10 0.67 0.04 0.09 0.56 GAJI 0.56 0.08 0 0 0 0 0.04 0.02 0.02 0.33 0.09 ADA 0.3 1
10 0.69 0.03 0.09 0.56 GAJI 0.56 0.46 0 0 0 0 0.04 0.02 0.02 0.67 0.12 ADA 0.44 1
10 0.78 0.06 0.09 0.56 GAJI 0.56 0.31 0 0 0 0 0.06 0.04 0.03 0.33 0.16 ADA 0.31 1
14 0.47 0.02 0.28 0.33 GAJI 0.33 0 0.18 0.08 0.05 0.01 0.03 0.02 0.02 0.5 0.09 TDKADA 0 2
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
82
14 0.31 0.02 0.28 0.33 GAJI 0.33 0 0.18 0.08 0.05 0.01 0.03 0.02 0.01 0.33 0.04 TDKADA 0 2
14 0 0 0.19 0 GAJI 0 0 0.12 0.06 0.01 0 0.01 0 0 0 0 TDKADA 0 3
14 0.02 0 0.19 0 GAJI 0 0 0.12 0.06 0.01 0 0.01 0 0 0 0 TDKADA 0 3
14 0.2 0 0.19 0 GAJI 0 0 0.15 0.08 0.02 0 0.01 0 0 0.33 0 TDKADA 0 3
14 0.84 0.02 0.37 0.17 SERTIFIKAT 0.17 0.54 0.09 0.01 0.03 0 0.05 0.02 0.03 0.33 0.05 TDKADA 0 1
14 0.82 0.03 0.33 0.22 SERTIFIKAT 0.22 0.46 0 0 0 0 0.06 0.03 0.06 0.33 0.07 TDKADA 0 1
14 0.91 0.01 0.42 0.17 TANAH 0.17 0.31 0 0 0 0 0.02 0.01 0.04 0.5 0.05 TDKADA 0 1
14 0.87 0.02 0.33 0.17 SERTIFIKAT 0.17 0.31 0 0 0 0 0.06 0.02 0.11 0.5 0.09 TDKADA 0 1
14 0.62 0.07 0.3 0.33 TANAH 0.33 0.15 0 0 0 0 0.1 0.07 0.1 0.33 0.09 TDKADA 0 1
14 0.87 0.02 0.37 0.17 TANAH 0.17 0.31 0 0 0 0 0.05 0.02 0.05 0.17 0.09 TDKADA 0 1
14 0.51 0.02 0.37 0.22 SERTIFIKAT 0.22 0.31 0.09 0.04 0.03 0.01 0.04 0.02 0.04 0.33 0.05 TDKADA 0 1
14 0.38 0.03 0.33 0.33 SERTIFIKAT 0.33 0.38 0.03 0.01 0.01 0 0.04 0.03 0.08 0 0.07 TDKADA 0 1
14 0.87 0.01 0.37 0.22 TANAH 0.22 0.23 0.06 0.14 0.01 0.02 0.02 0.01 0.08 0.17 0.05 TDKADA 0 3
14 0.82 0.04 0.6 0.17 TANAH 0.17 0 0.42 1 0.33 0.54 0.1 0.06 0.06 0.33 0.08 TDKADA 0 4
14 0.31 0.06 0.6 0.11 TANAH 0.11 0 0.3 0.99 0.43 0.8 0.18 0.09 0.4 0.33 0.21 TDKADA 0 4
14 0.62 0.1 0.3 0.33 TANAH 0.33 0.23 0.27 0.15 0.33 0.13 0.15 0.1 1 0.5 0.46 ADA 1 3
14 0.58 0.01 0.37 0.11 TANAH 0.11 0.15 0 0 0 0 0.05 0.02 0.15 0 0.04 TDKADA 0 1
14 0.56 0.01 0.37 0.17 SERTIFIKAT 0.17 0.23 0 0 0 0 0.03 0.01 0.54 0.33 0.05 TDKADA 0 1
14 0.38 0.11 0.49 0.56 BPKB 0.56 0 1 0.95 0.9 1.2 0.11 0.14 0.5 0.33 0.74 TDKADA 0 4
14 0.36 0.05 0.3 0.17 TANAH 0.17 0.23 0 0 0 0 0.12 0.05 0.25 0.33 0.14 TDKADA 0 1
14 0.4 0.03 0.33 0.22 TANAH 0.22 0.23 0 0 0 0 0.06 0.03 0.05 0.67 0.07 TDKADA 0 1
14 0.18 0.02 0.37 0.24 SERTIFIKAT 0.24 0.08 0 0 0 0 0.04 0.02 0.04 0.33 0.04 TDKADA 0 1
14 0.96 0.05 0.3 0.22 TANAH 0.22 0.23 0.06 0.03 0.05 0.01 0.1 0.05 0.08 0 0.08 TDKADA 0 1
14 0.69 0.07 0.3 0.28 TANAH 0.28 0.15 0 0 0 0 0.12 0.07 0.21 0.33 0.17 TDKADA 0 1
14 0.78 0.02 0.37 0.22 SERTIFIKAT 0.22 0.15 0 0 0 0 0.04 0.02 0.04 0 0.04 TDKADA 0 1
14 0.71 0.12 0.3 0.22 TANAH 0.22 0.15 0 0 0 0 0.24 0.12 0.06 0.67 0.23 TDKADA 0 1
14 0.67 0.01 0.42 0.11 SERTIFIKAT 0.11 0.15 0.06 0.01 0.01 0 0.03 0.01 0.1 0.33 0.1 TDKADA 0 1
14 0.58 0.02 0.37 0.22 TANAH 0.22 0.15 0 0 0 0 0.04 0.02 0.08 0.5 0.1 TDKADA 0 1
14 0.78 0.05 0.3 0.17 TANAH 0.17 0.08 0 0 0 0 0.13 0.05 0.12 0.5 0.13 TDKADA 0 1
14 0.6 0.04 0.33 0.17 TANAH 0.17 0.08 0.18 0.08 0.15 0.03 0.1 0.04 0.11 0.83 0.12 TDKADA 0 2
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
83
14 0.8 0.01 0.37 0.22 TANAH 0.22 0.08 0 0 0 0 0.02 0.01 0.12 0.5 0.07 TDKADA 0 1
14 1 1 0.3 0.56 SERTIFIKAT 0.56 0.15 0.12 0.11 1 1 1 1 0.52 0 1 TDKADA 0 3
14 0.33 0 0.42 0.11 BPKB 0.11 0.15 0.12 0.04 0.02 0 0.02 0.01 0.02 0.67 0.04 TDKADA 0 3
14 0.76 0.02 0.33 0.33 TANAH 0.33 0.08 0 0 0 0 0.03 0.02 0.03 0 0.06 TDKADA 0 1
14 0.76 0.01 0.37 0.22 TANAH 0.22 0.08 0 0 0 0 0.02 0.01 0.03 0.17 0.12 TDKADA 0 1
14 0.76 0.02 0.33 0.16 SERTIFIKAT 0.16 0.15 0 0 0 0 0.06 0.02 0.15 0 0.06 TDKADA 0 1
14 0.62 0.12 0.3 0.22 TANAH 0.22 0.08 0 0 0 0 0.24 0.12 0.39 1 0.34 TDKADA 0 1
14 0.96 0.02 0.37 0.17 TANAH 0.17 0.08 0.03 0.01 0.01 0 0.05 0.02 0.05 0 0.05 TDKADA 0 1
14 0.36 0.01 0.42 0.22 TANAH 0.22 0.08 0.03 0 0 0 0.02 0.01 0.05 0 0.03 TDKADA 0 1
14 0.64 0.01 0.37 0.17 SERTIFIKAT 0.17 0.08 0.03 0 0.01 0 0.03 0.01 0.09 0.5 0.03 TDKADA 0 1
14 0.67 0.05 0.3 0.17 SERTIFIKAT 0.17 0.08 0.03 0.01 0.03 0.01 0.12 0.05 0.24 0.67 0.1 TDKADA 0 2
14 0.18 0.01 0.42 0.11 BPKB 0.11 0.08 0 0 0 0 0.02 0.01 0.07 0.33 0.05 TDKADA 0 1
14 0.33 0.02 0.37 0.17 TANAH 0.17 0.08 0 0 0 0 0.05 0.02 0.04 0.5 0.05 TDKADA 0 1
14 0.69 0 0.42 0.22 TANAH 0.22 0 0 0 0 0 0.01 0.01 0.02 0.33 0.03 TDKADA 0 1
14 0.84 0.02 0.33 0.22 TANAH 0.22 0 0 0 0 0 0.04 0.02 0.04 0 0.05 TDKADA 0 1
14 0.22 0.01 0.42 0.11 BPKB 0.11 0.08 0.18 0.08 0.04 0.01 0.02 0.01 0.04 0 0.04 TDKADA 0 2
14 0.58 0.03 0.33 0.33 SERTIFIKAT 0.33 0.08 0.06 0.03 0.03 0.01 0.05 0.03 0.03 0.67 0.06 TDKADA 0 1
14 0.71 0.01 0.37 0.22 TANAH 0.22 0 0.03 0.01 0.01 0 0.03 0.02 0.05 0.5 0.07 TDKADA 0 1
14 0.73 0.03 0.33 0.22 TANAH 0.22 0 0 0 0 0 0.06 0.03 0.06 0.17 0.22 TDKADA 0 1
14 0.58 0.01 0.37 0.17 SERTIFIKAT 0.17 0.08 0.15 0.08 0.04 0.01 0.03 0.01 0.17 0.67 0.05 TDKADA 0 2
14 0.82 0.02 0.37 0.22 TANAH 0.22 0 0 0 0 0 0.04 0.02 0.03 0.17 0.03 TDKADA 0 1
14 0.56 0.05 0.3 0.44 SERTIFIKAT 0.44 0 0 0 0 0 0.06 0.05 0.08 0.5 0.13 ADA 0.06 1
14 0.53 0.03 0.33 0.22 TANAH 0.22 0 0.09 0.04 0.05 0.01 0.06 0.03 0.28 0.5 0.08 TDKADA 0 1
14 0.98 0.02 0.33 0.22 TANAH 0.22 0 0 0 0 0 0.05 0.02 0.07 0.17 0.07 TDKADA 0 1
14 0.44 0.04 0.3 0.22 TANAH 0.22 0 0 0 0 0 0.08 0.04 0.15 0 0.17 TDKADA 0 1
14 0.62 0.01 0.42 0.17 SERTIFIKAT 0.17 0 0.09 0.04 0.01 0 0.02 0.01 0.02 0 0.03 TDKADA 0 1
14 0.36 0.01 0.37 0.17 SERTIFIKAT 0.17 0 0 0 0 0 0.03 0.01 0.03 0.17 0.03 TDKADA 0 1
14 0.89 0.02 0.33 0.17 SERTIFIKAT 0.17 0 0 0 0 0 0.06 0.02 0.08 0.5 0.06 TDKADA 0 1
14 0.36 0.01 0.37 0.17 SERTIFIKAT 0.17 0 0 0 0 0 0.04 0.02 0.04 0.5 0.08 TDKADA 0 1
14 0.71 0.01 0.42 0.17 SERTIFIKAT 0.17 0 0.03 0.01 0.01 0 0.02 0.01 0.03 0.5 0.04 TDKADA 0 1
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
84
14 0.91 0 0.42 0.22 SERTIFIKAT 0.22 0 0.03 0.01 0 0 0.01 0.01 0.04 0.83 0.02 TDKADA 0 1
14 0.42 0.04 0.33 0.33 TANAH 0.33 0 0 0 0 0 0.06 0.04 0.16 0.17 0.11 TDKADA 0 1
14 0.73 0.05 0.3 0.67 SERTIFIKAT 0.67 0 0.06 0.03 0.02 0.01 0.04 0.05 0.06 0.33 0.09 TDKADA 0 1
14 0.16 0.01 0.42 0.11 BPKB 0.11 0 0.09 0.04 0.02 0 0.03 0.01 0.02 0 0.03 TDKADA 0 2
14 0.78 0 0.42 0.11 BPKB 0.11 0 0.09 0.05 0.01 0 0.01 0 0.04 0.5 0.03 TDKADA 0 3
14 0.78 0.01 0.37 0.17 SERTIFIKAT 0.17 0 0 0 0 0 0.03 0.01 0.03 0.17 0.03 TDKADA 0 1
14 0.64 0 0.42 0.11 BPKB 0.11 0 0.03 0.01 0 0 0.02 0.01 0.09 0.67 0.04 TDKADA 0 1
14 0.36 0 0.42 0.11 SERTIFIKAT 0.11 0 0.09 0.04 0.01 0 0.02 0.01 0.03 0 0.02 TDKADA 0 1
14 0.31 0.04 0.33 0.17 SERTIFIKAT 0.17 0 0.24 0.1 0.2 0.04 0.1 0.04 0.06 0.33 0.1 TDKADA 0 3
14 0.91 0.04 0.33 0.22 SERTIFIKAT 0.22 0 0.09 0.04 0.06 0.01 0.08 0.04 0.1 0 0.06 TDKADA 0 1
14 0.38 0.1 0.3 0.44 SERTIFIKAT 0.44 0 0.09 0.1 0.08 0.09 0.12 0.1 0.31 0.33 0.17 TDKADA 0 3
14 0.56 0.2 0.6 0.02 TANAH 0.02 0.69 0 0 0 0 0 0.09 0.28 0.17 0.25 TDKADA 0 1
14 0.13 0.02 1 0.02 BPKB 0.02 0 0 0.7 0.16 0.27 0 0.02 0.07 0.33 0.09 TDKADA 0 4
14 1 0.02 0 0.44 TANAH 0.44 0.08 0.36 0.15 0.09 0.02 0.03 0.01 0.02 0 0.02 TDKADA 0 3
PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJIPLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Recommended