Upload
munasko-muhdan-bintang
View
14
Download
4
Embed Size (px)
Citation preview
LAPORAN TUGAS 5
DATA MINING
PIMA-INDIANS-DIABETES
NAMA : FERIAL WILLY S
NIM : 1008107020050
JURUSAN INFORMATIKA
FAKULTAS MIPA
UNIVERSITAS SYIAH KUALA
PENDAHULUAN
Syukur Alhamdulillah saya panjatkan kehadirat Allah SWT, karena atas segala
karuniaNya saya dapat menyelesaikan tugas 5 ini sebagai salah satu syarat mata kuliah Data
Mining. Tugas 5 ini tentang K-Means (Clustering) dengan metode SVM dan ROC pada
perangkat lunak R dengan mengambil data Pima-Indians-Diabetes-data di link
http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/.
Dalam menganalisa data banyak tahapan-tahapan yang harus dilalui, seperti entri data,
eksplorasi data, manipulasi data, analisis data serta penyajian hasil. Setiap tahapan-tahapan
tersebut membutuhkan pengetahuan yang baik dan tepat dari metode statistic serta
alat/perangkat lunak yang baik untuk menganalisis data. Perangkat lunak terutama untuk
statistik saat ini merupakan alat penting untuk analisis data. Perangkat lunak R merupakan
salah satu perangkat lunak statistik yang dapat menangani analisi data mulai dari yang paling
klasik sampai dengan metodologi statistik yang paling baru. Itu semua dikarenakan telah
tersedianya berbagai macam library yang dibuat oleh komunitas R.
Oleh karena itu, dalam tugas 5 ini saya menggunakan perangkat lunak R untuk
menentukan K-Means (Clustering) dengan metode SVM dan ROC.
TUJUAN
Mengetahui dan memahami cara menggunakan R khususnya penerapan library yang
berkaitan dengan SVM dan ROC
Melatih dalam menyelesaikan masalah-masalah klasifikasi sederhana menggunakan
SVM dan ROC
DASAR TEORI
K-Means (Clustering) merupakan salah satu algoritma unsupervised learning yang
menyelesaikan masalah pengelompokan (clustering). K-Means adalah metode analisis cluster
yang bertujuan untuk mempartisi n pengamatan ke dalam kelompok k dimana setiap
pengamatan dalam cluster dicari jarak untuk setiap pengamatan ke cluster (centroid) terhadap
rata-rata terdekat (menggunakan fungsi jarak).
Support Vektor Machine (SVM) adalah suatu teknik dalam metode machine learning
dengan tujuan menemukan garis hyperplane (suatu fungsi pemisah, klasifier) optimal yang
memisahkan klas-klas yang berbeda dari data set. SVM mempunyai kelebihan dan
kekurangan. Adapun kelebihan SVM yaitu : Generalisasi, curse of dimensionality, landasan
teori, dan feasibility. Dan adapun kekurangan SVM yaitu: sulit dipakai dalam problem
berskala besar dan SVM secara teoritik dikembangkan untuk problem klasifikasi dengan dua
class.
Receiver Operating Characteristics (ROC) kurva adalah plot yang menggambarkan
kinerja dari sistem classifier yang berguna untuk mengatur pengklasifikasian dan visualisasi.
Plot tersebut dibuat dengan memetakan true positive rate (TPR) dengan false positive rate
(FPR) dengan berbagai macam threshold. TPR juga dikenal sebagai sensitivity dan FPR
adalah 1-specificity atau true negative rate.
Sensitivity adalah persentase memprediksi data positif yang benar terhadap jumlah
total data positif. Specificity adalah persentase data negative yang diidentifikasi dengan benar
terhadap jumlah total data negative. Accuracy adalah persentase memprediksi data positif dan
negative yang benar terhadap keseluruhan jumlah data positif dan negative. Precision adalah
persentase memprediksi data positif yang benar terhadap jumlah data positif yang diprediksi.
Dan F-measure adalah rata rata pembobot dari precision dan recall yang juga disebut F-
score.
PEMBAHASAN
Dalam perangkat lunak R kita harus mengetahui dan mengerti sintak-sintak atau
library-library yang ada di perangkat lunak R agar kita bisa mendapatkan clustering dengan
SVM dan ROC sesuai yang kita inginkan. Adapun langkah-langkah atau sintak-sintaknya
sebagai berikut:
pima
train berfungsi melihat data training
library ('e1071') berfungsi memanggil fungsi e1071 untuk SVM
model
KESIMPULAN
R merupakan perangkat lunak statistik yang dapat menangani analisi data mulai dari
yang paling klasik sampai dengan metodologi statistic yang paling baru. Itu semua
dikarenakan telah tersedianya berbagai macam library yang dibuat oleh komunitas R.
Perangkat lunak R menyediakan library/paket yang dikembangkan oleh komunitas R yang
diimplementasikan untuk berbagai bidang ilmu. Seperti dalam Data Mining tersedia paket
e1071, kernlab, randomForest, nnet, rpart, klaR, tree, arules, dan sebagainya. Selain itu R
juga di kembangkan khusus untuk bidang ilmu lain yang lebih khusus seperti Bioinformatika.