Laporan Tugas 5 Data Mining.pdf

LAPORAN TUGAS 5

DATA MINING

PIMA-INDIANS-DIABETES

NAMA : FERIAL WILLY S

NIM : 1008107020050

JURUSAN INFORMATIKA

FAKULTAS MIPA

UNIVERSITAS SYIAH KUALA

PENDAHULUAN

Syukur Alhamdulillah saya panjatkan kehadirat Allah SWT, karena atas segala

karuniaNya saya dapat menyelesaikan tugas 5 ini sebagai salah satu syarat mata kuliah Data

Mining. Tugas 5 ini tentang K-Means (Clustering) dengan metode SVM dan ROC pada

perangkat lunak R dengan mengambil data Pima-Indians-Diabetes-data di link

http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/.

Dalam menganalisa data banyak tahapan-tahapan yang harus dilalui, seperti entri data,

eksplorasi data, manipulasi data, analisis data serta penyajian hasil. Setiap tahapan-tahapan

tersebut membutuhkan pengetahuan yang baik dan tepat dari metode statistic serta

alat/perangkat lunak yang baik untuk menganalisis data. Perangkat lunak terutama untuk

statistik saat ini merupakan alat penting untuk analisis data. Perangkat lunak R merupakan

salah satu perangkat lunak statistik yang dapat menangani analisi data mulai dari yang paling

klasik sampai dengan metodologi statistik yang paling baru. Itu semua dikarenakan telah

tersedianya berbagai macam library yang dibuat oleh komunitas R.

Oleh karena itu, dalam tugas 5 ini saya menggunakan perangkat lunak R untuk

menentukan K-Means (Clustering) dengan metode SVM dan ROC.

TUJUAN

Mengetahui dan memahami cara menggunakan R khususnya penerapan library yang

berkaitan dengan SVM dan ROC

Melatih dalam menyelesaikan masalah-masalah klasifikasi sederhana menggunakan

SVM dan ROC

DASAR TEORI

K-Means (Clustering) merupakan salah satu algoritma unsupervised learning yang

menyelesaikan masalah pengelompokan (clustering). K-Means adalah metode analisis cluster

yang bertujuan untuk mempartisi n pengamatan ke dalam kelompok k dimana setiap

pengamatan dalam cluster dicari jarak untuk setiap pengamatan ke cluster (centroid) terhadap

rata-rata terdekat (menggunakan fungsi jarak).

Support Vektor Machine (SVM) adalah suatu teknik dalam metode machine learning

dengan tujuan menemukan garis hyperplane (suatu fungsi pemisah, klasifier) optimal yang

memisahkan klas-klas yang berbeda dari data set. SVM mempunyai kelebihan dan

kekurangan. Adapun kelebihan SVM yaitu : Generalisasi, curse of dimensionality, landasan

teori, dan feasibility. Dan adapun kekurangan SVM yaitu: sulit dipakai dalam problem

berskala besar dan SVM secara teoritik dikembangkan untuk problem klasifikasi dengan dua

class.

Receiver Operating Characteristics (ROC) kurva adalah plot yang menggambarkan

kinerja dari sistem classifier yang berguna untuk mengatur pengklasifikasian dan visualisasi.

Plot tersebut dibuat dengan memetakan true positive rate (TPR) dengan false positive rate

(FPR) dengan berbagai macam threshold. TPR juga dikenal sebagai sensitivity dan FPR

adalah 1-specificity atau true negative rate.

Sensitivity adalah persentase memprediksi data positif yang benar terhadap jumlah

total data positif. Specificity adalah persentase data negative yang diidentifikasi dengan benar

terhadap jumlah total data negative. Accuracy adalah persentase memprediksi data positif dan

negative yang benar terhadap keseluruhan jumlah data positif dan negative. Precision adalah

persentase memprediksi data positif yang benar terhadap jumlah data positif yang diprediksi.

Dan F-measure adalah rata rata pembobot dari precision dan recall yang juga disebut F-

score.

PEMBAHASAN

Dalam perangkat lunak R kita harus mengetahui dan mengerti sintak-sintak atau

library-library yang ada di perangkat lunak R agar kita bisa mendapatkan clustering dengan

SVM dan ROC sesuai yang kita inginkan. Adapun langkah-langkah atau sintak-sintaknya

sebagai berikut:

pima

train berfungsi melihat data training

library ('e1071') berfungsi memanggil fungsi e1071 untuk SVM

model

KESIMPULAN

R merupakan perangkat lunak statistik yang dapat menangani analisi data mulai dari

yang paling klasik sampai dengan metodologi statistic yang paling baru. Itu semua

dikarenakan telah tersedianya berbagai macam library yang dibuat oleh komunitas R.

Perangkat lunak R menyediakan library/paket yang dikembangkan oleh komunitas R yang

diimplementasikan untuk berbagai bidang ilmu. Seperti dalam Data Mining tersedia paket

e1071, kernlab, randomForest, nnet, rpart, klaR, tree, arules, dan sebagainya. Selain itu R

juga di kembangkan khusus untuk bidang ilmu lain yang lebih khusus seperti Bioinformatika.

Documents

Laporan Tugas 5 Data Mining.pdf