7
LAPORAN TUGAS 5 DATA MINING PIMA-INDIANS-DIABETES NAMA : FERIAL WILLY S NIM : 1008107020050 JURUSAN INFORMATIKA FAKULTAS MIPA UNIVERSITAS SYIAH KUALA

Laporan Tugas 5 Data Mining.pdf

Embed Size (px)

Citation preview

  • LAPORAN TUGAS 5

    DATA MINING

    PIMA-INDIANS-DIABETES

    NAMA : FERIAL WILLY S

    NIM : 1008107020050

    JURUSAN INFORMATIKA

    FAKULTAS MIPA

    UNIVERSITAS SYIAH KUALA

  • PENDAHULUAN

    Syukur Alhamdulillah saya panjatkan kehadirat Allah SWT, karena atas segala

    karuniaNya saya dapat menyelesaikan tugas 5 ini sebagai salah satu syarat mata kuliah Data

    Mining. Tugas 5 ini tentang K-Means (Clustering) dengan metode SVM dan ROC pada

    perangkat lunak R dengan mengambil data Pima-Indians-Diabetes-data di link

    http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/.

    Dalam menganalisa data banyak tahapan-tahapan yang harus dilalui, seperti entri data,

    eksplorasi data, manipulasi data, analisis data serta penyajian hasil. Setiap tahapan-tahapan

    tersebut membutuhkan pengetahuan yang baik dan tepat dari metode statistic serta

    alat/perangkat lunak yang baik untuk menganalisis data. Perangkat lunak terutama untuk

    statistik saat ini merupakan alat penting untuk analisis data. Perangkat lunak R merupakan

    salah satu perangkat lunak statistik yang dapat menangani analisi data mulai dari yang paling

    klasik sampai dengan metodologi statistik yang paling baru. Itu semua dikarenakan telah

    tersedianya berbagai macam library yang dibuat oleh komunitas R.

    Oleh karena itu, dalam tugas 5 ini saya menggunakan perangkat lunak R untuk

    menentukan K-Means (Clustering) dengan metode SVM dan ROC.

    TUJUAN

    Mengetahui dan memahami cara menggunakan R khususnya penerapan library yang

    berkaitan dengan SVM dan ROC

    Melatih dalam menyelesaikan masalah-masalah klasifikasi sederhana menggunakan

    SVM dan ROC

  • DASAR TEORI

    K-Means (Clustering) merupakan salah satu algoritma unsupervised learning yang

    menyelesaikan masalah pengelompokan (clustering). K-Means adalah metode analisis cluster

    yang bertujuan untuk mempartisi n pengamatan ke dalam kelompok k dimana setiap

    pengamatan dalam cluster dicari jarak untuk setiap pengamatan ke cluster (centroid) terhadap

    rata-rata terdekat (menggunakan fungsi jarak).

    Support Vektor Machine (SVM) adalah suatu teknik dalam metode machine learning

    dengan tujuan menemukan garis hyperplane (suatu fungsi pemisah, klasifier) optimal yang

    memisahkan klas-klas yang berbeda dari data set. SVM mempunyai kelebihan dan

    kekurangan. Adapun kelebihan SVM yaitu : Generalisasi, curse of dimensionality, landasan

    teori, dan feasibility. Dan adapun kekurangan SVM yaitu: sulit dipakai dalam problem

    berskala besar dan SVM secara teoritik dikembangkan untuk problem klasifikasi dengan dua

    class.

    Receiver Operating Characteristics (ROC) kurva adalah plot yang menggambarkan

    kinerja dari sistem classifier yang berguna untuk mengatur pengklasifikasian dan visualisasi.

    Plot tersebut dibuat dengan memetakan true positive rate (TPR) dengan false positive rate

    (FPR) dengan berbagai macam threshold. TPR juga dikenal sebagai sensitivity dan FPR

    adalah 1-specificity atau true negative rate.

    Sensitivity adalah persentase memprediksi data positif yang benar terhadap jumlah

    total data positif. Specificity adalah persentase data negative yang diidentifikasi dengan benar

    terhadap jumlah total data negative. Accuracy adalah persentase memprediksi data positif dan

    negative yang benar terhadap keseluruhan jumlah data positif dan negative. Precision adalah

    persentase memprediksi data positif yang benar terhadap jumlah data positif yang diprediksi.

    Dan F-measure adalah rata rata pembobot dari precision dan recall yang juga disebut F-

    score.

  • PEMBAHASAN

    Dalam perangkat lunak R kita harus mengetahui dan mengerti sintak-sintak atau

    library-library yang ada di perangkat lunak R agar kita bisa mendapatkan clustering dengan

    SVM dan ROC sesuai yang kita inginkan. Adapun langkah-langkah atau sintak-sintaknya

    sebagai berikut:

    pima

  • train berfungsi melihat data training

    library ('e1071') berfungsi memanggil fungsi e1071 untuk SVM

    model

  • hasil
  • KESIMPULAN

    R merupakan perangkat lunak statistik yang dapat menangani analisi data mulai dari

    yang paling klasik sampai dengan metodologi statistic yang paling baru. Itu semua

    dikarenakan telah tersedianya berbagai macam library yang dibuat oleh komunitas R.

    Perangkat lunak R menyediakan library/paket yang dikembangkan oleh komunitas R yang

    diimplementasikan untuk berbagai bidang ilmu. Seperti dalam Data Mining tersedia paket

    e1071, kernlab, randomForest, nnet, rpart, klaR, tree, arules, dan sebagainya. Selain itu R

    juga di kembangkan khusus untuk bidang ilmu lain yang lebih khusus seperti Bioinformatika.