APLIKASI ALGORITMA CART - core.ac.uk · Dalam skripsi ini dilakukan tiga kombinasi proporsi data learning dan data testing yaitu: (1) pembagian data learning dan data testing dengan

perpustakaan.uns.ac.id digilib.uns.ac.id

commit to user

i

APLIKASI ALGORITMA CART

UNTUK MENGKLASIFIKASIKAN DATA NASABAH

ASURANSI JIWA BERSAMA BUMIPUTERA 1912 SURAKARTA

oleh

LAILA KURNIA DAMAYANTI

M0106014

SKRIPSI

ditulis dan diajukan untuk memenuhi sebagian persyaratan

memperoleh gelar Sarjana Sains Matematika

FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM

UNIVERSITAS SEBELAS MARET

SURAKARTA

2011


commit to user

ii

SKRIPSI

APLIKASI ALGORITMA CART

UNTUK MENGKLASIFIKASIKAN DATA NASABAH

ASURANSI JIWA BERSAMA BUMIPUTERA 1912 SURAKARTA yang disiapkan dan disusun oleh

LAILA KURNIA DAMAYANTI

M0106014 dibimbing oleh

Pembimbing I, Pembimbing II,

Irwan Susanto, DEA Drs. Pangadi, M.Si.

NIP. 19710511 199512 1 001 NIP. 19571012 199103 1 001

telah dipertahankan di depan Dewan Penguji

pada hari Jumat tanggal 29 April 2011

dan dinyatakan telah memenuhi syarat

Anggota Tim Penguji Tanda Tangan

1. Winita Sulandari, M.Si 1. …………………

NIP. 19780814 200501 2 002

2. Dr. Sutanto, DEA 2. …………………

NIP. 19710302 199603 1 001

Surakarta, Mei 2011

Disahkan oleh

Fakultas Matematika dan Ilmu Pengetahuan Alam

Dekan

Prof. Drs. Sutarno, M.Sc, Ph.D

NIP. 19600809 198612 1 001

Ketua Jurusan Matematika

Drs. Sutrima, M.Si

NIP. 19661007 199302 1 001


commit to user

iii

ABSTRAK

Laila Kurnia Damayanti, 2011. APLIKASI ALGORITMA CART UNTUK

MENGKLASIFIKASIKAN DATA NASABAH ASURANSI JIWA BERSAMA

BUMIPUTERA 1912 SURAKARTA. Fakultas Matematika dan Ilmu Pengetahuan Alam,

Universitas Sebelas Maret.

Masalah klasifikasi sering dijumpai dalam kehidupan sehari-hari, baik

mengenai data sosial, industri, kesehatan, perusahaan maupun perbankan. Masalah

tersebut dapat diselesaikan dengan metode klasifikasi. Algoritma CART

(Classification and Regression Trees) merupakan metode statistik nonparametrik

yang berguna untuk memperoleh kelompok data yang akurat dalam analisis

klasifikasi. Data nasabah Asuransi Jiwa Bersama Bumiputera mempunyai banyak

atribut yang bertipe kategorik (nominal maupun ordinal) yang tidak mudah untuk

ditangani. Algoritma CART merupakan salah satu metode yang cocok untuk

mengatasi masalah tersebut dengan kelebihan-kelebihan yang dimilikinya. Algoritma

CART diaplikasikan untuk mengklasifikasikan nasabah AJB Bumiputera 1912

Surakarta. Selanjutnya pola status pembayaran nasabah dapat dicari untuk

menentukan calon nasabah yang akan datang. Proses pembentukan pohon klasifikasi terbagi menjadi 4 tahapan yaitu pembentukan

pohon, pelabelan kelas, proses pemangkasan pohon klasifikasi dan pemilihan pohon

klasifikasi optimal. Data nasabah dibagi menjadi dua kelompok data yaitu data learning dan

data testing. Dalam skripsi ini dilakukan tiga kombinasi proporsi data learning dan data

testing yaitu: (1) pembagian data learning dan data testing dengan proporsi data learning >

data testing (70%: 30%), (2) pembagian data learning dan data testing dengan proporsi data

learning = data testing (50% : 50%), (3) pembagian data learning dan data testing dengan

proporsi data learning < data testing (40% : 60%).

Hasil penelitian menunjukkan bahwa untuk membuat model yang akan

digunakan untuk mengklasifikasikan data baru maka pohon klasifikasi optimal yang

digunakan adalah pohon pada kondisi pertama dengan proporsi data learning dan data

testing sebesar 70%:30%, dimana nilai ketepatan data testingnya tertinggi yaitu

sebesar 83.65 %. Dengan Algoritma CART dapat dikatakan bahwa status

pembayaran nasabah dikategorikan tidak lancar jika cara bayar dilakukan secara

bulanan. Sedangkan status pembayaran dikategorikan lancar jika cara bayar

dilakukan secara setengah tahunan atau tahunan.

Kata kunci : Pohon klasifikasi, CART, nasabah asuransi jiwa Bumiputera


commit to user

iv

ABSTRACT

Laila Kurnia Damayanti, 2011. THE APPLICATION OF CART ALGORITHM TO

CLASSIFY DATA OF CUSTOMERS MUTUAL LIFE INSURANCE BUMIPUTERA

1912 IN SURAKARTA. Faculty of Mathematics and Natural Sciences, Sebelas Maret

University.

. In everyday life, the problem of classification is very frequently found, both in social

data, industrial, healthcare, corporate and banking. These problems can be solved by the

method of classification. Algorithm CART (Classification and Regression Trees) is a

nonparametric statistical method that is useful to obtain accurate sets of data in the

classification analysis. The data of customers Mutual Life Insurance Bumiputera had many

attributes that type of categorical (nominal or ordinal) is not easy to handle. CART algorithm

is a suitable method to resolve the issue with the advantages it is had. The CART algorithm is

applies to classify customers Mutual Life Insurance Bumiputera 1912 in Surakarta. Further to

note patterns generated customer payment status to determine which prospective customers

will come.

The tree classification building divided into four step i.e. the splitting nodes and class

assignment, stop the split, the tree pruning classification and the optimal selection tree

classification. In this paper is applies three combinations of proportions of learning data and

testing data are: (1) the distribution of learning data and testing data with the proportion of

learning data higher than data testing (70%: 30%), (2) the distribution of learning data and

testing data with the proportion of data learning is equal testing data (50%: 50%), (3) data

sharing learning and testing data with the proportion of learning data lower than data testing

(40%: 60%).

The results shows that in order to create a model that will be used to classify new

data, the optimal classification tree is a tree that is used in the first condition that the

proportion of learning data and testing data is equal 70%:30%, where the highest value

testing data accuracy that is equal to 83.65%. With CART algorithm can describe that under

the monthly payment basis customer payment status is classified as stagnating. While

categorized as no constrain payment status if payment is done half-way annual or annual.

Keywords: classification tree, CART, insurance customers of Bumiputera


commit to user

v

MOTTO

“Sesungguhnya sesudah kesulitan itu ada kemudahan, maka apabila kamu telah

selesai (dari suatu urusan), kerjakanlah dengan sungguh-sungguh (urusan) yang lain”

(QS. Alam Nasyirah: 6-7)


commit to user

vi

PERSEMBAHAN

Karya ini penulis kupersembahkan untuk :

Orang tuaku tercinta

Kakak dan adikku tersayang

My special person

Teman-temanku dan sahabat-sahabatku tercinta

Almamaterku


commit to user

vii

KATA PENGANTAR

Alhamdulillahi Rabbil’alamin. Puji syukur penulis panjatkan kehadirat Allah SWT

yang telah memberikan nikmat, rahmat, dan hidayahNya sehingga penulis dapat

menyelesaikan skripsi ini. Penulis juga tidak lupa mengucapkan terima kasih kepada

beberapa pihak yang telah banyak memberikan masukan untuk perbaikan penulisan skripsi

ini, khususnya kepada

1. Bapak Irwan Susanto, DEA dan Drs. Pangadi, M.Si. selaku Pembimbing I dan

Pembimbing II yang telah memberikan bimbingan, nasehat, kritik dan saran selama

penyusunan skripsi ini.

2. Bapak Drs. Sutrima, M.Si yang telah memberikan semangat, bimbingan, nasehat,

kritik dan saran dalam penyusunan skripsi ini.

3. Bapak, Ibu, Kakak, serta Adikku atas doa, kasih sayang, perhatian dan segalanya

yang telah menjadikan penulis selalu semangat dan termotivasi untuk melakukan

yang terbaik.

4. Sahabat-sahabat tercinta Hayu, Tya, Linda, Dewanti serta Mas Cica terima kasih atas

dukungan, support serta bimbingan yang telah diberikan dalam menyelesaikan

skripsi ini.

Selanjutnya, semoga skripsi ini dapat bermanfaat bagi pihak yang membutuhkan.

Surakarta, April 2011

Penulis


commit to user

viii

DAFTAR ISI

JUDUL …………………………………………………………………………. i

PENGESAHAN ………………………………………………………………... ii

ABSTRAK ……………………………………………………………………... I iii

ABSTRACT ……………………………………………………......................... iv

MOTTO ………………………………………………………………………... v

PERSEMBAHAN ……………………………………………………………… vi

KATA PENGANTAR …………………………………………………………. vii

DAFTAR ISI …………………………………………………………………… viii

DAFTAR TABEL …………………………………………………………........

DAFTAR GAMBAR …………………………………………………………...

x

xi

DAFTAR NOTASI …………………………………………………………….. xii

BAB I PENDAHULUAN …………………………………………………. 1

1.1. Latar Belakang Masalah ………………………………………. 1

1.2. Perumusan Masalah …………………………………………… 2

1.3. Batasan Masalah ………………………………………………. 3

1.4. Tujuan Penelitian………………………………………………. 3

1.5. Manfaat Penelitian……………………………………………... 3

BAB II LANDASAN TEORI ……………………………………………… 4

2.1. Tinjauan Pustaka ………………………………………………. 4

2.1.1. Teori Probabilitas….……………………………………… 4

2.1.2. Analisi Klasifikasi………………………………………… 7

2.1.3. Masalah Umum Klasifikasi...……………………………... 8

2.1.4. Algoritma CART………….………………………………. 11

2.1.5. Struktur atau Bentuk Pohon Klasifikasi…………...……… 12

2.1.6. Binary Recursive Partitioning….….…………………….... 14

2.1.7. Langkah-langkah Kerja CART..………………………….. 16


commit to user

ix

2.1.7.1 Proses Pemecahan Node…………………………..

2.1.7.2 Pelabelan Kelas (Class Assignment)………………

2.1.7.3 Proses Penghentian Pemecahan…………………...

2.1.7.4 Proses pemangkasan Pohon……………………….

2.1.7.5 Pohon Klasifikasi Optimal………………………...

2.1.8. Predictive Accuracy……………………………………….

16

19

20

21

24

27

2.1.9. Interpretasi Pohon Klasifikasi…..………………………… 30

2.2. Kerangka Pemikiran …………………………………………... 32

BAB III METODE PENELITIAN ………………………………………….. 33

3.1. Sumber Data……………………………………………………

3.2. Metode Analisis Data …………………………………………..

33

34

BAB IV PEMBAHASAN …………………………………………………… 36

4.1 Deskripsi Data…………………………………………………...

4.2 Hasil Analisis CART………………………...…………………

4.2.1 Pembentukan Pohon Klasifikasi Kondisi Pertama………...

4.2.2 Pembentukan Pohon Klasifikasi Kondisi Kedua………….

4.2.3 Pembentukan Pohon Klasifikasi Kondisi Ketiga………….

4.2.4 Pemilihan Kondisi yang Tepat…………………………….

4.2.5 Interpretasi Pohon Klasifikasi Terbaik………...………….

36

37

37

46

55

64

65

BAB V PENUTUP ………………………………………………………… 68

5.1. Kesimpulan ……………………………………………………. 68

5.2. Saran …………………………………………………………... 68

DAFTAR PUSTAKA ………………………………………………………….. 69

LAMPIRAN ……………………………………………………………………. 70


commit to user

x

DAFTAR TABEL

Tabel 4.1. Variabel Independen dan Variabel Dependen ……………………... 36

Tabel 4.2. Kriteria Pemilah Terbaik Root Node Kondisi Pertama ……………. 38

Tabel 4.3. Tree Sequence Kondisi Pertama …………………………………… 44

Tabel 4.4. Tingkat Akurasi Pohon Optimal Dengan Data Learning

Kondisi Pertama …………………………………………………….

45

Tabel 4.5. Tingkat Akurasi Pohon Optimal Dengan Data Testing

Kondisi Pertama …………………………………………………….

46

Tabel 4.6. Kriteria Pemilah Terbaik Root Node Kondisi Kedua ……………… 47

Tabel 4.7. Tree Sequence Kondisi Kedua ……………………………………... 53


Kondisi Kedua ………………………………………………………

54


Kondisi Kedua ………………………………………………………

55

Tabel 4.10. Kriteria Pemilah Terbaik Root Node Kondisi Ketiga………………

Tabel 4.11. Tree Sequence Kondisi Ketiga...........................................................


Kondisi Ketiga....................................................................................


Kondisi Ketiga....................................................................................

Tabel 4.14. Nilai Ketepatan dari Ketiga Kondisi ……………………………….

56

62

63

64

64


commit to user

xi

DAFTAR GAMBAR

Gambar 2.1. Pohon Klasifikasi CART …………………...……………………. 13

Gambar 2.2. Proses Partisi ………………………………………….…………. 15

Gambar 2.3. Pohon Klasifikasi T ……………………………………………… 22

Gambar 2.4. Branch Tt2 .........………………………………………………….. 22

Gambar 2.5. Pohon Klasifikasi T-Tt2 (Pruned Subtree)………………………... 22

Gambar 2.6. Contoh Pohon Klasifikasi (CART) .............................…………... 31

Gambar 4.1. Pemilahan Root Node Kondisi Pertama …………………………. 39

Gambar 4.2. Terminal Node 46 dan 47 Kondisi Pertama ……………………... 40

Gambar 4.3. Pohon Klasifikasi Maksimal Kondisi Pertama ………………….. 40

Gambar 4.4. Pohon Klasifikasi Kondisi Pertama yang Akan Dipangkas ……...

Gambar 4.5. Node 36 Pada Kondisi Pertama yang Akan Dipangkas..................

Gambar 4.6. Pemilahan Root Node Kondisi Kedua............................................

Gambar 4.7. Terminal Node 23 dan 24 Kondisi Kedua......................................

Gambar 4.8. Pohon Klasifikasi Maksimal Kondisi Kedua..................................

Gambar 4.9. Pohon Klasifikasi Kondisi Kedua yang Akan Dipangkas………...

Gambar 4.10. Node 8 Pada Kondisi Kedua yang Akan Dipangkas……………..

Gambar 4.11. Pemilahan Root Node Kondisi Ketiga……………………………

Gambar 4.12. Terminal Node 10 dan 11 Kondisi Ketiga………………………..

Gambar 4.13. Pohon Klasifikasi Maksimal Kondisi Ketiga.................................

Gambar 4.14. Pohon Klasifikasi Kondisi Ketiga yang Akan Dipangkas……….

Gambar 4.15. Node 9 Pada Kondisi Ketiga Yang Akan Dipangkas ……………

41

41

48

49

49

50

50

57

58

58

59

60


commit to user

xii

DAFTAR NOTASI

x : Variabel independen

y : Variabel dependen

𝜋𝑗 : Probabilitas prior untuk kelas ke-j

R*(T) : Probabilitas terjadinya kesalahan untuk seluruh terminal node t

R(T) : Estimator R*(T)

𝜙 : Fungsi impurity

i(t) : Ukuran impurity untuk node t

∆𝑖 𝑠, 𝑡 : Fungsi penurunan keragaman pada node t dengan kriteria pemecah s

𝐼 𝑡 : Impurity node t

𝐼 𝑇 : Impurity tree (Pohon Klasifikasi T)

𝑇𝑚𝑎𝑥 : Pohon klasifikasi maksimal

𝛼 : Node complexity

𝑇 : Banyak terminal node

Rα (T) : Ukuran ongkos kompleksitas untuk pohon klasifikasi T

𝑅𝑡𝑠 T : Penduga sampel uji untuk Pohon klasifikasi T

𝑅𝑐𝑣 𝑇 : Penduga validasi silang lipat V untuk pohon klasifikasi T

R*(d) : Proporsi misclassification yang sebenarnya

R(d) : Estimator R*(d)

Rts(d) : Proporsi misclassification dengan metode Test Sample Estimate

Rcv

(d) : Proporsi misclassification dengan metode V-Fold Cross Validation


commit to user

1

BAB I

PENDAHULUAN

1.1 Latar Belakang Masalah

Masalah klasifikasi sering dijumpai pada kehidupan sehari-hari, baik

mengenai data sosial, data industri, data kesehatan, data perusahaan maupun data

perbankan. Masalah tersebut dapat diselesaikan dengan metode klasifikasi. Menurut

Webb dan Yohannes [8] metode klasifikasi dapat dilakukan dengan pendekatan

parametrik dan nonparametrik. Dalam pendekatan parametrik terdapat beberapa

metode klasifikasi yang sering digunakan antara lain : Analisis Regresi Logistik,

Analisis Diskriminan dan Analisis Regresi Probit. Analisis Regresi Logistik dan

Analisis Regresi Probit memiliki kelemahan, yaitu nilai yang dihasilkan model

Regresi Logistik dan Regresi Probit berupa nilai probabilitas yang dirasa kurang

praktis. Pada Analisis Diskriminan, data diharuskan memenuhi beberapa asumsi yaitu

data harus berdistribusi normal dan matriks kovarian yang sama untuk setiap

populasi, Breiman et.al. [1].

Dengan adanya keterbatasan metode klasifikasi parametrik, maka digunakan

pendekatan nonparametrik. Metode nonparametrik tidak bergantung pada asumsi

tertentu sehingga memberikan fleksibilitas yang lebih besar dalam menganalisa data

tetapi tetap mempunyai tingkat akurasi yang tinggi dan mudah dalam penggunaannya.

Ada beberapa metode klasifikasi dengan pendekatan nonparametrik yang sering

digunakan, salah satunya adalah metode klasifikasi berstruktur pohon yang

diperkenalkan oleh Leo Breiman, et.al. [1] yaitu Classification and Regression Trees

(CART). Algoritma CART memiliki banyak keunggulan dibandingkan dengan metode

lain seperti, variabel-variabel dalam CART baik variabel dependen maupun

independen tidak menggunakan asumsi distribusi tertentu, variabel independennya

dapat bertipe kategorik (nominal atau ordinal) maupun kontinu, tidak berlaku adanya

transformasi data dan interpretasinya mudah dipahami.


commit to user

2

Masalah klasifikasi juga di alami dalam bidang asuransi, khususnya AJB

Bumiputera 1912 Surakarta. Asuransi Jiwa Bersama Bumiputera 1912 telah

mengumpulkan data nasabah sekian tahun lamanya sehingga mencapai data dalam

jumlah yang besar. Data tersebut mempunyai banyak atribut bertipe kategorik

(nominal atau ordinal). Untuk menganalisisnya diperlukan pengetahuan yang tidak

mudah, dimana bisa menangani masalah data yang terjadi di AJB Bumiputera

tersebut.

Masalah yang muncul dalam AJB Bumiputera Surakarta adalah apabila ingin

mengelompokkan nasabah yang lancar membayar premi dan tidak lancar membayar

premi. Jika mengelompokkan nasabah yang tidak lancar membayar premi ke dalam

kelompok nasabah yang lancar membayar premi merupakan kesalahan yang dapat

berakibat cukup fatal. Lancar tidaknya pembayaran premi nasabahnya sangat penting

bagi pihak Bumiputera 1912 Surakarta karena sangat berpengaruh terhadap kinerja

serta eksistensinya dalam kehidupan sehari-hari. Untuk itu diperlukan suatu cara agar

dapat mengetahui bagaimana pola nasabah yang dikatakan lancar maupun tidak

lancar sehingga dapat membantu pihak Bumiputera dalam mengklasifikasikan

nasabahnya. Dengan demikian pihak Bumiputera dapat mempertimbangkan nasabah

yang akan nantinya akan diterima ataupun ditolak dengan hasil analisis tersebut.

Berdasarkan uraian di atas, penulis tertarik untuk melakukan penelitian

terhadap perusahaan asuransi khususnya AJB Bumiputera 1912 Surakarta dengan

mengaplikasikan Algoritma Classification and Regression Tress (CART) dalam data

nasabah, sehingga dapat dicari pola status nasabah untuk dapat dijadikan bahan

analisis perusahaan dalam menentukan calon nasabah di masa yang akan datang.

1.2 Rumusan Masalah

Berdasarkan latar belakang masalah, rumusan masalah yang dikemukakan adalah

1. bagaimana implementasi algoritma CART dalam mengklasifikasi atau

mengelompokkan data nasabah AJB Bumiputera 1912 Surakarta.


commit to user

3

2. bagaimana pola nasabah yang dihasilkan untuk menentukan calon nasabah yang

akan datang.

1.3 Batasan Masalah

Classification and Regression Trees (CART) terdiri dari dua metode yang

berbeda yaitu pohon klasifikasi dan pohon regresi. Dalam skripsi ini pembahasan

hanya dilakukan pada pembentukan pohon klasifikasi.

1.4 Tujuan Penelitian

Tujuan penelitian ini adalah

1. mengklasifikasikan atau mengelompokkan data nasabah AJB Bumiputera 1912

Surakarta dengan menggunakan algoritma CART .

2. menentukan pola nasabah yang dihasilkan untuk menentukan calon nasabah yang

akan datang.

1.5 Manfaat Penelitian

Dengan dilakukannya penelitian tentang klasifikasi data nasabah AJB

Bumiputera 1912 Surakarta diharapkan dapat menambah pengetahuan tentang peran

nyata statistika dalam bidang keuangan khususnya asuransi. Hasil penelitian ini juga

diharapkan dapat membantu semua pihak, khususnya pihak AJB Bumiputera 1912

Surakarta dalam mengklasifikasikan nasabahnya dan mengetahui pola yang terjadi

berdasarkan klasifikasi yang didapatkan dari hasil analisis sehingga dapat menjadi

sumbangan informasi untuk menentukan nasabah mana yang akan diterima ataupun

ditolak selanjutnya.


commit to user

4

BAB II

LANDASAN TEORI

2.1 Tinjauan Pustaka

Pada bagian ini diberikan beberapa definisi, teorema dan pengertian yang

mendasari dilakukannya penelitian ini, meliputi teori probabilitas, masalah umum

klasifikasi, algoritma CART, struktur pohon klasifikasi CART, binary recursive

partitioning, langkah kerja CART, predictive accuracy, dan interpretasi pohon

klasifikasi.

2.1.1 Teori Probabilitas

Teori probabilitas memberikan peranan yang sangat penting dalam membuat

sebuah pohon klasifikasi dengan menggunakan algoritma CART ini.

Definisi 2.1. (Wapole dan Myers, 1986) Bila suatu percobaan mempunyai N hasil

percobaan yang berbeda dan masing-masing mempunyai kemungkinan yang sama

untuk terjadi, dan bila tepat n diantara hasil percobaan itu menyusun kejadian A,

maka peluang kejadian A adalah

𝑃 𝐴 =𝑛

𝑁

Menurut Walpole dan Myers [7] kaidah-kaidah probabilitas yang banyak digunakan

dalam membuat sebuah pohon klasifikasi, antara lain adalah

1. kaidah penjumlahan

a. kaidah penjumlahan dua kejadian yang saling terpisah.

Bila A dan B saling terpisah, maka

𝑃 𝐴 ∪ 𝐵 = 𝑃 𝐴 + 𝑃 𝐵

b. kaidah penjumlahan n buah kejadian yang saling terpisah.

Bila 𝐴1,𝐴2 ,⋯ ,𝐴𝑛 kejadian-kejadian yang saling terpisah, maka

𝑃(𝐴1 ∪ 𝐴2 ∪⋯∪ 𝐴𝑛 ) = 𝑃 𝐴1 + 𝑃 𝐴2 +⋯+ 𝑃 𝐴𝑛


commit to user

5

c. bila A dan 𝐴′ adalah dua kejadian yang satu merupakan komplemen

lainnya maka

𝑃 𝐴 + 𝑃 𝐴′ = 1

2. kaidah peluang bersyarat

peluang bersyarat B, bila A diketahui dilambangkan dengan 𝑃 𝐵|𝐴 .

didefinisikan sebagai

𝑃 𝐵|𝐴 =𝑃(𝐴 ∩ 𝐵)

𝑃(𝐴) ,𝑃 𝐴 > 0

3. kaidah penggandaan

a. kaidah penggandaan khusus

Bila kejadian A dan B saling bebas maka

𝑃 𝐴 ∩ 𝐵 = 𝑃 𝐴 .𝑃 𝐵

b. Jika kejadian-kejadian 𝐴1,𝐴2 ,⋯ ,𝐴𝑛 saling bebas, maka

𝑃(𝐴1 ∩ 𝐴2 ∩ 𝐴3 ⋯∩ 𝐴𝑛 ) = 𝑃 𝐴1 𝑃 𝐴2 𝑃 𝐴3 ⋯𝑃 𝐴𝑛 .

4. kaidah bayes

Jika kejadian-kejadian 𝐵1,𝐵2,⋯ ,𝐵𝑛 merupakan partisi dari ruang sampel S

dengan 𝑃(𝐵𝑖) ≠ 0 untuk 𝑖 = 1, 2,⋯ ,𝑛 maka untuk sembarang kejadian A

yang bersifat 𝑃(𝐴 ) ≠ 0 maka untuk 𝑘 = 1, 2,⋯ ,𝑛

𝑃 𝐵𝑘 |𝐴 =𝑃 𝐵𝑘 ∩ 𝐴

𝑃 𝐵𝑖 ∩ 𝐴 𝑛𝑖=1

=𝑃 𝐵𝑘 𝑃 𝐴|𝐵𝑘

𝑃 𝐵𝑖 𝑃 𝐴|𝐵𝑖 𝑛𝑖=1

Probabilitas dalam CART

Dalam learning sample ℒ dengan banyaknya kelas adalah j, diberikan

N : banyaknya objek atau cases pada learning sample ℒ

Nj : banyaknya objek atau cases pada kelas j

dengan

Probabilitas prior (𝜋𝑗 ) =𝑁𝑗

𝑁


commit to user

6

Probabilitas prior merupakan informasi awal mengenai proporsi atau

perbandingan banyaknya objek pada tiap-tiap kelas dalam ℒ . Nilai probabilitas prior

ini diestimasi dari proporsi 𝑁𝑗

𝑁 yang diperoleh dari data. Menurut Webb dan

Yohannes [8] setidaknya ada 2 jenis dari probabilitas prior dalam CART yaitu

1. priors data, mengasumsikan bahwa proporsi banyaknya objek dalam suatu

kelas yang terdapat dalam sampel sama dengan yang terdapat dalam

populasinya. Prior data diestimasi oleh (𝜋𝑗 ) =𝑁𝑗

𝑁.

2. priors equal, mengasumsikan bahwa proporsi banyaknya objek tiap-tiap kelas

adalah sama. Diestimasikan P(kelas1) = P(kelas 2) = 1

2 .

Dalam sebuah node t, diberikan :

𝑁𝑡 ∶ Banyaknya objek atau cases dalam ℒ yang mana 𝑥0 ∈ 𝑡 (banyaknya objek

dalam node t

𝑁𝑗 𝑡 ∶ Banyaknya objek atau cases kelas j yang berada dalam node t

𝑁𝑗 (𝑡)

𝑁𝑗 ∶ proporsi objek-objek dalam kelas j yang berada di node t

𝑃 𝑗, 𝑡 : probabilitas bahwa sebuah objek adalah anggota kelas j dan berada dalam

node t

sehingga

𝑃 𝑗, 𝑡 = 𝜋𝑗 .𝑁𝑗 𝑡

𝑁𝑗

=𝑁𝑗

𝑁.𝑁𝑗 (𝑡)

𝑁𝑗

𝑃 𝑗, 𝑡 =𝑁𝑗 (𝑡)

𝑁 . (2.1)

Jika 𝑃 𝑡 adalah probabilitas beberapa objek akan berada dalam node t, maka

berdasarkan rumusan (2.1), diperoleh


commit to user

7

𝑃 𝑡 = 𝑃(𝑗,

𝐽

𝑗

𝑡)

= 𝑃 1, 𝑡 + 𝑃 2, 𝑡 +⋯+ 𝑃 𝐽, 𝑡

=𝑁1 𝑡

𝑁+𝑁2 𝑡

𝑁+⋯+

𝑁𝐽 𝑡

𝑁

𝑃 𝑡 =𝑁𝑡𝑁

. (2.2)

Jika 𝑃 𝑗|𝑡 adalah probabilitas bahwa sebuah objek adalah anggota kelas j yang

berada dalam node t, maka berdasarkan persamaan (2.2) diperoleh

𝑃 𝑗|𝑡 =𝑃(𝑗, 𝑡)

𝑃(𝑡)=

𝑁𝑗 (𝑡)𝑁𝑁(𝑡)𝑁

=𝑁𝑗 (𝑡)

𝑁(𝑡) (2.3)

dan 𝑃 𝑗|𝑡 = 1 . 𝑗

2.1.2 Analisis Klasifikasi

Analisis klasifikasi yaitu suatu analisis untuk memisahkan objek-objek ke

dalam dua kelas atau lebih serta menentukan atau mengalokasikan objek-objek baru

ke dalam kelas-kelas tersebut. Jadi, ada dua fungsi dalam analisis klasifikasi, yaitu

1. fungsi partisi, yaitu memisahkan objek-objek ke dalam dua kelas atau lebih

berdasarkan aturan klasifikasi tertentu.

2. fungsi prediksi, yaitu untuk mengalokasikan objek-objek baru (belum diketahui

kelasnya) ke dalam kelas-kelas tersebut.

Untuk melakukan kedua fungsi tersebut digunakan suatu alat klasifikasi

yaitu classifier dengan cara-cara atau metode yang sistematis. Beberapa contoh

classifier diantaranya adalah Analisis Diskriminan, Regresi Logistik, K-th Nearest

Neighbor, Kernel Density Estimation, Neural Network, dan Classification and

Regression Trees (CART). Classifier memisahkan objek-objek ke dalam kelas-

kelas yang berbeda berdasarkan pengukuran pada M variabel random 𝑥𝑚 ;𝑚 =


commit to user

8

1, 2, 3,… ,𝑀 yang selanjutnya disebut dengan variabel independen sedangkan

variabel yang memuat kelas-kelas dari objek disebut variabel dependen 𝑌 =

{ 𝑦1,𝑦2,⋯ ,𝑦𝐽 } dimana 𝑦𝑗 ∶ kelas ke- 𝑗 ; 𝑗 = 1, 2,⋯ , 𝐽.

Definisi 2.2. (Breiman et al, 1993) Classifier adalah partisi dari 𝑋 ke

dalam 𝑗 himpunan bagian 𝐴1 ,⋯ ,𝐴𝐽 dengan 𝑋 = 𝐴𝑗𝑗 sedemikian sehingga untuk

setiap 𝑥 𝜖 𝐴𝑗 objek tersebut diprediksikan ke dalam kelas j.

𝐴𝑗 = {𝑥 ∶ 𝑑 𝑥 = 𝑗}

Classifier dibentuk berdasarkan data terdahulu atau observasi pada masa

lampau (past experience). Data-data terdahulu ini terhimpun dalam satu bentuk

susunan yang disebut dengan Learning Sample atau Training sample. Learning

Sample terdiri dari variabel-variabel independen dan variabel dependen pada kolom

dan objek-objek (cases) sebanyak N pada baris.

Definisi 2.3. (Breiman et al, 1993) Learning sample terdiri dari data

(𝑥𝑖1, 𝑗1), (𝑥𝑖2, 𝑗2),⋯ , (𝑥𝑖𝑁 , 𝑗𝑁) dengan 𝑥𝑖𝑛 𝜖 𝑋 dan 𝑗𝑛 𝜖 1,⋯ , 𝐽 ,𝑛 = 1, 2,⋯ ,𝑁,

dengan N adalah banyaknya objek (case).

Learning sample dinotasilan dengan

ℒ = { 𝑥𝑖1 , 𝑗1 , 𝑥𝑖2 , 𝑗2 ,⋯ , 𝑥𝑖𝑁 , 𝑗𝑁 .

2.1.3 Masalah Umum Klasifikasi (Misclassification, Rebstitution Estimate dan

Misclassification Cost)

Classification rules (aturan klasifikasi) sebagai hasil akhir dari pohon

klasifikasi yang terbentuk, nantinya akan digunakan untuk melakukan prediksi.

Aturan klasifikasi ini tidaklah sepenuhnya terhindar dari kesalahan (error). Bentuk

kesalahannya adalah kesalahan dalam mengklasifikasikan objek baru ke dalam suatu

kelas (misclassification). Sebagai contoh sebuah objek diklasifikasikan ke dalam


commit to user

9

kelas 𝑗2 padahal yang sebenarnya objek tersebut termasuk dalam kelas 𝑗1. Begitu pula

sebaliknya sebuah objek diklasifikasikan ke dalam kelas 𝑗1, padahal sebenarnya objek

itu termasuk dalam kelas 𝑗2.

Dalam CART untuk mengidentifikasi misclassification ini digunakan

resubstitution estimate. Dalam perhitungannya resubstitution estimate menggunakan

semua objek yang terdapat dalam ℒ.

Definisi 2.4. (Breiman et al, 1993) Resubstitution estimate 𝑟(𝑡) adalah probabilitas

atau peluang terjadinya misclassification di dalam sebuah node t tertentu.

𝑟 𝑡 = 1−maks 𝑗

𝑝(𝑗|𝑡).

Definisi 2.5. (Breiman et al, 1993) Resubstitution estimate 𝑅(𝑡) adalah probabilitas

atau peluang terjadinya misclassification yang dialami beberapa objek dalam

learning sample jika objek tersebut berada dalam sebuah node t tertentu.

𝑅 𝑡 = 𝑟 𝑡 .𝑃(𝑡)

dengan 𝑃(𝑡) adalah probabilitas beberapa objek akan berada dalam node t.

Definisi 2.6. (Breiman et al, 1993) Resubstitution estimate 𝑅(𝑇) adalah probabilitas

atau peluang terjadinya misclassification yang dialami beberapa objek untuk

keseluruhan terminal node t atau peluang terjadinya misclassification yang

disebabkan oleh pohon klasifikasi yang terbentuk

dengan

𝑅 𝑇 = 𝑅(𝑡)

t ∈𝑇

𝑇 adalah himpunan semua terminal node.

Konsep yang berkaitan dengan misclassification yaitu cost (misclassification

cost). Konsep misclassification cost muncul karena dalam beberapa masalah

klasifikasi tidaklah realistis untuk memberikan besar resiko yang sama terhadap

kesalahan klasifikasi ini. Mungkin saja resiko melakukan kesalahan klasifikasi

sebuah objek anggota kelas 1 menjadi anggota kelas 2 lebih besar daripada


commit to user

10

melakukan kesalahan klasifikasi sebuah objek anggota kelas 2 menjadi anggota kelas

1 atau sebaliknya.

Sebagai contoh dalam diagnosis suatu penyakit, menyatakan seorang pasien

dalam kategori ”tidak fatal” padahal keadaan sebenarnya “fatal” jelas lebih beresiko

daripada menyatakan bahwa ia “fatal” padahal keadaan sebenarnya “tidak fatal”.

Definisi 2.7. (Breiman et al, 1993) 𝐶(𝑖|𝑗) adalah besar cost untuk terjadinya

misclassification sebuah objek kelas j sebagai objek kelas i, dengan 𝐶 𝑖|𝑗 > 0, 𝑖 ≠ 𝑗

dan 𝐶 𝑖|𝑗 = 0, 𝑖 = 𝑗.

Besar cost dari misclassification ini biasa dituliskan dalam bentuk cost matriks.

Kelas Sebenarnya

1 2

Hasil Prediksi 1 0 C(1|2)

2 C(2|1) 0

Misal diketahui sebuah node t dengan probabilitas 𝑃 𝑗|𝑡 tertentu, 𝑗 = 1, 2,⋯ , 𝐽 jika

diketahui sebuah objek berada dalam node t tersebut dan diklasifikasikan ke dalam

kelas i, maka estimasi rata-rata ongkos kesalahan klasifikasi (expected

misclassification cost) adalah

𝐶 𝑖|𝑗 𝑃 𝑗|𝑡 .

𝑗

Selanjutnya didefinisikan resubstitution estimate 𝑟(𝑡) berdasarkan expected

misclassification cost ini.

Definisi 2.8. (Breiman et al, 1993) Resubstitution estimate 𝑟(𝑡) berdasarkan

expected misclassification cost di dalam sebuah node t adalah

𝑟 𝑡 = min𝑖 𝐶 𝑖|𝑗 𝑃(𝑗|𝑡)

𝑗

.


commit to user

11

Dengan mendefinisikan 𝑅 𝑡 = 𝑟 𝑡 𝑃 𝑡 𝑑𝑎𝑛 𝑅 𝑇 = 𝑅 𝑡 t∈𝑇 .

Jika dipunyai nilai 𝐶 𝑖|𝑗 = 1 𝑢𝑛𝑡𝑢𝑘 𝑖 ≠ 𝑗 𝑑𝑎𝑛 𝐶 𝑖|𝑗 = 0 untuk 𝑖 = 𝑗 maka

diperoleh

𝐶 𝑖|𝑗 𝑃 𝑗|𝑡 = 𝑃 𝑗|𝑡 𝑃 𝑖 𝑡 .

𝑗𝑗

Berdasarkan persamaan (2.3) maka diperoleh

𝐶 𝑖|𝑗 𝑃 𝑗|𝑡 = 1− 𝑃(𝑖|𝑡)

𝑗

sehingga

𝑟 𝑡 = min𝑖 𝐶 𝑖|𝑗 𝑃 𝑗|𝑡

𝑗

= min𝑖 1 − 𝑃 𝑖|𝑡 .

Nilai min𝑖(1− 𝑃 𝑖|𝑡 ) akan diperoleh apabila 𝑃 𝑖|𝑡 maksimum, sehingga dapat

dituliskan pula 𝑟 𝑡 = 1−max𝑖 𝑃(𝑖|𝑡), yang identik dengan definisi 2.4.

Berdasarkan hasil di atas, definisi 2.5 adalah resubstitution estimate 𝑟 𝑡 dalam

sebuah node t apabila semua nilai 𝐶 𝑖|𝑗 = 1 atau sama untuk semua 𝑖 ≠ 𝑗.

2.1.4 Algoritma CART

Algoritma CART adalah sebuah metode statistik nonparametrik yang

digunakan untuk melakukan analisis klasifikasi. Algoritma CART pertama kali

diperkenalkan pada tahun 1993 oleh ilmuwan Amerika Serikat yaitu Breiman, et al.

Algoritma CART terdiri dari dua analisis yaitu pohon klasifikasi dan pohon regresi.

Jika variabel dependen yang dimiliki bertipe kategorik (nominal atau ordinal), maka

CART menghasilkan pohon klasifikasi sedangkan jika variabel dependen yang

dimiliki bertipe kontinu atau numerik (interval atau rasio) maka CART akan

menghasilkan pohon regresi. Pohon CART dikatakan binary decision tree karena

merupakan algoritma pohon keputusan yang dibangun dengan memisahkan node ke


commit to user

12

dalam dua child nodes secara berulang-ulang diawali dengan root node. Dalam

skripsi ini pembahasan dikhususkan pada pohon klasifikasi.

Menurut Lewis [3] beberapa keunggulan CART dibanding dengan metode

statistik yang lain (khususnya parametrik) diantaranya adalah

1. variabel-variabel dalam CART baik variabel independen maupun dependen tidak

mendasarkan atau mengasumsikan distribusi populasinya pada distribusi

probabilitas tertentu. Sehingga CART termasuk dalam kelompok metode statistik

nonparametrik.

2. variabel–variabel independen dalam CART bisa bertipe kategorik (nominal atau

ordinal) tanpa diperlukannya pembuatan variabel dummy ataupun juga bisa

bertipe kontinu.

3. CART mampu untuk mengatasi missing value.

4. CART tidak terpengaruh oleh adanya outlier, kolinearitas, dan heteroskedastisitas

diantara variabel independennya.

5. dalam CART tidak berlaku adanya transformasi data. Data-data asli yang dirubah

ke dalam bentuk apapun tidak akan mempengaruhi dalam pembentukan pohon

klasifikasinya.

6. interpretasi dari pohon klasifikasi yang dihasilkan oleh CART sangat mudah

dipahami oleh para pengguna.

2.1.5 Struktur atau Bentuk Pohon Klasifikasi CART

Algoritma CART termasuk dalam anggota analisis klasifikasi yang disebut

decision trees karena proses analisis dari CART digambarkan dalam bentuk atau

struktur yang menyerupai sebuah pohon, lebih tepatnya pohon klasifikasi yang

berbentuk biner. Biner di sini bararti bahwa setiap pemecahan parent node

menghasilkan 2 child nodes.


commit to user

13

Adapun bentuk pohon klasifikasi CART digambarkan pada Gambar 2.1

berikut:

t1

t2 t3

t4t7t5 t6

t8 t10 t11 t12t9 t13

t14 t15 t16 t17

t1

A4

A6

A3A1A2

A5 A3A2

Split 4 Split 5

Split 7

Split 6

Split 8

A4

Split 3Split 2

Split 1

X1 ≤ a

= Root Node = nonterminal node = branch = terminal node

X1 > a

X2 > bX2 ≤ b

Gambar 2.1 Pohon Klasifikasi CART

Keterangan Gambar 2.1 :

1. Root Node digambarkan dengan lingkaran. Merupakan nonterminal node paling

awal atau paling atas dan tempat inisialisasi learning sample yang dimiliki.

Inisialisasi disini menyangkut beberapa objek atau cases yang dimiliki oleh tiap-

tiap kelas.

2. Branch digambarkan dengan 2 garis lurus yang merupakan cabang dari root node.

Branch merupakan tempat kriteria pemecahan dari masing-masing nonterminal

node. Sebagai contoh : kriteria pemecahan pertama (split 1) pada branch kiri

adalah 𝑥1 ≤ 𝑎 dan branch kanan adalah 𝑥1 > 𝑎 .


commit to user

14

3. Nonterminal nodes digambarkan dengan lingkaran. Merupakan subset atau

himpunan bagian dari nonterminal node di atasnya yang memenuhi kriteria

pemecahan tertentu.

Sebagai contoh : objek-objek yang berada dalam nonterminal node 𝑡5 merupakan

subset atau himpunan bagian dari objek-objek yang berada dalam nonterminal

node 𝑡2 yang memenuhi kriteria pemecahan 𝑥2 > 𝑏.

4. Terminal nodes, digambarkan dengan persegi. Merupakan node tempat

diprediksikannya sebuah objek pada kelas tertentu (class labeled).

Sebagai contoh : jika ada beberapa objek yang masuk dalam terminal node 𝑡6,

maka objek-objek tersebut akan dimasukkan kedalam kelas 𝐴4.

5. Node 𝑡4 dan 𝑡5 merupakan child node dari node 𝑡2, sedangkan node 𝑡2 merupakan

child node dari root node 𝑡1. Begitu pun sebaliknya root node 𝑡1 merupakan

parent node untuk node 𝑡2 dan node 𝑡3, node 𝑡2 merupakan parent node untuk

node 𝑡4 dan 𝑡5 , sedangkan node 𝑡3 merupakan parent node untuk node 𝑡6 dan

node 𝑡7 , dst.

2.1.6 Binary Recursive Partitioning

Teknik atau proses kerja dari CART dalam membuat sebuah pohon klasifikasi

dikenal dengan istilah Binary Recursive Partitioning. Proses disebut binary karena

setiap parent node akan selalu mengalami pemecahan ke dalam tepat dua child node.

Sedangkan recursive berarti bahwa proses pemecahan tersebut akan diulang kembali

pada setiap child nodes hasil pemecahan terdahulu, sehingga child nodes tersebut

sekarang menjadi parent nodes. Proses pemecahan ini akan terus dilakukan sampai

tidak ada kesempatan lagi untuk melakukan pemecahan berikutnya. Dan istilah

partitioning mengartikan bahwa learning sample yang dimiliki dipecah ke dalam

bagian-bagian atau partisi-partisi yang lebih kecil.

Kriteria pemecahan didasarkan pada nilai-nilai dari variabel independen yang

dimiliki. Misalkan dimiliki variabel dependen 𝑦 yang bertipe kategorik dan variabel-


commit to user

15

t2 t3

t1

t2 t3

X ≤ a X > a

t2

t4

t5

t1

t2 t3

t4 t5

X ≤ a X > a

X ≤ b X > b

a

a

b

Gambar 2.2. Proses Partisi

variabel independen 𝑥1, 𝑥2 ,⋯ , 𝑥𝑝 . Proses binary recursive partitioning bisa

diilustrasikan sebagai proses pembagian dari ruang berdimensi 𝑝 dari variabel-

variabel independen 𝑥 ke dalam partisi-partisi yang berbentuk persegi panjang dan

tidak saling bertumpang tindih. Idenya adalah membagi ruang berdimensi 𝑝 dari

variabel-variabel independen tadi ke dalam beberapa partisi yang mana masing-

masing partisi berisi objek-objek yang homogen atau seragam. Homogen di sini

maksudnya adalah objek-objek tersebut merupakan anggota satu kelas yang sama.

Walaupun pada kenyataannya keadaan seperti ini tidaklah mutlak diperoleh. Proses

splitting akan berlanjut sampai didapatkan pohon klasifikasi yang paling besar atau

maksimal (proses splitting tidak bisa dilakukan lagi)

Untuk memperjelas proses partisi, akan diberikan contoh pemilahan pada

Gambar 2.2. Pada Gambar 2.2 terlihat proses partisi node 𝑡1 dipilah dengan kriteria

pemecahan 𝑥 ≤ 𝑎 dan 𝑥 > 𝑎 . Pemecahan yang dihasilkan adalah node 𝑡2 akibat


commit to user

16

dari kriteria 𝑥 ≤ 𝑎 sedangkan node 𝑡3 terbentuk akibat kriteria pemecahan 𝑥 > 𝑎.

Kemudian proses partisi berlanjut pada node 𝑡3, dengan kriteria pemecahan 𝑥 ≤ 𝑏

dan 𝑥 > 𝑏. Node 𝑡4 terbentuk karena memenuhi kriteria 𝑥 ≤ 𝑏 dan node 𝑡5 terbentuk

karena kriteria 𝑥 > 𝑏.

2.1.7 Langkah Kerja CART

Menurut Lewis [3] pada dasarnya dalam membuat sebuah pohon klasifikasi,

CART bekerja dalam empat langkah utama. Langkah pertama adalah tree building

process yaitu proses pembentukan dan pembuatan pohon klasifikasi. Terdiri dari

proses splitting nodes yaitu proses pemecahan parent nodes menjadi dua buah child

node melalui aturan pemecahan tertentu dan dilakukan secara berulang-ulang serta

proses pelabelan kelas yaitu proses mengidentifikasi node-node yang terbentuk pada

suatu kelas tertentu melalui aturan pengidentifikasian. Langkah kedua adalah proses

penghentian pembuatan atau pembentukan pohon klasifikasi (stopping the trees

building process). Pada tahap ini pohon terakhir atau maximal tree (𝑇𝑚𝑎𝑥 ) telah

terbentuk. Langkah ketiga adalah pruning the tree yaitu proses pemangkasan atau

pemotongan 𝑇𝑚𝑎𝑥 menjadi pohon yang lebih kecil (T). Selanjutnya langkah terakhir

adalah proses optimal tree selection yaitu pemilihan atau penentuan pohon klasifikasi

yang optimal.

2.1.7.1 Proses Pemecahan Node

Proses pemecahan pada masing-masing parent node didasarkan pada

goodness of split criterion (kriteria pemecahan terbaik). Kriteria pemecahan terbaik

ini dibentuk berdasarkan fungsi impurity (fungsi keragaman).

Definisi 2.9. (Breiman et al, 1993) Fungsi impurity adalah sebuah fungsi 𝜙 yang

didefinisikan oleh (𝑃1,𝑃2 ,⋯ ,𝑃𝑗 ) ; 𝑃𝑗 ≥ 0 𝑑𝑎𝑛 𝑃𝑗 = 1, 𝑗 = 1, 2,⋯ , 𝐽𝑗 .

Fungsi impurity 𝜙 memenuhi kriteria:

(i) 𝜙 maksimum apabila nilai-nilai


commit to user

17

(𝑃1,𝑃2,⋯ ,𝑃𝑗 ) = 1

1,1

2,⋯ ,

1

𝑗 .

(ii) 𝜙 minimum apabila nilai-nilai

(𝑃1,𝑃2,⋯ ,𝑃𝑗 ) = 1, 0,⋯ ,0 , 0,1,⋯ ,0 ,⋯ , 0,0,⋯ ,1 .

(iii) 𝜙 adalah fungsi simetris dari 𝑃1,𝑃2,⋯ ,𝑃𝑗 .

Definisi 2.10. (Breiman et al, 1993) Diberikan fungsi impurity, maka impurity

measure (ukuran impurity) i(t) dari beberapa node t sebagai

𝑖 𝑡 = 𝜙 𝑃 1|𝑡 ,𝑃 2|𝑡 ,⋯ ,𝑃 𝑗|𝑡 .

Definisi 2.11. (Breiman et al, 1993) Diberikan impurity measure i(t), maka Gini

Diversity Index (Indek Keragaman Gini) adalah :

𝑖 𝑡 = 𝑃 𝑗|𝑡 𝑃 𝑖|𝑡 (2.4)

𝑗≠𝑖

Dalam sebuah node t, andaikan terdapat 1, 2 ⋯ , 𝑗 kelas. Untuk j = 1 dan i adalah

kelas-kelas lainnya maka (2.4) dapat dituliskan

𝑃 𝑗|𝑡 𝑃 𝑖|𝑡

𝑗≠𝑖

= 𝑃 1|𝑡 𝑃 2|𝑡 + 𝑃 1|𝑡 𝑃 3|𝑡 + ⋯+ 𝑃 1|𝑡 𝑃(𝑖|𝑡)

= 𝑃 1|𝑡 [ 𝑃 2|𝑡 + 𝑃 3|𝑡 +⋯+ 𝑃 𝑖|𝑡 ] (2.5)

Karena 𝑃 𝑗|𝑡 = 1 𝑗 , sehingga (2.5) menjadi

𝑃 1|𝑡 𝑃 2|𝑡 + 𝑃 3|𝑡 +⋯+ 𝑃 𝑖|𝑡 = 𝑃(1|𝑡) 𝑃 𝑗|𝑡 − 𝑃(1|𝑡)

𝑗

= 𝑃 1|𝑡 (1− 𝑃 1|𝑡 )

= 𝑃 1|𝑡 − 𝑃2 1|𝑡 .

Begitu pula untuk j = 2 dan i adalah kelas-kelas lainnya maka (2.4) dapat dituliskan

𝑃 𝑗|𝑡 𝑃 𝑖|𝑡 =

𝑗≠𝑖

(𝑃 𝑗|𝑡 − 𝑃2 𝑗|𝑡 2

𝑗=1,𝑗≠𝑖.

Untuk j = 3 dan i adalah kelas-kelas lainnya maka (2.4) dapat dituliskan


commit to user

18


𝑗≠𝑖

(𝑃 𝑗|𝑡 − 𝑃2 𝑗|𝑡 3

𝑗=1,𝑗≠𝑖

Sehingga untuk j kelas secara umum, didapatkan :


𝑗≠𝑖

(𝑃 𝑗|𝑡 − 𝑃2(𝑗|𝑡)

𝑗

)

= 𝑃 𝑗|𝑡 − 𝑃2 𝑗|𝑡 𝑗𝑗

= 1 − 𝑃2 𝑗|𝑡 𝑗

.

Sehingga berdasarkan (2.4) Gini Diversity Index dapat dituliskan

𝑖 𝑡 = 1 − 𝑃2 𝑗|𝑡 𝑗

.

Rumus (2.4) hanya berlaku apabila besar cost untuk resiko kesalahan

klasifikasi masing-masing kelas sama, C(1|2) = C(1|3) = C(i|j) jika besar cost berbeda

maka (2.4) dituliskan

𝑖 𝑡 = 𝐶 𝑖 𝑗 𝑃 𝑗|𝑡 𝑃 𝑖|𝑡 .

𝑗≠𝑖

Definisi 2.12. (Breiman et al, 1993) Jika sebuah split s dalam node t dibagi ke dalam

𝑡𝑅 dengan proporsi banyaknya objek yang masuk dalam 𝑡𝑅 adalah 𝑃𝑅 , dan 𝑡𝐿 dengan

proporsi banyaknya objek yang masuk dalam 𝑡𝐿 adalah 𝑃𝐿, maka didefinisikan

decrease impurity (pengurangan keragaman)

∆𝑖 𝑠, 𝑡 = 𝑖 𝑡 − 𝑃𝑅𝑖 𝑡𝑅 − 𝑃𝐿𝑖 𝑡𝐿 (2.6)

Nilai ∆𝑖 𝑠, 𝑡 digunakan sebagai uji goodness of split criterion (kriteria uji

pemecahan terbaik). Suatu split s akan digunakan untuk memecah node t menjadi dua

buah node yaitu node 𝑡𝑅 dan 𝑡𝐿 jika s memaksimalkan nilai

∆𝑖 𝑠∗, 𝑡 = max𝑠∆𝑖 𝑠, 𝑡 .

Berdasarkan (2.6) ∆𝑖 𝑠, 𝑡 akan maksimum apabila diperoleh 𝑃𝑅𝑖 𝑡𝑅 dan 𝑃𝐿𝑖 𝑡𝐿

minimum. Hal ini berarti splitting (pemecahan) dilakukan untuk membuat dua buah


commit to user

19

node baru yang keragamannya lebih kecil (homogen) apabila dibandingkan dengan

node awalnya (parent node). Misalkan sebuah pohon klasifikasi telah terbentuk dan

memiliki sekumpulan atau himpunan terminal nodes 𝑇 , didefinisikan impurity node

I(t), dengan

𝐼 𝑡 = 𝑖 𝑡 𝑃 𝑡 .

Didefinisikan pula tree impurity 𝐼 𝑇 , dengan

𝐼 𝑇 = 𝐼 𝑡 =𝑡∈ 𝑇

𝑖 𝑡 𝑃 𝑡 𝑡∈ 𝑇

sehingga didapatkan hasil sebagai berikut

∆𝐼 𝑠, 𝑡 = 𝐼 𝑡 − 𝐼 𝑡𝑅 − 𝐼 𝑡𝐿 .

Proposisi 2.1. Pemilihan split s yang memaksimalkan ∆𝑖 𝑠, 𝑡 ekuivalen dengan

pemilihan split s yang meminimalkan tree impurity 𝐼 𝑡 .

2.1.7.2 Pelabelan Kelas

Pelabelan kelas adalah proses pengidentifikasian tiap nodes pada suatu kelas

tertentu. Pelabelan kelas tidak hanya diberlakukan untuk terminal nodes saja,

nonterminal nodes bahkan root node mengalami proses ini. Hal ini dikarenakan

setiap nonterminal nodes memiliki kesempatan untuk menjadi terminal nodes.

Sehingga proses pelabelan kelas akan terus dilakukan selama proses splitting masih

berlanjut.

Walaupun semua nodes mengalami proses ini, tentu saja diantaranya yang

paling membutuhkan proses ini adalah terminal nodes, karena terminal nodes adalah

nodes yang sangat penting dalam memprediksi suatu objek pada kelas tertentu jika

objek tersebut berada pada terminal nodes tersebut. Misalkan sebuah pohon

klasifikasi telah terbentuk dan memiliki terminal nodes 𝑇 .

Definisi 2.13. (Breiman et al, 1993) Class assignment rule mengidentifikasikan

sebuah kelas 𝑗 ∈ {1, 2,⋯ , 𝑗} pada setiap terminal node 𝑡 ∈ 𝑇 . Kelas yang

diidentifikasikan pada node 𝑡 ∈ 𝑇 dinotasikan dengan 𝑗∗(𝑡).


commit to user

20

Ada dua aturan pelabelan kelas, masing-masing aturan berdasarkan kepada

dua macam misclassification cost yang berbeda. Kedua aturan itu diterangkan pada

definisi-definisi berikut

Definisi 2.14. (Breiman et al, 1993) Class assignment rule 𝑗∗(𝑡) didefinisikan

apabila 𝑝 𝑗|𝑡 = max𝑖 𝑝 𝑖|𝑡 𝑚𝑎𝑘𝑎 𝑗∗ 𝑡 = 𝑗

Aturan ini disebut the plurality rule (aturan keragaman) dan berdasarkan nilai

misclassification cost yang sama pada setiap kelas.

Definisi 2.15. (Breiman et al, 1993) Didefinisikan class assignment rule 𝑗∗(𝑡),

𝑗∗ 𝑡 = 𝑖0 apabila 𝑖0 meminimalkan 𝐶 𝑖|𝑗 𝑝(𝑗|𝑡)𝑗

Aturan ini berdasarkan nilai misclassification cost yang berbeda untuk tiap kelas

𝐶 𝑖|𝑗 > 0 jika 𝑖 ≠ 𝑗 dan 𝐶 𝑖|𝑗 = 0 jika 𝑖 = 𝑗.

Resubstitution estimate adalah konsekuensi logis dari proses pelabelan kelas

ini. Resubstitution estimate 𝑅 𝑡 adalah probabilitas terjadinya misclassification yang

dialami beberapa objek-objek tersebut pada node t tertentu. Proses splitting pada node

t menyatakan 𝑅 𝑡 yang kecil pada kedua node baru yang terbentuk. Hal ini

dibuktikan melalui proposisi berikut.

Proposisi 2.2. (Breiman, et al, 1993) Untuk setiap pemecahan node t menjadi 𝑡𝑅 dan

𝑡𝐿 berlaku

𝑅(𝑡) ≥ 𝑅(𝑡𝑅) + 𝑅 𝑡𝐿 .

2.1.7.3. Proses Penghentian Pemecahan

Menurut Vayssieres [4], proses splitting atau pembuatan pohon klasifikasi

akan berhenti apabila sudah tidak dimungkinkan lagi dilakukan proses pemecahan.

Proses pemecahan akan berhenti apabila hanya tersisa satu objek saja yang ada dalam

node terakhir atau semua objek yang berada di dalam sebuah node merupakan

anggota kelas yang sama (homogen). Kemudian 𝑃 𝑗, 𝑡 bernilai 0 atau 1. 𝑅 𝑡 = 0,

dan resubstitution estimate 𝑅 𝑇 untuk nilai misclassification sama dengan 0. Pada

umumnya nilai 𝑅 𝑇 menurun saat jumlah terminal node meningkat. Node-node


commit to user

21

terakhir atau yang tidak mengalami pemecahan lagi sebagai akibat dari kondisi di atas

akan menjadi terminal nodes dan diidentifikasikan pada suatu kelas tertentu sesuai

dengan class assignment rule yang telah dijelaskan sebelum ini. Pohon klasifikasi

yang terbentuk sebagai hasil dari proses ini dinamakan “maximal tree” (𝑇𝑚𝑎𝑥 ).

2.1.7.4. Proses Pemangkasan Pohon

Maximal tree (𝑇𝑚𝑎𝑥 ) yang dihasilkan dari proses tree building dapat

mengakibatkan dua masalah, Webb dan Yohannes [8] :

1. Meskipun 𝑇𝑚𝑎𝑥 memiliki tingkat akurasi yang tinggi dengan nilai

misclassification rate atau misclassification cost yang kecil bahkan bernilai

nol (dihitung dengan metode resubstitution estimate), namun 𝑇𝑚𝑎𝑥 dapat

menyebabkan over-fitting atau pencocokan nilai yang terlalu kompleks pada

data-data baru. Hal ini dikarenakan terlalu banyak variabel independen yang

digunakan untuk melakukan prediksi terhadap data baru tersebut.

2. Sebagai akibat dari point 1, 𝑇𝑚𝑎𝑥 akan sulit untuk dipahami atau

diinterpretasikan. Sehingga 𝑇𝑚𝑎𝑥 akan lebih cepat dikatakan sebagai complex

tree yang kompleksitasnya ditentukan dari banyaknya terminal node yang

dimiliki.

Proses pemangkasan pohon dimaksudkan untuk menghilangkan kedua

masalah tersebut dengan memotong atau memangkas 𝑇𝑚𝑎𝑥 menjadi beberapa pohon

klasifikasi (T) yang ukurannya lebih kecil (subtrees). Untuk mempermudah dalam

memahami proses pemangkasan ini, berikut diberikan penjelasan awal mengenai

proses ini.

Sebuah node 𝑡′ disebut descendan (anak) dari node t dan node t disebut

ancestor dari node 𝑡′ jika kedua node ini bisa dihubungkan oleh jalur-jalur yang

bergerak dari atas ke bawah (node t berada di atas node 𝑡′). Pada Gambar 2.3 pohon

klasifikasi T, 𝑡4, 𝑡5, 𝑡8, 𝑡9, 𝑡10, dan 𝑡11 adalah descendan dari 𝑡2 tetapi tidak dengan 𝑡6


commit to user

22

t1

t2 t3

t4 t5 t6 t7

t8

t9

t10

t11

Gambar 2.3. Pohon Klasifikasi T

t2

t4 t5

t8 t9 t11 t10

Gambar 2.4. Branch Tt2

t1

t2 t3

t7

t6

Gambar 2.5. Pohon Klasifikasi T – Tt2 ( pruned subtree )

(Breiman et al., 1993)

dan 𝑡7 . Begitu pula dengan 𝑡4, 𝑡2 , dan 𝑡1 adalah ancestor dari , 𝑡9 , tetapi 𝑡3

bukanlah ancestor dari 𝑡9 .


commit to user

23

Definisi 2.16. (Breiman et al, 1993) Suatu branch 𝑇𝑡 dari T dengan root node (node

akar) 𝑡 ∈ 𝑇 terdiri dari node t itu sendiri dengan semua descendant dari t dalam T.

Sebagai contoh pada gambar 2.4. branch 𝑇𝑡2.

Definisi 2.17. (Breiman et al, 1993) Pruning (pemangkasan) sebuah branch 𝑇𝑡 dari

sebuah pohon T akan menghapus atau menghasilkan semua descendant t dari T

kecuali root nodenya (t itu sendiri).

Sebagai contoh pada Gambar 2.5. pohon klasifikasi 𝑇 − 𝑇𝑡2.

Definisi 2.18. (Breiman et al, 1993) Jika 𝑇′ diperoleh dari 𝑇 sebagai hasil dari

pemangkasan suatu branch, maka 𝑇′ disebut pruned subtree dari T dan dinotasikan

dengan 𝑇 ′ < 𝑇. Sebagai catatan 𝑇′ dan T memiliki root node (node akar) yang sama.

Sebagai contoh gambar pohon klasifikasi 𝑇 − 𝑇𝑡2 menunjukkan pruned subtree.

Metode yang digunakan dalam proses pemangkasan pohon berdasarkan pada

minimal cost complexity pruning.

𝑅 𝑇 = 𝑟 𝑡 𝑃 𝑡 = 𝑅(𝑡)

𝑡∈𝑇 𝑡∈𝑇

𝑅 𝑇 adalah tree misclassification cost atau tree resubtitution cost, sedangkan 𝑅(𝑡)

disebut node misclassification cost.

Definisi 2.19. (Breiman et al, 1993) Diketahui subtree 𝑇 < 𝑇𝑚𝑎𝑥 didefinisikan

complexity (kompleksitas) dari subtree ini adalah 𝑇 , yaitu banyaknya terminal

nodes yang dimiliki T, 𝛼 ≥ 0 adalah complexity parameter atau node complexity dan

cost complexity measure (ukuran ongkos kompleksitas) 𝑅𝛼(𝑇), maka

𝑅𝛼 𝑇 = 𝑅 𝑇 + 𝛼 𝑇 .

Nilai 𝛼 bisa diartikan sebagai penalty setiap terminal node berdasarkan

kompleksitasnya, semakin besar nilai 𝛼 maka ukuran tree yang dihasilkan akan kecil,

sebaliknya jika nilai 𝛼 kecil maka kompleksitas nodenya juga kecil sehingga ukuran

tree yang dihasilkan akan besar. Sehingga contoh sebuah 𝑇𝑚𝑎𝑥 memiliki terminal

node yang berisi hanya satu objek atau homogen sehingga sehingga nilai 𝛼 untuk

𝑇𝑚𝑎𝑥 adalah 0 dan complexity measure mencapai minimum karena 𝑅(𝑇max) = 0.


commit to user

24

Nilai 𝛼 akan terus meningkat selama proses pruning berlangsung dan akan mencapai

nilai terbesar pada saat terminal node sama dengan root node.

Cost complexity pruning menentukan suatu pohon bagian 𝑇(𝛼) yang

meminimumkan 𝑅𝛼 𝑇 pada seluruh pohon bagian, atau untuk setiap nilai 𝛼, dicari

pohon bagian 𝑇 𝛼 < 𝑇𝑚𝑎𝑥 yang meminimumkan 𝑅𝛼 𝑇 yaitu

𝑅𝛼 𝑇 𝛼 = min𝑇<𝑇𝑚𝑎𝑥

𝑅𝛼 𝑇 .

Proses pemangkasan pohon klasifikasi dimulai dengan mengambil 𝑡𝑅 yang

merupakan right child node dan 𝑡𝐿 yang merupakan left child node dari 𝑇𝑚𝑎𝑥 yang

dihasilkan dari parent node t. jika diperoleh dua child node dan parent node yang

memenuhi persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿) maka child node 𝑡𝑅 dan 𝑡𝐿 dipangkas.

Hasilnya adalah pohon 𝑇1 yang memenuhi kriteria 𝑅 𝑇1 = 𝑅(𝑇𝑚𝑎𝑥 ). Proses tersebut

diulang sampai tidak ada lagi pemangkasan yang mungkin terjadi. Dan diperoleh

urutan sebagai berikut 𝑇1,𝑇2,⋯ , 𝑡1 , 𝑇1 > 𝑇2 > ⋯ > {𝑡1} . Dengan urutan 𝛼

sebagai berikut 𝛼1 = 0 < 𝛼2 < 𝛼3 < ⋯ < 𝛼𝑘 .

2.1.7.5. Pohon Klasifikasi Optimal

Pohon klasifikasi yang terbentuk dapat berukuran besar dan kompleks dalam

mengambarkan struktur data. Sehingga perlu dilakukan suatu pemangkasan, yaitu

suatu penilaian ukuran sebuah pohon tanpa mengorbankan kebaikan ketepatan

melalui pengurangan simpul pohon sehingga dicapai penghematan gambaran.

Pemangkasan dilakukan dengan memangkas bagian pohon yang kurang penting

sehingga didapat pohon optimal.

Metode pemangkasan pohon sebelumnya menghasilkan urutan subtree

𝑇1 > 𝑇2 > ⋯ > {𝑡1} karena pohon klasifikasi yang dihasilkan begitu banyak maka

permasalahan sekarang adalah bagaimana caranya menentukan pohon klasifikasi

yang optimum. Jika menggunakan resubtitution estimate

𝑅 𝑇 = 𝑟 𝑡 𝑃 𝑡 = 𝑅(𝑡)

𝑡∈𝑇 𝑡∈𝑇


commit to user

25

Maka 𝑇1 akan terpilih sebagai pohon optimum, karena nilai resubtitution estimate

dari 𝑇1 pasti paling kecil. Oleh karena itu metode resubtitution estimate merupakan

metode yang bias untuk mengestimasi true misclassification cost. Ada dua metode

tak bias untuk mengestimasi nilai true misclassification cost yaitu penduga uji sample

(test sample estimate) dan penduga validasi silang lipat V (cross validation V-fold

estimate).

1. Test Sample Estimate

Test sample digunakan jika ukuran data besar (ℒ besar). Bagilah ℒ menjadi

ℒ1dan ℒ2. Misal ℒ1sebanyak 𝑁(1) objek dan ℒ2 sebanyak 𝑁(2) objek. Buatlah 𝑇𝑚𝑎𝑥

menggunakan ℒ1 dan pangkas hingga diperoleh 𝑇𝑘 = 𝑇1 > 𝑇2 > 𝑇3 > ⋯ > {𝑡} .

Gunakan ℒ2 pada masing-masing tree dan hitunglah berapa banyak objek yang

mengalami kesalahan klasifikasi (misclassification). Untuk lebih jelasnya dinotasikan

𝑁𝑗(2)

adalah banyaknya objek anggota kelas j dalam ℒ2. Untuk setiap T pada 𝑇𝑘

hitunglah nilai 𝑁𝑖𝑗(2)

yaitu banyaknya kelas j dalam ℒ2 yang diklasifikasikan sebagai

kelas i oleh T.

Dengan estimasi 𝑄∗ 𝑖|𝑗 adalah 𝑄𝑡𝑠 𝑖|𝑗 =𝑁𝑖𝑗

(2)

𝑁𝑗(2) , jika 𝑁𝑗

(2)= 0, maka

𝑄𝑡𝑠 𝑖|𝑗 = 0, sehingga diperoleh estimasi 𝑅∗ 𝑗 adalah

𝑅𝑡𝑠 𝑗 = 𝐶(𝑖|𝑗)𝑄𝑡𝑠 𝑖|𝑗 𝑖

.

Jika estimasi probabilitas prior (𝜋𝑗 ) maka didapatkan estimasi 𝑅∗ 𝑑 , maka

𝑅𝑡𝑠 𝑇 = 𝑅𝑡𝑠 𝑗 𝑖

𝜋𝑗 .

Jika probalitas prior diestimasi dari data sampel diperoleh 𝜋𝑗 =𝑁𝑗

(2)

𝑁(2) maka bisa

dihitung oleh

𝑅𝑡𝑠 𝑇 =1

𝑁(2) 𝐶(𝑖|𝑗)𝑁𝑖𝑗

(2)

𝑖,𝑗.


commit to user

26

Test sample estimate dapat digunakan untuk memilih pohon klasifikasi yang optimum

dari 𝑇𝑘 , misal tree optimum adalah 𝑇𝑘0

𝑅𝑡𝑠 𝑇𝑘0 = min𝑘𝑅𝑡𝑠 𝑇𝑘 .

2. V-Fold Cross Validation Estimates

Cross validation digunakan apabila ukuran sampel kecil. Dalam V-Fold Cross

Validation , learning sample ℒ dibagi secara acak ke dalam V bagian, ℒ𝑣, v = 1, 2,

⋯, V. setiap bagian berisi objek dalam jumlah yang sama (mendekati sama). Learning

sample ke-v adalah ℒ (𝑣) = ℒ − ℒ𝑣 , 𝑣 = 1, 2,⋯ ,𝑉. Dengan demikian ℒ (𝑣) berisi

(𝑉−1)

𝑉 dari total objek. Biasanya diambil 𝑉 = 10, sehingga ℒ (𝑣) berisi

9

10

objek dari ℒ.

Dalam V-Fold Cross Validation ada V pohon klasifikasi tambahan yang

dibuat bersamaan dengan pohon klasifikasi utama yang menggunakan ℒ. Ke-V pohon

klasifikasi tambahan tersebut dibuat dengan learning sample ℒ (𝑣). Dimulai dengan

membuat V maksimal tree , 𝑇𝑚𝑎𝑥(𝑣)

, 𝑣 = 1, 2,⋯ ,𝑉 seperti halnya 𝑇𝑚𝑎𝑥 . Untuk setiap

nilai complexity parameter atau node complexity 𝛼, dibuat 𝑇(𝛼),𝑇(𝑣)𝛼 dibuat oleh

ℒ (𝑣) tanpa melibatkan ℒ𝑣 sisanya (1/10 dari ℒ) ℒ𝑣 ini digunakan sebagai test sample

pada masing-masing 𝑇(𝑣)𝛼.

Untuk setiap 𝑣, 𝑖, 𝑗 didefinisikan

𝑁𝑖𝑗 = 𝑁𝑖𝑗(𝑣)

𝑣

dengan 𝑁𝑖𝑗(𝑣)

: banyaknya objek anggota kelas j dalam ℒ (𝑣)yang diklasifikasikan

sebagai kelas i oleh 𝑇(𝑣)𝛼.

𝑁𝑖𝑗 ∶ jumlah keseluruhan dari objek-objek kelas j yang diklasifikasikan

sebagai kelas i.


commit to user

27

Oleh karena setiap objek muncul sekali dan hanya sekali ℒ (𝑣)maka jumlah

keseluruhan objek kelas j di dalam seluruh test sample adalah 𝑁𝑗 sama dengan

banyaknya objek kelas j dalam ℒ,

𝑄𝑐𝑣 𝑖|𝑗 =𝑁𝑖𝑗

𝑁𝑗

𝑅𝑐𝑣 𝑗 = 𝐶(𝑖|𝑗)𝑄𝑐𝑣 𝑖|𝑗 𝑖

𝑅𝑐𝑣 𝑇(𝛼) = 𝑅𝑐𝑣(𝑗)𝜋𝑗𝑖 .

Jika probabilitas prior diestimasi oleh 𝜋𝑗 =𝑁𝑗

𝑁, maka menjadi

𝑅𝑐𝑣 𝑇(𝛼) =1

𝑁 𝐶(𝑖|𝑗)

𝑖𝑁𝑖𝑗 .

Untuk memilih pohon klasifikasi yang optimum dari 𝑇𝑘 , misal pohon klasifikasi

yang optimum itu adalah 𝑇𝑘0 maka

𝑅𝑐𝑣 𝑇𝑘0 = min𝑘𝑅𝑐𝑣 𝑇𝑘 .

2.1.8 Predictive Accuracy

Konsep misclassification yang telah dijelaskan pada bagian terdahulu,

membawa kepada konsep yang lebih penting lagi dalam membangun sebuah pohon

klasifikasi dengan menggunakan algoritma CART ini. Predictive accuracy merupakan

metode yang digunakan dalam CART untuk menguji tingkat keakurasian atau

kehandalan (validitas) dari pohon klasifikasi yang terbentuk dalam melakukan tugas

prediksinya yaitu untuk mengalokasikan objek-objek baru ke dalam kelas-kelas

tertentu.

Algoritma CART tidak menggunakan covariates-nya terhadap probabilitas

distribusi tertentu, sehingga tidak dimungkinkan untuk melakukan uji-uji hipotesis.

Metode yang digunakan untuk menguji tingkat keakurasian ini yaitu dengan cara

menguji langsung pohon klasifikasi yang terbentuk terhadap sekumpulan data yang

objek-objeknya sudah diketahui kelasnya masing-masing. Selanjutnya hitunglah


commit to user

28

proporsi banyaknya objek yang mengalami kesalahan klasifikasi (misclassification).

Semakin kecil proporsi misclassification yang terjadi, semakin akurat pohon

klasifikasi yang terbentuk dalam melakukan prediksi. Begitu juga sebaliknya,

semakin besar proporsi misclassification semakin tidak akurat pohon klasifikasi yang

terbentuk dalam melakukan prediksinya.

Proporsi misclassification yang sebenarnya (populasi) adalah

𝑅∗ 𝑑 = 𝑃(𝑑(𝑋𝑛) ≠ 𝑗)

dengan

𝑑 𝑥𝑛 ∶ fungsi klasifikasi atau aturan klasifikasi (classification rules) dari pohon

klasifikasi yang terbentuk dengan menggunakan algoritma CART. Objek a

termasuk dalam kelas j jika 𝑥𝑎 ∈ 𝜒 maka 𝑑 𝑥𝑎 = 𝑗.

Breiman, et al [1] memperkenalkan tiga prosedur dalam menguji tingkat

keakurasian pohon klasifikasi yang terbentuk ini.

1. Resubstitition Estimate, dinotasikan dengan 𝑅 𝑑 . Konsep resubstitution

estimate yang sudah diperkenalkan pada bagian terdahulu lebih menekankan pada

sebuah pohon klasifikasi masih dalam proses pembuatan. Sedangkan konsep

resubstitution estimate pada bagian ini lebih menekankan pada saat pohon

klasifikasi telah terbentuk,

𝑅 𝑑 =1

𝑁 𝑋 𝑑 𝑥𝑛 ≠ 𝑗𝑛 .

𝑁

𝑛=1

Cara kerja :

1. Buat pohon klasifikasi dari learning sample ℒ dengan aturan klasifikasi yang

terbentuk 𝑑 𝑥𝑛 .

2. Operasikan 𝑑 𝑥𝑛 pada learning sample ℒ.

3. Hitung proporsi banyaknya objek yang salah terklasifikasikan (misclassified).

4. Nilai proporsi misclassification ini adalah nilai 𝑅 𝑑 sebagai estimator bagi

𝑅∗ 𝑑 .


commit to user

29

2. Test Sample Estimate, dinotasikan dengan 𝑅𝑡𝑠 𝑑 dan digunakan apabila ukuran

sampel besar,

𝑅𝑡𝑠 𝑑 =1

𝑁2 𝑋 𝑑 𝑥𝑛 ≠ 𝑗𝑛 .

𝑁

(𝑥𝑛 ,𝑗𝑛 )∈ℒ2

Cara kerja :

1. Bagi learning sample ℒ menjadi 2 bagian yaitu ℒ1 dan ℒ2. ℒ1 dan ℒ2 tidak

perlu sama. Sebagai contoh : 2/3 dari ℒ dipilih secara acak sebagai

ℒ1(sebanyak 𝑁1) dan 1/3 sisanya dipilih secara acak sebagai ℒ2(sebanyak 𝑁2).

2. Gunakan ℒ1 untuk membuat pohon klasifikasi dengan aturan klasifikasi yang

terbentuk yaitu 𝑑 𝑥𝑛 .

3. Operasikan 𝑑 𝑥𝑛 pada ℒ2.

4. Hitung proporsi banyaknya objek pada ℒ2 yang salah terklasifikasikan

(misclassified).

5. Nilai proporsi ini adalah nilai 𝑅𝑡𝑠 𝑑 sebagai estimator bagi 𝑅∗ 𝑑 .

3. V-Fold Cross Validation, dinotasikan dengan 𝑅𝐶𝑉 𝑑 dan digunakan apabila

ukuran sampel kecil.

Cara kerja :

1. Bagi learning sample ℒ ke dalam V bagian observasi yang sama banyak :

ℒ1,ℒ2 ,⋯ ,ℒ𝑉 sebagai subsampel.

2. Buat pohon klasifikasi dengan menggunakan V-1 subsampel, sehingga

terbentuk aturan klasifikasi 𝑑 𝑥𝑛 . Subsampel yang tersisa (ℒ𝑉) digunakan

sebagai test sample.

3. Operasikan 𝑑 𝑥𝑛 pada subsampel yang tersisa (ℒ𝑉) sehingga diperoleh nilai

𝑅𝑡𝑠 𝑑𝑉 ,

𝑅𝑡𝑠 𝑑𝑉 =1

𝑁𝑉 𝑋 𝑑 𝑉 𝑥𝑛 ≠ 𝑗𝑛 .

(𝑥𝑛 ,𝑗𝑛 )∈ℒ𝑉


commit to user

30

4. Ulangi langkah 2 dan 3 dengan menggunakan semua subsampel untuk

membuat pohon klasifikasi kedua kecuali subsampel ℒ𝑉−1. ℒ𝑉−1 sekarang

menjadi test sample dan diperoleh 𝑅𝑡𝑠 𝑑𝑉−1 .

Proses ini diulang terus sampai tiap-tiap subsample digunakan sebagai test

sample.

5. Hitung 𝑅𝐶𝑉 𝑑

𝑅𝐶𝑉 𝑑 =1

𝑉 𝑅𝑡𝑠 𝑑(𝑉)

𝑉

𝑉=1

𝑅𝐶𝑉 𝑑 ini digunakan sebagai estimator bagi 𝑅∗ 𝑑 .

Metode resubstitution estimate merupakan metode yang paling lemah. Hal ini

dikarenakan test sample yang digunakan adalah learning sample yang digunakan

untuk membuat pohon klasifikasi itu sendiri sehingga menyebabkan nilai proporsi

misclassification yang terbentuk 𝑅 𝑑 selalu rendah (underestimate).

Dalam penelitian ini digunakan metode Test Sample Estimate dalam menguji

tingkat keakurasian pohon klasifikasi yang terbentuk karena jumlah sample yang

digunakan besar.

2.1.9 Interpretasi Pohon Klasifikasi

Interpretasi dari pohon klasifikasi yang telah terbentuk disajikan dalam suatu

aturan hubungan (association rules) yang disebut dengan classification rules.

Classification rules adalah aturan pengklasifikasian yang berbentuk if… then…

(jika…maka…). Pada contoh pohon klasifikasi berikut, aturan klasifikasi yang

terbentuk adalah


commit to user

31

Gambar 4.7. Contoh Pohon Klasifikasi CART

1. jika penghasilan > 1.250 maka kelas Low Risk,

2. jika penghasilan ≤ 1.250 dan umur ≤ 30 maka kelas High Risk,

3. jika penghasilan ≤ 1.250 dan umur > 30 dan total asset > 20.000 maka kelas Low

Risk,

4. jika penghasilan ≤ 1.250 dan umur >30 dan total asset ≤ 20.000 maka kelas

High Risk.

Penghasilan ≤ 1.250 Penghasilan >1.250

N=150

HR=85

LR=65

N=150

HR=60

LR=40

Low Risk

Umur > 30 Umur ≤ 30

N=60

HR=20

LR=40

High Risk

Total asset >20.000 Total asset ≤ 20.000

High Risk Low Risk

N=150

HR=85

LR=65


commit to user

32

2.2 Kerangka Pemikiran

Dengan mengacu pada tinjauan pustaka di atas dapat disusun suatu kerangka

pemikiran yang mendasari penulisan skripsi ini. Dalam CART variabel dependen

dapat bertipe kategorik (nominal atau ordinal) dan bertipe kontinu atau numerik

(interval atau rasio), untuk variabel dependen yang bertipe kategorik (nominal atau

ordinal) digunakan CART yang menghasilkan classification trees (pohon klasifikasi),

dan dengan pohon klasifikasi tersebut dapat mengklasifikasikan atau

mengelompokkan data nasabah AJB Bumiputera 1912 Surakarta sehingga dapat

dicari pola status nasabah dalam pengambilan keputusan untuk menentukan calon

nasabah di masa yang akan datang.


commit to user

33

BAB III

METODE PENELITIAN

3.1 Sumber Data

Dalam penelitian ini, data yang digunakan adalah data sekunder yang diambil

dari data “Polis Lapse” periode 1 Januari 2010 – 1 Desember 2010 dari perusahaan

asuransi AJB Bumiputera 1912 Surakarta Kantor Cabang Solo Gladag. Penelitian

pada skripsi ini menggunakan data sebanyak 742 dengan variabel dependennya

adalah nasabah dengan kategori status pembayaran tidak lancar dan lancar, sedangkan

variabel independennya yaitu jenis kelamin, cara bayar, jangka waktu asuransi, premi

dasar, penghasilan, status, mata uang dan macam asuransi.

Berdasarkan data yang diperoleh, dilakukan pembuatan pohon klasifikasi

dengan algoritma CART menggunakan bantuan Software Salford Predictive Miner

CART Pro Ex 6.0. Pada pohon klasifikasi, data nasabah dengan status pembayaran

lancar dan tidak lancar dibagi menjadi dua kelompok data yaitu data learning dan

data testing. Karena tidak ada aturan khusus mengenai pembagian proporsi antara

data learning dan data testing maka pada penelitian ini dilakukan tiga kombinasi

proporsi data learning dan data testing yaitu: (1) pembagian data learning dan data

testing dengan proporsi data learning > data testing (70%: 30%), (2) pembagian data

learning dan data testing dengan proporsi data learning = data testing (50% : 50%),

(3) pembagian data learning dan data testing dengan proporsi data learning < data

testing (40% : 60%).

Masing-masing kombinasi data dihitung ketepatan klasifikasi untuk data

testing. Selanjutnya dipilih satu kombinasi proporsi data learning dan data testing

yang memiliki ketepatan klasifikasi data testing terbesar untuk analisis selanjutnya.

Ketepatan klasifikasi pada data testing dijadikan dasar karena dapat menggambarkan

kebaikan model pohon klasifikasi yang dibentuk untuk mengklasifikasikan data baru.


commit to user

34

3.2 Metode Analisis Data

Penelitian ini dilaksanakan dengan metode studi kasus, yaitu dilakukan

dengan menerapkan teori untuk menganalisis data. Berikut diberikan langkah-langkah

yang dilakukan dalam penelitian ini.

1. Mengumpulkan data dengan mengambil data sekunder dari AJB Bumiputera

1912 Surakarta yaitu data “Polis Lapse” periode 1 Januari 2010 – 1 Desember

2010 dari perusahaan asuransi AJB Bumiputera 1912 Surakarta Kantor Cabang

Solo Gladag.

2. Menentukan variabel dependen dan variabel independen dalam analisis.

Variabel dependennya adalah nasabah dengan kategori tidak lancar dan lancar

sedangkan variabel independennya meliputi adalah jenis kelamin, cara

pembayaran premi (Cara Bayar), jangka waktu asuransi, premi dasar,

penghasilan, status, jenis mata uang (mata uang), macam asuransi.

3. Melakukan pembuatan pohon klasifikasi dengan algoritma CART dengan

menggunakan Software Salford Predictive Miner CART Pro Ex 6.0. dengan

tahap-tahap sebagai berikut

a. Tahap I : Pembentukan atau pembuatan pohon

Langkah 1 : proses splitting nodes

Memilih variabel terbaik dengan nilai improvement atau ∆𝑖 𝑠, 𝑡 tertinggi

sebagai kriteria dalam memilih variabel yang digunakan untuk memecah

sebuah node.

Langkah 2 : proses class assignment.

Pemberian label kelas pada node-node yang telah terbentuk dimana kelas

yang diidentifikasikan pada node t adalah kelas yang mempunyai

probabilitas paling tinggi daripada kelas lainnya.

b. Tahap II : Proses penghentian pembuatan atau pembentukan pohon

klasifikasi (stopping the trees building process).


commit to user

35

Proses splitting node akan berenti karena pada ujung pohon klasifikasi

terdapat terminal node dimana anggotanya terdapat pada kelas yang sama.

c. Tahap III : Pruning the tree yaitu proses pemangkasan atau pemotongan

𝑇𝑚𝑎𝑥 menjadi pohon yang lebih kecil (T).

Proses pemangkasan pohon akan terjadi apabila dua child node dan parent

node memenuhi persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿), dimana 𝑅 𝑡 adalah

parent node, 𝑅 𝑡𝑅 adalah right child node, dan 𝑅(𝑡𝐿) adalah left child

node.

d. Tahap IV : Proses optimal tree selection yaitu pemilihan atau penentuan

pohon klasifikasi yang optimal.

Pemilihan pohon klasifikasi optimal berdasarkan pada subtree yang

mempunyai nilai test set relative cost terkecil.

4. Menguji tingkat keakuratan pohon dalam mengelompokkan data learning

maupun data testing selanjutnya memilih pohon yang menghasilkan tingkat

akurasi pohon optimal tertinggi .

5. Menginterpretasikan hasil pohon klasifikasi algoritma CART dengan tingkat

akurasi pohon optimal tertinggi dengan data testing sebagai berikut

a. Setiap parent node akan membentuk sekelompok child node dibawahnya

yang akhirnya akan terbentuk segmen-segmen.

b. Kemudian segmen-segmen tersebut diinterpretasi berdasarkan variabel-

variabel yang membangunnya.


commit to user

36

BAB IV

PEMBAHASAN

4.1. Deskripsi data

Data yang digunakan dalam pembuatan pohon klasifikasi dengan metode

CART adalah data “Polis Lapse” periode 1 Januari 2010 – 1 Desember 2010 dari

perusahaan asuransi AJB Bumiputera 1912 Surakarta Kantor Cabang Solo Gladag

yang terdapat dalam Lampiran 1. Jumlah data yang digunakan sebanyak 742 buah

data, terdiri dari 8 variabel independen (x) dan 1 variabel dependen (y).

Tabel 4.1. Variabel Independen dan Variabel Dependen

Variabel Nama Tipe Data Pelabelan

y Status Pembayaran Kategorik 1 : Tidak Lancar

2 : Lancar

x1 Jenis Kelamin Kategorik 1 : Laki-laki

2 : Perempuan

x2 Cara Bayar Kategorik 1 : Bulanan

2 : Triwulanan

3 : Setengah Tahunan

4 : Tahunan

x3 Jangka Waktu Asuransi Kontinu -

x4 Premi Dasar Kontinu -

x5 Penghasilan Kontinu -

x6 Status Kategorik 1 : Janda/duda

2 : Kawin

3 : Belum Kawin

x7 Mata Uang Kategorik 1 : Rupiah

2 : Dolar

x8 Macam Asuransi Kategorik 1 : Mitra Prima

2 : Mitra Pelangi

3 : Ekawaktu Ideal

4 : Mitra Beasiswa

Berencana

5 : Mitra Melati

6 : Mitra Cerdas

7 : Mitra Sehat

8 : Mitra Guru


commit to user

37

Variabel dependen yang digunakan terbagi menjadi dua kelas yaitu kelas tidak

lancar dan kelas lancar.

Data ini diolah dengan menggunakan paket software CART Pro Ex 6.0 produk

dari Salford Systems (http://www.salford-systems.com). Ada tiga kondisi yang

digunakan untuk membuat pohon klasifikasi dengan menggunakan algoritma CART.

1. Kondisi pertama adalah pembagian data menjadi dua bagian yaitu data

learning dan data testing dengan proporsi data learning > data testing

(70%:30%).

2. Kondisi kedua adalah pembagian data menjadi dua bagian yaitu data learning

dan data testing dengan proporsi data learning = data testing (50%:50%).

3. Kondisi ketiga pembagian data menjadi dua bagian yaitu data learning dan

data testing dengan proporsi data learning < data testing (40%:60%).

4.2. Hasil Analisis CART

4.2.1. Pembentukan Pohon Klasifikasi Kondisi Pertama

1. Proses Splitting Node

Pada kondisi pertama pembagian data menjadi dua bagian (data

learning dan data testing) dengan proporsi 70%:30%. Dengan demikian data

learning berjumlah 534 buah data, sedangkan data testing berjumlah 208 buah

data. Sebelum dilakukan proses splitting node, terlebih dahulu memilih

variabel pemilah terbaik dari kedelapan variabel independen. Pemilahan

variabel berdasarkan kriteria goodness of split. Suatu split s akan digunakan

untuk memecah node t menjadi dua buah node yaitu node 𝑡𝑅 dan node 𝑡𝐿

jika s memaksimalkan nilai ∆𝑖 𝑠∗, 𝑡 = max𝑠 ∆𝑖 𝑠, 𝑡 , dimana ∆𝑖 𝑠∗, 𝑡 adalah

nilai yang paling maksimal/tertinggi dari ∆𝑖 𝑠, 𝑡 . Root node dipecah dengan

kriteria pemecahan Cara Bayar adalah dengan cara Triwulanan, Setengah


commit to user

38

Tahunan, dan Tahunan. Variabel Cara Bayar terpilih karena nilai improvement

yaitu ∆𝑖 𝑠, 𝑡 dari variabel Cara Bayar tertinggi dari competitor yang lain. Hal

ini dapat dilihat pada Tabel 4.2.

Tabel 4.2. Kriteria Pemilahan Terbaik Root Node Kondisi Pertama

Main Splitter Improvement = 0.12801

Competitor Split Improvement N

Left

N

Right

N

Missing

Main Cara Bayar Triwulanan,

Setengah

Tahunan,

Tahunan

0.12801 415 119 0

1 Macam

Asuransi

Mitra Prima,

Mitra Pelangi,

Ekawaktu Ideal,

Mitra Beasiswa

Berencana,

Mitra Melati,

Mitra Cerdas,

Mitra Sehat

0.12533 416 118 0

2 Penghasilan 8000040 0.10874 120 414 0

3 Premi Dasar 100000.50 0.10874 120 414 0

4 Status Kawin 0.04960 258 276 0

5 Jangka

Waktu

Asuransi

9.5 0.02272 140 394 0

6 Jenis

Kelamin

Laki-laki 0.00063 237 297 0

7 Mata Uang Dolar 0.00023 1 533 0


commit to user

39

Setelah terbentuk dan terpilih kriteria pemilihan terbaik, maka node utama

yang berisi 534 objek data dipilah menjadi dua buah terminal nodes. Terminal node 1

terbentuk akibat kriteria variabel Cara Bayar adalah triwulanan, setengah tahunan,

dan tahunan. Terminal node 2 terbentuk akibat kriteria variabel Cara Bayar adalah

bulanan. Proses pemilahan dapat dilihat pada Gambar 4.1. Proses serupa terus

berjalan pada node-node lainnya, hingga tersisa satu objek saja yang berada dalam

node terakhir atau semua objek yang berada dalam sebuah node merupakan anggota

dari kelas yang sama (homogen).

Gambar 4.1. Pemilahan Root Node Kondisi Pertama

2. Pelabelan Kelas

Pada bagian ini adalah pemberian label kelas pada node-node yang

telah terbentuk. Prosedur pemberian label kelas berdasarkan Definisi 2.14

class assignment rule yaitu jika 𝑝 𝑗|𝑡 = max𝑖 𝑝 𝑖|𝑡 𝑚𝑎𝑘𝑎 𝑗∗ 𝑡 = 𝑗 ,

dimana 𝑗∗ 𝑡 adalah kelas yang diidentifikasikan pada node t. Sebagai contoh,

pada Gambar 4.1

𝑃 tidak lancar|𝑡 =130

534= 0.243

𝑃 lancar|𝑡 =404

534= 0.757

CARA_BAYAR = (Triw ulanan...)

Terminal

Node 1

Class = Lancar

Class Cases %

Tidak Lancar 45 10.8

Lancar 370 89.2

W = 415.00

N = 415

CARA_BAYAR = (Bulanan)

Terminal

Node 2

Class = Tidak Lancar

Class Cases %


Lancar 34 28.6

W = 119.00

N = 119

Node 1

Class = Lancar

CARA_BAYAR =

(Triw ulanan,Setengah Tahunan,

Tahunan)

Class Cases %


Lancar 404 75.7

W = 534.00

N = 534


commit to user

40

sehingga root node diberi label kelas lancar, karena peluang kelas lancar lebih

besar daripada peluang kelas lainnya. Proses pelabelan kelas ini berlaku pada

semua node terutama terminal node, karena terminal node adalah node yang

sangat penting dalam memprediksi suatu objek pada kelas tertentu jika objek

berada pada terminal node tersebut.

3. Proses Penghentian Pemecahan

Proses splitting node yang berulang-ulang akan berhenti dan

menghasilkan pohon maksimal yang dapat dilihat pada Gambar 4.3. Proses

splitting node akan berhenti karena pada ujung pohon klasifikasi terdapat

terminal node dimana anggotanya terdapat pada kelas yang sama. Hal ini

terlihat pada terminal node 46 dan 47 dalam Gambar 4.2. Pohon maksimal

(Gambar 4.3.) untuk kondisi pertama mempunyai 46 nonterminal nodes dan

47 terminal nodes.

Gambar 4.2. Terminal node 46 dan 47 kondisi pertama

Gambar 4.3. Pohon Klasifikasi Maksimal Kondisi Pertama

Terminal

Node 47


Class Cases %


Lancar 0 0.0

W = 4.00

N = 4

Terminal

Node 46

Class = Lancar

Class Cases %

Tidak Lancar 0 0.0

Lancar 1 100.0

W = 1.00

N = 1

= Nonterminal nodes = Terminal nodes dan


commit to user

41

4. Proses Pemangkasan Pohon

Proses pemangkasan pohon dapat dilihat pada Lampiran 2. Proses

pemangkasan pohon klasifikasi maksimal menghasilkan 9 subtree. Proses

pemangkasan pohon klasifikasi dimulai dengan mengambil 𝑡𝑅 yang

merupakan right child node dan 𝑡𝐿 yang merupakan left child node dari 𝑇𝑚𝑎𝑥

yang dihasilkan dari parent node t. Jika diperoleh dua child node dan parent

node yang memenuhi persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿), maka child node 𝑡𝑅

dan 𝑡𝐿 dipangkas. Proses tersebut diulangi sampai tidak ada lagi pemangkasan

yang mungkin terjadi. Dan diperoleh urutan sebagai berikut 𝑇1,𝑇2,⋯ , 𝑡1 ,

𝑇1 > 𝑇2 > ⋯ > {𝑡1},

Gambar 4.4. Pohon klasifikasi kondisi pertama yang akan dipangkas

Pada Gambar 4.4 terdapat node yang akan dipangkas yaitu node 36 . Node

tersebut mengalami pemangkasan karena parent node dan child node

memenuhi persamaan 𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿).

Gambar 4.5. Node 36 pada kondisi pertama yang akan dipangkas

JANGKA_WAKTU_ASURANSI <= 5.50

Terminal

Node 33


Class Cases %


Lancar 16 27.1

W = 59.00

N = 59

JANGKA_WAKTU_ASURANSI > 5.50

Terminal

Node 34


Class Cases %

Tidak Lancar 6 85.7

Lancar 1 14.3

W = 7.00

N = 7

Node 36


JANGKA_WAKTU_ASURANSI <= 5.50

Class Cases %


Lancar 17 25.8

W = 66.00

N = 66


commit to user

42

Proses pemangkasan ini dapat dilihat dari perhitungan di bawah ini

Parent Node (Node 36) :

Nilai 𝑅 𝑡 = 𝑟 𝑡 .𝑃(𝑡)

dengan 𝑟 𝑡 = 1−max𝑗 𝑃(𝑗|𝑡) dan 𝑃(𝑗|𝑡) adalah peluang beberapa objek

berada dalam node t.

Dalam node 36 terdapat dua kelas yaitu kelas tidak lancar dan kelas

lancar. Nilai probabilitas tiap kelas dalam node 36 adalah sebagai berikut:

𝑃 tidak lancar|𝑛𝑜𝑑𝑒 36 =49

66= 0.742

𝑃 lancar|𝑛𝑜𝑑𝑒 36 =17

66= 0.258

sehingga dengan menggunakan rumus 𝑟 𝑡 = 1 −max𝑗 𝑃(𝑗|𝑡), maka

diperoleh

𝑟 𝑛𝑜𝑑𝑒 36 = 1 −max𝑗𝑃 𝑗|𝑡

= 1 − 0.742 = 0.258 .

Nilai probabilitas objek yang berada dalam node 36 adalah

𝑃 𝑛𝑜𝑑𝑒 36 =𝑁 𝑛𝑜𝑑𝑒 36

𝑁=

66

534= 0.1236 .

Oleh karena itu,

𝑅 𝑛𝑜𝑑𝑒 36 = 𝑟 𝑛𝑜𝑑𝑒 36 .𝑃 𝑛𝑜𝑑𝑒 36 = 0.258 × 0.1236 = 3.18 × 10−2.

Selanjutnya pada child node , yaitu terminal node 33 dan terminal

node 34 :

Dengan cara perhitungan yang sama maka, terminal node 33 memiliki nilai

max𝑗 𝑃(𝑗|𝑡) sebesar 0.729, sehingga nilai

𝑟 𝑡𝐿 = 1−max𝑗 𝑃(𝑗|𝑡) = 1 − 0.729 = 0.271.

𝑃(𝑡𝐿) adalah peluang banyaknya objek pada anak node sebelah kiri (terminal

node 33), sehingga


commit to user

43

𝑃 𝑡𝐿 =𝑁 𝑡𝐿

𝑁=

59

534= 0.11

oleh karena itu,

𝑅 𝑡𝐿 = 𝑟 𝑡𝐿 .𝑃 𝑡𝐿 = 0.271 × 0.11 = 2.99 × 10−2 .

Terminal node 34 memiliki nilai max𝑗 𝑃(𝑗|𝑡) sebesar 0.857, maka nilai

𝑟 𝑡𝑅 = 1 −max𝑗𝑃(𝑗|𝑡) = 1− 0.857 = 0.143

𝑃(𝑡𝑅) adalah peluang banyaknya objek pada anak node sebelah kanan

(terminal node 34), maka nilai

𝑃 𝑡𝑅 =𝑁 𝑡𝑅

𝑁=

7

534= 1.31 × 10−2

sehingga

𝑅 𝑡𝑅 = 𝑟 𝑡𝑅 .𝑃 𝑡𝑅 = 0.143 × 1.31 × 10−2 = 1.87 × 10−3 .

Dengan demikian, persamaan

𝑅 𝑡 = 𝑅 𝑡𝑅 + 𝑅(𝑡𝐿)

3.18 × 10−2 = 1.87 × 10−3 + 2.99 × 10−2

3.18 × 10−2 = 3.18 × 10−2

terpenuhi untuk node 36, sehingga dilakukan pemangkasan.

5. Pohon Klasifikasi Optimal

Setelah dilakukan pemangkasan pohon, langkah selanjutnya pemilihan pohon

klasifikasi optimal. Dari 9 subtree akan dipilih satu pohon klasifikasi dengan

nilai penduga pengganti yang terkecil. Dalam mencari pohon klasifikasi

optimal digunakan metode Test Sample Estimate yaitu 𝑅𝑡𝑠 𝑇 =

1


(2)𝑖 ,𝑗 , karena ukuran data yang besar. Nilai penduga pengganti

sample uji (test sample estimate) dari masing-masing subtree terlihat pada

Tabel 4.3.


commit to user

44

Tabel 4.3. Tree Sequence Kondisi Pertama

Tree

number

Terminal Nodes Test Set Relative Cost Resubstitution

Relative Cost

1 47 0.74162 ± 0.10700 0.47403

2 35 0.74063 ± 0.10553 0.47426

3 32 0.75986 ± 0.10603 0.47441

4 26 0.75986 ± 0.10603 0.48979

5 19 0.78057± 0.10890 0.51241

6 17 0.76134 ± 0.10828 0.52003

7**

9 0.66272 ± 0.10144 0.55887

8 2 0.68097 ± 0.10023 0.60510

9 1 1.00000 ± 0.00000 1.00000

** Optimal

Pada Tabel 4.3. terlihat bahwa dari kesembilan subtree yang terbentuk,

subtree nomor 7 dengan 9 terminal nodes adalah pohon klasifikasi optimal.

Hal ini dikarenakan memenuhi kriteria nilai test set relative cost 𝑅𝑡𝑠 𝑇𝑘0 =

min𝑘 𝑅𝑡𝑠 𝑇𝑘 yaitu subtree nomor 7 memiliki nilai paling kecil dari

kesembilan subtree yang lainnya. Pohon klasifikasi optimal dapat dilihat pada

Lampiran 3.

6. Predictive Accuracy

Pohon klasifikasi optimal yang telah terpilih tadi kemudian diuji tingkat

keakuratannya dalam mengelompokkan data learning. Uji keakuratan pohon

klasifikasi optimal pada kondisi pertama dengan menggunakan


𝑁1 𝑋 𝑑 𝑥𝑛 ≠ 𝑗𝑛

𝑁


=35 + 38

534=

73

534= 0.1367


commit to user

45

Dengan nilai 𝑅𝑡𝑠 𝑑 = 0.1367, maka ketepatan klasifikasinya adalah

1 − 0.1367 = 0.8633 atau 86.33 %. Hasil dari klasifikasi pohon optimal

dengan menggunakan data learning dapat dilihat pada Tabel 4.4.

Tabel 4.4. Tingkat Akurasi Pohon Optimal Dengan Data Learning Kondisi

Pertama

Kelas Sebenarnya Total Kelas Persentase

Akurasi

Lancar

N = 407

Tidak Lancar

N = 127

Lancar 404 91.34 369 35

Tidak Lancar 130 70.77 38 92

Total 534

Rata-rata 81.05

Persentase

Keseluruhan

Akurasi

86.33

Kemudian pohon optimal diuji keakuratannya dengan cara

mengklasifikasikan data testing untuk melihat kemampuan pohon klasifikasi

optimal dalam mengklasifikasikan data baru. Persamaan yang digunakan pada

data testing adalah



𝑁


=18 + 16

208=

34

208= 0.1634

Oleh karena itu ketepatan klasifikasinya adalah 1− 0.1634 = 0.8365 atau

83.65%. Hasil dari klasifikasi pohon optimal dengan menggunakan data

testing dapat dilihat pada Tabel 4.5.


commit to user

46

Tabel 4.5. Tingkat Akurasi Pohon Optimal Dengan Data Testing Kondisi

Pertama


Akurasi

Lancar

N = 407

Tidak Lancar

N = 127

Lancar 156 88.46 138 18

Tidak Lancar 52 69.23 16 36

Total 208

Rata-rata 78.85

Persentase

Keseluruhan

Akurasi

83.65

4.2.2. Pembentukan Pohon Klasifikasi Kondisi Kedua


Pada kondisi kedua pembagian data menjadi dua bagian (data learning

dan data testing) dengan proporsi 50%:50%. Dengan demikian data learning

berjumlah 382 buah data, sedangkan data testing berjumlah 360 buah data.

Sebelum dilakukan proses splitting node, terlebih dahulu memilih variabel

pemilah terbaik dari kedelapan variabel independen. Pemilahan variabel

berdasarkan kriteria goodness of split. Suatu split s akan digunakan untuk

memecah node t menjadi dua buah node yaitu node 𝑡𝑅 dan node 𝑡𝐿 jika s

memaksimalkan nilai ∆𝑖 𝑠∗, 𝑡 = max𝑠 ∆𝑖 𝑠, 𝑡 , dimana ∆𝑖 𝑠∗, 𝑡 adalah nilai

yang paling maksimal/tertinggi dari ∆𝑖 𝑠, 𝑡 . Root node dipecah dengan

kriteria pemecahan Cara Bayar adalah dengan cara triwulanan, Setengah

tahunan, dan Tahunan. Variabel Cara Bayar terpilih karena nilai improvement




commit to user

47

Tabel 4.6. Kriteria Pemilahan Terbaik Root Node Kondisi Kedua



Left

N

Right

N

Missing


Setengah

Tahunan,

Tahunan

0.15039 297 85 0

1 Macam

Asuransi

Ekawaktu

Ideal, Mitra

Beasiswa

Berencana,

Mitra Melati,

Mitra Cerdas,

Mitra Sehat

0.14610 298 84 0

2 Penghasilan 8000080 0.12346 85 297 0

3 Premi Dasar 100001 0.12346 85 297 0

4 Status Kawin 0.05521 186 196 0

5 Jangka

Waktu

Asuransi

9.5 0.02326 94 288 0

6 Jenis

Kelamin

Laki-laki 0.00139 172 210 0

Setelah terbentuk dan terpilih kriteria pemilihan terbaik, maka node

utama yang berisi 382 objek data dipilah menjadi dua buah terminal nodes.

Terminal node 1 terbentuk akibat kriteria variabel Cara Bayar adalah


commit to user

48

triwulanan, setengah tahunan dan tahunan. Terminal node 2 terbentuk akibat

kriteria variabel Cara Bayar adalah bulanan. Proses pemilahan dapat dilihat

pada Gambar 4.6. Proses serupa terus berjalan pada node-node lainnya,

hingga tersisa satu objek saja yang berada dalam node terakhir atau semua

objek yang berada dalam sebuah node merupakan anggota dari kelas yang

sama (homogen).

Gambar 4.6. Pemilahan Root Node Kondisi Kedua

2. Pelabelan Kelas




dimana 𝑗∗ 𝑡 adalah kelas yang diidentifikasikan pada node t . Sebagai

contoh, pada Gambar 4.6


382= 0.225


382= 0.775




Terminal

Node 1

Class = Lancar

Class Cases %

Tidak Lancar 25 8.4

Lancar 272 91.6

W = 297.00

N = 297


Terminal

Node 2


Class Cases %


Lancar 24 28.2

W = 85.00

N = 85

Node 1

Class = Lancar

CARA_BAYAR =


Tahunan)

Class Cases %


Lancar 296 77.5

W = 382.00

N = 382


commit to user

49







splitting node akan berenti karena pada ujung pohon klasifikasi terdapat


terlihat pada terminal node 23 dan 24 dalam gambar 4.7. Pohon maksimal

(Gambar 4.8.) untuk kondisi kedua mempunyai 23 nonterminal nodes dan 24

terminal nodes.

Gambar 4.7. Terminal node 23 dan 24 kondisi kedua

Gambar 4.8. Pohon Klasifikasi Maksimal Kondisi Kedua

Terminal

Node 23

Class = Lancar

Class Cases %

Tidak Lancar 0 0.0

Lancar 1 100.0

W = 1.00

N = 1

Terminal

Node 24


Class Cases %


Lancar 0 0.0

W = 4.00

N = 4

= Nonterminal nodes = Terminal nodes dan


commit to user

50

4. Proses Pemangkasan Pohon (Tree Prunning Process)









𝑇1 > 𝑇2 > ⋯ > {𝑡1},

Gambar 4.9. Pohon klasifikasi kondisi kedua yang akan dipangkas

Pada Gambar 4.9 terdapat node yang akan dipangkas yaitu node 8 . Node



Gambar 4.10. Node 8 pada kondisi kedua yang akan dipangkas

PREMI_DASAR <= 582620.00

Terminal

Node 7

Class = Lancar

Class Cases %

Tidak Lancar 2 16.7

Lancar 10 83.3

W = 12.00

N = 12

PREMI_DASAR > 582620.00

Terminal

Node 8


Class Cases %

Tidak Lancar 2 66.7

Lancar 1 33.3

W = 3.00

N = 3


Node 9

Class = Lancar


Class Cases %

Tidak Lancar 4 26.7

Lancar 11 73.3

W = 15.00

N = 15


Terminal

Node 9

Class = Lancar

Class Cases %

Tidak Lancar 2 9.5

Lancar 19 90.5

W = 21.00

N = 21

Node 8

Class = Lancar


Class Cases %

Tidak Lancar 6 16.7

Lancar 30 83.3

W = 36.00

N = 36


commit to user

51









36= 0.167


36= 0.833


diperoleh


= 1− 0.833 = 0.167 .



𝑁=

36

382= 9.42 × 10−2 .

oleh karena itu,

𝑅 𝑛𝑜𝑑𝑒 8 = 𝑟 𝑛𝑜𝑑𝑒 8 .𝑃 𝑛𝑜𝑑𝑒 8 = 0.167 × 9.42 × 10−2

= 1.57 × 10−2.

Selanjutnya pada child node , yaitu node 9 dan terminal node 9 :

Dengan cara perhitungan yang sama maka, node 9 memiliki nilai max𝑗 𝑃(𝑗|𝑡)

sebesar 0.733, sehingga nilai

𝑟 𝑡𝐿 = 1−max𝑗 𝑃(𝑗|𝑡) = 1 − 0.733 = 0.267.

𝑃(𝑡𝐿) adalah peluang banyaknya objek pada anak node sebelah kiri (node 9),

sehingga nilai


commit to user

52


𝑁=

15

382= 3.93 × 10−2.

Oleh karena itu,

𝑅 𝑡𝐿 = 𝑟 𝑡𝐿 .𝑃 𝑡𝐿 = 0.267 × 3.93 × 10−2 = 1.05 × 10−2.

Terminal node 9 memiliki nilai max𝑗 𝑃(𝑗|𝑡) sebesar 0.905, sehingga nilai

𝑟 𝑡𝑅 = 1−max𝑗 𝑃(𝑗|𝑡) = 1 − 0.905 = 0.095.


(terminal node 9), sehingga nilai


𝑁=

21

382= 5.497 × 10−2.

Oleh karena itu,

𝑅 𝑡𝑅 = 𝑟 𝑡𝑅 .𝑃 𝑡𝑅 = 0.095 × 5.497 × 10−2 = 5.22 × 10−3.

Dengan demikian persamaan


1.57 × 10−2 = 5.22 × 10−3 + 1.05 × 10−2

1.57 × 10−2 = 1.57 × 10−2



Setelah dilakukan pemangkasan pohon, langkah selanjutnya pemilihan

pohon klasifikasi optimal. Dari 8 subtree akan dipilih satu pohon klasifikasi

dengan nilai penduga pengganti yang terkecil. Dalam mencari pohon

klasifikasi optimal digunakan metode Test Sample Estimate yaitu 𝑅𝑡𝑠 𝑇 =

1




Tabel 4.7.


commit to user

53

Tabel 4.7. Tree Sequence Kondisi Kedua

Tree number Terminal Nodes Test Set Relative Cost Resubstitution

Relative Cost

1 24 0.94486 ± 0.08833 0.40857

2 20 0.94362 ± 0.08797 0.42143

3 18 0.93568 ± 0.08851 0.43183

4 14 0.86451 ± 0.08508 0.45508

5 12 0.84120 ± 0.08397 0.46794

6 8 0.83202 ± 0.08418 0.49666

7**

2 0.70928 ± 0.07548 0.54018

8 1 1.00000 ± 0.00000 1.00000

** Optimal

Pada Tabel 4.7. terlihat bahwa dari kedelapan subtree yang terbentuk,



min𝑘 𝑅𝑡𝑠 𝑇𝑘 yaitu subtree nomor 7 memiliki nilai paling kecil dari

kedelapan subtree yang lainnya. Pohon klasifikasi optimal dapat dilihat pada

Lampiran 5.


Pohon klasifikasi optimal yang telah terpilih tadi kemudian diuji

tingkat keakuratannya dalam mengelompokkan data learning. Uji keakuratan

pohon klasifikasi optimal pada kondisi pertama dengan menggunakan



𝑁


=24 + 25

382=

49

382= 0.128


commit to user

54


1 − 0.128 = 0.8717 atau 87.17%. Hasil dari klasifikasi pohon optimal

dengan menggunakan data learning dapat dilihat pada Tabel 4.8


Kedua


Akurasi

Lancar

N = 297

Tidak Lancar

N = 85

Lancar 296 91.89 272 24


Total 382

Rata-rata 81.41

Persentase

Keseluruhan

Akurasi

87.17




data testing adalah



𝑁


=26 + 39

360=

65

360= 0.180

Oleh karena itu, ketepatan klasifikasinya adalah 1− 0.180 = 0.8194

atau 81.94 %. Hasil dari klasifikasi pohon optimal dengan menggunakan data

testing dapat dilihat pada Tabel 4.9.


commit to user

55


Kedua


Akurasi

Lancar

N = 277

Tidak Lancar

N = 83

Lancar 264 90.15 238 26


Total 360

Rata-rata 74.76

Persentase

Keseluruhan

Akurasi

81.94

4.2.3. Pembentukan Pohon Klasifikasi Kondisi Ketiga


Pada kondisi ketiga pembagian data menjadi dua bagian (data

learning dan data testing) dengan proporsi 40%:60%. Dengan demikian data

learning berjumlah 308 buah data, sedangkan data testing berjumlah 434 buah

data. Sebelum dilakukan proses splitting node, terlebih dahulu memilih

variabel pemilah terbaik dari kedelapan variabel independen. Pemilahan

variabel berdasarkan kriteria goodness of split. Suatu split s akan digunakan

untuk memecah node t menjadi dua buah node yaitu node 𝑡𝑅 dan node 𝑡𝐿

jika s memaksimalkan nilai ∆𝑖 𝑠∗, 𝑡 = max𝑠 ∆𝑖 𝑠, 𝑡 , dimana ∆𝑖 𝑠∗, 𝑡 adalah

nilai yang paling maksimal/tertinggi dari ∆𝑖 𝑠, 𝑡 . Root node dipecah dengan

kriteria pemecahan Cara Bayar adalah dengan cara triwulanan, Setengah

tahunan, dan Tahunan. Variabel Cara Bayar terpilih karena nilai improvement




commit to user

56

Tabel 4.10. Kriteria Pemilahan Terbaik Root Node Kondisi Ketiga



Left

N

Right

N

Missing


Setengah

Tahunan,

Tahunan

0.14753 241 67 0

1 Macam

Asuransi

Ekawaktu

Ideal, Mitra

Beasiswa

Berencana,

Mitra

Melati,

Mitra

Cerdas,

Mitra Sehat

0.14238 242 66 0

2 Penghasilan 8000080 0.12576 66 242 0

3 Premi Dasar 100001 0.12576 66 242 0

4 Status Kawin 0.05114 150 158 0

5 Jangka Waktu

Asuransi

9.5 0.02861 80 288 0

6 Jenis Kelamin Laki-laki 0.00044 144 164 0

Setelah terbentuk dan terpilih kriteria pemilihan terbaik, maka node

utama yang berisi 308 objek data dipilah menjadi tiga buah terminal nodes.

Terminal node 1 terbentuk akibat kriteria variabel Cara Bayar adalah


commit to user

57

triwulanan, setengah tahunan dan tahunan. Terminal node 2 terbentuk akibat

kriteria variabel Cara Bayar adalah bulanan. Proses pemilahan dapat dilihat

pada Gambar 4.11. Proses serupa terus berjalan pada node-node lainnya,

hingga tersisa satu objek saja yang berada dalam node terakhir atau semua

objek yang berada dalam sebuah node merupakan anggota dari kelas yang

sama (homogen).

Gambar 4.11. Pemilahan Root Node Kondisi Ketiga

2. Pelabelan Kelas




dimana 𝑗∗ 𝑡 adalah kelas yang diidentifikasikan pada node t . Sebagai

contoh, pada Gambar 4.11


308= 0.231


308= 0.769





Terminal

Node 1

Class = Lancar

Class Cases %

Tidak Lancar 22 9.1

Lancar 219 90.9

W = 241.00

N = 241


Terminal

Node 2


Class Cases %


Lancar 18 26.9

W = 67.00

N = 67

Node 1

Class = Lancar

CARA_BAYAR =


Tahunan)

Class Cases %


Lancar 237 76.9

W = 308.00

N = 308


commit to user

58






splitting node akan berenti karena pada ujung pohon klasifikasi terdapat


terlihat pada terminal node 10 dan 11 dalam Gambar 4.12. Pohon maksimal

(Gambar 4.13.) untuk kondisi ketiga mempunyai 18 nonterminal nodes dan 19

terminal nodes.

Gambar 4.12. Terminal node 10 dan 11 kondisi ketiga

Gambar 4.13. Pohon Klasifikasi Maksimal Kondisi Ketiga

4. Proses Pemangkasan Pohon (Tree Prunning Process)




Terminal

Node 10

Class = Lancar

Class Cases %

Tidak Lancar 0 0.0

Lancar 6 100.0

W = 6.00

N = 6

Terminal

Node 11


Class Cases %


Lancar 0 0.0

W = 2.00

N = 2

= Nonterminal nodes = Terminal nodes

dan


commit to user

59






𝑇1 > 𝑇2 > ⋯ > {𝑡1},

Gambar 4.14. Pohon klasifikasi kondisi ketiga yang akan dipangkas

Pada gambar 4.14 terdapat node yang akan dipangkas yaitu node 9 . Node



Gambar 4.15. Node 9 pada kondisi ketiga yang akan dipangkas


Terminal

Node 8

Class = Lancar

Class Cases %

Tidak Lancar 1 10.0

Lancar 9 90.0

W = 10.00

N = 10


Terminal

Node 9


Class Cases %

Tidak Lancar 2 66.7

Lancar 1 33.3

W = 3.00

N = 3


Node 10

Class = Lancar


Class Cases %

Tidak Lancar 3 23.1

Lancar 10 76.9

W = 13.00

N = 13


Terminal

Node 10

Class = Lancar

Class Cases %

Tidak Lancar 1 6.3

Lancar 15 93.8

W = 16.00

N = 16

Node 9

Class = Lancar


Class Cases %

Tidak Lancar 4 13.8

Lancar 25 86.2

W = 29.00

N = 29


commit to user

60









29= 0.138


29= 0.862


diperoleh


= 1 − 0.862 = 0.138 .



𝑁=

29

308= 9.42 × 10−2.

Oleh karena itu,

𝑅 𝑛𝑜𝑑𝑒 9 = 𝑟 𝑛𝑜𝑑𝑒 9 .𝑃 𝑛𝑜𝑑𝑒 9 = 0.138 × 9.42 × 10−2 = 1.3 × 10−2.

Selanjutnya pada child node , yaitu node 10 dan terminal node 10 :

Dengan cara perhitungan yang sama maka, node 10 memiliki nilai

max𝑗 𝑃(𝑗|𝑡) sebesar 0.769, sehingga nilai

𝑟 𝑡𝐿 = 1−max𝑗 𝑃(𝑗|𝑡) = 1 − 0.769 = 0.231.

𝑃(𝑡𝐿) adalah peluang banyaknya objek pada anak node sebelah kiri (Node

10), sehingga nilai


𝑁=

13

308= 4.22 × 10−2.


commit to user

61

Oleh karena itu,

𝑅 𝑡𝐿 = 𝑟 𝑡𝐿 .𝑃 𝑡𝐿 = 0.231 × 4.22 × 10−2 = 9.75 × 10−3.

Terminal node 10 memiliki nilai max𝑗 𝑃(𝑗|𝑡) sebesar 0.938, sehingga nilai

𝑟 𝑡𝑅 = 1−max𝑗 𝑃(𝑗|𝑡) = 1 − 0.938 = 0.063.


(terminal node 10), sehingga nilai


𝑁=

16

308= 5.19 × 10−2.

Oleh karena itu,

𝑅 𝑡𝑅 = 𝑟 𝑡𝑅 .𝑃 𝑡𝑅 = 0.063 × 5.19 × 10−2 = 3.27 × 10−3.

Dengan demikian persamaan


1.3 × 10−2 = 3.27 × 10−3 + 9.75 × 10−3

1.3 × 10−2 = 1.3 × 10−2



Setelah dilakukan pemangkasan pohon, langkah selanjutnya pemilihan

pohon klasifikasi optimal. Dari 6 subtree akan dipilih satu pohon klasifikasi

dengan nilai penduga pengganti yang terkecil. Dalam mencari pohon

klasifikasi optimal digunakan metode Test Sample Estimate yaitu 𝑅𝑡𝑠 𝑇 =

1




Tabel 4.11.


commit to user

62

Tabel 4.11. Tree Sequence Kondisi Ketiga

Tree

number

Terminal Nodes Test Set Relative Cost Resubstitution

Relative Cost

1 19 0.97749 ± 0.08152 0.40270

2 17 0.94352 ± 0.08177 0.41238

3 11 0.87632 ± 0.07913 0.45464

4 9 0.85727 ± 0.07838 0.46982

5**

2 0.68321 ± 0.06881 0.54355

6 1 1.00000± 0.00000 1.00000

** Optimal

Pada Tabel 4.11. terlihat bahwa dari keenam subtree yang terbentuk,



min𝑘 𝑅𝑡𝑠 𝑇𝑘 yaitu subtree nomor 5 memiliki nilai paling kecil dari keenam

subtree yang lainnya. Pohon klasifikasi optimal dapat dilihat pada Lampiran

7.


Pohon klasifikasi optimal yang telah terpilih tadi kemudian diuji

tingkat keakuratannya dalam mengelompokkan data learning. Uji keakuratan

pohon klasifikasi optimal pada kondisi pertama dengan menggunakan



𝑁


=18 + 22

308=

40

308= 0.129


1 − 0.129 = 0.8701 atau 87.01 %. Hasil dari klasifikasi pohon optimal

dengan menggunakan data learning dapat dilihat pada Tabel 4.12


commit to user

63


Ketiga

Kelas

Sebenarnya

Total Kelas Persentase

Akurasi

Lancar

N = 241

Tidak Lancar

N = 67

Lancar 237 92.41 219 18


Total 308

Rata-rata 80.71

Persentase

Keseluruhan

Akurasi

87.01




data testing adalah



𝑁


=32 + 42

434=

74

434= 0.1705

Oleh karena itu, ketepatan klasifikasinya adalah 1− 0.1705 =

0.8295 atau 82.95 %. Hasil dari klasifikasi pohon optimal dengan

menggunakan data testing dapat dilihat pada Tabel 4.13.


commit to user

64


Ketiga

Kelas Sebenarnya Total

Kelas

Persentase

Akurasi

Lancar

N = 333

Tidak Lancar

N = 101

Lancar 323 90.09 291 32

Tidak Lancar 111 62.16 42 69

Total 434

Rata-rata 76.13

Persentase

Keseluruhan

Akurasi

82.95

4.2.4. Pemilihan Kondisi yang Tepat

Dari contoh kasus klasifikasi nasabah AJB Bumiputera 1912, diberlakukan

tiga kondisi yang berbeda dalam membentuk pohon klasifikasi yaitu proporsi

pembagian data learning lebih besar dari data testing, proporsi pembagian data

learning dan data testing sama, dan proporsi pembagian data learning lebih kecil dari

data testing. Nilai ketepatan atau tingkat keakuratan pohon klasifikasi dari ketiga

kondisi dapat dilihat pada Tabel 4.14.

Tabel 4.14. Nilai Ketepatan dari Ketiga Kondisi

No Kondisi Tingkat Ketepatan Klasifikasi

Data Learning Data Testing

1 Proporsi Data Learning > Data Testing 86.33 83.65

2 Proporsi Data Learning = Data Testing 87.17 81.94

3 Proporsi Data Learning < Data Testing 87.01 82.95

Pada Tabel 4.14. terlihat bahwa nilai ketepatan data learning untuk proporsi

pembagian data learning > data testing menghasilkan nilai keakuratan untuk data


commit to user

65

learning sebesar 86.33%. Proporsi pembagian data learning < data testing

menghasilkan nilai keakuratan untuk data learning sebesar 87.01 %. Sedangkan

proporsi pembagian data learning = data testing memiliki nilai keakuratan untuk data

learning sebesar 87.17 %.

Keakuratan nilai data testing untuk proporsi pembagian data learning = data

testing yaitu 81.94 %. Proporsi pembagian data learning < data testing menghasilkan

nilai keakuratan data testing sebesar 82.95 %. Sedangkan proporsi pembagian data

learning > data testing memiliki nilai keakuratan data testing sebesar 83.65 %.

Hal ini berarti bahwa apabila kita ingin memodelkan data tersebut maka kita

pilih ketepatan klasifikasi data learning tertinggi yaitu untuk proporsi pembagian

data learning = data testing. Akan tetapi apabila kita akan membuat model yang

nantinya digunakan untuk mengklasifikasikan data baru maka dipilih nilai ketepatan

testingnya tertinggi yaitu proporsi pembagian data learning > data testing.

4.2.5. Interpretasi Pohon Klasifikasi

Untuk membuat model yang nantinya akan digunakan untuk

mengklasifikasikan data baru maka pohon klasifikasi optimal terbaik yang digunakan

adalah pohon pada kondisi pertama, dengan proporsi data learning : data testing

sebesar 70%:30% dimana mempunyai nilai keakuratan data testing sebesar 83.65%.

Untuk dua kondisi lainnya mempunyai langkah yang sama untuk menginterpretasikan

pohon klasifikasinya. Pohon klasifikasi optimal dapat dilihat pada Lampiran 3 yang

terbentuk didapat beberapa aturan klasifikasi sebagai berikut :

1. Jika Cara Bayar dilakukan dengan cara setengah tahunan atau tahunan, maka

status pembayaran adalah lancar.

Berarti bahwa seseorang yang melakukan pembayaran premi dengan cara

setengah tahunan atau tahunan maka orang tersebut dapat dikatakan lancar.


commit to user

66

2. Jika Cara Bayar dilakukan dengan cara triwulanan dan Premi Dasar sebesar

kurang dari atau sama dengan Rp.159,770.00 maka status pembayaran adalah

lancar.


triwulanan dan membayar Premi Dasar sebesar kurang dari atau sama dengan

Rp.159,770.00 maka orang tersebut dapat dikatakan lancar.

3. Jika Cara Bayar dilakukan dengan cara triwulanan dan Premi Dasar lebih dari

Rp.159,770.00 dan Premi Dasar kurang dari atau sama dengan Rp. 160,770.00

maka status pembayaran adalah tidak lancar.


triwulanan dan membayar Premi Dasar sebesar lebih dari Rp. 159,770.00 dan

kurang dari atau sama dengan Rp. 160,770.00 maka orang tersebut dapat

dikatakan tidak lancar.

4. Jika Cara Bayar dilakukan dengan cara triwulanan; Premi Dasar lebih dari

Rp.160,770.00 dan kurang dari atau sama dengan Rp. 260,074.50 dan Jangka

Waktu Asuransi kurang dari atau sama dengan 10.5 tahun maka status

pembayaran adalah lancar.


triwulanan, membayar Premi Dasar sebesar lebih dari Rp. 260,074.50 dan

kurang dari atau sama dengan Rp. 260,074.50 dan Jangka Waktu Asuransi

kurang dari atau sama dengan 10.5 tahun maka orang tersebut dapat dikatakan

lancar.



Waktu Asuransi lebih dari 10.5 tahun dan kurang dari atau sama dengan 14.5

tahun maka status pembayaran adalah tidak lancar.


Triwulanan; membayar Premi Dasar sebesar lebih dari Rp. 160,770.00 dan

kurang dari atau sama dengan Rp. 260,074.50 dan Jangka Waktu Asuransi lebih


commit to user

67

dari 10.5 tahun dan kurang dari atau sama dengan 14.5 tahun maka orang

tersebut dapat dikatakan tidak lancar.



Waktu Asuransi lebih dari 14.5 tahun maka status pembayaran adalah lancar.


triwulanan, membayar Premi Dasar sebesar lebih dari Rp. 160,770.00 dan

kurang dari atau sama dengan Rp. 260,074.50 dan Jangka Waktu Asuransi lebih

dari 14.5 tahun maka orang tersebut dapat dikatakan lancar.

7. Jika Cara Bayar dilakukan dengan cara triwulanan dan Premi Dasar lebih dari

Rp.260,074.50 dan kurang dari atau sama dengan Rp. 265,850.00 maka status

pembayaran adalah tidak lancar.


triwulanan dan membayar Premi Dasar sebesar lebih dari Rp. 260,074.50 dan

kurang dari atau sama dengan Rp. 265,850.00 maka orang tersebut dapat

dikatakan tidak lancar.

8. Jika Cara Bayar dilakukan dengan cara triwulanan dan Premi Dasar sebesar

lebih dari Rp. 265,850.00 maka status pembayaran adalah lancar.


triwulanan dan membayar Premi Dasar sebesar lebih dari Rp. 265,850.00 maka

orang tersebut dapat dikatakan tidak lancar.

9. Jika Cara Bayar dilakukan dengan cara bulanan maka status pembayaran adalah

tidak lancar.


bulanan maka orang tersebut dapat dikatakan tidak lancar.


commit to user

68

BAB V

PENUTUP

5.1 Kesimpulan

Berdasarkan hasil dari pembahasan dapat ditarik kesimpulan bahwa dalam

mengklasifikasikan nasabah asuransi AJB Bumiputera 1912 Surakarta diperoleh hasil

interpretasi pohon klasifikasi pada kondisi pertama yaitu nasabah dengan status

pembayaran lancar berarti bahwa seseorang yang melakukan Cara Bayar dengan cara

setengah tahunan atau tahunan; Cara Bayar secara triwulanan tetapi membayar Premi

Dasar sebesar lebih dari Rp. 160,770.00 dan kurang dari atau sama dengan Rp.

260,074.50 dan jangka waktu kurang dari atau sama dengan 10.5 th. Nasabah

dengan status pembayaran tidak lancar berarti bahwa seseorang yang melakukan Cara

Bayar dengan cara bulanan dan triwulanan tetapi membayar Premi Dasar sebesar

lebih dari Rp. 160,770.00 dan kurang dari atau sama dengan Rp. 265,850.00 dan

Jangka Waktu Asuransi lebih dari 10.5 tahun dan kurang dari atau sama dengan 14.5

th.

5.2 Saran

Dalam skripsi ini metode yang digunakan adalah pohon klasifikasi dalam

mengklasifikasikan data nasabah asuransi AJB Bumiputera 1912 Surakarta. Dalam

skripsi ini variabel Penghasilan bertipe kontinu sehingga variabel ini lebih cepat

tereliminasi dalam analisis yang dilakukan. Apabila pembaca tertarik maka dapat

mengaplikasikan algoritma CART ini dengan mengubah variabel Penghasilan

menjadi variabel kategorik karena variabel Penghasilan merupakan salah satu

variabel yang mungkin berpengaruh dalam mengklasifikasikan nasabah asuransi

Bumiputera 1912 Surakarta.


commit to user

69

DAFTAR PUSTAKA

[1] Breiman, L., J.H. Friedman, R.A. Olshen, and C.J. Stone, Classification And

Regression Trees, Chapman & Hall, New York, 1993.

[2] Kuntum, I., Penggunaan Pohon Keputusan untuk Data Mining, Institut

Teknologi Bandung, Bandung, 2005.

[3] Lewis, R.J, An Introduction to Classification And Regression Tree (CART)

Analysis, Annual Meeting of the Society for Academic Emergency Medicine

in San Fransisco, California, Department of Emergency Medicine, California,

2000.

[4] Marc, Vayssieres, Richard E. Plant, Barbara H. Allen-Diaz, Classification

Trees: An Alternative Non-Parametric Approach for Predicting Species

Distributions, Journal of Vegetation Science, Vol. 11, No.5, pp. 679-694,

Blackwell Publishing, 2000.

[5] Soni, S., Implementation of Multivariate Data Set by CART Algorithm.

Journal of Information Technology and Knowledge Management. Vol 2,

No.2, pp 455-459, 2010.

[6] Sunjana, Klasifikasi Data Nasabah sebuah Asuransi Menggunakan

Algoritma C4.5, Universitas Widyatama, Yogyakarta, 2010.

[7] Walpole, R.E dan R.H Myers, Ilmu Peluang dan Statistika Untuk Insinyur

dan Ilmuwan, Terjemahan R.K Sembiring, ITB, Bandung, 1986.

[8] Webb, P., and I. Yohannes, Classification And Regression Trees, CARTTM

,

International Food Policy Research Institute, Washington D.C, 1999.

[9] Yuanita, D., dan S. Akbar, Pendekatan CART Untuk Mendapatkan Faktor

yang Mempengaruhi Terjangkitnya Penyakit Demam Tifoid di Aceh Utara,

Skripsi Mahasiswa Jurusan Statistika FMIPA ITS, Surabaya, 2010.


commit to user

70

DAFTAR LAMPIRAN

Lampiran 1 : Sebagian Data Polis Lapse AJB Bumiputera 1912 Surakarta

Lampiran 2 : Proses Pemangkasan Pohon Klasifikasi Kondisi Pertama

Lampiran 3 : Pohon Klasifikasi Optimal Kondisi Pertama

Lampiran 4 : Proses Pemangkasan Pohon Klasifikasi Kondisi Kedua

Lampiran 5 : Pohon Klasifikasi Optimal Kondisi Kedua

Lampiran 6 : Proses Pemangkasan Pohon Klasifikasi Kondisi Ketiga

Lampiran 7 : Pohon Klasifikasi Optimal Kondisi Ketiga


commit to user

71

Lampiran 1 : Sebagian Data “Polis Lapse” Nasabah Ajb Bumiputera 1912 Surakarta Periode 1 Januari 2010 –

1 Desember 2010

status pembayaran jenis kelamin cara bayar

jangka waktu asuransi premi dasar penghasilan status mata uang macam asuransi

2 2 3 11 149860 11988800 2 1 3

2 1 2 17 146250 11700000 2 1 4

2 2 2 5 300000 24000000 3 1 5

2 2 2 5 300000 24000000 3 1 5

2 1 2 10 267540 21403200 3 1 5

2 2 3 10 131001 10480080 2 1 3

2 1 3 10 142657 11412560 2 1 3

2 2 3 20 100878 8070240 2 1 3

2 1 2 16 485550 38844000 2 1 4

2 2 2 16 476580 38126400 2 1 4

2 2 4 10 1112000 88960000 3 1 5

2 2 4 10 1250400 100032000 3 1 5

2 2 2 17 284700 22776000 2 1 4

2 1 2 17 147030 11762400 2 1 4

2 2 3 10 99450 7956000 2 1 3

2 2 2 10 265980 21278400 3 1 5

2 2 3 10 200000 16000000 2 1 3

2 1 3 15 119075 9526000 2 1 3

1 2 2 10 350000 28000000 3 1 5

2 2 2 16 240000 19200000 2 1 4

2 2 2 15 336960 26956800 2 1 4

2 2 3 10 583000 46640000 3 1 5

2 2 2 16 154130 12330400 2 1 4

2 2 4 10 294000 23520000 2 1 3

2 2 2 10 300000 24000000 3 1 5


commit to user

2 2 2 14 300000 24000000 2 1 4

2 2 2 5 260000 20800000 3 1 5

2 2 2 5 260000 20800000 3 1 5

1 1 2 10 282360 22588800 3 1 5

1 1 2 16 300000 24000000 2 1 4

2 1 2 16 300000 24000000 2 1 4

2 1 2 17 304980 24398400 2 1 4

2 1 3 16 649740 51979200 2 1 4

2 2 2 17 565760 45260800 2 1 4

2 1 4 10 1191400 95312000 3 1 5

2 1 4 10 2655000 212400000 3 1 5

1 2 2 14 175110 14008800 2 1 4

2 2 2 10 305877 24470160 3 1 5

2 2 3 16 257683 20614640 2 1 3

2 1 2 10 268060 21444800 3 1 5

2 1 2 13 1000000 80000000 2 1 4

2 2 2 10 500000 40000000 3 1 5

2 1 4 15 196000 15680000 2 1 3

2 1 2 16 318552 25484160 2 1 4

2 2 2 16 153530 12282400 2 1 4

2 1 4 10 498036 39842880 2 1 3

2 1 4 10 498711 39896880 2 1 3

2 2 3 10 599990 47999200 3 1 5

2 2 2 17 284700 22776000 2 1 4

2 2 2 17 282880 22630400 2 1 4

2 2 2 10 266240 21299200 3 1 5

2 2 2 10 500000 40000000 3 1 5

2 1 4 10 247528 19802240 2 1 3

1 2 2 5 300001 24000080 3 1 5

2 2 2 5 298090 23847200 3 1 5

2 2 4 10 250000 20000000 2 1 3


commit to user

2 2 2 5 867750 69420000 3 1 5

2 2 2 5 867750 69420000 3 1 5

1 1 2 17 284180 22734400 2 1 4

1 1 2 10 300000 24000000 3 1 5

1 2 2 10 300000 24000000 3 1 5

2 1 3 15 306000 24480000 2 1 3

2 1 2 5 607698 48615840 3 1 5

2 2 3 10 900029 72002320 3 1 5

2 1 2 10 296296 23703680 3 1 5

2 1 2 10 300000 24000000 3 1 5

2 1 4 17 12760000 1020800000 3 1 6

2 2 4 10 10620000 849600000 3 1 5

2 2 4 5 1009350 80748000 3 1 5

2 2 2 10 320827 25666160 3 1 5

2 1 2 10 265980 21278400 3 1 5

2 1 4 10 2572500 205800000 3 1 5

2 2 2 8 270000 21600000 3 1 5

2 2 2 10 300017 24001360 3 1 5

1 1 2 16 310960 24876800 2 1 4

2 2 2 15 322660 25812800 2 1 4

2 2 2 5 302427 24194160 3 1 5

2 1 3 20 196605 15728400 2 1 3

2 1 2 10 309764 24781120 3 1 5

2 2 4 10 363580 29086400 2 1 3

2 1 2 16 3231800 258544000 3 1 6

2 1 3 20 131070 10485600 2 1 3

2 1 2 14 527280 42182400 2 1 4

2 2 3 10 300015 24001200 2 1 3

2 2 2 17 565760 45260800 2 1 4

1 2 3 20 156825 12546000 2 1 3

1 1 2 5 300000 24000000 3 1 5


commit to user

1 1 3 20 151470 12117600 2 1 3

1 2 3 15 175098 14007840 2 1 3

1 1 2 17 284700 22776000 2 1 4

1 2 2 14 357500 28600000 2 1 4

2 2 2 5 291590 23327200 3 1 5

1 2 4 10 1790100 143208000 3 1 5

2 1 2 6 300000 24000000 3 1 5

2 2 2 5 300000 24000000 3 1 5

2 1 2 17 211660 16932800 2 1 4

2 1 2 5 300000 24000000 3 1 5

2 2 4 5 1000020 80001600 3 1 5

2 1 4 5 490000 39200000 2 1 3


commit to user

Lampiran 2 : Proses Pemangkasan Pohon Klasifikasi Kondisi Pertama


commit to user

Lampiran 3 : Pohon Klasifikasi Optimal Kondisi Pertama


commit to user

Lampiran 4 : Proses Pemangkasan Pohon Klasifikasi Kondisi Kedua


commit to user


Terminal

Node 1

Class = Lancar

Class Cases %

Tidak Lancar 25 8.4

Lancar 272 91.6

W = 297.00

N = 297


Terminal

Node 2


Class Cases %


Lancar 24 28.2

W = 85.00

N = 85

Node 1

Class = Lancar

CARA_BAYAR =


Tahunan)

Class Cases %


Lancar 296 77.5

W = 382.00

N = 382

Lampiran 5 : Pohon Klasifikasi Optimal Kondisi Kedua


commit to user

Lampiran 6 : Proses Pemangkasan Pohon Klasifikasi Kondisi Ketiga


commit to user

Lampiran 7 : Pohon Klasifikasi Optimal Kondisi Ketiga


Terminal

Node 1

Class = Lancar

Class Cases %

Tidak Lancar 22 9.1

Lancar 219 90.9

W = 241.00

N = 241


Terminal

Node 2


Class Cases %


Lancar 18 26.9

W = 67.00

N = 67

Node 1

Class = Lancar

CARA_BAYAR =


Tahunan)

Class Cases %


Lancar 237 76.9

W = 308.00

N = 308

Documents

APLIKASI ALGORITMA CART - core.ac.uk · Dalam skripsi ini dilakukan tiga kombinasi proporsi data learning dan data testing yaitu: (1) pembagian data learning dan data testing dengan