5
JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 1 AbstrakKanker ovarium merupakan kanker yang dapat berkembang sangat cepat. Perkembangan kanker dari stadium awal hingga stadium lanjut dapat terjadi dalam kurun waktu 1 tahun. Penyakit ini berada di urutan kedelapan yang paling banyak menyerang wanita. Pertumbuhan jumlah penderita penyakit ini terus bertambah setiap tahunnya. Untuk itulah, diagnosa dini sangat penting untuk mengurangi resiko kematian. Salah satu data yang dapat digunakan untuk memprediksi adanya kanker ovarium adalah data ekspresi protein. Data ini dapat digunakan untuk diagnosa awal karena ekspresi protein pasien sehat dan penderita kanker sudah berbeda meskipun masih dalam stadium awal. Akan tetapi data ekspresi protein berdimensi tinggi sehingga tidak mudah untuk diklasifikasikan. Disisi yang lain, ada sebuah metode Kernel Partial Least Square (KPLS) yang mampu menangani data yang berdimensi tinggi. Ada studi lain mengusulkan sebuah model prediksi KPLS pada data spektrometri massa ovarium SELDI-TOF High Resolution. Adapun tujuan dari studi ini adalah untuk mengembangkan perangkat lunak berdasarkan model yang diusulkan tersebut. KPLS merupakan pengembangan dari Partial Least Square dengan menambahkan fungsi kernel di dalam prosesnya. Fungsi kernel yang digunakan dalam studi ini adalah fungsi polinomial dengan derajat polinomial=3. Uji coba dilakukan dengan memprediksi kanker pada variasi data yang berbeda. Berdasarkan uji coba, KPLS menghasilkan rata-rata akurasi terbaik sebesar 93,53%, sensitivitas sebesar 89,91% dan spesifisitas sebesar 98,89% untuk data Set A. Berdasarkan hasil uji coba yang telah dilakukan, dapat disimpulkan bahwa perangkat lunak prediktor kanker ovarium dengan metode KPLS terbukti mampu digunakan sebagai model prediksi yang akurat untuk kanker ovarium. Kata Kuncikanker ovarium, kernel, prediksi, KPLS, SELDI- TOF. I. PENDAHULUAN anker ovarium merupakan kanker yang dapat berkembang sangat cepat. Perkembangan kanker dari stadium awal hingga stadium lanjut dapat terjadi dalam kurun waktu 1 tahun. Penyakit ini berada di urutan kedelapan yang paling banyak menyerang wanita di dunia dan menjadi penyebab kematian terbesar kelima di Indonesia [2]. Pertumbuhan jumlah penderita penyakit ini terus bertambah setiap tahunnya. Oleh karena itu, diagnosa dini kanker penting dilakukan untuk mengurangi resiko kematian. Diagnosa dini kanker ovarium tidak mudah dilakukan karena jika dilakukan berdasarkan observasi manual, kanker baru dapat terdeteksi pada stadium lanjut. Hal ini menyebabkan kemungkinan penyembuhan menjadi sangat kecil. Untuk mengatasi permasalahan ini, dapat dilakukan deteksi dini kanker dengan menggunakan data ekspresi protein. Penelitian menyebutkan bahwa ekspresi protein penderita kanker berbeda dengan ekspresi protein orang yang sehat [3]. Perbedaan ini dapat terlihat meskipun belum tampak gejala fisik dari sel kanker. Walaupun secara teoritis kanker ovarium dapat dideteksi melalui data ekspresi protein akan tetapi cara ini memiliki tantangan tersendiri, yaitu data ekspresi protein memiliki dimensi yang tinggi dan bersifat noise, sehingga proses analisanya membutuhkan penanganan komputasi yang khusus. Beberapa penelitian sebelumnya menunjukkan bahwa suatu penyakit dapat didiagnosa dengan menggunakan teknik penggalian data. Beberapa diantaranya, pada tahun 2003 Antonia Vlahou dan rekan-rekannya menggunakan metode CART untuk membedakan sampel kanker jinak dan sampel sehat pada data SELDI-TOF dan penelitian ini menghasilkan hasil prediksi yang cukup akurat [4]. Penelitian lainnya dilakukan oleh Yu [5] pada tahun 2005 untuk prediksi kanker ovarium dengan menggunakan SVM pada data protemik SELDI-TOF dan berhasil mencapai akurasi 93%-97%. Selain itu, ada juga penelitian yang dilakukan oleh Zhang [6] untuk seleksi gen penting pada data yang bersifat noise dengan menggunakan metode R-SVM. Penelitian-penelitian tersebut diatas sebagian besar terfokus pada reduksi dimensi karena data masukan yang digunakan sebagian besar memiliki dimensi yang tinggi. Berdasarkan penelitian-penelitian sebelumnya, untuk meningkatkan performa model prediksi dapat digunakan seleksi fitur. Hal ini dilakukan karena dari sekian banyak fitur yang ada pada data tidak semua fitur berpengaruh pada proses prediksi. Salah satu metode seleksi fitur yang dapat digunakan dalam data ekspresi protein adalah uji-T dua sampel [1]. Tang dengan timnya [1] mengusulkan model prediksi kanker menggunakan Kernel Partial Least Square (KPLS) dan seleksi fitur dengan uji-T dua sampel pada data ovarium SELDI-TOF. KPLS merupakan pengembangan dari Partial Least Square dengan menambahkan konsep trik kernel agar dapat bekerja pada permasalahan non-linear [7]. Studi ini Pengembangan Perangkat Lunak Prediktor Kanker Ovarium Menggunakan Metode Kernel Partial Least Square Lisa Yuli Kurniawati, Handayani Tjandrasa, dan Isye Arieshanti Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember (ITS) Jl. Arief Rahman Hakim, Surabaya 60111 E-mail: [email protected] K

Pengembangan Perangkat Lunak Prediktor Kanker Ovarium ... · perangkat lunak prediktor kanker ovarium dengan metode KPLS terbukti mampu digunakan sebagai model prediksi yang akurat

Embed Size (px)

Citation preview

Page 1: Pengembangan Perangkat Lunak Prediktor Kanker Ovarium ... · perangkat lunak prediktor kanker ovarium dengan metode KPLS terbukti mampu digunakan sebagai model prediksi yang akurat

JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 1

Abstrak—Kanker ovarium merupakan kanker yang dapat

berkembang sangat cepat. Perkembangan kanker dari stadium

awal hingga stadium lanjut dapat terjadi dalam kurun waktu 1

tahun. Penyakit ini berada di urutan kedelapan yang paling

banyak menyerang wanita. Pertumbuhan jumlah penderita

penyakit ini terus bertambah setiap tahunnya. Untuk itulah,

diagnosa dini sangat penting untuk mengurangi resiko kematian.

Salah satu data yang dapat digunakan untuk memprediksi

adanya kanker ovarium adalah data ekspresi protein. Data ini

dapat digunakan untuk diagnosa awal karena ekspresi protein

pasien sehat dan penderita kanker sudah berbeda meskipun

masih dalam stadium awal. Akan tetapi data ekspresi protein

berdimensi tinggi sehingga tidak mudah untuk diklasifikasikan.

Disisi yang lain, ada sebuah metode Kernel Partial Least Square

(KPLS) yang mampu menangani data yang berdimensi tinggi.

Ada studi lain mengusulkan sebuah model prediksi KPLS pada

data spektrometri massa ovarium SELDI-TOF High Resolution.

Adapun tujuan dari studi ini adalah untuk mengembangkan

perangkat lunak berdasarkan model yang diusulkan tersebut.

KPLS merupakan pengembangan dari Partial Least Square

dengan menambahkan fungsi kernel di dalam prosesnya. Fungsi

kernel yang digunakan dalam studi ini adalah fungsi polinomial

dengan derajat polinomial=3. Uji coba dilakukan dengan

memprediksi kanker pada variasi data yang berbeda.

Berdasarkan uji coba, KPLS menghasilkan rata-rata akurasi

terbaik sebesar 93,53%, sensitivitas sebesar 89,91% dan

spesifisitas sebesar 98,89% untuk data Set A. Berdasarkan hasil

uji coba yang telah dilakukan, dapat disimpulkan bahwa

perangkat lunak prediktor kanker ovarium dengan metode

KPLS terbukti mampu digunakan sebagai model prediksi yang

akurat untuk kanker ovarium.

Kata Kunci—kanker ovarium, kernel, prediksi, KPLS, SELDI-

TOF.

I. PENDAHULUAN

anker ovarium merupakan kanker yang dapat

berkembang sangat cepat. Perkembangan kanker dari

stadium awal hingga stadium lanjut dapat terjadi dalam kurun

waktu 1 tahun. Penyakit ini berada di urutan kedelapan yang

paling banyak menyerang wanita di dunia dan menjadi

penyebab kematian terbesar kelima di Indonesia [2].

Pertumbuhan jumlah penderita penyakit ini terus bertambah

setiap tahunnya. Oleh karena itu, diagnosa dini kanker penting

dilakukan untuk mengurangi resiko kematian.

Diagnosa dini kanker ovarium tidak mudah dilakukan

karena jika dilakukan berdasarkan observasi manual, kanker

baru dapat terdeteksi pada stadium lanjut. Hal ini

menyebabkan kemungkinan penyembuhan menjadi sangat

kecil. Untuk mengatasi permasalahan ini, dapat dilakukan

deteksi dini kanker dengan menggunakan data ekspresi

protein. Penelitian menyebutkan bahwa ekspresi protein

penderita kanker berbeda dengan ekspresi protein orang yang

sehat [3]. Perbedaan ini dapat terlihat meskipun belum tampak

gejala fisik dari sel kanker. Walaupun secara teoritis kanker

ovarium dapat dideteksi melalui data ekspresi protein akan

tetapi cara ini memiliki tantangan tersendiri, yaitu data

ekspresi protein memiliki dimensi yang tinggi dan bersifat

noise, sehingga proses analisanya membutuhkan penanganan

komputasi yang khusus.

Beberapa penelitian sebelumnya menunjukkan bahwa

suatu penyakit dapat didiagnosa dengan menggunakan teknik

penggalian data. Beberapa diantaranya, pada tahun 2003

Antonia Vlahou dan rekan-rekannya menggunakan metode

CART untuk membedakan sampel kanker jinak dan sampel

sehat pada data SELDI-TOF dan penelitian ini menghasilkan

hasil prediksi yang cukup akurat [4]. Penelitian lainnya

dilakukan oleh Yu [5] pada tahun 2005 untuk prediksi kanker

ovarium dengan menggunakan SVM pada data protemik

SELDI-TOF dan berhasil mencapai akurasi 93%-97%. Selain

itu, ada juga penelitian yang dilakukan oleh Zhang [6] untuk

seleksi gen penting pada data yang bersifat noise dengan

menggunakan metode R-SVM. Penelitian-penelitian tersebut

diatas sebagian besar terfokus pada reduksi dimensi karena

data masukan yang digunakan sebagian besar memiliki

dimensi yang tinggi.

Berdasarkan penelitian-penelitian sebelumnya, untuk

meningkatkan performa model prediksi dapat digunakan

seleksi fitur. Hal ini dilakukan karena dari sekian banyak fitur

yang ada pada data tidak semua fitur berpengaruh pada proses

prediksi. Salah satu metode seleksi fitur yang dapat

digunakan dalam data ekspresi protein adalah uji-T dua

sampel [1].

Tang dengan timnya [1] mengusulkan model prediksi

kanker menggunakan Kernel Partial Least Square (KPLS)

dan seleksi fitur dengan uji-T dua sampel pada data ovarium

SELDI-TOF. KPLS merupakan pengembangan dari Partial

Least Square dengan menambahkan konsep trik kernel agar

dapat bekerja pada permasalahan non-linear [7]. Studi ini

Pengembangan Perangkat Lunak Prediktor

Kanker Ovarium Menggunakan Metode

Kernel Partial Least Square

Lisa Yuli Kurniawati, Handayani Tjandrasa, dan Isye Arieshanti Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember (ITS)

Jl. Arief Rahman Hakim, Surabaya 60111

E-mail: [email protected]

K

Page 2: Pengembangan Perangkat Lunak Prediktor Kanker Ovarium ... · perangkat lunak prediktor kanker ovarium dengan metode KPLS terbukti mampu digunakan sebagai model prediksi yang akurat

JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 2

bertujuan untuk mengembangkan perangkat lunak

berdasarkan model yang diajukan oleh Tang [1].

Pengembangan perangkat lunak prediktor kanker ovarium

dengan mengunakan metode KPLS ini diharapkan dapat

bermanfaat di bidang kedokteran untuk diagnosa dini kanker

ovarium.

Sistematika penulisan artikel ini dapat dijelaskan sebagai

berikut. Bab 1 menjelaskan mengenai latar belakang dan

tujuan studi. Bab 2 akan membahas tentang metodologi yang

digunakan artikel ini, yaitu uji-T dua sampel, transformasi

data dan Kernel Partial Least Square. Kemudian akan dibahas

mengenai desain dari perangkat lunak pada bab 3 dan

dilanjutkan dengan implementasinya pada bab 4. Pengujian

terhadap sistem yang dibuat akan dibahas pada bab 5.

Kemudian, selanjutnya akan didapatkan kesimpulan-

kesimpulan dari pengujian terhadap sistem yang telah dibuat.

II. METODOLOGI

A. Uji-T Dua Sampel

Uji-T dua sampel independen digunakan untuk menguji

apakah dua kelompok sampel mempunyai rata-rata yang sama

atau tidak. Sesuai dengan nama statistik ujinya maka kedua

sampel yang akan diuji harus saling bebas atau tidak

berhubungan satu sama lain (independen). Selain itu,

diasumsikan varian dari kedua sampel tersebut sama [8].

Hipotesis null (H0) pada statistik uji-T ini adalah dua

kelompok sampel yang mempunyai rata-rata sama. Sedangkan

untuk hipotesis alternatif adalah kebalikannya yaitu dua

kelompok sampel yang memiliki rata-rata berbeda. Secara

matematis dapat ditulis sebagai [8]:

210 : H

211 : H (1)

dengan μ1 adalah rata-rata untuk sampel pertama dan μ2 adalah

rata-rata untuk sampel kedua.

Pengambilan keputusan apakah akan menolak H0 ataukah

menerima H0 didasarkan pada perhitungan nilai tc dengan

rumusan berikut [8]:

21

21

11

nns

xxt

p

c

(2)

dimana 21, xx adalah rata-rata dari sampel pertama dan kedua,

n1 dan n2 adalah jumlah data pada sampel pertama dan kedua

dan sp diperoleh dari perhitungan matematis berikut[8] :

2

)1()1(

21

222

211

nn

snsnsp (3)

Jika nilai dari tc melampaui tα/2,v atau kurang dari -tα/2,v maka

H0 ditolak. Sedangkan jika nilai tc berada diantara -tα/2,v dan

tα/2,v maka H0 diterima. α adalah tingkat signifikansi yang

diperoleh dari angka 1 dikurangi dengan tingkat

kepercayaan[8].

B. Transformasi Data

Transformasi data adalah suatu teknik untuk mengubah

bentuk format data tanpa merubah informasi yang

dikandungnya. Salah satu tekniknya antara lain transformasi

data berdasarkan momen statistik [1].

Pertama, data dibagi menjadi beberapa interval. Kemudian

setiap interval tersebut dicari variabel yang dapat

menggambarkan karakteristik dari data pada interval

tersebut[1].

Didalam ilmu statistika, ada banyak variabel yang dapat

menggambarkan karakteristik data pada suatu interval

diantaranya mean, varian, skewness dan kurtosis. Rata-rata

menyatakan titik pusat dari data. Varian mengukur tingkat

persebaran data. Skewness menggambarkan derajat

ketidaksimetrisan suatu distribusi data sedangkan kurtosis

menyatakan derajat keruncingan suatu distribusi. Adapun

rumusan dari rata-rata, varian, skewness dan kurtosis adalah

sebagai berikut [1]:

n

xxxx

n

xx n

n

i

i

...321

1 (4)

)1(

)(12

n

Xxs

n

i i (5)

3

1

3

)1(

)(

sn

Xxskewness

n

i i

(6)

4

4

1

1

)(

sn

Xxkurtosis

n

i i

(7)

dimana x adalah mean, s adalah standar deviasi, s2 adalah

varian. n adalah banyaknya data dan xi adalah nilai untuk data

ke i.

C. Kernel Partial Least Square

Partial least square adalah suatu teknik untuk mencari

persamaan linear antara variabel respon dan variabel prediktor

dengan nilai error terkecil. Pengembangan dari metode

partial least square untuk permasalahan non-linear dengan

melibatkan trik kernel didalamnya dinamakan Kernel Partial

Least Square. Konsepnya adalah setiap x akan dipetakan

kedalam ruang fitur Ƒ menjadi )(xx . Perbedaannya

dengan partial least square adalah matriks XXT diganti

dengan matriks kernel K [7].

Fungsi kernel yang dapat digunakan dapat berupa fungsi

linear, polinomial ataupun RBF. Untuk fungsi kernel

polinomial secara matematis dapat dijabarkan sebagai berikut

[1]:

pjiji rxxxxk ),(),( (8)

dimana p menunjukkan derajat fungsi polinomial dan r

menunjukkan bobot relatif dari derajat bentuk monomialnya.

Sedangkan notasi (xi , xj) merupakan perkalian dot product

antara vektor inputan xi dan xj.

Jika diberikan sekumpulan vektor, n

xxX ,..,1

, dimana n

adalah jumlah sampel dan k mengindikasikan fungsi kernel

maka K didefinisikan sebagai matriks kernel yang setiap

Page 3: Pengembangan Perangkat Lunak Prediktor Kanker Ovarium ... · perangkat lunak prediktor kanker ovarium dengan metode KPLS terbukti mampu digunakan sebagai model prediksi yang akurat

JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 3

Tabel 1.

Pseudocode modifikasi algoritma NIPALS untuk KPLS [7]

Langkah Kernel Partial Least Square

1 i=1

2 Inisialisasi vektor u secara acak

3 ut T , kemudian uut /

4 tYc T

5 Ycu , kemudian uuu /

6 Ulangi langkah 2-5 hingga konvergen

7 Lakukan deflasi pada matriks K dan Y:

8 TTTTTT KttttKttKttKttIKttIK )()( ,

YttYY T

9 i=i+1, jika i<p maka kembali ke langkah 2

elemen matriksnya didapatkan dari fungsi perhitungan sebagai

berikut [1]:

),()(),( jijiij xxkxxK (9)

Sehingga jika dijabarkan maka komponen matriks K adalah

sebagai berikut :

),(

),(

),(

...

...

...

),(

...

),(

),(

...

),(

2

1

2

21

1

11

nn

n

n

nnxxk

xxk

xxk

xxk

xxk

xxk

xxk

K (10)

Modifikasi algoritma NIPALS untuk KPLS terlihat pada

Tabel 1, dimana T adalah matriks K yang didapat

perhitungan sebelumnya. Matriks B untuk koefisien regresi

akan menjadi seperti berikut [7]:

YTKUTUB TTT 1)( (11)

untuk prediksi data uji tnn

niix

1dapat menggunakan fungsi

matematis sebagai berikut [7]:

YTKUTUKBY TTttt

1)(

(12)

Diawal terlebih dahulu dilakukan proses sentralisasi data

untuk dipetakan ke dalam ruang fitur Ƒ [7].

Tnn

Tnn

nIK

nIK 11

111

1 (13)

Tnn

Tnnttt

nIK

nKK 11

111

1 (14)

dimana I adalah matriks identitas dengan ordo nn , 1n dan

1nt adalah vektor yang elemen vektornya bernilai 1 dengan

panjang vektor n dan nt.

III. PENGEMBANGAN PERANGKAT LUNAK

A. Data Masukan

Data masukan adalah data ovarium spektometri massa

SELDI-TOF High Resolution [9]. Data ini terdiri atas 95 data

sampel normal dan 121 data sampel kanker. Data ini dibuat

oleh National Cancer Institute dan dapat diunduh pada:

http://home.ccr.cancer.gov/ncifdaproteomics/ppatterns.asp.

B. Modul Pra-Proses

Secara garis besar perangkat lunak prediktor kanker

ovarium ini terdiri atas tiga modul yaitu modul pra-proses,

modul latih dan modul uji. Modul pra-proses bertujuan untuk

menyiapkan data agar siap untuk diproses. Pada modul ini

dilakukan proses pembuangan missing value, seleksi fitur

dengan uji-T dua sampel dan transformasi data dengan

momen statistik. Keluaran dari proses ini adalah dataset-

dataset baru seperti yang terdapat pada Tabel 2.

Pembuangan Fitur dengan Missing Value

Setiap nilai m/z ratio yang tidak memiliki nilai intensitas di

salah satu dokumen akan dibuang dan tidak digunakan dalam

sistem.

Seleksi Fitur dengan Uji-T Dua Sampel

Setiap nilai m/z ratio dilakukan proses uji-T dua sampel

dengan parameter α = 0,001. Fitur yang menghasilkan nilai

h=1 pada proses uji-T dua sampel merupakan fitur yang

bersifat diskriminatif. Fitur-fitur inilah yang akan digunakan

pada sistem. Data masukan untuk proses ini adalah data Set A.

Sedangkan keluaran dari proses ini adalah data Set B.

Transformasi Data dengan Momen Statistik

Pereduksian dimensi dilakukan dengan transformasi data

berdasarkan momen statistik. Dalam proses transformasi data

diperlukan parameter nilai lebar window. Nilai ini yang akan

menentukan lebar interval m/z ratio yang akan ditransformasi.

Setiap interval yang ada kemudian dicari nilai rata-rata,

varian, skewness dan kurtosis sesuai (4)-(7). Data masukan

untuk proses ini adalah data Set A atau Set B. Sedangkan

keluaran dari proses ini adalah data Set C atau Set D.

C. Modul Latih

Data yang dihasilkan dari modul pra-proses kemudian

dibagi menjadi dua bagian yaitu data latih dan data uji. Proses

pembagian data didasarkan pada konsep K-Fold Cross

validation. K-Fold Cross Validation membagi data yang ada

secara acak dan sama rata ke dalam K subset data yang saling

bebas. Satu subset berperan sebagai data uji dan K-1 subset

lainnya berperan sebagai data latih. Proses ini akan diulang

sampai K kali sehingga semua data pernah mendapat giliran

sebagai data uji maupun data latih [10].

Adapun modul latih merupakan modul pembentukan model

prediksi dari data latih yang digunakan. Keluaran modul ini

adalah koefisien regresi yang nantinya dapat digunakan untuk

memprediksi label data pada data uji.

D. Modul Uji

Modul uji dilakukan untuk memprediksi data uji

Tabel 2.

Keluaran modul pra-proses

No Nama

Dataset Deskripsi Jumlah fitur

1 Set A Keluaran proses pembuangan missing

value pada data ovarium SELDI-TOF

High Resolution

39.905

2 Set B Keluaran proses seleksi fitur dengan uji-

T dua sampel pada data Set A

24.544

3 Set C Keluaran proses transformasi data pada

data Set A

4 Set D Keluaran proses transformasi data pada

data Set B

Page 4: Pengembangan Perangkat Lunak Prediktor Kanker Ovarium ... · perangkat lunak prediktor kanker ovarium dengan metode KPLS terbukti mampu digunakan sebagai model prediksi yang akurat

JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 4

Tabel 3.

Pseudocode proses utama

1 X = data latih

2 Y = label data latih

3 Xt = data uji

4 Yt = label uji

5 Membuat matriks kernel data latih (K)

6 Membuat matriks kernel data uji (Kt)

7 K = (I-((1/n)*ln*lnT))*K*(I-((1/n)*ln*lnT));

8 Kt = (Kt-((1/n)*lnt*lnT*K))*(I-((1/n)*ln*lnT));

9 Mencari koefisien regresi (B) dengan algoritma NIPALS (Tabel 1)

10 Ytprediksi = Prediksi data uji Kt menggunakan koefisien regresi B pada langkah 9

11 Menentukan label data uji sesuai

12 Menghitung performa model prediksi sesuai (16),(17),(18)

menggunakan model yang telah diperoleh dari modul latih.

Label data pada data uji sesuai dengan (11) dan menggunakan

koefisien regresi (B) yang telah didapatkan pada modul latih.

Adapun setiap poin Yi dilabelkan kanker (+1) dan normal (-1)

sesuai dengan aturan berikut:

0 if ,1

0 if ,1

iYtiYt

iYt (15)

Setelah mendapatkan hasil prediksi kemudian dilakukan

proses evaluasi terhadap model prediksi yang ada. Proses

evaluasi dilakukan dengan menghitung nilai akurasi,

sensitivitas dan spesifisitas dengan rumusan sebagai berikut

[1]:

FNTNFPTP

TNTPAc

(16)

FNTP

TPSn

(17)

FPTN

TNSp

(18)

Semakin besar tingkat akurasi, sensitivitas dan spesifisitas

menyatakan hasil prediksi sistem semakin akurat.

IV. IMPLEMENTASI

Secara umum struktur dari sistem perangkat lunak ini

terbagi atas dua lapisan utama yaitu lapisan logika dan lapisan

antarmuka. Dataset yang digunakan merupakan data

spektometri massa ovarium SELDI-TOF High Resolution

yang

tersimpan dalam file csv. Adapun pseudocode proses utama

pada perangkat lunak ini adalah sebagai berikut:

Lapisan logika menangani proses pembentukan model

prediksi dengan menggunakan metode kernel partial least

square. Fungsi utama kernel partial least square ini memiliki

beberapa operasi, yang terdiri dari mencari vektor latent sesuai

dengan jumlah komponen yang diekstrak serta mencari

koefisien regresi.

Lapisan antarmuka merupakan lapisan yang

menghubungkan antara fungsi-fungsi aplikasi dengan

pengguna sistem.

V. UJI COBA

Uji coba yang dilakukan dengan melatih data menggunakan

data masukan yang berbeda. Pada skenario pertama digunakan

data Set A dan Set B untuk melihat pengaruh seleksi fitur

terhadap performa model prediksi yang dihasilkan. Performa

sistem diukur dengan indikator nilai akurasi, sensitivitas dan

spesifisitas. Skenario uji coba kedua dilakukan pada Set C dan

Set D dengan melakukan pengubahan parameter lebar window

pada proses transformasi data. Lebar window adalah

parameter yang menentukan lebar interval m/z ratio ketika

proses transformasi data.

Pembagian data menjadi dua bagian yaitu data latih dan

data uji pada skenario pertama dan kedua didasarkan pada

konsep K-Fold Cross Validation dengan parameter nilai k=5.

Sebanyak 173 data latih diperoleh dari hasil acak dataset dan

43 data uji merupakan data dari dataset selain data latih. Uji

coba ini dilakukan pada tiap dataset dengan masing-masing

data diulang sebanyak 5 kali percobaan untuk kemudian

dibandingkan hasilnya.

Untuk setiap pasangan data masukan dan keluaran pada tiap

percobaan akan dihitung nilai akurasi, sensitivitas dan

spesifisitas. Pada akhir setiap skenario uji coba dihitung rata-

rata performa sistem.

Tabel 4 memperlihatkan hasil uji coba pada skenario

pertama dimana performa sistem dengan menggunakan data

Set A dan Set B tidak jauh berbeda padahal dimensi fitur

kedua data ini berbeda. Data hasil dari seleksi fitur dengan uji-

T dua sampel mampu mengimbangi performa sistem tanpa

seleksi fitur.

Pada skenario kedua dilakukan pengujian terhadap

Tabel 5

Performa sistem pada variasi parameter lebar window

pada transformasi data

Dataset Jumlah Fitur Akurasi Sensitivitas Spesifisitas

Set C10 15.964 67.58% 47.06% 92.64%

Set C20 7.984 75.02% 66.48% 86.38%

Set C30 5.324 74.52% 64.56% 88.24%

Set C40 3.992 60.64% 29.75% 94.75%

Set C50 3.196 76.4% 70.44% 85.84%

Set D10 9.820 73.58% 57.64% 92.96%

Set D20 4.912 73.6% 59.32% 91.76%

Set D30 3.276 72.62% 68.04% 80.4%

Set D40 2.456 74.02% 67.52% 84.98%

Set D50 1.964 58.24% 29.74% 94.76%

Tabel 4.

Performa sistem pada variasi data Set A dan Set B

Dataset Percobaan Akurasi Sensitivitas Spesifisitas

Set A (tanpa seleksi

fitur)

1 88,37% 82,76% 100%

2 97,67% 95,83% 100%

3 90,91% 84% 100%

4 93,02% 92% 94,44%

5 97,67% 94,44% 100%

Rata-Rata 93,53% 89,81% 98,89%

Set B 1 88,37% 82,76% 100% (seleksi fitur) 2 95,35% 91,67% 100%

3 90,91% 84% 100%

4 93,02% 92% 94,44%

5 97,67% 94,44% 100%

Rata-Rata 93,06% 88,97% 98,89%

Page 5: Pengembangan Perangkat Lunak Prediktor Kanker Ovarium ... · perangkat lunak prediktor kanker ovarium dengan metode KPLS terbukti mampu digunakan sebagai model prediksi yang akurat

JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 5

parameter lebar window 10, 20, 30, 40 dan 50 pada proses

transformasi data. Set C10, C20, C30, C40 dan C50 diperoleh

dari hasil transformasi data dengan data masukan Set A

dengan lebar window yang berbeda-beda. Sedangkan Set D

diperoleh dari hasil transformasi data dengan data masukan

Set B.

Tabel 5 memperlihatkan hasil uji coba pada skenario kedua

dimana performa sistem dengan data masukan SetC50 lebih

tinggi bila dibandingkan dengan data Set C yang lain. Untuk

data Set C parameter yang terbaik untuk membuat model

prediksi adalah 50 dengan nilai rata-rata akurasi sebesar

76,4%. Untuk data set D parameter yang terbaik untuk

membuat model prediksi adalah 40 dengan nilai rata-rata

akurasi sebesar 74,02%.

Perubahan nilai parameter lebar window pada proses

transformasi data memberikan pengaruh terhadap performa

prediksi. Semakin besar nilai lebar window pada proses

transformasi maka akurasi yang dihasilkan naik turun atau

fluktuatif. Oleh karena itu diperlukan adanya uji coba untuk

menentukan parameter lebar window yang optimal.

VI. SIMPULAN

Berdasarkan hasil uji coba yang telah dilakukan

dapat disimpulkan bahwa perangkat lunak prediktor kanker

ovarium dengan metode Kernel Partial Least Square terbukti

mampu digunakan sebagai model prediksi kanker ovarium.

Hal ini ditunjukkan oleh rata-rata nilai akurasi yang cukup

tinggi, yaitu sebesar 93,53%, sensitivitas sebesar 89,81% dan

spesifisitas sebesar 98.89% untuk data Set A.

DAFTAR PUSTAKA

[1] Tang, K.-L., Li, T.-H., Xiong, W.-W., & Chen, K. (2010). Ovarian

cancer classification based on dimensionality reduction for SELDI-TOF

data. BMC Bioinformatics , 11:109.

[2] World Health Organization and Institut Catala d'Oncologia. Human

Papillomavirus and Related Cancers Summary Report Update.

September 15, 2010 Third Edition.

[3] Wulfkuhle, J. D., Liotta, L. A., & Petricoin, E. F. (2003, April).

Proteomic applications for the early detection of cancer. 3(4):267-275.

[4] Vlahou, A., Schorge, J., Gregory, B., & Coleman, R. (2003). Diagnosis

of ovarian cancer using decision tree classification of mass spectral data.

Journal of Biomedicine and Biotechnology , 2003:308-314.

[5] Yu, J.S., Ongarello, S., Fielder, R., Chen, X.W., Toffolo. G., Cobelli. C.,

& Trajanoski, Z. (2005). Ovarian Cancer Identification Based On

Dimensionality Reduction for High-Throughput Mass Spectrometry

Data, Oxford University Press. 21 (10): 2200-2209. [6] Zhang, X., Lu, X., Shi, Q., Xu, X., Leung, H., Hariss, L., et al. (2006).

Recursive SVM feature selection and sample classification for mass-

spectrometry and microarray data. BMC Bioinformatics , 7:197.

[7] Rosipal, R., & Trejo, L. J. (2001). Kernel Partial Least Squares

Regression in Reproducing Kernel Hilbert Space. Journal of Machine

Learning Research 2 , 97-123.

[8] Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probability

& Statistics for Engineers & Scientists 9th ed. Boston, United States of

America: Prentice Hall.

[9] High Resolution SELDI-TOF Study Sets. (2004, Juni). (U.S Nasional

Institutes of Health) Dipetik pada 20 Februari 2012, dari National

Cancer Institute Center for Cancer Research:

http://home.ccr.cancer.gov/ncifdaproteomics/ppatterns.asp

[10] Tan, Pang Ning; Steinbach, Michael; Kumar, Vipin. Introduction to Data

Mining. 2006. Pearson Education. United State of AmericaG. O. Young,

“Synthetic structure of industrial plastics (Book style with paper title and

editor),” in Plastics, 2nd ed. vol. 3, J. Peters, Ed. New York: McGraw-

Hill, 1964, pp. 15–64.