Upload
lamthien
View
214
Download
0
Embed Size (px)
Citation preview
JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 1
Abstrak—Kanker ovarium merupakan kanker yang dapat
berkembang sangat cepat. Perkembangan kanker dari stadium
awal hingga stadium lanjut dapat terjadi dalam kurun waktu 1
tahun. Penyakit ini berada di urutan kedelapan yang paling
banyak menyerang wanita. Pertumbuhan jumlah penderita
penyakit ini terus bertambah setiap tahunnya. Untuk itulah,
diagnosa dini sangat penting untuk mengurangi resiko kematian.
Salah satu data yang dapat digunakan untuk memprediksi
adanya kanker ovarium adalah data ekspresi protein. Data ini
dapat digunakan untuk diagnosa awal karena ekspresi protein
pasien sehat dan penderita kanker sudah berbeda meskipun
masih dalam stadium awal. Akan tetapi data ekspresi protein
berdimensi tinggi sehingga tidak mudah untuk diklasifikasikan.
Disisi yang lain, ada sebuah metode Kernel Partial Least Square
(KPLS) yang mampu menangani data yang berdimensi tinggi.
Ada studi lain mengusulkan sebuah model prediksi KPLS pada
data spektrometri massa ovarium SELDI-TOF High Resolution.
Adapun tujuan dari studi ini adalah untuk mengembangkan
perangkat lunak berdasarkan model yang diusulkan tersebut.
KPLS merupakan pengembangan dari Partial Least Square
dengan menambahkan fungsi kernel di dalam prosesnya. Fungsi
kernel yang digunakan dalam studi ini adalah fungsi polinomial
dengan derajat polinomial=3. Uji coba dilakukan dengan
memprediksi kanker pada variasi data yang berbeda.
Berdasarkan uji coba, KPLS menghasilkan rata-rata akurasi
terbaik sebesar 93,53%, sensitivitas sebesar 89,91% dan
spesifisitas sebesar 98,89% untuk data Set A. Berdasarkan hasil
uji coba yang telah dilakukan, dapat disimpulkan bahwa
perangkat lunak prediktor kanker ovarium dengan metode
KPLS terbukti mampu digunakan sebagai model prediksi yang
akurat untuk kanker ovarium.
Kata Kunci—kanker ovarium, kernel, prediksi, KPLS, SELDI-
TOF.
I. PENDAHULUAN
anker ovarium merupakan kanker yang dapat
berkembang sangat cepat. Perkembangan kanker dari
stadium awal hingga stadium lanjut dapat terjadi dalam kurun
waktu 1 tahun. Penyakit ini berada di urutan kedelapan yang
paling banyak menyerang wanita di dunia dan menjadi
penyebab kematian terbesar kelima di Indonesia [2].
Pertumbuhan jumlah penderita penyakit ini terus bertambah
setiap tahunnya. Oleh karena itu, diagnosa dini kanker penting
dilakukan untuk mengurangi resiko kematian.
Diagnosa dini kanker ovarium tidak mudah dilakukan
karena jika dilakukan berdasarkan observasi manual, kanker
baru dapat terdeteksi pada stadium lanjut. Hal ini
menyebabkan kemungkinan penyembuhan menjadi sangat
kecil. Untuk mengatasi permasalahan ini, dapat dilakukan
deteksi dini kanker dengan menggunakan data ekspresi
protein. Penelitian menyebutkan bahwa ekspresi protein
penderita kanker berbeda dengan ekspresi protein orang yang
sehat [3]. Perbedaan ini dapat terlihat meskipun belum tampak
gejala fisik dari sel kanker. Walaupun secara teoritis kanker
ovarium dapat dideteksi melalui data ekspresi protein akan
tetapi cara ini memiliki tantangan tersendiri, yaitu data
ekspresi protein memiliki dimensi yang tinggi dan bersifat
noise, sehingga proses analisanya membutuhkan penanganan
komputasi yang khusus.
Beberapa penelitian sebelumnya menunjukkan bahwa
suatu penyakit dapat didiagnosa dengan menggunakan teknik
penggalian data. Beberapa diantaranya, pada tahun 2003
Antonia Vlahou dan rekan-rekannya menggunakan metode
CART untuk membedakan sampel kanker jinak dan sampel
sehat pada data SELDI-TOF dan penelitian ini menghasilkan
hasil prediksi yang cukup akurat [4]. Penelitian lainnya
dilakukan oleh Yu [5] pada tahun 2005 untuk prediksi kanker
ovarium dengan menggunakan SVM pada data protemik
SELDI-TOF dan berhasil mencapai akurasi 93%-97%. Selain
itu, ada juga penelitian yang dilakukan oleh Zhang [6] untuk
seleksi gen penting pada data yang bersifat noise dengan
menggunakan metode R-SVM. Penelitian-penelitian tersebut
diatas sebagian besar terfokus pada reduksi dimensi karena
data masukan yang digunakan sebagian besar memiliki
dimensi yang tinggi.
Berdasarkan penelitian-penelitian sebelumnya, untuk
meningkatkan performa model prediksi dapat digunakan
seleksi fitur. Hal ini dilakukan karena dari sekian banyak fitur
yang ada pada data tidak semua fitur berpengaruh pada proses
prediksi. Salah satu metode seleksi fitur yang dapat
digunakan dalam data ekspresi protein adalah uji-T dua
sampel [1].
Tang dengan timnya [1] mengusulkan model prediksi
kanker menggunakan Kernel Partial Least Square (KPLS)
dan seleksi fitur dengan uji-T dua sampel pada data ovarium
SELDI-TOF. KPLS merupakan pengembangan dari Partial
Least Square dengan menambahkan konsep trik kernel agar
dapat bekerja pada permasalahan non-linear [7]. Studi ini
Pengembangan Perangkat Lunak Prediktor
Kanker Ovarium Menggunakan Metode
Kernel Partial Least Square
Lisa Yuli Kurniawati, Handayani Tjandrasa, dan Isye Arieshanti Jurusan Teknik Informatika, Fakultas Teknologi Informasi, Institut Teknologi Sepuluh Nopember (ITS)
Jl. Arief Rahman Hakim, Surabaya 60111
E-mail: [email protected]
K
JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 2
bertujuan untuk mengembangkan perangkat lunak
berdasarkan model yang diajukan oleh Tang [1].
Pengembangan perangkat lunak prediktor kanker ovarium
dengan mengunakan metode KPLS ini diharapkan dapat
bermanfaat di bidang kedokteran untuk diagnosa dini kanker
ovarium.
Sistematika penulisan artikel ini dapat dijelaskan sebagai
berikut. Bab 1 menjelaskan mengenai latar belakang dan
tujuan studi. Bab 2 akan membahas tentang metodologi yang
digunakan artikel ini, yaitu uji-T dua sampel, transformasi
data dan Kernel Partial Least Square. Kemudian akan dibahas
mengenai desain dari perangkat lunak pada bab 3 dan
dilanjutkan dengan implementasinya pada bab 4. Pengujian
terhadap sistem yang dibuat akan dibahas pada bab 5.
Kemudian, selanjutnya akan didapatkan kesimpulan-
kesimpulan dari pengujian terhadap sistem yang telah dibuat.
II. METODOLOGI
A. Uji-T Dua Sampel
Uji-T dua sampel independen digunakan untuk menguji
apakah dua kelompok sampel mempunyai rata-rata yang sama
atau tidak. Sesuai dengan nama statistik ujinya maka kedua
sampel yang akan diuji harus saling bebas atau tidak
berhubungan satu sama lain (independen). Selain itu,
diasumsikan varian dari kedua sampel tersebut sama [8].
Hipotesis null (H0) pada statistik uji-T ini adalah dua
kelompok sampel yang mempunyai rata-rata sama. Sedangkan
untuk hipotesis alternatif adalah kebalikannya yaitu dua
kelompok sampel yang memiliki rata-rata berbeda. Secara
matematis dapat ditulis sebagai [8]:
210 : H
211 : H (1)
dengan μ1 adalah rata-rata untuk sampel pertama dan μ2 adalah
rata-rata untuk sampel kedua.
Pengambilan keputusan apakah akan menolak H0 ataukah
menerima H0 didasarkan pada perhitungan nilai tc dengan
rumusan berikut [8]:
21
21
11
nns
xxt
p
c
(2)
dimana 21, xx adalah rata-rata dari sampel pertama dan kedua,
n1 dan n2 adalah jumlah data pada sampel pertama dan kedua
dan sp diperoleh dari perhitungan matematis berikut[8] :
2
)1()1(
21
222
211
nn
snsnsp (3)
Jika nilai dari tc melampaui tα/2,v atau kurang dari -tα/2,v maka
H0 ditolak. Sedangkan jika nilai tc berada diantara -tα/2,v dan
tα/2,v maka H0 diterima. α adalah tingkat signifikansi yang
diperoleh dari angka 1 dikurangi dengan tingkat
kepercayaan[8].
B. Transformasi Data
Transformasi data adalah suatu teknik untuk mengubah
bentuk format data tanpa merubah informasi yang
dikandungnya. Salah satu tekniknya antara lain transformasi
data berdasarkan momen statistik [1].
Pertama, data dibagi menjadi beberapa interval. Kemudian
setiap interval tersebut dicari variabel yang dapat
menggambarkan karakteristik dari data pada interval
tersebut[1].
Didalam ilmu statistika, ada banyak variabel yang dapat
menggambarkan karakteristik data pada suatu interval
diantaranya mean, varian, skewness dan kurtosis. Rata-rata
menyatakan titik pusat dari data. Varian mengukur tingkat
persebaran data. Skewness menggambarkan derajat
ketidaksimetrisan suatu distribusi data sedangkan kurtosis
menyatakan derajat keruncingan suatu distribusi. Adapun
rumusan dari rata-rata, varian, skewness dan kurtosis adalah
sebagai berikut [1]:
n
xxxx
n
xx n
n
i
i
...321
1 (4)
)1(
)(12
n
Xxs
n
i i (5)
3
1
3
)1(
)(
sn
Xxskewness
n
i i
(6)
4
4
1
1
)(
sn
Xxkurtosis
n
i i
(7)
dimana x adalah mean, s adalah standar deviasi, s2 adalah
varian. n adalah banyaknya data dan xi adalah nilai untuk data
ke i.
C. Kernel Partial Least Square
Partial least square adalah suatu teknik untuk mencari
persamaan linear antara variabel respon dan variabel prediktor
dengan nilai error terkecil. Pengembangan dari metode
partial least square untuk permasalahan non-linear dengan
melibatkan trik kernel didalamnya dinamakan Kernel Partial
Least Square. Konsepnya adalah setiap x akan dipetakan
kedalam ruang fitur Ƒ menjadi )(xx . Perbedaannya
dengan partial least square adalah matriks XXT diganti
dengan matriks kernel K [7].
Fungsi kernel yang dapat digunakan dapat berupa fungsi
linear, polinomial ataupun RBF. Untuk fungsi kernel
polinomial secara matematis dapat dijabarkan sebagai berikut
[1]:
pjiji rxxxxk ),(),( (8)
dimana p menunjukkan derajat fungsi polinomial dan r
menunjukkan bobot relatif dari derajat bentuk monomialnya.
Sedangkan notasi (xi , xj) merupakan perkalian dot product
antara vektor inputan xi dan xj.
Jika diberikan sekumpulan vektor, n
xxX ,..,1
, dimana n
adalah jumlah sampel dan k mengindikasikan fungsi kernel
maka K didefinisikan sebagai matriks kernel yang setiap
JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 3
Tabel 1.
Pseudocode modifikasi algoritma NIPALS untuk KPLS [7]
Langkah Kernel Partial Least Square
1 i=1
2 Inisialisasi vektor u secara acak
3 ut T , kemudian uut /
4 tYc T
5 Ycu , kemudian uuu /
6 Ulangi langkah 2-5 hingga konvergen
7 Lakukan deflasi pada matriks K dan Y:
8 TTTTTT KttttKttKttKttIKttIK )()( ,
YttYY T
9 i=i+1, jika i<p maka kembali ke langkah 2
elemen matriksnya didapatkan dari fungsi perhitungan sebagai
berikut [1]:
),()(),( jijiij xxkxxK (9)
Sehingga jika dijabarkan maka komponen matriks K adalah
sebagai berikut :
),(
),(
),(
...
...
...
),(
...
),(
),(
...
),(
2
1
2
21
1
11
nn
n
n
nnxxk
xxk
xxk
xxk
xxk
xxk
xxk
K (10)
Modifikasi algoritma NIPALS untuk KPLS terlihat pada
Tabel 1, dimana T adalah matriks K yang didapat
perhitungan sebelumnya. Matriks B untuk koefisien regresi
akan menjadi seperti berikut [7]:
YTKUTUB TTT 1)( (11)
untuk prediksi data uji tnn
niix
1dapat menggunakan fungsi
matematis sebagai berikut [7]:
YTKUTUKBY TTttt
1)(
(12)
Diawal terlebih dahulu dilakukan proses sentralisasi data
untuk dipetakan ke dalam ruang fitur Ƒ [7].
Tnn
Tnn
nIK
nIK 11
111
1 (13)
Tnn
Tnnttt
nIK
nKK 11
111
1 (14)
dimana I adalah matriks identitas dengan ordo nn , 1n dan
1nt adalah vektor yang elemen vektornya bernilai 1 dengan
panjang vektor n dan nt.
III. PENGEMBANGAN PERANGKAT LUNAK
A. Data Masukan
Data masukan adalah data ovarium spektometri massa
SELDI-TOF High Resolution [9]. Data ini terdiri atas 95 data
sampel normal dan 121 data sampel kanker. Data ini dibuat
oleh National Cancer Institute dan dapat diunduh pada:
http://home.ccr.cancer.gov/ncifdaproteomics/ppatterns.asp.
B. Modul Pra-Proses
Secara garis besar perangkat lunak prediktor kanker
ovarium ini terdiri atas tiga modul yaitu modul pra-proses,
modul latih dan modul uji. Modul pra-proses bertujuan untuk
menyiapkan data agar siap untuk diproses. Pada modul ini
dilakukan proses pembuangan missing value, seleksi fitur
dengan uji-T dua sampel dan transformasi data dengan
momen statistik. Keluaran dari proses ini adalah dataset-
dataset baru seperti yang terdapat pada Tabel 2.
Pembuangan Fitur dengan Missing Value
Setiap nilai m/z ratio yang tidak memiliki nilai intensitas di
salah satu dokumen akan dibuang dan tidak digunakan dalam
sistem.
Seleksi Fitur dengan Uji-T Dua Sampel
Setiap nilai m/z ratio dilakukan proses uji-T dua sampel
dengan parameter α = 0,001. Fitur yang menghasilkan nilai
h=1 pada proses uji-T dua sampel merupakan fitur yang
bersifat diskriminatif. Fitur-fitur inilah yang akan digunakan
pada sistem. Data masukan untuk proses ini adalah data Set A.
Sedangkan keluaran dari proses ini adalah data Set B.
Transformasi Data dengan Momen Statistik
Pereduksian dimensi dilakukan dengan transformasi data
berdasarkan momen statistik. Dalam proses transformasi data
diperlukan parameter nilai lebar window. Nilai ini yang akan
menentukan lebar interval m/z ratio yang akan ditransformasi.
Setiap interval yang ada kemudian dicari nilai rata-rata,
varian, skewness dan kurtosis sesuai (4)-(7). Data masukan
untuk proses ini adalah data Set A atau Set B. Sedangkan
keluaran dari proses ini adalah data Set C atau Set D.
C. Modul Latih
Data yang dihasilkan dari modul pra-proses kemudian
dibagi menjadi dua bagian yaitu data latih dan data uji. Proses
pembagian data didasarkan pada konsep K-Fold Cross
validation. K-Fold Cross Validation membagi data yang ada
secara acak dan sama rata ke dalam K subset data yang saling
bebas. Satu subset berperan sebagai data uji dan K-1 subset
lainnya berperan sebagai data latih. Proses ini akan diulang
sampai K kali sehingga semua data pernah mendapat giliran
sebagai data uji maupun data latih [10].
Adapun modul latih merupakan modul pembentukan model
prediksi dari data latih yang digunakan. Keluaran modul ini
adalah koefisien regresi yang nantinya dapat digunakan untuk
memprediksi label data pada data uji.
D. Modul Uji
Modul uji dilakukan untuk memprediksi data uji
Tabel 2.
Keluaran modul pra-proses
No Nama
Dataset Deskripsi Jumlah fitur
1 Set A Keluaran proses pembuangan missing
value pada data ovarium SELDI-TOF
High Resolution
39.905
2 Set B Keluaran proses seleksi fitur dengan uji-
T dua sampel pada data Set A
24.544
3 Set C Keluaran proses transformasi data pada
data Set A
4 Set D Keluaran proses transformasi data pada
data Set B
JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 4
Tabel 3.
Pseudocode proses utama
1 X = data latih
2 Y = label data latih
3 Xt = data uji
4 Yt = label uji
5 Membuat matriks kernel data latih (K)
6 Membuat matriks kernel data uji (Kt)
7 K = (I-((1/n)*ln*lnT))*K*(I-((1/n)*ln*lnT));
8 Kt = (Kt-((1/n)*lnt*lnT*K))*(I-((1/n)*ln*lnT));
9 Mencari koefisien regresi (B) dengan algoritma NIPALS (Tabel 1)
10 Ytprediksi = Prediksi data uji Kt menggunakan koefisien regresi B pada langkah 9
11 Menentukan label data uji sesuai
12 Menghitung performa model prediksi sesuai (16),(17),(18)
menggunakan model yang telah diperoleh dari modul latih.
Label data pada data uji sesuai dengan (11) dan menggunakan
koefisien regresi (B) yang telah didapatkan pada modul latih.
Adapun setiap poin Yi dilabelkan kanker (+1) dan normal (-1)
sesuai dengan aturan berikut:
0 if ,1
0 if ,1
iYtiYt
iYt (15)
Setelah mendapatkan hasil prediksi kemudian dilakukan
proses evaluasi terhadap model prediksi yang ada. Proses
evaluasi dilakukan dengan menghitung nilai akurasi,
sensitivitas dan spesifisitas dengan rumusan sebagai berikut
[1]:
FNTNFPTP
TNTPAc
(16)
FNTP
TPSn
(17)
FPTN
TNSp
(18)
Semakin besar tingkat akurasi, sensitivitas dan spesifisitas
menyatakan hasil prediksi sistem semakin akurat.
IV. IMPLEMENTASI
Secara umum struktur dari sistem perangkat lunak ini
terbagi atas dua lapisan utama yaitu lapisan logika dan lapisan
antarmuka. Dataset yang digunakan merupakan data
spektometri massa ovarium SELDI-TOF High Resolution
yang
tersimpan dalam file csv. Adapun pseudocode proses utama
pada perangkat lunak ini adalah sebagai berikut:
Lapisan logika menangani proses pembentukan model
prediksi dengan menggunakan metode kernel partial least
square. Fungsi utama kernel partial least square ini memiliki
beberapa operasi, yang terdiri dari mencari vektor latent sesuai
dengan jumlah komponen yang diekstrak serta mencari
koefisien regresi.
Lapisan antarmuka merupakan lapisan yang
menghubungkan antara fungsi-fungsi aplikasi dengan
pengguna sistem.
V. UJI COBA
Uji coba yang dilakukan dengan melatih data menggunakan
data masukan yang berbeda. Pada skenario pertama digunakan
data Set A dan Set B untuk melihat pengaruh seleksi fitur
terhadap performa model prediksi yang dihasilkan. Performa
sistem diukur dengan indikator nilai akurasi, sensitivitas dan
spesifisitas. Skenario uji coba kedua dilakukan pada Set C dan
Set D dengan melakukan pengubahan parameter lebar window
pada proses transformasi data. Lebar window adalah
parameter yang menentukan lebar interval m/z ratio ketika
proses transformasi data.
Pembagian data menjadi dua bagian yaitu data latih dan
data uji pada skenario pertama dan kedua didasarkan pada
konsep K-Fold Cross Validation dengan parameter nilai k=5.
Sebanyak 173 data latih diperoleh dari hasil acak dataset dan
43 data uji merupakan data dari dataset selain data latih. Uji
coba ini dilakukan pada tiap dataset dengan masing-masing
data diulang sebanyak 5 kali percobaan untuk kemudian
dibandingkan hasilnya.
Untuk setiap pasangan data masukan dan keluaran pada tiap
percobaan akan dihitung nilai akurasi, sensitivitas dan
spesifisitas. Pada akhir setiap skenario uji coba dihitung rata-
rata performa sistem.
Tabel 4 memperlihatkan hasil uji coba pada skenario
pertama dimana performa sistem dengan menggunakan data
Set A dan Set B tidak jauh berbeda padahal dimensi fitur
kedua data ini berbeda. Data hasil dari seleksi fitur dengan uji-
T dua sampel mampu mengimbangi performa sistem tanpa
seleksi fitur.
Pada skenario kedua dilakukan pengujian terhadap
Tabel 5
Performa sistem pada variasi parameter lebar window
pada transformasi data
Dataset Jumlah Fitur Akurasi Sensitivitas Spesifisitas
Set C10 15.964 67.58% 47.06% 92.64%
Set C20 7.984 75.02% 66.48% 86.38%
Set C30 5.324 74.52% 64.56% 88.24%
Set C40 3.992 60.64% 29.75% 94.75%
Set C50 3.196 76.4% 70.44% 85.84%
Set D10 9.820 73.58% 57.64% 92.96%
Set D20 4.912 73.6% 59.32% 91.76%
Set D30 3.276 72.62% 68.04% 80.4%
Set D40 2.456 74.02% 67.52% 84.98%
Set D50 1.964 58.24% 29.74% 94.76%
Tabel 4.
Performa sistem pada variasi data Set A dan Set B
Dataset Percobaan Akurasi Sensitivitas Spesifisitas
Set A (tanpa seleksi
fitur)
1 88,37% 82,76% 100%
2 97,67% 95,83% 100%
3 90,91% 84% 100%
4 93,02% 92% 94,44%
5 97,67% 94,44% 100%
Rata-Rata 93,53% 89,81% 98,89%
Set B 1 88,37% 82,76% 100% (seleksi fitur) 2 95,35% 91,67% 100%
3 90,91% 84% 100%
4 93,02% 92% 94,44%
5 97,67% 94,44% 100%
Rata-Rata 93,06% 88,97% 98,89%
JURNAL TEKNIK POMITS Vol. 1, No. 1, (2012) 1-5 5
parameter lebar window 10, 20, 30, 40 dan 50 pada proses
transformasi data. Set C10, C20, C30, C40 dan C50 diperoleh
dari hasil transformasi data dengan data masukan Set A
dengan lebar window yang berbeda-beda. Sedangkan Set D
diperoleh dari hasil transformasi data dengan data masukan
Set B.
Tabel 5 memperlihatkan hasil uji coba pada skenario kedua
dimana performa sistem dengan data masukan SetC50 lebih
tinggi bila dibandingkan dengan data Set C yang lain. Untuk
data Set C parameter yang terbaik untuk membuat model
prediksi adalah 50 dengan nilai rata-rata akurasi sebesar
76,4%. Untuk data set D parameter yang terbaik untuk
membuat model prediksi adalah 40 dengan nilai rata-rata
akurasi sebesar 74,02%.
Perubahan nilai parameter lebar window pada proses
transformasi data memberikan pengaruh terhadap performa
prediksi. Semakin besar nilai lebar window pada proses
transformasi maka akurasi yang dihasilkan naik turun atau
fluktuatif. Oleh karena itu diperlukan adanya uji coba untuk
menentukan parameter lebar window yang optimal.
VI. SIMPULAN
Berdasarkan hasil uji coba yang telah dilakukan
dapat disimpulkan bahwa perangkat lunak prediktor kanker
ovarium dengan metode Kernel Partial Least Square terbukti
mampu digunakan sebagai model prediksi kanker ovarium.
Hal ini ditunjukkan oleh rata-rata nilai akurasi yang cukup
tinggi, yaitu sebesar 93,53%, sensitivitas sebesar 89,81% dan
spesifisitas sebesar 98.89% untuk data Set A.
DAFTAR PUSTAKA
[1] Tang, K.-L., Li, T.-H., Xiong, W.-W., & Chen, K. (2010). Ovarian
cancer classification based on dimensionality reduction for SELDI-TOF
data. BMC Bioinformatics , 11:109.
[2] World Health Organization and Institut Catala d'Oncologia. Human
Papillomavirus and Related Cancers Summary Report Update.
September 15, 2010 Third Edition.
[3] Wulfkuhle, J. D., Liotta, L. A., & Petricoin, E. F. (2003, April).
Proteomic applications for the early detection of cancer. 3(4):267-275.
[4] Vlahou, A., Schorge, J., Gregory, B., & Coleman, R. (2003). Diagnosis
of ovarian cancer using decision tree classification of mass spectral data.
Journal of Biomedicine and Biotechnology , 2003:308-314.
[5] Yu, J.S., Ongarello, S., Fielder, R., Chen, X.W., Toffolo. G., Cobelli. C.,
& Trajanoski, Z. (2005). Ovarian Cancer Identification Based On
Dimensionality Reduction for High-Throughput Mass Spectrometry
Data, Oxford University Press. 21 (10): 2200-2209. [6] Zhang, X., Lu, X., Shi, Q., Xu, X., Leung, H., Hariss, L., et al. (2006).
Recursive SVM feature selection and sample classification for mass-
spectrometry and microarray data. BMC Bioinformatics , 7:197.
[7] Rosipal, R., & Trejo, L. J. (2001). Kernel Partial Least Squares
Regression in Reproducing Kernel Hilbert Space. Journal of Machine
Learning Research 2 , 97-123.
[8] Walpole, R. E., Myers, R. H., Myers, S. L., & Ye, K. (2012). Probability
& Statistics for Engineers & Scientists 9th ed. Boston, United States of
America: Prentice Hall.
[9] High Resolution SELDI-TOF Study Sets. (2004, Juni). (U.S Nasional
Institutes of Health) Dipetik pada 20 Februari 2012, dari National
Cancer Institute Center for Cancer Research:
http://home.ccr.cancer.gov/ncifdaproteomics/ppatterns.asp
[10] Tan, Pang Ning; Steinbach, Michael; Kumar, Vipin. Introduction to Data
Mining. 2006. Pearson Education. United State of AmericaG. O. Young,
“Synthetic structure of industrial plastics (Book style with paper title and
editor),” in Plastics, 2nd ed. vol. 3, J. Peters, Ed. New York: McGraw-
Hill, 1964, pp. 15–64.