KUANTISASI SKALAR NILAI BISPEKTRUM UNTUK PENCIRI ... · 112. eminar Nasional ... dengan membaca sejumlah indeks yang berurutan dan ... median, atau rata-rata setelah persentil 75%

A19 Seminar Nasional Teknologi lnformasi 2009

KUANTISASI SKALAR NILAI BISPEKTRUM UNTUK PENCIRISINYAL PADA SISTEM IDENTIFIKASI PEMBICARADENGAN

~SEBAGAIPENGENALPOLAAgus Buono I) Benyamin Kusumoputro 2) Wisnu Jatmiko 3)

I) Departemen Ilmu Komputer FMIPA IPBKampus IPB Darmaga-Bogoremail: [email protected]

2) Fakultas Teknik Universitas IndonesiaFakultas Telmik Kampus UI Depok

email: [email protected]) Fakultas Ilmu Komputer Universitas- Indonesia

Fakultas Ilmu Komputer Kampus UI Depok

ABSTRACTPada paper ini disajikan teknik kuantisasi skalar untuk

merepresentasikan nilai bispketrum sinyal suara padasistem identifikasi pembicara (SIP). Jumlah channel yangdicoba adalah 128, 250, 400 dan 600, dan jenis statistiknilai bipektrumnya adalah rata-rata, median dan rata-rata di atas kuartil 3. Output kuantisasi ini diekstrakmenggunakan Mel-Frequency Cepstrum Coefficients(MFCC) dengan jumlah koefisien 13 dan dilanjutkandengan pengenalan pola menggunakan left-right HiddenMarkov Model (HMM) dengan jumlah state 3.

Data yang dipergunakan melibatkan J 0 pembicarayang mengucapkan ujaran "Pudesha" sebanyak 80 kalitanpa pengkondisian, dan disampling dengan frekuensi1.1 kHz. Sebanyak 75% data digunakan untuk trainingdan sisanya sebagai data uji. Dalam hal ini ada 5 set datauji, yaitu sinyal asli, sinyal asli yang telah ditambahGaussian noise (20 dB, 10 dB, 5 as. dan 0 dB).

Hasil percobaan menunjukkan bahwa teknik kuantisasiskalar menghasilkan SIP dengan akurasi diatas 98%untuk semua channel. Namun untuk sinyal bernois 20 dB,terjadi penurunan dengan kisaran 69% hingga 83%.(;~tuk noise yang lebih berat, sistem gagal melakukanpengenalan dengan baik. Juga terlihat bahwa rata-ratabispektrum diatas kuartil 3 memberikan akurasi yanglebih baik di banding dua statistik lain nya.

KeywordsHigher Order Statistic(HOS), Bispektrum, Mel-Frekuensi

Cepstrum Coefficients (MFCC), Hidden Markov Model (HMM),Sistem Identifikasi Pembicara (SIP)

1. Pendahuluan

Pada [1] telah ditunjukkan bahwa tehnik Mel-Frequency Cepstrum Coefficients (MFCC) yang berbasispower spektrum untuk ekstraksi eiri sinyal suara dapatbekerja dengan baik khususnya untuk sinyal tanpapenambahan noise. Jika digabungkan dengan HMMsebagai pengenal pola pada SIP memberian akurasi rata-rata 99%. Namun demikian, untuk sinyal bemois 20 dB,sistem yang dihasilkan gagal, dan akurasi drop hingga56%. Hal ini disebabkan nilai power spektrum sebagaipenciri sinyal dan merupakan input dari proses MFCCbersifat sensitif terhadap noise. Sementara itu pada [2-4],ditunjukkan secara empiris bahwa statistik orde tinggi(HOS) mampu menekan pengaruh Gaussian noise,sehingga akurasi sistem dapat diperbaiki. Namundernikian, feature masukan ke sistem diperoleh denganmerata-ratakan seluruh frame yang ada, sehingga kurangmemperhatikan aspek temporalnya dan penerapannya keaplikasi lainnya menjadi terbatas. ...

Rabiner, 1989, [5], menyebutkan bahwa HMMmerupakan proses stokastik yang mernodelkan hubunganantar state serta state dengan observasinya dari waktu kewaktu. Oleh karena itu, model HMM seeara konseptualsesuai dengan proses alami suara dihasilkan. PemakaianHMM pada pemrosesan suara telah banyak dikupas danmemberikan akurasi di atas 95 %. Dari dua fakta empiris

112

mailto:[email protected]


eminar Nasional Teknologi Informasi 2009

i atas, maka Buono, Kusumoputro dan Jatmiko pada [6]lelakukan penggabungan HOS orde 3 (Bispektrum)engan HMM untuk membentuk SIP. Pendekatan yangilakukan adalah dengan memperluas teknik MFCC dariD menjadi 2D, dengan tujuan agar nilai bispektrum dapatiekstrak menjadi feature-feature dengan dimensi yangnih lebih kecil, sehingga HMM dapat bekerja denganaik. Akurasi sistem yang dihasi1kan untuk sinya1 tanpaenambahan noise ada1ah sekitar 99% dan 89% untuknya1 dengan penambahan noise 20dB. Namun demikianntuk noise yang lebih besar, sistem gaga1 me1akukanengenalan dengan baik. 01eh karena itu, pada penelitianu dilakukan kuantisasi nilai bispektrum ter1ebih dahulu-belum masuk ke proses ekstraksi yang menggunakanietodologi MFCC.Selanjutnya, paper ini disajikan dengan susunan

:bagai berikut : Bagian 2 mengenai kuantisasi bispektrumin integrasinya dengan HMM dengan pembahasan mulaiill prinsip sistem identifikasi pembicara, Higher Ordetatistic orde 3 (Bispektrum), metode kuantisasi skalarispektrum, Hidden Markov Model, dan data sertamcangan percobaan. Hasil serta pembahasan disajikanada bagian 3. Akhimya, kesimpulan serta saran untukenelitian selanjutnya disajikan pada bagian 4.

. Kuantisasi Bispektrum dan Integrasinyadengan HMM

.1 Sistem Identifikasi Pembicara

Identifikasi pembicara merupakan proses untukienentukan pembicara berdasar input suara yangiberikan [7]. Secara umum, sistem identifikasi pembicarardiri dari dua subsistem, yaitu subsistem ekstraksi cirian subsistem pengena1 po1a, seperti disajikan pada.ambar 1. Subsistem ekstraksi ciri me1akukan prosesansformasi sinya1 input ke da1am satu set vektor ciri:bagai representasi dari sinyal suara suatu pembicaraatuk proses selanjutnya, Subsistem pencocokan polaierupakan bagian untuk melakukan identifikasi suatu~mbicara yang belum diketahui dengan caralembandingkan sinyal suaranya yang telah diekstrak keslam vektor ciri dengan set vektor ciri dari pembicaraing telah diketahui dan tersimpan dalam sistem.

Dari aspek pengembangan sistern, ada dua fase pada. stem identifikasi pembicara. Fase pertama adalah tahap.elatihan. Pada fase ini sistem melakukan pelatihan untuklenentukan parameter model untuk setiap pembicaraerdasar data suara pembicara tersebut. Pada penelitian ini,ase yang digunakan adalah "pudesha" dan dimodelkanengan Hidden Markov Model (HMM). Dari sampel dataengan frase "pudesha" ini, model setiap pembicara dilatih

A19

dengan menggunakan algoritrna Baum Welch seperti yangdisajikan pada [5]. Fase kedua adalah tahapan pengujian,yaitu sinyal input yang diberikan kepada sistem dicocokandengan dengan model setiap pembicara yang ada padasistem. Keputusan untuk menentukan pembicara didasarkanpada skor tertinggi untuk setiap model. Untukpenghitungan skor ini digunakan algoritma Forward [5].

Database Model HMM(pembicara 1, 2, 3, ...,

Gambar I. Blok diagram sistem identidikasi pernbicara dengan HMMsebagai pen genal pola

2.2 Higher Order Statistic Orde 3 (Bispektrum)

Jika {X(k)}, k = 0, ±1, ±2, ... , adalah proses stokastikyang bemilai real, maka cumulant order 3 ada1ahc; (r l, r2), yang dirumuskan sebagai, [8]:

c;'(rl,r2)= t,t,<-W-'<P-l)!E(U,X, r(JIXj ){J],Xk J (1)

R adalah banyaknya cara menyekat set {Xk, Xk+rl ,Xk+T2} menjadi p sekatan, dengan p = 1, 2, 3. Sebagaiilustrasi, untuk p = 2, maka diperoleh 3 kemungkinansekatan (R = 3), yaitu: sl = {Xk, Xk+rl }, 82 = {Xk+T2};sl = {Xk}, 82 = {Xk+rl , Xk+T2}; dan sl = {Xk+r l}, s2 ={Xk, Xk+T2}. Bispektrum, yang disebut juga sebagaispektrum cumulant, adalah transformasi Fourier daribarisan cumulant tersebut, dan diformu1asikan sebagai [8]:

+<0 "'"

Cj'(lUplU2)= L, L,c;{Tl'rJexp{- j(lU1Tl'lU2T2)} (2)

Untuk proses stasioner,diformulasikan sebagai:

cumulant order 3 dapat

c; ('1' '2) = E {x(t)x(t + 'I )x(t + T2)} (3)

Paramater T1 dan T2 pada Pers. (1-3) di atas adalah lag'yang secara teoritis bernilai bilangan real. Pada prakteknya,

113

A19

nilai bispektrum ini diduga dari sejumlah samples data.Secara umum ada dua pendekatan dalam mendugabispektrum, yaitu pendekatan parametrik dan pendekatankonvensional. Pendekatan konvensional dikelompokkanmenjadi tiga, yaitu teknik tidak langsung (indirecttechnique), teknik langsung (direct technique), danmodulasi kompleks (complex demodulates). Padapenelitian ini digunakan metode konvensional denganteknik tidak langsung untuk menduga nilai bispektrum. Halini dikarenakan teknik ini lebih sederhana dibandinglainnya. Algoritma secara lengkap dapat dilihat pada [8].

2.3 Metode Kuantisasi Skalar nilai Bispektrum

Oleh karena nilai bispektrum bersifat simetrik, makapembacaan hanya dilakukan pada daerah segitiga dariruang domain bispektrum. Pada absis i, pembacaanordinatnya dilakukan dari 1 hingga i, untuk i=1, 2, 3, ... ,fm3x dengan fmax adalah frekuensi maksimum dari domainbispektrum. Oleh karena itu, daerah pembacaanbispektrum yangberbentuk segitiga tersebut diubahmenjadi vektor dengan indeks 1, 2, 3,

fmax (fmax + 1)/ 2. Pada penelitian ini, nilai fmax adalah128, sehingga vektor daerah pembacaan tersebutmengandung 8256 elemen. Kuantisasi skalar dilakukandengan membaca sejumlah indeks yang berurutan danmengubahnya menjadi satu nilai dengan salah satu cara,yaitu cara merata-ratakan, median, atau rata-rata setelahpersentil 75%. Hasil dari kuantisasi skalar dari sebuahframe suara ini adalah satu vektor yang disebut sebagaivektor pewakil. Banyaknya unsur pada vektor pewakildisebut sebagai jumlah channel yang nilainya tergantungdari jurnlah indeks yang dibaca pada pembacaan. Gambar2. memberikan ilustrasi pembentukan vektor pewakilmengandung 50 channel.

x = (bsp(Ll) bsp(2.1) bsp(2.2) bsp(f_.f_ »B25e

~--------~r------~Oibaca par 165lndeks n

yang berurutan V'"",=128Daerah pembacaan bi&pektrum

50

Menghttung statistikijper kelompok ,ruSeks

(1.2.3 •.•.• 50)

Y = (y, y, y, yso)

Gambar 2. Kuantisasi Skalar dengan Jumlah Channel 50 untukBispektrum dengan/max=128 (jumlah indeks per kelorripok

[8256/50]= 165)

,Seminar Nasional Teknologi Informasi 2009 1

IProses kuantisasi skalar tersebut diimplementasikandengan Algoritme berikut, [2] :

Algoritme Proses Kuantisasi SkalarInput: BSP[128:128] iOutput: Pewakil[l:channel] i%membaca ~ domain BSPk=Oifor i=1:128

for j=l:ik=k+liMAG(k)=BSP(i,j) i

endend%Menghitung kuantisasi skalarchanne Lep i .-'.'

k=floor(length(MAG)!channel) roffset=O ifor i=l:channel

t=Oifor j=(l+offset): (k+offset)

t=t+lit em t t )"MAG (j) i

~ndPewakil(i)=mean(tem) i

endHasil kuantisasi skalar ini adalah sebuah vektor

pewakil dengan sejumlah tertentu channel, yaitu 128, 250,400 atau 600. Untuk mereduksi jumlah channel digunakanteknik seperti yang dilakukan pada MFCC, yaitu wrappingdan transformasi kosinus. Gambar 3 menyajikan proseslengkap proses ekstraksi ciri.

Vektor peNakil

bispektrum

ITranstormasi¥OSInUS

Gambar 3. Alur Proses Ekstraksi Ciri Mengunakan Teknik SkalarKuantisasi - Wrapping dan Transformasi Kosinus (WC)

Proses wrapping menggunakan sejumlah filter sepertiditunjukkan pada Gambar 4 yang terdiri dari 13 filterlinear dan 27 filter logaritma, [9].

114

Seminar Nasional Teknologi Informasi 2009

0.009 -r-rr-r-r-r-r-r-r-r-r-r ....,-,-,...,,...,-,-..,....,-..-,-.....,-,-~~,-,.,~-~~,~-."~~

0.008

0.007

•• 0.006"!1 0.005

~ 0.004::> 0.003

0.0020.001

ofrekuensl

Gambar 4. Empat Puluh Filter pad a Proses Wrapping

Proses wrapping terhadap vektor pewakil, x, yangberdimensi p (p adalah banyaknya channel) menggunakanformula, [9] :

c(i) = 109[tX(f) * hi (f)] ,i=l, 2, 3, ... ,40 (4)/=1

Dalam hal ini hi (f) adalah nilai filter ke i untuk dirnensi

ke f pada vektor pewakil, Oleh karena itu, setiap vektorpewakil yang berdimensi p akan ditransformasi menjadivektor baru yang berdimensi 40. Berikutnya vektor hasilwrapping uu akan ditransformasi menggunakantranfsormasi kosinus dengan formula:

40

y(k) = Lcos[2(i-l)kJrI40] ,k=I,2,3, ... ,13 (5)i=1

2.4 Hidden Markov Model (HMM)

Hidden Markov Model (HMM) merupakan modelmarkov orde satu yang mempunyai dua jenis state, yaituhidden state dan observable state. Setiap hidden state dapatmenghasilkan suatu outcome yang teramati pada setiapperiode t, yaitu O, Outcome dari hidden state ini disebutsebagai observable state atau emitten. Oleh karena itu, dariperiode t= I hingga t=T diperoleh barisan peubah teramati(observation state) 0=0" O2, 03, ••• , OT, yang merupakanoutcome dari barisan peubah tak teramati Qs=q], q2, q3, . '"qT. Berdasar hubungan antar state, dikenal dua jenisHMM, yaitu ergodic dan left-right HMM. Pada ErgodicHMM, antar dua state selalu ada link, sehingga disebutjuga sebagai fully connected HMM. Sedangkan pada left-right HMM, state dapat disusun dari kiri ke kanan sesuaidengan link-nya. Gambar 5. memberikan coritoh ergodicdan left-right HMM dengan tiga hidden state dengandistribusi peubah emitten-nya adalah Gaussian. SuatuHMM dinotasikan dengan, [10] :

A = (A,B,I1). A adalah matriks peluang transisi, B adalah matrikspeluang observasi dan J1 adalah vekto~ peluang awal.

(a~

A19

Gambar 5. Contoh HMM dengan Tiga Hidden State dan.DistribusiEmitten Gaussian. (a) Ergodic, (b) Left-Right HMM

Pada penelitian ini digunakan left-right HMM dengan3 state dan dilatih dengan algoritrna Baum-Welch.Sedangkan untuk pengujian menggunakan algoritrnaforwad.

2.4 Data Percobaan

Penelitian ini menggunakan data dari 10 pembicarayang mengucapkan ujaran "pudesha" tanpa pengkondisianmasing-masing sebanyak 80 kali yang disampling denganfrekuensi 1.1 kHz. Untuk pelatihan model, maka dari 75 %dipilih sebagai data latih dan sisanya sebagai data uji.Untuk berikutnya, dibuat lima set data uji, yaitu sinyal aslidan sinyal asli dengan penambahan noise (20 dB, 10 dB, 5dB, dan 0 dB). Proses kuantisasi dicobakan dengan empatjurnlah channel, yaitu 128, 250, 400 dan 600. Untukmenghitung bispektrum digunakan tiga jenis statistik, yaiturata-rata, median dan rata-rata bispektrum di atas kuartil 3.

3. HasH Percobaan

Gambar 6 menyajikan hasil pengenalan terhadap datauji tanpa penambahan noise.

99.5"()o

80

R 60'Vi.•]1 40ec

99.5

~a98.5

channel channel channel channel128 250 400 600

Gambar 6. Akurasi Sistem untuk Data Ash pad a Berbagai JurnahChannel

Terlihat bahwa dengan metode yang dikembangkan dapatmelakukan pengenalan dengan baik (>98%) untuk sinyaltanpa penambahan noise, baik pada jurnlah channel 128,250, 400 maupun 600. Begitu juga dari segi jenis statistik

115

A19

nilai bispektrum, terlihat bahwa akurasi sistem berkisarpada 99% untuk ketiga jenis statistik yang dipergunakan,seperti ditunjukkan Gambar 7.

10 rata-rata 0 rredian 19 rata>Q31

10099100 100 99 100 99 999899100.0· mr- 2: 98 F~ ~25

i;~~:~I~ 1"..".'ill;I ..".'[II.:I".,II,: ..,.,'\II,I..,.,III,,:," ~

60.0 II!III50·0

channel128

channel250

channel400

channel600

Gambar 7. Perbandingan Akurasi antara Statistik Rataan, Median dan .Rataan BSP di atas Persentil 75% pada Berbagai Channel untuk Sinyal

Asli

Dua fakta di atas menunjukkan bahwa untuk sinyal asli,metode yang diusulkan dapat melakukan pengenalandengan baik, berapun jumlah channel maupun jenisstatistik bispektrum yang dipergunakan.

Sedangkan untuk sinyal dengan penambahan noise 20dB, terjadi penurunan akurasi, seperti pada Gambar 8.

100

80 69.5 72';€ 60'jjj~ 40j

""-=:20

77.583

channel128

channel250

channel400

channel600

Gambar 8. Perbandingan Akurasi antar Berbagai Jumlah Channeldengan Kuantisasi Skalar-WC untuk Sinyal Suara yang Ditarnbah Noise

20 dB

Terlihat akurasi tertinggi adalah 83% dengan jumlahchannel 600 dan menjadi 69.5% kalau jumlahchannel lzs.Untuk melihat pengaruh jenis statistik, perhatikan Gambar9 yang menyajikan perbandingan akurasi antar ketigastatistik dan jumlah channel untuk data bemois 20 dB.Dari ketiga statistik tersebut, median memberikan akurasiyang paling rendah di antara ke tiga statistik di. atas, ?a~kpada channel 128, 250, 400, hingga 600. Jerus statistikterbaik adalah rataan bispektrum di atas kuartil 3.


I Clrata-rata Clmedian 0 rata>Q3!

100.077.5 83

~ 80.0 69.5 720 rr ~ IT'" r-:"- ;:::: :- -r-r60.0 "="' i" - -II) -- ;i; -- y":~- I:: :::~!li -: ~~~ !!,

40.0 :-:P7 ;,;

11 ~:J 1:; :::);: ..- y;'

~~[:--_.''::-' ~~n:~

20.0 --- .•.....- !ll ---'''~~'III< _ ...- "\ •..'I!; ..-- ;.' !Ii0.0 -:- -:::::lll; _:_ -)w: Ifr

channel channel channel channel128 250 400 600

Gambar 9. Perbandingan Akurasi antara Statistik Rataan, Median danRataan BSP di atas Persentil 75% pada Berbagai Channel untuk Sinyal

Asli dengan Penambahan No!se 20 dB

Hasil percobaan yang ditunjukkanpada Gambar 8 danGambar 9 memberikan bukti empiris bahwa nilai rata-ratabispektrum di atas persentil 75% bersifat lebih robust(kurang sensitif) terhadap pengaruh noise, dibandingkandengan rata an maupun median, seperti ditunjukkan jugapada Gambar 10. Gambar 10 menampilkan perbandingannilai statistik pada berbagai noise terhadap nilai statistikbesaran tersebut saat tidak diberi tambahan noise. Padanoise 20 dB, ketiga statistik mempunyai nilai yang relatifsama dengan ni1ainya untuk sinyal tanpa penambahannoise, dengan rasio 1.000059, 0.899651 dan 0.999753~masing-masing untuk rata-rata, median dan rata-rata bsp diatas persentil 75%. Dengan bertambahnya noise, rasio inimeningkat. Hal ini menunjukkan bahwa noise yangdiberikan menaikkan nilai bsp, yang pada akhirnyaberpengaruh pada statistik yang dipakai. Pada penambahannoise sebesar 0 dB, statistik median meningkat tajam, yaitu21.1 kali, rata-rata meningkat 3.9 kali, dan rata-rata bspsetelah Q3 relatif lebih baik, yaitu hanya meningkatmenjadi 2.1 kali nilainya saat kondisi tanpa penambahannoise.

+noise 20dB

+noise 10 +noise 5 dB +noise 0 dBdB

Gambar 10. Rasia NilaiStatistik pad a Berbagai Penambahan Noiseterhadap Nilainya pada Kondisi Tanpa Penambahan Noise

Gambar 11. menyajikan akurasi sistem untuk berbagainoise dan berbagai channel dengan menggunakan statistikrata-rata bsp di atas Q3. Meskipun secara empiris, statistik

116


rata-rata bsp di atas Q3 relatif tidak sensitif terhadap noise,namun akurasi sistem untuk noise 10 dB hingga 0 dB turunsecara drastis.

I:l channel 128 0 channel 250 ~ channel 400 • channel 600

100

80

-C 60'inE

40:l...<

20 :;:;:

0~~~~[

asli +noise 20 +noise 10 +noise 5 +noise 0dB dB dB dB

Gambar 11. Perbandingan Akurasi antar Channel untuk Berbagai Noise

Hal ini menunjukkan bahwa teknik kuantisasi yangdilakukan masih belum bisa dengan baik untukmerepresentasikan data sinyal yang terkontaminasi noise.Salah satu kelemahan yang ada adalah bahwa penentuanpus at channel pada kuantisasi skalar ini dilakukan denganmembagi rata dari semua sampel bispektrum yang ada.Oleh karena itu pus at channel tidak mencerminkandistribusi spasial data bispektrum.

4. Kesimpulan

Dua hal yang bisa diutarakan berdasar hasil percobaanidentifikasi dengan kuantisasi skalar adalah :

1. Sistem yang dikembangkan dengan teknikkuantisasi skalar dikombinasikan dengantransformasi wrapping dan kosinus mampumelakukan pengenalan dengan akurasi yang baikuntuk sinyal tanpa penambahan noise (>98%).Namun pada sinyal yang ditambah noise, akurasisistem turun secara drastis untuk noise 10 dBhingga 0 dB.

2. Statistik rata-rata nilai bispektrum di atas persentil75% relatif lebih robust terhadap noise dibandingdengan statistik rata-rata maupun median.

Dari hasil percobaan terlihat bahwa salah satukelemahan kuantisasi skalar adalah pada pemilihan channelyang bersifat tetap, sehingga hal ini mengabaikan distribusiempiris dari bispektrum. Oleh karena itu, riset selanjutnyasebaiknya menggunakan kuantisasi yang mengakomodasidistribusi empiris data bispektrum dalam domain frekuensi.

REFERENSI[1] Buono, A. and B. Kusumoputro., February 2008, "A

Problem in Data Variability on Speaker Identification

A19

System Using Hidden Markov Model", Prociding of theConference on Artificial Intelligence and Application(AlA), lASTED, lnnsbruck-Austria.

[2] Fanany, M.1. dan B. Kusumoputro., 1998, "BispectrurnPattern Analysis and Quantization to SpeakerIdentification", Thesis Master I1rnu Komputer, FasilkomUniversitas Indonesia.

[3] Hidayat, N. dan B. Kusumoputro., 1999, "PengembanganSistem Pengenal Suara Menggunakan Estimasi Trispektrumdan Kuantisasi Skalar", Thesis Master I1mu KomputerFasilkom Universitas Indonesia.

[4] Triyanto, A. dan B. Kusumoputro, 2000, "Ekstraksi CiriPada Data Suara Menggunakan Spektra Orde Tinggi danKuantisasi Vektor untuk Identifikasi PembicaraMenggunakan Jaringan Neural Buatan", Thesis ProgramMaster IImu Komputer, Fasilkom Universitas Indonesia.

[5] Rabiner, L.R., 1989, "A Tutorial on Hidden Markov Modeland Selected Applications in Speech Recognition",Proceeding IEEE, Vol 77 No.2.

[6] Buono, A., W. Jatmiko, and B. Kusumoputro, April 2009,"Perluasan Metode MFCC 1D ke 2D Sebagai Ekstraksi CiriPada Sistem Identifikasi Pembicara Menggunakan HMM",Jumal Makara, Sains, Vol. 13, No. I, Universitas Indonesia.

[7] C. Cornaz, U. Hunkeler, 2005, "An Automatic SpeakerRecognition System", Ecole Polytechnique, Federale DeLausanne, httpi//www.ifp.uiuc.edu/e-minhdo/teach ing/speaker Jecognition.

[8] C. L. Nikeas, A. P. Petropulu, 1993,"Higher OrderSpectra Analysis: A Nonlinear Signal Processing",Framework, Prentice-Hall, Inc., New Jersey.

[9] Todor D. Ganchev, 2005, "Speaker Recognition ", Ph.D.Thesis. Wire Communications Laboratory, Department ofComputer and Electrical Engineering, University of PatrasGreece.

[10] Dugad, R. Dan U.B. Desai, 1996, "A Tutorial on HiddenMarkov Model", Technical Report, Departement ofElectrical Engineering, Indian Institute of Technology,Bombay.

Agus Buono, memperoleh gelar Sarjana dan Master bidangstatistik di IPB pada tahun 1992 dan 1996. Gelar Master danDoktor bidang I1mu Komputer diperoleh dari UniversitasIndonesia pada tahun 2000 dan 2009. Saat ini sebagai StafPengajar Departemen IImu Komputer Institut Pertanian Bogor.

Benyamin Kusumoputro, memperoleh gelar Sarjana bidangfisika dari Institut Teknologi bandung dan DoktorOptoelektronika dari Tokyo Institute of Technology-Jepang.Gelar Profesor diperoleh pada tahun 2002 dari UniversitasIndonesia. Saat ini sebagai Staf Pengajar Fakultas TeknikUniversitas Indonesia.

Wisnu Jatrniko, mempero1eh gelar Sarjana Elektro dan Magisterilmu Komputer dari .Universitas Indonesia. Ph.D bidangkomputer diperoleh dari Jepang pada tahun 2008. Saat inisebagai Dosen Fakultas Ilmu Komputer Universitas Indonesia.

117

A20 Seminar Nasional Teknologi Informasi 2009

MODEL JARINGAN SYARAF TIRUANRESILIENT BACKPROPAGATIONUNTUK IDENTIFIKASI

PElVIBICARADENGAN PRAPROSES MFCC

Agus Buono 1) Irman Hermadi 2) Nurhadi Susanto 3)

1.2.3) Departemen Ilmu Komputer FMIP A IPBKampus IPB Darmaga-Bogoremail: [email protected]

ABSTRACTPada penelitian ini, dikembangkan suatu model

jaringan syaraf tiruan resilient backpropagation untukidentifikasi pembicara denganekstraksi ciri menggunakanteknik MFCC. Data suara yang digunakan dalampenelitian ini adalah data suara yang diambil secaraunguided atau tanpa panduan dari f 0 pembicara yangmengucapkan ujaran "komputer". Selain itu diamati pulapengaruh noise terhadap akurasi identifikasi dengan caramenambahkan white gaussian noise pada data yangdigunakan. Untuk meningkatkan keyakinan pendeteksian.digunakan nilai threshold sebagai batas minimum dariseorang pembicara.

Hasil percobaan menunjukkan bahwa jumlah neuronterbaik adalah J 00. dan untuk sinyal as li, akurasi rata-rata diperoleh sebesar 96%. Namun untuk sinyaZ bernois30 dB dan 20 dB, akurasi rata-rata berkisar 60-70% dan40-50%. Dengan memberikan threshold, mesipun akurasiturun menjadi 85%. namun tingkat keyakinan pengenalanmenjadi lebih tinggi. Dalam hal ini tidak ada salahklasifikasi dari seorang pembicara ke pembicara lain.

KeywordsJaringan Syaraf Tiruan (JST) Resilient

Backpropagation. MeZ-Frekuensi Cepstrum Coefficients(MFCC). Sistem Identifikasi Pembicara (SIP)

1. Pendahuluan" ,:.-

Seperti disebutkan dalam [1] bahwa persyaratan ciribiometrik sebagai pengenal seseorang, adalah bersifatalami, mudah diukur, tidak terlalu herubah dari waktu kewaktu, tidak mudah ditiru, tidak dipengaruhi kondisiphisik, serta tidak terlalu terganggu dengan adanyagangguan lingkungan. Selain suara adalah besaran yanghampir memenuhi semua kriteria terse but, sistem

identifikasi berbasis suara juga lebih murah, karena sistemyang dikembangkan lebih bersifat software.

Dari riset yang sudah ada, teknik ekstraksi cirimenggunakan model MFCC mampu mengekstrak cirisuara dengan baik. Buono dan Kusumoputro, [2],melakukan identifikasi pembicara dengan ekstraksi teknikMFCC dan HMM sebagai pengenal pola memberikanakurasi rata-rata 99%. Oktavianto 2004, [3], menggunakanjaringan syaraf tiruan propagasi balik untuk pengenalanpembicara memberikan hasil yang di atas 90%. Beberapamodifikasi dari prosedur propagasi balik te1ah diajukanuntuk menambah kecepatan pembelajaran. MartinRiedmiller dan Braun, 1993, dalam [4], telahmengembangkan suatu metode yang disebut ResilientBackpropagation. Metode ini telah terbukti memilikikecepatan pembelajaran yang baik dan juga andal, [4].Oleh karena itu, penelitian im bertujuan untukmengembangkan model jaringan syaraf tiruan resilientbackpropagation untuk mengidentifikasi pembicara padadata yang direkam tanpa pengarahan.

Selanjutnya, paper ini disajikan dengan susunansebagai berikut : Bagian 2 mengenai teknik MFCC danJST resilient untuk identifikasi pembicara denganpembahasan mulai dari pnnsip sistem identifikasipembicara, teknik ekstraksi MFCC, JST (propagasi balikstandar, inisialisasi, dan propagasi balik resilient), dan datapercobaan. Hasil serta pembahasan disajikan pada bagian3. Akhirnya, kesirnpulan serta saran untuk penelitianselanjutnya disajikan pada bagian 4.

2. Ekstraksi MFCC dan JST Resilient untukIdentifikasi Pembicara

2.1 Sistem Identifikasi Pembicara

Identifikasi pembicara merupakan prosesmenentukan pembicara berdasar input suara

untukyang

118



diberikan [5]. Secara umum, sistem identifikasi pembicaraterdiri dari dua subsistem, yaitu subsistem ekstraksi ciridan subsistem pengenal pola. Subsistem ekstraksi cirimelakukan proses transformasi sinyal input ke dalam satuset vektor ciri sebagai representasi dari sinyal suara suatupembicara untuk proses selanjutnya. Subsistempencocokan pola merupakan bagian untuk melakukanidentifikasi suatu pembicara yang belum diketahui dengancara membandingkan sinyal suaranya yang telah diekstrakke dalam vektor ciri dengan set vektor ciri dari pembicarayang telah diketahui dan tersimpan dalam sistem. Dariaspek pengembangan sistem, ada dua fase pada sistemidentifikasi pembicara. Fase pertama adalah tahappelatihan. Pada fase ini sistem melakukan pelatihan untukmenentukan parameter model untuk setiap pembicaraberdasar data suara pembicara tersebut.

Menurut Campbell (1997), [6], Pengenalan pembicaraberdasarkan j enis aplikasinya dibagi menj adi:1. Identifikasi pembicara adalah proses rnengenali

seseorang berdasarkan suaranya. Identifikasi pembicaradibagi dua, yaitu:• Identifikasi tertutup (closed-set identification) yang

mana suara masukan yang akan dikenali merupakanbagian dari sekumpulan suara pembicara yang telahterdaftar atau diketahui.

• Identifikasi terbuka (open-set identification) suaramasukan boleh tidak ada pada kumpulan suarapembicara yang telah terdaftar.

2. Verifikasi pembicara adalah proses menerima ataumenolak permintaan identitas dari seseorangberdasarkan suaranya.

Sedangkan berdasarkan teks yang digunakan, pengenalanpembicara dibagi menjadi dua, [6] :

1. Pengenalan pembicara bergantung teks yangmengharuskan pembicara untuk mengucapkan kata ataukalimat yang sarna, baik pada pelatihan maupunpengenalan.

2. Pengenalan pembicara bebas teks yang tidakmengharuskan pembicara untuk mengucapkan kata ataukalimat yang sarna, baik pada pelatihan maupunpengenalan.

Penelitian yang dilakukan adalah identifiasi pembicarasecara tertutup dan bersifat text dependent.

2.2 Mel-Frequency Cepstrum Coefficients' (MFCC)

Ekstraksi ciri merupakan proses untuk menentukansatu nilai atau vektor yang dapat dipergunakan sebagaipenciri obyek atau individu. Di dalam pemrosesan suara,ciri yang biasa dipergunakan adalah nilai koefisien cepstraldari sebuah frame. Satu teknik ekstraksi ciri sinyal suarayang umum dim rnenunjukkan kinerja yang baik adalahteknik Mel-Frequency Cepstrum Coefficient,(MFCC) yang

A20

- menghitung koefisien cepstral dengan mempertimbangkanpersepsi sistem pendengaran manusia terhadap frekuensisuara. Dibandingkan dengan metode ekstraksi ciri lainnya,Davis dan Mermelstein memperlihatkan bahwa MFCCsebagai teknik ekstraksi ciri memberikan hasil pengenalanyang tinggi, [7]. Diagram alur teknik MFCC dalammengekstrak sinyal suara adalah seperti pada Gambar I.

[

'0) ]x(J)

x(J56)

Gambar I. Ilustrasi Ekstraksi dengan MFCC dengan Panjang Frame 256

Dari Gambar I terlihat bahwa sinyal dibaca framedemi frame, dan dilakukan windowing untuk setiap frameuntuk berikutnya dilakukan transformasi Fourier. Darinilai hasil transformasi Fourier ini selanjutnya dihitungspektrum met menggunakan sejumlah (M) filter yangdibentuk sedemikian sehingga jarak antar pus at filteradalah konstan pada ruang frekuensi mel. Dari literaturyang ada, skala mel ini dibentuk untuk mengikuti persepsisistem pendengaran manusia yang bersifat linear untukfrekuensi rendah dan logaritrnik untuk frekuensi tinggi,dengan batas pada nilai frekuensi akustik sebesar 1000 Hz.Proses ini dikenal dengan nama Mel-Frequency Wrapping.Koefisien MFCC merupakan hasil transformasi Cosinusdari spektrum met tersebut, dan dipilih J koefisien.Transformasi kosinus berfungsi untuk mengembalikandomain, dari frekuensi ke domain waktu. Du dalam [8],hubungan antara frekuensi akustik dengan skala met(Melody) adalah sebagai berikut :

F _ {2595 * 10g\O(1+ FH: )

me! - 700., F H:

jika FH: > 1000 (1)

jika

dan dilukiskan seperti pada Gambar 2. Terlihat bahwauntuk frekuensi rendah, filter yang digunakanmenggunakan skala linear, sehingga lebamya konstan.Sedangkan untuk frekuensi tinggi (>1000 Hz), filteri,dibentuk dengan skala logaritrna. Pada penelitian inidigunakan model filter Slaney, dalam [7], yang terdiri 40

119

A20

filter segitiga (13 linear dan 27 logaritmik) sepertidisajikan pada Gambar 3.

2500

j 2000

"'~ 1500VJ

500

1000 2000 3000 4000 5000Frekuensl Akustlk (Hz)

Gambar 2. Grafik Hubungan Frekuensi dengan Skala Mel

0.005

Gambar 3. Filter Slaney untuk Proses Wrapping

Dari 40 filter yang sudah dibentuk, maka dilakukanmapping terhadap sinyal dalam domain frekuensi danmenghasilkan satu komponen untuk setiap filter denganformula berikut :

(2)

Dalam hal ini i=l , 2, 3, ... , M (M adalah jumlah filtersegitiga) dan Hi(k) adalah nilai filter segitiga ke i untukfrekuensi akustik sebesar k. Nilai koefisien MFCC ke jakhirnya diperoleh menggunakan transformasi kosinussesuai formula berikut :

c, = fXiCOS(j(i-l)/2~);=1 M

(3)

dengan j=I,2,3, ... ,K, K adalah jumlah koefisien MFCCyang diinginkan dan M adalah jumlah filter.

2.3 Jaringan SyarafTiruan

Jaringan Syaraf Tiruan (JST) merupakan suatu sistempemroses informasi yang memiliki persamaan secara

.~

,


umum dengan cara kerja jaringan syaraf biologi, [9].Metode komputasional dari JST diinspirasikan oleh carakerja sel-sel otak manusia. Untuk berpikir, otak rnanusiamendapat rangsangan dari neuron-neuron yang terdapatpada indera rnanusia, kemudian hasil rangsangan tersebutdiolah sehingga menghasilkan suatu informasi.

Menurut Fausett 1994, [9], suatu JST dicirikan olehtiga hal sebagai berikut:1. Arsitektur jaringan syaraf tiruan

Arsitektur jaringan ialah pengaturan neuron dalamsuatu lapisan, pola hubungan dalam lapisan dan diantara lapisan.

2. Teknik pembelajaran (penentuan pembobot koneksi)Metode pembelajaran digunakan untuk menentukannilai pembobot yang akan digunakan pada saatpengujian.

3. Fungsi aktivasiFungsi aktivasi merupakan fungsi yang menentukanlevel aktivasi, yaitu keadaan internal sebuah neurondalam JST. Keluaran aktivasi ini biasanya dikirimsebagai sinyal ke neuron lainnya.

JST Propagasi Balik Standar

Menurut Fu 199, [10], janngan propagasi balik(propagation network) merupakan jaringan umpan majuberlapis banyak (multilayer feedforward network). Aturanpembelajaran propagasi balik disebut backpropagationyang merupakan jenis dari teknik gradient descent denganbackward error (gradient) propagation. Fungsi aktivasiyang digunakan dalam propagasi balik ialah fungsi sigmoid.Hal ini disebabkan karena dalam jaringan propagasi balikfungsi aktivasi yang digunakan harus kontinu, dapatdidiferensialkan, dan monoton naik., [9]. Salah satu fungsiaktivasi yang paling banyak digunakan ialah sigmoid biner,yang memiliki selang [0, 1] dt~.1M)efmisikan sebagai:

f,(x) = 1 (4)1 l +exp( -x)

Dengan turunannya

I}' (x) = I} (x)[l- I} (x)] (5)

Jaringan ini menggunakan metode pembelajaran denganpengarahan (supervised learning).

Setelah dilakukan ini~'~Sj\si bobot dan bias(berpengaruh pada kecepatari" 1ST dalam mencapaikekonvergenan [9]), pada pelatihan JST propagasi balikterdapat tiga tahapan, yaitu pelatihan input yang bersifatumpan rnaju, penghitungan galat, dan penyesuaianpembobot. Secara umum cara kerja JST propagasi batikada beberapa langkah. Pertama, pola input dan targetdirnasukkan ke dalam jaringan. Selanjutnya pola input iniakan berubah sesuai dengan propagasi pola tersebut kelapisan-lapisan berikutnya hingga menghasilkan output.

120


Output ini akan dibandingkan dengan target. Apabila darihasil perbandingan ini dihasilkan nilai yang sarna, prosespembelajaran akan berhenti. Tetapi apabila berbeda, makajaringan mengubah pembobot yang ada pada hubunganantar neuron dengan suatu aturan tertentu agar nilai outputlebih mendekati nilai target.

Proses pengubahan pembobot adalah dengan caramempropagasikan kembali nilai korelasi galat outputjaringan ke lapisan-lapisan sebelumnya (propagasi balik).Kemudian dari lapisan input, pola akan diproses lagi untukmengubah nilai pembobot, hingga akhimya memperolehoutput jaringan baru. Proses ini dilakukan berulang-ulangsampai diperoleh nilai yang sama atau minimal sesuaidengan galat yang diinginkan. Proses perubahan pembobotinilah yang disebut proses pembelajaran.

Inisialisasi Pembobot Nguyen- Widrowlnisialisasi pembobot bertujuan untuk meningkatkan

kemampuan neuron-neuron tersembunyi untuk melakukanpembelajaran. Hal ini dilakukan dengan rnendistribusikanpembobot dan bias awal sedemikian rupa sehingga dapatmeningkatkan kemampuan lapisan tersembunyi dalammelakukan proses pembelajaran. Inisialisasi Nguyen-Widrow didefinisikan sebagai persamaan berikut, [9] :

Hitung harga faktor penskalaan 0f3 = O. 7 p Y" ( 6)dimana:

/3= faktor penskalaann = jumlah neuron lapisan inputp = jurnlah neuron lapisan tersembunyi

- Untuk setiap unit tersembunyi U=I, 2, ... ,p):Hitung Vii (lama) yaitu bilangan acak diantara -0.5dan 0.5 (atau diantara -y dan +y). Pembaharuanpembobot Vii (lama) menjadi Vii baru yaitu:

/3v ii (lama) (7)vij (baru ) = II IIv j (lama)

Tetapkan bias.Vii = Pembobot pada bias hemilai antara -/3 dan /3.

Resilient Backpropagation

Resilient backpropagation (RPROP) adalah salah satualgoritma yang digunakan untuk mempercapat lajupembelajaran pada pelatihan jaringan syaraf tiruanpropagasi balik. RPROP melakukan penyesuaian nilaibobot secara langsung berdasarkan informasi dari gradienlokalnya. Untuk melakukannya, pada tiap nilai bobotdiberikan suatu nilai perubahan bobot individual yangsecara personal menentukan besamya perubahan bobot.Nilai perubahan ini terus berubah selama prosespembelajaran berdasarkan pada pengamatan lokalnyaterhadap fungsi galatnya (Riedrniller dan Braun, 1993,~alam [4]):

A20

Secara sederhana, algoritma ini menggunakan tandaturunan untuk menentukan arah perbaikan bobot-bobot.Besarnya perubahan setiap bobot ditentukan oleh suatufaktor yang diatur pada parameter yang disebut delt _incdan delt_dec. Apabila gradien fungsi error berubah tandadari satu iterasi ke iterasi berikutnya, maka bobot akanberkurang sebesar delt_dec. Sebaliknya apabila gradienerror tidak berubah tanda dari satu iterasi ke iterasiberikutnya, maka bobot akan berkurang sebesar deltinc.Apabila gradien error sama dengan 0 maka perubahansama dengan perubahan bobot sebelumnya. Pada awaliterasi, besamya perubahan bobot diinisalisasikan denganparameter deltaO. .Besamya perubahan tidak bolehmelebihi batas maksimum yang terdapat pada parameterdelta max, apabila perubahan bobot melebihi batasmaksimum perubahan bobot, maka perubahan bobot akanditentukan sama dengan maksimum perubahan bobot,Mathworks, 1999, [II].

2.4 Data Percobaan dan Arsitektur JST

Data suara yang digunakan direkam menggunakanfungsi wavrecord pada Matlab, dan disimpan menjadifileberekstensi WAV dengan fungsi wavwri te. Setiappembicara (ada 10 pembicara) mengucapkan kata"komputer" sebanyak 60 kali sehingga didapat 600 datasuara. Setiap suara direkam selama I detik tanpapengarahan (unguided) dengan sampling rate 16000 Hzdan kemudian dikuantisasi dengan ke dalam representasi16 bit, sehingga rnasing-rnasing menghasilkan ukuran file31,25 KB.

Untuk mendapatkan data yang merniliki noise, datayang telah dikumpulkan sebelurnnya disalin sebanyak duakali kemudian ditambahkan white gaussian noise masing-masing dengan SNR 30 dB dan 20 dB. Setelah tahapan iniselesai dilakukan, didapatkan tiga tipe data suara yaitu:data tanpa penambahan noise, data dengan SNR 30 dB,.dan data dengan SNR 20 dB dengan jumlah 600 data suarauntuk tiap tipenya. Selanjutnya data yang telahdikumpulkan tadi dibagi menjadi dua kelompok denganperbandingan 2: I untuk tiap pembicara. Kelompokpertama, sebanyak 400 data suara, akan digunakan sebagaidata latih dan kelompok kedua, sebanyak 200 data suaradigunakan sebagai data uji.

Arsitektur JST Propagasi Balik yang digunakan adalaharsitektur multilayer perceptron dengan satu hidden layer.Jurnlah neuron input disesuaikan dengan jumlah koefisienMFCC. Jumlah neuron hidden dibagi menjadi tiga puluhperlakuan yakni 10 sampai 300 dengan increment 10.Sedangkan jurnlah neuron output disesuaikan dengantarget pembicara. Inisialisasi yang digunakan adalahNguyen-Widrow dengan alasan laju pembelajaran yanglebih baik, [9]. Struktur JST Resilient Backpropagationdapat dilihat pada Tabel I.

121

A20

Tabel 1 Struktur JST Resilient Backpropagation

Karakteristik Spesifikasi

Arsitektur 1 hidden layerJumlah neuron input Dimensi hasil MFCClumlah neuron hidden 10 sampai 300

dengan increment 10lumlah neuron output 10 (Definisi target)Inisialisasi bobot Nguyen- WidrowFungsi Pembelajaran Resilient

BackpropagationFungsi aktivasi Log-sigmoidToleransi galat 0.0001

Parameter lairiya dipilih nilai default dari Matlab, yaitudeltaO, deltamax, deltamin, delt_inc dan delt_dec berturut-turutadalahO,l; 50; 0,1; 1,2 danO,5.

3. HasH Percobaan

Perbandingan jumlah epoch hingga jaringan optimumantar berbagai jumlah neuron hidden dapat di1ihat padaGambar 4. Terlihat bahwa jumlah epoch hinggatercapainya generalisasi menurun secara drastis untukjumlah neuron hidden hingga 50. Setelah itu jumlah epochrelatif tetap.

000700

•• roo•..••';- 500•••..•• 400•...s: 3;)0cCo~ :;00

1000

10 50 9J 13;) 170 210 250 2<:0

jumlah neuron tersembunyi

Gambar 4 Grafik perbandingan jumlah epoh rata-rata terhadap jumlahneuron tersembunyi pada pelatihan dengan data tanpa noise

Gambar 5 menyajian perbandingan akurasi rata-ratadari berbagai jumlah neuron hidden. Dari gambar di atasterlihat bahwa untuk sinyal dengan penambahan noise,nilai akurasi turun secara nyata, mulai drai noise 30 dB dannoise 20 dB, masing-masing dengan akurasi berkisar 60hingga 70% serta 40 hingga 50%. Hal ini menunjukkan.bahwa teknik yang dikembangkan telah gagal melakukanpengenalan dengan baik untuk sinyal bemoise, meskiptiii>;;:hanya 30 dB. Dari gambar tersebut terlihat bahwa akurasirata-rata maksimum diperoleh untuk jurnlah neuron hiddensebanyak 100, dan terjelek pada jumlah neuron hidden 10,dengan akurasi rata-rata untuk sinyal asli sebesar 59%.


10090

~ 8070

~ 60

'ijj 50

e 40:::s 30~ 20

100

10 60 110 160 210Jumlah neuron tersembunvi

260

--- data tanpa noise __ data dengan SI\R 30d8 -- data dengan SI\R 20d8

Gambar 5. Grafik perbandingan nilai akurasi rata-rata terhadap jumlahneuron tersembunyi

Dengan menggunakan neuron hidden sebanyak 100diperoleh akurasi rata-rata dari 1° pembicara sebesar 96%seperti disajikan pada tabel 2. Terlihat bahwa pembicarayang dapat diidentikasi dengan benar seluruhnya adalahpembicara 1, pembicara 2, pembicara 5, dan pembicara 8.Di samping itu, dapat dilihat juga bahwa pembicara yangpaling sedikit diidentifikasi dengan benar adalahpembicara 9. Pada pembicara tersebut, data uji yang dapatdiidentifikasi dengan benar hanya tujuh belas data atau85% sedangkan sisanya dua data uji diidentifikasi sebagaisuara pembicara 6 dan satu diidentikasi sebagai suarapembicara 7.

Tabel2 Hasil identifikasi model JST terbaik dari dua puluh datapembicara tanpa threshold

Selanjutnya, pada proses identifikasi ditambahkan satutahapan lagi. Kali ini setelah ditemukan nilai rnaksirnaldari keluaran model JST, dilakukan pernbandinganterhadap nilai threshold dari pembicara tersebut. Sebuahdata suara yang diuji diidentifikasi sebagai suara salahseorang pembicara hanya jika nilai maksimal keluaran darimodel JST, yang menyatakan bahwa data tersebut suaradari salah seorang pembicara, lebih besar dari ni1aithreshold. Apabila nilai maksimal yang ditemukan masihlebih kecil dari pada nilai threshold rnaka dahi"suaratersebut tidak dikategorikan sebagai satu pun pembicara.Dengan penambahan tahap threshold dalam prosesidentifikasi, model JST yang dibangun menjadi lebih "hati-hati" dalam mengidentifikasi suatu suara. Hasil identifikasipembicara untuk dua puluh data pengujian tanpa noisedengan menggunakan threshold ditampilkanpada Tabel 3.Pada tabel tersebut ditambahkan satu pembicara baru yaitu

122


pembicara O. Pembicara ini ditambahkan dengan maksuduntuk menampung data suara yang hasil identifikasinyalebih kecil daripada nilai threshold.

Tabel 3 Hasil identifikasi model JST terbaik dari dua puluh datapembicara dengan threshold

Dari Tabel 3 dapat dilihat bahwa setelah ditambahkanthreshold tidak ada lagi data suara dari satu pembicarayang teridentifikasi sebagai pembicara lain. Tapi di lainpihak dapat dilihat juga bahwa tidak ada lagi data suarayang seluruhnya diidentifikasi dengan benar. Jumlah datasuara yang teridentifikasi dengan benar terbanyak hanyasembilan belas data yaitu data suara dari pembicara 5,pembicara 6, dan pembicara 10. Satu data suara darimasing-masing pembicara tadi dikenali sebagai pembicarao yang berarti bahwa nilai keluaran model JST untuk datatersebut lebih kecil dari nilai thresholdnya.

Jumlah data suara yang teridentifikasi dengan benarterendah terjadi pada pembicara 4 dan pembicara 7, yaitutiga belas data suara atau hanya 65 % dari seluruh datasuara yang diujikan. Jurnlah data suara teridentifikasidengan benar yang rendah juga terjadi pad a pembicara 8.Dari dua puluh data yang diujikan, hanya empat belas datayang diidentifikasi dengan benar.

Bila dibandingkan dengan identifikasi tanpa threshold,jumlah data suara yang teridentifikasi dengan benar padaidentifikasi dengan threshold secara umum mengalarnipenurunan yang cukup drastis. Hal ini dapat dilihat denganjelas dalam grafik perbandingan jumlah data suara yangteridentifikasi dengan benar pada Gambar 6. Dari grafikterlihat bahwa pada identifikasi tanpa threshold jurnlahdata suara yang dikenali dengan benar secara umummengalami penurunan dibandingkan dengan identifikasitanpa threshold. Nilai akurasi keseluruhan pun turonmenjadi hanya 82.5%. Hal ini disebabkan karena hasilkeluaran dari model JST untuk data suara tersebut masihlebih ,-kecil dari nilai threshold pembicara yangbersangkutan. Keadaaan tersebut mengakibatkan datasuara yang diujikan tadi dianggap bukan merupakan suara .dari pembicara yang bersangkutan dan kemudiandiklasifikasikan sebagai data suara pembicara O.

A20

•• 25(0c41..Q 20.~~15c41:g 10..!l'i 5E::I.., 0

2 3 4 5 6 7 8 9 10Pembicara

Keterangan :, _ ----Identlflkasl tanpa threshold'. -;0-.1dentlflkasldengan threshold

Gambar 6 Grafik perbandingan jumlah data suara yang teridentifikasidengan benar pada data tanpa noise

Penurunan jurnlah data suara teridentifikasi denganbenar yang cukup drastis ini kemungkinan disebabkan olehdua hal. Pertarna, data dan model JST yang digunakanmasih kurang baik. Model yang rnasih kurang baikmenyebabkan identifikasi kurang baik, yang digambarkandengan nilai rnaksirnal keluaran dari model yang kurangbesar. Nilai maksirnal keluaran yang kurang besar inimengakibatkan data suara yang diujikan diangap bukansuara pembicara yang bersangkutan karena nilainya lebihkecil dari threshold. Kemungkinan kedua adalah kurangbaiknya nilai threshold itu sendiri. Jika nilai thresholdyang diambil terlalu besar, maka akan banyak data suarayang tidak teridentifikasi karena nilai rnaksimalnya lebihkecil dari threshold.

4. Kesimpulan

Dari penelitian yang telah dilakukan, dapatdisimpulkan bahwa model jaringan syaraf tiruan resilientbackpropagation dapat digunakan untuk identifikasipembicara pada data yang direkam tanpa pengarahan. Daritiga puluh model yang dibangun, nilai akurasi rata-rataterbaik didapatkan dari model dengan seratus neurontersembunyi yaitu sebesar 96%. Nilai akurasi rata-rataterendah didapatkan dari model dengan sepuluh neurontersembunyi, yaitu 59%. Untuk sinyal bemois, meskipunhanya 30 dB, sistem gagal melakukan pengenalan denganbaik. - . ~

Penambahan nilai threshold untuk pengenalan akanmenurunkan akurasi sistem menjadi 83%. Namun derniianmeningkatkan keyakinan hasil akurasi. Artinya, bahwasinyal yang dideteksi sebagai pembicara tertentu, rnaka kitalebih yakin bahwa pendeteksian tersebut benar. Untukkasus yang kurang pasti, maka akan terklasifikasi ke kelasO.

123

A20

Dari hasil percobaan yang sudah dilakukan, terlihatbahwa sistem yang dikembangkan belum secara optimumbeerja dengan baik, khususnya untuk sinyal bemois.Untuk itu ada beberapa hal untuk penelitian selanjutnya,yaitu kajian terhadap teknik ekstraksi ciri yang robustterhadap noise, kajian metode pengenal pola yangoptimum dan penentuan nilai threshold yang lebih baik.

REFERENSI[I] Reynolds, D., 2002, "Automatic Speaker Recognition

Acoustics and Beyond : Tutorial note", MIT LincolnLaboratory, 2002.

[2] Buono, A. and B. Kusumoputro., 2008, "Sistem IdentifikasiPembicara Berbasis Power Spektrum Menggunakan HiddenMarkov model", Jumal I1miah I1mu Kornputer, ISSN 1693-1929, edisi Mei 2009, Departemen I1mu Komputer IPB.

[3] Oktavianto, B., 2004, "Pengenalan Pembicara denganJaringan Syaraf Tiruan Propagasi Balik", SkripsiDepartemen I1mu Komputer.Fakultas Matcmatika dan I1muPengetahuan Alam lnstitut Pertanian Bogor.

[4] Saputro, OW., 2006, "Pengenalan Karakter Tulisan Tangandengan Menggunakan .Jaringan Syaraf Tiruan PropagasiBalik Resilient", Skripsi Oepartemen I1mu KornputerFakultas Matematika dan Ilmu Pengetahuan Alam InstitutPertanian Bogor.

[5] C. Comaz, U. Hunkeler, 2005, "An Automatic SpeakerRecognition System", Ecole Polytechnique, Federale DeLausanne, http://www.ifp.uiuc.edu/-minhdo/teaching/speaker_recognition.

[6] Campbell, Jr JP., 1997, "Speaker Recognition: A Tutorial",Proceeding IEEE. 85:1437-146l.

[7] Todor O. Ganchev, 2005, "Speaker Recognition ". Ph.D.Thesis. Wire Communications Laboratory, Department ofComputer and Electrical Engineering, University of PatrasGreece.

[8] M. Nilsson dan M. Ejnarsson, Maret 2002, "SpeechRecognition using Hidden Markov Model: PerformanceEvaluation in Noisy Environment", Master Thesis,Departement of Telecommunications and Signal Processing,Blekinge Institute of Technology

[9] Fausett L., 1994, "Fundamentals of Neural Network", NewYork: Prentice Hall.

[10] Fu LM., 1994, "Neural Networks In Computerlntelligence", Singapore: Mc Graw-Hill.

[11] Mathworks Inc., 1999, "Neural Network for Use WithMatlab", Natick: The Mathworks Inc.

Agus Buono, memperoleh gelar Sarjana dan Master bidangstatistik di IPB pada tahun 1992 dan 1996. Gelar Master dan'Doktor bidang I1mu Komputer diperoleh diperoleh dariUniversitas Indonesia pada tahun 2000 dan 2009. Saat inisebagai Staf Pengajar Departemen I1mu Kornputer, InstitutPertanian Boger. --

Irman Hermadi, memperoleh gelar Sarjana I1mu Komputer diJurusan I1mu Komputer IPB, Master bidang komputer diperolehdari Arab Saudi, dan sekarang sebagai staf Oepartemen I1mu

,Seminar Nasional Teknologi Informasi 2009 I

Komputer Ipb sedang tugas belajar pada program Doktor bidangkomputer di Australia.

Nurhadi Susanto, memperoleh gelar Sarjana I1mu Komputer diJurusan I1mu Komputer IPS pada tahun 2006.

124

Documents

KUANTISASI SKALAR NILAI BISPEKTRUM UNTUK PENCIRI ... · 112. eminar Nasional ... dengan membaca sejumlah indeks yang berurutan dan ... median, atau rata-rata setelah persentil 75%