9

PENGENALAN POLA AKSARA KA-GA-NGA - …repository.unib.ac.id/6831/1/B6 Aksara Ka-Ga-Nga.pdf · RGB harus diubah menjadi citra grayscale terlebih dahulu dengan rumus [2]: ... operasi

Embed Size (px)

Citation preview

PENGENALAN POLA AKSARA KA-GA-NGADENGAN METODE LEARNING VECTOR QUANTIZATION (LVQ)

1Naimah Lubis, 2Edy Hermansyah, 3Desi Andreswari

Abstract-----Ka-Ga-Nga is ancient script which owned by Rejang and Serawai ethnic living in Bengkulu region.It has 28 characters, where each character followed by punctuation marks (sandangan). Ka-Ga-Nga is muchmore complicated compared which Roman’s alphabetics. Each character has a lot of similarity and can bedifferenitiated by only a stretch line. That is why process to recognize Ka-Ga-Nga pattern is considered ashaving high difficulty level. The research not only will studying recognize Ka-Ga-Nga in handwritten form, butalso study recognizing Ka-Ga-Nga in manuscripts. The manuscripts will be tested has a lot of noise. Therefore,a complex image processing is needed to recognize character in manuscripts. Moreover, to build a successfulKa-Ga-Nga character recognition system, cannot be fulfilled without solving the segmentation problem.Segmentation is process to separates characters in the text. In this research, the segmentation method that usedfor was result of some combining operations of morphology. This method gives a good result for script with bigspace. Then, for the classification process uses Learning Vector Quantization (LVQ) method. By using LVQ tobuild system, we have achieved a good accuracy level by combine maximum epoch with big value and learningrate with the value near zero.Keyword----- pattern recognition, learning vector quantization, image processing

1. PENDAHULUAN1

2Bengkulu merupakan salah satu daerah diIndonesia yang memiliki kekayaan peninggalanmasa lalu. Salah satunya adalah peninggalandalam bentuk tulisan berupa naskah kuno.Naskah kuno yang terdapat di Bengkulukebanyakan ditulis dalam aksara Ka-Ga-Nga.

Sarwit sarwono dalam Laporan PenelitianHibah Bersaing [1] menyatakan bahwa darisejumlah suku yang ada di Bengkulu hanyabeberapa kalangan orang tua yang masih dapatmembaca aksara ulu/Ka-Ga-Nga. Selain itukondisi fisik naskah sebagian besar masih beradadi tangan masyarakat sehingga rentan mengalamikerusakan. Jika tidak ada upaya pelestarian,maka naskah kuno akan terancam punah. Salahsatu cara untuk mengatasi hal tersebut adalahdengan melakukan digitalisasi. Digitaliasi dantransliterasi akan lebih mudah dilakukan denganadanya sistem yang dapat mengenali setiapkarakter aksara Ka-Ga-Nga. 3

Ada banyak pendekatan algoritma yangdapat digunakan untuk mengembangkan sistempengenalan pola karakter, salah satunya adalahneural network. Dalam penelitian ini akandigunakan jaringan syaraf tiruan metodeLearning Vector Quantization (LVQ) yangmerupakan salah satu jenis Jaringan SyarafTiruan Supervised Learning pada lapisan

1 Mahasiswa, Jl.Citarum, Kota Bengkulu, Kode Pos.38225(085758014128, e-mail::[email protected])2 Staf Pengajar Prodi Teknik Informatika, FT UNIB, Jl. W.R.Supratman, Kota Bengkulu (+62736-344087, e-mail:[email protected])3 Staf Pengajar Prodi Teknik Informatika, FT UNIB, Jl. W.R.Supratman, Kota Bengkulu (+62736-344087, e-mail:[email protected])

kompetitif untuk proses klasifikasi karakter Ka-Ga-Nga. Hasil yang ingin dicapai adalah bentuklatin dari karakter yang terdapat dalam naskahagar memudahkan penerjemahan ke dalambahasa Indonesia. Maka hasil dari prosesklasifikasi akan dilanjutkan dengan prosestransliterasi karakter ke dalam bentuk latin.

2. METODE PENELITIANSistem yang akan dibangun menggunakan

Matlab® 7.7.0. Dalam hal ini terdapat tiga prosesutama yakni proses pengolahan citra, prosespengenalan pola karakter dengan LVQ danproses transliterasi ke dalam bentuk latin.Tahapan perancangan sistem yang akandibangun pada sistem pengenalan pola karakterKa-Ga-Nga dapat dilihat pada gambar 1 berikut.

Gambar 1 Flowchart sistem Pengenalan Pola AksaraKa-Ga-Nga dengan Model Learning Vector

Quantization (LVQ)

Tahap awal adalah memasukkan data inputberupa citra yang dibedakan menjadi dua yaitucitra data referensi untuk sampel huruf Ka-Ga-Nga dan citra data uji naskah beraksara Ka-Ga-Nga. Citra data referensi merupakan citra yangdidapat dari hasil tulisan tangan seluruh karakterKa-Ga-Nga serawai yang ditulis menggunakanpena bertinta hitam pada kertas putih. Setiapkertas terdapat sekitar 50 karakter Ka-Ga-Nga.Kemudian dilakukan proses scanningmenggunakan scanner Canon MP258 denganresolusi sebesar 100 dpi. Sedangkan citra data ujididapat dari pengumpul naskah kuno dengancitra berekstensi .jpg. Contoh dari citra datareferensi dan data uji akan ditampilkan padagambar 2 dan 3 berikut.

Gambar 2 citra data referensi

Gambar 3 Citra data uji (citra naskah kuno)

Citra yang telah diinputkan akandiproses terlebih dahulu pada tahap pengolahancitra. Proses pengolahan citra yang dilakukanakan dijelaskan sebagai berikut :1. Cropping

Proses cropping merupakan langkah awaldalam pengolahan citra data uji. Croppingdimaksudkan untuk memotongframe/pinggiran citra yang banyakmengandung noise. Jika bagian pinggir citrayang banyak mengandung noise tidak di-cropp, maka akan sulit untuk melakukanproses segmentasi pada tahap selanjutnya.

2. GrayscallingUntuk mendapatkan citra biner yang baik,maka citra data uji yang merupakan citraRGB harus diubah menjadi citra grayscaleterlebih dahulu dengan rumus [2]:= 0,299 + 0,587 + 0,114 (1)

3. EnhancementProses enhancement merupakan proses yangdilakukan terhadap citra data uji. Proses iniditujukan untuk memperbaiki kualitas citradata uji yang akan dikonversi ke citra biner.Jika dilakukan konversi langsung dari citrahasil grayscale ke citra biner maka citra datauji yang didapatkan masih memiliki banyaknoise. Sedangkan jika melewati tahapfiltering maka karakter huruf ka-Ga-Ngayang terdapat pada data citra uji lebihterlihat jelas. Pada proses ini, metode yangdigunakan yakni Linear Spatial Filteringdan filter yang digunakan adalah highpassfilter. Penggunaan highpass filter akansangat sesuai digunakan untuk mempertajamtepi citra. Highpass filter akan mempertajamkomponen dengan frekuensi tinggi danmenghilangkan komponen dengan frekuensirendah sehingga akan sangat cocok untukpenajaman tepi citra [3].

4. ThresholdingProses thresholding merupakan proses untukmendapatkan citra biner. Ada banyak

metode yang digunakan dalam thresholdingcitra. Dalam sistem ini yang digunakanadalah metode Otsu. Jika menggunakanmetode threshold biasa, dengan rentang nilaiantara 0-1 tidak didapatkan citra binerdengan kualitas gambar yang baik atau yangsesuai dengan yang diharapkan. Pada tahapini juga dilakukan operasi negasi pada citrakarena terdapat perbedaan nilai piksel untukcitra biner pada pemrograman Matlab. Padapemrograman Matlab, komponen berwarnahitam akan bernilai nol dan komponenbewarna putih bernilai satu. Pada citra,komponen yang berwarna putih (nilai pikselsatu) merupakan komponen background danberwarna hitam (nilai piksel nol) merupakankomponen tulisan karakter Ka-Ga-Nga.Operasi negasi yang dilakukan akanmenjadikan komponen backgroundberwarna hitam (nilai piksel nol) dankomponen karakter berwarna putih (nilaipiksel satu).

5. SkeletonsProses skeletons bertujuan untukmenghasilkan objek yang memilikiketebalan satu piksel atau dengan kata lainmengekstraksi kerangka objek. Hal inidilakukan untuk mengatasi perbedaaan nilabobot yang akan dihasilkan dalam prosespengenalan pola menggunakan LearningVector Quantization untuk karakter dalamkelas yang sama. Karena pada sistem ini,citra masukan berasal dari hasil penulisanyang berbeda-beda. Perubahan citra hasilskeletons dapat dilihat pada gambar 5berikut.

Gambar 4 Citratanpa skeletons

Gambar 5 Citra hasilskeletons

6. SegmentasiProses segmentasi bertujuan untukmendapatkan area-area yang merupakankarakter Ka-Ga-Nga dalam citra. Prosessegmentasi yang dilakukan akanmenggunakan kombinasi dari beberapaoperasi morphologi. Morphologi merupakanoperasi pengekstraksian komponen citrayang berguna untuk merepresentasikan dan

mendeskripsikan area bentuk sepertiboundaries dan skeletoning [4].Operasi morphologi matematika yangdigunakan adalah operasi dilasi, regionfilling, extraction of connected component,dan boundary extraction. Tahap awaloperasi morphologi matematika adalahmenentukan structuring element (SE). SEmerupakan matrik konvolusi, SE yang akandigunakan pada proses ini adalah SE squareyakni matriks yang memiliki ukuran kolomdan baris yang sama atau lebih dikenaldengan matriks m x m dengan setiap elemenbernilai 1 untuk semua baris dan kolom.Penentuan besar kecilnya ukuran matriksSE yang digunakan akan mempengaruhihasil dilasi. Setelah menentukan ukuran SE,operasi dilasi akan dapat dilakukan. Alasanmengapa operasi dilasi ini dilakukan padaproses segmentasi adalah untukmemperbesar ukuran objek (foreground)sebelum dilakukan pelabelan agar objekdengan tanda baca tersegmentasi menjadi 1karakter. Ukuran piksel dari citra tidakmengalami perubahan.Operasi morhologi setelah dilasi adalahregion filling. Operasi ini akan membloksemua lubang-lubang yang berada di tengahobjek dengan cara menelususri nilai pikselyang memiliki keterhubungan dengan pikselyang berada di dekatnya atau yang lebihdikenal dengan connected neighborhoodelement. Pada sistem ini akan digunakan 4-connected neighborhood element.Setelah operasi region filling, operasimorphologi yang akan dilakukanselanjutnya adalah extraction of connectedcomponent. Pada operasi ini akan terjadipelabelan area objek (foreground) padaobjek yang elemennya memilikiketerhubungan. Setelah diberikan label padasetiap objek, selanjutnya dilakukanpembatasan area tiap objek denganmenggunakan operasi boundary extraction.Boundary extraction meruapakan operasipembatasan yang akan menentukan areadari tiap objek/karakter pada tahapsegmentasi. Pembatasan area objekdilakukan dengan membuat boundaryberbentuk rectangle untuk setiapobjek/karakter.Seluruh operasi yang ada pada prosessegmentasi ditampilkan pada gambarberikut.

dilasi

boundary extraction region filling

Gambar 6 Proses segmentasi

7. Cropping dan NormalisasiProses ini merupakan proses memotong satubagian objek/karakter dari citra hasilsegmentasi. Kemudian setiap citra karakteryang telah di-crop akan dinormalisasidengan ukuran 20x20 piksel.

Setelah mendapatkan nilai piksel dari objekyang akan dikenali dari tahap pengolahan citradigital maka tahap selanjutnya adalah melakukananalisis penyelesaian teknik jaringan syaraftiruan. metode jaringan syaraf tiruan yang dipilihadalah Learning Vector Quantization (LVQ).LVQ adalah suatu metode untuk melakukanpembelajaran pada lapisan kompetitif yangterawasi. Suatu lapisan kompetitif akan secaraotomatis belajar untuk mengklasifikasikanvektor-vektor input. Jika 2 vektor inputmendekati sama, maka lapisan kompetitif akanmeletakkan kedua vektor input tersebut ke dalamkelas yang sama [5]. Adapun algoritma LVQadalah sebagai berikut [5]:1. Tetapkan bobot (w), Maximum epoh

(MaxEpoh), error minimum yangdiharapkan (Eps), Learning rate (α).

2. Masukan : Input : x(m,n); m=jumlah input;

n=jumlah data Target : T(1,n)

3. Tetapkan kondisi awal : epoh = 0 err = 1

4. Kerjakan jika (epoh<MaxEpoh) atau (α >eps)a. Epoh = epoh + 1b. Kerjakan untuk i=1 sampai n

i. Tentukan J hingga ||x-wj||minimum (sebut sebagai Cj)

ii. Perbaiki wj dengan ketentuan : Jika T = Cj maka :

wj(baru) = wj(lama) + α[x -wj(lama)]

Jika T ≠ Cj maka :wj(baru) = wj(lama) - α[x -wj(lama)]

c. Kurangi nilai αKeterangan notasi :x vektor pelatihan (x1…xi….xn)T kategori yang benar untuk vektor pelatihanwj vektor bobot unit output j (w1j…wij…wnj)Cj kategori yang diwakili oleh unit output j||x-wj|| jarak Euclidean antara vektor input

dan vektor bobot untuk unit output j.

Dalam metode LVQ terdapat dua prosesutama yakni:

1. Proses TrainingProses training ini bertujuan untukmembuat data referensi pada neuralnetwork. Pada tahap ini 50 citra karakterdari data latih akan diklasifikasikan kedalam 10 kelas. Jadi akan terdapat 10 vektoryang akan diinisialisasikan sebagai bobotawal. Sedangkan data yang akan dilatihsebanyak 40 data. Vektor input yangdihasilkan pada tahap normalisasi adalah20x20 piksel. Hal ini akan mengakibatkanpenggunaan memori yang besar. Untukmengatasi hal tersebut, maka akandilakukan blocking citra denganmenggunakan metode nonoverlapping citra.Setiap citra akan dibagi ke matriksberukuran 4x4. Sehingga masing-masingelemen matriks berukuran 5x5 piksel sepertiyang disajikan pada gambar 7 berikut.

Gambar 7 Membagi piksel karakter

ke dalam matriks 4x4

Setiap blok matriks akan diberi nilai sesuaidengan perhitungan rata-rata nilai elemenpada tiap blok. Untuk citra pada gambar 7,masing-masing blok akan bernilai :

1 2 3 41 0 0.04 0.12 0.042 0 0.16 0.16 0.083 0 0.08 0 04 0 0.04 0 0

Maka karakter pada gambar 7 akanmemiliki vektor bobot (0 0.04 0.12 0.040 0.16 0.16 0.08 0 0 0 0.04 0 0).

2. Proses TestingSetelah dilakukan proses training makaproses selanjutnya adalah proses testing.Proses ini dilakukan setelah proses trainingberakhir. Testing akan dilakukan terhadapteks kuno Ka-Ga-Nga denganmembandingkan jarak input terhadapseluruh bobot dari proses training. Nomordari bobot dengan jarak terkecil akanmenjadi kelas dari karakter data uji.

Setelah citra berhasil dikenali, selanjutnyadilakukan transliterasi setiap karakter denganmenggunakan bantuan kode ASCII desimal.

Setelah semua proses berhasil dilakukanmaka akan diketahui tingkat akurasi yangdihasilkan sistem. Untuk tingkat akurasi sistempada proses training dirumuskan sebagai berikut:akurasi(%) = x 100% (2)

dengan,

= jumlah karakter yang benar sesuaidengan target latihN= jumlah seluruh karakter data latih

untuk tingkat akurasi proses testing dapatdirumuskan sebgaai berikut:akurasi (%) = x 100% (3)= jumlah karakter yang dikenali dengan

benar dibandingkan dengan hasilsebelum diujiN= jumlah seluruh karakter data uji

3. HASIL DAN PEMBAHASAN

Dari proses training terhadap citra data latihpada gambar 2 didapat tingkat akurasi training

yang berbeda untuk beberapa jumlah epoch dannilai learning rate dapat dilihat pada tabel 1berikut.

Tabel 1 Tingkat akurasi training dan jumlahepoch yang berbeda

JumlahEpoch

Learningrate (α)

Akurasitraining

10 0.2 92.5%10 0.15 92.5%10 0.1 92.5%10 0.05 92.5%20 0.2 95%20 0.15 95%20 0.1 95%20 0.05 95%30 0.2 95%30 0.15 95%30 0.1 95%30 0.05 95%40 0.2 95%40 0.15 95%40 0.1 95%40 0.05 95%

Dapat dilihat pada tabel 1 bahwa semakinbesar jumlah epoch maka akan menghasilkanerror yang semakin kecil atau tingkat akurasiyang semakin besar. Setelah training maka akandilakukan pengujian terhadap data yang belumpernah dilatih berupa citra naskah kuno, datayang belum pernah dilatih dari penulis hurufyang sama dan data yang pernah dilatih. Tabel 2berikut akan menampilkan hasil transliterasiuntuk setiap data uji.

Tabel 2 Hasil transliterasimasing-masing citra data uji

Jenisdata

Citra karakterhasil pengujian

Hasiltransli-terasi

Belumpernahdilatih

(Naskahkuno

4a.jpg)

ti ti panga pa kanga ra ranga ranga ntama pa panta nta rati ka manta pa kama ntama ma tipa nta mati . nta kanta ka ti

nta ntama ra ti

Belumpernahdilatih(hasiltulisan

daripenulisyangsama)

ti ti pa ti ti

Citradatalatih

ngan tika ti pama ranta ma .ngan tika nganti manta rama mati manganganma panta rama . kati ngangan pama ntama ra .ka mangangan panta mama . ra

Hasil akurasi sistem untuk masing-masingdata akan ditampilkan dalam tabel 3, tabel 4 dantabel 5.

Tabel 2 Tingkat akurasi hasil testing citra data ujiyang belum pernah dilatih (naskah 4a.jpg)JumlahEpoch

Learningrate (α)

Akurasitesting

10 0.2 20%10 0.15 20%10 0.1 20%10 0.05 20%20 0.2 20%20 0.15 20%20 0.1 20%20 0.05 20%30 0.2 20%

30 0.15 20%30 0.1 20%30 0.05 20%40 0.2 20%40 0.15 20%40 0.1 20%40 0.05 20%

Tabel 3 Tingkat akurasi hasil testing citra data ujiyang belum pernah dilatih (hasil tulisan dari penulis

yang sama)JumlahEpoch

Learningrate (α)

Akurasitesting

10 0.2 80%10 0.15 80%10 0.1 80%10 0.05 100%20 0.2 80%20 0.15 80%20 0.1 80%20 0.05 100%30 0.2 80%30 0.15 80%30 0.1 80%30 0.05 100%40 0.2 80%40 0.15 80%40 0.1 80%40 0.05 100%

Tabel 4 Tingkat akurasi hasil testing citra data ujidari data yang pernah dilatih

JumlahEpoch

Learningrate (α)

Akurasitesting

10 0.2 88%10 0.15 88%10 0.1 88%10 0.05 86%20 0.2 90%20 0.15 90%20 0.1 90%20 0.05 92%30 0.2 90%30 0.15 90%30 0.1 90%30 0.05 92%40 0.2 90%40 0.15 90%40 0.1 90%40 0.05 92%

Berdasarkan hasil pada tabel 2, 3 dan 4didapat kesimpulan bahwa jumlah epoch danlearning rate juga ikut mempengaruhi hasil

testing. Pada tabel tersebut akurasi yangdihasilkan sistem untuk setiap epoch tidakmengalami perubahan yang cukup besar,sedangkan learning rate akan mempengaruhihasil akurasi sistem jika dipilih nilai terkecil.Jadi untuk mendapatkan tingkat error yangmendekati nilai 0 atau tingkat akurasi mendekati100% dapat digunakan epoch yang besar dannilai learning rate yang kecil.

4. KESIMPULANDari penelitian dapat disimpulkan bahwa

metode Learning Vector Quantization (LVQ)dapat digunakan untuk mengenal pola karakterKa-Ga-Nga hasil tulisan tangan. Dengan datareferensi yang terbatas, sistem masih mampumengenali karakter Ka-Ga-Nga hasil tulisantangan. Hasil terbaik jika data yang diujikanmerupakan data yang pernah dilatih dan datayang bukan data latih tetapi hasil penulisan olehpenulis yang sama dengan data latih. Sedangkanuntuk mengenali tulisan yang ada di naskah kunotingkat akurasi yang dihasilkan sistem masihkecil. Pemilihan jumlah epoch dan nilailearning rate akan mempengaruhi tingkatakurasi sistem, yakni:1. Semakin besar jumlah epoch maka tingkat

akurasi training sistem akan mendekati100%.

2. Semakin besar jumlah epoch dan semakinkecil nilai learning rate maka tingkat akurasitesting sistem akan semakin besar.

5. SARANBerdasarkan hasil penelitian, pengujian

serta pembahasan yang dibahas, makadisarankan untuk pengembangan penelitiandimasa yang akan datang dapat mencoba modelneural network yang lain sehingga menghasilkanakurasi yang lebih baik dibandingkan denganmetode LVQ. Selain itu, dapat dikembangkansistem yang bisa melakukan transliterasi untuksetiap kalimat.

DAFTAR PUSTAKA

[1] Sarwono, Sarwit dkk. 2007. PemetaanPenulis dan Pusat Penulisan Naskah-Naskah Ulu Melalui PenelusuranNaskah-Naskah Ulu Pada Masyarakatdi Provinsi Bengkulu. LaporanPenelitian Hibah Bersaing. ProyekMultitahun. Jakarta:Dikti.

[2] Munir, Rinaldi. 2004. Pengolahan CitraDigital dengan Pendekatan Algoritmik.Bandung: Informatika.

[3] Putra, Darma. 2010. Pengolahan CitraDigital. Yogyakarta:Andi Offset.

[4] Gonzalez RC, Woods RE. 2004. DigitalImage Processing. New Jersey:PrenticeHall.

[5] Kusumadewi, Sri. 2003. ArtificialIntelligence (Teknik dan Aplikasinya).Jakarta: Graha Ilmu.