Upload
others
View
3
Download
0
Embed Size (px)
Citation preview
(1)
การใชเทคนคเอนแกรมชวยในการเพ�มประสทธภาพการตดสนใจแปลอกษรเบรลล ในกรณท�มคาควบกล&า สระประสมและอกษรเบรลลสองเซลล
Enhancing Thai Braille Translation with n-gram for Decision Making in the Cases of Compound Consonants, Vowels and Characters
ทศวฒน ชณหวทยะธระ Totsawat Chunhawitayatera
วทยานพนธน&เปนสวนหน�งของการศกษาตามหลกสตรปรญญา วศวกรรมศาสตรมหาบณฑต สาขาวชาวศวกรรมคอมพวเตอร
มหาวทยาลยสงขลานครนทร A Thesis Submitted in Partial Fulfillment of the Requirements for the Degree of
Master of Engineering in Computer Engineering Prince of Songkla University
2555 ลขสทธZของมหาวทยาลยสงขลานครนทร
(2)
ช�อวทยานพนธ การใชเทคนคเอนแกรมชวยในการเพ�มประสทธภาพการตดสนใจแปล อกษรเบรลลในกรณท�มคาควบกล*า สระประสมและอกษรเบรลลสองเซลล ผเขยน นายทศวฒน ชณหวทยะธระ สาขาวชา วศวกรรมคอมพวเตอร
อาจารยท�ปรกษาวทยานพนธหลก คณะกรรมการสอบ ……………........................................................... …………………......................ประธานกรรมการ (ผชวยศาสตราจารย ดร.พชญา ตณฑยย) (ผชวยศาสตราจารย ดร.อานาจ เปาะทอง)
……………………………......................กรรมการ (ผชวยศาสตราจารย ดร.พชญา ตณฑยย)
………………………..….......................กรรมการ (ดร.เดอนเพญ กชกรจารพงศ)
บณฑตวทยาลย มหาวทยาลยสงขลานครนทร อนมตใหนบวทยานพนธฉบบน* เปนสวนหน� งของการศกษา ตามหลกสตรปรญญาวศวกรรมศาสตรมหาบณฑต สาขาวชา วศวกรรมคอมพวเตอร
……………............................................................
(ศาสตราจารย ดร.อมรรตน พงศดารา) คณบดบณฑตวทยาลย
(3)
ช�อวทยานพนธ การใชเทคนคเอนแกรมชวยในการเพ�มประสทธภาพการตดสนใจแปล อกษรเบรลลในกรณท�มคาควบกล*า สระประสมและอกษรเบรลลสองเซลล ผเขยน นายทศวฒน ชณหวทยะธระ สาขาวชา วศวกรรมคอมพวเตอร ปการศกษา 2554
บทคดยอ
ในปจจบนมการพฒนาโปรแกรมเพ�อชวยแปลงขอความอกษรเบรลลภาษาไทยใหเปนขอความภาษาไทยเพ�ออานวยความสะดวกในการส�อสารระหวางผพการทางสายตาและคนสายตาปกต ท*งน* เพราะลกษณะการเขยนอกษรเบรลลภาษาไทยระดบ 1 มความแตกตางจากลกษณะการเขยนภาษาไทยอยพอสมควร จงไมสามารถใชวธการแปลงโดยอาศยการเปรยบเทยบแบบตวอกษรตอตวอกษรหรอคาตอคาได ซ� งโปรแกรมท�ไดมการพฒนามากอนหนาน* มกใชกฎไวยากรณทางภาษาเขามากากบวธการแปลง แตยงคงประสบปญหาการแปลงคาควบกล*า, สระประสม, อกษรเบรลลสองเซลลและคาทบศพท เน�องจากลกษณะการเขยนอกษรเบรลลภาษาไทยระดบ 1 มลกษณะการเขยนอกขระเรยงตดตอกนไปจนกระท�งจบประโยคและใชการเวนวรรคเพ�อแบงแตละประโยคออกจากกน คาประเภทดงกลาวมรปพองกน จงสามารถอานไดหลายแบบและแตละรปแบบกมความหมายท�แตกตางกนไป จงทาใหเกดความกากวมข*นและไมสามารถเขยนโปรแกรมใหครอบคลมทก ๆ กรณท�เกดข*นได
งานวจยน* จงไดนาเสนอวธแกไขปญหาการแปลงขอความอกษรเบรลลภาษาไทยใหเปนขอความภาษาไทยเพ�อใชกบประโยคท�มคาควบกล* า, สระประสม, อกษรเบรลลสองเซลลและ คาทบศพท โดยใชเทคนคเอนแกรมเขามาชวยในการตดคากอนท�จะแปลงใหเปนภาษาไทยเพ�อลดความกากวมของภาษาและนาเสนอจานวนแกรมท�เหมาะสมสาหรบใชตดคาอกษรเบรลลภาษาไทย ซ� งผลการทดลองสรปวาสามารถแปลงขอความไดถกตองมากข*นและใชปรมาณหนวยความจานอยลง แตใชเวลาแปลงมากกวาเดมโดยอยในเกณฑท�ยอมรบได และจานวนแกรมท�เหมาะสมคอ 4-แกรม คาสาคญ: อกษรเบรลลภาษาไทย, เอนแกรมโมเดล, โปรแกรมแปลงขอความอกษรเบรลล
ภาษาไทยเปนขอความภาษาไทย
(4)
Thesis Title Enhancing Thai Braille translation with n-gram for decision making in the cases of compound consonants, vowels and characters Author Mr. Totsawat Chunhawitayatera Major Program Computer Engineering Academic Year 2011
ABSTRACT
There have been several developments for Thai Braille to Thai translation for assisting the communication between the visually impaired and the normal sighted. The grammar rules of Thai Braille and Thai are different. So, it is not applicable to use character-to-character or word-to-word translation techniques. Generally, Thai Braille to Thai translation programs apply grammar rules to control the translation process but there are problems about translating compound consonants and vowels, two-cell Braille characters and transliterated words because Thai Braille Grade 1 write characters continuously until the end of the sentence and uses spaces for separating sentences. There are such words that have the same character sequence with other words but have several meanings. This causes ambiguity. Therefore, it is difficult to write a program to cover all conditions.
This Thesis proposes a method to solve Thai Braille to Thai translation problems in the cases that the sentences contain compound consonants, vowels, two-cell Braille characters and transliterated words by using the N-gram model technique to wrap words before being translated into Thai in order to reduce the ambiguity of the language and propose the optimal N-gram number for wrapping Thai Braille words. The new method can improve the correctness of the translation and reduce the memory consumption better than the old method but the new method requires more translation time than the old method. The appropriate N-gram number is 4-gram for the Braille Thai text word wrap. Keywords: Thai Braille, N-gram model, Thai Braille to Thai translation program
(5)
กตตกรรมประกาศ
ขอแสดงคาขอบพระคณ ผชวยศาสตราจารย ดร. พชญา ตณฑยย อาจารยท�ปรกษาวทยานพนธหลก ท�ไดกรณาอทศเวลาใหคาปรกษา ใหการสนบสนนการทาวจย แนะนาความรในดานการทาวจย เอกสาร ขอมลตางๆเปนอยางด รวมท*งแนวความคดและกาลงใจในการแกปญหาตลอดจนตรวจทานแกไขวทยานพนธใหดาเนนไปอยางสมบรณ
ขอขอบพระคณ ผชวยศาสตราจารย ดร. อานาจ เปาะทอง ประธานกรรมการสอบวทยานพนธท�ไดกรณาใหคาปรกษาคาแนะนา และใหการชวยเหลอแกไขปญหาในงานวจย และตรวจทานวทยานพนธใหดาเนนไปอยางสมบรณ
ขอขอบพระคณ ดร. เดอนเพญ กชกรจารพงศ กรรมการสอบวทยานพนธท�ไดกรณาใหคาปรกษาคาแนะนา และใหการชวยเหลอแกไขปญหาในงานวจย
ขอขอบคณ พ�ๆ เพ�อน ๆ และนองๆ นกศกษาปรญญาโท ภาควชาวศวกรรมคอมพวเตอร มหาวทยาลยสงขลานครนทร โดยเฉพาะกลมงานวจยหอง WIG ประกอบดวย นางสาวสภาวด มากอน, นายพทกษ เศวตสนทร, นายณฐวฒ วจตร และนางสาวพรวกา สรอยทองและทกทานท�ไดใหคาแนะนา คาปรกษา และกาลงใจท�ดมาโดยตลอด
ขอขอบพระคณ คณาจารยและเจาหนาท�ในภาควชาวศวกรรมคอมพวเตอรทกๆทาน ท�ใหความชวยเหลอในดานตางๆมาโดยตลอด จนกระท�งงานสาเรจลลวง
สดทายน* ขาพเจาขอนอมราลกถงพระคณของนายอภชย ชณหวทยะธระ (บดา) และนางวารณ ชณหวทยะธระ (มารดา) บคคลในครอบครว ท�สงเสรมสนบสนน ใหคาแนะนา ใหคาปรกษา ใหกาลงใจ และทนทรพยแกขาพเจาตลอดมาจนกระท�งทาใหขาพเจาประสบความสาเรจ
ทศวฒน ชณหวทยะธระ
(6)
สารบญ หนา
บทคดยอ................................................................................................................................... (3) ABSTRACT............................................................................................................................ (4) กตตกรรมประกาศ.................................................................................................................... (5) สารบญ...................................................................................................................................... (6) สารบญตาราง............................................................................................................................ (10) สารบญภาพประกอบ................................................................................................................ (12) สญลกษณคายอและตวยอ......................................................................................................... (14) ศพทานกรม............................................................................................................................... (15) บทท� 1 บทนา 1 1.1 ความสาคญ และท�มาของวทยานพนธ......................................................................... 1 1.2 วตถประสงค................................................................................................................ 4 1.3 ขอบเขตของการวจย.................................................................................................... 4 1.4 ข*นตอนการวจยและวธการวจย.................................................................................... 5 1.5 ประโยชนท�คาดวาจะไดรบ.......................................................................................... 5 บทท� 2 ทฤษฎและหลกการท�เก�ยวของ...................................................................................... 7 2.1 อกษรเบรลล................................................................................................................. 7 2.1.1 อกษรเบรลลภาษาไทย......................................................................................... 8 2.1.2 หลกการอานเขยนอกษรเบรลลภาษาไทยระดบ 1................................................ 10 2.2 โปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file………………………... 12 2.3 เทคนคการตดคา.......................................................................................................... 13 2.3.1 เทคนคการตดคาโดยใชกฎพ*นฐาน...................................................................... 14 2.3.2 เทคนคการตดคาโดยใชพจนานกรม.................................................................... 15 2.3.3 เทคนคการตดคาโดยใชคลงขอมล....................................................................... 17 2.4 คลงขอมลภาษา........................................................................................................... 18 2.5 เอนแกรมโมเดล........................................................................................................... 21 2.5.1 หลกการทางานของเอนแกรมโมเดล................................................................... 21
(7)
สารบญ (ตอ)
หนา
2.6 Smoothing Techniques................................................................................................ 22
2.7 CMU-SLM toolkit....................................................................................................... 24
2.8 โปรแกรมแปลงภาษาไทยไปเปนอกษรเบรลล............................................................ 25
บทท� 3 การออกแบบและการพฒนาระบบ............................................................................... 39
3.1 การวเคราะหปญหาการแปลงอกษรเบรลลภาษาไทยไปเปนภาษาไทยในปจจบน...... 39
3.2 แนวคดในการแกไขปญหาในงานวจย......................................................................... 30
3.3 การคดเลอกประโยคจากคลงขอมล BEST และการสรางไฟลโมเดล
อกษรเบรลลภาษาไทย.................................................................................................
31
3.3.1 การคดเลอกประโยคท�ตองการจากคลงขอมล BEST........................................... 32
3.3.2 การสรางไฟลโมเดลอกษรเบรลลภาษาไทย......................................................... 36
3.4 ภาพรวมของระบบท�ไดนาเสนอไวในวทยานพนธฉบบน* ........................................... 39
3.5 อนพตและเอาทพทของระบบ..................................................................................... 41
3.6 โปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรม
เขามาชวยในการตดคาท�ไดนาเสนอไวในวทยานพนธฉบบน* ....................................
41
3.6.1 ข*นตอน pre_ngram_generate.............................................................................. 41
3.6.2 ข*นตอน generate_ngram_pattern........................................................................ 44
3.6.3 ข*นตอน select_output_pattern............................................................................ 48
3.6.4 ข*นตอน translate_to_thai.................................................................................... 56
3.7 การประยกตเอนแกรมโมเดล....................................................................................... 61
3.8 Smoothing Techniques ท�เลอกใช............................................................................... 66
3.9 รายการคาอกษรเบรลลภาษาไทยและรายการคาภาษาไทย.......................................... 69
บทท� 4 ผลการทดลอง............................................................................................................... 73
4.1 ดานความถกตองของการแปลงอกษรเบรลลภาษาไทยไปเปนภาษาไทย..................... 73
(8)
สารบญ (ตอ)
หนา
4.1.1 เคร�องมอท�ใชในการทดสอบ............................................................................... 73
4.1.2 ภาพรวมการทดสอบดานความถกตองการแปลงอกษรเบรลลภาษาไทย
ไปเปนภาษาไทย..................................................................................................
74
4.1.3 ชดขอมลทดสอบเปรยบเทยบดานความถกตอง.................................................. 75
4.1.4 ผลการทดลองเปรยบเทยบดานความถกตอง....................................................... 77
4.2 ดานปรมาณการใชหนวยความจาในการแปลง............................................................ 79
4.2.1 เคร�องมอท�ใชในการทดสอบ............................................................................... 79
4.2.2 ภาพรวมการทดสอบปรมาณการใชหนวยความจาในการแปลง.......................... 79
4.2.3 ชดขอมลทดสอบดานปรมาณการใชหนวยความจา............................................. 81
4.2.4 ผลการทดลองเปรยบเทยบปรมาณการใชหนวยความจา..................................... 82
4.3 ระยะเวลาท�ใชในการแปลงอกษรเบรลลภาษาไทยไปเปนภาษาไทย........................... 83
4.3.1 เคร�องมอท�ใชในการทดสอบ............................................................................... 83
4.3.2 ภาพรวมการทดสอบระยะเวลาท�ใชในการแปลงอกษรเบรลลภาษาไทย
ไปเปนภาษาไทย..................................................................................................
84
4.3.3 ชดขอมลทดสอบเปรยบเทยบดานเวลาท�ใชในการแปลง..................................... 86
4.3.4 ผลการทดลองเปรยบเทยบดานเวลาท�ใชในการแปลง......................................... 89
4.4 สรปผลการทดสอบ..................................................................................................... 92
บทท� 5 สรปผลการวจยและขอเสนอแนะ................................................................................ 93
5.1 สรปผลการวจย........................................................................................................... 93
5.2 สรปปญหา อปสรรค และสาเหตขอผดพลาดในงานวจยน* .......................................... 94
5.3 ขอเสนอแนะ................................................................................................................ 97
เอกสารอางอง........................................................................................................................... 99
ภาคผนวก................................................................................................................................. 103
(9)
สารบญ (ตอ)
หนา
ภาคผนวก ก. ผลงานตพมพเผยแพรจากวทยานพนธ........................................................... 104
ภาคผนวก ข. ตารางผลการทดลอง...................................................................................... 114
ภาคผนวก ค. รายการคาท�มความผดพลาดประเภทตางๆ.................................................... 121
ภาคผนวก ง. ตารางอกษรเบรลลประเภทตางๆ.................................................................... 156
ประวตผเขยน............................................................................................................................ 158
(10)
สารบญตาราง หนา
ตารางท� 2.1 พยญชนะภาษาไทยท�มรปอกษรเบรลลแบบ 2 เซลล............................................. 8 ตารางท� 2.2 รปอกษรเบรลลของสระประสม........................................................................... 9 ตารางท� 2.3 สระและเคร�องหมายท�มรปอกษรเบรลลแบบ 2 เซลล........................................... 10 ตารางท� 3.1 อกษรเบรลลสองเซลลท�มรปพองกนกบอกษรเบรลลเซลลเดยว สองตวท�เขยนตดกน.............................................................................................
28
ตารางท� 3.2 รายละเอยดการคดเลอกประโยคท�ตองการจากคลงขอความ BEST...................... 35 ตารางท� 3.3 รายละเอยดของตวแปรในข*นตอน pre_ngrams_generate..................................... 42 ตารางท� 3.4 รายละเอยดของตวแปรท�ใชในข*นตอน gen_ngram_pattern................................. 44 ตารางท� 3.5 รายละเอยดตวแปรตางๆ ท�ใชในข*นตอน select_output_pattern........................... 48 ตารางท� 3.6 ตวแปรตางๆ ท�ใชในข*นตอน translate_to_thai..................................................... 58 ตารางท� 3.7 ตวแปรตางๆ ท�ใชในฟงกชน load_ngram_word.................................................. 61 ตารางท� 3.8 ตวแปรตางๆ ท�ใชในข*นตอน calculate_smoothing..............................................
67
ตารางท� 3.9 ตวแปรชนดตางๆ ท�ใชในการสรางรายการคา....................................................... 71 ตารางท� 4.1 รายละเอยดชดขอมลทดสอบดานความถกตอง..................................................... 76 ตารางท� 4.2 ผลการทดลองเปรยบเทยบความถกตองของวธการเดมและวธการใหม................ 77 ตารางท� 4.3 รายละเอยดชดขอมลทดสอบดานปรมาณการใชหนวยความจา............................ 82 ตารางท� 4.4 ผลการทดลองปรมาณการใชหนวยความจา.......................................................... 83 ตารางท� 4.5 รายละเอยดประเภทคาควบกล*า............................................................................. 87 ตารางท� 4.6 รายละเอยดประเภทสระประสม........................................................................... 88 ตารางท� 4.7 รายละเอยดประเภทอกษรเบรลลสองเซลล........................................................... 88 ตารางท� 4.8 รายละเอยดประเภทคาทบศพท............................................................................. 88 ตารางท� 4.9 รายละเอยดประเภทขอความท�วไป....................................................................... 89 ตารางท� 4.10 ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลง................................................ 90 ตารางท� 1 ผลการทดลองปรมาณการใชหนวยความจา............................................................. 114 ตารางท� 2 ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประเภทไฟลคาควบกล*า.............. 115 ตารางท� 3 ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประเภทไฟลสระประสม............. 116
(11)
สารบญตาราง (ตอ) หนา
ตารางท� 4 ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประเภท ไฟลอกษรเบรลลสองเซลล......................................................................................
117
ตารางท� 5 ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประเภทไฟลคาทบศพท............... 118 ตารางท� 6 ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประโยคท�วไปของวธการเดม...... 119 ตารางท� 7 ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประโยคท�วไปของวธการใหม..... 120 ตารางท� 8 รายการคาท�โปรแกรม Thai2brl แปลงผดพลาด....................................................... 121 ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทย ท�โปรแกรม SWATH ตดคาผดพลาด......................................................................
122
ตารางท� 10 รายการคาของคลงขอความ BEST เขยนผดพลาด................................................. 154 ตารางท� 11 อกษรเบรลลภาษาไทยแบบ 6 จด........................................................................... 156 ตารางท� 12 อกษรเบรลลภาษาไทยแบบ 8 จด........................................................................... 157
(12)
สารบญภาพประกอบ หนา
รปท� 2.1 การเรยงจดในอกษรเบรลล......................................................................................... 7 รปท� 2.2 กราฟเปรยบเทยบจานวนคร* งท�กดคยเม�อใชขอมลและจานวนแกรมตางๆ................. 20 รปท� 3.1 ขนาดของไฟลท�มการใชคาประเภทตางๆ เปรยบเทยบกบขนาดของไฟลท*งหมด.......................................................................
30
รปท� 3.2 ภาพรวมวธการคดเลอกประโยคท�ตองการจากคลงขอความ BEST........................... 34 รปท� 3.3 ตวอยางประโยคท�คดเลอกจากคลงขอความ BEST.................................................... 36 รปท� 3.4 ประโยคท�แปลงใหอยในรปของอกษรเบรลลภาษาไทย............................................. 36 รปท� 3.5 ข*นตอนการสรางโมเดลอกษรเบรลลภาษาไทย ดวยชดเคร�องมอ CMU-SLM toolkit.........................................................................
37
รปท� 3.6 ตวอยางไฟลโมเดลอกษรเบรลลภาษาไทย................................................................. 38 รปท� 3.7 ภาพรวมโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทย ท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา.............................................................
40
รปท� 3.8 ข*นตอน prepare_ngram_pattern................................................................................ 43 รปท� 3.9 ข*นตอน gen_ngram_pattern...................................................................................... 45 รปท� 3.10 การสรางรปแบบเอนแกรม....................................................................................... 47 รปท� 3.11 ข*นตอนการทางานของฟงกชน select_output.......................................................... 49 รปท� 3.12 ข*นตอนการทางานของฟงกชน ngram_to_word...................................................... 51 รปท� 3.12a กรณท�มการเรยงตวอกขระเหมอนกนท*งหมด........................................................ 53 รปท� 3.12b กรณท�มการเรยงตวอกขระไมเหมอนกนท*งหมด................................................... 54 รปท� 3.13 ข*นตอนการทางานของฟงกชน find_ngram............................................................. 55 รปท� 3.14 ภาพรวมวธการแปลงแบบเทยบคา........................................................................... 57 รปท� 3.15 การทางานของข*นตอน translate_to_thai................................................................. 59 รปท� 3.16 การทางานของฟงกชน match_brl............................................................................ 60 รปท� 3.17 ข*นตอนการทางานของฟงกชน load_ngram_word.................................................. 62 รปท� 3.18 วธการจดเกบขอมลในตวแปรประเภทตางๆ............................................................ 65 รปท� 3.19 ภาพรวมการทางานของ Interpolation......................................................................
66
(13)
สารบญภาพประกอบ (ตอ) หนา
รปท� 3.20 การทางานของฟงกชน calculate_smoothing........................................................... 68 รปท� 3.21 ข*นตอนการสรางรายการคาภาษาไทย...................................................................... 70 รปท� 4.1 ภาพรวมวธการเปรยบเทยบดานความถกตอง............................................................ 74 รปท� 4.2 ภาพรวมวธการทดลองดานปรมาณการใชหนวยความจา........................................... 80 รปท� 4.3 ภาพรวมวธการทดลองเปรยบเทยบเวลาท�ใชในการแปลง......................................... 85 รปท� 5.1 ข*นตอนการสรางรายการคคาภาษาไทยและอกษรเบรลลภาษาไทย........................... 95
(14)
สญลกษณคายอและตวยอ ASCII American Standard Code for Information Interchange BCC Braille Computer Code
BEST Benchmark for Enhancing the Standard of Thai Language processing BRL Braille CMU-SLM The Carnegie Mellon University Statistical Language Modeling
Chr Character G II Braille grade 2 HLT Human Language Technology NECTEC National Electronics and Computer Technology Center SWATH Smart Word Analysis for Thai
(15)
ศพทานกรม
คลงขอมลฝก Training corpus ชองวาง Space ฝกฝนเอนแกรมโมเดล N-gram model Training รปแบบเอนแกรม N-gram pattern สตรง String อารเรย Array อกษรเบรลล Braille character เอนแกรมโมเดล N-gram model
1
บทท� 1
บทนา
1.1 ความสาคญ และท�มาของวทยานพนธ
ในปจจบนมการพฒนาโปรแกรมชวยแปลงอกษรเบรลลภาษาไทยไปเปนภาษาไทยแบบ File-to-file เพ�อชวยอานวยความสะดวกในการส�อสารระหวางผพการทางสายตาและคนสายตาปกต ท* งน* เพราะลกษณะการเขยนอกษรเบรลลภาษาไทยมความแตกตางจากการเขยนภาษาไทยอยพอสมควรกลาวคอ ใชสญลกษณ, ตวเลขอารบคและตวอกษรภาษาองกฤษเพ�อแทนพยญชนะ, สระและวรรณยกตในภาษาไทย (ในท�น* จะกลาวถงเฉพาะการเขยนอกษรเบรลลภาษาไทยระดบ 1 ในรปแบบ Braille Computer Code (BCC) เทาน*น) เชน ใชสญลกษณ “?” เพ�อแทนตวอกษร “พ”, ใชตวเลขอารบค “6” เพ�อแทนสระเอา, ใชตวอกษรภาษาองกฤษ “g” เพ�อแทนตวอกษรภาษาไทย “ก” เปนตน นอกจากน* ลกษณะการเขยนอกษรเบรลลภาษาไทยยงมการเรยงพยญชนะ, สระและวรรณยกตท�แตกตางไปจากลกษณะการเขยนภาษาไทยอกดวย ยกตวอยางเชน คาวา “เพลย” เม�อเขยนใหอยในรปแบบอกษรเบรลลภาษาไทยระดบ 1 จะมการเรยงสระและพยญชนะเปน “พ+ล+สระเอย” และเม�อเขยนในรปแบบ BCC จะได “?+l+(” เปนตน (รายละเอยดการเขยนอกษรเบรลลจะอธบายในหวขอท� 2.1.2 การเขยนอกษรเบรลลภาษาไทยระดบ 1)
นอกจากน* การแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยแบบ File-to-file ยงคงประสบปญหาการหาขอบเขตของคาเชนเดยวกนกบการแปลงภาษาไทยไปเปนภาษาองกฤษ ซ� งปญหาน* มสาเหตมาจากลกษณะการเขยนภาษาไทยท�เขยนอกขระเรยงตดกนไป โดยไมมการเวนวรรคระหวางคา แตจะเวนวรรคเม�อเขยนจบประโยคหรอข*นยอหนาใหมและคาบางคาในภาษาไทยมรปท�พองกนทาใหสามารถอานไดหลายแบบและมความหมายท�แตกตางกนจงกอใหเกดความกากวมข*น และอกษรเบรลลภาษาไทยกมลกษณะการเขยนเชนเดยวกบลกษณะการเขยนของภาษาไทยดวย จงทาใหประสบปญหาการหาขอบเขตของคาเชนเดยวกนกบภาษาไทย โดยกระบวนการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยแบบ File-to-file ท�วไปมกประสบปญหาในการแปลงคาท�เก�ยวของกบคาควบกล*า คาท�มการใชสระประสม และคาท�มการใชอกษรเบรลลสองเซลล (รายละเอยดการเขยนอกษรเบรลลสองเซลลจะอธบายในหวขอท� 2.1.1 อกษรเบรลลภาษาไทย) ซ� งงานวจยเร�อง “การแปลงเบรลลและแอสกภาษาไทยแบบทนททนใด” โดยมหาวทยาลยสงขลานครนทร ได
2
นาเสนอโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file [1] แตยงคงมความผดพลาดในการแปลงท�เก�ยวกบประเภทของคาท�ไดกลาวไวขางตน ตวอยางเชน
การแปลงคาประเภทคาควบกล*าหรอคาท�มการใชสระประสม เชนคาวา “|*gl(}4” (เปนคาวา “ตาเกล*ยง” ท�เขยนอยในรปแบบ BCC ระดบ 1 ) ซ� งโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file เดม จะแปลงเปน “ตากเล* ยง” ท*งน* เพราะคาดงกลาวเม�อเขยนในรปแบบอกษรเบรลลภาษาไทยระดบ 1 จะสามารถอานไดสองแบบคอ “ตาเกล*ยง” และ “ตากเล*ยง” ซ� งโปรแกรมสวนใหญมกถกกาหนดใหแปลงใหไดคาท�มตวอกษรมากท�สด หรอเลอกคาท�มพยางคยาวท�สด จงดงอกษร “g” (“ก”) ไปรวมกบคา “|*” (“ตา”) ซ� งเม�อดงไปรวมแลวทาใหเกดคาวา “ตาก” ซ� งมความหมายในภาษาไทย จงทาใหแปลงออกมาเปนคาวา “ตากเล*ยง” ซ� งแมจะถกตองตามหลกการเขยนไวยากรณอกษรเบรลลและแตละคาคอ “ตาก” และ “เล* ยง” ตางกมความหมายในภาษาไทยดวยกนท*งค แตเม�อนามารวมกนแลวกลบทาใหความหมายโดยรวมผดไป
การแปลงคาท�มการใชอกษรเบรลลสองเซลล เชนคาวา “?rao}u0)r}” (เปนคาวา “พระองคทรง” ท�เขยนอยในรปแบบ BCC ระดบ 1) ซ� งโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file เดม จะแปลงเปน “พระองธรง” ท*งน* เปนเพราะโปรแกรมจะไมทราบวาเปนอกษรเบรลลสองเซลลท�มรปพองกนกบอกษรเบรลลเซลลเดยวสองตวหรอเปนอกษรเบรลลเซลลเดยวสองตวท�เขยนตดกน โดยในกรณท�ยกตวอยางน* ตวอกษร “ธ” เปนอกษรเบรลลสองเซลลท�มรปพองกนกบอกษรเบรลลเซลลเดยวสองตวท�เขยนตดกน ซ� งกคอ “การนต+ท” จงทาใหเกดการแปลงท�ผดพลาดดงกลาว
การแกไขปญหาเหลาน* ไมสามารถกระทาไดโดยกาหนดเง�อนไขเพ�มเตม หากแตตองพจารณาความหมายโดยรวมหรอความถ�ในการใชงาน จากปญหาดงกลาวผวจยจงมแนวคดนาเทคนคเอนแกรมเขามาแกไขปญหา แบบจาลองเอนแกรม (N-Gram model) [2] เปนแบบจาลองท�ใชกระบวนการทางสถตในการคานวณหาคาความถ�หรอคาความนาจะเปนของชดอกขระ (Character sequence) ท�เกดข*นรวมกนเปนคา หรอคาความนาจะเปนของคาท�เขยนเรยงกน (Word sequence) ท�เกดข*นรวมกนเปนประโยค โดยคาความถ�หรอความนาจะเปนสามารถคานวณไดจากการนบจานวนคาท�มอยในคลงขอมลฝก (Training corpus) [13] ซ� งแบบจาลองเอนแกรมน* มงานวจยตางๆ ไดนามาประยกต เชน “การระบคาไทยและคาทบศพทดวยแบบจาลองเอนแกรม” [3] เปนงานวจยท�นาเทคนคของเอนแกรมเขามาชวยระบชนดของภาษา, “การตดคาและกากบหมวดคาภาษาไทยแบบเบดเสรจดวยคอมพวเตอร” [4] เปนงานวจยท�นาเทคนคเอนแกรมเขามาชวยในการตดคาภาษาไทยและระบประเภทของคา, “การประยกตเอนแกรมและเวกเตอรโมเดลสาหรบระบบยอขอความภาษาไทย” [5] เปนงานวจยท�นาเทคนคเอนแกรมเขามาชวยในการยอความภาษาไทย เปนตน ซ� ง
3
งานวจยเหลาน* เปนการนาเอาเทคนคเอนแกรมเขามาประยกตในดานประมวลผลทางภาษาไทยท*งส*น แตยงไมมงานวจยใดเลยท�นาเอาเทคนคเอนแกรมเขามาประยกตกบการประมวลผลอกษรเบรลลภาษาไทย นอกจากน*อกษรเบรลลภาษาไทยมความคลายคลงกนกบภาษาไทยและมปญหาการหาขอบเขตคาเชนเดยวกนกบภาษาไทยอกดวย
ดงน*นผวจยจงมแนวความคดนาเทคนคเอนแกรมเขามาชวยหาขอบเขตของคาอกษรเบรลลภาษาไทย ซ� งจะทาใหทราบขอบเขตท�แนนอนของคาแตละคาจงสงผลใหการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยทาไดงายข* นและถกตองมากย�งข* น อกท* งการนาเทคนคเอนแกรมมาประยกตใชน* ทาใหกระบวนการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยมความซบซอนนอยลงเม�อเปรยบเทยบกบการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคกฎไวยากรณทางภาษาเขามาควบคมการแปลง โดยใหเอนแกรมคานวณหาคาความนาจะเปนของคาท�เกดข*นรวมกนเม�อแปลงอกษรเบรลลภาษาไทยเปนภาษาไทย เพ�อชวยในการระบขอบเขตของคาอกษรเบรลลภาษาไทยวาควรแบงคาออกมาเปนรปแบบไหนจงจะเหมาะสม และมความถกตองมากท�สด
วทยานพนธน* จงมงเนนวจยและพฒนาเพ�อศกษาการนาเทคนคเอนแกรมเขามาประยกตกบการแปลงอกษรเบรลลภาษาไทย เพ�อชวยปรบปรงกระบวนการแปลงอกษรเบรลลภาษาไทยไปเปนภาษาไทยใหถกตองมากย�งข*น โดยมประเดนท�ศกษาดงตอไปน*
1) การนาเทคนคเอนแกรมเขามาประยกตใชรวมกบการแปลงอกษรเบรลลภาษาไทยไป
เปนภาษาไทย จะชวยเพ�มประสทธภาพในการแปลงไดหรอไม โดยเปรยบเทยบกบ
โปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file เดม ซ� งไดนาเสนอไวใน
วทยานพนธเร� อง “การแปลงเบรลลและแอสกภาษาไทยแบบทนททนใด” ซ� งเปน
โปรแกรมท�ไดมการพฒนามากอนหนาน*แลว
2) การหาคาของจานวนแกรมท�เหมาะสม เพ�อหาคาของจานวนแกรมท�ใหผลลพธในการแบงคาท�ดท�สดโดยเปรยบเทยบระหวาง 3-แกรม, 4-แกรม และ 5-แกรม โดยใชวธพจารณาจากความถกตองของการแปลง ซ� งจะตองถกตองตามหลกไวยากรณของอกษรเบรลลและเม�อนาไปแปลงใหเปนภาษาไทยแลวจะตองถกตองตามหลกไวยากรณของภาษาไทยดวย และดานปรมาณการใชหนวยความจาในการแปลงและดานเวลาท�ใชในการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยมาประกอบกน
4
1.2 วตถประสงค 1) ศกษาและพฒนาการนาเอนแกรมเขามาชวยการแบงคาอกษรเบรลลและแปลงอกษรเบรลล
ภาษาไทยไปเปนภาษาไทยท�เก�ยวของกบ คาควบกล*า, คาท�มการใชสระประสม และคาท�ม
การใชอกษรเบรลลสองเซลลและคาทบศพท
2) เพ�อทดสอบและเปรยบเทยบความถกตองการแปลงอกษรเบรลลภาษาไทยไปเปนภาษาไทย
ระหวางโปรแกรมแปลงอกษรเบรลลภาษาไทยไปเปนภาษาไทยท�ใชเทคนคเอนแกรมเขา
มาชวยตดสนใจดานการแบงคาและการแปลงอกษรอกษรเบรลลท�ไดเสนอไวใน
วทยานพนธน* กบโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file เดมท�ไดม
การพฒนามากอนหนาน*
3) เพ�อศกษาจานวนแกรมท�เหมาะสมสาหรบใชแบงคาอกษรเบรลลภาษาไทยโดยพจารณา
เปรยบเทยบจากดานความถกตองของการแปลง, ดานปรมาณการใชหนวยความจาในการ
แปลงและดานเวลาท�ใชในการแปลง
1.3 ขอบเขตของการวจย 1) ศกษา วเคราะห ออกแบบและพฒนาโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทย
ท�ใชเทคนคเอนแกรมเขามาชวยตดสนใจดานการแบงคาและการแปลงอกษรเบรลล
2) โปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวย
ตดสนใจดานการแบงคาและการแปลงอกษรเบรลลท�ไดนาเสนอไวในวทยานพนธน* เนน
ในดานการแกไขปญหาการแปลงอกษรเบรลลภาษาไทยท� เก� ยวของกบ การแปลง
คาควบกล*า, การแปลงคาท�มการใชสระประสม, การแปลงคาท�มการใชอกษรเบรลลสอง
เซลลและการแปลงคาท�มการใชคาทบศพท
3) เปรยบเทยบประสทธภาพระหวางโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-
file เดมกบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขา
มาชวยตดสนใจดานการแบงคาและการแปลงอกษรเบรลลในดานความถกตองของการ
แปลง, ดานปรมาณการใชหนวยความจาและดานเวลาท�ใชในการแปลง
4) เปรยบเทยบจานวนแกรมท�เหมาะสมสาหรบใชแบงคาอกษรเบรลลภาษาไทยโดยพจารณา
จากดานความถกตองของการแปลง, ดานปรมาณการใชหนวยความจาในการแปลงและ
5
ดานเวลาท�ใชในการแปลงและเปรยบเทยบระหวางจานวนแกรม 3-แกรม, 4-แกรม และ
5-แกรม
5) โปรแกรมท�พฒนาข*นมาน*ครอบคลมเฉพาะการแปลงอกษรเบรลลภาษาไทยระดบ 1
1.4 ข&นตอนการวจยและวธการวจย
1) ศกษางานวจยท�เก�ยวของกบเอนแกรมโมเดลและเทคนคการประมาณคาความนาจะเปน
2) ศกษางานวจยท�เก�ยวของกบการประยกตเอนแกรมโมเดลและเทคนคการตดคา
3) ศกษางานวจยท�เก�ยวของกบคลงขอมลและเทคนคการฝกฝนเอนแกรมโมเดล
4) ออกแบบและพฒนาโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนค
เอนแกรมเขามาชวยในการตดคา
5) ออกแบบและพฒนาการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยแบบวธจบคคา หลงจาก
ใชเทคนคเอนแกรมโมเดลชวยในการตดคาอกษรเบรลลภาษาไทยแลว
6) ทดสอบเปรยบเทยบประสทธภาพระหวางโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ
File-to-file เดม กบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนค
เอนแกรมเขามาชวยในการตดคาท�ไดนาเสนอไวในวทยานพนธฉบบน* ในดานความ
ถกตองของการแปลง, ดานปรมาณการใชหนวยความจาและดานเวลาท�ใชในการแปลง
7) ทดสอบเปรยบเทยบหาจานวนแกรมท�เหมาะสมของโปรแกรมแปลงอกษรเบรลลภาษาไทย
เปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคาท�ไดนาเสนอไวในวทยานพนธ
ฉบบน* เม�อใชจานวนแกรมเทากบ 3-แกรม, 4-แกรม และ 5-แกรม
8) ตรวจสอบรายละเอยดความถกตองของโปรแกรมท�ไดพฒนา
9) รวบรวมผลการทดสอบ สรปผล จดทาวทยานพนธฉบบสมบรณ
1.5 ประโยชนท�คาดวาจะไดรบ 1) ชวยแกไขปญหาในการแปลงอกษรเบรลลภาษาไทยท�เก�ยวของกบการแปลงคาควบกล* า,
การแปลงคาท�มการใชสระประสม, การแปลงคาท�มการใชอกษรเบรลลสองเซลลและการ
แปลงคาท�มการใชคาทบศพท
2) ชวยแกไขปญหาการหาขอบเขตคาของอกษรเบรลลภาษาไทยระดบ 1
6
ในบทท� 2 จะกลาวถงทฤษฎและหลกการท�เก�ยวของ ในบทท� 3 จะกลาวถงการออกแบบและพฒนาระบบ ในบทท� 4 จะกลาวถงผลการทดลอง และในบทท� 5 จะกลาวถงสรปผลการวจยและขอเสนอแนะ
7
บทท� 2
ทฤษฎและหลกการท�เก�ยวของ
ในบทน*จะนาเสนอทฤษฎและหลกการท�เก�ยวของ ซ� งประกอบดวย อกษรเบรลล, โปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file, เทคนคการตดคา, คลงขอมลภาษา, เอนแกรมโมเดล, Smoothing Technique, CMU-SLM Toolkit และโปรแกรมแปลงภาษาไทยไปเปนอกษรเบรลล (Thai2brl)
2.1 อกษรเบรลล
หลยส เบรลล (Louis Braille) ครตาบอดชาวฝร�งเศส ไดประดษฐอกษรสาหรบคนตาบอดข*นในป ค.ศ.1834 [29] โดยประกอบดวยจดนน 6 จด ใน 1 ชอง โดยแบงเปน 2 แถวในแนวต*ง แถวละ 3 จด ซ� งสามารถจดกลมของจดไดถง 63 รปแบบ และไดแพรหลายไปท�วโลก จนมผดดแปลงนาไปใชในกลมประเทศท�ใชอกษรโรมนเปนหลกท�วยโรป จากน*นในป ค.ศ.1932 ประเทศองกฤษและสหรฐอเมรกา ไดรวมมอกนจดทามาตรฐานอกษรเบรลลภาษาองกฤษ (English Braille Standard) ข*นในป ค.ศ.1932 ตอมามการพฒนาใหเปน 8 จด [35] เพ�อใหสอดคลองกบรหสอกษรในระบบคอมพวเตอร โดยเพ�มจดสองจดลงไปในแตละคอลมนของอกษรเบรลลเดม ดงรปท� 2.1
รปท� 2.1 การเรยงจดในอกษรเบรลล
อกษรเบรลลภาษาองกฤษ ถอวาเปนอกษรเบรลลสากลท�ใชกนท�วโลก และแตละประเทศ
นามาดดแปลง ปรบปรงแกไข เพ�อนาไปใชในประเทศของตนเองเพ�อใชส�อสารระหวางคนตาบอดดวยกนรวมท*งประเทศไทยดวย โดยนอกเหนอจากการเขยนเปนอกษรแทนพยญชนะหรอสระในภาษาตางๆ แลว ยงสามารถเขยนแทนสญลกษณตางๆ เชน คณตศาสตร, วทยาศาสตร, ดนตร และเคร�องหมายตางๆ ไดอกดวยดวย โดยเรยกการอาน-เขยนอกษรเบรลลแบบปกตวา “อกษรเบรลล
6
4 5
3
1 2 3
1 2
6
4 5
7 8
8
ระดบ 1” และเรยกการอาน-เขยนอกษรเบรลลแบบยอคาวา “อกษรเบรลลระดบ 2” ซ� งท*งอกษรเบรลลภาษาองกฤษและอกษรเบรลลภาษาไทยกมการอาน-เขยนในแบบระดบ 2 ดวย
2.1.1 อกษรเบรลลภาษาไทย
นางสาวเจเนวฟ คอลฟลด (Miss Gevevive Caulfield) สภาพสตรตาบอดชาวอเมรกน เปนคนแรกท�นาความรเก�ยวกบอกษรเบรลลมาเผยแพรในประเทศไทย [29] พรอมกบจดต*งโรงเรยนสอนคนตาบอดกรงเทพข*นเม�อป พ.ศ.2482 และไดรวมกบชาวไทยคณะหน�งจดต*ง มลนธชวยคนตาบอดแหงประเทศไทย และกาหนดอกษรเบรลลภาษาไทย โดยดดแปลงมาจากอกษรเบรลลองกฤษมาตรฐาน ซ� งผวจยไดแสดงรปแบบอกษรเบรลลภาษาไทยไวในตารางท� 11 ในภาคผนวก ง
อกษรเบรลลภาษาไทย ถกกาหนดโดยการเลยนเสยงเทยบกบอกษรภาษาองกฤษ เชน ‘ก’ จะมรปแบบอกษรเบรลลเหมอนอกษร ‘g’ ในภาษาองกฤษ คอ จด 1-2-4-5 (g) เปนตน และผพการทางสายตาเรยกขอมลท� เกบอยในรปอกษรรหสแอสกภาษาองกฤษ ท�มรปแบบอกษรเบรลลเหมอนกบขอความภาษาไทยวา ขอมล “Braille Computer Code”
เน�องจากอกษรเบรลลแบบ 6 จด สามารถแสดงรปแบบท�แตกตางกนไดเพยง 63 รปแบบ ซ� งไมเพยงพอท�จะใชแทนอกษรภาษาไทยไดท*งหมด จงไดมการกาหนด อกษรเบรลลแบบสองเซลลข*น โดยพยญชนะภาษาไทยซ�งมท*งส*น 44 ตว เม�อเทยบเสยงเหมอนกนแลวจะม 28 เสยง โดยกาหนดให พยญชนะท�ใชกนมากท�สดเปนพยญชนะพ*นฐาน และกาหนดรปอกษรเบรลลเปนแบบหน�งเซลล สวนพยญชนะท�มเสยงเหมอนกนกบพยญชนะพ*นฐานใหใช อกษรเบรลลแบบ 2 เซลล โดยมเซลลหลงเหมอนกบพยญชนะพ*นฐาน และมเซลลหนาเปน จด 6 (, ,) หรอ จด 3-6 (- -) หรอ จด 3-5-6 (0 0) ซ� งผวจยไดรวบรวมพยญชนะภาษาไทยท�มรปอกษรเบรลลแบบ 2 เซลลแสดงไวในตารางท� 2.1
ตารางท� 2.1 พยญชนะภาษาไทยท�มรปอกษรเบรลลแบบ 2 เซลล
เซลลหนา ตวอกษร
, (, ) ศ(,s ), ฆ(,u ), ฌ (,+ ), ฬ(,l ), ณ(,n ), ฑ(,) ), ญ(,y ), ฎ(,d ), ฏ(,| ), ฐ
(,t ), ภ(,? )
- (- ) ษ(-s ), ฅ(-u ), ฒ(-) )
อ (0) ธ(0) ), ฃ(0k )
9
สระในภาษาไทยกาหนดรปอกษรเบรลลตามเสยงสระ 32 เสยง โดยมการใชงานรหสอกษรสระประสมซ� งไมมในอกษรรหสแอสกดวย โดยผวจยไดแสดงรปสระประสมของอกษรเบรลลท*งหมดไวในตารางท� 2.2 ซ� งจะเหนไดวามการใชงานสระประสมแบบ 2 เซลลดวย โดยมการกาหนดอกษรเบรลลใหกบสระพ*นฐานทกตว และกาหนดใหใชอกษรเบรลลสองเซลลแทนสระเสยงส* นท�มรปสระเสยงยาว เชน สระเอะ, สระแอะ โดยใชสระอะตอทายรปสระเสยงยาว เชน สระเอะ (fa fa) จะเขยนอยในรปสระเอ (f f) และสระอะ (a a) ตอกนเปนตน
นอกจากพยญชนะท�มรปอกษรเบรลลแบบ 2 เซลลแลว ยงมการใชสระและเคร�องหมายท�ใชรปอกษรเบรลล 2 เซลลดวย โดยผวจยไดแสดงเคร�องหมายท�มรปอกษรเบรลลแบบ 2 เซลลไวในตารางท� 2.3
ตารางท� 2.2 รปอกษรเบรลลของสระประสม
สระ รปอกษรเบรลล Braille Computer Code อว e e
อวะ ea ea เอา 6 6 เอย ( ( เออ q q เออ % % เอะ fa fa (เ-ะ) แอะ <a <a (แ-ะ) โอะ ia ia (โ-ะ) เอยะ (a (a (เอย-ะ) เออะ qa qa (เออ-ะ) เออะ %a %a (เออ-ะ) เอาะ oa oa (อ-ะ)
10
ตารางท� 2.3 สระและเคร�องหมายท�มรปอกษรเบรลลแบบ 2 เซลล แอสก รปอกษรเบรลล Braille Computer Code
ใ :1 :1 (ไๆ) ฤ r1 r1 (รๆ) ฤๅ r1* r1* (รๆา) ฦ l1 l1 (ลๆ) ฦๅ l1* l1* (ลๆา) ฯ ;2 ;2
ฯลฯ ;l ;l
2.1.2 หลกการอานเขยนอกษรเบรลลภาษาไทยระดบ 1
หลกการอาน-เขยนอกษรเบรลลภาษาไทยระดบ 1 [33] [34] สามารถสรปกฎเปนขอๆ ได ดงน*
ขอ 1: คาท�ไมประกอบดวยสระประสม วางรปคาเหมอนกบการเขยนปกตตามหลกภาษาศาสตร
พยญชนะตน+สระ+วรรณยกต+ตวสะกด เชน ล*น ���� ล + อ + อ + น lb4n lb4n
ขอ 2: สระตอไปน*จะเขยนหลงพยญชนะเสมอ ไดแก อะ, อา, อ, อ, อ, ออ, อ, อ, เอะ, แอะ, โอะ, เอาะ, ออ, อวะ, อว, เอยะ, เอย, เออะ, เออ, เออะ, เออ, อา, เอา และเม�อคาท�ใชสระเหลาน* มรปวรรณยกตประสมอยดวยจะตองเขยนหลงสระ ยกเวน สระอา กบ สระ ออ ใหเขยนรปวรรณยกตกอนสระ
พยญชนะตน+สระ+วรรณยกต+ตวสะกด เชน เรยน ���� ร + เอย + น r(n r(n
ขอ 3: คาท�เขยนเหมอนกนในรป สระเอ + สระอา ท�ออกเสยง ไดท*งสระอาและสระเอาใหใชเปนสระเอา พยญชนะ + สระเอา + วรรณยกต
เชน เพลา ���� พ + ล + เอา ?l6 ?l6
ขอ 4: คาท�มสระ เอ แอ โอ ไอ ใอ ในอกษรเบรลลใหเขยนเรยงตามปกตเชนเดยวกบการเขยนภาษาไทย
11
สระ + พยญชนะ + ตวสะกด + วรรณยกต เชน ไหล ���� ไ + ห + ล + อ :hl4 :hl4
จากหลกการอาน-เขยนอกษรเบรลลภาษาไทยระดบ 1 จะเหนไดวาอกษรเบรลล และอกษรในรหสแอสก ไมสามารถท�จะเทยบกนไดแบบตวตอตว โดยกรณท�ไมสามารถเทยบขอมลไดแบบตวตอตวไดแก
• การใชอกษรเบรลล 2 เซลลแทนอกษรในรหสแอสก 1 ตว โดยมการใชงานอกษร
เบรลลแบบ 2 เซลลท*งพยญชนะ สระ และเคร�องหมายในภาษาไทย
• การใชงานอกษรเบรลล 1 เซลลเพ�อแทนอกษรในรหสแอสกหลายตวในการใชงาน
สระประสม
• การอาน-เขยนคาท�ใช สระอะ หรอสระอา รวมกบวรรณยกต มการเรยงอกษรรหส
แอสก และอกษรเบรลลแตกตางกน โดยอกษรเบรลลจะเขยนเปน พยญชนะตน + สระ
+ วรรณยกต แต ในรหสแอสก จะเขยนเปน พยญชนะตน + วรรณยกต + สระ เชน
“จะ” (จ-อ-ะ) เขยนอกษรเบรลลเปน “ja7 ” (จ-ะ-อ) “ค*า” (ค-อ-อา) เขยนอกษร
เบรลลเปน “u4z ” (ค-อา-อ)
• อกษรเบรลลมการใชสระประสม แตไมมในอกษรรหสแอสก ทาใหมการเรยงอกษร
แตกตางกน และเน�องจากการเขยนขอความภาษาไทยไมมการเวนวรรคระหวางคา จง
ทาใหมความกากวมเกดข*นวา คาๆ น*นจะเปนคาท�ใชสระประสมหรอคาหลายคาตอ
กนดงน*
� คาท�ใชสระเออและสระเออะท�มพยญชนะตน 1 ตว เชนคาวา “เลอะ” เม�อเขยนเปนอกษรเบรลลจะเขยนเปนสระประสมไดเปน “l%a ” (“ล-เออะ”) แตคาวา “ทะเลอะไร” (“ทะเล”-“อะไร”) ซ� งพองรปกบคาวา “ทะ-เลอะ-ไร” เม�อเขยนเปนอกษรเบรลลจะเขยนเปน “)afloa:r ” (“ท-ะ-เ-ล-อ-ะ-ไ-ร”) ไมใช “)a l%a:r ” (“ท-ะ-ล-เออะ-ไ-ร”)
� คาท�ใชพยญชนะตน 2 ตว เชนคาวา “เจรญ” เขยนแบบอกษรเบรลลเปน “jr%,y ” (“จ-ร-เออ-ญ”) ไมใช “fjrb,y ” (“เ-จ-ร-อ-ญ”) คาวา “เกอชา” เขยนแบบอกษรเบรลลเปน “fgob+ *” (“เ-ก-อ-อ-ช-า”) ไมใช “go%+a” (“ก-อ-เออ-ช-า”) และไมใช “g%b+*” (“ก-เออ-อ-ช-า”) คาวา
12
“เทมอ” เขยนแบบอกษรเบรลลเปน “f)m5o ” (“เ-ท-ม-อ-อ”) ไมใช “)m%” (“ท-ม-เออ”) เปนตน
การเขยนอกษรเบรลลจะใชงานสระประสม ซ� งตางจากการเขยนในภาษาไทยปกต และเปน
ปญหาสาคญในการแปลงขอมลระหวางไทยและเบรลล โดยในปจจบนมการใชงานอกษรเบรลลภาษาไทย โดยใชการอาน-เขยนอกษรเบรลลแบบระดบ 1 แตไมใชสระประสมและผพการทางสายตาเรยกการอาน-เขยนเชนน*อยางไมเปนทางการวา “อกษรเบรลลภาษาไทยระดบ 0”
นอกเหนอจากอกษรเบรลลแบบ 6 จด แลว ยงไดมการกาหนดรปแบบของอกษรเบรลลภาษาไทยแบบ 8 จดข*น [35] เพ�อใหใหสอดคลองกบระบบคอมพวเตอรท�วไปดวย โดยกาหนดใหสามารถเทยบอกขระภาษาไทยแบบปกตและอกษรเบรลลแบบ 8 จดไดแบบตวตอตว โดยผวจยไดแสดงรปแบบอกษรเบรลลภาษาไทยท*งแบบ 6 จด และ 8 จดไวในตารางท� 11-12 ในภาคผนวก ง
2.2 โปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file ของมหาวทยาลยสงขลานครนทร
โปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file [1] ไดนาเสนอไวในงานวจยเร�อง “การแปลงเบรลลและแอสกภาษาไทยแบบทนททนใด” ของมหาวทยาลยสงขลานครนทร ซ� งโปรแกรมดงกลาวทาหนาท�แปลงอกษรเบรลลภาษาไทยเปนภาษาไทยในรปแบบ File-to-file โดยกระบวนการทางานของโปรแกรมน* ไดใชวธการแปลงแบบใชกฎไวยากรณทางภาษาของอกษรเบรลลภาษาไทยมาควบคมการแปลง ซ� งสามารถใหผลลพธในการแปลงท�ถกตองในระดบหน�ง
จากการศกษางานวจยน* พบวายงคงมปญหาในการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยอยดวยกน 2 ประการคอ 1) ปญหาการแปลงคาควบกล*าและสระประสม ซ� งปญหาน* เกดจากการตอคาทาใหเกดความกากวมของคาข*น เชน คาวา “เครอ” เขยนอยในรปแบบอกษรเบรลลภาษาไทยระดบ 1 เปน “urq” ซ� งกคอ “ค+ร+เออ” แตเน�องจากคาวา “rq” หรอ “ร+เออ” เปนคาท�มความหมายวา “เรอ” กเปนคาท�มความหมายในภาษาไทยเชนกน และอกษรเบรลล ‘u’ ซ� งกคออกษร “ค” ในภาษาไทยของวา “เครอ” อาจจะเปนตวควบกล*าของคาปจจบนหรอเปนตวสะกดของคากอนหนากได
และ 2) ปญหาการแปลงคาท�มการใชอกษรเบรลลสองเซลล ซ� งปญหาน* เกดจากมอกษรเบรลลสองเซลลบางตวท�มรปพองกนกบการเขยนอกษรเบรลลเซลลเดยวสองตวเขยนตดกน ซ� งปญหาน* โปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file เดม ยงคงมการแปลงท�ผดพลาดอยเน�องจาก การแปลงแบบ File-to-file น*นโปรแกรมเดมจะไมสามารถทราบไดวาตรงไหนเปนอกษรเบรลลสองเซลลหน�งตวหรอเปนอกษรเบรลลเซลลเดยวสองตวท�เขยนตดกน ซ� ง
13
จะแตกตางกบกรณของโปรแกรมการแปลงเบรลลและแอสกภาษาไทยแบบทนททนใด [1] ท�สามารถแกไขปญหาเหลาน* ไดโดยใชวธใหผใชกดคยพเศษกอนจะปอนอกษรเบรลลสองเซลลและการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยแบบ File-to-file น*นผใชจะไมสามารถโตตอบกบโปรแกรมเพ�อระบวาตรงไหนเปนอกษรเบรลลสองเซลลได ยกตวอยางเชนคาวา “พระองคทรง” เขยนในรปแบบอกษรเบรลลภาษาไทยระดบ 1 คอ “?rao}u0)r}” ซ� งกคอ “พ+ร+ะ+อ+ง+ค+การนต+ท+ร+ง” โดยอกษรเบรลลเซลลเดยวสองตวท�เขยนตดกนแลวมรปพองกนกบอกษรเบรลลสองเซลลในท�น* คอ ‘0+)’ ซ� งกคออกษร ‘การนต+ท’ โดยมรปพองกนกบอกษรเบรลลสองเซลลคออกษร ‘0)’ ซ� งกคออกษร ‘ธ’ เม�อโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file เดมทาการแปลงจะไดเปนคาวา “พระองคธรง” เพราะโปรแกรมเดมจะไมทราบวาเปนอกษรเบรลลสองเซลลหน�งตวหรออกษรเบรลลเซลลเดยวสองตว ดงสาเหตท�ไดกลาวไวแลวในขางตน
ดงน*นงานวจยน* จงไดมงเนนแกไขปญหาท*งสองประการท�ไดกลาวไวในขางตนโดยใชเทคนคเอนแกรมเขามาชวยในการแบงคา เพ�อชวยใหโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยทราบขอบเขตของคาแตละคาอยางชดเจน ทาใหไมมความกากวมท�เกดข*นจากการตอคาและความกากวมท�เกดจากการไมทราบวาเปนอกษรเบรลลสองเซลลหน�งตวหรอเปนอกษรเบรลลเซลลเดยวสองตว
2.3 เทคนคการตดคา เทคนคการตดคา [6] ไดถกนามาใชในงานดานประมวลผลภาษาธรรมชาต [7] เพ�อทาให
คอมพวเตอรสามารถเขาใจความหมายของคาในภาษาน*นๆ ไดและเน�องจากภาษาบางภาษา เชน ภาษาไทย, ภาษาจน, ภาษาญ�ปน ภาษาลาว เปนตน มลกษณะการเขยนประโยคท�ประกอบไปดวยคายอยๆ หลายคาเรยงตดกนโดยไมมการเวนชองวางระหวางคาเหมอนกบภาษาองกฤษทาใหเกดปญหา “การหาขอบเขตของคา” เม�อตองการนาขอมลเหลาน*นไปประมวลผลดวยคอมพวเตอร ซ� งคอมพวเตอรไมสามารถทราบไดวาในประโยคน*นๆ ประกอบดวยคาก�คา และแตละคาประกอบดวยตวอกษรอะไรบาง จงจาเปนตองตดคาเสยกอน กอนท�จะนาไปประมวลผลตอ เพ�อแบงขอบเขตของคาแตละคาอยางชดเจน
อกษรเบรลลภาษาไทยมลกษณะการเขยนเชนเดยวกนกบภาษาไทยคอ เขยนคาแตละคาตดๆ กนเปนประโยค และเวนวรรคระหวางประโยค แตจะเรยงตวอกษรนา ตวอกษรตาม สระ ตวสะกด และวรรณยกตท�แตกตางไปจากภาษาไทย จากความคลายคลงดงกลาวทาใหผวจยมแนวความคดวาหากใชเทคนคการตดคาเขามาชวยแบงคาอกษรเบรลลภาษาไทย เพ�อใหทราบขอบเขตของคาท�ชดเจนแลว จะทาใหไมเกดความกากวมข*นอกตอไปและทาใหการแปลงอกษร
14
เบรลลภาษาไทยเปนภาษาไทยทาไดงายข*นและถกตองมากย�งข*นอกดวย นอกจากน* ยงไมมงานวจยใดๆ เลยท�นาวธการตดคามาใชกบอกษรเบรลลภาษาไทย ซ� งในปจจบนมเพยงงานวจยท�เก�ยวของกบการตดคาภาษาไทยเทาน*น และจากการศกษาพบวาเทคนคการตดคาน*นมดวยกนหลายเทคนค [8][9][10][11] ซ� งสามารถแบงเปนประเภทตางๆ ไดดงน* 1) เทคนคการตดคาโดยใชกฎพ*นฐาน 2) เทคนคการตดคาโดยใชพจนานกรม 3) เทคนคการตดคาโดยวธเทยบคาท�ยาวท�สด 4) เทคนคการตดคาโดยวธตดคาใหไดจานวนคาและคาท�ไมพบในพจนานกรมนอยท�สด 5) เทคนคการตดคาโดยใชคลงขอมล ซ� งรายละเอยดของแตละเทคนคมดงตอไปน*
2.3.1 เทคนคการตดคาโดยใชกฎพ&นฐาน เทคนคการตดคาโดยใชกฎพ*นฐาน [8] เปนการตดคาโดยอาศยกฎท�ไดต*งเอาไวมาใชเปน
เกณฑในการแบงขอบเขตของคา โดยกฎท�นามาใชน*นไดนามาจากหลกไวยากรณภาษาไทย ซ� งลกษณะของกฎสามารถแบงไดเปน 2 ชนดคอ กฎการหาขอบเขตหนา (Front boundary recognition rule) และกฎการหาขอบเขตหลง (Tail boundary recognition rule) และในแตละกฎยงแบงออกเปน 2 กลมยอยๆ คอ แบงตามคณสมบตของตวอกษรโดยกฎท�ไดน* จะจดอยในกลมเอ (Group A) และแบงตามคณสมบตของรปแบบการใชสระแตละตว ซ� งกฎท�ไดน* จะแบงใหอยในกลมบ (Group B) ตวอยางกฎกลมเอ เชน
ตวอยางกฎท�ไดจากคณสมบตของอกษรในการหาขอบเขตหนาของพยางค เชน
• กฎ A – 1F : สระตางๆ เหลาน* ะ า ◌ ◌ ◌ ◌ ◌ ◌ ◌ ◌า ◌ ◌ และ
วรรณยกต ◌ ◌ ◌ ◌ จะตองมพยญชนะอยขางหนาอยางนอย 1 ตวอกษรเสมอ
• กฎ A – 2F : สระ เ แ ไ โ สวนใหญจะเปนตวอกษรแรกในพยางคเสมอ ยกเวนคาบางคา
ตวอยางเชน ขโมย,ทแยง,จเร,สไบ เปนตน
• กฎ A – 3F : สระ ใ จะเปนตวอกษรแรกของพยางคเสมอ โดยไมมขอยกเวน
ตวอยางกฎท�ไดจากคณสมบตของอกษรในการหาขอบเขตหลงของพยางค เชน
• กฎ A – 1T : พยญชนะตอไปน* ศ ณ ญ ฐ ฎ ฏ ฒ ฬ ฌ จะเปนตวสะกดเสมอ ยกเวน
พยางคดงตอไปน* ศก ศร ศพ ฐก ฬส ญวน ณรงค ศตวรรษ และพยางคอ�นๆ แต
พยางคเหลาน*นสามารถจดการไดโดยใชกฎ A – 1F
• กฎ A – 2T : สระ ◌ จะตวมสะกดหน�งตวเสมอ ยกเวน พยางคเหลาน* “ ร พ ฮ ”
• กฎ A – 3T : ไมหนอากาศ ( ◌ ) จะตองตามดวยตวสะกดอยางนอย 1 ตวอกษรเสมอ
15
จากตวอยางกฎท�แสดงขางตนจะเหนไดวาการหาขอบเขตของพยางคสามารถจะนาคณสมบตของตวอกษรตางๆ มาสรางเปนกฎเพ�อใชในการแบงพยางคได นอกจากน* มการสรางกฎท�ใชในการแบงพยางค โดยกฎท�ไดจะพจารณาจากคณสมบตของรปแบบการใชสระแตละตวหรอกฎกลมบ ซ� งจะพจารณาจากลกษณะของพยางคในภาษาไทย โดยลกษณะของพยางคในภาษาไทยน*นจะมรปแบบท�แนนอนและตายตว ทาใหงานวจยน* มการสรางกฎตางๆ โดยอางองจากรปแบบของพยางคตางๆ ท�ปรากฏในภาษาไทย ตวอยางกฎกลมบ เชน
ตวอยางกฎท�ไดจากคณสมบตของรปแบบการใชสระใชในการหาขอบเขตหลงของพยางค เชน
• กฎ B – 1T : สระเหลาน* “ ◌ ◌ ◌ ◌ ” ถามวรรณยกต แลวจะตองมตวสะกด 1 ตว
เสมอ
• กฎ B – 4T : สระในรปแบบดงตอไปน* −◌ ว -◌ ย -◌ ว ะ -◌ อ เ - า เ - า ะ เ - ะ แ - ะ
โ – ะ เ –◌ ยะ เ - อ ะ ไมตองการตวสะกด ยกเวนบางพยางคในรปแบบดงน* เ -า - และ
เ - อ- โดยเคร�องหมาย - แทนตวพยญชนะ 1 ตวอกษร
และในงานวจยท�ใชเทคนคการตดคาโดยใชกฎพ*นฐานมการสรางกฎสาหรบการกากบพยางคท�ไมใชลกษณะของพยางคภาษาไทย ซ� งพยางคเหลาน*นอาจประกอบไปดวย อกขระพเศษ ตวเลข คายอ หรอ อกขระจากภาษาตางชาต จากการทดลองความถกตองในการตดพยางค [8] ไดนากฎเกณฑเหลาน*ทดลองกบเอกสารตางๆ จานวน 100 เลม โดยเอกสารน*นไดนามาจากเอกสารชนดตางๆ จานวน 10 ชนด เชน หนงสอพมพ ปรชญา วทยาศาสตร ศาสนา ภาษาศาสตร ฯลฯ และจากการทดสอบปรากฏวาสามารถตดพยางคไดถกตองถง 96%
2.3.2 เทคนคการตดคาโดยใชพจนานกรม เทคนคการตดคาโดยใชพจนานกรม [9][10] เปนวธการตดคาท�นามาใชกนตอมา วธการน*
จาเปนตองเกบขอมลของพจนานกรมท*งหมดไวในหนวยความจา ความถกตองในการตดคาจะข*นอยกบจานวนคาในพจนานกรม และความเรวในการทางานข*นอยกบวธท�ใชในการคนหาคาจากพจนานกรม และโครงสรางขอมลพจนานกรม
หลกการตดคาโดยใชพจนานกรมน* สามารถตดคาไดถกตองมากกวาการใชกฎพ*นฐาน ซ� งวธการตดคาโดยใชพจนานกรมน* ท�มการใชงานอยางแพรหลาย คอ วธการเทยบคาท�ยาวท�สด (Longest Matching) และวธการตดคาใหไดจานวนคาและคาท�ไมพบในพจนานกรมนอยท�สด (Maximal Matching)
16
2.3.2.1 เทคนคการตดคาโดยวธเทยบคาท�ยาวท�สด (Longest Matching) เทคนคการตดคาโดยวธเทยบคาท�ยาวท�สด [9] เปนการตดพยางคท�นาพจนานกรมเขามาใช
โดยจะจดเกบพยางคตางๆ ไวในพจนานกรม และนากฎไวยากรณตางๆ จานวน 18 กฎเขามาชวยในกรณท�ไมพบพยางคในพจนานกรม
หลกการทางานของวธตดพยางคดวยพจนานกรมน* กคอ ตรวจสอบสายอกขระ (String) ท�เขามาจากซายไปขวากบพยางคท�ไดเกบไวในพจนานกรม ในกรณท�ตรวจสอบแลวปรากฏวาพบพยางคมากกวา 1 พยางคในพจนานกรม ใหทาการเลอกแบงพยางคโดยเลอกพยางคท�ยาวท�สด แลวทาตอไปเร�อยๆ จนจบสายอกขระ แตในกรณท�เลอกพยางคท�ยาวท�สดแลว ทาใหเกดพยางคท�ไมปรากฏในพจนานกรมใหใชวธการยอนรอย (Back Tracking) กลบไปเลอกพยางคท�ยาวรองลงมาแทน
จากการเปรยบเทยบความรวดเรวในการแบงพยางคกบเทคนคการแบงพยางคแบบใชกฎพ*นฐาน ซ� งสรปผลไดวาเม�อนาพจนานกรมเขามาใชในการแบงพยางคจะสามารถตดพยางคไดรวดเรวกวาการใชกฎ โดยท�ความถกตองของการตดพยางคน*นสามารถตดไดถกตองมากกวา 99% [9] แตวธการน*กยงมขอเสยคอ ตองใชเน*อท�หนวยความจาเปนจานวนมากในการจดเกบรายการคาในพจนานกรม และความถกตองของการแบงพยางคจะข*นอยกบจานวนคาท�มอยในพจนานกรมและความรวดเรวในการคนหารายการคาในพจนานกรมท�เกบไวในหนวยความจา
2.3.2.2 เทคนคการตดคาโดยว ธตดคา ใ หไ ด จานวนคาและคาท� ไ มพบในพจนานกรมนอยท�สด (Maximal Matching)
เทคนคการตดคาโดยวธตดคาใหไดจานวนคาและคาท�ไมพบในพจนานกรมนอยท�สด [10] เปนเทคนคท�ลดขอดอยของวธการตดคาโดยใชพจนานกรม ซ� งจากการศกษาวจยพบวาหากประโยคหรอขอความมคาท�ไมมอยในพจนานกรมแลว จะทาใหความถกตองในการตดคาลดลงโดยมาก ซ� งสาเหตน*นมาจากการตดคาโดยอาศยพจนานกรมน* ความถกตองจะข*นอยกบจานวนคาท�มอยในพจนานกรม ดงน*นเทคนคการตดคาโดยวธตดคาใหไดจานวนคาและคาท�ไมพบในพจนานกรมนอยท�สดจงเปนวธแกไขขอดอยเม�อไมมคาน*นๆ อยในพจนานกรม ซ� งวธการตดคาแบบน* เปนการหารปแบบในการตดคาท*งหมดท�สามารถจะเปนไปได เชน เม�อมขอความวา "ไปหามเหส" เม�อใชวธการน*จะสามารถสรางรปแบบในการตดคาได 2 แบบ คอ
1. ไป|หาม|เห|ส 2. ไป|หา|มเหส
17
จากน*นวธการน* จะเลอกขอความท�แบงแลวมจานวนคานอยท�สดคอ แบบท� 2 ซ� งมจานวนคาท�ตดได 3 คา ในขณะท�แบบท� 1 ม 4 คา แตในกรณท�แบงคาออกมาแลวมจานวนคาท�เทากน จะใชเทคนคการตดคาแบบยาวท�สด (Longest Matching) เขามาชวยตดคา เชน ขอความวา "ฉนน�งตากลมท�หนาบาน" เม�อใชวธการน*จะสามารถสรางรปแบบในการตดคาได 2 แบบ คอ
1. ฉน|น�ง|ตาก|ลม|ท�|หนา|บาน 2. ฉน|น�ง|ตา|กลม|ท�|หนา|บาน แตท*ง 2 แบบน* มจานวนคาท�เทากน ในกรณน* จงควรใชวธการตดคาแบบยาวท�สด (Longest
Matching) เขามาชวยจะทาใหผลลพธในการตดคาประโยคดงกลาวเปนแบบท� 1 เพราะเม�อเปรยบเทยบจากคาท�ตดไดตางกนน*น (ตา / ตาก) จะเหนไดวา “ตาก” มตวอกษรมากกวาจงเลอกแบบท� 1
2.3.3 เทคนคการตดคาโดยใชคลงขอมล เทคนคการตดคาโดยใชคลงขอมล [11] เปนเทคนคท�นาเอาวธการทางสถตเขามาชวยใน
การแกไขปญหาความกากวม โดยใชคาสถตท�เกดข* นจากลาดบของหนาท�ของคาแตละคาหรอประเภทยอยของคาแตละคา หรออาจกลาวไดวาเปนการนาเอาไวยากรณมาใชงานรวมกบสถตเพ�อแกปญหาความกากวม โดยงานวจยน* ใชแบบจาลองไตรแกรมและนาเอาคาสถตซ� งพจารณาจากความตอเน�องของหนาท�ของคาหรอประเภทยอยของคา และเลอกเอาประโยคท�มความนาจะเปนสงท�สดโดยการหาความนาจะเปนของแตละประโยคสามารถคานวณตามสมการท� 1
����� = ∑ ����, ���
= ∑ ∏ �� �| ���, ���� × ����| ���� ……………….. (1) จากสมการท� 1 จะเปนสตรสาหรบการคานวณหาคาความนาจะเปนของแตละประโยคท�ตด
ได โดยใชวธตดคาใหไดจานวนคาและคาท�ไมพบในพจนานกรมนอยท�สด (Maximal Matching) จากน*นนาแตละรปแบบของประโยคท�ตดไดมาคานวณหาคาความนาจะเปน โดยพจารณาจากผลรวมความนาจะเปนของหนาท�ของคา (Ti) หรอประเภทยอยของคา (Wi) ทกแบบท�เปนไปไดของแตละประโยค และมขอกาหนดวาความนาจะเปนของการเกดหนาท�คาหรอประเภทยอยของคาท�ตาแหนงปจจบนจะข*นอยกบหนาท�ของคา หรอประเภทยอยของคาสองคากอนหนาเทาน*น ทาใหวธการน* เหมาะสาหรบงานท�ตองการทราบขอบเขตคาเพยงอยางเดยวเทาน*น ซ� งวธน*สามารถแกไขปญหาความกากวมไดด เน�องจากมการพจารณาถงหนาท�ของคาหรอประเภทยอยของคาเขามาประกอบดวย
18
อยางไรกตามในกรณท�ขอความมความกากวมโดยมหนาท�ของคาหรอประเภทยอยของคาเหมอนกน วธการน* จะไมสามารถตดคาไดดนกและขอจากดอกประการหน� งคอจะตองเกบคาสถตจากคลงขอความ โดยท�คลงขอความท�ดควรจะนามาจากเอกสารหลายๆ ประเภท และจะตองมขนาดใหญพอสมควร
ดงน*นประสทธภาพในการตดคาแบบน* จะข*นอยกบคลงขอความดวย ความถกตองสงสดสาหรบวธการน* คอ 85% และวธน* ยงคงเปนวธการท�นยมใชมากท�สด เน�องจากความแมนยาสงและใชอลกอรทมในการพฒนาโปรแกรมทาไดงายท�สด
จากวธการตดคาโดยใชเทคนคตางๆ ท�ไดศกษามาพบวาวธการตดคาโดยใชคลงขอมลสามารถตดคาไดถกตองมากท�สดและมขอดอยนอยท�สด ดงน*นในงานวทยานพนธน* จงไดเลอกใชวธการตดคาโดยใชคลงขอมล ซ� งจะอยในรปแบบการตดคาของอกษรเบรลลภาษาไทยระดบ 1
2.4 คลงขอมลภาษา คลงขอมลภาษา [12] คอ ขอมลภาษาเขยนหรอภาษาพดท�เปนภาษาท�ใชจรง ซ� งถกรวบรวม
ข*นมาในปรมาณท�มากเพยงพอตามเง�อนไขท�กาหนดเพ�อใหไดคลงขอมลท�เปนตวแทนของภาษาท�ตองการ คลงขอมลภาษาจะถกนาไปใชงานในดานภาษาศาสตร การสรางแบบจาลองภาษา รวมถงการประมวลผลภาษาธรรมชาตอกดวย เชน นาไปใชในการสรางพจนานกรม นาขอมลดานสถตของคาไปสรางเปนแบบจาลองเพ�อนามาใชในงานประมวลผลภาษาธรรมชาตดวยคอมพวเตอร
จากการศกษาพบวาคลงขอมลภาษาสามารถแบงไดเปน 2 ประเภทหลกๆ ดวยกนคอ คลงคา และคลงขอความ โดยงานวจยในวทยานพนธน*จะนาเอาคลงขอความอกษรเบรลลภาษาไทยมาใชในการสรางไฟลโมเดลอกษรเบรลลภาษาไทยเพ�อใหเอนแกรมโมเดลคานวณคาความนาจะเปนของคาท�เกดข*นรวมกนตามหลกการสรางไฟลโมเดลภาษา (การสรางไฟลโมเดลอกษรเบรลลภาษาไทยจะอธบายในหวขอท� 3.3.2) แตในปจจบนยงไมมการสรางคลงขอความอกษรเบรลลภาษาไทย มเพยงแตคลงขอความภาษาไทยเทาน*น
ดงน*นในงานวทยานพนธน* จงไดนาเอาคลงขอความภาษาไทยมาประยกตในการสรางโมเดลอกษรเบรลลภาษาไทย โดยไดเลอกคลงขอความ BEST [13] ซ� งเปนคลงขอความภาษาไทยนามาแปลงใหอยในรปแบบของอกษรเบรลลภาษาไทยระดบ 1 เสยกอนจงจะสามารถนาไปสรางโมเดลอกษรเบรลลภาษาไทยได
คลงขอความ BEST เปนคลงขอความภาษาไทยท�มการเกบรวบรวมคาอยางเปนระบบและมขนาดใหญท�สดในปจจบน ซ� งพฒนาโดยหนวยปฏบตการวจยวทยาการมนษยภาษา (Human
19
Language Technology: HLT) ศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต (National Electronics and Computer Technology Center: NECTEC) ซ� งมรายละเอยดดงน*
ศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาตสรางคลงขอความภาษาไทยแบบแบงคา “BEST 2009” โดยนางานเขยนท�มลกษณะตางๆ 3 ประเภทมารวบรวมไวเพ�อใหเปนตวแทนของภาษาไทยท�ใชกนโดยท�วไปในปจจบน ไดแก ขอความจากหนงสอประเภทนวนยายในฐานะเปนตวแทนของภาษาพดท�วไป ขอความจากเวบไซต www.midnightuniv.org [14] และขอความจากสารานกรมสาหรบเยาวชนไทยในฐานะเปนตวแทนของภาษาเขยนอยางเปนทางการ และขอความจากหนงสอพมพบนอนเตอรเนตในฐานะเปนตวแทนของภาษาขาว ขอความในเอกสารตางๆ เหลาน* ไดถกนามาวเคราะหเพ�อกาหนดขอบเขตของคา โดยอาศยหลกการทางภาษาศาสตร โดยคานงถงการประมวลผลดวยคอมพวเตอรรวมดวย ท*งน* ไมมการแกไขดดแปลงเน*อหาสาระของผลงานตนฉบบแตอยางใด ซ� งคลงขอความ BEST มรายละเอยดดงตอไปน*
o ช�อไฟล : ขอมลในคลงขอความจะกาหนดข*นตามประเภทของภาษา ดงน*
• ภาษาพดท�วไปจะเกบอยในไฟลช�อ novel-000xx.txt
• ภาษาเขยนอยางเปนทางการจะเกบอยในไฟลช�อ encyclopedia-000xx.txt และ
miduniv-000xx.txt
• ภาษาขาวจะเกบอยในไฟลช�อ news-000xx.txt
o ขนาด : คลงขอความมขนาดประมาณ 5,600,000 คา โดยนบจากเคร�องหมายกาหนด
ขอบเขตของคา “|” ซ� งคาในท�น* รวมถงเคร�องหมายวรรคตอน นพจนระบนาม (Named-
entity) และอกษรยอดวย ท*งน* จะแบงคลงขอความเปน 7 ชด คอชดฝกฝน 6 ชด
ประมาณ 5,000,000 คา และชดทดสอบ 2 ชด ประมาณ 600,000 คา โดยแตละชดม
จานวนคาดงตอไปน*
• ชดฝกฝนท� 1 ประมาณ 500,000 คา (สรางข*นในเดอน กรกฎาคม 2551)
• ชดฝกฝนท� 2 ประมาณ 5000,000 คา (สรางข*นในเดอน สงหาคม 2551)
• ชดฝกฝนท� 3 ประมาณ 1,000,000 คา (สรางข*นในเดอน กนยายน 2551)
• ชดฝกฝนท� 4 ประมาณ 1,000,000 คา (สรางข*นในเดอน ตลาคม 2551)
• ชดฝกฝนท� 5 ประมาณ 1,000,000 คา (สรางข*นในเดอน พฤศจกายน 2551)
• ชดฝกฝนท� 6 ประมาณ 1,000,000 คา (สรางข*นในเดอน ธนวาคม 2551)
20
• ชดทดสอบชดท� 1 ประมาณ 100,000 คา (สรางข*นในเดอน มกราคม 2552)
• ชดทดสอบชดท� 2 ประมาณ 500,000 คา (สรางข*นในเดอน กมภาพนธ 2552)
o Metadata: ไฟลขอมลท*งหมดเปนขอความลวนท�ไมมการกากบ metadata เพ�อความ
สะดวกในการใชงาน
o ยอหนาและประโยค: ขอความในไฟลแบงยอยท�ระดบยอหนาตามตนฉบบเดม โดยไม
กากบเคร�องหมายแสดงยอหนาและไมกากบของเขตของประโยค
o รหสอกขระ: UTF-8
o เคร�องหมายกาหนดขอบเขตคา: | ในตาแหนงทายของคา
o เคร�องหมายกาหนดนพจนระบนาม (Named-entity) : <NE>…</NE>
o เคร�องหมายกาหนดอกษรยอ: <AB>…</AB>
o เคร�องหมายกาหนดขอความท�เปนรอยกรอง: <POEM>…</POEM>
จากขอดตางๆ ของคลงขอมล BEST เชน ถกออกแบบมาใหสามารถนาไปใชประมวลผลดวยคอมพวเตอรได มความนาเช�อถอในการตดคา ไดรบอนญาตใหสามารถนาไปใชงานในดานการศกษาวจยได จงเปนคลงขอความท�เหมาะสมท�จะนามาประยกตใชงาน ในงานวจยน*
และจากการศกษางานวจยการใชจานวนแกรมตางๆ และขนาดของคลงขอความในการฝกฝนเอนแกรมโมเดลท�แตกตางกนเพ�อชวยในการคาดเดาคาศพท [15] พบวาเม�อเพ�มขนาดของขอมลท�ใชฝกฝนเอนแกรมโมเดลจะสามารถชวยลดการกดคยเพ�อพมพคาแตละคาลงได ดงแสดงในรปท� 2.2
รปท� 2.2 กราฟเปรยบเทยบจานวนคร* งท�กดคยเม�อใชขอมลและจานวนแกรมตางๆ [15]
21
Lesher และคณะ [15] ไดทดลองเพ�อเปรยบเทยบประสทธภาพของจานวนของเอนแกรมเม�อใชจานวนแกรมเทากบ 1-gram, 2-gram และ 3-gram โดยในแตละแกรมใชขอมลขนาดตางๆ ต*งแต 100,000 – 3,000,000 คาในการฝกฝนเอนแกรมโมเดล และใชเอนแกรมโมเดลเหลาน* รวมกนกบโปรแกรมชวยพมพเพ�อใหเอนแกรมโมเดลคาดเดาคาท�จะพมพ โดยผลการทดสอบเปรยบเทยบพบวาเม�อใชขนาดของขอมลในการฝกฝนเอนแกรมโมเดลเพ�มข*นทาใหสามารถคาดเดาคาท�จะพมพไดถกตองมากย�งข*น ซ� งจะชวยลดจานวนคาท�ตองพมพดวยตนเองลงได และการใชจานวนแกรมเทากบ 3-gram จะใหผลลพธในการคาดเดาคาไดดท�สด
ดงน*นงานวจยน* จงนาเอาคลงขอความ BEST ซ� งเปนคลงขอความท�มขนาดใหญท�สดในปจจบนมาประยกตใชงาน แตจะคดเลอกเฉพาะประโยคท�มการใชคาควบกล*า, สระประสม, อกษรเบรลลสองเซลลและคาทบศพทเทาน*น ท*งน* เพราะโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file เดม สามารถแปลงประโยคท�วๆ ไปไดถกตองอยแลวและวทยานพนธน* ไดมงเนนท�จะแกไขปญหาท�เก�ยวของกบการแปลงคาควบกล* า, สระประสมและอกษรเบรลลสองเซลลเทาน*น และในหวขอท� 3.3.1 จะกลาวถงวธคดเลอกประโยคท�ตองการจากคลงขอมล BEST
2.5 เอนแกรมโมเดล เอนแกรมโมเดล (N-gram model) [2] คอ แบบจาลองท�ใชคานวณคาความนาจะเปนของชด
อกขระ (character sequence) ท�เกดข*นรวมกนเปนคา หรอคาความนาจะเปนของคาท�เขยนเรยงกน (word sequence) ท�เกดข*นรวมกนเปนประโยค โดยคาความนาจะเปนของชดอกขระหรอคา คานวณไดจากคลงขอมลท�สรางไว
Gram คอ หนวยท�ใชในการสรางแบบจาลองอาจจะเปนเสยง คา หรออกขระกไดและแกรมมไดหลายขนาดแลวแตจะกาหนด ต*งแต 1 จนถง N โดย N เปนจานวนนบต*งแต 1, 2, 3 ..., n
2.5.1 หลกการทางานของ N-gram model เม�อมกลมของอกขระท�เขยนเรยงตดกน ท�เกดข*นรวมกนเปนคา S = (c1 … cn) หรอกลม
ของคาท�เขยนเรยงตดกน ท�เกดข*นรวมกนเปนประโยค W = (w1 ... wn) ให N-gram model คานวณคาความนาจะเปนของการเกดชดของอกขระหรอคาใดๆ ท�เกดข*นรวมกน โดยการพจารณาจากอกขระหรอคากอนหนา ตวอยางเชน
การประมาณคาดวย 3- Gram (Probability trigram) คอ การประมาณคาความนาจะเปนของชดอกขระท�เกดข*นรวมกนเปนคา มคาเทากบผลคณของความนาจะเปนท�จะพบอกขระ(คา) ทละ 3 ตว(คา) ตดกนในชดอกขระน*น เชน ประโยค “ฉนกนขาว” ความนาจะเปนท�คาวา “ฉน”, “กน” และ
22
“ขาว” เขยนเรยงตดกนแลวเกดข*นรวมกนเปนประโยค = P(ขาว|กน,ฉน) หากเขยนใหอยในรปท�วไปจะมสมการคานวณคาความนาจะเปนดงสมการท� 2 และ 3 คาความนาจะเปนท�จะเกดคาหรออกขระ xi โดยมชดของคาหรอชดอกขระ xi-n,…,xi-3,xi-2,xi-1 นาหนา = P(xi| xi-1,xi-2,xi-3,…,xi-n) ………………………….. (2)
ซ� ง P(xi| xi-1,xi-2,xi-3,…,xi-n) = c(xi-n,…,xi-3,xi-2,xi-1,xi)/c(xi-1,xi-2,xi-3,…,xi-n) ……………………..(3) โดยท� c(xi-n,…,xi-3,xi-2,xi-1,xi) คอจานวนคร* งใน Training Corpus ท�เกด xi รวมกบ xi-n,…,xi-3,xi-2,xi-1 c(xi-1,xi-2,xi-3,…,xi-n) คอจานวนคร* งท�เกด xi-n,…,xi-3,xi-2,xi-1 ใน Training Corpus
แตในความเปนจรงแลวเปนไปไมไดท�จะบรรจคาทกๆ คาหรอรปแบบคาทกๆ รปแบบท�
เกดข*นลงในคลงขอมลฝกไดท*งหมด ดงน*นจงตองปรบปรงใหคาความนาจะเปนแกคาหรอชดของอกขระ ท�ไมมอยในคลงขอมล
ฝก ซ� งเรยกการเพ�มคาความนาจะเปนใหกบคาท�ไมพบน*วาการ Smoothing [17] ท*งน* เพ�อปองกนปญหาการหารดวยศนย แมวาในความเปนจรงแลวจะไมมคาน*นๆ อยกตาม
งานวจยในวทยานพนธน* จะนาแบบจาลองภาษาอกษรเบรลลภาษาไทยเขามาชวยในการตดสนเลอกคาท�ไดจากการแปลงอกษรเบรลลไปเปนภาษาไทย โดยใชวธการคานวณหาคาความนาจะเปนของคาท�เกดข*นรวมกน และเน�องจากหลกไวยากรณของอกษรเบรลล จะไมเหมอนกบหลกไวยากรณของภาษาไทยจงไมสามารถนาเอาแบบจาลองเอนแกรมของภาษาไทยมาใชได จงจาเปนตองสรางแบบจาลองเอนแกรมของอกษรเบรลลภาษาไทยข*นมาใหม
2.6 Smoothing Techniques Smoothing techniques [17] คอ เทคนคการประมาณคาความนาจะเปนใหกบคาหรอชดของ
คาท�ไมมอยหรอไมพบในคลงขอความ ซ� งเทคนคน* อาศยวธการประมาณคาทางสถตในการคานวณหาคาความนาจะเปนของคาท�ไมพบในคลงขอความ และเทคนคน* เปนกระบวนการท�จาเปนสาหรบงานดานสถต อกท*งเปนการปองกนปญหาการหารดวยศนยอกดวย นอกจากน* แลวจากขอจากดของคลงขอความท�ไมสามารถจดเกบคาและคของคาท*งหมดท�เกดข*นจรงไวในคลงขอมลไดท*งหมดทาใหคาบางคาหรอคของคาบางคาอาจไมมอยในคลงขอมล โดยจะขอยกตวอยางสมการการคานวณคาความนาจะเปนของคาเม�อใชจานวนแกรมเทากบ 2 (bigram) ดงสมการท� 4
23
P(w2|w1) = C(w1w2)/C(w1) ………………….…… (4)
จากสมการท� 4 หมายความวา คาความนาจะเปนท�คา w2 เกดข*นกตอเม�อมคา w1 เขยนนาหนา เทากบจานวนคาของ w1w2 ซ� งเขยนเรยงตดกนท�เกดข*นรวมกนในคลงขอมลฝก ( C(w1w2) ) หารดวยจานวนคา w1 ท�พบในคลงขอมลฝก ( C(w1) )
เม�อพจารณาสมการท� 4 แลวพบวาหากคา w1 ไมพบในคลงขอมลจะทาใหคาของจานวนคา w1 เทากบศนย ( C(w1) = 0 ) และเม�อคานวณคาความนาจะเปนท�คา w2 เกดข*นกตอเม�อมคา w1 เขยนนาหนา ( P(w2|w1) ) จะทาใหไมสามารถคานวณคาความนาจะเปนได ทาใหเกดปญหาการหารดวยศนย [22] หรออกกรณหน�งคอคของคา w1w2 ไมพบในคลงขอมลทาใหคาของจานวนคาของ w1w2 ซ� งเขยนเรยงตดกนเทากบศนย ( C(w1w2) = 0 ) และเม�อคานวณคาความนาจะเปนท�คา w2 เกดข*นกตอเม�อมคา w1 เขยนนาหนา ( P(w2|w1) ) จะทาใหไดคาความนาจะเปนเทากบศนย ซ� งในความเปนจรงแลวอาจจะเปนไปไดวามโอกาสท�คา w1 และ w2 เกดข*นรวมกน ซ� งกรณน* จะใหผลลพธในการคานวณท�ผดพลาดออกมา
ดงน*นเพ�อปองกนปญหาดงกลาวจงไดมการนาเสนอเทคนควธการท�เรยกวา smoothing เขามาเพ�อปองกนปญหาดงกลาว และจากการศกษาพบวาวธการ smoothing มอยดวยกนหลายวธ [17] เชน Baseline Smoothing, Additive Smoothing, Katz Smoothing, Church-Gale Smoothing, Jelinek-Mercer Smoothing และ Novel Smoothing
จากการศกษาพบวาการประมาณคาดวยวธ Jelinek-Mercer Smoothing (Interpolation) จะใหผลลพธดท�สดเม�อเปรยบเทยบกบวธอ�นๆ [17] ซ� งการทดสอบเปรยบเทยบไดสรางเอนแกรมโมเดล โดยใชจานวนแกรมเทากบสองแกรม (Bigram) และสามแกรม (Trigram) และใชคลงขอมล TIPSTER, Brown และ Wall Street Journal ในการฝกฝนเอนแกรมโมเดลและแบงการฝกฝน เอนแกรมโมเดลออกเปนสองชดดวยกนคอ ชดแรกฝกฝนเอนแกรมโมเดลดวยขอมลขนาดประมาณ 50,000 ประโยค ชดท�สองฝกฝนเอนแกรมโมเดลดวยขอมลขนาดประมาณ 10,000,000 ประโยค และวดคาความนาจะเปนเม�อใชเทคนคการ Smoothing แบบตางๆ โดยเปรยบเทยบความเบ�ยงเบนจากเสนฐาน (Difference in test cross-entropy from baseline)
จากผลการทดลองดงกลาวสามารถสรปไดวาเทคนคการ Smoothing แบบ Jelinek-Mercer Smoothing (interpolation) จะใหผลลพธท�ดท�สดเพราะมความเบ�ยงเบนจากเสนฐานนอยท�สด ซ� งหมายถงเทคนคน*สามารถประมาณคาความนาจะเปนไดใกลเคยงกบคาความนาจะเปนท�คานวณไดจรงๆ ตามสมการท� 2 โดยวธ Jelinek-Mercer Smoothing (Interpolation) มสมการในการประมาณคาความนาจะเปนดงแสดงในสมการท� 5
24
( ) ( ) ( )1i2niiinterpw
1i1niiMLw
1i1niiinterp w|wP)1(w|wPw|wP 1i
1ni1i
1ni
−
+−
−
+−
−
+− −+−
−+−
−+= λλ …..…(5)
โดยท� ( )1i1niiML w|wP −
+− = C( 1i1niw −
+− iw ) / C( 1i1niw −
+− )
และจากงานวจยของ Bahl และคณะ [17] แนะนาใหกาหนดคาของ ( )( ) |0wC:W|
wCλ
1i1nii
1i1ni
W 1i1ni >=
−
+−
−
+−−+−
ดงน* นในงานวจยท�นาเสนอน* ไดเลอกใชเทคนคการประมาณคาแบบ Jelinek-Mercer Smoothing (Interpolation) เพ�อใชคานวณคาความนาจะเปนใหกบคาหรอคของคาท�เกดข*นรวมกน (อยในรปแบบของอกษรเบรลลภาษาไทยระดบ 1) ซ� งไมไดปรากฏอยในคลงขอมลและนอกจากน*แลวชดเคร�องมอ CMU-SLM toolkit [21] ท�นามาใชในงานวจยน* มความสามารถในการคานวณคาความนาจะเปนโดยใชเทคนคการ Smoothing แบบ Jelinek-Mercer Smoothing (Interpolation) อกดวย
2.7 CMU-SLM Toolkit ชดเคร�องมอ CMU-SLM Toolkit [20] เปนชดเคร�องมอท�ใชในการสรางโมเดลภาษา
(Language model) หรอเรยกวา “การฝกฝนเอนแกรมโมเดล” โดยชดเคร�องมอน* ไดรบการพฒนาโดยมหาวทยาลย Carnegie Mellon โดยในงานวจยท�นาเสนอน* ไดเลอกใชเคร�องมอ CMU-SLM Toolkit เพ�อชวยอานวยความสะดวกในการสรางโมเดลภาษาของอกษรเบรลลภาษาไทยระดบ 1 เน�องจากมการใชงานกนอยางแพรหลาย ชดเคร�องมอน* มการเผยแพรเปนสาธารณะ มคมออธบายการใชงานชดเจน ทาใหใชงานไดงาย และเปนชดเคร�องมอท�ครบถวนสมบรณ โดยในชดเคร�องมอน* จะประกอบดวยโปรแกรมยอยจานวนหลายโปรแกรมดวยกนเชน text2wfreq, wfreq2vocab, text2wngram, text2idngram, ngram2mgram, wngram2idngram, idngram2stats, mergeidngram, idngram2lm, binlm2arpa, evallm, interpolate เปนตน
สาหรบในวทยานพนธน* ไดใชเฉพาะโปรแกรมยอยบางตวเทาน*นในการสรางโมเดลภาษา ซ� งมดงตอไปน*
1. โปรแกรม text2wfreq จะทาหนาท�สรางรายการคาท�มอยในไฟลท�ผใชไดนามาฝกฝน
เอนแกรมโมเดลท*งหมด พรอมท*งนบความถ�ของแตละคา
2. โปรแกรม text2wfreq จะทาหนาท�สรางรายการของคา (Vocabulary) ท*งหมดท�มอยใน
ไฟลท�ผใชนามาฝกฝนเอนแกรมโมเดล
25
3. โปรแกรม text2idngram ทาหนาท�สรางไบนารไฟลท�เกบวามคาในไฟลท�ผใชนามา
ฝกฝนเอนแกรมโมเดล คาๆ น*นจะสามารถเกดข*นรวมกบคาใดไดบางและไมสามารถ
เกดรวมกบคาใดไดบางโดยเกบอยในลกษณะเปนดชน (index) วาเกดข*นรวมกบคาอ�น
ไดหรอไม โดยแทนคาดวย 1 หากสามารถเกดข*นรวมกนไดและในกรณท�ไมสามารถ
เกดข*นรวมกนไดจะแทนคาดวย 0
4. โปรแกรม idngram2lm ทาหนาท�สรางไฟลโมเดลภาษา ซ� งเปนไฟลท�จะนาไปใชงาน
ตอไป โดยตวอยางไฟลโมเดลภาษาจะแสดงไวในรปท� 3.6 ในหวขอ 3.3.1 วธการ
ฝกฝนเอนแกรมโมเดล
เม�อใชโปรแกรมยอยเหลาน* แลวกจะไดผลลพธออกมาเปนไฟลโมเดลภาษา ซ� งข* นอยกบขอความท�ผใชในนามาใชในการสรางโมเดลภาษาวาเปนภาษาอะไร จากน*นผวจยจะนาเอาไฟลโมเดลภาษาน* มาใชกบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนค เอนแกรมเขามาชวยในการตดคาตามท�ไดออกแบบไว ซ� งจะอธบายใน บทท� 3 การออกแบบและพฒนาระบบ
2.8 โปรแกรมแปลงภาษาไทยไปเปนอกษรเบรลล ของมหาวทยาลยสงขลานครนทร โปรแกรมแปลงภาษาไทยไปเปนอกษรเบรลล (Thai2brl) [1] ไดนาเสนอไวในงานวจยเร�อง
“การแปลงเบรลลและแอสกภาษาไทยแบบทนททนใด” ของมหาวทยาลยสงขลานครนทร เชนเดยวกนกบโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file ท�ไดนามาเปรยบเทยบประสทธภาพกบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคาซ� งไดนาเสนอไวในวทยานพนธฉบบน* โดยโปรแกรมดงกลาวทาหนาท�แปลงภาษาไทยไปเปนอกษรเบรลลภาษาไทยในรปแบบ File-to-file ซ� งกระบวนการทางานของโปรแกรมน* ไดใชวธการแปลงแบบใชกฎไวยากรณทางภาษาของภาษาไทยและอกษรเบรลลภาษาไทยเขามาควบคมการแปลง โดยใหผลลพธในการแปลงท�ถกตองในระดบหน�ง
ซ� งในงานวจยน* ไดนาโปรแกรมดงกลาวมาใชเพ�อแปลงขอความภาษาไทยใหเปนขอความอกษรเบรลลภาษาไทยระดบ 1 เพ�อนาไปใชงานตอไป โดยไดนามาใชในข*นตอนตางๆ ดงน*
1. ใชแปลงประโยคภาษาไทยท�ไดคดเลอกมาจากคลงขอความ BEST ใหเปนประโยค
อกษรเบรลลภาษาไทยระดบ 1 เพ�อนาไปสรางโมเดลอกษรเบรลลภาษาไทยตอไป
26
(รายละเอยดการคดเลอกประโยคท�ตองการจากคลงขอความ BEST จะอธบายใน
หวขอ 3.3.1 และวธการสรางโมเดลอกษรเบรลลภาษาไทยจะอธบายในหวขอ 3.3.2)
2. ใชแปลงชดขอมลทดสอบใหอยในรปของอกษรเบรลลภาษาไทยระดบ 1 เพ�อนาไป
ทดสอบเปรยบเทยบประสทธภาพในดานตางๆ ระหวางโปรแกรมแปลงเบรลลเปน
แอสกภาษาไทยแบบ File-to-file (วธการเดม) กบโปรแกรมแปลงอกษรเบรลล
ภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา (วธการใหม) ซ� ง
ไดนาเสนอไวในวทยานพนธฉบบน* (รายระเอยดของชดขอมลทดสอบจะอธบายใน
หวขอ 4.1.3, 4.2.3 และ 4.3.3)
3. ใชแปลงรายการคาภาษาไทยใหอยในรปแบบของอกษรเบรลลภาษาไทยระดบ 1 เพ�อ
นาไปใชในข*นตอน Translate_to_thai เน�องจากเอนแกรมโมเดลไมสามารถนาไป
ประยกตดานการแปลงใหเปนภาษาไทยได จงตองมข*นตอนดงกลาวเพ�อทาหนาท�
แปลงประโยคอกษรเบรลลภาษาไทยท�ตดคาแลวโดยใชเทคนคเอนแกรมใหอยในรป
ของประโยคภาษาไทย และโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-
file (วธการเดม) ใหเอาทพทเปนประโยคภาษาไทยจงตองมข*นตอนดงกลาวเพ�อแปลง
ใหเอาทพทเปนประโยคภาษาไทยเชนกน เพ�อใหสามารถเปรยบเทยบกนไดโดยตรง
(รายละเอยดของข*นตอน Translate_to_thai จะอธบายในหวขอ 3.6.4 และรายการคา
ภาษาไทยและรายการคาอกษรเบรลลภาษาไทยจะอธบายในหวขอ 3.9)
แตท*งน* เน�องจากโปรแกรมแปลงภาษาไทยไปเปนอกษรเบรลลดงกลาว ยงคงมการแปลงท�ผดพลาดอยบางเน�องจากการใชกฎไวยากรณทางภาษาของภาษาไทยและอกษรเบรลลภาษาไทยเขามาควบคมการแปลง ซ� งผวจยไดพยายามคนหาคาท�แปลงผดและแกไขใหถกตองใหมากท�สดเทาท�จะเปนไปได โดยไดรวบรวมรายการคาดงกลาวไวในตารางท� 8 ในภาคผนวก ค
27
บทท� 3
การออกแบบและการพฒนาระบบ
ในบทน*จะกลาวถงรายละเอยดของปญหาการแปลงอกษรเบรลลภาษาไทยระดบ 1 ไปเปนภาษาไทย, ข*นตอนการสรางไฟลโมเดลภาษาและเคร�องมอท�ใช เพ�อนาไปใชงานรวมกบโปรแกรมท�ไดนาเสนอและหลกการทางานของโปรแกรมท�ไดนาเสนอในวทยานพนธน* ซ� งประกอบไปดวย 1) การวเคราะหปญหาการแปลงอกษรเบรลลภาษาไทยไปเปนภาษาไทยในปจจบน 2) แนวคดในการแกไขปญหาในงานวจย 3) การสรางไฟลโมเดลอกษรเบรลลภาษาไทย 4) ภาพรวมของโปรแกรมท�นาเสนอ 5) อนพตและเอาทพทของโปรแกรมท�นาเสนอ 6) โปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคาซ� งไดนาเสนอไวในวทยานพนธฉบบน* 7) เอนแกรมโมเดล 8) Smoothing Techniques และ 9) รายการคาอกษรเบรลลภาษาไทยและรายคาภาษาไทย
3.1 การวเคราะหปญหาการแปลงอกษรเบรลลภาษาไทยไปเปนภาษาไทยในปจจบน
ในการเขยนอกษรเบรลลภาษาไทยระดบ 1 น*นมความคลายคลงกบการเขยนภาษาไทยอยมาก เชน การเขยนคาแตละคาตดๆ กนเปนประโยคและการเวนวรรคประโยคเปนชวงๆ และไมมการแบงขอบเขตของคาแตละคาอยางชดเจนเหมอนกบภาษาองกฤษ แตกมความแตกตางกนในดานของหลกไวยากรณอยพอสมควรและไมสามารถแปลโดยเทยบตวอกษรแบบตวตอตวได
ดงน*นจงจาเปนตองอาศยซอฟตแวรแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยเขามาชวย เพ�อเปนตวกลางในการส�อสารกนระหวางผพการทางสายตากบคนปกต ซ� งซอฟตแวรสาหรบการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ไดมการพฒนามากอนหนาน* ไดใชหลกการแปลงท�แตกตางกน เชน การแปลงโดยอาศยการเปรยบเทยบแบบคาตอคา การแปลงโดยอาศยกฎไวยากรณทางภาษา การแปลงโดยอาศยการเทยบแบบตวอกษรเบรลลกบอกษรไทยแบบตอตวตามรปแบบการเขยนภาษาไทยโดยท�วไปท�เรยกอยางไมเปนทางการวา “การเขยนอกษรเบรลลภาษาไทยระดบ 0” ซ� งไมใชมาตรฐานในการส�อสารโดยปกตระหวางกนของผพการทางสายตา แตเพ�อใหส�อสารกบคนสายตาปกตได
ในการพฒนาโปรแกรมแปลงอกษรเบรลลมกใชการแปลงโดยอาศยกฎไวยากรณทางภาษา ซ� งไดรบความนยมนามาใชมากท�สด เน�องจากสามารถใชกฎไวยากรณทางภาษาเปนเง�อนไขในการ
28
เขยนโปรแกรมไดเลยและไมจาเปนตองใชองคประกอบอ�นๆ เชน ฐานขอมลคา คลงขอมลคา หรอเคร�องมอพเศษอ�นๆ
แตการแปลงโดยใชกฎไวยากรณทางภาษาน*นมความซบซอนในการเขยนเง�อนไขการแปลงใหครอบคลมกรณการแปลงท*งหมดและมกจะมปญหาท�เกดข* นจากการตอคา เชน คาวา “เครอ” เขยนอยในรปแบบอกษรเบรลลภาษาไทยระดบ 1 เปน “urq” ซ� งกคอ “ค+ร+เออ” แตเน�องจากคาวา “rq” หรอ “ร+เออ” เปนคาท�มความหมายวา “เรอ” กเปนคาท�มความหมายในภาษาไทยเชนกน และอกษรเบรลล ‘u’ ซ� งกคออกษร “ค” ในภาษาไทยของวา “เครอ” อาจจะเปนตวควบกล*าของคาปจจบนหรอเปนตวสะกดของคากอนหนากได เชนวลท�วา “ไททานคเรอท�ไมมวนจม” (อกษร “ค” เปนตวสะกดของคากอนหนา) หรอประโยค “กลวยเครอน*ผลมขนาดใหญ” (อกษร “ค” เปนตวควบกล*าของคาปจจบน) ซ� งปญหาการตอคาเหลาน*โดยท�วไปแลวจะเกดข*นกบเฉพาะคาควบกล* าและคาท�มการใชสระประสม เพราะอกษรนาของคาๆ น*นอาจจะเปนตวควบกล* าของคาปจจบนหรอเปนตวสะกดของคากอนหนากได ซ� งปจจบนปญหาน* ยงคงเปนสาเหตหลกท�โปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�มการพฒนามากอนหนาน* ยงคงมการแปลงท�ผดพลาดอย
ปญหาการแปลงอกประการหน� งท�สาคญคอ การแปลงคาท�มการใชอกษรเบรลลสองเซลล ซ� งปญหาน* เกดจากการท�มอกษรเบรลลสองเซลลบางตวท�มรปพองกนกบการเขยนอกษรเบรลลเซลลเดยวสองตวตดกน โดยอกษรเบรลลสองเซลลท�มปญหาในการแปลงดงกลาวแสดงดงตารางท� 3.1
ตารางท� 3.1 อกษรเบรลลสองเซลลท�มรปพองกนกบอกษรเบรลลเซลลเดยวสองตวท�เขยนตดกน
อกษรเบรลลเซลลเดยวสองตวท�เขยนตดกน อกษรเบรลลสองเซลล r+1 (ร+ๆ) r1 (ฤ) l+1 (ล+ๆ) l1 (ฦ)
o+a (อ+สระอะ) oa (สระเอาะ) 0) (การนต+ท) 0) (ธ)
จากตารางท� 3.1 อกษรเบรลล ‘r1’ ซ� งกคออกษร ‘ฤ’ จะพองรปกบอกษรเบรลล ‘r’ (ร) ตาม
ดวย ‘1’ (ๆ) และอกษรเบรลล ‘l1’ ซ� งกคออกษร ‘ฦ’ จะพองรปกบอกษรเบรลล ‘l’ (ล) ตามดวย ‘1’ (ๆ) และอกษรเบรลล ‘oa’ ซ� งกคอ สระเอาะ จะพองรปกบอกษรเบรลล ‘o’ (อ) ตามดวย ‘a’
29
(สระอะ) และอกษรเบรลล ‘0)’ ซ� งกคออกษร ‘ธ’ จะพองรปกบอกษรเบรลล ‘0’ (การนต) ตามดวย ‘)’ (ท)
โดยสวนมากแลวจะพบกบปญหาการแปลงอกษรเบรลล ‘0’ (การนต) ตามดวย ‘)’ (ท) ท�พองรปกนกบอกษรเบรลล ‘0)’ (ธ) มากท�สดเพราะเปนตวอกษรท�มการใชงานในภาษาไทยหรออกษรเบรลลภาษาไทยมากกวาตวอกษรอ�นๆ เชนคาวา “พระองคทรง” เขยนในรปแบบอกษรเบรลลภาษาไทยระดบ 1 คอ “?rao}u0)r}” ซ� งกคอ “พ+ร+ะ+อ+ง+ค+การนต+ท+ร+ง” โดยอกษรเบรลลเซลลเดยวสองตวท�เขยนตดกนแลวมรปพองกนกบอกษรเบรลลสองเซลลในท�น* คอ ‘0+)’ ซ� งกคออกษร ‘การนต+ท’ โดยมรปพองกนกบอกษรเบรลลสองเซลลคออกษร ‘0)’ ซ� งกคออกษร ‘ธ’ ดวยเหตน* ทาใหโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file เดม [1] ไมสามารถทราบไดวาเปนอกษรเบรลลสองเซลลหน�งตวหรอเปนอกษรเบรลลเซลลเดยวสองตวท�เขยนตดกน ซ� งจะแตกตางกบกรณของโปรแกรมการแปลงเบรลลและแอสกภาษาไทยแบบทนททนใด [1] ท�สามารถแกไขปญหาเหลาน* ไดโดยใชวธใหผใชกดคยพเศษกอนจะปอนอกษรเบรลลสองเซลล ซ� งการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยแบบ File-to-file น*นผใชจะไมสามารถโตตอบกบโปรแกรมเพ�อระบวาตรงไหนเปนอกษรเบรลลสองเซลลได แมวาปญหาดงกลาวอาจสามารถแกไขไดดวยการแบงคาท�เหมาะสมกตาม แตกยงมคาบางคาท�ไมสามารถแบงได เน�องจากเปนคาท�เปนช�อเฉพาะไมสามารถแบงออกเปนคายอยๆ ไดและจะทาใหความหมายโดยรวมน*นผดไปจากเดม เชนคาวา “นวลจนทรทะเล”, “พมพทอง” เปนตน
จากการศกษาผวจยไดคดเลอกประโยคท�ประกอบไปดวยคาควบกล*า, สระประสม, อกษรเบรลลสองเซลลและคาทบศพทจากคลงขอมล BEST [13] ขนาด 71.8 เมกกะไบต (รายละเอยดของคลงขอมล BEST และวธการคดเลอกประโยคจากคลงขอมล BEST จะอธบายในหวขอท� 2.4 และ 3.3.1 ตามลาดบ) พบวาประโยคภาษาไทยท�มการใชคาควบกล*าและสระประสมมจานวนประมาณเกอบคร� งหน�งของจานวนประโยคท*งหมด และประโยคท�มการใชคาอกษรเบรลลสองเซลลและคาทบศพทมขนาดประมาณ 1.04 เมกกะไบตและ 2.72 เมกกะไบตตามลาดบดงแสดงในรปท� 3.1
30
รปท� 3.1 ขนาดของไฟลท�มการใชคาประเภทตางๆ เปรยบเทยบกบขนาดของไฟลท*งหมด
จากรปท� 3.1 เหนไดวาในภาษาไทยประกอบดวยคาควบกล* าและสระประสมประมาณคร� งหน� งของประโยคท*งหมด ดงน*นจงสงผลใหการเขยนอกษรเบรลลภาษาไทยประกอบดวยคาประเภทคาควบกล* าและสระประสมเปนจานวนมากเชนกน ดงน*นปญหาการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ไดกลาวไวขางตนจงนบวาเปนปญหาท�สาคญมากทเดยว และจาเปนตองไดรบการปรบปรงแกไข
3.2 แนวคดในการแกไขปญหาในงานวจย
จากปญหาในการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ไดกลาวไวในขางตน จงมแนวคดท�จะนาเทคนคเอนแกรมโมเดลเขามาชวยในการตดคาอกษรเบรลลภาษาไทยกอนท�จะแปลงไปเปนภาษาไทย เพ�อแบงขอบเขตแตละคาของอกษรเบรลลภาษาไทยใหชดเจน ท*งน* เพ�อเปนการลดความกากวมท�จะเกดข*นกบการตอคา เชนเดยวกนกบในกรณของภาษาไทย
ซ� งในงานวจยท�นาเสนอน* ไดใชเอนแกรมโมเดลในการคานวณหาคาความนาจะเปนท�คาปจจบน ซ� งอยในรปแบบอกษรเบรลลภาษาไทยระดบ 1 จะเกดข*นไดกตอเม�อมคาบางคาท�เปนรปแบบเฉพาะ ซ� งเขยนอยกอนหนาคาๆ น* ยกตวอยางคาในรปแบบภาษาไทยเพ�องายตอการทาความเขาใจ เชน คาปจจบนเปนคาวา “เรยน” คาท�เขยนอยกอนหนาคาๆ น*กจะมความเปนไปไดคอคาวา “โรง” ตามดวยคาวา “เรยน” รวมกนเปนคาวา “โรงเรยน”, “นก” ตามดวยคาวา “เรยน” รวมกนเปนคาวา “นกเรยน”, “การ” ตามดวยคาวา “เรยน” รวมกนเปนคาวา “การเรยน” เปนตน หรอในทางกลบกน เม�อมสวนของประโยค เชน “ฉนไป” ซ� งคาสวนใหญท�ตามหลงสวนของประโยคดงกลาวกจะเปนคาจาพวกสถานท� เชน คาวา “โรงเรยน”, “โรงงาน”, “บาน” เปนตน ซ� งม
31
ความเปนไปไดนอยท�จะเปนคาประเภทอ�นๆ เชน คาวา “กนขาว”, “เท�ยว” เปนตน ซ� งคาเหลาน* กสามารถพบไดบาง แตจะไมมโอกาสพบวาเปนคาท�ใหความหมายขดแยงหรอไมเก�ยวของกบสวนของประโยคน*น เชนคาวา “เงน”, “เข�ย”, “แดง” เปนตน
ดงน*นจงไดนาเอาหลกการน* มาประยกตใชกบอกษรเบรลลภาษาไทยระดบ 1 เพราะมลกษณะบางประการท�เหมอนกบภาษาไทย คอมการเขยนเปนคาๆ เรยงตดกนเปนประโยคและมการเวนวรรคระหวางประโยค เชนเดยวกบภาษาไทย แตจะมความแตกตางในเร�องของลาดบการวางอกขระใหเปนคาข* นมาและมการใชสญลกษณแทนตวอกขระท�ไมเหมอนกบภาษาไทย แตกสามารถใชหลกการของเอนแกรมโมเดลไดเชนเดยวกบภาษาไทย ซ� งงานวจยท�ไดนาเสนอน* จะนาไฟลโมเดลอกษรเบรลลภาษาไทยมาเปรยบเทยบเพ�อหาคาถดไป เชน พจารณาจากคาท�เขยนนาหนากอนหนาคาปจจบนจานวนสองคา เม�อใชจานวนแกรมเทากบ 3-gram เพ�อเปรยบเทยบวาคาท�ตามหลงน*นเปนคาใดไดบางและมคาความนาจะเปนมากนอยแคไหน และมคาน* อยในประโยคอนพตหรอไม หากมจะตดคาๆ น* แยกออกมาโดยใชสญลกษณ <pipe> (ใชสญลกษณ “<pipe>”ในการแบงคาเพ�อไมใหซ* ากบสญลกษณ “|” ในอกษรเบรลลภาษาไทยซ� งใชแทนตวอกษร “ต” ในภาษาไทย) ในการแบงขอบเขตของคาแตละคาและดาเนนการแบบน* ไปเร� อยๆ จนกระท�งจบประโยคหน�งๆ
สาหรบวธการคานวณคาความนาจะเปนจะเปนไปตามหลกของการสรางเอนแกรมโมเดล ซ� งไดอธบายไวในหวขอ 3.3.2 การสรางไฟลโมเดลอกษรเบรลลภาษาไทย โดยในวทยานพนธน* ไดเลอกใชชดเคร�องมอ CMU-SLM Toolkit ในการสรางไฟลโมเดลภาษา
3.3 การคดเลอกประโยคจากคลงขอมล BEST และการสรางไฟลโมเดลอกษรเบรลลภาษาไทย
การสรางไฟลโมเดลอกษรเบรลลภาษาไทยน* เปนการสรางแบบจาลองทางภาษาของอกษรเบรลลภาษาไทยระดบ 1 เพ�อนาไปใชงานรวมกบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคาท�ไดนาเสนอไวในวทยานพนธฉบบน* โดยการสรางไฟลโมเดลอกษรเบรลลภาษาไทยหรอการฝกฝนเอนแกรมโมเดล เปนกระบวนการทางสถตเพ�อใหเอนแกรมโมเดลคานวณคาความนาจะเปนของคาหน�งๆ วาสามารถท�จะเกดข*นรวมกบคาใดไดบางดวยคาความนาจะเปนเทาใด ซ� งผวจยไดแบงข*นตอนการสรางไฟลโมเดลอกษรเบรลลภาษาไทยออกเปน 2 ข*นตอนหลก คอ 1) ข*นตอนคดเลอกประโยคท�ตองการจากคลงขอมล BEST ท*งน* เพราะโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file เดม [1] สามารถแปลงคาท�วๆ ไปไดถกตองอยแลวจงไมมความจาเปนท�ตองนาคลงขอมล BEST ท*งหมดมาใชสรางไฟลโมเดลอกษรเบรลลภาษาไทย 2) ข*นตอนการสรางไฟลโมเดลอกษรเบรลลภาษาไทย ในข*นตอนน*
32
เปนการสรางไฟลแบบจาลองภาษาอกษรเบรลลภาษาไทยระดบ 1 โดยใชชดเคร�องมอ CMU-SLM toolkit (รายละเอยดของชดเคร�องมอ CMU-SLM toolkit จะอธบายในหวขอ 2.7) ซ� งมรายละเอยดของข*นตอนดงกลาวดงตอไปน*
3.3.1 การคดเลอกประโยคจากคลงขอมล BEST ในงานวจยท�ไดนาเสนอน*ไดเลอกใชคลงขอความ BEST ซ� งเปนคลงขอความภาษาไทยท�ม
ขนาดใหญท�สดในปจจบนนามาประยกตใชงาน และงานวจยน*ไดมงเนนการแกไขปญหาเฉพาะการแปลงอกษรเบรลลภาษาไทยไปเปนภาษาไทย ท�เก�ยวของกบคาควบกล* า, สระประสมและอกษรเบรลลสองเซลลของโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file เดมโดยไดนาเสนอไวในวทยานพนธเร�อง “การแปลงเบรลลและแอสกภาษาไทยแบบทนททนใด” [1] และโปรแกรมดงกลาวสามารถแปลงประโยคโดยท�วไปไดถกตองอยแลว
ดงน*นจงไมมความจาเปนท�จะตองนาเอาคลงขอความ BEST ท*งหมดมาใชสรางไฟลโมเดลอกษรเบรลลภาษาไทย ผวจยจงไดคดเลอกเอาเฉพาะประโยคท�มการใชคาควบกล*า, สระประสม, อกษรเบรลลสองเซลล และคาทบศพท จากคลงขอความ BEST เทาน*น ซ� งการคดเลอกประเภทของประโยคดงกลาวจะประกอบไปดวย 4 ประเภทดงน*
1) ประโยคท�มการใชคาควบกล*าแบงออกเปน 2 ประเภทดวยกนคอ
1. ประโยคท�ประกอบดวยคาควบกล* าแท ซ� งจะประกอบดวยตวอกษรควบกล* า
ดงน* คอ กร, กล, กว, ขร, ขล, ขว, คร, คล, คว, ปร, ปล, พร และ พล
2. ประโยคท�ประกอบดวยคาควบกล* าเทยม ซ� งจะประกอบดวยตวอกษรควบกล* า
ดงน* คอ จร, ซร, ตร, ทร, ศร และ สร
2) ประโยคท�ประกอบดวยสระประสม ประกอบไปดวยสระประสมดงตอไปน* คอ สระอว
, สระอวะ, สระเออ, สระเออะ,สระเอะ, สระเอา, สระเอาะ, สระเอย, สระเอยะ, สระเออ
, สระแอะ และสระโอะ
3) ประโยคท�ประกอบดวยอกษรเบรลลสองเซลล จะคดเลอกเฉพาะอกษรเบรลลสอง
เซลลท�มรปพองกนกบอกษรเบรลลเซลลเดยวสองตวท�เขยนตดกน คอ “ธ” (พองรป
กบอกษรเบรลลเซลลเดยว “การนต+ท”), “ฃ” (พองรปกบอกษรเบรลลเซลลเดยว
“การนต+ข”) , “สระเอาะ” (พองรปกบอกษรเบรลลเซลลเดยว “อ+สระอะ), “ฤ” (พอง
รปกบอกษรเบรลลเซลลเดยว “ร+ๆ”), “ฦ” (พองรปกบอกษรเบรลลเซลลเดยว “ล+ๆ”)
33
4) ประโยคท�ประกอบดวยคาทบศพท จะคดเลอกเฉพาะคาทบศพทท�บรรจไวใน
พจนานกรมฉบบราชบณฑตยสถาน พ.ศ.2542 [16] เทาน*น
ในการเลอกประโยคประเภทตางๆ ดงท�ไดกลาวไวในขางตนจากคลงขอความ BEST ผวจยเลอกใชเคร�องมอท�ช�อวา grep ซ� งเปนยนกซทล (UNIX tool) หรอเคร�องมอหน�งท�เปนโปรแกรมยอยของระบบปฏบตการยนกซ ท�สามารถคดเลอกขอความท�ตองการไดโดยใชนพจน (Regular expression) หรอใชรายการคา (Word list) ในการคนหาประโยคท�ตรงกบเง�อนไขท�ผใชสรางไว
ในงานวจยน* ไดเลอกใชวธคดเลอกประโยคท�ตองการโดยใชรายการคา เพราะไมสามารถสรางนพจนใหครอบคลมชนดของประโยคท�ตองการคดเลอกจากคลงขอความ BEST ไดท*งหมด และเน�องจากปจจบนยงไมมการรวบรวมรายการคาประเภทคาควบกล*า, คาท�มการใชสระประสม, คาท�มการใชอกษรเบรลลสองเซลลและคาทบศพท
ดงน*นผวจยจงจาเปนตองสรางรายการคาดงกลาวดวยตนเอง ซ� งรายการคาเหลาน* ไดนามาจากพจนานกรมฉบบราชบณฑตยสถาน พ.ศ.2542 [16] โดยคดเลอกเฉพาะคาท�เปนคาควบกล* า, คาท�มการใชสระประสม, คาท�มการใชอกษรเบรลลสองเซลลและคาทบศพท และเกบไวในไฟลช�อ word_list.txt โดยประกอบไปดวยคาควบกล* าจานวน 5,115 คา, สระประสมจานวน 5,875 คา, อกษรเบรลลสองเซลลจานวน 86 คาและคาทบศพทจานวน 611 คา เม�อสรางรายการคาท�ตองการไดแลว ผวจยจงนารายการคาดงกลาวเปนเง�อนไขในการคดเลอกประโยคท�ตองการจากคลงขอความ BEST โดยใชโปรแกรมยอย grep ในการคนหาประโยคท�ตองการจากคลงขอความ BEST และใชงานบนระบบปฏบตการลนกซอบนต (Linux Ubuntu) เวอรชน 9.04 โดยมภาพรวมการทางานดงแสดงในรปท� 3.2
34
รปท� 3.2 ภาพรวมวธการคดเลอกประโยคท�ตองการจากคลงขอความ BEST
จากภาพรวมวธการคดเลอกประโยคท�ตองการในรปท� 3.2 ผวจยไดเรยกใชเคร�องมอ grep โดยใชคาส�ง “grep –f word_list.txt file_name.txt > output_file.txt” ใน Shell prompt โดยระบออฟชน –f หมายถงระบวาใหนารายการคาท�อยในไฟล word_list.txt คอไฟลท�บรรจรายการคาควบกล*า, สระประสม, อกษรเบรลลสองเซลลและคาทบศพทท�ผวจยไดคดเลอกมาจากพจนานกรมฉบบราชบณฑตยสถาน พ.ศ.2542 มาใชคนหาประโยคในคลงขอความ BEST ท�มการใชคาเหลาน*นอยในประโยค โดยไฟลช�อ file_name.txt คอไฟลในคลงขอความ BEST และสญลกษณ > หมายถงกาหนดใหโปรแกรมยอย grep เขยนเอาทพทท�ไดใสไวในไฟลท�ช�อวา output_file.txt และมรายละเอยดของผลการคดเลอกประโยคท�ตองการจากคลงขอความ BEST ดงแสดงในตารางท� 3.2
BEST Corpus
Grep Tool (UNIX Tool)
word_list.txt
Output file
- คาควบกล*า (5,115 คา) - สระประสม (5,875 คา) - อกษรเบรลลสองเซลล (86 คา) - คาทบศพท (611 คา)
35
ตารางท� 3.2 รายละเอยดการคดเลอกประโยคท�ตองการจากคลงขอความ BEST
ประเภทของคาท�ใชคดเลอก
ขอความ
จานวนคาท�ใชคดเลอก
(คา)
ประเภทขอความท�คดเลอกจากคลงขอความ BEST (คลงขอความ BEST มขนาดไฟลท*งหมด 71.8 MB)
รวมท*งหมดคดเปนเปอรเซนต
ประเภทบทความ (ขนาด)
ประเภทสารานกรมไทยสาหรบเยาวชน
(ขนาด)
ประเภทบทความขาว(ขนาด)
ประเภท นวนยาย (ขนาด)
คาควบกล*า 5,115 7.76 MB 7.50 MB 9.59 MB 7.95 MB 45.68 % สระประสม 5,875 7.59 MB 7.29 MB 9.31 MB 7.73 MB 44.43 % อกษรเบรลล
สองเซลล 86 97.2 KB 32.6 KB 173 KB 768 KB 1.45 %
คาทบศพท 611 529 KB 807 KB 861 KB 589 KB 3.79 %
จากตารางท� 3.2 เหนไดวาคาควบกล* าและสระประสมมการใชงานในประโยคประเภท
ตางๆ ในภาษาไทยมากท�สดโดยคดเปน 45.68 % และ 44.43 % ตามลาดบ ซ� งมขนาดประมาณเกอบคร� งหน�งของคลงขอความ BEST โดยคาควบกล*าบางคากอาจรวมอยในคาท�มสระประสมและแมวาจะมการใชงานอกษรเบรลลสองเซลลและคาทบศพทนอยมาก แตกยงมจานวนการใชงานอยพอสมควร จงทาใหปญหาการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยดงท�ไดกลาวไวแลว นบไดวาเปนปญหาท�มความสาคญเชนกน
เม�อไดไฟลเอาทพทตามท�ตองการแลวผวจยจงนาไฟลท*งหมดดงกลาวไปแปลงใหอยในรปของอกษรเบรลลภาษาไทยระดบ 1 โดยใชโปรแกรมแปลงภาษาไทยไปเปนอกษรเบรลล [1] ซ� งเปนโปรแกรมท�มการพฒนามากอนแลว (รายละเอยดของโปรแกรมแปลงภาษาไทยไปเปนอกษรเบรลลจะอธบายในหวขอท� 2.8) เพ�อนาไปสรางไฟลโมเดลอกษรเบรลลภาษาไทยตอไป ซ� งตวอยางประโยคท�ไดคดเลอกมาจากคลงขอความ BEST และตวอยางประโยคท�ถกแปลงใหอยในรปของอกษรเบรลลภาษาไทยระดบ 1 แสดงในรปท� 3.3 และ 3.4 ตามลาดบ
36
ตวอยางประโยคภาษาไทย |การ|พฒนา|วจย|รถ|แทรกเตอร|หลาย|แบบ|
|ประกอบ|ดวย|กระบะ|เมลด|พช|ท�|บรรจ|อย|บน|ตะแกรง| |กลาย|เปน|ผ|กระทา|ความ|ผด|ฐาน|บกรก|อทยาน|แหง|ชาต|
|ม|การ|เคล�อนยาย|ทรพยากร|ท�|เปน|วตถ|ดบ|ของ|ระบบ|การ|ผลต|
ตวอยางประโยคท�แปลงเปนอกษรเบรลลภาษาไทยระดบ 1 |g*r|?>-)n*|wbj>y|rt|<)rg|%r0|hl*y|<vv|
|&ragov|d4wy|grava|fml'd|?5+|)29|vrrjc|oy39|vn||a<gr}| |gl*y|f&'n|p34|gra)z|uw*m|pbd|,t*n|vcgrcg|oc)y*n|<h9}|+*|b|
|m2|g*r|ulq9ny4*y|)r>?y*gr|)29|f&'n|w>|tc|dbv|ko}|ravv|g*r|plb|
รปท� 3.3 ตวอยางประโยคท�คดเลอกจากคลงขอความ BEST
รปท� 3.4 ประโยคท�แปลงใหอยในรปของอกษรเบรลลภาษาไทย
3.3.2 การสรางไฟลโมเดลอกษรเบรลลภาษาไทย การสรางไฟลโมเดลอกษรเบรลลภาษาไทยหรอการฝกฝนเอนแกรมโมเดล [18] คอ
กระบวนการทางสถตเพ�อใหเอนแกรมโมเดลคานวณคาความนาจะเปนของคาหน� งๆ วาสามารถท�
จะเกดข*นรวมกบคาใดไดบาง โดยมข*นตอนยอยๆ อยหลายข*นตอนดวยกน ซ� งจะอธบายโดยใช
แผนภาพในภายหลงและผลท�ไดจากการฝกฝนเอนแกรมโมเดลน* จะไดเปนไฟลนามสกล .gram
และในไฟล .gram น* จะบรรจคาความนาจะเปนของคาน*นๆ วามโอกาสท�จะเกดข*นรวมกบคาใดได
บางดวยคาความนาจะเปนเทาไร และบรรจคาดชนถวงน* าหนก (Back-off weight) ท�จะนาไปใชใน
กระบวนการ Smoothing อกดวย โดยมการจดเกบใหอยในรปแบบของ ARPA format [19] ซ� งเปน
รปแบบไฟลมาตรฐานของโมเดลภาษา (Language Model) และในงานวจยท�นาเสนอน* ไดเลอกชด
เคร�องมอท�เรยกวา CMU-SLM toolkit [20] ซ� งเปนชดเคร�องมอท�ชวยสรางโมเดลภาษา อกท*งชด
เคร�องมอน* มการเผยแพรเปนสาธารณะ และมการนาไปใชงานกนอยางแพรหลาย โดยสามารถใช
งานไดงาย มคมออธบายชดเจน และเปนชดเคร� องมอท�ครบถวนสมบรณ (รายละเอยดของชด
37
เคร�องมอ CMU-SLM toolkit จะอธบายในหวขอ 2.7) โดยมข*นตอนการสรางไฟลโมเดลอกษร
เบรลลภาษาไทยดงแสดงในรปท� 3.5
รปท� 3.5 ข*นตอนการสรางโมเดลอกษรเบรลลภาษาไทยดวยชดเคร�องมอ CMU-SLM toolkit [18]
จากรปท� 3.5 มข*นตอนการสรางโมเดลอกษรเบรลลภาษาไทยดงตอไปน* 1. สรางไฟล train.wfreq จาก train.text ดวยฟงกชน text2wfreq โดยไฟล train.wfreq จะ
เปนไฟลท�เกบคาท�มท*งหมดใน train.text พรอมท*งคาความถ�ของคาแตละคา
2. สรางไฟล train.vocab จาก train.wfreq ดวยฟงกชน text2wfreq โดยไฟล train.vocab
จะเปนรายการของคา (Vocabulary) ท*งหมดท�มอยในไฟล train.text
3. สรางไฟล train.idngram โดยอาศยไฟล train.vocab และไฟล train.text ดวยฟงกชน
text2idngram โดยไฟล train.idngram จะเปน Binary file ท�เกบ Index ของ N-gram ท�
เกดใน train.text ซ� งจะตองระบข*น Order ของ N-gram โดยระบหลง option –n เชน
–n 3 คอ กาหนดวาจะสราง N-gram order ท� N เทากบ 3 ซ� งกคอ Trigram
4. สรางไฟล train.3gram จาก train.idngram และ train.vocab ดวยฟงกชน idngram2lm
โดยไฟล train.3gram จะเปนรปแบบไฟล N-gram ท�นาไปใช ซ� งถกจดเกบใหอยใน
รปแบบของ ARPA format ซ� งการระบ Option -arpa จะไดไฟลเอาตพตในรปแบบของ
text2wfreq
wfreq2vocab
text2idngram
idngram2lm
train.txt
train.3gram
train.wfreq
train.vocab
train.idngram
Option N-gram order = 3
Option ARPA Format
38
ARPA format และการระบ Option –binary จะไดไฟลเอาตพตในรปแบบของ Binary
format
เม�อสรางโมเดลอกษรเบรลลภาษาไทยเสรจแลวจะไดไฟลนามสกล .gram ซ� งผวจยจะนา
ไฟลน*ไปใชงานตอไป โดยตวอยางของไฟลโมเดลอกษรเบรลลภาษาไทยแสดงในรปท� 3.6
รปท� 3.6 ตวอยางไฟลโมเดลอกษรเบรลลภาษาไทย
ในรปท� 3.6 เปนตวอยางไฟลโมเดลอกษรเบรลลภาษาไทยโดยใชจานวนแกรมเทากบ
3-แกรม ซ� งภายในไฟลจะมการเรยงลาดบต*งแต 1-gram, 2-gram ไปจนถง 3-gram และหากใน
ข*นตอนท� 3 ในการสรางไฟลโมเดลอกษรเบรลลภาษาไทยถาผใชไดระบตวเลอกจานวนแกรมเปน
ตวอยางไฟลโมเดลอกษรเบรลลภาษาไทย (gram=3) \1-grams: . . . -5.1338 !*g1 0.2118 -5.6109 !*ivr!* 0.3348 . . . \2-grams: . . . -1.5478 )zn(vr>,tv*l gra)rw}fg-s|rl<ashgr,n0 0.5339 -1.5478 )zn(vr>,tv*l sn*mhlw} -0.1462 . . . \3-grams: . . . -0.5000 <m9 ;l <n9non -0.3346 <m9 ?29 n4o} . . .
39
n แกรม (n เปนจานวนนบ) ภายในไฟลเอนแกรมโมเดลท�ฝกฝนเสรจแลวกจะมการเรยงลาดบต*งแต
1-gram, 2-gram ไปเร�อยๆ จนถงจานวนแกรมท�ผใชไดกาหนดไวน�นเอง และในคอลมนซายสดจะ
เปนคาความนาจะเปนท�พบรปแบบคาน*นๆ ซ� งคาความนาจะเปนน*จะเหนไดวาตดลบ น�นกเพราะคา
ความนาจะเปนน*นมคาท�นอยมากๆ เม�อนาไปคานวณแลวจะทาใหมคานอยมากจนแทบจะเปนศนย
จงมการจดรปแบบใหมโดยใชลอการทมฐานสบ (log10) จงทาใหคาความนาจะเปนตดลบ คอลมน
ตรงกลาง (เปนสวนท�มตวอกษรและสญลกษณ) เปนรายการของคาอกษรเบรลลภาษาไทยระดบ 1
ท�มอยในคลงขอมลท�ผวจยไดนามาสรางไฟลโมเดลอกษรเบรลลภาษาไทย ซ� งรายการคาท�แสดงอย
น* มความหมายวา คาท�อยหลงสดซ� งแบงโดยการเวนวรรคน*น จะเกดข*นรวมกบคาอ�นๆ ท�อยกอน
หนาดวยคาความนาจะเปนท�แสดงไวในคอลมนซายสด และในคอลมนขวาสดท�เปนตวเลขเปนคาท�
แสดงถงคาดชนถวงน* าหนก (Back-off weight) คอคาถวงน* าหนกเม�อคาหรอชดของคาไมมอย
หรอไมพบในคลงขอความ โดยจะนาคาน* ไปใชในการประมาณคาความนาจะเปนตามหลกวธการ
ของ Smoothing ซ� งคาดชนถวงน* าหนกน* จะนาไปแทนคาตวแปร 1i1niW
λ −+−
ในสมการท� 5 แตจะไมม
คาดชนถวงน* าหนกในกลมจานวนแกรมท�ผใชไดระบไวในข*นตอนท� 3 (ในท�น* คอกลมคาท�อย
ในชวง 3-gram) น�นเปนเพราะวาหากพบชดของคาท�เขยนเรยงตดกนท�อยในชวง 3-gram กจะมคา
ความนาจะเปนเทากบคาในคอลมนซายสดน�นเอง และหากไมพบจะนาเอาคาดชนถวงน* าหนก
ในชวง 2-gram และ 1-gram ไปคานวณหาคาความนาจะเปนโดยวธการของ Smoothing technique
ตอไป
3.4 ภาพรวมของระบบท�ไดนาเสนอไวในวทยานพนธฉบบน& ในวทยานพนธน* ไดนาเสนอวธการปรบปรงประสทธภาพในการแปลงอกษรเบรลล
ภาษาไทยเปนภาษาไทยในรปแบบ File-to-file โดยนาเทคนคเอนแกรมเขามาชวยในการตดคาอกษรเบรลลภาษาไทยเพ�อลดความกากวมท�เกดข*นจากลกษณะการเขยนของอกษรเบรลลภาษาไทยระดบ 1 จากน*นแปลงใหเปนภาษาไทยโดยใชวธเทยบแบบคาตอคา ซ� งจาเปนจะตองสรางรายการคาอกษรเบรลลภาษาไทยและรายการคาภาษาไทยไวลวงหนา
ในรปท� 3.7 แสดงองคประกอบตางๆ ของระบบท�ไดออกแบบไวและลกษณะการเช�อมตอกนของฟงกชนหลกรวมท*งการเช�อมตอองคประกอบอ�นๆ ท�จาเปนตองใชรวมในการแปลงอกษรเบรลลภาษาไทยระดบ 1 ไปเปนภาษาไทย
40
รปท� 3.7 ภาพรวมโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทย ท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา
ในรปท� 3.7 เปนภาพรวมของโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใช
เทคนคเอนแกรมเขามาชวยในการตดคาท�ไดนาเสนอไวในวทยานพนธฉบบน* โดยโปรแกรมน* รบอนพตเขามาเปนขอความท�เขยนอยในรปอกษรเบรลลภาษาไทยระดบ 1 ซ� งจะแบงประโยคออกเปนสวนๆ ตามจานวนแกรมท�ไดกาหนดไว (pre_ngram_generate) และนาไปสรางรปแบบเอนแกรม (generate_ngram_pattern) จากน*นนารปแบบเอนแกรมไปเปรยบเทยบกบไฟลโมเดลอกษรเบรลลภาษาไทยเพ�อตดคาอกษรเบรลลภาษาไทย (select_output_pattern) และแปลงใหเปนประโยค
pre_ngram_generate
generate_ngram_pattern
select_output_pattern
translate_to_thai Thai word list
Braille word list
Braille n-gram pattern
Braille word
Thai word
Braille word
Length Braille text – length found Braille word
train.3gram train.4gram train.5gram
Input: Braille text
Output: Thai text
start
end
Braille pattern
N-gram pattern
Braille separated word
41
ภาษาไทย (translate_to_thai) โดยวธเทยบคาซ� งใชงานรวมกบรายการคาภาษาไทยและรายการคาอกษรเบรลลภาษาไทย โดยแตละสวนจะมการเช�อมตอกนดงท�แสดงในรปท� 3.7 ซ� งรายละเอยดการทางานของข*นตอนตางๆ จะอธบายไวในหวขอท� 3.6 และในหวขอท� 3.5 จะอธบายถงรายละเอยดของอนพตและเอาทพทของโปรแกรมท�นาเสนอน*
3.5 อนพตและเอาทพทของระบบ
โปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา ท�ไดนาเสนอไวในวทยานพนธฉบบน* รบอนพตเปนไฟลขอความธรรมดา ซ� งภายในไดบรรจขอความท�เขยนใหอยในรปแบบอกษรเบรลลภาษาไทยระดบ 1 โดยการทางานของโปรแกรมน* จะประมวลผลขอความอกษรเบรลลภาษาไทยระดบ 1 คร* งละ 1 ประโยค โดยจะแบงแตละประโยคออกจากกนดวยการเวนวรรค ท* งน* เน�องมาจากลกษณะไวยากรณของอกษรเบรลลภาษาไทยระดบ 1 จะใชการเวนวรรคในการแบงประโยคออกจากกนเชนเดยวกนกบการเขยนภาษาไทย เม�อโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคาประมวลผลเสรจแลว จะไดเอาทพทเปนประโยคภาษาไทย และนาประโยคภาษาไทยท�ไดน*นเขยนใสในไฟลเอาทพทตามท�ผใชงานไดต*งช�อไฟลเอาไว ซ� งจะเปนไฟลขอความธรรมดา และการทางานของโปรแกรมจะเปนเชนน* ไปเร�อยๆ จนกวาขอความอกษรเบรลลภาษาไทยระดบ 1 ในไฟลอนพตจะหมดลง สาหรบวธการประมวลผลของโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคาท�ไดนาเสนอน*ไดอธบายไวในหวขอท� 3.6
3.6 โปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคาท�ไดนาเสนอไวในวทยานพนธฉบบน&
ในหวขอน* จะอธบายถงข*นตอนตางๆ ของโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา ท�ไดนาเสนอไวในวทยานพนธฉบบน* รวมถงช�อและชนดของตวแปรตางๆ ท�ใชในการเกบขอมลและใชในการประมวลผล ซ� งประกอบไปดวย 4 ข*นตอนดงน*
3.6.1 ข&นตอน pre_ngrams_generate ข*นตอน pre_ngram_generate น* เปนข*นตอนเพ�อตระเตรยมขอมลใหเหมาะสมสาหรบสราง
รปแบบเอนแกรม (N-gram pattern) โดยรบอนพตเขามาเปนประโยคอกษรเบรลลภาษาไทยระดบ 1 และตดออกเปนสวนๆ ตามขนาดจานวนแกรมท�ไดกาหนดไว เชน หากกาหนดไวเปน 4 แกรม
42
ข*นตอนน*กจะแบงประโยคอนพตดงกลาวออกเปนสวนๆ และแตละสวนจะมจานวนอกขระเทากบ 4 อกขระ และแบงเชนน* ไปเร�อยๆ จนจบความยาวของประโยค หากประโยคอนพตเหลอเศษของอกขระอยสวนสดทายท�แบงออกมากจะเหลอเทากบจานวนอกขระท�เหลอน*น ผวจ ยไดออกแบบใหข*นตอนน* ใหเปนฟงกชนหน� งๆ ซ� งรบอนพตเขามาคร* งละหน� งประโยคโดยอยในรปแบบของประโยคอกษรเบรลลภาษาไทยระดบ 1 และใหเอาทพทเปนอารเรย ของสตรง (Array of string) ท�บรรจสวนของประโยคท�ถกแบงออกมาจากประโยคอนพต ซ� งมการประกาศฟงกชนเปน int prepare_ngram_pattern(string line_input_file) และมการกาหนดตวแปรพรอมท*งหนาท�ดงแสดงในตารางท� 3.3
ตารางท� 3.3 รายละเอยดของตวแปรในข*นตอน pre_ngrams_generate ชนดของตวแปร ช�อของตวแปร หนาท�ของตวแปร
Integer length_line_input_file เกบคาความยาวของประโยคอนพต Integer index_start เกบคาตาแหนงเร�มตนของรปแบบ
เอนแกรม Integer div_length_line_input_file เกบคาจานวนเตมของความยาวประโยค
อนพต Integer mod_length_line_input_file เกบคาจานวนเศษของความยาวประโยค
อนพต Global Array of
String arry_prepare_ngram_pattern เกบรปแบบเอนแกรมท�ไดสรางไว
(N-gram pattern) Global Integer index_arry_prepare_ngram_pattern เกบคาตาแหนงของเอนแกรม
ท�ไดสรางไว และผวจยไดออกแบบวธการตระเตรยมขอมลโดยมข*นตอนการทางานตางๆ ดงแสดงในรปท� 3.8
43
รปท� 3.8 ข*นตอน prepare_ngram_pattern
จากรปท� 3.8 มรายละเอยดการทางานตางๆ ดงตอไปน* 1. คานวณหาคาความยาวประโยคอนพตซ� งอยในรปของประโยคอกษรเบรลลภาษาไทยระดบ
1 โดยใชฟงกชน length() และเกบไวในตวแปร length_line_input_file
2. คานวณจานวนรปแบบเอนแกรม (N-gram pattern) โดยหาจากนาคาความยาวประโยค
อนพตท�เกบไวในตวแปร length_line_input_file มาหารดวยจานวนแกรมท�ไดกาหนดไว
คานวณความยาวประโยคอนพตและเกบไวในตวแปร length_line_input_file
คานวณหาจานวนรปแบบเอนแกรม (N-gram pattern) โดยจานวนเตมเกบในตวแปร div_length_line_input_file และเศษสวนเกบในตวแปร mod_length_line_input_file
สรางตวแปร arry_prepare_ngram_pattern ชนด Array of String จานวน div_length_line_input_file +1
แบงประโยคอนพตเปนสวนๆ โดยมขนาดเทากบจานวนแกรมท�กาหนดไวและเกบในตวแปร arry_prepare_ngram_pattern
สงตวแปร arry_prepare_ngram_pattern ไปใหกบฟงกชน generate_ngram_pattern ในข*นตอนตอไป
start
end
44
โดยหารเอาจานวนเตมและเกบไวในตวแปร div_length_line_input_file และหารเอาเศษ
และเกบไวในตวแปร mod_length_line_input_file
3. สรางตวแปร arry_prepare_ngram_pattern ชนด Array of String เพ�อเกบรปแบบเอนแกรม
(N-gram pattern) จานวน div_length_line_input_file+1
4. แบงประโยคอนพตเปนสวนๆ โดยแตละสวนมจานวนอกขระเทากบจานวนแกรมท�ได
กาหนดไวและเกบไวในตวแปร arry_prepare_ngram_pattern ท�ไดสรางเอาไว และสง
คาตวแปร arry_prepare_ngram_pattern ไปใหกบข*นตอน generate_ngram_pattern
3.6.2 ข&นตอน generate_ngram_pattern ข*นตอน generate_ngram_pattern น* เปนข*นตอนสรางรปแบบเอนแกรม (N-gram pattern)
เพ�อนาไปเปรยบเทยบกบไฟลโมเดลอกษรเบรลลภาษาไทยซ� งจะอธบายในหวขอท� 3.7 เอนแกรมโมเดล โดยรบอนพตเขามาเปนสวนของประโยคท�ไดจากข*นตอน prepare_ngram_pattern และเพ�มอกขระชองวาง (Space) ท*งดานหนาและดานหลงจานวน gram-1 เพ�อเพ�มอตราจบคคาโดยข*นตอนการสรางรปแบบเอนแกรมไดนามาจากเวบไซต ejeepss.wordpress.com [28] และสงชดของรปแบบเอนแกรมท�ไดไปใหกบข*นตอน select_output_pattern เพ�อเปรยบเทยบกบไฟลโมเดลอกษรเบรลลภาษาไทยและเลอกเอาทพทตอไป ผวจยไดออกแบบใหข*นตอนน* รบอนพตเขามาคร* งละหน� งชดโดยเปนสวนประโยคท�ไดจากข*นตอน prepare_ngram_pattern และใหเอาทพทเปนอารเรย ของสตรง (Array of String) ท�บรรจชดรปแบบเอนแกรม (N-gram pattern) ซ� งมการประกาศฟงกชนเปน int gen_ngram_pattern(string ngram_pattern) และมการกาหนดตวแปรพรอมท*งหนาท�ดงแสดงในตารางท� 3.4
ตารางท� 3.4 รายละเอยดของตวแปรท�ใชในข*นตอน gen_ngram_pattern ชนดของตวแปร ช�อของตวแปร หนาท�ของตวแปร
Integer ngram_pattern_length เกบคาความยาวของอนพต Global Array of String arry_ngram_pattern เกบชดรปแบบของเอนแกรม
Global Integer index_arry_ngram_pattern เกบตาแหนงของชดรปแบบเอนแกรม
45
และผวจยไดออกแบบวธการสรางรปแบบเอนแกรม (N-gram pattern) โดยมข*นตอนการทางานตางๆ ดงแสดงในรปท� 3.9
รปท� 3.9 ข*นตอน gen_ngram_pattern
สรางตวแปร arry_ngram_pattern ชนด Array of String จานวน gram+(gram-1)
เพ�มอกขระชองวาง (space) จานวน (gram-1) ท*งดานหนาและหลงของแตละอนพต
คดลอกอกขระจาก Index ท� 0 คร* งละเทากบจานวนแกรมท�ไดกาหนดไว
ไปใสในตวแปร arry_ngram_pattern
เล�อนตาแหนงไปคร* งละหน�งตวอกษร(Index+1)
Index+gram นอยกวาหรอเทากบ
ngram_pattern_length ?
no
yes
start
end
46
จากรปท� 3.9 มรายละเอยดการทางานตางๆ ดงตอไปน* 1. สรางตวแปร arry_ngram_pattern ชนด Array of String จานวน gram+(gram-1) ตามท�
ไดกาหนดจานวนแกรมเอาไว
2. เพ�มอกขระชองวางท*งทางดานหนาและดานหลงของอนพตจานวน (gram-1) เพ�อเพ�ม
อตราการจบคของคา ยกตวอยางเชน มอนพตเปน g,dh และกาหนดจานวนแกรมเทากบ
4-แกรม จากข*นตอนน* จะไดเอาทพทเปน “___g,dh___” (เพ�อใหสงเกตไดงายจะใช
สญลกษณ “_” แทนอกขระชองวาง)
3. คดลอกอก ขระค ร* ง ล ะ เท า กบ จานวนแก รมท� ไดกา หนดไวไป ใ สใ นตวแป ร
arry_ngram_pattern คร* งละ 1 ชดและเล�อนไปทางดานขวาคร* งละ 1 อกขระและคดลอก
อก ข ระจา นวนค ร* ง ละ เท ากบ จา นวนแกรม ท� ไ ดกา หนดไ วไ ปใ ส ใ นตวแป ร
array_ngram_pattern อกคร* งจนกวาจะหมดความยาวของอนพต
4. สงคาตวแปร arry_ngram_pattern ไปใหกบข*นตอน select_output_pattern ตอไป
และเพ�อใหงายตอการทาความเขาใจผวจยจงใชแผนภาพแสดงข*นตอนการสรางรปแบบเอนแกรม ดงแสดงในรปท� 3.10
47
รปท� 3.10 การสรางรปแบบเอนแกรม (N-gram pattern)
ในรปท� 3.10 เปนวธการสรางรปแบบเอนแกรม (N-gram pattern) โดยจะมลกษณะการ
ทางานเหมอนกบกลองท�บรรจตวอกษรไดคร* งละเทากบจานวนแกรมท�ไดกาหนดไว ซ� งในตวอยางน*ไดกาหนดไวท� 4-แกรม โดยกลองน* จะคดลอกอกขระคร* งละ 4 อกขระรวมท*งอกขระชองวางดวย และเม�อคดลอกเสรจแลวจะไดเปน 1 รปแบบเอนแกรมจากน*นเล�อนไปดานขวาคร* งละ 1 อกขระจนจบความยาวของอนพตกจะไดรปแบบเอนแกรมท*งหมดท�เปนไปได
_ _ _ g , d h _ _ _
อนพตจากข*นตอน prepare_ngram_pattern : g,dh
เพ�มอกขระชองวางท*งทางดานหนาและดานหลง : ___g,dh___ กาหนดจานวนแกรมเทากบ 4-gram และใชอกขระ “_” แทนชองวาง
_ _ _ g
_ _ g ,
_ g , d
g , d h
, d h _
d h _ _
h _ _ _
เล�อนไปคร* งละ 1 อกขระ
เล�อนไปคร* งละ 1 อกขระ จนหมดความยาวอนพต
คร* งท� 1
คร* งท� 2
คร* งท� 3
คร* งท� 4
คร* งท� 5
คร* งท� 6
คร* งท� 7
48
3.6.3 ข&นตอน select_output_pattern ข*นตอน select_output_pattern ทาหนาท�เปรยบเทยบรปแบบเอนแกรม (N-gram pattern) ท�
สรางมาจากข*นตอน generate_ngram_pattern เพ�อคนหาคาอกษรเบรลลภาษาไทยระดบ 1 ท�มความคลายคลงกนกบรปแบบเอนแกรมดงกลาวและคนหาวารปแบบเอนแกรมใดในไฟลโมเดลอกษรเบรลลภาษาไทยจะมคาความนาจะเปนสงท�สด โดยเลอกคาอกษรเบรลลภาษาไทยระดบ 1 เปนเอาทพทและแบงแตละคาออกจากกนดวยสญลกษณ <pipe> (ใชสญลกษณ “<pipe>” เพ�อไมใหซ* ากบสญลกษณ “|” ในอกษรเบรลลภาษาไทยท�ใชแทนตวอกษร “ต” ในภาษาไทย) เพ�อลดความกากวมของรปแบบการเขยนอกษรเบรลลภาษาไทยระดบ 1 และแปลงใหเปนประโยคภาษาไทยโดยข*นตอน translate_to_thai อกคร* ง โดยมการประกาศฟงกชนเปน void select_output(string dictionary[],int number_dictionary_index,string arry_ngram_pattern[],int index_arry_ngram _pattern) และมรายละเอยดของตวแปรและหนาท�ตางๆ ของแตละตวแปรดงแสดงในตารางท� 3.5
ตารางท� 3.5 รายละเอยดตวแปรตางๆ ท�ใชในข*นตอน select_output_pattern ชนดของตวแปร ช�อของตวแปร หนาท�ของตวแปร Global Integer max_score เกบคะแนนท�มากท�สด Global String max_text เกบคาอกษรเบรลลท�มคะแนนมากท�สด Global String max_pattern เกบรปแบบเอนแกรมท�ไดคะแนนมากท�สด Global Integer max_text_index เกบ index คาอกษรเบรลลท�มคะแนนมากท�สด
Integer ngram_pattern_length เกบความยาวของรปแบบเอนแกรม Integer dictionary_length เกบความยาวของคาในรายการคาอกษรเบรลลภาษาไทย Integer score เกบคาคะแนนของแตละคาในปจจบน Integer num_ngram_pattern เกบจานวนรปแบบของเอนแกรม
Array of String array_ngram_pattern เกบรปแบบของเอนแกรม Global String line_input_file เกบประโยคอนพต Global String output_line เกบประโยคเอาทพท Global Integer length_line_input_file เกบคาความยาวของประโยคอนพต
Global Array of String word_list_brl เกบรายการคาอกษรเบรลลภาษาไทย Global Integer index_word_list_brl เกบ index ของรายการคาอกษรเบรลลภาษาไทย Global Float max_prob เกบคาความนาจะเปนท�มากท�สด
Float current_prob เกบคาความนาจะเปนของแตละคาในปจจบน
49
ผวจยไดออกแบบวธการสรางเอาทพทโดยอาศยขอมลตางๆ จากฟงกชนอ�นๆ ซ� งไดแบงฟงกชนออกเปน 3 ฟงกชนหลกคอ 1) ฟงกชน select_output ทาหนาท�สรางเอาทพทซ� งเปนประโยคอกษรเบรลลภาษาไทยระดบ 1 ท�แบงคาแลวโดยอาศยขอมลจากฟงกชน ngram_to_word และฟงกชน find_ngram เพ�อใชประกอบในการตดสนใจตดคา 2) ฟงกชน ngram_to_word ทาหนาท�คานวณคะแนนเพ�อเปรยบเทยบรปแบบเอนแกรมวาคลายคลงกบคาใดมากท�สด และ 3) ฟงกชน find_ngram ทาหนาท�คนหารปแบบของคาในไฟลโมเดลอกษรเบรลลภาษาไทยวารปแบบคาใดมคาความนาจะเปนสงท�สด โดยมข*นตอนการทางานตางๆ ดงแสดงในรปท� 3.11-3.13 ตามลาดบ
คานวณคาจานวนรปแบบเอนแกรม num_ngram_pattern = gram+(gram+1)
สงคา array_ngram_pattern[num_ngram_pattern] คร* งละ 1 ชดไปใหกบฟงกชน ngram_to_word
ลดคา num_ngram_pattern ลงคร* งละหน�ง
num_ngram_pattern>0 ?
no
yes
นาคา max_text ไปคนหาในประโยคอนพต line_input_file วามอยหรอไม
yes
นาคา max_text สงไปใหฟงกชน find_ngram เพ�อคนหารปแบบท�มคาความนาจะเปนสงท�สด
no
เร�มข*นตอน pre_ngram_generate ใหม
start
A
50
รปท� 3.11 ข*นตอนการทางานของฟงกชน select_output จากรปท� 3.11 แสดงข*นตอนการทางานของฟงกชน select_output ซ� งมลาดบการทางานดงน*
1. คานวณหาจานวนรปแบบของเอนแกรมจาก gram+(gram-1) ตามท�ไดกาหนดจานวน
แกรมเอาไวแลว
2. ส ง ร ป แ บ บ เ อ น แ ก ร ม แ ต ล ะ ร ป แ บ บ ท� เ ก บ ไ วใ น ตว แ ป ร array_ngram_pattern
[num_ngram_pattern] ไปใหกบฟงกชน ngram_to_word
3. ทาซ* าข*นตอนท� 1 และ 2 จนกระท�งครบรปแบบเอนแกรมท*งหมดซ� งจะไดคาท�มความ
คลายคลงกบรปแบบเอนแกรมมากท�สดซ� งเกบไวในตวแปร max_text
4. ตรวจสอบวาคาอกษรเบรลลภาษาไทยท�เลอกมาน*นพบในประโยคอนพตหรอไม หากไม
พบใหกลบไปเร�มข*นตอน pre_ngram_generate ใหมเพ�อสรางชดรปแบบเอนแกรมใหม
และหากพบวามคาน*นมอยในประโยคอนพตใหสงคาๆ น*นไปใหกบฟงกชน find_ngram
5. เม�อสงคา max_text ซ� งเปนคาอกษรเบรลลภาษาไทยระดบ 1 ท�เลอกจากวธเปรยบเทยบ
ความคลายคลงไปใหกบฟงกชน find_ngram เพ�อคนหารปแบบของคาๆ น*นวาเกดข*น
คานวณคาความยาวประโยคอนพตท�เหลอ length_line_input_file = length_line_input_file – max_text.length() แลว
สงไปใหข*นตอน pre_ngram_generate เพ�อเร�มกระบวนการใหมอกคร* ง จนกวาความยาวในประโยคอนพตจะหมดลง
เพ�ม <pipe> ในเอาทพท output_line
เพ�ม max_text ตอทายในเอาทพท output_line.append(max_text)
end
A
51
รวมกบคาๆ ใดไดบางและมคาความนาจะเปนเทาไร โดยเม�อผานฟงกชนน* แลวกจะได
รปแบบคาท�ใชฝกฝนเอนแกรมโมเดลท�มคาความนาจะเปนสงท�สด
6. เพ�มสญลกษณ “<pipe>” เพ�อเปนสญลกษณในการแบงคาแตละคาออกจากกนลงใน
ประโยคเอาทพทซ� งเกบไวในตวแปร output_line
7. เพ�มคาท�เลอกมาโดยอาศยขอมลจากฟงกชน ngram_to_word และฟงกชน find_ngram ซ� ง
เกบไวในตวแปร max_text ลงในประโยคเอาทพท
8. คานวณคาความยาวประโยคอนพตท�เหลอหลงจากแบงคาปจจบนเสรจแลวกลบไปใหกบ
ข*นตอน pre_ngram_generate เพ�อเร�มกระบวนการใหม
9. ทาซ* าต*งแตข*นตอน pre_ngram_generate จนถงข*นตอน select_output จนกวาความยาวของ
ประโยคอนพตท�เกบไวในตวแปร length_line_input_file จะหมดลง
รปท� 3.12 ข*นตอนการทางานของฟงกชน ngram_to_word
นา array_ngram_pattern[num_ngram_pattern] ไปเปรยบเทยบกบรายการคาและใหคะแนน
Braille word list
max_score > score?
yes
no
เกบคาตวแปรตางๆ ดงน* max_pattern = array_ngram_pattern[num_ngram_pattern]
max_text = word_list_brl[index_word_list_brl] max_text_index = index_word_list_brl
start
end
52
ผวจยไดออกแบบฟงกชน ngram_to_word เพ�อทาหนาท�เปล�ยนจากรปแบบเอนแกรม (N-gram pattern) ใหไปเปนคาอกษรเบรลลภาษาไทยระดบ 1 โดยใชหลกการของ Pattern Matching และการใหคะแนนความคลายคลง ท*งน* เพราะตองการนาคาอกษรเบรลลภาษาไทยดงกลาวไปคนหารปแบบของคาในไฟลโมเดลอกษรเบรลลภาษาไทยท�บงบอกวาคาอกษรเบรลลคาใดสามารถเกดรวมกนกบคาใดไดบางและแตละรปแบบมคาความนาจะเปนเทาไหร ซ� งวธการทางานของฟงกชน ngram_to_word มรายละเอยดดงน*
1. นาแตละรปแบบเอนแกรม (N-gram pattern) ไปเปรยบเทยบกบรายการคาอกษร
เบรลลภาษาไทยท�ไดสรางเอาไวแลว โดยใชหลกการเชนเดยวกนกบ Pattern
Matching แตอกขระตวแรกของรปแบบเอนแกรมจะตองตรงกนกบอกขระตวแรกของ
รายการคาอกษรเบรลลภาษาไทยเทาน*น
2. ใหคะแนนแตละรปแบบเอนแกรมโดยหากอกขระตวแรกตรงกนกบรายการคาอกษร
เบรลลภาษาไทยกใหคะแนน 1 คะแนนและหากตวถดๆ ไปตรงกนอกกเพ�มคะแนน
เชนน* ไปเร�อยๆ จนหมดความยาวรปแบบเอนแกรมและอกขระของรปแบบเอนแกรม
และอกขระของรายการคาอกษรเบรลลภาษาไทยท�เหมอนกนตองมลกษณะเรยงตดกน
ไปตลอดไมมอกขระอ�นๆ ท�ไมตรงกนมาค�นกลาง
3. หากรปแบบเอนแกรมใดมคาคะแนนมากกวาคาคะแนนมากท�สด (max_score) ใหเกบ
คาตางๆ ดงน*
• เกบคารปแบบเอนแกรมท�มคะแนนมากท�สดไวในตวแปร max_pattern
• เกบคาคะแนนมากท�สดไวในตวแปร max_score
• เกบคาอกษรเบรลลภาษาไทยท�มความคลายคลงกบรปแบบเอนแกรมมากท�สดไว
ในตวแปร max_text
• เกบคา Index ของคาอกษรเบรลลภาษาไทยท�มความคลายคลงกบรปแบบ
เอนแกรมมากท�สดไวในตวแปร max_text_index
4. ทาซ* าจนกวาจะครบรปแบบเอนแกรมท*งหมด
53
และเพ�อใหงายตอการทาความเขาใจผวจยจงใชกรณตวอยางในรปท� 3.12a และ 3.12b
อธบายวธการคดคะแนนความคลายคลงกนระหวางรปแบบเอนแกรมและรายการคาอกษรเบรลล
ภาษาไทยระดบ 1 ดงตอไปน*
รปท� 3.12a กรณท�มการเรยงตวอกขระเหมอนกนท*งหมด
ในกรณรปท� 3.12a น* เปนกรณท�มการเรยงอกขระของรปแบบเอนแกรมและการเรยงอกขระของคาอกษรเบรลลภาษาไทยระดบ 1 ท�ไดสรางเอาไวแลวเหมอนกนจนกระท�งหมดความยาวของรปแบบเอนแกรม ซ� งจะคดคะแนนตามจานวนลกษณะการเรยงอกขระท�เหมอนกนและตอเน�องกนไปเร�อยๆ กลาวคอ เม�ออกขระของรปแบบเอนแกรมตาแหนงแรกคอตวอกขระ “g” ตรงกนกบอกขระตวแรกของคาอกษรเบรลลภาษาไทยซ� งเปนตวอกขระ “g” เชนเดยวกนกจะใหคะแนน 1 คะแนนและเกบคาคะแนนไวในตวแปร score และอกขระตวถดไปซ� งเปนตวอกขระ “,” ตรงกนอกกจะเพ�มคะแนนอก 1 คะแนนรวมเปน 2 คะแนนและทาเชนน* ไปเร�อย ๆ จนกวาจะพบอกขระท�เรยงไมเหมอนกนจงหยดการเพ�มคะแนน
1 2 3 4
A
g , d h m * y
g , d h
ถาอกขระตรงกนใหเพ�มคา score = score +1
54
รปท� 3.12b กรณท�มการเรยงตวอกขระไมเหมอนกนท*งหมด
ในกรณรปท� 3.12b น* การเรยงตวอกขระระหวางรปแบบเอนแกรมและคาอกษรเบรลลภาษาไทยเหมอนกนบางสวน กลาวคอตวอกขระตวแรกของรปแบบเอนแกรมเปนตวอกษร “g” เชนเดยวกนจงใหคะแนนเพ�ม 1 คะแนนและตวอกขระตวท� 2 เปนตวอกษร “,” เชนเดยวกนอกกเพ�มคะแนนใหอก 1 คะแนนรวมเปน 2 คะแนนและตวอกขระตวท� 3 ของรปแบบเอนแกรมเปนตว “d” แตตวอกขระตวถดไปของคาอกษรเบรลลภาษาไทยเปนตว “n” ซ� งไมตรงกนจงหยดการเพ�มคะแนนเพยงเทาน*แมวาตวอกขระท� 4 และ 5 ของคาอกษรเบรลลภาษาไทยจะตรงกนกบตวอกษรท�เหลอของรปแบบเอนแกรมกตาม
B
g , n d h m *
g , d h
ถาอกขระตรงกนใหเพ�มคา score = score +1
1 2
55
รปท� 3.13 ข*นตอนการทางานของฟงกชน find_ngram
จากรปท� 3.13 แสดงข*นตอนการทางานของฟงกชน find_ngram ซ� งมรายละเอยดดงตอไปน* 1. นาคาท�เกบไวในตวแปร max_text ไปคนหาในรายการคาโมเดลอกษรเบรลลภาษาไทยซ� ง
เกบไวในตวแปร array_ngram_word_list (รายละเอยดของรายการโมเดลอกษรเบรลล
ภาษาไทยจะอธบายในหวขอท� 3.7 เอนแกรมโมเดล)
2. หากพบคา max_text ใหเกบคาความนาจะเปนของรปแบบคาๆ น*นในตวแปร current_prob
หากไมพบใหสงคา max_text ไปใหกบฟงกชน calculate_smoothing เพ�อประมาณคาความ
นาจะเปนของรปแบบคาๆ น*น จากน*นจงจบการทางาน (รายละเอยดของการประมาณคา
ความนาจะเปนจะอธบายในหวขอท� 3.8 Smoothing Techniques)
นาคา max_text ไปคนหาในไฟลท�ใชฝกฝนเอนแกรมโมเดล
พบ max_text ในไฟลฝกฝนเอนแกรมโมเดล?
yes
no
สง max_text ไปใหฟงกชน calculate_smoothing เพ�อ
ประมาณคาความนาจะเปน
max_prob > current_prob ?
yes
no คนหา
จนกร
ะท �งจ
บไฟล
ฝกฝน
เอนแ
กรมโ
มเดล
เกบคา max_prob = current_prob ของคาท�มคาความนาจะเปนสงท�สด เกบคา max_word = ngram_word ของรปแบบคาท�มคาความนาจะเปนสงท�สด
start
end
end
56
3. คนหาจนกระท�งหมดรายการคาโมเดลอกษรเบรลลภาษาไทยเพ�อคนหารปแบบของคาท�ม
คาความนาจะเปนสงท�สดโดยเกบไวในตวแปร max_prob
4. เกบคาความนาจะเปนท�สงท�สดของรปแบบคาไวในตวแปร max_prob และเกบรปแบบคา
ท�มคาความนาจะเปนสงท�สดไวในตวแปร max_word
5. สงคา max_prob และ max_word กลบไปใหฟงกชน select_output เพ�อประกอบการ
ตดสนใจแบงคาตอไป
3.6.4 ข&นตอน translate_to_thai ในข*นตอน translate_to_thai น*ทาหนาท�แปลงจากประโยคอกษรเบรลลท�ไดตดคาแลวใหอยในรปของประโยคภาษาไทย โดยใชงานรวมกนกบ รายการคาอกษรเบรลลภาษาไทยและรายการคาภาษาไทย ซ� งจะอธบายรายละเอยดในหวขอท� 3.9 รายการคาอกษรเบรลลภาษาไทยและรายการคาภาษาไทย ซ� งวธการแปลงประโยคอกษรเบรลลภาษาไทยระดบ 1 ท�ไดตดคาไวแลวไปเปนประโยคภาษาไทย จะใชวธเทยบคาคอ แทนท�คาอกษรเบรลลภาษาไทยระดบ 1 ดวยคาในภาษาไทยท�ตรงกนโดยคนหารายการของคาท�ตรงกนจากรายการคาอกษรเบรลลภาษาไทยและรายการคาภาษาไทย ท�ไดสรางไวกอนแลว ดงแสดงในรปท� 3.14
57
รปท� 3.14 ภาพรวมวธการแปลงแบบเทยบคา
ในวธการแปลงแบบเทยบคาน* ผวจยไดออกแบบฟงกชนหลกท�ช�อวา mapping_translate เพ�อทาหนาท�ในการแปลงแบบเทยบคา ซ� งมการประกาศฟงกชนเปน string mapping_translate (string text) โดยมการรบ Parameter เปนตวแปรชนด String คอประโยคอกษรเบรลลภาษาไทยระดบ 1 ท�ไดแบงคาไวเรยบรอยแลวน�นเอง และมการคนคาเปนชนด String เชนกนคอประโยคภาษาไทย โดยฟงกชน mapping_translate มรายละเอยดของตวแปรชนดตางๆ ท�ใชงานรวมกนดงแสดงในตารางท� 3.6 และมข*นตอนการทางานดงแสดงในรปท� 3.15 และ 3.16 โดยในรปท� 3.15 เปนฟงกชนหลกและรปท� 3.16 เปนฟงกชน match_brl ซ� งทาหนาท�คนหาคาอกษรเบรลลภาษาไทย
Input <pipe>g,dhm*y<pipe>g>v<pipe>g*r<pipe>v(dv>}<pipe>unjn
Output
Input <pipe>g>v<pipe>g*r<pipe>v(dv>}<pipe>unjn
Output กฎหมาย รอบท� 1
g,dhm*y =
กฎหมาย
Input <pipe>g*r<pipe>v(dv>}<pipe>unjn
Output กฎหมายกบ รอบท� 2
g>v =
กบ
Input <pipe>v(dv>}<pipe>unjn
Output กฎหมายกบการ รอบท� 3
g*r =
การ
Input <pipe>unjn
Output กฎหมายกบการเบยดบง รอบท� 4
v(dv>} =
เบยดบง
Input
Output กฎหมายกบการเบยดบงคนจน รอบท� 5
unjn =
คนจน
การจบคคา
จากรายการคา
58
ตารางท� 3.6 ตวแปรตางๆ ท�ใชในข*นตอน translate_to_thai ช�อของตวแปร ชนดของตวแปร หนาท�ของตวแปร
text String เกบประโยคอกษรเบรลลภาษาไทยระดบ 1 ท�ตดคาเรยบรอยแลว
length_text Integer เกบคาด*งเดมความยาวของประโยคอกษรเบรลลภาษาไทยระดบ 1 ท�ตดคาเรยบรอยแลว
temp_length_text Integer เกบคาความยาวปจจบนของประโยคอกษรเบรลลภาษาไทยระดบ 1 ท�กาลงแปลงใหเปนประโยคภาษาไทย
length_match_brl Integer เกบคาความยาวของคาอกษรเบรลลภาษาไทยปจจบนท�นาไปแปลงใหเปนคาภาษาไทย
length_word_copy Integer เกบคาความยาวท*งหมดของคาอกษรเบรลลภาษาไทยท�แปลงไปเปนคาภาษาไทยแลว
start_index_copy Integer เกบคาตาแหนงอกขระอกษรเบรลลภาษาไทยท�จะนาไปแปลงเปนคาภาษาไทย
output_line String เกบประโยคภาษาไทยท�แปลงมาจากประโยคอกษรเบรลลภาษาไทย
temp_brl String เกบอกษรเบรลลภาษาไทยและสงไปใหฟงกชน match_brl แปลงเปนภาษาไทย
thai_word_match Global String เกบคาภาษาไทยท�คนหาในรายการคาแลวตรงกนกบคาอกษรเบรลลภาษาไทยท�ไดสงไปแปลง
59
รปท� 3.15 การทางานของข*นตอน translate_to_thai
หาตาแหนงของ <pipe>
ลบ <pipe> ท� index = 0 ออก
หาตาแหนงของ <pipe> อนถดไป
คดลอกอกขระอกษรเบรลลต*งแต index ท� 0 ไปจนถงตาแหนงท�พบ <pipe> - 1
แลวเกบในตวแปร temp_brl
สงตวแปร temp_brl ไปใหฟงกชน match_brl เพ�อแปลงเปนภาษาไทย
ลบอกขระต*งแต index 0 จนถง index ท�พบ <pipe> -1
นาคาจากตวแปร thai_word_match ท�ไดจากฟงกชน match_brl มาใสในตวแปร output_line
input_text = 0 ?
yes
no
start
end
60
รปท� 3.16 การทางานของฟงกชน match_brl
จากรปท� 3.15 และ 3.16 มรายละเอยดการทางานตางๆ ดงตอไปน* 1. หาตาแหนงของสญลกษณ <pipe> จากประโยคอนพต
2. ลบสญลกษณ <pipe> ท�ตาแหนงเร�มตนออก
3. หาตาแหนงของสญลกษณ <pipe> อนถดไป
4. คดลอกอกขระอกษรเบรลลท�แบงคาเสรจแลวต*งแตตาแหนงเร�มตนจนถงตาแหนงท�พบ
<pipe> - 1 อนถดไปและสงใหกบฟงกชน match_brl เพ�อคนหาคาภาษาไทยท�ตรงกน
5. นาคาภาษาไทยท�คนหาพบจากฟงกชน match_brl ไปใสในตวแปร output_line
6. ลบอกขระอกษรเบรลลต*งแตตาแหนงแรกจนถงตาแหนงท�พบ <pipe> - 1
7. ทาซ* าต*งแตขอ 1-6 จนกวาประโยคอนพตจะหมดลง
เกบคาไวในตวแปร pattern
Braille Word list
Thai Word list
เกบคาภาษาไทยท�พบในตวแปร thai_word_match โดยใช index เดยวกนกบ index_word_list_brl
คนหาคา pattern ท�เหมอนกนกบคาใน Braille Word list
เกบคา index ของ Braille Word list ท�พบไวในตวแปร index_word_list_brl
start
end
61
3.7 การประยกตเอนแกรมโมเดล เทคนคเอนแกรมโมเดลเปนเทคนคทางดานสถตท�ใชสรางโมเดลภาษาและคานวณหาคา
ความนาจะเปนท�คาๆ หน� งสามารถเกดรวมกบคาๆ ใดไดบางดวยคาความนาจะเปนเทาไหร (รายละเอยดดานทฤษฎไดอธบายไวในหวขอท� 2.5 เอนแกรมโมเดล) ซ� งในงานวจยน* ไดนาเทคนคดงกลาวมาประยกตใชตดคาอกษรเบรลลภาษาไทยกอนท�จะแปลงไปเปนภาษาไทยเพ�อลดความกากวมอนเน�องมาจากลกษณะไวยากรณการเขยนของอกษรเบรลลภาษาไทยระดบ 1 ท�เขยนคาแตละคาตดกนตอเน�องกนไปและใชการเวนวรรคเพ�อแบงแตละประโยคออกจากกนแตจะมการเรยงอกษรนา อกษรตาม สระ วรรณยกตและตวสะกดท�แตกตางไปจากลกษณะไวยากรณของภาษาไทย โดยวธการไฟลโมเดลอกษรเบรลลภาษาไทยหรอการฝกฝนเอนแกรมโมเดลไดอธบายไวในหวขอท� 3.3.2 และรายละเอยดของเคร�องมอท�ใชไดอธบายไวในหวขอท� 2.7 CMU-SLM toolkit
โดยในหวขอน* จะกลาวถงวธการจดเตรยมขอมลดงกลาวและจดเกบไวในหนวยความจาหลกและการนาไปใชงาน ซ� งผวจยไดออกแบบฟงกชนช�อวา load_ngram_word ซ� งจะทาหนาท�อานไฟลท�ฝกฝนเอนแกรมโมเดลและประมวลผลเพ�อแยกชนดของขอมลและเกบขอมลดงกลาวไปไวในหนวยความจาหลก โดยมการประกาศฟงกชนเปน void load_ngram_word() โดยมรายละเอยดของตวแปรตางๆ ท�ใชในฟงกชนน*ดงแสดงในตารางท� 3.7
ตารางท� 3.7 ตวแปรตางๆ ท�ใชในฟงกชน load_ngram_word
ช�อของตวแปร ชนดของตวแปร หนาท�ของตวแปร index_ngram_row Array of Integer เกบตาแหนงบรรทดของแตละแกรม
num_row Array of Integer เกบจานวนแถวของแตละแกรม num_column Array of Integer เกบจานวนคอลมนของแตละแกรม
row Global Integer เกบ index ของแถว column Global Integer เกบ index ของคอลมน
ngram_word Global 2D Array of String เกบรายการคาของเอนแกรม ngram_prob Global Double เกบคาความนาจะเปนของเอนแกรม
ngram_back_of_weight Global Double เกบคาดชนถวงน*าหนกของเอนแกรม ผวจยไดออกแบบการทางานของฟงกชน load_ngram_word เปน 2 ชวง ดงน* 1) อานขอมล
ในไฟลฝกฝนเอนแกรมโมเดลเพ�อคานวณจานวนแถวและคอลมนของแตละแกรมเพ�อจองขนาดของตวแปรท�ใชเกบขอมลดงกลาวไดถกตอง 2) อานขอมลดงกลาวและจดเกบไวในตวแปรแตละ
62
ประเภทตามท�ไดออกแบบไว โดยฟงกชน load_ngram_word มข*นตอนการทางานดงแสดงในรปท� 3.17
รปท� 3.17 ข*นตอนการทางานของฟงกชน load_ngram_word
คานวณจานวนตวแปร index_ngram_row[i] โดย i เทากบ
จานวนแกรมท�ไดกาหนดไว
อานไฟลท�ใชฝกฝนเอนแกรมโมเดลโดยเกบตาแหนงบรรทดท�ระบการเร�มตนของแตละ
จานวนแกรมไวในตวแปร index_ngram_row[i]
คานวณจานวนแถวของแตละแกรมท�ตองการโดยนาคาท�อยในตวแปร index_ngram_row[i] ท�ตดกนมาคานวณดงน*
num_row[i] = index_ngram_row[i] – index_ngram_row[i-1] - 1
คานวณจานวนคอลมนของแตละแกรมท�ตองการโดย num_cloumn = gram + 2
อานไฟลท�ใชฝกฝนเอนแกรมโมเดลโดยแยกเกบขอมลตามชนดและตวแปรดงน* ngram_prob[num_column=1]
เกบคาความนาจะเปนของเอนแกรมแตละแถวซ�งอยในคอลมนแรก ngram_back_of_weight[num_column=gram+2]
เกบคาดชนถวงน*าหนกของแตละแกรมซ�งอยในคอลมนสดทาย ngram_word[num_row][num_column] เกบรายการคาแตละคาของเอนแกรม
start
end
63
จากรปท� 3.17 มรายละเอยดข*นตอนการทางานตางๆ ดงตอไปน* 1. คานวณจานวนตวแปรท�ใชเกบตาแหนงเร�มตนของแตละแกรมซ� งมจานวนเทากบขนาด
ของจานวนแกรมท�ไดกาหนดไว กลาวคอ หากกาหนดขนาดแกรมไวท� 3-แกรม กตอง
กาหนดจานวนตวแปร index_ngram_row[gram] ใหมจานวนเทากบ 3 ชดดวยเพ�อท�จะเกบ
ตาแหนงเร�มตนของแกรมคอ 1-gram, 2-gram และ 3-gram วาอยท�บรรทดไหนบาง เปนตน
2. อานไฟลโมเดลอกษรเบรลลภาษาไทยโดยเกบตาแหนงเร�มตนของแตละแกรมไวในตว
แปร index_ngram_row[gram] โดยสามารถตรวจสอบไดจากการเปรยบเทยบคา กลาวคอ
ตาแหนงเร�มตนของ 1-แกรม จะมคากากบเปน \1-grams: และตาแหนงเร�มตนของ 2-แกรม
จะมคากากบเปน \2-grams: เปนลกษณะเชนน* ไปเร�อยๆ จนกระท�งครบตามจานวนแกรมท�
ไดกาหนดไว ซ� งจะทาใหทราบไดวาตาแหนงเร�มตนของแตละแกรมอยท�บรรทดไหนบาง
และเกบตาแหนงบรรทดเหลาน*นไวในตวแปร index_ngram_row[gram]
3. คานวณจานวนแถวของแตละแกรมท�ตองการโดยจดเกบไวในตวแปร num_row[i] ซ� ง
คานวณไดจาก num_row[i] = index_ngram_row[i] – index_ngram_row[i-1] – 1 ซ� งจะได
จานวนแถวท�ตองการเพ�อจดเกบรปแบบเอนแกรมของแตละขนาดแกรมต*งแต 1-แกรม ไป
จนถงขนาดแกรมท�ไดกาหนดไว
4. คานวณจานวนคอลมนของแตละรปแบบเอนแกรมท�ตองการโดยจดเกบไวในตวแปร
num_column[i] ซ� งคานวณไดจาก num_column[i] = gram + 2 คอในแตละแกรมจะม
คอลมนท�เพ�มข*นมาสาหรบจดเกบคาความนาจะเปนของแตละรปแบบเอนแกรมและคา
ดชนถวงน* าหนกของแตละรปแบบเอนแกรม (ตามท�ไดแสดงไวในรปท� 3.18) ยกเวน
จานวนแกรมสดทายตามท�ไดกาหนดไวซ� งในตวอยางน* ไดกาหนดขนาดของแกรมเทากบ
3-แกรม โดยจานวนแกรมสดทายท�ไดกาหนดไวกคอจานวนแกรมท� 3-gram ซ� งจะมเพ�ม
ข* นมาอกเพยง 1 คอลมนเทาน*นสาหรบจดเกบคาความนาจะเปนของแตละรปแบบ
เอนแกรม
5. อานไฟลโมเดลอกษรเบรลลภาษาไทยโดยแยกจดเกบขอมลชนดตางๆ ลงในตวแปรแตละตวแปรตามท�ไดกาหนดไว กลาวคอ 5.1. เกบคาความนาจะเปนของแตละรปแบบเอนแกรมแตละแถวซ� งอยในคอลมนแรก
เสมอไวในตวแปร ngram_prob[num_column=1]
64
5.2. เกบคาดชนถวงน* าหนกของแตละรปแบบเอนแกรมในแตละแถวซ� งจะอยท�คอลมนสดทายเสมอ ไวในตวแปร ngram_back_of_weight[num_column=gram+2] ยกเวนจานวนแกรมสดทายท�ไมมคาดชนถวงน*าหนก
5.3. เ ก บ ร า ย ก า ร ค า ข อ ง แ ต ล ะ เ อ น แ ก ร ม ใ น ต ว แ ป ร ngram_word[num_row] [num_column] โดยแบงตามแถวและคอลมนตามท�ไดออกแบบไว
6. จบการของฟงกชนน* โดยออกแบบใหฟงกชนเร� มตนการทางานพรอมกบการเร� มโปรแกรมหลก
และเพ�อเปนการงายตอการทาความเขาใจผวจยจงใชแผนภาพเพ�ออธบายการจดเกบขอมลจากไฟลโมเดลอกษรเบรลลภาษาไทยลงในตวแปรประเภทตางๆ ดงแสดงในรปท� 3.18 โดยสมมตวากาหนดจานวนแกรมไวเปน 3-แกรม
โดยมการแบงการจดเกบขอมลชนดตางๆ ในตวแปรประเภทตางๆ ดงตอไปน* 1. เก บ ลา ดบ ท� บ รรทดข อง ตา แหนง เ ร� ม ตนข อง แ ตล ะ แก รม ไ วใ นตวแป ร
index_ngram_row[i] โดยใชวธคนหาจากการเปรยบเทยบคาคอ ตาแหนงเร�มตน
ของแตละแกรมจะมลกษณะเปน \1-grams:, \2-grams: เปนเชนน* ไปเร� อยๆ
จนกระท�งถงจานวนแกรมท�ไดกาหนดไว
2. เกบคาความนาจะเปนของแตละรปแบบเอนแกรมไวในตวแปร ngram_prob ซ� งจะ
อยในคอลมนแรกของแตละแถวท�ไมใชแถวของตาแหนงเร�มตนของแตละแกรม
ซ� งจากรปท� 3.18 คอคาตวเลขท�แสดงอยในกรอบลกษณะ
3. เกบคาดชนถวงน* าหนก (Back-off weight) ของแตละรปแบบเอนแกรมไวในตว
แปร ngram_back_of_weight ซ� งจะอยคอลมนทายสดของแตละแถวเสมอยกเวน
จานวนแกรมสดทายจะไมมคาดชนถวงน* าหนก ซ� งจากรปท� 3.18 คอคาตวเลขท�
แสดงอยในกรอบลกษณะ
4. เกบคาคาของแตละรปแบบเอนแกรมซ�งเปนคาแตละคาท�เขยนอยในรปแบบอกษร
เบรลลภาษาไทยระดบ 1 โดยเกบไวในตวแปร ngram_word[row][column] ตาม
ตาแหนงของแถวและคอลมนท�ไดกาหนดไว ซ� งจากรปท� 3.18 คอตวอกษรเบรลล
ท�แสดงอยในกรอบลกษณะ
65
รปท� 3.18 วธการจดเกบขอมลในตวแปรประเภทตางๆ
\1-grams:
-5.1338 0.2118
-5.6109 0.3348
\2-grams:
-1.5478
-1.5478
0.5339
-0.1462
\3-grams:
-0.5000
-0.3346
คานวณ num_row[1] = index_ngram_row[2] - index_ngram_row[1] -1
คานวณ num_row[2] = index_ngram_row[3] - index_ngram_row[2] -1
คานวณ num_row[2] = บรรทดสดทาย - index_ngram_row[2] -1
จดเกบในตวแปร ngram_prob
จดเกบในตวแปร ngram_back_of_weight
จดเกบในตวแปร ngram_word
index_ngram_row[1]
index_ngram_row[2]
index_ngram_row[3]
คานวณ num_column = gram+2
คานวณ num_column = gram+2
ยกเวนจานวนแกรมสดทาย num_column = gram+1
!*g1
!*ivr!*
)zn(vr>,tv*l gra)rw}fg-
)zn(vr>,tv*l sn*mhlw}
<m9 ;1 <n9non
<m9 ?29 n4o}
66
3.8 Smoothing Techniques ท�เลอกใช เทคนค Smoothing Technique ท�เลอกใชในวทยานพนธน* ใชวธการของ Jelinek-Mercer
Smoothing (Interpolation) ในการประมาณคาความนาจะเปน ซ� งวธการแบบ Interpolation คอการนาเอาคาความนาจะเปนของจานวนแกรมอ�นๆ มาคานวณรวมกนเพ�อประมาณคาความนาจะเปน โดยมสมการคานวณคาความนาจะเปนดงสมการท� 5
( ) ( ) ( )1i2niiinterpw
1i1niiMLw
1i1niiinterp w|wP)1(w|wPw|wP 1i
1ni1i
1ni
−
+−
−
+−
−
+− −+−
−+−
−+= λλ....... (5)
และเพ�อใหงายตอการทาความเขาใจผวจยจงใชแผนภาพในการอธบายดงแสดงในรปท� 3.19
รปท� 3.19 ภาพรวมการทางานของ Interpolation
จากรปท� 3.19 สมมตวากาหนดการฝกฝนเอนแกรมโมเดลดวยจานวนแกรมเทากบ 4-แกรมและในคลงขอมลฝกไมพบคาท�ตองการเม�อคนหาท�จานวนแกรมเทากบ 4-แกรม ดงน*นจงใชวธการประมาณคาความนาจะเปนแบบ Interpolation โดยใชชดเคร�องมอ CMU-SLM Toolkit ประมาณคาความนาจะเปนโดยการใชจานวนแกรมท�ถดไปเร�อยๆ จนถง 1-แกรมมาคานวณรวมกน กลาวคอคาความนาจะเปนท�ไดจากการประมาณคาของคาท�ไมพบในจานวนแกรมเทากบ 4-แกรม มคาเทากบคา Back-off weight ของ 3-แกรมคณดวยคาความนาจะเปนของจานวนแกรม 3-แกรม บวกดวย คา Back-off weight ของ 2-แกรมคณดวยคาความนาจะเปนของจานวนแกรม 2-แกรม บวกดวย คา Back-off weight ของ 1-แกรมคณดวยคาความนาจะเปนของจานวนแกรม 1-แกรม
4-gram order
3-gram order
2-gram order
1-gram order
Calculate Interpolation
CMU-SLM Toolkit
Interpolation probability
67
และในวทยานพนธน* ผวจยไดสรางฟงกชน calculate_smoothing เพ�อประมาณคาความนาจะเปนในกรณท�ไมพบคาหรอชดของคาในคลงขอมลฝก โดยมการประกาศฟงกชนเปน double calculate_smooth (string word) โดยมการรบพารามเตอร (Parameter) เปนตวแปรชนด String คอคาอกษรเบรลลภาษาไทยระดบ 1 ท�ไมพบในคลงขอมลฝกและมการคนคาเปนชนด Double คอคาความนาจะเปนท�ไดจากการประมาณคาโดยฟงกชน calculate_smoothing และมรายละเอยดของตวแปรชนดตางๆ ท�ใชงานรวมกนดงแสดงในตารางท� 3.8 และมข*นตอนการทางานแสดงในรปท� 3.20
ตารางท� 3.8 ตวแปรตางๆ ท�ใชในข*นตอน calculate_smoothing
ชนดของตวแปร ช�อของตวแปร หนาท�ของตวแปร
Double prob_cal_value เกบคาความนาจะเปนท�ไดจากการประมาณคา
String word_miss เกบคาของคาท�ไมพบในคลงขอมลฝก
Array of Double back_off_weight_value เกบคาดชนถวงน*าหนกของแตละจานวนแกรม
Array of Double prob_value เกบคาความนาจะเปนของแตละจานวนแกรม
68
รปท� 3.20 การทางานของฟงกชน calculate_smoothing
สรางตวแปร back_off_weight_value และตวแปร prob_value ชนด array of double จานวน gram-1
คนหาคา word_miss ในคลงขอมลฝกฝนเอนแกรมโมเดล
เกบคาความนาจะเปนของแตละ แกรมลงในตวแปร prob_value[n]
เกบคาดชนถวงน*าหนกของแตละแกรมลงในตวแปร back_off_weight_value[n]
คานวณคา prob_cal_value = prob_cal_value + (prob_value[n] * back_off_weight_value[n])
ลดคาตวแปร n ใน array ของ prob_value[n] และ back_off_weight_value[n] ลงคร* งละ 1
n=0?
yes
no
Return คา prob_cal_value กลบไป
start
end
69
จากรปท� 3.20 มรายละเอยดการทางานตางๆ ดงตอไปน* 1. สรางตวแปร back_off_weight_value และ prob_value ชนด Array of Double จานวน
gram-1 ตามท�ไดกาหนดไว
2. คนหารปแบบคาท�ไมพบในคลงขอมลฝกในขนาดแกรมท� gram-1, gram-2 ไปเร�อยๆ จนถง
ขนาด 1-gram
3. เกบคาดชนถวงน* าหนก (Back-off weight) ของแตละแกรมลงในตวแปร
back_off_weight_value[n] และเกบคาความนาจะเปนของแตละแกรมลงในตวแปร
prob_value[n]
4. คานวณคาความนาจะเปนแบบ Interpolation โดยนาผลรวมของคาดชนถวงน* าหนก (Back-off weight) ของแตละแกรมคณดวยคาความนาจะเปนของแตละแกรมและเกบไวในตวแปร prob_cal_value และสงคนคาความนาจะเปนแบบ Interpolation กลบคนไปใหคาสงท�เรยกใชฟงกชนน*
3.9 รายการคาอกษรเบรลลภาษาไทยและรายการคาภาษาไทย รายการคาอกษรเบรลลภาษาไทยและรายการคาภาษาไทยท�ผวจยไดจดเตรยมข*นมาน* จะ
นาไปใชในข*นตอน Translate_to_Thai และเน�องจากเอนแกรมโมเดลน*นสามารถนาไปใชในดานการหาขอบเขตของคาเทาน*น ไมสามารถนาไปใชแปลงอกษรเบรลลภาษาไทยใหเปนภาษาไทยได นอกจากน* ผวจ ยตองการเปรยบเทยบประสทธภาพระหวางโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file [1] เดม กบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมชวยในการตดคาท�ไดนาเสนอไวในวทยานพนธฉบบน* ซ� งโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file เดมน*นจะใหเอาทพทเปนขอความภาษาไทยทาใหจาเปนตองมข*นตอน Translate_to_Thai เพ�มเตมเขามาเพ�อแปลงใหเอาทพทเปนขอความภาษาไทยเหมอนกนเพ�อเปรยบเทยบกนไดโดยตรง
ดงน*นผวจยจงออกแบบใหการแปลงจากอกษรเบรลลภาษาไทยเปนภาษาไทยใชวธการแบบเทยบเปนคาตอคา เชน เม�อตดคาอกษรเบรลลภาษาไทยไดเปนคาวา “g,dhm*y” ซ� งตรงกนกบคาวา “กฎหมาย” ในภาษาไทย เม�อใชวธเทยบเปนคาตอคากจะแทนท�คา “g,dhm*y” ดวยคาวา “กฎหมาย” ลงไปแทนในตาแหนงเดยวกนของขอความ ซ� งเม�อใชวธการน* แลวทาใหจาเปนตองสรางท*งรายการคาอกษรเบรลลภาษาไทยและรายการคาภาษาไทยข*นมาเพ�อท�จะนาไปใชกบวธการเทยบเปนคาตอคา โดยข*นตอนการสรางรายการคาภาษาไทยแสดงไวในรปท� 3.21
70
รปท� 3.21 ข*นตอนการสรางรายการคาภาษาไทย
จากรปท� 3.21 มรายละเอยดวธการสรางรายการคาภาษาไทยเพ�อนาไปใชในข*นตอน Translate_to_Thai ดงตอไปน*
1. นาไฟลคลงขอความ BEST ท*งหมดรวมเขาเปนไฟลๆ เดยวกน เพ�อความสะดวกตอการ
นาไปใชงานและเพ�อใชในข*นตอนการสรางรายการคา (Generate word list)
2. เน�องจากขอจากดของโปรแกรม text2wfreq ท�อยในชดเคร�องมอ CMU-SLM toolkit ไม
สามารถประมวลผลภาษาไทยไดโดยตรง ทาใหตองมการดดแปลงเคร�องหมายค�น
ระหวางคาเปนชองวาง (Space) แทนเพ�อใหเหมอนกบการเขยนคาในภาษาองกฤษท�ใช
ชองวางเปนตวบงบอกขอบเขตของคา ดงน*นผวจยจงไดแทนท�เคร�องหมายค�นระหวาง
คา (“|”) ท�ใชในคลงขอความ BEST ดวยชองวางแทน
3. สรางรายการคาโดยเรยกใชโปรแกรม text2wfreq ดวยคาส�ง “text2wfreq -hash
1000000 <input.text> output.wfreq” โดย text2wfreq เปนโปรแกรมท�ใชสรางรายการ
คาและออฟช�น –hash 1000000 หมายถงใหจองพ*นท�หนวยความจาไวสาหรบการสราง
BEST Corpus
BEST Corpus Single file
Replace pipe with space Remove pipe
BEST Corpus Removed pipe
Generate word list (text2wfreq)
Word list file with frequency
เอกสาร|ประกอบ|ทาง|วชาการ| |ใน|การ|ประชม|วชาการ|รฐศาสตร|และ|รฐประศาสนศาสตร|แหง|
เอกสาร ประกอบ ทาง วชาการ ใน การ ประชม วชาการ รฐศาสตร และ รฐประศาสนศาสตร แหง
เยน 1421 รถเขน 3 เชค 147 เลว 173
71
Hash-table เพ�อใชในการจดเกบรายการคา ถดไปจะเปนช�อของไฟลอนพตและช�อของ
ไฟลเอาทพทตามลาดบ โดยนามสกลของไฟลเอาทพทจะเปน *.wfreq ซ� งกคอรายการ
ความถ�ของคาน�นเอง
เม�อไดรายการคาภาษาไทยเรยบรอยแลวจงนารายการคาดงกลาวไปแปลงใหอยในรปแบบของอกษรเบรลลภาษาไทยระดบ 1 โดยใชโปรแกรมแปลงภาษาไทยไปเปนอกษรเบรลล [1] (รายละเอยดของโปรแกรมแปลงภาษาไทยไปเปนอกษรเบรลลจะอธบายในหวขอ 2.8) ซ� งใหเอาทพทเปนขอความท�อยในรปแบบอกษรเบรลลภาษาไทย โดยใชคาส�ง Thai2brl <[Input file] >[OutputFile] –g 1 ใน Shell prompt โดยโปรแกรม Thai2brl เปนโปรแกรมท�ทาหนาท�แปลงจากภาษาไทยเปนอกษรเบรลลภาษาไทย และถดไปเปนช�ออนพตไฟลและเอาทพทไฟลตามลาดบ และออฟช�น –g 1 หมายถงระบใหเอาทพทอยในรปแบบของอกษรเบรลลภาษาไทยระดบ 1
เม�อสรางท*งรายการคาอกษรเบรลลภาษาไทยและรายการคาภาษาไทยแลว จงนาไปใชงานในโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ไดออกแบบไวตอไป โดยผวจยไดออกแบบใหจดเกบรายการคาดงกลาวไวในหนวยความจา โดยมรายละเอยดตางๆ ดงแสดงในตารางท� 3.9 ดงน*
ตารางท� 3.9 ตวแปรชนดตางๆ ท�ใชในการสรางรายการคา
รายละเอยด/ประเภทรายการคา รายการคาอกษรเบรลลภาษาไทย รายการคาภาษาไทย ช�อฟงกชนท�ใชโหลดขอมล void load_braille_word_list() void load_word_list() ประเภทขอมลท�ใชจดเกบ global array of string global array of string ช�อขอมลท�ใชจดเกบ word_list_brl[] word_list[] ประเภทขอมลท�จดเกบดชน global integer global integer ช�อขอมลท�ใชจดเกบดชน index_word_list_brl index_word_list เรยกใชงานฟงกชนเม�อ เร�มโปรแกรมหลก เร�มโปรแกรมหลก
ในตารางท� 3.9 จะเหนไดวาลกษณะของฟงกชนและขอมลท�ใชจดเกบรายการคาอกษร
เบรลลภาษาไทยและรายการคาภาษาไทยน*นจะคลายคลงกน แตจะแตกตางกนเพยงแคลกษณะขอมลท�ถกจดเกบไวในหนวยความจาเทาน*น ซ� งกคอเปนรายการคาอกษรเบรลลภาษาไทยกบรายการคาภาษาไทยเทาน*นท�แตกตางกน
72
รายการคาอกษรเบรลลภาษาไทยและรายการคาภาษาไทยน*ผวจยไดออกแบบใหมฟงกชนส า ห ร บ จด เ ก บ ร า ย ก า ร คา ดง ก ล า ว ใ ห อ ย ใ น ห น ว ย ค ว า ม จา ห ลก โ ด ย ม ฟ ง ก ชน ช� อ ว า load_braille_word_list และ load_word_list ทาหนาท�โหลดรายการคาอกษรเบรลลภาษาไทยและรายการคาภาษาไทยไปไวในหนวยความจาหลก ท*งน* เพ�อความสะดวกรวดเรวในการเรยกใชเม�อตดคาอกษรเบรลลภาษาไทยในแตละประโยคเสรจส*น และท*งสองฟงกชนน* จะเรยกใชเม�อมการเร�มโปรแกรมหลกเหมอนกน
ในบทถดไปจะกลาวถงผลการทดลองโดยเปนการเปรยบเทยบประสทธภาพดานความถกตองของการแปลงอกษรเบรลลภาษาไทยระดบ 1 ไปเปนภาษาไทย, ดานปรมาณการใชหนวยความจาในระหวางการแปลงและดานเวลาท�ใชในการแปลง ระหวางโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file (วธการเดม) กบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา (วธการใหม) ซ� งไดนาเสนอไวในวทยานพนธฉบบน*
73
บทท� 4
ผลการทดลอง
ในบทน*ไดนาเสนอผลการทดลองท�ไดออกแบบไว ซ� งสอดคลองกนกบวตถประสงคของวทยานพนธท�ไดนาเสนอโดยม 3 ประการดวยกนคอ 1) ศกษาและพฒนาการนาเทคนคเอนแกรมเขามาชวยแบงคาอกษรเบรลลภาษาไทยและแปลงอกษรเบรลลภาษาไทยไปเปนภาษาไทยท�เก�ยวของกบคาควบกล* า, สระประสม, อกษรเบรลลสองเซลลและคาทบศพท 2) เปรยบเทยบประสทธภาพในดานความถกตอง, ประมาณการใชหนวยความจาและเวลาท�ใชในการแปลงระหวางโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file (วธการเดม) กบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา (วธการใหม) 3) จานวนแกรมท�เหมาะสมสาหรบตดคาอกษรเบรลลภาษาไทยระดบ 1 ท*งดานความถกตอง, ปรมาณการใชหนวยความจาและระยะเวลาท�ใชในการแปลง
ผวจ ยไดออกแบบการทดลองท*งหมดเปน 3 ดานเพ�อใหสอดคลองกนกบจดประสงคดงกลาวขางตน ซ� งประกอบไปดวย 1) ดานความถกตองของการแปลง 2) ดานปรมาณการใชหนวยความจาในการแปลง และ 3) ดานระยะเวลาท�ใชในการแปลง โดยในแตละดานมรายละเอยดดงน* 4.1 ดานความถกตองของการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทย
4.1.1 เคร�องมอท�ใชในการทดสอบ 1) โปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file [1] 2) โปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรม
เขามาชวยในการตดคา
3) ชดขอมลทดสอบในรปแบบอกษรเบรลลภาษาไทยระดบ 1 (รายละเอยดของชดขอมล ทดสอบจะอธบายในหวขอ 4.1.3) 4) เคร�องคอมพวเตอรตดต*งระบบปฏบตการ Linux Ubuntu version 9.04 1 เคร�อง ตดต*ง CPU Intel รน Core2Quad (Q9400) ความเรว 2.66 GHz ตดต*งหนวย หนวยความจาท�ใชงานได 3.25 GB
74
5) C/C++ compiler 6) Gedit Text editor 4.1.2 ภาพรวมการทดสอบดานความถกตองการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทย
ผวจยไดออกแบบวธการทดสอบเปรยบเทยบความถกตองการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยระหวางโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file กบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา ซ� งไดนาเสนอไวในวทยานพนธน* โดยไดใชแผนภาพเพ�ออธบายซ� งงายตอการทาความเขาใจ โดยภาพรวมวธการทดสอบดานความถกตองแสดงในรปท� 4.1
รปท� 4.1 ภาพรวมวธการเปรยบเทยบดานความถกตอง
Testing set BCC
Old method
Proposed method
Thai text
Thai text
เปรยบเทยบความถกตองกบ พจนานกรมฉบบราชบณฑตยสถาน พ.ศ. 2542
จานวนคาท� Old method แปลงถก
จานวนคาท� Proposed method แปลงถก
เปรยบเทยบวาโปรแกรมใดแปลงไดถกตองมากวากน
75
จากรปท� 4.1 มข*นตอนวธการทดสอบเปรยบเทยบดานความถกตองดงตอไปน*
1) นาชดขอมลทดสอบ (Testing set) ซ� งเปนชดของไฟลขอความประโยคอกษรเบรลล
ภาษาไทยระดบ 1 โดยแบงแยกยอยออกเปน 4 ประเภทไดแก
1.1. ประโยคท�มการใชคาควบกล*า
1.2. ประโยคท�มการใชสระประสม
1.3. ประโยคท�มการใชอกษรเบรลลสองเซลล
1.4. ประโยคท�มการใชคาทบศพท
โดยรายละเอยดของชดขอมลทดสอบจะกลาวในหวขอท� 4.1.3 จากน*นใหโปรแกรม
แปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file และโปรแกรมแปลงอกษร
เบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา แปลงจาก
ขอความอกษรเบรลลภาษาไทยเปนภาษาไทย
2) เม�อโปรแกรมท*งสองแปลงเสรจแลวกจะไดประโยคภาษาไทย จากน*นจงนาประโยค
ดงกลาวไปเปรยบเทยบกบพจนานกรมฉบบราชบณฑตยสถาน พ.ศ. 2542 เพ�อ
ตรวจสอบความถกตอง
3) นบจานวนประโยคท�โปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file
แปลงถกตองและนบจานวนประโยคท�โปรแกรมแปลงอกษรเบรลลภาษาไทยเปน
ภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา แปลงถกตอง
4) เปรยบเทยบวาโปรแกรมไหนสามารถแปลงขอความไดถกตองมากกวากน
4.1.3 ชดขอมลทดสอบเปรยบเทยบดานความถกตอง ชดขอมลทดสอบน* ผวจยไดออกแบบใหครอบคลมและสอดคลองกนกบจดประสงคของงานวจยน*มากท�สด โดยแบงออกเปน 4 ประเภทดวยกนคอ
1. ประโยคท�มการใชคาควบกล*า 2. ประโยคท�มการใชสระประสม 3. ประโยคท�มการใชอกษรเบรลลสองเซลล 4. ประโยคท�มการใชคาทบศพท
76
และเพ�อใหชดขอมลทดสอบดงกลาวสอดคลองกนกบประเภทภาษาเขยน ผวจยจงไดนาเอาวธการรวบรวมขอความแบบคลงขอความ BEST [14] มาใชกบชดขอมลทดสอบน*ดวย โดยในแตละประเภทจะมลกษณะการเขยนประโยคท*ง 3 รปแบบภาษาคอ
1) รปแบบภาษาเขยนแบบเปนทางการ โดยรวบรวมจากประโยคในหนงสอสารานกรมไทยสาหรบเยาวชน, หนงสอเรยนวชาภาษาไทยและหนงสอเรยนวชาสงคมศกษา
2) รปแบบภาษาเขยนแบบไมเปนทางการ โดยรวบรวมจากประโยคในนวนยายท�วไปและบทความละครจากหนงสอพมพ
3) รปแบบภาษาขาว โดยรวบรวมจากบทความหนงสอพมพในอนเตอรเนต
โดยรายละเอยดของชดขอมลทดสอบสรปไดดงแสดงในตารางท� 4.1
ตารางท� 4.1 รายละเอยดชดขอมลทดสอบดานความถกตอง
ประเภทไฟล คาควบกล&า สระประสม เบรลลสองเซลล คาทบศพท
ขนาดไฟล (KB) 9,923 9,700 315 820
คาเฉล�ยจานวนอกขระตอบรรทด
42.96 44.35 35.82 43.44
จานวนคาเฉพาะ 231,115 219,022 8,713 18,881
จานวนคาท&งหมด 2,324,072 2,273,127 85,010 190,609
จานวนคาเฉพาะ คดเปนเปอรเซนต
ของจานวนคาท&งหมด 9.94 9.64 10.25 9.91
ชดขอมลทดสอบเหลาน* เปนประโยคภาษาไทยท�มการใชคาเฉพาะคอ คาควบกล* า,
สระประสม, อกษรเบรลลสองเซลลและคาทบศพท บรรจอยในแตละประโยค ซ� งแตละประโยคน*นอาจจะมคาเฉพาะเหลาน* มากกวาหน� งคากไดแตอยางนอยทกๆ ประโยคจะตองมคาเฉพาะเหลาน*อยางนอยหน�งคา จากน*นผวจยไดใชโปรแกรมแปลงภาษาไทยเปนอกษรเบรลล [1] (Thai2brl) ซ� ง
77
เปนโปรแกรมท�ทาหนาท�แปลงภาษาไทยไปเปนอกษรเบรลลระดบ 1 ซ� งไดมผพฒนามากอนแลว เพ�อแปลงใหชดขอมลทดสอบดงกลาวอยในรปแบบของอกษรเบรลลภาษาไทยระดบ 1 จากน*นจงนาชดขอมลทดสอบดงกลาวใหโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file และโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา แปลงซ� งจะไดผลลพธออกมาเปนประโยคภาษาไทย และนาไปเปรยบเทยบความถกตองกบชดขอมลทดสอบซ� งเปนประโยคภาษาไทยตนฉบบ เพ�อตรวจสอบความถกตองและหาขอผดพลาดตอไป
4.1.4 ผลการทดลองเปรยบเทยบดานความถกตอง ผลการทดลองเปรยบเทยบการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยระหวาง
โปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file กบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา เม�อใชจานวนแกรมเทากบ 3-แกรม, 4-แกรมและ 5-แกรม ซ� งไดนาเสนอไวในวทยานพนธฉบบน* พบวาโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา เม�อใชจานวนแกรมเทากบ 4-แกรมและ 5-แกรม สามารถชวยเพ�มความถกตองในการแปลงประโยคท�มการใชคาควบกล*า, สระประสม, อกษรเบรลลสองเซลลและคาทบศพท ไดมากท�สด โดยผลการทดลองสามารถสรปไดดงตารางท� 4.2
ตารางท� 4.2 ผลการทดลองเปรยบเทยบความถกตองของวธการเดมและวธการใหม
ประเภทขอมล
ประเภทของประโยค
คาควบกล*า สระประสม อกษรเบรลล
สองเซลล คาทบศพท
จานวนประโยคท*งหมด 231,115 219,022 8,713 18,881
จานวนประโยคท�วธการเดม แปลงถกตอง
183,562 172,340 4,995 14,003
อตราการแปลงถกตอง ของวธการเดม (%)
79.42% 78.69% 57.33% 74.16%
78
ตารางท� 4.2 ผลการทดลองเปรยบเทยบความถกตองของวธการเดมและวธการใหม (ตอ)
ประเภทขอมล
ประเภทของประโยค
คาควบกล*า สระประสม อกษรเบรลล
สองเซลล คาทบศพท
จานวนประโยคท�วธการใหม ขนาด 3-แกรมแปลงถกตอง
204,979 194,817 8,098 16,829
อตราการแปลงถกตองของวธการใหมขนาด 3-gram (%)
88.69% 88.95% 92.94% 89.13%
จานวนประโยคท�วธการใหม ขนาด 4-แกรมแปลงถกตอง
215,768 205,071 8,525 17,715
อตราการแปลงถกตองของวธการใหมขนาด 4-gram (%)
93.36% 93.63% 97.84% 93.82%
จานวนประโยคท�วธการใหม ขนาด 5-แกรมแปลงถกตอง
215,768 205,071 8,525 17,715
อตราการแปลงถกตองของวธการใหมขนาด 5-gram (%)
93.36% 93.63% 97.84% 93.82%
วธการเดม: โปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file วธการใหม: โปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา
จากการทดลองเปรยบเทยบความถกตองของการแปลงอกษรเบรลลภาษาไทยเปน
ภาษาไทยพบวาเทคนคเอนแกรมท�นามาใชในการตดคาอกษรเบรลลภาษาไทยกอนท�จะแปลงไปเปนภาษาไทย จานวนแกรมท�เหมาะสมคอ 4-แกรม เน�องจากเม�อใชจานวนแกรมเทากบ 4-แกรม สามารถชวยลดปญหาความกากวมของการเขยนอกษรเบรลลภาษาไทยไดเปนอยางด และสามารถแปลงไดถกตองในระดบท�มากกวา 93 เปอรเซนตในทกประเภทของประโยคเม�อเปรยบเทยบกบโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file เดมท�ใชเทคนคการเขยน
79
กฎไวยากรณทางภาษาเขามากากบการแปลง ซ� งไมครอบคลมลกษณะรปแบบการเขยนอกษรเบรลลภาษาไทยท*งหมดได และมอตราความถกตองในการแปลงต�ากวา หากใชจานวนแกรมเปน 3-แกรมอตราความถกตองในการแปลงจะลดลง หากใชจานวนแกรมเปน 5-แกรมอตราความถกตองในการแปลงจะไมเพ�มข*น และใชเวลาในการประมวลผลมากกวาการใชจานวนแกรมเปน 4-แกรม
ดงน*นสรปไดวาการนาเทคนคเอนแกรมเขามาชวยตดคาอกษรเบรลลภาษาไทยกอนท�จะแปลงไปเปนภาษาไทยสามารถลดความกากวมของภาษาลงไปได ซ� งทาใหโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยทราบขอบเขตท�ชดเจนของคาแตละคา และแปลงไดถกตองมากย�งข*น และจานวนแกรมท�เหมาะสมคอ 4-แกรม
4.2 ดานปรมาณการใชหนวยความจาในการแปลง
4.2.1 เคร�องมอท�ใชในการทดสอบ 1) โปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file 2) โปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรม
เขามาชวยในการตดคา 3) ชดขอมลทดสอบในรปแบบอกษรเบรลลภาษาไทยระดบ 1 (รายละเอยดของชดขอมล ทดสอบจะอธบายในหวขอ 4.2.3) 4) เคร�องคอมพวเตอรตดต*งระบบปฏบตการ Linux Ubuntu version 9.04 1 เคร�อง ตดต*ง CPU Intel รน Core2Quad (Q9400) ความเรว 2.66 GHz ตดต*งหนวย หนวยความจาท�ใชงานได 3.25 GB 5) C/C++ compiler 6) Gedit Text editor 4.2.2 ภาพรวมการทดสอบปรมาณการใชหนวยความจาในการแปลง ผวจยไดออกแบบวธการทดสอบเปรยบเทยบปรมาณการใชหนวยความจาในการแปลง
อกษรเบรลลภาษาไทยเปนภาษาไทยระหวางโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file เดม กบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา โดยภาพรวมวธการทดลองดานปรมาณการใชหนวยความจาแสดงในรปท� 4.2
80
รปท� 4.2 ภาพรวมวธการทดลองดานปรมาณการใชหนวยความจา
จากรปท� 4.2 ผวจยไดแสดงภาพรวมวธการทดลองวดปรมาณการใชหนวยความจาของโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file เดม และโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา ซ� งมข*นตอนดงตอไปน*
1) เร�มระบบเคร�องคอมพวเตอรท�ตดต*งระบบปฏบตการ Linux Ubuntu เวอรชน 9.04
2) รอใหระบบปฏบตการเรยกใชงานบรการท�จาเปนและโปรแกรมอ�นๆ ใหเสรจส*นกอน
โดยตองการใหมผลกระทบกบการทดลองดานปรมาณการใชหนวยความจาของ
โปรแกรมแปลงใหนอยท�สด โดยรอเปนระยะเวลา 5 นาท
3) หลงจากรอเปนระยะเวลา 5 นาทแลว ผวจยไดใชคาส�ง cat /proc/meminfo >> mem.txt
ใน Terminal ซ� งเปนคาส�งใหแสดงขอมลเก�ยวกบหนวยความจาของระบบออกมาและ
เกบขอมลดงกลาวไวในไฟลขอความท�ช�อวา mem.txt โดยผวจยจะใชขอมลเฉพาะ
ปรมาณหนวยความจาท�วาง MemFree : โดยเปรยบเทยบปรมาณหนวยความจาท�วาง
5 นาท
เวลา (นาท)
File Mem.txt
File Mem.txt
เร�มระบบ (นาทท� 0)
เร�มระบบใหม (นาทท� 15) 6 น
าท
14 น
าท
10 น
าท
เร�มระบบ
เร�มระบบใหม รอใหระบบโหลดบรการและโปรแกรมท�จาเปน
เกบขอมลหนวยความจาโดยใชคาส�ง meminfo ใสลงในไฟล Mem.txt เรยกใชโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file เดมหรอโปรแกรม
แปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา
81
กอนเรยกใชงานโปรแกรมแปลงและระหวางโปรแกรมแปลงกาลงทางาน โดยผลตาง
ของปรมาณหนวยความจาท�วางกคอหนวยความจาท�โปรแกรมแปลงตองใชน�นเอง
4) ในนาทท� 6 ผวจยเรยกใชโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-
file เดม หรอโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอน
แกรมเขามาชวยในการตดคา เพ�อใหแปลงขอความจากอกษรเบรลลภาษาไทยเปน
ภาษาไทย โดยใชชดขอมลทดสอบท�ไดเตรยมเอาไว ซ� งรายละเอยดของชดขอมล
ทดสอบจะกลาวในหวขอท� 4.2.3
5) ในนาทท� 10 ผวจยไดใชคาส�ง cat /proc/meminfo >> mem.txt ใน Terminal อกคร* งเพ�อ
วดปรมาณการใชหนวยความจาในขณะท�โปรแกรมแปลงกาลงทางาน
6) ในนาทท� 15 หรอเม�อโปรแกรมแปลงทางานเสรจส*นแลวผวจยจะเร�มระบบปฏบตการ
ใหมอกคร* ง (Restart) เพ�อเร�มการทดลองใหมอกคร* งและเปนการปองกนปญหาการคน
หนวยความจาใหแกระบบและผลกระทบอ�นๆ จากบรการและโปรแกรมอ�นๆ ท�
ระบบปฏบตการเรยกข*นมาใชงาน
7) ทาการทดลองซ* าแตละโปรแกรมท*งหมด 10 คร* ง และในแตละคร* งเม�อทดลองเสรจส*น
จะเร�มเคร�องคอมพวเตอรใหมทกคร* ง
ซ� งในการทดลองเปรยบเทยบปรมาณการใชหนวยความจาน* เพ�อตองการเปรยบเทยบวาโปรแกรมใดเหมาะสมท�จะนาไปใชบนอปกรณคอมพวเตอรแบบพกพาสาหรบผพการทางสายตา เชน Braille Note [1] มากกวากน ท*งน* เพราะอปกรณ Braille Note น*นมทรพยากรท�จากดท*งในดานความเรวของหนวยประมวลผลกลางและปรมาณหนวยความจาหลก
4.2.3 ชดขอมลทดสอบดานปรมาณการใชหนวยความจา
ชดขอมลสาหรบทดสอบเปรยบเทยบปรมาณการใชหนวยความจาน* ผวจยไดนาชดขอมลทดสอบน* มาจากการชดขอมลทดสอบเปรยบเทยบความถกตอง แตพบวาไฟลท�บรรจประโยคท�มการใชอกษรเบรลลสองเซลลและคาทบศพทมจานวนคานอยมาก และโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file แปลงไดรวดเรวมากจนไมสามารถเรยกใชค าส�ง cat /proc/meminfo >> mem.txt ใน Terminal เพ�อเกบขอมลปรมาณการใชหนวยความจาไดทน จงไมสามารถวดปรมาณการใชหนวยความจาเม�อใชไฟลประเภทดงกลาวทดสอบ ทาใหในการทดลองน*
82
ใชเฉพาะไฟลท�บรรจประโยคท�มการใชคาควบกล*าและสระประสมเทาน*น โดยสามารถสรปไดดงตารางท� 4.3
ตารางท� 4.3 รายละเอยดชดขอมลทดสอบดานปรมาณการใชหนวยความจา
ประเภทไฟล คาควบกล&า สระประสม
ขนาดไฟล (KB) 9,923 9,700
คาเฉล�ยจานวนอกขระตอบรรทด
42.96 44.35
จานวนคาเฉพาะ 231,115 219,022
จานวนคาเฉพาะ คดเปนเปอรเซนต
ของจานวนท&งหมด 51.34 48.66
4.2.4 ผลการทดลองเปรยบเทยบปรมาณการใชหนวยความจา ผลการทดลองเปรยบเทยบปรมาณการใชหนวยความจาในการแปลงอกษรเบรลลภาษาไทย
เปนภาษาไทยระหวางโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file เดม กบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา เม�อใชจานวนแกรมเทากบ 3-แกรม, 4-แกรม และ 5-แกรม ซ� งไดนาเสนอไวในวทยานพนธฉบบน* โดยทดลองซ* าท*งหมด 10 คร* งและหาคาเฉล�ย พบวาโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคาใชปรมาณหนวยความจานอยกวาโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file มาก ซ� งมผลการทดลองดงแสดงในตารางท� 4.4 และผลการทดลองดานปรมาณการใชหนวยความจาในการแปลงท*งหมดจะแสดงไวในตารางท� 1 ในภาคผนวก ข
83
ตารางท� 4.4 ผลการทดลองปรมาณการใชหนวยความจา
คร* งท� วธการเดม
วธการใหม 3-แกรม 4-แกรม 5-แกรม
คาควบกล*า (MB)
สระประสม (MB)
คาควบกล*า (MB)
สระประสม (MB)
คาควบกล*า (MB)
สระประสม (MB)
คาควบกล*า (MB)
สระประสม (MB)
เฉล�ย 178.9 178.9 8.19 8.21 8.89 8.9 8.79 8.81 SD. 0.1729 0.2424 0.1524 0.1197 0.1449 0.2108 0.1197 0.0994 Max 179.2 179.3 8.5 8.4 9.2 9.3 9 9 Min 178.7 178.6 8 8 8.7 8.7 8.6 8.7
จากผลการทดลองเปรยบเทยบดานปรมาณการใชหนวยความจาระหวางโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file เดม กบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา เม�อใชจานวนแกรมเทากบ 3-แกรม, 4-แกรม และ 5-แกรม จะเหนไดวาโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนค เอนแกรมเขามาชวยในการตดคามปรมาณการใชหนวยความจาเฉล�ยแลวอยในชวงระหวางประมาณ 8.19-8.9 MB ซ� งนอยกวาโปรแกรมเดมมากประมาณ 20 เทา ท*งน* เน�องจากโปรแกรมเดมไดใชลกษณะการทางานแบบรเคอรซฟ (Recursive) ซ� งใชปรมาณหนวยความจามากแตกตางจากโปรแกรมท�นาเสนอน* ท�ใชลกษณะการทางานแบบวนรอบ (For loop)เพ�อคนหารปแบบเอนแกรม (N-gram pattern) ท�คลายคลงกน ดงน* นจงสรปไดวาโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนค เอนแกรมเขามาชวยในการตดคาท�ไดนาเสนอไวในวทยานพนธฉบบน* มความเหมาะสมกบการนาไปใชบนอปกรณ Braille note [32] ท�มทรพยากรจากดมากกวาโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file เดม โดยเฉพาะอยางย�งหนวยความจา 4.3 ระยะเวลาท�ใชในการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทย
4.3.1 เคร�องมอท�ใชในการทดสอบ 1) โปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file 2) โปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรม
เขามาชวยในการตดคา
84
3) ชดขอมลทดสอบในรปแบบอกษรเบรลลภาษาไทยระดบ 1 (รายละเอยดของชดขอมล ทดสอบจะอธบายในหวขอ 4.2.3) 4) เคร�องคอมพวเตอรตดต*งระบบปฏบตการ Linux Ubuntu version 9.04 1 เคร�อง ตดต*ง CPU Intel รน Core2Quad (Q9400) ความเรว 2.66 GHz ตดต*งหนวย หนวยความจาท�ใชงานได 3.25 GB 5) C/C++ compiler 6) Gedit Text editor 4.3.2 ภาพรวมการทดสอบระยะเวลาท�ใชในการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทย ผวจยไดออกแบบวธการทดสอบเปรยบเทยบความรวดเรวในการแปลงอกษรเบรลล
ภาษาไทยเปนภาษาไทยระหวางโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file กบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา โดยใชวธสรางโปรแกรมท�ช�อวา measure_execution_time เพ�อทาหนาท�เรยกใชงานโปรแกรมแปลงเหลาน*ผานทางการเรยกผานระบบ (System call) เน�องจากผวจยตองการใหโปรแกรมอ�นๆ มการทางานท�ตอเน�องกนไปตลอด ท*งการจบเวลาและการแปลงขอความอกษรเบรลลภาษาไทยเปนภาษาไทย โดยมลาดบการเรยกใชงานโปรแกรมอ�นๆ ดงน*
1) เรยกใชงานโปรแกรมเกบคา วน/เวลา ณ ปจจบน (Current_Time) คร* งแรก (กอนแปลง)
แลวเกบคาลงในไฟล Time.txt โดยโปรแกรม Current_Time เปนโปรแกรมท�ผวจย
สรางข*นมา เพ�อเรยกใชคาส�ง date ผานทางการเรยกผานระบบซ� งแสดงคา วน/เวลา ณ
ปจจบนของระบบปฏบตการออกมา
2) เรยกใชโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file หรอโปรแกรม
แปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา
เพ�อแปลงชดขอมลทดสอบจากอกษรเบรลลภาษาไทยเปนภาษาไทย
3) เรยกใชงานโปรแกรมเกบคา วน/เวลา ณ ปจจบน คร* งท�สอง (หลงแปลง) แลวเกบคาลง
ในไฟล Time.txt
85
โดยผลตางเวลาคร* งแรกและคร* งท�สองกคอเวลาท�ใชในการแปลงอกษรเบรลลภาษาไทยไปเปนภาษาไทยของโปรแกรมแปลงน�นเอง โดยมภาพรวมวธการการทดลองเปรยบเทยบเวลาท�ใชในการแปลง ดงแสดงในรปท� 4.3
รปท� 4.3 ภาพรวมวธการทดลองเปรยบเทยบเวลาท�ใชในการแปลง
จากรปท� 4.3 ผวจยไดแสดงภาพรวมวธการทดลองวดเวลาในการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยของโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file และโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา ซ� งมข*นตอนดงตอไปน*
1. เร�มระบบเคร�องคอมพวเตอรท�ตดต*งระบบปฏบตการ Linux Ubuntu เวอรชน 9.04
2. รอใหระบบปฏบตการเรยกใชงานบรการท�จาเปนและโปรแกรมอ�นๆ ใหเสรจส*นกอน
โดยตองการใหมผลกระทบกบการทดลองเปรยบเทยบเวลาท�ใชในการแปลงของ
เวลา (วนาท)
File Time.txt
File Time.txt
เร�มระบบ (วนาทท� 0)
ทาการทดลองซ* า ไฟลละ 10 คร* ง เร�มระบบใหม
นาทท� 5
เร�มระบบปฏบตการ
รอใหระบบปฏบตการโหลดบรการและโปรแกรมท�จาเปน
Current_Time เกบคา วน/เวลา ณ ปจจบน ลงในไฟล Time.txt
เรยกใชโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file เดมหรอโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา
เร�มระบบปฏบตการใหม
Measure_execution_time เรยกใชงานโปรแกรมอ�นๆ ผานทาง System call
86
โปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยใหนอยท�สด โดยรอเปนระยะเวลา
300 วนาท (5 นาท)
3. หลง จาก รอเ ปนระย ะ เวลา 300 วนาทแลว ผ ว จ ยไ ด เ ร ยก ใชโปรแกรม
measure_execution_time ท�ไดสรางข*นมาไวกอนหนาน* แลว เพ�อเร�มกระบวนการจบ
เวลาในการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยของโปรแกรมแปลงเบรลลเปน
รหสแอสกภาษาไทยแบบ File-to-file เดม หรอโปรแกรมแปลงอกษรเบรลลภาษาไทย
เปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา โดยในแตละไฟลจะทดลอง
จบเวลาท*งหมด 10 คร* ง
4. หลงจากจบเวลาในการแปลงของแตละไฟลเสรจแลวผวจยจะเร�มระบบปฏบตการใหม
อกคร* ง เพ�อเร�มการทดลองจบเวลากบไฟลอ�นๆ โดยใชชดขอมลทดสอบท�ไดเตรยม
เอาไว ซ� งรายละเอยดของชดขอมลทดสอบจะกลาวในหวขอท� 4.3.3
ซ� งในการทดลองเปรยบเทยบความรวดเรวในการแปลงน* เพ�อตองการเปรยบเทยบวาโปรแกรมใดสามารถแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยไดรวดเรวกวากน
4.3.3 ชดขอมลทดสอบเปรยบเทยบดานเวลาท�ใชในการแปลง
ชดขอมลทดสอบเปรยบเทยบเวลาท�ใชในการแปลงน* ผวจยไดออกแบบใหสอดคลองกนกบลกษณะไฟลท�ผใชนยมนามาใชงานในการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทย โดยมขนาดประมาณ 10 KB (ประมาณ 10 หนา) โดยเปนไฟลขอความลวน และเขยนอยในรปของอกษรเบรลลภาษาไทยระดบ 1 รวมท* งมการใชสญลกษณตางๆ ในการเขยนดวยเชน เคร� องหมายอญประกาศ, นขลขต, ปรศน เปนตน โดยแบงออกเปน 5 ประเภทดวยกนคอ
1. ประโยคท�มการใชคาควบกล*า จานวน 5 ไฟล 2. ประโยคท�มการใชสระประสม จานวน 5 ไฟล 3. ประโยคท�มการใชอกษรเบรลลสองเซลล จานวน 5 ไฟล 4. ประโยคท�มการใชคาทบศพท จานวน 5 ไฟล 5. ประโยคท�วไป จานวน 10 ไฟล
โดยประเภทประโยคท�วไป เปนการรวบรวมเอาประโยคท�มการใชคาควบกล* า, อกษรเบรลลสองเซลล, สระประสมและคาทบศพทเขาไวดวยกน และเพ�อใหชดขอมลทดสอบดงกลาว
87
ใกลเคยงกนกบประโยคท�ผใชงานไดใชงานจรงและสอดคลองกนกบประเภทของภาษาเขยน ผวจยจงไดนาเอาวธการรวบรวมขอความแบบคลงขอความ BEST [14] มาใชในชดขอมลทดสอบน*ดวย โดยในแตละประเภทจะประกอบไปดวยลกษณะการเขยนท*ง 3 รปแบบภาษาคอ
1. รปแบบภาษาเขยนแบบเปนทางการ นามาจากประโยคในหนงสอสารานกรมไทยสาหรบเยาวชน, หนงสอเรยนวชาภาษาไทยและหนงสอเรยนวชาสงคมศกษา
2. รปแบบภาษาเขยนแบบไมเปนทางการ นามาจากประโยคในนวนยายท�วไปและบทความละครจากหนงสอพมพ
3. รปแบบภาษาขาว นามาจากบทความหนงสอพมพในอนเตอรเนต
ซ� งในแตละประเภทท*ง 5 ประเภทท�นามาทดสอบเปรยบเทยบเวลาท�ใชในการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยใน โดยในแตละไฟลจะมลกษณะการเขยนท*ง 3 รปแบบดงกลาวเพ�อใหชดขอมลทดสอบดงกลาวมความใกลเคยงกนกบลกษณะการเขยนท�ผใชไดใชงานจรงมากท�สดเทาท�จะเปนไป โดยรายละเอยดของชดขอมลทดสอบเปรยบเทยบเวลาท�ใชในการแปลงสามารถสรปไดดงแสดงในตารางท� 4.5 – 4.9
ตารางท� 4.5 รายละเอยดประเภทคาควบกล*า
ประเภทคาควบกล*า ไฟลท� 1 2 3 4 5
จานวนบรรทด 198 205 200 178 182 ขนาด(KB) 9.76 10 10 9.83 9.95
คาเฉล�ยจานวน ตวอกษรตอบรรทด 49.53 48.97 50.33 55.6 54.99 จานวนคาควบกล*า 198 205 200 178 182
88
ตารางท� 4.6 รายละเอยดประเภทสระประสม ประเภทสระประสม
ไฟลท� 1 2 3 4 5 จานวนบรรทด 197 197 191 202 198
ขนาด(KB) 9.86 9.64 9.17 9.19 9.76 คาเฉล�ยจานวน
ตวอกษรตอบรรทด 50.26 49.11 48.18 45.62 49.52 จานวนคาสระประสม 197 197 191 202 198
ตารางท� 4.7 รายละเอยดประเภทอกษรเบรลลสองเซลล
ประเภทอกษรเบรลลสองเซลล ไฟลท� 1 2 3 4 5
จานวนบรรทด 211 211 245 214 217 ขนาด(KB) 9.14 9.17 9.6 9.92 9.87
คาเฉล�ยจานวน ตวอกษรตอบรรทด 43.39 43.54 39.16 46.51 45.59
จานวนคาอกษรเบรลลสองเซลล 211 211 245 214 217
ตารางท� 4.8 รายละเอยดประเภทคาทบศพท
ประเภทคาทบศพท ไฟลท� 1 2 3 4 5
จานวนบรรทด 193 191 186 196 185 ขนาด(KB) 9.98 9.68 9.96 10 9.19
คาเฉล�ยจานวน ตวอกษรตอบรรทด 51.98 50.9 53.88 51.26 49.9 จานวนคาทบศพท 193 191 186 196 185
89
ตารางท� 4.9 รายละเอยดประเภทขอความท�วไป ประเภทประโยคท�วไป
ไฟลท� 1 2 3 4 5 6 7 8 9 10 ขนาด (KB) 9.92 9.97 9.98 9.91 9.96 10.00 10.00 10.00 9.95 9.98 จานวนบรรทด 198 224 214 201 214 219 218 214 221 195 จานวนคาเฉพาะ 198 224 214 201 214 219 218 214 221 195 คาเฉล�ยจานวน ตวอกษรตอบรรทด 50.33 44.61 46.79 49.53 46.68 45.91 46.05 46.98 45.11 51.45
4.3.4 ผลการทดลองเปรยบเทยบดานเวลาท�ใชในการแปลง
ผลการทดลองเปรยบเทยบเปรยบเทยบเวลาท�ใชในการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยระหวางโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file เดม กบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา เม�อใชจานวนแกรมเทากบ 4-แกรม ซ� งเปนจานวนแกรมท�มความเหมาะสมมากท�สดในการตดคาอกษรเบรลลภาษาไทย เน�องจากผลการทดลองดานความถกตองในการแปลงในหวขอ 4.1.4 เม�อจานวนแกรมเทากบ 4-แกรม กสามารถใหผลการแปลงท�มความถกตองมากท�สดแลวโดยไมจาเปนท�จะตองใชจานวนแกรมท�มากข*นแตอยางใด และผลการทดลองดานปรมาณการใชหนวยความจาในหวขอ 4.2.4 เม�อใชจานวนแกรมเทากบ 4-แกรม กมการใชปรมาณหนวยความจาท�ใกลเคยงกนกบจานวนแกรมเทากบ 5-แกรม ดงน*นในการทดลองเปรยบเทยบเวลาท�ใชในการแปลงจงใชจานวนแกรมเทากบ 4-แกรมเทาน*นในการเปรยบเทยบกบโปรแกรมเดม
โดยผลการทดลองพบวาโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา เม�อใชจานวนแกรมเทากบ 4-แกรม ใชเวลาในการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�มากกวาโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file เดม อยพอสมควรโดยผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงอกษรเบรลลภาษาไทยไปเปนภาษาไทยระหวางโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file เดม กบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา แสดงในตารางท� 4.10 และผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงท*งหมดจะแสดงไวในตารางท� 2-7 ในภาคผนวก ข
90
ตารางท� 4.10 ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลง
ประเภทประโยค วธการเดม วธการใหม
คาควบกล*า (คาเฉล�ยเวลา : วนาท)
0.5786 158.28
S.D. 0.141248 9.012554
Max 0.76 176
Min 0.41 148
Average file size (KB) 9.908 9.908
สระประสม (คาเฉล�ยเวลา : วนาท)
0.59 158.12
S.D. 0.077249 19.88502
Max 0.74 196
Min 0.51 140
Average file size (KB) 9.524 9.524
เบรลลสองเซล (คาเฉล�ยเวลา : วนาท)
0.634 171.58
S.D. 0.10218 9.731267
Max 0.78 187
Min 0.53 160
Average file size (KB) 9.54
9.54
91
ตารางท� 4.10 ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลง (ตอ)
ประเภทประโยค วธการเดม วธการใหม
คาทบศพท (คาเฉล�ยเวลา : วนาท)
0.5356 159.6
S.D. 0.065781 8.111468
Max 0.65 172
Min 0.41 146
Average file size (KB)
9.762
9.762
ท�วไป (คาเฉล�ยเวลา : วนาท)
0.5476 160.1
S.D. 0.009653 5.418822
Max 0.56 168
Min 0.53 150
Average file size (KB)
9.967
9.967
จากการทดลองเปรยบเทยบเวลาท�ใชในการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทย
พบวาโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file เดม สามารถแปลงไดรวดเรวมากกวาโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา เม�อใชจานวนแกรมเทากบ 4-แกรม เน�องจากโปรแกรมเดมใชเทคนคการแปลงแบบใชกฎไวยากรณทางภาษาเขามาควบคมการแปลงรวมกบวธการเขยนโปรแกรมแบบรเคอรซฟ (Recursive) ซ� งแตกตางจากวธท�นาเอาเทคนคเอนแกรมเขามาชวยตดคาอกษรเบรลลภาษาไทย
92
กอนท�จะแปลงเปนภาษาไทยและใชวธการเขยนโปรแกรมแบบวนรอบ เพ�อคนหารปแบบเอนแกรม (N-gram pattern) ท�คลายคลงกน ทาใหโปรแกรมท�ไดนาเสนอไวในวทยานพนธฉบบน*สามารถแปลงไดชากวาโปรแกรมเดม
อยางไรกตามโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา ท�ไดนาเสนอไวในวทยานพนธฉบบน* ใชเวลาในการแปลงขอความอกษรเบรลลภาษาไทยเปนภาษาไทย อยในเกณฑท�สามารถยอมรบได คอใชเวลาประมาณไมเกน 3 นาทในการแปลงเอกสารขอความประมาณ 10 หนา และใหผลการแปลงท�ถกตองมากกวาโปรแกรมเดมเปนอยางมาก
4.4 สรปผลการทดสอบ การทดลองเปรยบเทยบประสทธภาพดานความถกตองในการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทย, การเปรยบเทยบดานปรมาณการใชหนวยความจาและการเปรยบเทยบเวลาท�ใชในการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยระหวางโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา ท�ไดนาเสนอไวในวทยานพนธฉบบน* กบโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file พบวาโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคามประสทธภาพท�ดกวาดานความถกตองในการแปลงและดานปรมาณการใชหนวยความจา แตใชเวลาในการแปลงมากกวาโปรแกรมเดมมาก จงเหมาะสาหรบนาไปใชแปลงเอกสารท�วไปท�ไมไดมความยาวมากนกและไมเหมาะท�จะนาไปใชแปลงไฟลท�มขนาดใหญมาก ซ� งทาใหใชเวลาแปลงนานเกนไป ในบทถดไปจะกลาวถงการสรปผลการวจย, ปญหาและอปสรรคท�พบและขอเสนอแนะตางๆ ท�ควรปรบปรงในงานวจยน*
93
บทท� 5
สรปผลการวจยและขอเสนอแนะ
5.1 สรปผลการวจย วทยานพนธน* มงเนนการแกไขปญหาการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�
เก�ยวของกบปญหาการแปลงประโยคท�มการใชคาควบกล*า สระประสม อกษรเบรลลสองเซลลและคาทบศพท ซ� งเปนปญหาท�พบในการทางานของโปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file เดม โดยใชเทคนคเอนแกรมโมเดลประยกตในการตดคาอกษรเบรลลภาษาไทยกอนท�จะแปลงไปเปนภาษาไทยเพ�อลดความกากวมของลกษณะการเขยนอกษรเบรลลภาษาไทย โดยผลการวจยสามารถกลาวโดยสรปไดดงตอไปน*
1) การนาเทคนคเอนแกรมโมเดลเขามาชวยในการตดคาอกษรเบรลลภาษาไทยสามารถชวยลดความกากวมของลกษณะการเขยนอกษรเบรลลภาษาไทยระดบ 1 ไดเปนอยางด โดยเทคนคน* จะชวยหาขอบเขตของคาแตละคา ทาใหโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา ท�ไดนาเสนอไวในวทยานพนธฉบบน* สามารถแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยไดอยางถกตองมากย�งข*น โดยสามารถแปลงประโยคอกษรเบรลลภาษาไทยระดบ 1 ท�มการใชคาควบกล*า, สระประสม, อกษรเบรลลสองเซลลและคาทบศพทไดถกตองมากกวา 93 เปอรเซนตทกประเภท
2) จากการทดลองท*งดานความถกตองในการแปลง ดานปรมาณการใชหนวยความจาและเปรยบเทยบเวลาท�ใชในการแปลง สามารถสรปไดวาเม�อใชจานวนแกรม 4-แกรม มความเหมาะสมท�สดในการนาไปใชงานการตดคาอกษรเบรลลภาษาไทยระดบ 1 เน�องจากเม�อใชจานวนแกรม 4-แกรม สามารถแปลงไดถกตองมากกวาจานวนแกรม 3-แกรม และใชเวลาแปลงนอยกวา เม�อใชจ านวนแกรม 5-แกรม และจากการเปรยบเทยบปรมาณการใชหนวยความจาพบวาใกลเคยงกนกบจานวนแกรม 3-แกรมและ 5-แกรม
94
5.2 สรปปญหา อปสรรค และสาเหตขอผดพลาดในงานวจยน& 1) คลงขอความสาหรบฝกฝนเอนแกรมโมเดล
ในการสรางเอนแกรมโมเดลน*นจาเปนตองมคลงขอมลหรอคลงขอความสาหรบฝกฝน
เอนแกรมโมเดลใหสามารถสราง N-gram pattern ท�บงบอกลกษณะการเรยงกนของคา
ท�เกดข*นเปนประโยคหรอลกษณะการเรยงของอกขระท�เกดข*นเปนคา ดวยคาความ
นาจะเปนหน�งๆ ของแตละภาษาน*นๆ ซ� งในปจจบนน* ไมมคลงขอความใดเลยท�เขยน
อยในรปแบบอกษรเบรลลภาษาไทยระดบ 1 ท�จะนามาใชฝกฝนเอนแกรมโมเดลได
โดยตรง จงจาเปนตองประยกตจากคลงขอความภาษาไทยแทน โดยไดใชคลงขอความ
BEST
โดยผวจยไดพบวายงคงมคาบางคาในคลงขอความน* เขยนผดอยกอนแลวและ
ผวจยไดพยายามคนหาและแกไขคาท�เขยนผดเหลาน* ใหถกตอง โดยผวจยไดพยายาม
แกไขใหถกตองและครอบคลมมากท�สดเทาท�จะเปนไปไดแตอาจจะไมครอบคลมคา
ท*งหมดท�มอยเน�องจากคลงขอความ BEST น*นมขนาดใหญมาก (รายละเอยดของคลง
ขอความ BEST กลาวไวในหวขอท� 2.3.3 ) โดยผวจยไดรวบรวมรายการคาท�คลง
ขอความ BEST เขยนผดพลาดอยกอนแลวในตารางท� 10 ในภาคผนวก ค
2) โปรแกรมตดคาและรายการคคาภาษาไทยกบคาอกษรเบรลลภาษาไทย
ในงานวจยน* ผวจยไดนาโปรแกรมตดคา SWATH [29] มาใชในข*นตอนการสราง
รายการคค าภาษาไทยกบคาอกษรเบรลลภาษาไทยเพ�อนาไปใชในข* นตอน
Translate_to_thai เน�องจากเทคนคเอนแกรมโมเดลสามารถตดคาอกษรเบรลล
ภาษาไทยไดแตไมสามารถแปลงอกษรเบรลลภาษาไทยใหเปนภาษาไทยได จงตองใช
วธการแปลงแบบจบคคา ซ� งจาเปนตองสรางรายการคาท�ใชในการจบคคาข*นมากอน
โดยผวจยไดออกแบบวธการสรางรายการคาดงกลาวดงแสดงในรปท� 5.1
95
รปท� 5.1 ข*นตอนการสรางรายการคคาภาษาไทยและอกษรเบรลลภาษาไทย
จากรปท� 5.1 ผวจยไดใชโปรแกรมตดคา SWATH แบงคาเพ�อนาไปสรางรายการค
คาภาษาไทยกบคาอกษรเบรลลภาษาไทยตอไป แตเน�องจากโปรแกรมตดคา SWATH
ยงคงมความผดพลาดในการตดคาอย โดยมความถกตองในการตดคาท� 99 เปอรเซนต
[29] ทาใหประโยคท�ตดคาเรยบรอยแลว (Wrapped Text ในรปท� 5.1) มคาบางคาท�ตด
คาผดพลาดรวมอยดวย ดงน*นเม�อนาไปใชในข*นตอนถดไปจงกอใหเกดความผดพลาด
ตามมา และทาใหรายการคคาภาษาไทยกบคาอกษรเบรลลภาษาไทยผดพลาดไปดวย
ดงน*นผวจยจงไดพยายามคนหาและแกไขรายการคาอกษรเบรลลภาษาไทยและ
รายการคาภาษาไทยดงกลาว ใหถกตองมากท�สดโดยใชวธเปรยบเทยบกบพจนานกรม
ฉบบราชบณฑตยสถาน พ.ศ.2542 [16] และผวจยไดรวบรวมรายการคาภาษาไทยกบ
คาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาดในตารางท� 9 ใน
ภาคผนวก ค โดยไดตดรายการคาดงกลาวออกไปจากรายการคาอกษรเบรลลภาษาไทย
และรายการคาภาษาไทยท�ไดสรางไว
3) โปรแกรมแปลงภาษาไทยไปเปนอกษรเบรลล (Thai2brl)
ผวจยไดนาโปรแกรม Thai2brl [1] มาใชในงานวจยน* ในข*นตอนตางๆ ท�ตองแปลง
ขอความจากภาษาไทยใหเปนอกษรเบรลลภาษาไทยระดบ 1 เชน การสรางคลง
ขอความในรปแบบอกษรเบรลลภาษาไทยระดบ 1 สาหรบฝกฝนเอนแกรมโมเดล,
Text Word wrap programs (SWATH)
Text to word
frequency
Wrapped Text
Word frequency list
Word frequency to vocab
(wfreq2vocab)
Word list to use mapping
process
96
การสรางรายการคค าภาษาไทยกบคาอกษรเบรลลภาษาไทยสาหรบข* นตอน
Translate_to_thai อยางไรกตามโปรแกรมน* ยงคงมความผดพลาดในการแปลงจาก
ภาษาไทยไปเปนอกษรเบรลลภาษาไทยและชดขอมลทดสอบตางๆ ท�นาเสนอใน
บทท� 4 ทาใหขอความอกษรเบรลลภาษาไทยระดบ 1 ท�แปลงไดมการแปลงท�ผดพลาด
รวมอยดวย จงเปนสาเหตใหโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใช
เทคนคเอนแกรมเขามาชวยในการตดคา ท�ไดนาเสนอไวในวทยานพนธฉบบน* มการ
ทางานท�ผดพลาดไปดวย
โดยผวจยไดพยายามคนหาคาท�แปลงผดและแกไขในสวนท�พบใหมากท�สดเทาท�
จะเปนไปได แตอาจจะไมใชท*งหมดท�โปรแกรม Thai2brl แปลงผดพลาด จงทาให
ขอความอกษรเบรลลภาษาไทยระดบ 1 ท�แปลงไดยงคงมความผดพลาดรวมอยดวย
และหากไมสามารถแกไขคาผดได กจะตดคาน*นออกไปจากฐานขอมล โดยผวจยได
รวบรวมคาท�โปรแกรม Thai2brl แปลงผดพลาดและไดแกไขไปแลวในตารางท� 8 ใน
ภาคผนวก ค
4) โปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวย
ในการตดคา ท�ไดนาเสนอไวในวทยานพนธฉบบน*
เน�องจากโปรแกรมท�ผวจยไดออกแบบไวน* ไดใชเทคนคเอนแกรมโมเดลเขามาชวยใน
การตดคา โดยอางองจากคาความนาจะเปนของคาท�เขยนเรยงตดกนท�เกดข*นรวมกน
เปนประโยคในคลงขอมลฝก ซ� งเอนแกรมโมเดลน* เปนลกษณะการตดคาโดยใช
คาสถตของคาเขามาเปนเกณฑตดสน ซ� งบางคร* งกมความผดพลาดในการตดคาเกดข*น
ไดโดยเฉพาะประโยคท�มการใชช�อเฉพาะ(ช�อบคคล, ช�อสถานท�, ช�อส�งของ) ซ� งใน
ความเปนจรงคาท�เปนช�อเฉพาะเหลาน* จะสามารถพบไดนอยกวาคาท�วๆ ไปมากจงทา
ใหมคาทางสถตท�นอยกวาคาท�วๆ ไปจงเปนสาเหตใหโปรแกรมท�พฒนาข*นมาน* ตด
คาผดพลาดน�นเอง ยกตวอยางเชน ประโยค “คณอารมจะไปไหนคะ” ซ� งโดยท�วไป
แลวคาความนาจะเปนท�คาวา “คณ” เขยนนาหนาแลวตามดวยคาวา “อา” จะมมากกวา
คาวา “คณ” เขยนนาหนาแลวตามดวยคาวา “อารม” เสมอดงน*นโปรแกรมจงเลอกตด
คาใหเปน “คณอา” แทนท�จะเปน “คณอารม” เปนตน
97
5.3 ขอเสนอแนะ 1) โปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวย
ในการตดคา ซ� งไดนาเสนอไวในวทยานพนธฉบบน* ยงคงทางานไดชาเม�อเปรยบเทยบ
กบโปรแกรมเดมและไมเหมาะสมท�จะนาไปใชแปลงไฟลขอความขนาดใหญ จงควร
นาไปใชรวมกบโปรแกรมอ�นๆ เพ�อใหแปลงขอความเฉพาะประโยคท�มการใชคาควบ
กล*า, สระประสม, อกษรเบรลลสองเซลลและคาทบศพท
2) รายการคาท�นามาจากพจนานกรมฉบบราชบณฑตยสถานท�ใชคดเลอกประโยคท�มการ
ใชคาควบกล* า, สระประสม, อกษรเบรลลสองเซลลและคาทบศพทจากคลงขอความ
BEST เพ�อนาไปสรางโมเดลอกษรเบรลลภาษาไทยในหวขอท� 3.3.1 ควรใช
พจนานกรมฉบบราชบณฑตยสถานท�ปรบปรงลาสดใหเปนปจจบนเพ�อเพ�มความ
ถกตองของรายการคาดงกลาวและครอบคลมรายการคาใหมากท�สดเทาท�จะเปนไปได
ซ� งจะทาใหไฟลโมเดลภาษาท�สรางข*นครอบคลมรปแบบคาตางๆ มากข*นและจะม
ความถกตองในการเลอกคามากข*นเชนกน
3) คลงขอความท�นามาใชฝกฝนเอนแกรมโมเดล ควรมความถกตอง 100 เปอรเซนตและ
เปนไปตามกฎไวยากรณภาษาของอกษรเบรลลภาษาไทยระดบ 1 แตท*งน* เน�องจากใน
วจยน* ไมมคลงขอความใดเลยท�เขยนอยในรปแบบอกษรเบรลลภาษาไทยระดบ 1
ดงน*นผวจยจงตองนาเอาคลงขอความ BEST ซ� งเปนคลงขอความภาษาไทย นามา
แปลงใหอยในรปแบบอกษรเบรลลภาษาไทยระดบ 1 โดยใชโปรแกรม Thai2brl [1]
ในการแปลง ซ� งยงคงมความผดพลาดในการแปลงอย ซ� งสงผลใหเอนแกรมโมเดลท�
สรางข*นมาน*นมขอมลท�ผดพลาดรวมอยดวยและสงผลตอความถกตองของการตดคา
อกษรเบรลลภาษาไทย
ดงน*นจงควรมการสรางคลงขอความอกษรเบรลลภาษาไทยท�มความถกตอง
ครบถวนสมบรณเพ�อใชในการฝกฝนเอนแกรมโมเดล ซ� งจาเปนตองมผเช�ยวชาญใน
การเขยนอกษรเบรลลระดบ 1 เพ�อตรวจสอบแกไขขอมลดงกลาวใหเปนไปตาม
กฎไวยากรณของอกษรเบรลล และตองใชเวลาในการรวบรวมขอความประเภทตางๆ
98
ใหครบถวนเพ�อเปนตวแทนของประเภทภาษาเขยนแบบตางๆ เพ�อสรางเปนคลง
ขอความอกษรเบรลลภาษาไทย
4) คลงขอความท�นามาใชฝกฝนเอนแกรมโมเดลควรมการปรบปรงใหมขนาดท�กะทดรด
มากข*นโดยใชเทคนค N-gram Weighting Technique [30] ซ� งสามารถลดขนาดของ
คลงขอมลท�นามาฝกฝนเอนแกรมโมเดลลงไดและสามารถลดอตราความผดพลาดท�
เกดจากการเขยนคาท�ผด (Word error rate) ลงได 1.2 เปอรเซนต โดยจะสงผลใหใช
ปรมาณหนวยความจานอยลงและสามารถทางานไดรวดเรวมากข*นเน�องจากเอนแกรม
โมเดลมขนาดท�เลกลงน�นเอง
5) รายการคาอกษรเบรลลภาษาไทยและรายการคาภาษาไทยท� ใชในข* นตอน
Translate_to_Thai ควรมการปรบปรงใหมความถกตองทกๆ คา เน�องจากจะสงผลตอ
การเทยบคาจากอกษรเบรลลภาษาไทยไปเปนคาภาษาไทยทาใหเกดความผดพลาดได
ซ� งสาเหตน* เกดข*นจากผวจยไดใชโปรแกรมตดคาภาษาไทย (SWATH) ซ� งยงคงมความ
ผดพลาดในการตดคาอยบาง (SWATH มความถกตองอยในระดบท� 99 เปอรเซนต)
นามาใชตดคาประโยคภาษาไทยเพ�อนาไปสรางเปนรายการคาภาษาไทยและใช
โปรแกรมแปลงภาษาไทยไปเปนอกษรเบรลลระดบ 1 (โปรแกรม Thai2brl) จงทาใหม
ความผดพลาดดงกลาวเกดข*น
ดงน*นจงควรตรวจสอบรายการคคาภาษาไทยกบคาอกษรเบรลลภาษาไทยให
ถกตองทกๆ คา โดยผท�มความรความเช�ยวชาญในการเขยนภาษาไทยและอกษรเบรลล
ภาษาไทยระดบ 1 และควรเพ�มคของคาอ�นๆ ท�อาจจะไมพบในรายการคคาดงกลาว
เพ�อใหสามารถครอบคลมการแปลงไดมากย�งข*น
99
เอกสารอางอง
[1] วรพล ทนกรสตบตร, “การแปลงเบรลลและแอสกภาษาไทยแบบทนททนใด,” วทยานพนธมหาบณฑต สาขาวชาวศวกรรมคอมพวเตอร คณะวศวกรรมศาสตร มหาวทยาลยสงขลานครนทร, 2551.
[2] หนวยปฏบตการวจยวทยาการมนษยภาษา ศนยเทคโนโลยอ เลกทรอนกสและคอมพวเตอรแหงชาต, “Principle of N-gram model,” หลกการทางานของเอนแกรม
โมเดล, 19-July-2009. [Online]. Available: http://www.hlt.nectec.or.th/speech/ index.php?option=com_content&view=article&id=66&Itemid=92&lang=en. [Accessed: 29-Feb-2012].
[3] อครพล เอกวงศอนนต, “การระบคาไทยและคาทบศพทดวยแบบจาลองเอนแกรม,” วทยานพนธมหาบณฑต สาขาวชาภาษาศาสตร ภาควชาภาษาศาสตร คณะอกษรศาสตร จฬาลงกรณมหาวทยาลย, 2548.
[4] นฐวฒ ไชยเจรญ, “การตดคาและกากบหมวดคาภาษาไทยแบบเบดเสรจดวยคอมพวเตอร,” วทยานพนธมหาบณฑต สาขาวชาภาษาศาสตร ภาควชาภาษาศาสตร คณะอกษรศาสตร จฬาลงกรณมหาวทยาลย, 2544.
[5] วรยา อมรพงษกล,อษฎาภรณ พมพสมบรณ, จนทมา พลพนจ, และอมาภรณ สายแสงจนทร, “การประยกตเอนแกรมและเวกเตอรโมเดลสาหรบระบบยอขอความภาษาไทย,” Proceedings of Thailand Conference of Computer Science (ThCSC), pp. 48-54, Bangkok, Thailand, ธนวาคม พ.ศ. 2547.
[6] สารานกรมไทยสาหรบเยาวชนโดยพระราชประสงคในสมเดจพระเจาอยหว, “Thai Word Segmentation,” โปรแกรมตดคาภาษาไทย, 5-Nov-1983. [Online]. Available: http://kanchanapisek.or.th/kp6/New/sub/book/book.php?book=25&chap=7&page=t25-7-infodetail05.html. [Accessed: 15-Jan-2012].
[7] Thai Computational Linguistics Laboratory, “Natural language processing,” การ
ประมวลผลภาษาธรรมชาต, 14-Nov-2002. [Online]. Available: http://www.tcllab.org. [Accessed: 15-Jan-2012].
[8] ดวงแกว สวามภกด§ , “การประยกตใชเคร�องมอพฒนา การประมวลผลภาษาภายใตระบบย น ก ซ เ พ� อ ส ร า ง ซ อ ฟ ต แ ว ร ว เ ค ร า ะ ห ไ ว ย า ก ร ณ ภ า ษ า ไ ท ย ,” สถาบนไทยคดศกษา มหาวทยาลยธรรมศาสตร, 2531.
100
[9] ยน ภวรวรรณ และ ววรรธน อ�มอารมณ, “การแบงพยางคไทยดวยดกชนนาร,” รายงานการประชมวชาการวศวกรรมไฟฟา คร* งท� 9, 2529.
[10] สมพนธ ระร�นรมย, “การแบงคาไทยดวยพจนานกรม,” โครงงานวศวกรรม ภาควชาวศวกรรมคอมพวเตอร คณะวศวกรรมศาสตร จฬาลงกรณมหาวทยาลย, 2534.
[11] ไพศาล เจรญพรสวสด§ , “การตดคาโดยใชคณลกษณะ,” วทยานพนธมหาบณฑต สาขาวชาวทยาศาสตรคอมพวเตอร ภาควชาวศวกรรมคอมพวเตอร คณะวศวกรรมศาสตร จฬาลงกรณมหาวทยาลย, 2541.
[12] คณะอกษรศาสตร จฬาลงกรณมหาวทยาลย, “คลงขอมลภาษา,” คลงขอมลภาษา, 31-Aug-2008. [Online]. Available: http://ling.arts.chula.ac.th/TNC/. [Accessed: 15-Jan-2012].
[13] หนวยปฏบตการวจยวทยาการมนษยภาษา ศนยเทคโนโลยอ เลกทรอนกสและคอมพวเตอรแหงชาต, “BEST corpus,” คลงขอความ BEST, 19-July-2009. [Online]. Available: http://www.hlt.nectec.or.th/speech/index.php?option=com_jumi&fileid=14 &Itemid=121&lang=en. [Accessed: 15-Jan-2012].
[14] นธ เอยวศรวงศและคณะ, “Midnight University,” มหาวทยาลยเท(ยงคน, Sep-1997. [Online]. Available: http://www.midnightuniv.org. [Accessed: 15-Jan-2012].
[15] G. W. Lesher, B. J. Moulton, D. J. Higginbotham, “Effect of N-gram order and training text size on word prediction,” In Proceedings of the Rehabilitation Engineering and Assistive Technology Society of North America (RESNA), pp. 52-54, 1999.
[16] ราชบณฑตยสถาน, “The Royal Institute,” พจนานกรมฉบบราชบณฑตยสถาน, 31-Mar-1933. [Online]. Available: http://www.royin.go.th/th/home/. [Accessed: 15-Jan-2012].
[17] Stanley F. Chen และ Joshua Goodman, “An Empirical Study of Smoothing Techniques for Language Modeling,” Proceedings of the 34th annual meeting on Association for Computational Linguistics, pp. 310-318, 1996.
[18] หนวยปฏบตการวจยวทยาการมนษยภาษา ศนยเทคโนโลยอ เลกทรอนกสและคอมพวเตอรแหงชาต, “Training N-gram model,” การฝกฝนเอนแกรมโมเดลดวยชด
เคร( องมอ CMU-SLM toolkit, 17-Jan-2012. [Online]. Available: http://www.hlt.nectec.or.th/speech/index.php?option=com_content&view=article&id=70&Itemid=94. [Accessed: 4-Feb-2012].
101
[19] Doug Paul (MIT Lincoln Labs for research) และ U.S. Department of Defense Advanced Research Project Agency (ARPA), “ARPA format,” ARPA format, 2004. [Online]. Available: http://www.speech.sri.com/projects/srilm/manpages/ngram-format.5.html. [Accessed: 15-Jan-2012].
[20] P.R. Clarkson และ R. Rosenfeld Cambridge University, “CMU-SLM toolkit,” CMU-
SLM toolkit, June-1999. [Online]. Available: http://www.speech.cs.cmu.edu /SLM/toolkit.html. [Accessed: 15-Jan-2012].
[21] Pisit Thai Natural Language Processing Lab, “โครงสรางพจนานกรมแบบทรย,” ReoCities, Aug-1998. [Online]. Available: http://reocities.com/ResearchTriangle/ thinktank/5593/Trie/trie.htm. [Accessed: 15-Jan-2012].
[22] The Math Forum (Drexel University), “Division by zero,” ปญหาการหารดวยศนย, Jan-1994. [Online]. Available: http://mathforum.org/dr.math/faq/faq.divideby0.html. [Accessed: 4-Feb-2012].
[23] หนวยปฏบตการวจยวทยาการมนษยภาษา ศนยเทคโนโลยอ เลกทรอนกสและคอมพวเตอรแหงชาต, “การสรางโมเดลภาษาดวย CMU-SLM toolkit,” การสรางโมเดล
ภาษาดวยชดเคร( องมอ CMU-SLM toolkit, 17-Jan-2012. [Online]. Available: http://www.hlt.nectec.or.th/speech/index.php?option=com_content&view=article&id=70&Itemid=94. [Accessed: 4-Feb-2012].
[24] Krisda Khankasikam และ Nuttanart Muansuwan, “Thai Word Segmentation a Lexical Semantic Approach,” The 10th Machine Translation Summit (MT Summit X), September 12-16, Phuket, Thailand, p. 331, 2005.
[25] Hitoshi Isahara Kansai Advanced Research Center และศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต, “ORCHID corpus,” คลงขอความ ORCHID, Oct-1999. [Online]. Available: http://www.hlt.nectec.or.th/orchid/ [Accessed: 15-Jan-2012].
[26] กตตชน แมนสมทร, “การตดคาแบบเอนแกรม,” สราง Search Engine กน, 20-Jun-2007. [Online]. Available: http://ejeepss.wordpress.com/2007/06/20/สราง-search-engine-กนไหม/. [Accessed: 15-Jan-2012].
[27] หนวยปฏบตการวจยวทยาการมนษยภาษา ศนยเทคโนโลยอ เลกทรอนกสและคอมพวเตอรแหงชาต, “โปรแกรมตดคา SWATH,” Thai word segmentation, 28-Jul-
102
2005. [Online]. Available: http://www.hlt.nectec.or.th/products/swath.php. [Accessed: 15-Jan-2012].
[28] B.P. Hsu and J.R. Glass, “N-gram Weighting: Reducing Training Data Mismatch in Cross-Domain Language Model Estimation,” In Proceedings of Empirical Methods in Natural Language Processing (EMNLP), 2008, pp. 829-838, 2008.
[29] สานกงานคณะกรรมการการศกษาข*นพ*นฐาน, “ประวตอกษรเบรลล,” อกษรเบรลล, Oct-2008. [Online]. Available: http://school.obec.go.th/speced4/speced4/load/Borsure /4History of braille.pdf. [Accessed: 6-Feb-2012].
[30] BANA member, “American English Braille,” Braille formats, 1996. [Online]. Available: http://www.brl.org/formats/index.html. [Accessed: 6-Feb-2012].
[31] Eitan Gurari, “North American Braille Computer Code,” North American Braille
Computer Code Formats, 3-Sep-2010. [Online]. Available: http://www.dotlessbraille.org/index.html. [Accessed: 6-Feb-2012].
[32] BrailleNote Users members, “BrailleNote,” BrailleNote, 18-Feb-2012. [Online]. Available: http://www.braillenoteusers.info. [Accessed: 3-Mar-2012].
[33] สมทรง พนธสวรรณ , “การอาน เขยน พมพ อกษรเบรลล,” ,พมพคร* งท� 1 หจก. จงเจรญการพมพ พ.ศ. 2538.
[34] กมลวรรณ อนอราม, “การเรยนรอกษรเบรลล,” คณะครศาสตร มหาวทยาลยราชภฎสวน-ดสต, ISBN 974-223-404-3, 2547.
[35] The Braille Authority of North America (BANA), “Unified 8 dot Braille Code,” Unified 8 dot Braille Code, Dec-2010. [Online]. Available: http://www.brailleauthority.org. [Accessed: 4-Mar-2012].
103
ภาคผนวก
104
ภาคผนวก ก : ผลงานท�ไดรบการตพมพเผยแพร
ทศวฒน ชณหวทยะธระ และพชญา ตณฑยย , “การใชเอนแกรมชวยในการตดสนใจแปลอกษร
เบรลลท�ใชคาควบกล*า สระประสม และอกษรเบรลลสองเซลล,” ในการประชมวชาการเสนอ
ผลงานวจย มหาวทยาลยพายพ พ.ศ. 2555, เชยงใหม, ประเทศไทย, 17 กมภาพนธ 2555, รางวล
ผลงานวจยดเดน (Best Paper Award) กลมสาขาวทยาศาสตรเทคโนโลย
104
ช�อเร�อง การใชเอนแกรมชวยในการตดสนใจแปลอกษรเบรลลท�ใชคาควบกล&า สระประสม และอกษรเบรลลสองเซลล Enhancing Thai Braille translation with n-gram for decision making in the cases of compound consonants, vowels and characters
ช�อคณะผวจย นายทศวฒน ชณหวทยะธระ และ ผศ.ดร. พชญา ตณฑยย Mr. Totsawat Chunhawitayatera and Asst. Prof. Dr. Pichaya Tandayya
หนวยงานตนสงกด ภาควชาวศวกรรมคอมพวเตอร คณะวศวกรรมศาสตร มหาวทยาลยสงขลานครนทร
บทคดยอ การแปลงขอความรหสอกษรเบรลลภาษาไทยใหเปนขอความรหสแอสกภาษาไทยในปจจบน มกใชกฎไวยากรณ
ทางภาษาเขามากากบวธการแปลง แตยงคงประสบปญหาการแปลงคาควบกล*า, สระประสม, อกษรเบรลลสองเซลลและ คาทบศพท เน�องจากไวยากรณท�แตกตางกนและความไมแนนอนในการใชภาษา จงไมสามารถเขยนโปรแกรมใหครอบคลมทกๆ กรณท�เกดข*นได งานวจยน* ไดนาเสนอวธแกไขปญหาการแปลงขอความรหสอกษรเบรลลภาษาไทยใหเปนขอความรหสแอสกภาษาไทยเพ�อใชกบประโยคท�มคาควบกล* า, สระประสม, อกษรเบรลลสองเซลลและคาทบศพท โดยใชเทคนคเอนแกรมเขามาชวยในการตดคากอนท�จะแปลงใหเปนภาษาไทยเพ�อลดความกากวมของภาษาและนาเสนอจานวนแกรมท�เหมาะสมสาหรบใชตดคาอกษรเบรลลภาษาไทย ซ� งผลการทดลองสรปวาสามารถแปลงขอความไดถกตองมากข*นและใชปรมาณหนวยความจานอยลง แตใชเวลาแปลงมากกวาเดมโดยอยในเกณฑท�ยอมรบได และจานวนแกรมท�เหมาะสมคอ 4 แกรม
คาสาคญ : อกษรเบรลลภาษาไทย, เอนแกรมโมเดล, โปรแกรมแปลงขอความรหสอกษรเบรลลภาษาไทยเปนรหสแอสกภาษาไทย
ABSTRACT In the present, the Braille Thai to Thai translation applies grammar rules to control the
translation process but there are problems about translating compound consonants and vowels, two-cell Braille characters and transliterated words. The causes are too many grammar rules and the ambiguity of the language. Therefore, it is difficult to write a program to cover all conditions. This paper proposes a method to solve Braille Thai to Thai translation problems in the cases that the sentences contain compound consonants, vowels, two-cell Braille characters and transliterated words by using the N-gram model technique to wrap words before being translated into Thai in order to reduce the ambiguity of the language and propose the optimal N-gram number for wrapping Braille Thai words. The new method can improve the translation correctness and reduce the memory consumption better than the old method but the new method requires more translation time than the old method. The appropriate N-gram number is 4-gram for the Braille Thai text word wrap. Key Words: Thai Braille, N-gram model, Braille to Thai translation program
105
บทนา ในประเทศไทยไดมการพฒนาโปรแกรมชวยแปลงรหสอกษรเบรลลภาษาไทยเปนรหสแอสกภาษาไทยแบบ File-to-file มาอยางตอเน�อง แตโปรแกรมเหลาน* นยงคงประสบปญหาการแปลงคาท�เก�ยวของกบคาควบกล*า, คาท�มการใชสระประสม, คาท�มการใชอกษรเบรลลสองเซลลและคาทบศพท ซ� งในวทยานพนธเร�อง “การแปลงเบรลลและแอสกภาษาไทยแบบทนททนใด” วรพล ทนกรสตบตร (2551) โดยมหาวทยาลยสงขลานครนทร ไดนาเสนอโปรแกรม แปลงเบรลล เ ป นแอสก ภาษาไทยแบบ File-to-file ซ� งโปรแกรมน* เปนโปรแกรมแปลงขอความรหสอกษรเบรลลภาษาไทยเปนขอความรหสแอสกภาษาไทยแบบ File-to-
file ซ� งยงคงมความผดพลาดในการแปลงคาประเภทดงกลาว ในบทความน* ไดเสนอวธแกไขปญหาดงกลาวโดยนาเทคนคเอนแกรมเขามาชวยในการหาขอบเขตของคาอกษรเบรลลภาษาไทย ซ�งจะทาใหทราบขอบเขตท�แนนอนของคาแตละคา จงสงผลใหการแปลงเบรลลภาษาไทยเปนแอสกภาษาไทยทาไดงายข*นและถกตองมากย�งข*น อกท*งการนาเทคนคเอนแกรมมาประยกตใชน* ทาใหกระบวนการแปลงเบรลลภาษาไทยเปนแอสกภาษาไทยมความซบซอนนอยลง เม�อเปรยบเทยบกบการแปลงเบรลลภาษาไทยเปนแอสกภาษาไทยท�ใชเทคนคกฎไวยากรณทางภาษา โดยใหเอนแกรมคานวณหาคาความนาจะเปนของอกขระท�เขยนเรยงตดกน (Character sequence) ท�เกดข*นรวมกนเปนคาอกษรเบรลลภาษาไทย เพ�อชวยในการระบขอบเขตของคาอกษรเบรลลภาษาไทยวาควรแบงคาออกมาเปนรปแบบอยางไรจงจะเหมาะสม และเพ�มความถกตองในการแปลง
วตถประสงคของงานวจย งานวจยน* มงเนนวจยและพฒนาเพ�อศกษาการนาเทคนคเอนแกรม เขามาประยกตใชกบการแปลงอกษรเบรลลภาษาไทย เพ�อชวยปรบปรงกระบวนการแปลง
รหสอกษรเบรลลภาษาไทยไปเปนรหสแอสกภาษาไทยใหถกตองมากย�งข*น โดยมประเดนท�ศกษาดงตอไปน* 1) นาเทคนคเอนแกรมเขามาประยกตใชรวมกบการแปลงเบรลลภาษาไทยเปนแอสกภาษาไทย จะชวยเพ�มความถกตองในการแปลงไดหรอไม โดยเปรยบเทยบกบโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-
file เดม ซ� งไดนาเสนอไวในวทยานพนธเร�อง “การแปลงเบรลลและแอสกภาษาไทยแบบทนททนใด” 2) หาคาของจานวนแกรมท�เหมาะสม เพ�อหาคาของจานวนแกรมท�ใหผลลพธในการแบงคาท�ดท�สดโดยเปรยบเทยบระหวาง 3-แกรม, 4-แกรม และ 5-แกรม โดยใชวธพจารณาจากความถกตองของการแบงคาอกษรเบรลลภาษาไทยระดบ 1 ซ� งจะตองถกตองตามหลกไวยากรณของอกษรเบรลลภาษาไทยและเม�อนาไปแปลงใหเปนภาษาไทยแลวจะตองถกตองตามหลกไวยากรณของภาษาไทยดวย
บทความน* นาเทคนคเอนแกรมมาตดคาอกษรเบรลลภาษาไทยและแปลงใหเปนภาษาไทยโดยใชวธจบคคา และเสนอจานวนแกรมท�เหมาะสมในการตดคาอกษรเบรลลภาษาไทย
ทฤษฎและงานวจยท�เก�ยวของ งานวจยและเทคนคตางๆ ท� เ ก� ยวของ ซ� งได
นามาใชในการวจยน* โดยประกอบไปดวย 1) โปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file เดม 2) เ ท ค น ค ก า ร ต ด ค า 3 ) เ อ น แ ก ร ม โ ม เ ด ล 4 ) Smoothing Technique 5) คลงขอมลภาษา และ 6) CMU-SLM Toolkit 1. โปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file เดม โปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-
to-file ไดนาเสนอไวในวทยานพนธเร�อง “การแปลงเบรลลและแอสกภาษาไทยแบบทนททนใด” วรพล ทนกรสตบตร (2551) ของมหาวทยาลยสงขลานครนทร ซ� งโปรแกรมดงกลาวทาหนาท�แปลงเบรลลภาษาไทยเปนรหสแอสกภาษาไทยในรปแบบ File-to-file โดยกระบวนการทางานของโปรแกรมน* ใชกฎไวยากรณทาง
106
ภาษาของอกษรเบรลลภาษาไทยมาควบคมการแปลง ซ� งใหผลลพธในการแปลงถกตองระดบหน�ง
จากการศกษางานวจยน* พบวายงคงมปญหาในการแปลงเบรลลภาษาไทยเปนแอสกภาษาไทยอยดวยกน 2 ประการคอ 1) ปญหาการแปลงคาควบกล* าและ สระประสม ซ� งปญหาน* เกดจากการตดคาในประโยคอกษรเบรลลภาษาไทยท�มความกากวม ทาใหโปรแกรมดงกลาวไมสามารถแยกแยะไดวาอกขระของคาควบกล*าท�เขยนน*นเปนอกขระตวสะกดของคาๆ หนาหรอเปนอกขระอกษรนาของคาๆ หลง 2) ปญหาการแปลงคาท�มการใชอกษรเบรลลสองเซลล ซ�งปญหาน* เกดจากมอกษรเบรลลสองเซลลบางตวมรปพองกนกบอกษรเบรลลเซลลเดยวสองตวท�เขยนตดกน ทาใหโปรแกรมดงกลาวไมสามารถทราบไดวาอกขระเหลาน* ควรเปนอกษรเบรลลสองเซลลหน�งตว หรอเปนอกษรเบรลลเซลลเดยวสองตวท�เขยนตดกน 2. เทคนคการตดคา เทคนคการตดคา ใชในการหาขอบเขตของคาในงานดานประมวลผลภาษาธรรมชาต เพ�อทาใหคอมพวเตอรสามารถเขาใจความหมายของคาในภาษาน*นๆ ไดและเน� องจากภาษาบางภาษา เ ชน ภาษาไทย ภาษาจน ภาษาญ� ปน ภาษาลาว เ ปนตน มลกษณะการเ ขยนประโยคท�ประกอบไปดวยคายอยๆ หลายคาเรยงตดกนโ ด ย ไ ม ม ก า ร เ ว น ช อ ง ว า ง ร ะ ห ว า ง คา เ ห ม อ น กบภาษาองกฤษทาใหเกดปญหา “ขอบเขตของคา” เม�อนาขอมลเหลาน* นไปประมวลผลดวยคอมพวเตอร ทาใหคอมพวเตอรไมสามารถทราบไดวาในประโยคน* นๆ ประกอบดวยคาก�คา และแตละคาประกอบดวยตวอกษรอะไรบาง จงจาเปนตองตดคาเสยกอน กอนท�จะนาไปประมวลผลตอ เพ�อแบงขอบเขตของคาแตละคาอยางชดเจน
อกษรเบรลลภาษาไทยมลกษณะการเ ขยนเชนเดยวกนกบภาษาไทยคอ เขยนคาแตละคาตดๆ กนเปนประโยคและเวนวรรคระหวางประโยค แตจะเรยงตวอกษรนา ตวอกษรตาม สระ ตวสะกด และวรรณยกตท�แตกตางไปจากภาษาไทย
ดงน*นหากใชเทคนคการตดคาเขามาชวยตดคาอกษรเบรลลภาษาไทย เพ�อใหทราบขอบเขตของคาท�ชดเจน และลดความกากวม ทาใหการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยทาไดงายข*นและถกตองมากย�งข*นอกดวย นอกจากน* ยงไมมงานวจยใดๆ เลยท�จะนาวธการตดคามาใชกบอกษรเบรลลภาษาไทย ซ� งในปจจบนมเพยงงานวจยท�เก�ยวของกบการตดคาภาษาไทยเทาน*น
ใน ปจ จบนพ บวา เ ทค นค กา รตดคาโ ดย ใ ชคลงขอมลมความถกตองแมนยามากท�สด และเทคนคการตดคาโดยใชเอนแกรมโมเดลเปนเทคนคการตดคาโดยใชคลงขอมลท�นยมใชในปจจบนมากท�สด 3. เอนแกรมโมเดล (N-gram model) เอนแกรมโมเดล (N-gram model) คอ แบบจาลองท�ใชคานวณคาความนาจะเปนของชดอกขระ (character
sequence) ท�เกดข*นรวมกนเปนคา หรอคาความนาจะเปนของคาท�เขยนเรยงกน (word sequence) ท�เกดข*นรวมกนเปนประโยค โดยคาความนาจะเปนของชดอกขระหรอคาสามารถคานวณไดจากคลงขอมลฝกท�สรางไว แกรม (Gram) คอ หนวยท�ใชในการสรางแบบจาลองอาจจะเปนเสยง คา หรออกขระกไดและ แกรมมไดหลายขนาดแลวแตจะกาหนด ต*งแต 1 จนถง N โดย N เปนจานวนนบต*งแต 1, 2, 3 ..., n หลกการทางานของเอนแกรมอาศยหลกความเปนจรงท�วาเม�อมการเขยนอกขระใดๆ หรอคาใดๆ เรยงตดกนเพ�อสรางเปนคาหรอเปนประโยค แตละอกขระหรอคาท�เขยนน*น จะมความสมพนธกบอกขระหรอคาท�เขยนไวกอนหนาดวยคาความนาจะเปนคาหน�ง ตวอยางเชน มคา 3 คาคอ ”ขาว” “กน”และ“ฉน” เม�อนามาเขยนเรยงกนเพ�อสรางเปนประโยค จะสามารถเรยงไดหลายรปแบบ คอ “ขาว+กน+ฉน” “กน+ฉน+ขาว” “ฉน+กน+ขาว” เปนตน แตรปแบบ “ฉน+กน+ขาว” จะสามารถพบไดมากท�สดหรออกนยหน� งกคอรปแบบน* มคาความนาจะเปนสงท�สดน�นเอง แตท* งน* เทคนคแบบ เอนแกรมเปนการคานวณในเชงสถตเทาน*นและไมได
107
นาเอาเร� องของกฎไวยากรณภาษาเขามาเก�ยวของดวย โดยคาความนาจะเปนมสมการคานวณดงน* คาความนาจะเปนท�จะเกดคาหรออกขระ xi โดยมชดของคา ห ร อ ช ด อก ข ร ะ xi-n,…,xi-3,xi-2,xi-1 น า ห น า = P(xi| xi-1,xi-2,xi-3,…,xi-n) ซ� ง P(xi| xi-1,xi-2,xi-3,…,xi-n) = c(xi-n,…,xi-3, xi-2,xi-1,xi)/c(xi-1,xi-2,xi-3,…,xi-n) โดยท� c(xi-n,…,xi-3,xi-2,xi-1,xi) คอจานวนคร* งในคลงขอมลฝกท�เกด xi รวมกบ xi-n,…,xi-3,xi-2,xi-1 c(xi-1,xi-2,xi-3,…,xi-n) ค อ จ า น ว น ค ร* ง ท� เ ก ด xi-n,…,xi-3,xi-2,xi-1 ในคลงขอมลฝก 4. Smoothing Techniques Smoothing techniques สาหรบงานวจยทางดานโมเดลภาษาคอ เทคนคประมาณคาความนาจะเปนใหกบคาหรอชดของคาท�ไมพบในคลงขอมลฝก ซ� งเทคนคน*อาศยวธการประมาณคาทางสถตในการคานวณหาคาความนาจะเปนของคาท�ไมพบในคลงขอความ และเทคนคน* เปนกระบวนการท�จาเปนสาหรบงานดานสถต อกท* งเปนการปองกนปญหาการหารดวยศนยอกดวย และจากขอจากดของคลงขอความท�ไมสามารถจดเกบคาและคของคาท* งหมดท� เกดข* นจรงไวในคลงขอมลไดท*งหมด ทาใหคาบางคาหรอคของคาบางคาอาจจะไมมอยในคลงขอมล จากการศกษาเปรยบเทยบเทคนควธป ร ะ ม า ณ ค า ค ว า ม น า จ ะ เ ป น Smoothing
techniques ของ Stanley F. Chen และ Joshua
Goodman (1996) พบวาเทคนคของ Jelinek และ Mercer Smoothing (Interpolation) จะใหผลลพธดท�สดเม�อเปรยบเทยบกบวธอ�นๆ โดยมสมการคานวณประมาณคาความนาจะเปนดงน* โดยคาความนาจะเปนของ Interpolation เทากบคาถวงน* าหนก (Back-off weight) คณดวยคาความนาจะเปนของจานวนแกรมท� n-1 โดยท�
คอ คาความนาจะเปนของจานวนแกรมท� n-1 ซ� งหาไดจากจานวนคาท� wi เกดข*นรวมกบ หารดวยจานวนคาของ ท�พบในคลงขอมลฝก และ คอคาถวงน* าหนก (Back-off weight) เทากบจานวนคาของ ท�พบในคลงขอมลฝกหารดวยคาสมบรณของจานวนคา wi ตอจานวนคาของ 5. คลงขอมลภาษา คลงขอมลภาษา คอ ขอมลภาษาเขยนหรอภาษาพดท�เปนภาษาท�ใชจรง ซ�งรวบรวมข*นมาในปรมาณท�มากเพยงพอตามเง�อนไขท�กาหนดเพ�อใหไดคลงขอมลท�เปนตวแทนของภาษาท�ตองการ คลงขอมลภาษานาไปใชงานในดานภาษาศาสตร การสรางแบบจาลองภาษารวมถงการประมวลผลภาษาธรรมชาตอกดวย เชน นาไปใชสรางพจนานกรม นาขอมลดานสถตของคาไปสรางเปนแบบจาลองเพ�อนามาใชในงานประมวลผลภาษา- ธรรมชาตดวยคอมพวเตอร ในงานวจยน* ไดนาคลงขอความภาษาไทยมาประยกตใชงานในการฝกฝนเอนแกรมโมเดล โดยไดเลอกคลงขอความ BEST ซ� งเปนคลงขอความภาษาไทยและไดคดเลอกเฉพาะประโยคท�มการใชคาควบกล*า, สระประสม, อกษรเบรลลสองเซลลและคาทบศพทเทาน*น ท*งน* เพราะโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file เดมสามารถแปลงประโยคท�วๆ ไปไดถกตองอยแลวและตองนาคลงขอความมาแปลงใหอยในรปแบบของอกษรเบรลลภาษาไทยระดบ 1 เสยกอน จงจะสามารถนาไปฝกฝนเอนแกรมโมเดลได โดยในท�น* จะใชโปรแกรมแปลงภาษาไทยเปนอกษรเบรลล (Thai2brl) ซ� งไดนาเสนอไวในวทยานพนธเ ร� อง “การแปลงเบรลลและแอสกภาษาไทยแบบ ทน ท ทนใ ด ” วร พ ล ท น กร ส ต บต ร (2 5 5 1) ข อ งมหาวทยาลยสงขลานครนทร คลงขอความ BEST เปนคลงขอความภาษาไทยท�มการเกบรวบรวมคาอยางเปนระบบและมขน าด ใ หญ ท� สด ใน ปจ จ บน ซ� ง พฒ นา โ ดย หน วย
108
ปฏบตการวจยวทยาการมนษยภาษา (HLT) ศนยเทคโนโลยอเลกทรอนกสและคอมพวเตอรแหงชาต (NECTEC) โดยคดเลอกขอความจากงานเขยนลกษณะตาง ๆ 3 ประเภทคอ 1) ขอความจากหนงสอประเภทนวนยายในฐานะเปนตวแทนของภาษาพดท�วไป 2) ขอความจากเวบไซต www.midnightuniv.org และขอความจากสารานกรมสาหรบเยาวชนไทยในฐานะเปนตวแทนของภาษาเขยนอยางเปนทางการ 3) ขอความจากหนงสอพมพบนอนเตอรเนตในฐานะเปนตวแทนของภาษาขาว 6. CMU-SLM Toolkit ชดเคร�องมอ CMU-SLM Toolkit เปนชดเคร�องมอท�ใชในการสรางโมเดลภาษา (Language model) ซ� งชด เค ร� อง มอน* ได รบการพฒนาโดยมหาวทยาลย Carnegie Mellon โดยในงานวจยน* ไดเลอกใชชดเคร�องมอ CMU-SLM Toolkit เพ�อชวยอานวยความสะดวกในการสรางโมเดลภาษาของอกษรเบรลลภาษาไทยระดบ 1 เน�องจากชดเคร�องมอน* มการใชงานกนอยางแพรหลายและมเทคนคการ Smoothing แบบ Interpolation ชดเคร� องมอน* มการเผยแพรเปนสาธารณะ มคมออธบายการใชงานชดเจน ทาใหใชงานไดงายและเปนชดเคร�องมอท�ครบถวนสมบรณ โดยในชดเคร� องมอน* จะประกอบดวยโปรแกรมยอยจานวนห ล า ย โ ป ร แ ก ร ม ด ว ย ก น เ ช น text2 wfreq, wfreq2vocab, text2wngram, text2idngram, idngram2lm, interpolate เปนตน
อปกรณและวธวจย เคร�องมอท�ใชในการวจยประกอบดวย - CMU-SLM toolkit - คลงขอความ BEST - โปรแกรมแปลงภาษาไทยเปนอกษรเบรลลภาษาไทย - ชดขอมลสาหรบทดสอบ - พฒนาโปรแกรมโดยใชภาษา C/C++
ภาพรวมของระบบ ในบท ควา มน* ไดนา เ สนอ ว ธกา รปร บปร ง
ประสทธภาพในการแปลงอกษรเบรลลภาษาไทยเปน
ภาษาไทยในรปแบบ File-to-file โดยนาเทคนค เอนแกรมเขามาชวยในการตดคาอกษรเบรลลภาษาไทยเพ�อลดความกากวมท�เกดข*นจากลกษณะการเขยนของอกษรเบรลลภาษาไทยระดบ 1 หลงจากน*นจะแปลงใหเปนภาษาไทยโดยใชวธเทยบแบบคาตอคา ซ�งจาเปนตองสรางรายการคาอกษรเบรลลภาษาไทยและรายการคาภาษาไทยไวลวงหนา ในภาพท� 1 แสดงภาพรวมของระบบท�ไดออกแบบไว
ภาพท� 1 ภาพรวมโปรแกรม ภาพท� 1 แสดงองคประกอบตางๆของระบบท�ไดออกแบบไวและลกษณะการเช�อมตอกนของฟงกชนหลกรวมท*งการเช�อมตอองคประกอบอ�นๆ ท�จาเปนตองใชรวมในการแปลงอกษรเบรลลภาษาไทยระดบ 1 ใหเปนภาษาไทย ซ� งประกอบไปดวยสวนตางๆ ท*งหมด 6 สวนดวยกนคอ 1) ข*นตอน pre_ngram_generate 2) ข*นตอน generate_ngram_pattern 3) ข*นตอน select_output_pattern 4) ไฟลฝกฝนเอนแกรมโมเดล 5) ข*นตอน translate_to_thai
Start
pre_ngram_generate
generate_ngram_pattern
select_output_pattern
translate_to_thThai word
list Braille
word list
End
Braille text: g,dhm*yg>vg*r
Braille pattern: “g,dh”, “m*yg”, Braille n-gram pattern:“___g”,“__g,”,“_g,d”,“g,dh”,“,dh_”,“dh__”,“h___
Braille n-gram pattern
Braille word
Braille separated word: “<pipe> g,dhm*y<pipe>g>v<pipe>g*r<pipe>v(dv>}<pipe>unjn”
Thai word
Braille word
Length Braille text – length found Braille word
Output: “กฎหมายกบการเบยดบงคนจน”
train.3gram train.4gram train.5gram
109
6) รายการคาภาษาไทยและรายการคาอกษรเบรลลภาษาไทย โดยอนพต/เอาทพทและรายละเอยดแตละสวนมดงน* อนพตและเอาทพทของระบบ โปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยแบบ File-to-file ท�ใชเทคนคเอนแกรมเขามาชวยในการตดคาท�ไดนาเสนอไวในบทความน* จะรบอนพตเปนไฟลขอความธรรมดา ซ�งภายในไดบรรจขอความท�เขยนใหอยในรปแบบอกษรเบรลลภาษาไทยระดบ 1 โดยการทางานของโปรแกรมน* จะประมวลผลขอความอกษรเบรลลภาษาไทยระดบ 1 คร* งละ 1 ประโยคโดยแบงแตละประโยคออกจากกนดวยการเวนวรรค เชนเดยวกนกบการเขยนภาษาไทย เม�อโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ไดนาเสนอน*ประมวลผลเสรจแลว จะไดเอาทพทเ ปนประโยคภาษาไทยและนาประโยคภาษาไทยท�ไดน*นเขยนใสในไฟลเอาทพทตามท�ผใชงานโปรแกรมน* ไดต* งช�อไฟลเอาไว ซ� งเปนไฟลขอความภาษา ไทยธรรม ดา และก ารทางา นขอ งโปรแกรมกจะเปนเชนน*ไปเร�อยๆ จนกวาขอความอกษรเบรลลภาษาไทยระดบ 1 ในไฟลอนพตจะหมดลง 1. ข*นตอน pre_ngram_generate ข*นตอนน* รบอนพตเปนขอความอกษรเบรลลภาษาไทยและแบงออกเปนแตละประโยคโดยใชการเวนวรรคจากน* นตดประโยคท� รบมาเปนสวนๆ ตามขนาดของจานวนแกรมท�ไดกาหนดไว เพ�อเพ�มอตราการจบคคาของแตละอกขระใหมากข*น และใหเอาทพทเปนชดของอกขระอกษรเบรลลภาษาไทยโดยแตละชดมความยาวเทากบจานวนแกรมท�ไดกาหนดไว 2. ข*นตอน generate_ngram_pattern
ข*นตอนน* รบอนพตเปนชดของอกขระอกษรเบรลลภาษาไทยจากข*นตอน pre_ngram_generate และนามาสรางรปแบบเอนแกรม (n-gram pattern) โดยอางองกระบวนการสรางรปแบบเอนแกรมจากเวบไซต http://www.hlt.nectec.or.th เพ�อนาไปใชคนหาเปรยบเทยบรปแบบของคาท� เ ขยนเรยงตดกนตาม
หลกการของเอนแกรมโมเดลในข*นตอนตอไป โดยใหเอาทพทเปนชดของรปแบบ n-gram pattern 3. ข*นตอน select_output_pattern ข* นตอนน* รบ อนพต เ ปนชด รปแบบของ n-gram
pattern จากน*นเปรยบเทยบแตละ pattern กบไฟลฝกฝนเอนแกรมโมเดลโดยพจารณาวา pattern น*นๆ ใกลเคยงกบคาใดมากท�สดและ pattern รปแบบไหนมคาความนาจะเปนสงท�สด และหากม pattern น* นปรากฏอยในประโยคกเลอกเอา pattern น*นเปนคาเอาทพท หากไมมกจะเลอกเอาคาท�มความคลายคลงกบ pattern น�นมากท�สดมาแทน แตจะตองม pattern น*นปรากฏอยในประโยคดวย จากน* นใส เคร� องหมาย “<pipe>” เพ�อเปนสญลกษณในการแบงคาแตละคาออกจากกน และสงคาความยาวของประโยคท� เหลอกลบไปใหข*นตอน pre_ngram_generate เพ�อสรางชดของอกขระใหมและทาแบบน*วนไปเร�อยๆ จนกวาจะจบประโยค เม�อจบข*นตอนน* แลวจะใหเอาทพทเปนประโยคอกษรเบรลลท�มการแบงคาแตละคาออกจากกนโดยใชเคร�องหมาย “<pipe>” ค�นคาแตละคา 4. ไฟลฝกฝนเอนแกรมโมเดล ไฟลท�ใชฝกฝนเอนแกรมโมเดลน* สรางข*นจากการใชชดเคร�องมอ CMU-SLM toolkit โดยในการทดลองไดใชขนาดของจานวนแกรมเทากบ 3-gram, 4-gram และ 5-gram เพ�อเปรยบเทยบวาจานวนแกรมเทาใดจงจะใหผลลพธท�ดท�สด ซ� งวธการฝกฝนเอนแกรมโมเดล (Training N-gram model) คอ กระบวนการทางสถตเพ�อใหเอนแกรมโมเดลคานวณคาความนาจะเปนของคาหน�งๆ วาสามารถเกดข*นรวมกบคาใดไดบาง โดยข* นตอนการฝกฝนเอนแกรมโมเดลอางองมาจาก เวบไซต www.hlt.nectec.or.th ดงแสดงในภาพท� 2
110
ภาพท� 2 การฝกฝนเอนแกรมโมเดล โดยการฝกฝนเอนแกรมโมเดลจะไดเปนไฟล
นามสกล .gram และในไฟล .gram น* จะบรรจคาความนาจะเปนของคาน* นๆ วามโอกาสท�จะเกดข* นรวมกบคาใดไดบางดวยคาความนาจะเปนเทาไร และบรรจคาถวงน* าหนก (Back-off weight) ท�จะนาไปใชในกระบวนการ smoothing อกดวย ซ� งมการจดเกบใหอยในรปแบบของ ARPA format ซ� งเปนรปแบบไฟลมาตรฐานของโมเดลภาษา (Language
Model) 5. ข*นตอน translate_to_thai ข* นตอนน* เ ปนข* นตอนแปลงขอความอกษรเบรลลภาษาไทยท�ไดตดคาแลวโดยใชสญลกษณ “<pipe>” ค�นระหวางคา แปลงใหเปนภาษาไทย โดยใชเทคนคว ธการจบคค า ซ� งอาศยรายการคค าอกษรเบรลลภาษาไทยและภาษาไทยท�สรางไวกอนหนาน* แลว โดยแทนท� ค าอกษรเบร ลลภาษาไ ทยแตละ คาดวยคาภาษาไทยท�ไดจบคเอาไวและลบเคร�องหมาย “<pipe>” ออก ซ� งผลลพธทายสดกจะไดขอความภาษาไทยเพ�อนาไปเปรยบเทยบประสทธภาพกบโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file เดม 6. ราย การ คค า อก ษรเ บรล ลภาษา ไทย แล ะภาษาไทย รายการคาอกษรเบรลลภาษาไทยและรายการคาภาษาไทยท�จดเตรยมข* นมาน* จะนาไปใชในข*นตอน Translate_to_Thai เพราะเอนแกรมโมเดลน* นมความสามารถเฉพาะการหาขอบเขตของคาเทาน*น ไมสามารถใชในการแปลงอกษรเบรลลภาษาไทยเปนภ า ษ า ไ ท ย ไ ด น อ ก จ า ก น* ตอ ง ก า ร เ ป ร ย บ เ ท ย บประสทธภาพระหวางโปรแกรมแปลงเบรลลเปนแอสก
ภาษาไทยแบบ File-to-file เดม กบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคาท�ไดนาเสนอน* ซ� งโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-to-file เดมน*นใหเอาทพทเปนขอความภาษาไทย ทาใหจาเปนตองมข*นตอน Translate_to_Thai เพ�มเตมเขามาเพ�อทาใหเอาทพทเปนขอความภาษาไทยเหมอนกนเพ�อท�จะเปรยบเทยบกนไดโดยตรง
ดงน*นจงไดออกแบบการแปลงจากอกษรเบรลลภาษาไทยเปนภาษาไทยโดยใชวธเทยบคาตอคาหลงจากท�ใชเทคนคเอนแกรมในการตดคาแลว ตวอยางเชน เม�อตดคาอกษรเบรลลภาษาไทยไดเปนคาวา “g,dhm*y” ซ� งตรงกนกบคาวา “กฎหมาย” ในภาษาไทย เม�อใชวธเทยบคาตอคากจะแทนท�ค า “g,dhm*y” ดวยคาวา “กฎหมาย” ลงไปแทนในตาแหนงเดยวกนของขอความ ทาใหไฟลเอาทพทเปนขอความภาษาไทย
ผลการทดสอบเปรยบเทยบประสทธภาพ ในการทดสอบเปรยบเทยบประสทธภาพระหวาง
โปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-
to-file เดมกบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคาท�ไดนาเสนอน* จะทดสอบเปรยบเทยบท*งหมด 3 ดานดวยกนคอ 1) ความถกตองของการแปลง 2) ปรมาณการใชหนวยความจา และ 3) เวลาท�ใชในการแปลง ซ� งมรายละเอยดดงน* 1) ดานความถกตองของการแปลง ในการทดสอบดานความถกตองของการแปลงขอความอกษรเบรลลภาษาไทยเปนภาษาไทยไดใชชดขอมลทดสอบซ�งแบงเปน 4 ชดดวยกนคอ ชดท� 1) ขอความท�ใชอกษรเบ รลลสอง เ ซลล จานวน 8,713 บรรทด ชดท� 2) ขอความท�ใชคาควบกล* า จานวน 231,115 บรรทด ชดท� 3) ขอความท�ใชสระประสม จานวน 219,022 บรรทด ชดท� 4) ขอความท�ใชคาทบศพท จานวน 18,881 บรรทด โดยแตละบรรทดจะม 1 ประโยคและในแตละประโยคจะบรรจคาประเภทน*นๆ อยางนอย 1 คา
111
โดยชดขอมลทดสอบแตละชดจะมลกษณะ การใชภาษาเขยนแบบตางๆ แบงเปน 3 ประเภทคอ 1) ภาษาเขยนแบบเปนทางการ 2) ภาษาเขยนแบบไมเปนทางการและ 3) ภาษาขาว ท* งน* เพ�อตองการใหขอมลทดสอบมลกษณะใกลเคยงกบการเขยนโดยท�วไปมากท�สด โดยอางองจากโครงสรางการจดเกบขอความของคลงขอความ BEST และผลการทดลองแสดงในภาพท� 3
ภาพท� 3 ผลการเปรยบเทยบความถกตอง
โดยผลการทดลองพบวาโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยตดคาสามารถแปลงขอความท�มการใชคาควบกล*า, สระประสม, อกษรเบรลลสองเซลล และคาทบศพท ไดถกตองมากกวาโปรแกรมเดมคดเปน 13 .94%, 14.94%, 40.51% และ 19.66% ตามลาดบเม�อใชจานวนแกรมเทากบ 4-gram 2) ดานปรมาณการใชหนวยความจา ในการทดสอบดานปรมาณการใชหนวยความจาจะเร�มวดปรมาณหนวยความจาท�โปรแกรมตองใชต* งแตเร� มเรยกใชงานโปรแกรมจนกระท�งโปรแกรมส*นสดการทางาน โดยใชชดขอมลทดสอบเชนเดยวกนกบวธการวดความถกตองของการแปลง และวดท*งหมด 10 คร* งและหาคา เฉล� ยปรมาณการใชหนวยความจาของโปรแกรมแปลงเบรลลเปนแอสกภาษาไทยแบบ File-
to-file เดมกบโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตด
คา โดยแบงเปน เม�อใชจานวนแกรมเทากบ 3-gram,
4-gram และ 5-gram ซ�งผลท�ไดแสดงในภาพท� 4
ภาพท� 4 ผลเปรยบเทยบปรมาณการใชหนวยความจา โดยผลการทดลองพบวาโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยตดคามปรมาณการใชหนวยความจานอยกวาโปรแกรมเดมคดเปน 21.81 เทา ซ� งเหมาะสมตอการนาไปใชบนอปกรณ Braille note ซ� งมทรพยากรท�จากด 3) ดานเวลาท�ใชในการแปลง ในดานเวลาท�ใชในการแปลงจะใชวธจบเวลาต* งแตเรยกใชโปรแกรมจนกระท�งโปรแกรมส*นสดการทางาน โดยไฟลท�นามาทดสอบจะแบงออกเปน 5 ประเภทคอ 1) ประโยคท�ใชคาควบกล*า 2) ประโยคท�ใชอกษรเบรลลสองเซลล 3) ประโยคท�ใชสระประสม 4) ประโยคท�ใชคาทบศพท และ 5) ประเภทประโยคท�วไป ซ� งแตละประเภทจะใชไฟลท*งหมด 5 ไฟลและประเภทประโยคท�วไปใชท*งหมด 10 ไฟลโดยมขนาดประมาณ 10 KB (ประมาณ 220 บรรทด) โดยแตละบรรทดจะม 1 ประโยคและในแตละประโยคมคาประเภทน*นๆ อยางนอย 1 คา และทดสอบท*งหมด 10 คร* งและหาคาเฉล�ย ท*งน* เพ�อตองการใหใกลเคยงกบการนาโปรแกรมไปใชงานจรงมากท�สด ซ�งผลท�ไดแสดงในภาพท� 5
112
ภาพท� 5 ผลการเปรยบเทยบเวลาท�ใชในการแปลง โดยผลการทดลองพบวาโปรแกรมแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยตดคาใชเวลาในการแปลงมากกวาโปรแกรมเดมคดเปน 272.71 เทา จงเหมาะในการใชแกปญหาเฉพาะจดรวมกบโปรแกรมแปลงตวอ�น
ผลการวจยและการอภปรายผล จากการพฒนาโปรแกรมแปลงอกษรเบรลล
ภาษาไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมเขามาชวยในการตดคา เพ�อแกไขปญหาของโปรแกรมแปลงเบรลลเ ปน แอ สก ภา ษา ไท ยแ บบ File-to-file เ ด ม โด ยสามารถแกไขปญหาการแปลงอกษรเบรลลภาษาไทยเ ป น ภ า ษ า ไ ท ย ไ ด เ ป น อ ย า ง ด แ ล ะ ใ ช ป ร ม า ณหน วยค วาม จานอ ยก วา โป ร แก ร มเ ด มม า กซ� ง ใ ชกฎไวยากรณทางภาษาเขามาควบคมการแปลง จงมความเหมาะสมมากกวาในการนาไปใชในอปกรณ Braille
Note ท�มทรพยากรอยอยางจากด อยางไรกตามการใชงานโปรแกรมท�ไดพฒนาข*น
มาใหมน* กมขอดอย คอเวลาท�ใชในการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยใชเวลาแปลงท�มากกวาโปรแกรมเดมมาก ทาใหโปรแกรมน* เหมาะกบการใชแปลงไฟลท� มขนาดไมใหญมาก ซ� งผใชงานสามารถยอมรบได แตหากเปนไฟลท� มขนาดใหญจะใชเวลาแปลงนาน จงนบวาเปนขอดอยของโปรแกรมน* ท�ควรนาไปปรบปรงใหดกวาเดม
สรป บทความน* เสนอการนาเทคนคเอนแกรมโมเดล
มาประยกตใชตดคาอกษรเบรลลภาษาไทยเพ�อลดความกากวมของภาษากอนท�จะแปลงไปเปนภาษาไทย ซ� งวธการน* สามารถชวยแกปญหาการแปลงอกษรเบรลลภาษาไทยเปนภาษาไทยไดเปนอยางด โดยเฉพาะปญหาท�เก�ยวของกบการแปลงคาควบกล* า คาท�มการใชสระ-ประสม อกษรเบรลลสองเซลลและคาทบศพท และจานวนแกรมท�เหมาะสมสาหรบใชตดคาอกษรเบรลลภาษาไทยคอ 4 แกรม
ขอเสนอแนะ การนาเทคนคเอนแกรมเขามาชวยตดคาอกษร
เบรลลภาษาไทยกอนท�จะแปลงใหเปนภาษาไทยสามารถชวยลดความกากวมของคาไดเปนอยางด แตยงคงมประเดนเ ร� องเวลาท� ใชในการแปลงท�ทาไดชากวาโปรแกรมเดมมาก ซ� งไมเหมาะสมในการนาไปใชแปลงไฟลขนาดใหญท* งหมด แตควรใชงานรวมกบวธการอ�นๆ เพ�อเพ�มความถกตองในการแปลงคาควบกล*า คาท�มการใชสระประสม อกษรเบรลลสองเซลลและคาทบศพท
เอกสารอางอง วรพล ทนกรสตบตร. (2551). การแปลงเบรลลและ
แอสกภาษาไทยแบบทนททนใด. วทยานพนธมหาบณฑต สาขาวชาวศวกรรมคอมพวเตอร คณะวศวกรรมศาสตร มหาวทยาลยสงขลา-นครนทร
Stanley F. Chen and Joshua Goodman. (1996). An Empirical Study of Smoothing Techniques for Language Modeling, Aiken Computational Laboratory Harvard University.
N-gram. (2011). Retrieved September 5, 2011, from http://en.wikipedia.org /wiki/N-gram
BEST Corpus. (2011). Retrieved September 5, 2011, from http:// thailang.nectec.or.th/2009/index.php
Philip Clarkson. (2011). CMU-SLM language model toolkit. Retrieved
113
September 26, 2011, from http://mi. eng.cam.ac.uk/~prc14/toolkit.html
Training N-gram model. (2011). Retrieved September 5, 2011, from http://www.hlt.nectec.or.th/speech /index.php?option=com_content&view=article&id=70&Itemid=94
Word wrap. (2011). Retrieved September 5, 2011, from http://en.wikipedia. org/wiki/Word_wrap
Language model. (2011). Retrieved September 5, 2011, from http:// www.hlt.nectec.or.th/speech/index.php?option=com_content&view=article&id=70&Itemid=94
114
ภาคผนวก ข : ตารางผลการทดลอง
ตารางท� 1 ผลการทดลองปรมาณการใชหนวยความจา
คร* งท� วธการเดม
วธการใหม 3-แกรม 4-แกรม 5-แกรม
คาควบกล*า (MB)
สระประสม (MB)
คาควบกล*า (MB)
สระประสม (MB)
คาควบกล*า (MB)
สระประสม (MB)
คาควบกล*า (MB)
สระประสม (MB)
1 179 178.9 8.2 8.2 8.9 8.9 8.8 8.8 2 178.8 179.2 8.2 8.3 8.8 9.3 8.9 8.9 3 179.1 178.6 8 8.4 8.7 8.7 8.7 8.7 4 178.7 178.8 8.5 8 8.8 8.9 8.6 8.8 5 178.9 178.9 8.2 8.1 9.2 8.8 8.8 8.8 6 178.7 178.7 8.1 8.2 9 9.2 8.8 8.7 7 179.2 179.1 8.3 8.1 8.9 9 8.7 9 8 178.9 179.3 8 8.3 8.8 8.7 8.7 8.7 9 178.7 178.8 8.3 8.2 8.8 8.7 8.9 8.8 10 178.9 178.6 8.1 8.3 9 8.8 9 8.9
เฉล�ย 178.9 178.9 8.19 8.21 8.89 8.9 8.79 8.81 SD. 0.1729 0.2424 0.1524 0.1197 0.1449 0.2108 0.1197 0.0994 Max 179.2 179.3 8.5 8.4 9.2 9.3 9 9 Min 178.7 178.6 8 8 8.7 8.7 8.6 8.7
115
ตารางท� 2 ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประเภทไฟลคาควบกล*า
คร* งท�
ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประเภทไฟลคาควบกล*า (เวลา : วนาท)
วธการเดม วธการใหม
ไฟลท� ไฟลท�
1 2 3 4 5 1 2 3 4 5
1 0.55 0.75 0.74 0.44 0.43 149 174 160 155 150
2 0.54 0.74 0.73 0.43 0.42 148 173 162 156 152
3 0.53 0.73 0.72 0.42 0.41 150 174 161 156 152
4 0.53 0.73 0.73 0.43 0.42 149 174 161 156 152
5 0.56 0.76 0.75 0.45 0.44 148 175 160 156 152
6 0.54 0.74 0.73 0.43 0.42 149 175 160 155 152
7 0.56 0.76 0.75 0.45 0.44 149 176 161 156 152
8 0.54 0.74 0.73 0.43 0.42 148 174 160 157 153
9 0.55 0.75 0.74 0.44 0.43 150 174 161 156 152
10 0.56 0.76 0.75 0.45 0.44 149 173 161 155 151
เฉล�ย 0.546 0.746 0.737 0.437 0.427 148.9 174.2 160.7 155.8 151.8
SD. 0.0117 0.0117 0.0106 0.0106 0.0106 0.7379 0.9189 0.6749 0.6325 0.7888
Max 0.56 0.76 0.75 0.45 0.44 150 176 162 157 153
Min 0.53 0.73 0.72 0.42 0.41 148 173 160 155 150
จานวนบรรทด
198 205 200 178 182 198 205 200 178 182
Size(KB) 9.76 10 10 9.83 9.95 9.76 10 10 9.83 9.95
116
ตารางท� 3 ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประเภทไฟลสระประสม
คร* งท�
ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประเภทไฟลสระประสม (เวลา : วนาท)
วธการเดม วธการใหม
ไฟลท� ไฟลท�
1 2 3 4 5 1 2 3 4 5
1 0.55 0.54 0.53 0.73 0.63 158 155 142 194 140
2 0.54 0.53 0.52 0.72 0.62 158 155 142 195 141
3 0.54 0.53 0.52 0.72 0.62 158 155 142 196 140
4 0.53 0.52 0.51 0.71 0.61 159 155 142 195 140
5 0.56 0.55 0.54 0.74 0.64 158 155 142 194 141
6 0.53 0.52 0.51 0.71 0.61 159 155 141 195 141
7 0.54 0.53 0.52 0.72 0.62 158 155 143 195 140
8 0.55 0.54 0.53 0.73 0.63 159 155 142 195 140
9 0.56 0.55 0.54 0.74 0.64 158 154 142 195 141
10 0.54 0.53 0.52 0.72 0.62 158 156 142 195 140
เฉล�ย 0.544 0.534 0.524 0.724 0.624 158.3 155 142 194.9 140.4
SD. 0.0107 0.0107 0.0107 0.0107 0.0107 0.4830 0.4714 0.4714 0.5676 0.5164
Max 0.56 0.55 0.54 0.74 0.64 159 156 143 196 141
Min 0.53 0.52 0.51 0.71 0.61 158 154 141 194 140
จานวนบรรทด
197 197 191 202 198 197 197 191 202 198
Size(KB) 9.86 9.64 9.17 9.19 9.76 9.86 9.64 9.17 9.19 9.76
117
ตารางท� 4 ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประเภทไฟลอกษรเบรลลสองเซลล
คร* งท�
ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประเภทไฟลอกษรเบรลลสองเซลล (เวลา : วนาท)
วธการเดม วธการใหม
ไฟลท� ไฟลท�
1 2 3 4 5 1 2 3 4 5
1 0.55 0.56 0.57 0.77 0.76 161 162 168 184 182
2 0.53 0.54 0.55 0.75 0.74 160 164 170 184 182
3 0.56 0.57 0.58 0.78 0.77 160 162 170 184 180
4 0.54 0.55 0.56 0.76 0.75 161 162 168 185 182
5 0.53 0.54 0.55 0.75 0.74 160 163 169 184 178
6 0.55 0.56 0.57 0.77 0.76 163 162 168 184 181
7 0.54 0.55 0.56 0.76 0.75 162 163 169 185 181
8 0.55 0.56 0.57 0.77 0.76 160 164 169 184 182
9 0.53 0.54 0.55 0.75 0.74 161 163 167 184 187
10 0.54 0.55 0.56 0.76 0.75 160 164 168 184 179
เฉล�ย 0.542 0.552 0.562 0.762 0.752 160.8 162.9 168.6 184.2 181.4
SD. 0.0103 0.0103 0.0103 0.0103 0.0103 1.0328 0.8756 0.9661 0.4216 2.4129
Max 0.56 0.57 0.58 0.78 0.77 163 164 170 185 187
Min 0.53 0.54 0.55 0.75 0.74 160 162 167 184 178
จานวนบรรทด
211 211 245 214 217 211 211 245 214 217
Size(KB) 9.14 9.17 9.6 9.92 9.87 9.14 9.17 9.6 9.92 9.87
118
ตารางท� 5 ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประเภทไฟลคาทบศพท
คร* งท�
ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประเภทไฟลคาทบศพท (เวลา : วนาท)
วธการเดม วธการใหม
ไฟลท� ไฟลท�
1 2 3 4 5 1 2 3 4 5
1 0.53 0.52 0.51 0.61 0.41 163 160 159 171 146
2 0.56 0.55 0.54 0.64 0.44 161 160 157 172 147
3 0.55 0.54 0.53 0.63 0.43 162 160 157 171 147
4 0.54 0.53 0.52 0.62 0.42 163 161 157 172 146
5 0.56 0.55 0.54 0.64 0.44 162 160 157 172 148
6 0.56 0.56 0.55 0.65 0.45 162 160 158 171 146
7 0.56 0.56 0.55 0.65 0.45 163 161 157 170 146
8 0.55 0.54 0.53 0.63 0.43 161 161 157 172 148
9 0.53 0.52 0.51 0.61 0.41 162 161 158 171 146
10 0.54 0.53 0.52 0.62 0.42 162 161 157 172 146
เฉล�ย 0.548 0.54 0.53 0.63 0.43 162.1 160.5 157.4 171.4 146.6
SD. 0.0123 0.0149 0.0149 0.0149 0.0149 0.7379 0.5270 0.6992 0.6992 0.8433
Max 0.56 0.56 0.55 0.65 0.45 163 161 159 172 148
Min 0.53 0.52 0.51 0.61 0.41 161 160 157 170 146
จานวนบรรทด
193 191 186 196 185 193 191 186 196 185
Size(KB) 9.98 9.68 9.96 10 9.19 9.98 9.68 9.96 10 9.19
119
ตารางท� 6 ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประโยคท�วไปของวธการเดม
คร* งท�
ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประเภทประโยคท�วไป (เวลา : วนาท)
โปรแกรมแปลงเบรลลเปนรหสแอสกภาษาไทยแบบ File-to-file (วธการเดม)
ไฟลท�
1 2 3 4 5 6 7 8 9 10
1 0.54 0.55 0.55 0.56 0.55 0.54 0.54 0.55 0.56 0.56
2 0.54 0.55 0.54 0.55 0.54 0.55 0.55 0.54 0.55 0.54
3 0.53 0.56 0.54 0.54 0.56 0.55 0.54 0.54 0.54 0.53
4 0.56 0.53 0.53 0.56 0.55 0.56 0.54 0.56 0.56 0.55
5 0.54 0.54 0.54 0.55 0.54 0.54 0.56 0.55 0.53 0.56
6 0.56 0.56 0.56 0.56 0.54 0.55 0.56 0.56 0.54 0.56
7 0.55 0.56 0.54 0.56 0.56 0.54 0.55 0.55 0.55 0.53
8 0.54 0.54 0.53 0.55 0.55 0.55 0.54 0.55 0.56 0.54
9 0.53 0.56 0.56 0.54 0.54 0.54 0.55 0.54 0.55 0.55
10 0.54 0.55 0.56 0.55 0.54 0.56 0.55 0.56 0.53 0.54
เฉล�ย 0.543 0.55 0.545 0.552 0.547 0.548 0.548 0.55 0.547 0.546
SD. 0.0106 0.0105 0.0118 0.0079 0.0082 0.0079 0.0079 0.0082 0.0116 0.0117
Max 0.56 0.56 0.56 0.56 0.56 0.56 0.56 0.56 0.56 0.56
Min 0.53 0.53 0.53 0.54 0.54 0.54 0.54 0.54 0.53 0.53
จานวนบรรทด
198 224 214 201 214 219 218 214 221 195
Size(KB) 9.92 9.97 9.98 9.91 9.96 10.00 10.00 10.00 9.95 9.98
120
ตารางท� 7 ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประโยคท�วไปของวธการใหม
คร* งท�
ผลการทดลองเปรยบเทยบเวลาท�ใชในการแปลงประเภทประโยคท�วไป (เวลา : วนาท)
โปรแกรมแปลงอกษรเบรลลภาษไทยเปนภาษาไทยท�ใชเทคนคเอนแกรมในการตดคา(วธการใหม)
ไฟลท�
1 2 3 4 5 6 7 8 9 10
1 155 159 163 162 153 159 151 167 165 166
2 156 159 162 162 153 159 151 168 166 167
3 156 159 163 162 154 159 150 168 166 165
4 156 161 162 161 154 159 150 166 167 167
5 155 159 162 163 153 159 150 167 166 165
6 155 159 162 162 154 159 150 167 166 165
7 156 159 164 161 154 160 150 168 166 166
8 155 160 162 162 153 159 150 166 165 167
9 156 159 163 163 154 158 150 167 166 165
10 155 160 162 161 154 160 150 166 166 166
เฉล�ย 155.5 159.4 162.5 161.9 153.6 159.1 150.2 167 165.9 165.9
SD. 0.5270 0.6992 0.7071 0.7379 0.5164 0.5676 0.4216 0.8165 0.5676 0.8756
Max 156 161 164 163 154 160 151 168 167 167
Min 155 159 162 161 153 158 150 166 165 165
จานวนบรรทด
198 224 214 201 214 219 218 214 221 195
Size(KB) 9.92 9.97 9.98 9.91 9.96 10.00 10.00 10.00 9.95 9.98
121
ภาคผนวก ค : รายการคาท�มความผดพลาดประเภทตางๆ
ตารางท� 8 รายการคาท�โปรแกรม Thai2brl แปลงผดพลาด คาไทย Thai2brl แปลงผด ท�ถกตองควรเปน
เบรลลไทยระดบ 1 เบรลลไทยระดบ 1 ขางเปออกมา k4*}&%4ogm* k4*}f&4oogm*
มาเทอะไร m*)%a:r m*f)oa:r เฉล�ยกนไป f/l29yg>n:& /l(9yg>n:& ไกลเกล�ย :gl9fgl29y :gl9gl(9y
กระเปาเปอยาง gra&68&%4y9*} gra%68f&4oy9*} เกล�ยดน fgl29ydbn gl(9dbn ปนเปอย &n&%y39 &nf&oy39 ลงเลอย l>}l%y39 l>}floy39
ออนเพลย o9onf?l2y o9on?l( เกล�ย fgl29y gl(9y
รอนเรอย r9onr%9y39 r9onfr9oy39 ทะเลอยไหน )al%y39:hn )afaoy39:hn สงเคราะห s>}ur*ah0 s>}uroah0 เพลยกาย f?l2yg*y ?l(g*y
คาวา u*w9* uzw9* โอเออย io4o%4y39 io4fo4oy39
เม�อ fm59o mq9 คะเนอย uan%y39 uafnoy39 จะเขอย jak%y39 jafk4oy39 เตอยาก |%4y*g f|4oy*g
กะล*มกะเหล�ย galb4myafhl29y galb4mgahl(9 คลอเคลย uloful2y uloul( ระเหยอย rahy%y39 rah%yoy39
122
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1
ก.....-◌......ง g.....-c......} พกลม ?glm รโน r2in สงคราะหแสง s>}ur*ah0<s} ชะมบ +amv วภว wb,?w กฏกกโรหน g,|cggirhbn2 รธ r340) รยก r2yg ใจจรดใจจอ :1jjrd:1jj9o ตร�า |r9z รรา r2r* เพราะฉน*น ?roa/n>4n คนธ u>n0) ไฮเด :=fd
เเมมาย ffm9m9*y ตรว |rbw กก g37g กรรมการก grrmg*rg วสย wbsy ร* ง r{4} แหยแเฝน <hy<fx9n ถามะ t*ma แหวด <hwd
เขาเกย k64g( เมรย fmry ร*น r54n กรธนกจ gr0)ngbj เมลก fmlg ชอย +9oy เราโลม r64ilm บแรง v<r} มฬห m3,lh บานเปา v4*n&6 ปฤษฐ &r1-s,t ไฮส :=4s
พฒนากร ?>-)n*gr ปลง &l9} โหนะ ihna ไหวพวบ :hw?wbv เมหน fmhn โหม ihm9 เบอรน v%r0n2 พชระ ?+ra จาน j4*n น*นเนอ n>4nn% ถาว t9*w ชอว +ow0
ประกาศก &rag*,sg จาว j9*w ฝอ. xo. วนจกร w>nj>gr สารท s*r) จรส jrs
ปากไปล &*g:&l9 พญาณ ?,y*,n ปร- &r- ชเมอง +3mq} เมา m64 กาม gzm โอดโท io7di)4 เรขา frk* ปรด &rd
ซองแมว !o}<mw โขมย ikmy รชะ r+a เบอรน v%r0n เมาะ moa รณ r,n0 จดสน j>ds>n โขลน ikln ปาป &*& เสยกล s(gl โขษม ik-sm อาด o*d
ไซยยาฟ :!yy*$ วง wc4} แจะ j<a ประสาร &ras*r เมล m%l วฤก wr1g โสเหล isfhl9 พณช ?,nb+ ปรม &rm ละเมน lam%n ถ�ง tb9} มบธ mv0) กบแก g>v<g4 เรม fr9m วศค w,su
123
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ลกลา l3gl9* พน ?34n พร ?2r
ปญญาส &>,y,y*s เมอ mq มมข mmk ขาวกะ k4*wga พนจร ?njr รน r4n เปนไฟ f&'n:$ ชงฆ +>},u รนด rnd เหลอม hlqm ปลาก &l*g คาธ u*0) วายตา w9*y|* เราะ roa รบส rvs เดกชา fd'g+* เวตร fw|r รปภ r&,? วชาธร wb+*0)r บอตอ vo|o ทอย )oy วทยต wb)yc| ถง t{}9 วหา wh*
เดนหน d%nhn ธรม 0)rm วอค wou มาเรย m*r( พนาย ?n*y ฃน ,kcn กร«ดก gr27dg ธอโร 0)oir มรณ mr,n โดโด idid4 บอม v4om เฃา ,k6 มเรย m2r( บอม v8om ปาร &*r
น* าตาย n4z|*y ธงก 0)>}g โตก i|g เผาไท p69:) แครต <ur| คคน uun โศกน* า i,sgn4z เวย fwy0 วอล wol
บรรดาก vrrd*g เวรา fwr* ขอน kon เกลอก glqg เพตร f?|r คฤห ur1h อมสม oc4msm ปลาต &l*| นฑ n>,) เคลบ ul%v กรม g3rm คล- ul- เยยน y(n ชปน +>&n นน n>n เยยบ y(v เพรา ?r6 รพา r?*
ทาบทา )*v)* กวา g3w* อาม o*m เจย fj7yc เวส fwsb โตย i|y
เจรด fjr'd เวหน fwhn gur gur เยยว y(w พยาล ?y*l กล gl2 หน�น hn>9n ไขมา :km* คงธ u}0) หน*า hn>4* ขอน k4on มลน mln
ทารพ )*r?2 แคละ ul<a ศล ,s3l
124
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 เคหล fuh0l แคแล <u<l รยะ rya กเทพ gcf)? ธารณ 0)*r,n จลา jl* ผวนา pen* ไขว :k4w ชาด +*d แยแส <y9<s พรพล ?r?l ฝ� x29 เวยน fwy0n เวย w( ฝก x2g
เวหาส fwh*s ไขษย :k-sy คาม u*m เว*ก w%4g ถง tc4} ใต :1|9
เวยก w(g ถก t37g มวก mwg กมท gcmc) ธณะ 0)b,na แห <h4 เพอญ f?ob,y แวด <wd2 นว ne
กทรรป g)rr& แวตร <w|r ซาซ !*! เคยร u(r ปลก &l2g มสด msd
หมดพก hmd?g ฃ*น ,k{4n ษฏ -s>,| เจะก jfagc ขอย k4oy ษฑ -s>,)
เจะดะ jfada คาบ u4*v ษณ -s>,n กรง gcrc} คคนะ uuna ษษ -s>-s เค*อ uq4 ธโอ 0)2io แ-ะ <-a
แคแกล <u<gl ขอลอ kolo โ-ะ i-a กรร gcrcr ธมา 0)cm* จร jbr
โวการ iwg*r จตต jb|| คณน u,nn โวทาน iw)*n ไวโพ :wi? รสก rsg
กเรา gcr6 ชากา +*g* แม <m7 กนขบ g4nkv เพม ?%m สกฏ sg,| ไวคอม :wuom ชาคร +*ur ชาร +*r
ผ*ว p24w0 ปวาฬ &w*,l กรา gr* ทานล )zn3l เธน f0)nc ปบ &2v
แพทยา <?)y* คงท u})2 ใหน :1hn กเวร gcfwr ปสาท &s*) กว ge
แพรมน <?rmn ปสาน &s*n ปป &2& แคบด <uvbd โธวน i0)wn ใหม :1hm
125
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ศตปท ,s|&)2 เพอ ?q ขช k>+ รงก r}gc0 อจลา ojl* โรษ ir-s
รจเลข rjflk ปหาร &h*r ใหว :1hw ทาไห )z:h4 อจร ojbr ชาล +*l คล«ป ulb7& ดยก dycg ปฬ &2,l นายด n*ydc ดยค dycu สขะ ska โพรด i?rdb เกน fg9n สขา sk* กซน g3!bn แพทย <?)y สข skb เผนก fpnbg แมเ <m9f ถกล tgl เผลจ fpl'j ศยนะ ,syna กกก ggg เผลด fpl'd อทระ o)ra กรร grr กดกบ g3dgv ศยาม ,sy*m รอน ron นายต n*y|b พรอก ?rog กา g7* รมณย rm,n2y ศรท ,sr>) ปฏ &c,| เผลด fplbd อธป o0)b& ฤช r1+c ทพยา )b?y* ขะยง kay} ฤต r1|c รมดา rmbd* ปอย &4oy ฉนา /nz เผอล fpobl พรอด ?rod ฉบบ /vv เผ�ง p%9} ขะยม kaym ฤษภ r1-s,? เผ*ง p%4} ศราพ ,sr*? รอม rom
เผยน p(n อนงค on}u กกพ gg? ไพเรอ :?r% อนยะ onya หตะ h|a ศวศร ,sw,scr ก�ว ge9 หทย h)y ศวสน ,sw>sn อนม on>m ฉบา /vz นายทร n*y)r ทนอด )nod ฉมบ /mv ไพศาข :?,s*k แมง <m4} หนง hn} ศอกกา ,soggz จนต jbn| กกล ggl บาปวน v*&wn กษณ g>-s,n เกล fgl
คลม ulc4m อนก on{g ฉมา /m* หยอย hy'oy เกร fgr9 ฉมา /mz
126
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 หยาว hy4*w อนช onc+ ลกร lgr บาลง v9*l} ปกข &>gk ปร &cr
บาลอก v*log ปกษ &>g-s ลขข lkk บาลาน v*l*n กาคา g*uz ลคร lur กระลา gral* อนส oncs สญ s9,y บาสมา v*sm* ศลถ ,sl>t ลฆ l,uc หรสว hr>sw ไพโค :?iu สดก sdg
รโหคต rihu| สาหา szh* กกะ gga กดภ g3d,?3 ศวส ,sw>s สดน sdn ทแท )2<)4 ศศธร ,s,s0)r ลง l9}
กระลา gralz ทรรป )rr& นร n2r กมเลศ gmfl,s ตะก |ag3 สดา sdz หลงจ hl}jb ตะแก |a<g สด sd2 หลงตา hl}|* บาจก v*jg สต s|0 กระล gral2 ทรวด )rwd สตก s|g
หลงลม hl}lm ทรหน )rhn สตน s|n ตกษณ |>g-s,n ทรห )rh3 กง g9} ฝนฝา xnx4* ปญจ &>,yj กง g4} ฟตวา $>|w* กาซ g*!b ซน !bn เซราะ f!r*a ศพท ,s>?) สตอ s|o ฝร* ง xr>4} ศลก ,s>lg นง nc}
กรมะ g3rma บาทบ v*)v ซม !bm กวง g3w>} เกลศ fgl,s ฉศก /,sg
กระว graw2 ศากย ,s*gy ลน l9n กรณย gr,n2y ศาฎก ,s*,dg พฤฒ ?r1-) รอบค rovu2 ศานต ,s*n| พฤต ?r1| ทโรส )2irs ชาว +9*w ซล !bl กรบร grv3r ทราก )r*g มห mh3 บนมะ vbnma ศาพร ,s*?r ลบม lvm ควาว uw9*w ศารท ,s*r) ลปก l&g
127
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 บนยา vbny* อปยศ o&y,s ลปน l&n บลญา vbl,y* ตะบม |avm ตาด |*d บลบ vblv2 คาเล u*fl กฉา g/* บศาจ vb,s*j คาว u9*w ฉฐ />,t
กระสน grasn ทรม )rcm โคล iul กระสบ grasv ทร )r39 คบ ucv หลอก hl'og ทรท )r3) สถน stn ศกษก ,sbg-sg กาน g7*n สถล stl หลอน hl'on ทลบม )lvm คป uc& รอยๆ r9oy1 ทลท )lb) ลว l4w ศเขา ,sbk6 กานน g*nn ตาน |*n ทสด )2scd กล gl39 กอย goy ฟนฟ $5n$3 ทวย )9wy ธปท 0)&)
กระสะ grasa ทวย )4wy ธพน 0)?n ฟดล $cd3l ทวยะ )wya เพะ ?fa ระง� ra}29 แมลบ <mlv ธรณ 0)r,n
กอผจญ gopj,y ทวย )w>y สาต s*| ทกข )cgk โครส iurs วาก w*g ข*นง k{4n} ทวช )wb+ ตาบ |*v
หลาหล hl*hl โครา iurz จน jcn เกน fg7n ตะละ |ala ลวย lwy หล�ง hlb9} ขาณ k*,nc จะะ jaa
บอซา v5o!* เกศว fg,sw ซท !2) ศลป ,sbl&2 นกหก nghg กาฐ g*,t
บอโด v5oid ดอฆอ do,uo โคส ius บอแน v5o<n ดอง d4o} กอส gos ฝจก x2j>g ส�ง s29} เกษ fg-s ศทธ ,sc)0)b โคลด iuld กฏ g,|b ศนก ,scn>g สตล s2|l ไคร :ur ศษร ,sc-sbr กวย g8wy ถนป tn&
128
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ระหวย rahwy อยง oy9} พ.ศ ?.,s เกยลา fgyl* อยส oy>s คว- uw-
ระแอน ra<on กาบ g*v3 ถนา tnz รกขา r>gk* ศาสก ,s*sg ลออ loo เกยร fgy3r ดอปอ do&o โมฆ im,u รกดป r>gd& สมา s2m* ถมอ tmo
กะฉอด ga/od ฟาม $9*m ถลน tln เกรบ fgr'v อย oyc9 ถลม tlm เกรม fgr'm ทหระ )hra แน <n4 ตวโค |eiu กวา gw4* พกา ?g* กะซ� ga!29 ศาสน ,s*sn พงศ ?},s รงเก r>}fg สสะ s2sa res res
โซลชา i!l+* สสา s2s* คถ u3t กะดด gad>d โมจน imjn บฐ vb,t ทเรน )3frn กามท g*m) ฆาฏ ,u*,|
กะตอก ga|og ปาก &*g2 วาร w*r บตร vc|r0 ส�ง s59} ฆาต ,u*| กะตา ga|9* ปาง &9*} ฆาน ,u*n เศกฐ f,sg,t2 โมร imrb ตาล |*l
เศรษฐ f,sr-s,t โมโร imir ซช !c+ ญญาย ,y,y9*y ขาม k9*m ไกร :gr ตางค |*}u0 โมษก im-sg แพส <?s บทคล vc)ul โมษณ im-s,n ตาว |*w โคโรค iuiru ช*ต +24| ใม :1m4 ขนล kcnl3 เกน fg>n กต g'| กะตด ga|cd กวาน gw*n พชร ?+r เศวาล f,sw*l ปาทป &*)& ทาษ )*-s แจคเ <j7uf จรณ j3r,n วาฬ w*,l กะตก ga|3g อวจร owjr โนน inn บรณะ vcr,na งงด }}bd ควา uw*
129
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 โศรตร i,sr|r ศตล ,s2|l โนม inm เกลง fglb} ดวย dey บต v2| หวตา he|z ดาง d4*} วง wb} กะถว gate สงก sc}g ตาฬ |*,l ฐาสก ,t*scg สจะ scja สธน s0)n กะทง ga)>} กาโย g*iy กถา gt*
สกขรา sgkr* สจ scjb พธ ?0)3 กะทน ga)cn การก g*rg ธ 0)c0 ณอคณ ,nouc,n สญญ sc,y,y ลน l>n ภารยา ,?*ry* ศน ,scnb งอด }od เทรย )r( นพศก n?,sg ขาบ k*v รนธะ r>n0)a นภจร n,?jr กทม g)m ฆอชน ,uo+n2 ศนย ,s3ny เคก fug รากษส r*g-ss อเสข ofsk ขขว kkw สงเษป s}f-s& ลกลา lgl* ธว 0)cw กะบด gavcd ลการ lg*r อนธ on0) ตามน |*mbn ลกจ lgcj ลภ l>,?
โจษจน ij-sjn ลคฑ luc,) งอย }oy โฆเซ i,uf!9 ลคฬ luc,l อนล onl
คอสอง uoso} ตตว |>|w ลล l>l หายยา h*yy* ออกเ oogf แฉ </9 เบรย vr( ค�น ub9n พบ ?v3 หงสา h{}s* นมผา nmp* พพธ ??0)
ฉทวาร /)w*r งอม }4om แฉว </w ฉน*น /n>4n คมห ubmh อนา onz
มฆวน m,uw>n ปาย &9*y ลาช l*+ ราปก r*&2g ดาโบ d*iv ลาญ l*,y
พญายา ?,y*y* นมาซ nm*! บงก v}g รายวา r*yw* นยนะ nyna พลว ?lw มณฑร m,n,)br นยนา nyn* มบ m>v
130
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 พนจรก ?njrg ดามพ d*m? มม m>m
ฉะฉ� /a/29 บาบอ v*vo มย m>y กรณฑ gr>,n,) กษร g-s2r พลอ ?lo ฉะตา /a|4* ลพช l?c+ พร- ?r-
แบนโจ <vnij บาบ v*v2 ยกน ygn ฉะนอง /ano} ปาว &4*w กนน gnn เหมอ fhm4o ปาว &7*w ขฉพ k/?
เหมอะ fhmoa นฤดม nr1dm พรบ ?rv เหมอ hmq นฤตย nr1|y ยขว ykw นายร. n*yr. ดาล d*lc ฟอจ $oj รดวน rbdwn บาพก v*?g ยฉร y/r เหรน fhrbn บาย v8*y ชงฆ +},u มนทร mn)br ทอรา )or* ยธษ y0)-s มนษย mnc-sy ไฟา :$4* ยมก ymg สธ.ก s0).g' ดาว d9*w ยมล yml สธสะ s0)csa งาน }9*n ยวน ywn ฉยยา />yy* งาน }4*n ยวา yw* โทบน i)vbn ทะทา )a)* ขนด knd ร�อง r59o} ลมาด lm*d ลาล l*l
คากน u*g>n ลลนา lln* รา r9* มรขวด mrkwd ลลาฏ ll*,| รา r4* สนเดก snfdg ทะนน )ann ลาส l*s ฉมคง /bmu} fund fund ขนน knn
กะแหะ gah<a ยมท. ym). มาฆ m*,u สนาดก sn*dg ลวณะ lw,na สพท s?)
มรจ mr2jb ลวนะ lwna ขาล k*l กะอด gaobd ลวม l9wm โปป i&& ใบสจ :1vs>j ลวย l4wy ตร- |r- แหรน <hr9n เจมะ fjma ชนม +nm แหรว <hr4w ยอง y4o} นาด n*d
131
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 รด* r3d24 ทะแย )a<y ถร tbr
ตาหระ |zhra ค*น u54n มาด m*d ดรธาน dr0)*n กอง g9o} อปร o&r มล*น mlb4n ภฤดก ,?r1dg นาท n*) มล�น ml59n ดาอ d*o2 ยอบ yov
มวกผา mwgp* ดากล dzgl มาต m*| แหวง <hw4} เศรฐ f,sr,t ช +39 แหวน <hw4n ลอน lonb ดน d2n สนน snc9n อะแจ oa<j ดป d2& เขยอะ fkyoa ดาดง dzd} กว- gw- มสารก ms*rg งาย }*y3 งาย }*y มหคฆ mh>u,u ลอแม lo<m พลา ?lz ดลภาค dl,?*u ลอย l9oy อภว o,?w
รสก r3s{g เศลษ f,sl-s คอค uou กรตย grb|y นหาน nh*n หย hyc คาตา u9*|* ดาน dzn3 มาท m*) ปงมา &8}m* นหต nhc| มาน m*n เขษตร fk-s|r บาร vzr3 ชบ +3v
มหาพน mh*?n เศาจ ,s6j หย hy3 ดไวท d:w)0 ตาขอ |*ko หรณ hr,n โงงๆ i}9}1 คณน u,nbn งน }bn ปฏรพ &,|br? ดาบล dzvl งม }bm ตกาก |2g*g ละกล lagl อร ocr พรอย ?r9oy ษษฐ -s>-s,t ชมบ +mv ปตาน &|*n2 โษฑศ i-s,),s ปล- &l- ปถมง &tm>} ทะไล )a:l งน }{n ปปญจ &&>,yj ดาร dzr2 ไปย :&y เรอก rqg ละมา lam* ตก |bg
ปมเปา &m&6 ดาร dzr3 มาบ m*v เกยง g(} สรย s3ry อมต om|
132
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 เกยด g(d ละม lamc เช f+9 เกยน g(n เสกข fsgk งย }cy ชนะม +nam2 เสง fs'} มาย m*y
ดอนพล don?l ทกษ )>g-s ยญ y>,y ประกล &ragl เงน f}'n กวม gwm ตกเค |{gfu ละไม la:m ทก )2g กนได g>n:d ปฬก &2,lg กง g{} มหมา mhbm* ปฬา &2,l* ค uc9 มหษ mhb-s2 ชษณ +c-s,n กวย gwy
ประจญ &raj,y องส o>}s ผกก pgg ดกดน d>gdn ยชน y>+n พสก ?sg
มโหษธ mih-s0) เสนง fsn} พสน ?sn ดกษก d>g-sg ยฐ y>,tb พส ?sc ดกษณ d>g-s,n ย �น y>9n อยน oyn กรรด grrdb ภาณก ,?*,ng ยา y4*
ประชน &ra+n เสนห fsnh กวะ gwa ตนก |cng3 อฐม o>,tm ยาค y*u
ประชา &ra+* อณฑ o>,n,) ผคม pum กนยา g>ny* ตาธร |*0)r ผงม p}m กนลง g>nl} ตาน |9*n ผงร p}r
กรรทบ grr)v เสบย fsvy อย oy3 แกงได <g}:d กรอ gr4o เจะ jfa ตรงค |cr}u เกย g( วท w2) ตลขา |clkz สงกร s}gr ทน )2n จแจน j<j4n อทธ o>)0) วร w2r
ประณต &ra,n| ลคน l>un กวา gw* ประณม &ra,nm สงคม s}um ยาด y*d ชรแรง +r<r} สงคร s}ur ทบ )2v ประดง &rad} ล�ง l>9} ผญา p,y* ประดน &radn สงคอ s}uo ดด dcd
133
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 อกเลา ogl6 อนต o>n| ผทม p)m ชระงม +ra}m ยาตร y*|r ยาน y*n ชระงา +ra}z ลญฉ l>,y/ เอช fo+ เตงก f|}g3 ลฐ l>,tb แซต <!| ประด &radb คนทา un)* กง gc}
ชระมด +ramd ลดา l>d* ล� l29 ชระลอ +ralo ภาสา ,?*s* อรช or+ ธนวา 0)>nw* เสาว s6w ล* l24 กปนก g>&ng อนธ o>n0) อรณ or,n ชระล +ralc คนธ un0)0 ลช l2+ มะดก mad3g สณฑ s,n,)0 แซท <!)
มะแตก ma<|g ภงส ,?b}s แซน <!n สมปก sm&>g ทนต )>n| เอด fod สมผส smpcs เสบ s%v พอน ?on ประต &ra|b สดป sd3& ขบถ kvt มะแน ma<n9 สตอล s|ol ยาบ y*v ธารณะ 0)*r,na ลาขา l*k* กปณ g&,n ธารณา 0)*r,n* ข�ง kb9} ว w39 มะปน ma&bn ตามพ |*m? ว w37 มะผาบ map*v สตก s|bg มาศ m*,s มะฝอ max9o อมพ o>m? ดล dcl ธารธร 0)*r0)r ลาชา l*+* มาส m*s สมมต smm|b ลาช l*+b กฤช gr1+ กมด g>md2 เปตา f&|* กฤด gr1d
มะพด ma?3d ทปน )>&n เว fw8 มะแพน ma<?n นะแส na<s เวก fwg มะแฟน ma<$n ลาน l9*n เชส f+s มะเมอ mam% ทศน )>,sn กพง g?} สมลม s4mlm นกร n>gr แฟต <$| กมปน g>m&n ดผา d2p* กมง gm}
134
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ธคณ 0)buc,n ดพร d2?r ผรณ pr,n
ประทะ &ra)a ตายอ |*yo เชา +6 องคล o}ucl ลาย l4*y กมจ gmj เตรย |r( ดยว d2yw ผล- pl-
ประทา &ra)z ดยา d2y* ผลก plg ธดงค 0)cd}u ทฬห )>,lh ผลง pl} มะวาร maw*r ขณะ k2,na อโล oil จยต jyc|b คมน umn0 อวก owg
ธระะ 0)craa กรก gr>g กณ gc,n ประเท &raf) ตาลอ |*lo ลต lc| คาชม uz+cm ทาง )4*} อวท ow) มกตา m>g|* ยาว y4*w ลท lc) ดาวเน d*wfn โงน i}4n แถล <tl ดาวบส d*wvs ลาย l*y3 เวย fwy มงกง m>}g} ตาล |*lc ผลอ plo จรมก jrm3g ลารา l*r* มต mb| มงก m>}gc ครง ur9} กล- gl-
จรรจา jrrj* ลาลส l*ls อสภ os,? คาตก uz|>g กาส g7*s นขา nk* อนวช onw>+ ตาวา |*w* ท� )59 เขยะ k(a ลาวก l*wg มน mbn จรวก jrw>g แกง <g4} เบท fv)
ดานาณ dzn*,n แกง <g} ล l34 คานวร uznwr กราง gr*} ทง )9} จระทก jra)g เภรว f,?rw ปล &l3 จระนา jranz นนท n>n) อเส ofs อนญา onc,y* แสนย <sny ขมม kmm เขอน kqn แสบก <svg ออ o7o ดารวจ dzrwj แสยก <syg กลธ gl0) มนตา m>n|* แสยง <sy} หวว hww
135
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 มนนก m>nng แสอก <sog ทธ )0)b ดาหน dzhnb แสอง <so} ทนต )n| แกรง <gr4} ดรค dcru ใซ :1!4 คาปน uz&cn โสดม isdm ทนม )nm ดแซะ db!<a บปผ vc&p ร� r29
พระใบ ?ra:1v กราล gr*l กยร gyr ชอ*อ +o54o ย�น y29n แวก <wg
แกรม <gr4m อาจจ o*jj ตฤณ |r1,n ดนห dbnh3 บพพ vc?? กรก grg ดนอะ dbnoa กาชา gz+z สร sbr ชะตา +a|4* กาซา gz!z คปค u&u มากช m*g+3 ครน ur>n ยาๅ yz*
คาสมอ uzsmo มกรา mgr* ตฤท |r1) มาคธ m*u0)2 ดอา dco* ภรต ,?r|
มางสะ m*}sa บยอ vcyo ตฤป |r1& คาแสด uz<sd ย*ม y{4m รฟ r2$ ดอาซ dbo*! บรพ vcr? ม� m29 ชะเลย +afly ดกร d3gr ม* m24 มาเซา m*!6 แกแน <g<n หสน hsn ชะวาก +aw*g เปศล f&,sl มเ m2f คาแหง uz<h} เปสล f&sl แวฟ <w$ อปการ o&g*r ย*ม y54m ส� s29 สรบบ srv>v นาคร n*ur รส r2s อปมาน o&m*n หงอด h}od แง <}8
ดฉน d2/>n อาซ o*!b ยฐ yb,t โตระ i|7ra บษย vc-sy สฆ s2,u
สรลอด srlod อาณา o*,n* ยน ybn อภณห o,?b,nh ดรา d3r* ทมก )mg สรลอน srlon ล*ม lb4m รง r{} จองคช jo}u+ นาค n*u3 ทมน )mn
136
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 เขอม kqm สถาพ st*? ทมบ )mv มานษ m*nc-s สถาล st*l สด s2d กศมล g>,sml ดอา d3o* ภฤศ ,?r1,s มาฟส m*$3s มดาย md*y หอง ho}
อมตบท om|v) ดเอ d3fo สต s2| ไตไฟ :|4:$ อาเด o*fd ทมอ )mo ดหน d2hbn อาตม o*|m ยบ ybv นาย n4*yc ยน yc9n ตลบ |lv
จอดดด joddd ยน yc4n โว iw9 ประศม &ra,sm ยบล ycvl ปสพ &s? ประศ &ra,sc อานก o*ng สมา sm*
ประสก &rasg พรด ?r>d ทยา )y* สล*ง slb4} อานะ o*na ภก ,?>g
กรอม gr9om หญบ h,ybv ใว :1w4 ดงสะ d{}sa พรบ ?r>v ไวเ :wf อยาลา oy*l* อานา o*nz ทร- )r- กลไกล gl:gl ยวา ycw* ปส &sc คลาน ubl*n กรว grbw คมช um+
ค*ว ub4w9 ทาว )9*w มน m2n มารษา m*r-s* ยคา y3u* ปอ &7o แขมพง <km?} ยด y34d กสท gs) มารา m4*rz ลก lc9g คมน umn
กาจชม g*j+m ตาแบ |z<v กส gsb ดรย dcrby มนญ mnc,y ยด y2d
นกเกร ngfgr บละ v3la แข <k4 สวภาพ sw,?*? อาม o9*m ฌอง ,+o} มาวาร m*w*r ลง lc4} สห s2h น* าชน n4z+n นาว n4*w ขต kb| สวาน sw4*n อายต o*y| ฌอน ,+on จะขาบ jak*v โชตก i+|g คร- ur-
137
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 อวลอบ owlov อายน o*yn มก m{g อวลอล owlol แกล <gl9 เดง fd} มาแอะ m*o<a ยษะ y3-sa ทรท )r) ลวงค lw}u0 เยซ fy!c รย rcy
อเสกข ofsgk เดจ fd'j รส rcs ลวตร lwb|r คร* ur24 ญอ ,y4o กลเหย glfhy ครค ur2u ทพ )c? แกะกะ g<aga แปท <&)3 ร r39 มดลอ mbdlo มมาก mm*g ลม l3m
ถนนตก tnn|g มยง myc} รจ r3j มถน mbtcn แปร <&r8 สอ s5o
นโคทร niu)r มยข my3k ครม urm นงพงา n}?}* ตาร |zrc กอ g7o โกญจน ig,yjn สนธ snb0) ขยด kyd
มลล mbllb สนข snck ศกฏ ,sg,| นนตรา nn|r* สนต snc| ศกล ,sgl โกฐสอ ig,tso สนน sncn ขยม kym สอปน so&3n โชรม i+rm จม j>m สอยไร soy:r สบกก svgg รต r3| กลอม gl4om กามา gzm* ปอล &ol
ละคอน lauon สบทบ sv)v ศจ ,sj2 ละงด la}bd พฤกษ ?r1g-s ศดก ,sdg
ละโบม laivm นาฬ n*,l2 คอล uol มคณา m2u,n* การอ gzro ศตก ,s|g สะตอ sa|5o หนาง hn*} ขยล kyl
สะทอน sa)on แกแล <g<l ญาน ,y*n มแซม m2<!m แกว <gw9 รธ r30) สะนง sanb} มรจ mrbj รน r3n
ละลอก lalog เยง y%} ศน ,snb ละวาง law*} เยด y%d เดธ fd0)
138
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ละเวง lafw} เยน y%n ศพล ,s?l คณจ uc,nj2 เยบ y%v ศมน ,smn อะจน oaj2n เยม y%m ญบ ,ybv ละเหย lafhy หนาน hn*n เลณ fl,n โกรญจ igr,yj เยย y( เลด fld กลนท gl>n) การ gzr3 แอม <om มศข m2,sck ตงส |b}s ศรภ ,sr,?
ละแอน la<on กรษ gr2-s ญ� ,y29 นกษา nbg-s* มลโค mliu กอก gog ลกขะ l>gka สพาบ s?*v เลท fl) ลกข l>gk2 อาศ o*,sc ทส )cs
นกอฮ nbgo= มลน ml9n ฏฐ ,|,tb ลกภา l>g,?* ตซ |b!2 จา j7* นกะห nbgah กรง gr{} สม sm2 ลกษะ l>g-sa เยอ yq พาก ?*g
นพปฎล n?&,dl หนาย hn*y หง h>} ลนเต l>nf| มลวก mlwg ยด ycd สงขต s>}k| มลก ml>g ยต yc| มอส m5os2 ทางน )z}n รม r3m ลพธ l>?0)0 มลา ml4* พาง ?*} ลพธ l>?0)b มลาก ml*g เคห fuh ลภย l>,?y0 กรก grcg กรบ grv
ลยคต l>yu| มลาน ml*n ตวน |wn ลากษา l*g-s* มลาว ml*w ภาม ,?*m มขลด mckld มลน mlbn เลพ fl? ลางท l*})2 อาหร o*hr ตวว |ww คณดม uc,ndm โปป i&7& ตม |cm ลางาด l*}*d หน� hn29 โอ io7
เด*ก d%4g จมร jmr2 พาต ?*| เด�ด d%9d อานด oznd พาท ?*)
139
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 เด*ด d%4d มสาร ms*r ยพ yc?
อดธา o>d0)* เจด j%d เทก f)g เด�น d%9n มหล mh>l คอส uos เด*น d%4n เจน j%n เรข frk มทน mc)bn เดา d69 พาธ ?*0) อทธา o>)0)* จรบน jrvn แบ <v4 นทาฆ nb)*,u ซงดา !}dz พาน ?*n ลาพช l*?c+ โปสก i&sg สณ sc,n ลาเพา l*?6 ตตถ |b|t เลส fls นธาน nb0)*n ตปา |b&* เลห flh อนตร o>n|r ทาใม )z:1m สยง sy} นนนะ nbnna สภาค s,?*u สยด syd มรธา mcr0)* จรรม jrrm เทค f)u มลต mclc| ตม |bmb มน mcn
พระหา ?rah* หมอ hm9o กลศ gl,s อนเต o>nf| ใยไพ :1y:? สยา sy* คณถม uc,ntm ซวย !4wy พาม ?*m อนท o>n)c ตลก |blg ย y39 มหต mchc| ครด ur3d ย y34 อนวย o>nwy เลก flg2 สรก srg มรธา m3r0)* ไปล :&l9 สรณ sr,n มรค m3r>u จรวจ jrwj สรบ srv เด�ม d%9m จรอก jrog เคะ ufa เด*ม d%4m ซอแซ !o<! สรพ sr?
นวปฎล nw&,dl สภาว s,?*w มส mcs นวพธ nw?0)3 เลน fl'n เคา u6 ลาห l*h39 หมอย hmoy สรม srm เด*ย d(4 ผณน p,nbn โอร ior เดยง d(} จราส jr*s คระ ura ล�าซา l9z!z เลย fl9y ศลภ ,sl,?
140
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 เดยด d(d หมา hm9* ศวา ,sw* ลาเทง lzf)} หมา hm4* เทท f)) สนถว s>ntw ทพย )b?y ศศะ ,s,sa ช�าใจ +9z:1j แจตร <j|r เทน f)n คณธ uc,n0)3 เลว fl'w ศศ ,s,sb
ชานรร +znrr เลวง flw} ต |37 นวาระ nw*ra เขดา fkd* ขร- kr-
เด�อ dq9 เลส fls0 ศศ ,s,s2 นหาดก nh*dg คลวง ulw} ศสา ,ss* นหาร nh*rc คลอ ul4o ณฐ ,n>,t ลาพน lz?>n อกอ obgo พาส ?*s
นฬการ n,lg*r ทพา )b?* ทฤฆ )r1,u คณนน uc,nnn เลหะ flha พาห ?*h สปป s>&&b จรม jrbm ณก ,nbg สมนา s>mn* แจรก <jrg ผต p2| แดกงา <dg}* แจรง <jr} สภ sc,? ลกขา lbgk* อชท ob+) นฤป nr1& การจร g*rjr ตระ |2ra ชอย +oy อสดม o>sdm แบง <v4} เต f|9 ปสนน &s>nn นกร nbgr นวก nwg ปสยห &s>yh hน* hn24 โชด i+d กลาย gl4*y จรว jrbw เตง f|} ปหงส &h>}s ทวส )bws ขล- kl- คณน uc,nnc I"II I"II ขลบ klv มลฟ m3l$3 นคห nbuh จาบ j*v สยน s>yn0 ผรส prsc ศาณ ,s*,n
การเต g*rf| หมน hm5n ศาต ,s*| คณบท uc,nv) กอม g4om ขลม klm สากย s*gby โจรา ijr* ปฏ &>,| นษฐา nb-s,t* โจละ ijla สย scy
141
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 นษาท nb-s*) ท*ง )24} สร scr ปอทม. &o)m. รชน r+nb ศาป ,s*& นสาท nbs*) รชน r+n2 กาศ g*,s
ปอพาน &o?*n โกญจ ig,yj ผ pc4 ปอมท. &om). กอย g'oy ผก pcg ถะกด tag>d ผลก plbg โบน ivn
ถะโกน taign มหป mhb& ไอน :on ปะกง &ag>} ผลน plbn กส gcs ถะถบ tat>v มหษ mhb-s ขลา kl* คณปก uc,n&g รถยา rty* แลง <l} อาจมน o*jmn ผลอ pl5o คง u>} ลฬหา l2,lh* รบาญ rv*,y โชพ i+? ถมภ t>m,?0 กอร gor2 แลบ <lv จตร j>|cr โดมร idmr ขร k2r
นอนนก nonng เเละ flfa แลป <l& ปะบก &avcg แลง <l9} ตอย |oy ปะปน &a&9n จอง j9o} จง j9} กล�ง glb9} มอน m9on จง j8}
ปะโยค &aiyu อล obl3 หาด h*d เมนกา fmng* สมมต smm| บเอ vfo น�อง n59o} ซ*น !>4n แค <u4
โดอาส ido*s กรณ grc,n เทล f)l สามสบ s*msv มอม m'om ขว- kw- นฮอส n3=os โดรณ idr,n ขวง kw} กล*ม glb4m หยอน hyon หาน h*n ลนๆ lc9n1 สมรด smrd เทว f)w ลฟต lc$|2 หยก hy>g สว scw ชตน +2|4n หยง hy>} ไช :+9 เมาโร m6ir และะ l<aa กฏ g3,| นะญส na,ybs หยด hy>d นฬป n,l&
142
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ลลาย lcl*y แลว <le นอ n4o กล*ง gl{4} หยน hy>n ไชย :+y
นกตะ n>g|a หยบ hy>v กด g3d เมยร m(r ผอวด powd ครา urz เม�อ fm29o ผอน po3n ตะ |a7
เนเมธ fnfm0) หยาง hy*} น�า n9z ปญจก &>,yjg พลวก ?lwg ข* k{4 เนษาท fn-s*) หยาน hy*n เมก fmg ถ*าชา t4z+* ทรฆ )2r,u ฮอก =og
อามลก o*mlg หยาว hy*w ทศม ),sm สารทา s*r)* ตมพ |cm? ฮอง =o} คณพ uc,n?2 หยง hyc} ก�า g9z
อายาน o*y*n หยน hycn เภา ,?6 อายธ o*yc0) หยย hycy ฮอบ =ov อายร o*ycr หรบๆ hrv1 ทศา ),s* อายษ o*yc-s จอม j9om ปว &e ปตน &>|n2 หรบ hr>v หาส h*s นงธร n>}0)r นยต nby| ทสา )s* สารป s*r3& เขตร fk|r เผน fpn ชนด +cnd3 โกรง igr} ม.ค m.u นนตา n>n|* หรน hrcn ทอก )og อาวาห o*w*h ซาคา !*u* บฏ v>,| อาวต o*wc| โกรด igrd ฮท =>) นนท n>n)b ซาง !9*} ฮฟ =>$ นนลา n>nl* หฤทย hr1)y โลล ill เลขผา flkp* กรม gr3m โลห ilh เลขยะ flkya คลอบ ulov ฮาม =*m อาษาฒ o*-s*-) กะชะ ga+a ซก !9g ขมหน kmhbn นรา nbr* ซน !4n คณย uc,nyc ไลโป :li& ซม !9m
143
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 คณรจ uc,nrj โกรม igrm ซม. !m. กาวาง g*w*} จอย j9oy ฮาว =*w เลฑฑ fl,),)c รศนา r,sn* und und เลณฑ fl,n,)c กะดง gad} โยด iyd เลดงา fld}* อคห ocuh โยต iy| อาสร o*s3r ทกข )cgk โยธ iy0) เลดม fld>m อณห oc,nh พร ?br กระด gradc จอแส jo<s ปฎล &,dl ถลละ tclla โกลง igl} วขฉ wk/ เลนจง flnj} ไจๆ :j41 จน j4n กาสาว g*s*w ทกฏ )cg,| แดส <ds เลปกร fl&gr โกลฟ igl$ โยส iys นาคจ n*uj3 ทกร )cgr โด id4 เลยยย flyyy สมป sm2& กลา gl* เลษฏ fl-s,|c สมร sm2r หก h3g ขย *น ky>4n ผาย p9*y มกร mgr
ชมชม +cm+m ผาย p4*y ไย :y9 เล�ก l%9g คลา ul4* มกส mgs เล�ด l%9d คลาก ul*g วงศ w},s เล�ศ l%9,s คลาค ul*u ฮธ =30)
คณศก uc,n,sg ผาว p9*w เฮก f=g แถมพก <tm?g มะฮ ma=0 ซอน !on ปานง &4*n} ผดก pbdg เทห f)h เมอบ mqv ฉมน /m>n เฮด f=d เลยม l(m รอย r9oy ขอก kog ปานน &*nnc หลาบ hl*v จบ j4v
บงบอก v}vog วยาม wy*m เมศ fm,s เลยว l(w มงส m>}s เมษ fm-s เลอก fl2og สรง sr9} คว ue
ขวยใจ kwy:1j น*ด n24d นอม nom
144
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 กานด gzn>d สรบบ srvv เมห fmh ทกลา )gl4* นาโง n*i} เมอ m%
ทดถอย )dtoy สรภ sr,?3 ศว ,sbw ชเซ +3f!9 น*น n24n คา u7* ชรา +3r9* ซาฮะ !z=a กน g3n ชว +34w0 ปถพ &t?2 กบ g3v
ทยาล )y*lc ฉลาย /l*y ดนย dny กระใด gra:1d สรลน srln แกล <gl ขว*น kw>4n สรลม srlm วจน wjn
บรทาร vr)*r ฉลก /l2g วจา wj* จามปา j*m&* นาฏก n*,|g โดล idl ขวาว kw4*w วรถ wr3t ปาฐ &*,t ทรทง )r){} พอตา ?o|* วชะ w+a ทรธก )r0){g วฤษภ wr1-s,? ปาณ &*,n จาร. j9*r. วฤษล wr1-sl ใด :1d4
โลงอก il}og นาฏย n*,|y วฏะ w,|a ปงคล &b}ul วสล wsl2 ได :d9 ปจด &bjd2 หวว hwe วตธ w|0)
ทรสาย )rs*y มธย m>0)y จรก jrg ทรสม )rscm พอม ?4om ศน ,scn โลลป illc& สรต srb| วธก w0)g
ทรหวล )rhwl สรร sr2r มตก m|g ทรหง )rh{} น*ว n54w ศภ ,sc,? ทรเหล )rfhl จะไร ja:r มตะ m|a โลหช ilh>+ หวม hwcm ปณต &,n| นางท n*})b ทรน )crn บา v7*
ไลโซล :li!l อว o3w0 วนา wn* ทรอง )ro{} สลวน slwn พท ?2)
ขอแกว ko<gw คลง ulb} มธ m0)c ทรพย )r>?y คลด ulbd วยง wy}
145
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ไลปด :l&bd ปรวด &rwd แกว <gw
สาบอก szvog เอกม fogm ปน &'n จาอ. j9*o. เอกส fogs วรท wr)
พอธร ?9o0)r มลก m>lg เก fg9 เช�ง +%9} ทษฐ )c-s,t มนท mn) เช*ง +%4} กลน gl9n เผ fp
จางาย jz}*y เนง fn9} อข ok จาทบ jz)>v ระมา ram* นย ny แม-ม <m-m4 กลบท glv) ภว ,?w แมรก <mr0g กงง g4}} อฆ o,u แมรจ <m9rj กะทา ga)z ลอ lo
กาหนก gzhng ฉนท />n) นร nr เช�ด +%9d มาน m>*n วข wk
บราล vr*l2 ทษก )3-sg ว w3 อคว o2uwb คน uc9n al al
ทฤษฎ )r1-s,d> เขลง fkl} ชค +u วฏมะ w,|cma กลม gl9m หห hh วฑฒน w,)-)n เขละ fkla แซ <! ทลอง )lo{} พะอง ?ao} ศว ,sw จาบม jzv9m ระลง ral} ปบ &v เช�ล +%9l เขษม fk-sm บย vy เช*ย +(4 มาแก m*<g สผ sp
วนจรก wnjrg พกร ?>gr ศศ ,s,s จาบบ jzv>v นาย n9*y อย oy ปนยา &5ny* กลมภ glm,? ชช ++ คดรวย udrwy ฉาทน /*)n ตะ |a บรรม vrbrm มาจา m*j* ผอ po จายาม jzy*m คลบ ulcv ศห ,sh จาราญ jzr*,y ไกรพ :gr? f. f. พญจก ?>,yjg กชกร g+gr มค mu
146
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 อจฉ ocj/c เทง f)4} หย hy เชอม +qm สวยม swym มฆ m,u วงชา w>}+* มาดา m*d* ปร &r
กระทด gra)d กลละ glla ศฮ ,s= สอด s5od2 เทด f)4d มง m}
วญจก w>,yjg กลว gl4w กข gk คดซ ucd!3 เอฟ) fo$) เช f+ คปต uc&|b มาตร m*|r กค gu
โชโหว i+ihw คยห ucyh เล fl ขะแถก ka<tg เนาะ noa ชท +) ตกโต |7gi| มาตฤ m*|r1 ค u2 เปรอง &r%} มาตา m*|* นฤ nr1 ครวก urw>g สวา sw9* พด ?d กวาง gw9*} เผอ pq บษ v-s ตกวา |gw9* ฉนท /bn) มจ mj
ตกหมก |ghmg ห*น h>4n โม im พาห ?9*h0 ควอช uwo+ กม gm ตงน |}c9n มาน m4*n di di คเบค u3fvu กะป ga&3 ร rb
ตจสาร |js*r ฉยง /2y} คย uy พาพวก ?z?wg มาน m*n2 ผะ pa พกโต ?bgi| ควาก uw*g คร ur พกล ?bg7l มาปก m*&g พา ?z นางส n*}sc มาภา m*,?* สห sh ยมท.) ym).) มาย m4*y แผ <p ยรรยง yrry} กลอ gl4o ล lb ยวกสา ywgs* ขจอก kjog ทส )s ซลาโว !l*iw รชด r>+d วจ wj ตนกล |4ngl แตว <|4w ไก :g ยองๆ y4o}1 เฉลว f/lw กจ gj
147
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 บฤงคพ vr1}u? ขจาว kj*w ถด td เปศส f&,s>s ขจย kjcy ถน tn พดรก ?bdrg ซไอ !2:o ลฯ l;2 พดาน ?bd*n ขเจา kj6 วณ w,n พโดร ?bidr ขณะเ k,naf คณ u,n เปสญ f&sc,y โตง i|9} ชะ +a
คระหน urahn มารค m*ru วต w| กนตา gbn|* ต.ปง |.&} ระ ra ทะนก )ancg แนว <n9w อช o+ วทน w>)n0 โตฎก i|,dg วธ w0) วท� w>)29 ขตอย k|oy เม fm
วนทน w>n)n เทวอ f)wo ทก )g วนทย w>n)y โผอน ipon มต m| วนท w>n)b มาระ m*ra แร <r
สหฤท schr1) มาร m*r3 มท m) สหลง schl} กด g'd4 ทด )d สหท sch>) สอน s9on ทท )) สไหง sc:h} กะแม ga<m เค fu สกษม s3g-sm กะย gayc ย y3 วนฟ w>n$3 กดชา gd+* ทน )n
ทะลอก )alog มาลา m*lz ตจ |j ยนตร y>n|r มาเล m*fl พ ?c จนแส j2n<s โนว inw0 ไม :m กวาน gw9*n พานร ?*nr ฮก =g วปปะ w>&&a มาสก m*sg ต |{ ตนง |4n>} เคง fu4} ฮง =}
บอนนา vonn* เคจฉ fuj/ ฮด =d เปดส &%ds มาห m*h0 เห fh ววร wer0 ไตบา :|v* ท )c ยษฏ y>-s,|b ขนอง kno} ซง !}
148
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 เสฏฐ fs,|,t2 แฉละ </la พะ ?a เอาฟ o67$ มาฬก m*,lg นฬ n,l กวาว gw4*w คหฐ uh>,t วภ w,? วากรา w*gr* ขนาก kn*g ตต || ยากส y*gs0 ขนาง kn*} ซ !3 วางตา w*}|* มคา mbu* โศ i,s ยาจนก y*jng มค mbu2 ตท |) ยาจนา y*jn* ม*ง mb4} แต <| ยาไฉน y*:/n เคป fu4& โร ir ยาตนา y*|n* หามะ h*ma ตล |l วาจาล w*j*l ชคด +ud2 รณ r,n บอเลา vol6 เทห f)h0 บะ va บอวม vow0m มญช mb,y+ ฟ $c กนน gbnn2 เคย fu4y ซล !l
ยานยา y*ny* มดะ mbda ทพ )? บะดร vad>r กลง gl>} ร rc ตยต |yc|b ซรอ !3ro เด fd เสรช sr%+ กกๆ gcg1 ษฐ -s,t เสรด sr%d ชฎล +,dbl ษน -sn
ทะเวน )afwn หาร h*rb ษม -sm กระทอ gra)o เคย fuy3 อน on ยายจ y*yj2 มต mb|2 โส is
เสวตร fsw|r หาสก h*sg จ jb พหาร ?bh*r พขา ?bk* ทม )m พฬาร ?b,l*r พ�ง ?b9} ธ 0)0
ตรมวล |rmwl พจย ?bjy ล l2 วายบ w*ybv รมก r>mg du du นาท� n*)29 พจล ?bjl นข nk
ขบซอ k>v!o แอลก <olg หม hm ตรลอด |rlod บงส v}sc รท r)
149
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ตรลาด |rl*d พชย ?b+y นค nu ขบพล k>v?l หรอ hbro สะ sa วาลธ w*l0)b หตา h2|* ใค :1u เครด fur'd หงส h{}s ทร )r เครน fur'n โอโซ ioi! รพ r?
นาเนก n*fng เขาอ k6o ขย ky ตระกล |ragl รางๆ r*}1 ซ !b ยายย y*yyc กทล g)l2 จญ j,y วกจะ wbgja ถงาด t}*d วล wl เครา ur69 เฝอ xq ปา &z ยายว y*yw2 ม*ด m24d ผก pg ยายศ y*y,sb บโทน vi)n ป &b วกย wbg>y พธ ?b0)c ธ 0)3 วการ wbg*r มนา m2n* วว ww พ�ธม ?290)m ขบวร kvwr ธจ 0)j เสยน s(n ขบร kv3r ธช 0)+
ตระดก |radg กลา gl9* วษ w-s กนล gbnl2 กณ gc,nb ธน 0)n
ตระไน |ra:n กณ gc,n2 ช +c ตระบก |ravg โอษฐ io-s,t ขข kk ทงวล )>}wl กดา gcd* ดร dr ซะอด !ao>d ขมวน kmwn ขง k} โอทส io)2s กนลา gnl* ชย +y โอโธ io4i0) มฬห m2,lh ไส :s
โปรโส i&ris วาบา w*v* สก sg วจน wbjbn เขอ kq ฮ =b
ยายาม yzy*m วามน w*mn วอ wo โอลอฟ iolo$ วามะ w*ma มร mr กระท gra)c ม*ด m54d อห oh ทดทา )>d)* กมภ gcm,? ฆน ,un
150
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ยฏฐะ yb,|,ta ม�น m59n ผา pz จมท jcm)2 ม�อ m59o ห h4
บพชา v>?+* วาโย w*iy ฤณ r1,n ไปศาจ :&,s*j วารณ w*r,n นง n} จมพฏ jcm?,| กะแอ ga<o หง h} ตรงค |r>}u พมพ ?bm? ฤต r1| ยสต ybs|0 กลาด gl*d นฐ n,t
บลลพ v>ll? เซล !%l นท n) จมพล jcm?l ขยอง kyo} ก g2 ซลมา !>lm* ไอน :onc นน nn ทพพะ )>??a กงก g>}g wo wo พ�ออ ?29oo คอย u4oy ถ t2
ซาญอล !*,yol กบท gv)3 น n2 ซาตา !4*|* สตย s>|y นบ nv แสนง <snb} มขย mcky ล l' ผเดน pd%n คอร uor0 ลก lg
กระนก grang มคร mcur ตร |r วทร wb)3r วาา w9** ม mc ยกต ycg|b ขยาบ ky*v สค su
ซาเนน !*fnn สตว s>|w กน gn จดง j3d>} ราด r7*d ว w> จดท j3db) กรร gcrr ตห |h พงจง ?c}j} ราตร r*|r ส sc พงดอ ?c}do แซง <!4} ปง &} จเทศ j3f),s ราโท r*i) ฏ ,|b ก¬งบ g28}v มจน mcjn สล sl
ซาเยด !*fyd มญช mc,y+ คห uh หงสรถ h}srt มทค mc)u ฐม ,tm ผรพก prc?g ตถตา |t|* ศข ,sk ครลพ ur3l? มทา mc)* ศฉ ,s/
151
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 หงอดๆ h}od1 กบ� gv29 ศช ,s+ ผลคน plucn มท mc)c ศฎ ,s,d วโยค wbiyu ตนก |ng3 ศฐ ,s,t หงย h}c9y มน mcnb ศต ,s|
หจช., hj+., กงส g>}s แย <y บางส v*}sc ไทกร :)gr แ- <-
กระบา grav* ฮเลบ =flv ข k3 ตรงศ |r{},s มม mc9m ล l3 เจดย fjd2y มม mc4m บค vu ผล�ง pl{9} ชลวร +lwr บง v}
ตฤตย |r1|2y กโบร givr โ- i- ววระ wbwra คอร uorb ก g4 บาเซล v*f!l พหค ?bhu จ j3 บาเซะ v*!fa กโบล givl ศม ,sm หตผล h|cpl กปณก g&,ng ศย ,sy ววาห wbw*h กปณา g&,n* ผ p3 บาดร v*dr2 มรช mcr+ ลฐ l,t
บาแดง v*<d} ขลง kl4} อป o& วษาณ wb-s*,n แซว <!9w ยง y} วสฤต wbsr1| มล mcl3 เต f| กขน gckcn แขน <k9n บจ vj
บาทรช v*)r+ ขลวน klwn บฉ v/ เจโทร fji)r มสะ mcsa สฐ s,t เยภย fy,?cy ราแม r*<m สว sw ซงเย !b}fy ขลาย kl*y ฟง $} ซงห !b}h0 แขนะ <kna ยม ym
ผะออบ paoov ขลง kl{} ฉง /} วกล w2gl2 กปอ. g&o. บฏ v,|
เยาวน y6wn มดอ m3do ก gc เคลน ful'n รายา r*y* แช <+
152
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 เคลน ful4n แขละ <kla สต s| เคลา ul69 มรธ m3r0) โฑ i,)
ซนตา !bn|* โซเย i!fy ยล yl เคลก ul%g โซรม i!rm ชว +w วแวว w2<ww ราส r*s2 ยว yw รอน r5on ฮาร =*r2 บต v| กฏา g3,|* ราห r*hc ลพ l? กน. g>n. คะได ua:d พข ?k
โหมะ ihma ฮาเว =*fw ถ tc รกข rcgk คะนน uann ป &c ขวาด kw*d ตมก |m3g กส gs ฐกด ,tg>d โซโห i!ih ภ7 ,?#g กด g34d ตยาค |y*u ยห yh ถ�ง t>9} กณห g>,nh เน fn
ขวาว kw*w ถนน tn>n ภค ,?u ขษณะ k-s,na ถนม tnbm ฉม /m ขษย k-s>y สสต s>s| ทล )l ขษร k-s2r ตรณ |r,n2 นภ n,?
สามล s*ml ถลาก tl*g ม m3 ถทธ t>)0) คะม uam3 งะ }a กมาร gm*r คะยา uay* ถบ tv รจา rcj* ตรลบ |rlv ภฐ ,?,t
ขสมก ksmg ธตรฐ 0)|r,t ภต ,?| กมท gmc) ตรลา |rl* ดล dl ชะชะ +a+a จากร j*gr ภภ ,?,? ขอก k4og วนย wbny ม m9 พ�น ?59n คคน u>un ด d4 ตรบ |r>v เคอย u%y บธ v0) ธนร 0)ncr สาง s4*} ภย ,?y ไหม :hm9 รป rb&c ภร ,?r
153
ตารางท� 9 รายการคาภาษาไทยกบคาอกษรเบรลลภาษาไทยท�โปรแกรม SWATH ตดคาผดพลาด (ตอ)
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 รม rc9m รป rb&3 ถล tl พ�อ ?59o ตรวด |rwd ว wb สาย s4*y ตรวย |rwy ร r9 รร rcrc แหนว <hnw พจ ?j
ไหว :h4w ตรอน |ron บบ vv รหะ rcha แหระ hr<a บพ v? ฑงส ,)>}s ฌอง ,+'o} คนถ u>nt ถอน t9on
154
ตารางท� 10 รายการคาของคลงขอความ BEST เขยนผดพลาด คลงขอความ BEST เขยนผด ท�ถกตองควรเปน
ภาษาไทย เบรลลไทยระดบ 1 ภาษาไทย เบรลลไทยระดบ 1 ทรงสเหล�ยม )r}s2hl(9m ทรงส�เหล�ยม )r}s29hl(9m
คลอบ ulov ครอบ urov กงผาน g{}p9*n ก�งผาน g{9}p9*n ใวใน :1w4:1n ไวใน :w4:1n
สญญาน s>,y,y*n สญญาณ s>,y,y*,n ไฟา :$4* ไฟฟา :$$4*
ตรงท |r})2 ตรงท� |r})29 พ�นท ?59n)2 พ*นท� ?54n)29 เลอก fl2og เลอก lqg กพาน g’?*n กพาล g’?*l
เจรจาพาท� fjrj*?*)29 เจรจาพาท fjrj?*)2 ไมม� :m9m29 ไมม :m9m2 ก. g. ก g’
นาท� n*)29 นาท n*)2 ผชาย pc4+*y ผชาย p34+*y แซ <!9 แซด <!9d ทม )2m2 ท�ม )29m2 ก g4 ก g’
เม�อ fm29o เม�อ mq9 ใด :1d4 ได :d4 ค*น u54n คน u5n
ดดท� d2d2)29 ดดท d2d2)2 เหมอ fhm5o เหมอน hmqn มาน m>*n มน m>n กา g7* กบ g>v
สงคราะห s>}ur*ah0 สงเคราะห s>}uroah0 ตนง |4n>} ตน |4n สกท� s>g)29 สกคนท� s>gun)29 กอ g7o ก g’
155
ตารางท� 10 รายการคาของคลงขอความ BEST เขยนผดพลาด (ตอ)
คลงขอความ BEST เขยนผด ท�ถกตองควรเปน หองแลบ h4o}<lv หองแลป h4o}<l’&
ผ pc4 ผ p34 ประสมย &rasm>y ประชมสมย &ra+cmsm>y
ไป :&7 ไป :& ลกบาตร l3gv*|r ลกบาศก l3gv*,sg0
ชวตย +2wb|y39 ชวตอย +2wb|oy39 ผาวรอน p9*wr4on รอนผาว r4onp9*w
ชอกช*าก�าทรวง +og+z4gz9)rw} ชอกช*าระกาทรวง +og+z4ragz)rw} มาเกน m*g%n มาเกด m*g%d
ใว :1w4 ไว :w4 น* ามนกาส nz4m>ng7*s น* ามนกาด nz4m>ng7*d
ย y39 อย oy39 รกทม r>g)2m2 รกท�ม r>g)29m2 ขอมน kom>n ของมน ko}m>n รสสา r34s2s* รสกรสา r34s{gr34s* โทร i)r โทรศพท i)r,s>?)0 มด m2d3 มาด m*d3
156
ภาคผนวก ง : ตารางอกษรเบรลลประเภทตางๆ
ตารางท� 11 อกษรเบรลลภาษาไทยแบบ 6 จด ก ข ฃ ค ฅ ฆ ง จ ฉ G K 0k U -u ,u ] J / ช ซ ฌ ญ ฎ ฏ ฐ ฑ ฒ + ! ,+ ,y ,d ,| ,t ,) -) ณ ด ต ถ ท ธ น บ ป
,n D | T ) 0) N V & ผ ฝ พ ฟ ภ ม ย ร ล P X ? $ ,? M Y R L ว ศ ษ ส ห ฬ อ ฮ W ,s -s S H ,l O = อะ อา อ อ อ อ อ อ A * B 2 [ 5 C 3 เอะ เอ แอะ แอ โอะ โ เอาะ ออ Fa f <t < ia i Oa O เออะ เออ เอยะ เอย เออะ เออ อวะ อว %a % (a ( Qa Q Ea E
อา ไอ ใอ เอา ฤ ฦ ฤๅ ฦๅ Z : :1 6 R1 L1 R1* L1* อ อ อ อ อ อ ๆ
9 4 7 8 > 0 1
157
ตารางท� 12 อกษรเบรลลภาษาไทยแบบ 8 จด ก ข ฃ ค ฅ ฆ ง จ ฉ ช ซ ฌ ญ ฎ ฏ ฐ
G K k U u u ] J \ 0 8 0 Y D 8 T ฑ ฒ ณ ด ต ถ ท ธ น บ ป ผ ฝ พ ฟ ภ
} } N D 8 T } } N V & P X 4 6 4 ม ย ร ฤ ล ฦ ว ศ ษ ส ห ฬ อ ฮ ฯ อะ
M Y R R L L W 4 4 S H l O % ' A อ อา อา อ อ อ อ อ อ อ เอ แอ โ ใอ ไอ า
@ * Z B ; 9 ? C : . f 2 i 5 5 * ๆ อ อ อ อ อ อ อ ๐ ๑ ๒ ๓ ๔ ๕ ๖ ๗
' ' * / = ( ) ! j A B C D e f g ๘ ๙
h i
158
ประวตผเขยน
ช�อ สกล นายทศวฒน ชณหวทยะธระ รหสประจาตวนกศกษา 5010120025 วฒการศกษา
วฒ ช�อสถาบน ปท�สาเรจการศกษา
วศวกรรมศาสตรบณฑต (วศวกรรมคอมพวเตอร)
มหาวทยาลยสงขลานครนทร 2550
ทนการศกษา (ท�ไดรบในระหวางการศกษา)
ทนผชวยสอน ภาควชาวศวกรรมคอมพวเตอร คณะวศวกรรมศาสตร มหาวทยาลย- สงขลานครนทร
การตพมพเผยแพรผลงาน
ทศวฒน ชณหวทยะธระ และ ผศ.ดร. พชญา ตณฑยย, “การใชเอนแกรมชวยในการตดสนใจแปลอกษรเบรลลท�ใชคาควบกล* า สระประสม และอกษรเบรลลสองเซลล,” ในการประชมวชาการเสนอผลงานวจย มหาวทยาลยพายพ พ.ศ. 2555, เชยงใหม, ประเทศไทย, 17 กมภาพนธ 2555, รางวลผลงานวจยดเดน (Best Paper Award) กลมสาขาวทยาศาสตรเทคโนโลย.