17
1 ระบบถาม-ตอบภาษาไทยเพื่อสนับสนุนการตัดสินใจของนักศึกษา มหาวิทยาลัยรามคาแหง THAI QUESTION - ANSWERING SYESTEM TO SUPPORT RAMKHAMHAENG UNIVERSITY STUDENT สิงห์ทัย สุขสว่างโรจน์ 1* และระพีพรรณ พิริยะกุล 2 บทคัดย่อ การศึกษาครั้งนี้เพื่อสร้างระบบถาม-ตอบภาษาไทยเพื่อใช้ในการตัดสินใจของนักศึกษามหาวิทยาลัยรามคาแหง ในกิจกรรมที่เกี่ยวข้องกับมหาวิทยาลัย โดยการวิเคราะห์คาถาม (Question Analysis) และสร้างฐานข้อมูลตาตอบ องค์ประกอบของการสร้างระบบใช้เทคนิคการทาเหมืองข้อความ ซึ่งประกอบด้วย การตัดคา การแจงประโยคด้วยกฎ และ การแบ่งกลุ่มด้วยวิธี K Mean ในการหารูปแบบคาถามและความรู้เพื่อสร้างตัวแบบ (Prototype) ของระบบถาม- ตอบแบบอัตโนมัติผลการทดสอบระบบได้ค่าความถูกต้อง 0 . 88 ค่าความแม่นยา 0.88 และค่า F (F Measure) 0.936 คาสาคัญ: ระบบสนับสนุนการตัดสินใจ, ระบบถาม-ตอบ, การทาเหมืองข้อความ, การตัดคา, การแจงประโยค Abstract This study aimed to construct Thai Question- Answering system for Ramkhamhaeng University’s Student to support the University’s activities. Our system was based on Question Analyzer and Answering database knowledge construction to support students’ decision making. The system components with emphasis on Text mining: lexical analysis, rule - based passer and K-mean clustering technique were used to generate Question and Answer pattern. The accuracy, precision and F- Measures of the system were 0.88, 0.88 and 0.936 consequently. Keywords: Decision Support Systems, Question – Answering System, Text Mining, Lexical Analysis, Parser บทนา การเผยแพร่ความรู้มีอยู่หลายช่องทาง เช่น หนังสือพิมพ์ วิทยุ โทรทัศน์ เว็บไซต์ เป็นต้น ด้วยเทคโนโลยี สมัยใหม่ทาให้การสืบ ค้นหาข้อมูลความรู้ผ่านอินเทอร์เน็ตโดยอาศัยเว็บไซต์เป็นช่องทางหนึ่งที่ใช้กันมากที่สุด มหาวิทยาลัยรามคาแหงเป็นมหาวิทยาลัยที่มีการจัดระบบการเรียนการสอนในลักษณะตลาดวิชา โดยมีห้อง บรรยายในชั้น และมีห้องเรียนเสมือน นอกจากนี้ยังมีการนาสื่อสารสนเทศต่างๆมาใช้ผ่านเว็บไซต์บนเครือข่าย อินเทอร์เน็ตหลากหลายระบบ เพื่ออานวยความสะดวกแก่นักศึกษาให้สามารถเรียนได้ทุกที่ทุกเวลา 1 * นักศึกษาปริญญาโท สาขาระบบสนับสนุนการตัดสินใจ คณะวิทยาศาสตร์ มหาวิทยาลัยรามคาแหง 2 รองศาสตราจารย์ ดร. อาจารย์ที่ปรึกษาการค้นคว้าอิสระ หลักสูตรวิทยาศาสตร์มหาบัณฑิต ภาควิชาสถิติ อาจารย์ประจาภาควิชาวิทยาการคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยรามคาแหง

THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

1

ระบบถาม-ตอบภาษาไทยเพอสนบสนนการตดสนใจของนกศกษา มหาวทยาลยรามค าแหง

THAI QUESTION - ANSWERING SYESTEM TO SUPPORT RAMKHAMHAENG UNIVERSITY STUDENT

สงหทย สขสวางโรจน1* และระพพรรณ พรยะกล2

บทคดยอ

การศกษาครงนเพอสรางระบบถาม-ตอบภาษาไทยเพอใชในการตดสนใจของนกศกษามหาวทยาลยรามค าแหงในกจกรรมทเกยวของกบมหาวทยาลย โดยการวเคราะหค าถาม (Question Analysis) และสรางฐานขอมลต าตอบ องคประกอบของการสรางระบบใชเทคนคการท าเหมองขอความ ซงประกอบดวย การตดค า การแจงประโยคดวยกฎ และการแบงกลมดวยวธ K Mean ในการหารปแบบค าถามและความรเพอสรางตวแบบ (Prototype) ของระบบ“ถาม-ตอบ” แบบอตโนมตผลการทดสอบระบบไดคาความถกตอง 0.88 คาความแมนย า 0.88 และคา F (F Measure) 0.936 ค าส าคญ: ระบบสนบสนนการตดสนใจ, ระบบถาม-ตอบ, การท าเหมองขอความ, การตดค า, การแจงประโยค Abstract

This study aimed to construct Thai Question- Answering system for Ramkhamhaeng University’s Student to support the University’s activities. Our system was based on Question Analyzer and Answering database knowledge construction to support students’ decision making. The system components with emphasis on Text mining: lexical analysis, rule - based passer and K-mean clustering technique were used to generate Question and Answer pattern. The accuracy, precision and F- Measures of the system were 0.88, 0.88 and 0.936 consequently. Keywords: Decision Support Systems, Question – Answering System, Text Mining, Lexical Analysis, Parser

บทน า การเผยแพรความรมอยหลายชองทาง เชน หนงสอพมพ วทย โทรทศน เวบไซต เปนตน ดวยเทคโนโลยสมยใหมท าใหการสบ คนหาขอมลความรผานอนเทอรเนตโดยอาศยเวบไซตเปนชองทางหนงทใชกนมากทสด มหาวทยาลยรามค าแหงเปนมหาวทยาลยทมการจดระบบการเรยนการสอนในลกษณะตลาดวชา โดยมหองบรรยายในชน และมหองเรยนเสมอน นอกจากนยงมการน าสอสารสนเทศตางๆมาใชผานเวบไซตบนเครอขายอนเทอรเนตหลากหลายระบบ เพออ านวยความสะดวกแกนกศกษาใหสามารถเรยนไดทกททกเวลา

1* นกศกษาปรญญาโท สาขาระบบสนบสนนการตดสนใจ คณะวทยาศาสตร มหาวทยาลยรามค าแหง 2 รองศาสตราจารย ดร. อาจารยทปรกษาการคนควาอสระ หลกสตรวทยาศาสตรมหาบณฑต ภาควชาสถต อาจารยประจ าภาควชาวทยาการคอมพวเตอร คณะวทยาศาสตร มหาวทยาลยรามค าแหง

Page 2: THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

2

นอกจากอ านวยความสะดวกในการเรยนแลว สารสนเทศตางๆทนกศกษาจ าเปนตองทราบ เพอด าเนนกจกรรมในเรองการเรยน มหาวทยาลยยงสนบสนนแหลงขอมลในการประชาสมพนธใหนกศกษารวมทงผทสนใจผานทางสอตาง ๆ รวมถงการตงศนยเฉพาะกจ “จดเดยวเบดเสรจ” (One Stop Service) ในการตอบค าถามทมหาวทยาลย และระบบถามตอบ (Question-Answer) ในเวบไซคของมหาวทยาลย โดยระบบถามตอบ เปนระบบทมผใชงานมาก ทงนเนองจาก นกศกษาจะศกษาเองโดยใชสอการสอนของมหาวทยาลย ซงการด าเนนกจกรรมบางอยางทเกยวของกบการเรยนเชน เวลาการลงทะเบยน การรกษาสถานะภาพนกศกษา การยายคณะ การขอสอบปรบเกรด (Regrade) รวมทงผทจบไปแลวจะขอเรยนเปนปรญญาทสอง เปนตน กจกรรมตาง ๆ เหลานตองการขอขอมลเพอสนบสนนการด าเนนการ ดวยเหตผลทนกศกษาทงศษยเกาและปจจบนของมหาวทยาลยซงมประมาณ 3 ลานกวาคน(ฐานขอมลนกศกษามหาวทยาลยรามค าแหง ปพ.ศ. 2557) ซงสวนใหญไมสามารถทจะเดนทางมาทมหาวทยาลยเพอมาขอขอมลได ดงนนระบบถามตอบผานเวปไซคจงเปนระบบทตรงกบความตองการของนกศกษาและผทสนใจดวยเหตผลทวา ตรงกบความตองการ และไมตองคนหาเองโดย เวบไซตระบบถาม-ตอบ ซงปรากฏใชงานในปจจบนเปนระบบทท างาน โดยค าถามทถกถามจะเกบเปน Batch File และรอการตอบค าถามจากเจาหนาทผดแลระบบไปสบคนขอมลมาตอบ การทมค าถามเขามาจ านวนมากในแตละชวงเวลา จงสงผลใหระบบนมประสทธภาพไมดเทาทควร ดวยขอจ ากดหลายประการ เชน ไมสามารถตอบค าถามในวนหยดประจ าสปดาหหรอวนนกขตฤกษ รวมทงผตอบมภาระหนาทรบผดชอบอยางอนดวย จงท าใหการตอบค าถามลาชา จากขอมลของเวบไซตระบบถาม-ตอบ มจ านวนค าถามในระบบตงแตเปดใชงานระบบใหมในเดอน ตลาคม พ.ศ.2557 จนถงเดอน มถนายน พ.ศ.2558 จ านวน 6,696 ค าถามและ มจ านวนค าถามทเขามาในระบบตอวนเฉลยโดยประมาณ 20 – 50 ค าถามตอวน(ฐานขอมลเวบไซต “มค าถาม-มค าตอบ” ของมหาวทยาลยรามค าแหงป พ.ศ.2557) และมประเดนค าถามทพบบอยเกยวกบขอมลสารสนเทศนกศกษาดาน การรบสมคร การลงทะเบยน การสอบ หนงสอส าคญ และการขอส าเรจการศกษา จากการวเคราะหขอมลเบองตนพบวา รปแบบของค าถามมกจะขนอยกบแตละชวงเวลาของกจกรรมของมหาวทยาลยเชน ชวงเปดภาคการศกษาค าถามมกจะอยในกลมของ การลงทะเบยน ในเรองเวลา สถานท จ านวนหนวยกต ในขณะทถาเปนชวงของกจกรรมการสอบ ค าถามมกจะเปน วชาทสอบ สถานท การขอสอบซ าซอนเปนตน ดงนนในรปแบบค าถามสวนทเปนรปแบบลกษณะทซ าๆกนในแตละชวงกจกรรมของมหาวทยาลย ถาเราสามารถน าไปสรางเปน ระบบ ถาม-ตอบ แบบอตโนมตไดจะเปนชองทางหนงทลดปญหาทกลาวมาแลวไดในระดบหนง

ดงนนการสรางระบบถาม-ตอบแบบอตโนมตจะชวยใหสามารถลดคาใชจายของหนวยบรการนกศกษา รวมทงผถามจะไดค าตอบเพอด าเนนการในกจกรรมการศกษาไดอยางรวดเรวทนความตองการ

วตถประสงคของการศกษา 1. การศกษาในครงน มวตถประสงคเพอวเคราะหขอมลในค าถามและค าตอบ ในโดเมนกจกรรมขอ

มหาวทยาลย 2. เพอศกษาหาเทคนคทเหมาะสมในสวนของการท าเหมองขอความ 3. เพอจดเกบองคความรในการตอบค าถามอยางเปนระบบ 4. เพอสรางตนแบบ (Prototype) ของระบบ “ถาม-ตอบ” แบบอตโนมต ทเปน Real Time

วรรณกรรมทเกยวของ

Page 3: THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

3

การศกษาครงนใชของแนวคด ทฤษฎ และงานวจยตาง ๆ ทมความเกยวของดงน แนวคดทฤษฎ 1. ระบบสนบสนนการตดสนใจ (Decision Support System: DSS) ระบบสนบสนนการตดสนใจ เปนระบบทถกเชอมโยงกนระหวางทรพยากรสมองของมนษยใหท างานรวมกบ

ความสามารถของคอมพวเตอรเพอตองการปรบปรงคณภาพของการตดสนใจใหดทสด กลาวคอระบบสนบสนนการตดสนใจเปนระบบระบบหนงทตองใชคอมพวเตอรคอยชวยเหลอ และใหการสนบสนน เพอใหบคคล ท าหนาทตดสนใจ สามารถจดการกบปญหากงโครงสราง (Semi Structured) ไดอยางมประสทธภาพ (Keen and Scott Morton, 1978)

2. ระบบถามตอบ (Question-Answering system) ระบบถามตอบ คอ การถามตอบ (Question Answering: QA) โดยมค าถามเปนภาษาธรรมชาต และมการ

ตอบค าถามดวยภาษาธรรมชาตเชนกน การศกษาพฒนาระบบอตโนมตในการสรางค าตอบ (Generate answers) จากค าถามทเปนภาษาธรรมชาต (Natural Language) แหลงขอมลของค าตอบหรอการสรางค าตอบขนกบรปแบบของค าถาม (Type of Question Word) ในยคแรกจะด าเนนการถาม ค าตอบเฉพาะทเปนขอเทจจรง (Factoid Questions) เทานน โดยระบบถาม-ตอบผานเวบไซตมรปแบบดงน (นวภทร ขนธตนธง, 2557, ออนไลน)

2.1 จะมคนมาอานค าถามแลวเลอกค าตอบไปตอบใหตรงประเดน 2.2 ระบบถาม-ตอบอตโนมตระบบนจะด าเนนโดยใชซอฟตแวร วเคราะหค าถามและฐานค าตอบ 3. การท าเหมองขอความ (Text Mining) การท าเหมองขอความ (Text Mining)หรออาจจะเรยกวา "การคนหาความรในฐานขอมลเอกสาร" (Knowledge

Discovery in Document Databases) เปนเทคนคเพอคนหารปแบบ (Pattern) ของจากขอความจ านวนมหาศาลแบบอตโนมต โดยใชพนฐานความรทางดานสถต ผนวกกบการเรยนรของเครอง และ การรจ าแบบ หรอในอกนยามหนง การท าเหมองขอความ คอ กระบวนการทกระท ากบขอความ (ทมขนาดมหาศาล) เพอคนหารป และความสมพนธ ทซอนอยในชดขอความนน โดยรายละเอยดประกอบดวย การประมวลผลขอความ (Text Processing) โดยอาศยแนวคดของหลกการประมวลผลภาษาธรรมชาต (Natural Language Processing) (สรวรรณ แตวจตร, 2553, ออนไลน)

ผลลพธทไดจากการท าเหมองขอความ ดงน 1. การสรปเอกสารขอความ (Document Summarization) 2. การแบงประเภทเอกสาร (Document Classification) 3. การแบงกลมเอกสาร (Document clustering) 4.การแบงกลมขอมลแบบเคมน (k-means clustering) การแบงกลมขอมลแบบเคมนเปนวธทใชหลกการของระยะทางในการวเคราะห โดยใชจดศนยกลางของเวคเตอร

เปนตวแทนในการจ าแนก (Distance analysis) ซงเปนเทคนคทมรากฐานมาจากการประมวลผลสญญาณ วธนเปนทนยมส าหรบการแบงกลมขอมล (Cluster Analysis) และถกน าไปใชในการท าเหมองขอมล (Data Mining) การแบงกลมขอมลแบบเคมน ด าเนนการโดยการแบงวตถทจะแบงจ านวน n สงใหเปน k กลม โดยแตละวตถจะน าคาคณลกษณะ ทวดได(feature) มาหาคาเฉลย แลวน าไปเปรยบเทยบกบคาศนยกลางของแตละกลม วาจะถกอยในกลมไหน ภายหลงการจดเขากลมใดๆ กลมนนจะปรบหาคาจดศนยกลาง (Centroid Update) ของกลมเพอใชใหมเสมอ จากแนวคดนสงผลใหวธนเปนการแบงพนทขอมลไปเปนแบบวงกลม(MacKay, David, 2003, pp. 284–292)

Page 4: THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

4

วธด าเนนการ ก าหนดใหมวตถ Xใดๆมเซตของ ขอมล(feature) ดงน X = (x1, x2, …, xn) โดยแตละวตถกคอ เวกเตอรคาจรงในn มต การแบงกลมขอมลแบบเคมนจะจ าแนก Xmซงมm วตถใหเปนkกลม (โดยท k นอยกวาหรอเทากบm ) ในทแตละกลมคอ {S1,S2,…,Sk} โดยทการแบงกลมจะตองท าใหคาผลบวกก าลงสองภายในคลสเตอร (Within-Cluster Sum of Squares; WCSS) มคานอยทสด. หรอกลาวไดวา ใหระยะหางภายในกลมนอยทสด และระยะหางระหวางกลมมากทสดสตรทใชการแบงกลม ดงน

โดยทμi เปนคาเฉลยของจดในSi ขนตอนของการแบงกลมแบบ K-Means Algorithm

Page 5: THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

5

ภาพท 1 K-Means Algorithm

งานวจยสนบสนน การศกษาเรองถามตอบ ในค าถาม ท าไม และ อยางไร (Why and How questions) งานวจยนสราง Causality

Graph โดยใชขอมลเอกสารจากกลมสงคมออนไลน ในโดเมนทางการเกษตร การศกษาใชค าถาม และค าตอบ ดวยภาษาไทย กระบวนการวเคราะหใช วธการเรยนรดวยเครอง หลายวธเพอเปรยบเทยบความถกตอง (Pechsiriand and Piriyakul, 2015, online)

การศกษาระบบค าถาม-ค าตอบ ส าหรบขอความภาษาไทย น าเสนอระบบค าถาม-ค าตอบโดยประยกตใชกบขอความภาษาไทยและไดน าวธการจดหมวดหมเอกสารโดยใชเบยแบบงาย (Naive Bayes) ในการจ าแนกเอกสารใหสอดคลองกบค าตอบแตละประเภทรวมทงการ ใชอตราการเกดรวมของค า (Co-occurrence ratio) ในการเลอกค าตอบจากเอกสารทจดหมวดหม (เกศสดา ตรยากรณ และชลรตนจรสกลชย, 2546)

ในสวนของการตดค าในภาษาไทยทเปนขนตอนหนงของระบบ ถาม-ตอบในภาษาไทย การศกษาการตดค าภาษาไทยโดยการสรางกฎโดยใชพจนานกรมแบบใหม เขาสนบสนน เพอการตดค าภาษาไทย (กานดา รณนะพงศา และปโยธร อราธรรมกล, 2548) วธด าเนนการศกษา

การศกษาการสรางระบบถาม -ตอบภาษาไทยเพอสนบสนนการตดสนใจของนกศกษามหาวทยาลยรามค าแหง ประกอบดวยขนตอนในการด าเนนงานซงแบงออกเปน 2 สวน ไดแก สวนท 1 การจดสรางทรพยากรสนบสนน (Back End) และสวนท 2การจดท าระบบใชงานจรงของระบบถามตอบแบบ Real Time (Front End)

สวนท 1การสรางทรพยากรสนบสนนประกอบดวย

แนวทางการจดท าฐานขอมลเพอวเคราะหค าถามและค าตอบ

Page 6: THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

6

ภาพท 2 การจดท าฐานขอมลเพอวเคราะหค าถามและค าตอบ

1.การวเคราะหปญหาของระบบถาม-ตอบ 1.1 จากการศกษารปแบบพบวารปแบบหรอกลมของค าถามจะแตกตางกนในแตละภาคของปการศกษา

เชน ในชวงปลาภาคการศกษาท 1 จะมค าถามกลมทเกยวกบการรบปรญญา กลมทเกยวกบการลงทะเบยนเรยนภาค 2 เปนตนดงนน การสรางคลงของค าถามและค าตอบ จงตองมการแบงเปนโดเมน ตามเวลาของแตละกจกรรม

1.2 การวเคราะหรปแบบค าถามตามโดเเมนของเวลาในงานนโดเมนคอระยะเวลาคอชวงเวลาเปดภาคการศกษา ซงเปนชวงกจกรรมสวนใหญคอ การลงทะเบยนและแจงจบการศกษา

1.3 การวเคราะหความก ากวมของภาษาในค าถาม 2.ขอบเขตของการท างาน 2.1ขอบเขตของการท างานในขนตอนนผศกษาท าการศกษารปแบบของค าถามทมความหมายใน 3 กลม

ตอไปน

ตารางท 1 การจดกลมค าถาม ความหมายของค าถาม กลม

วนเวลา (เมอไร) When? สถานท (ทไหน) Where? ขนตอน วธการ (อยางไร) How?

Page 7: THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

7

2.2 ค าถามจากระบบถาม-ตอบ เฉพาะสวนทเกยวของกบกจกรรมการศกษาของมหาวทยาลยรามค าแหง 3.การรวบรวมและคดเลอกขอมล (Data Collection & Data Selection) เปนขนตอนในการดงขอมลส าหรบการวเคราะห ผศกษาท าการรวบรวมและเลอกขอมลจากตารางฐานขอมลระบบถาม-ตอบ เฉพาะขอมลทตองการ คอ ตารางค าถาม ตารางค าตอบ ดงน

ภาพท 3 การคดเลอกตารางค าถามจากฐานขอมล

ภาพท 4 การคดเลอกตารางค าตอบจากฐานขอมล 4.การจดเตรยมขอมล (Data Preparation) ขอมลทไดมานน เปนขอมลทยงไมสมบรณทจะสามารถน าไปใชผานกระบวนการท าเหมองขอมล (Data Mining) และกระบวนการท าเหมองขอความ (Text Mining) ได จงตองมการจดการขอมล การเตรยมขอมลเบองตนมวธการดงน 4.1 การท าความสะอาดขอมล (Data Cleaning) เปนกระบวนการคดกรองขอมลเพอท าใหเกดความมนใจในคณภาพของขอมลทจะน ามาใชวเคราะห การตรวจสอบและการแกไข (หรอลบ) รายการขอมลทไมถกตองออกไปจากชดขอมล ตามตวอยางดงน ตารางท 2 ตารางขอมลทยงไมผานการท าความสะอาดขอมล

ID ค าถาม ผถาม วนเวลา (ถาม) ผเขาชม 1 ขอจบตองท าอยางไร นาย ก 07/10/2014 18:13 55 2 รบสมครนกศกษาทไหน... นาย ข 07/10/2014 22.51 31 3 ลมรหสนกศกษาตองท าอยางไร... นาย ค 07/10/2014 23:08 47

ตารางท 3 ขอมลทผานการท าความสะอาดขอมล (Data Cleaning) แลว

ID ค าถาม 1 ขอจบตองท าอยางไร

Page 8: THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

8

2 รบสมครนกศกษาทไหน... 3 ลมรหสนกศกษาตองท าอยางไร...

4.2 การแปลงรปแบบขอมล (Data Transformation) เปนการจดการขอมลใหเหมาะสมและตรงกบรปแบบทจะประมวลผลตอไป โดยในขนตอนนผศกษาท าการแปลงรปแบบขอมลหลงจากการท า (Data Cleaning) เรยบรอยแลว จากขอมลทไดมาใหอยในรปแบบของตาราง

5. การวเคราะหขอมลค าถาม – ค าตอบ 5.1 การตดค า (Word Segmentation) งานวจยนใช โปรแกรม THSplitlibซงเปนโปรแกรม Open Source ในการตดค าภาษาไทย ใชหลกการตด

ค าซงด าเนนการโดยใชพนฐานจากพจนานกรม (Dictionary-Based Approach) ในการเปรยบเทยบการตดค ากบค าทจดเกบในพจนานกรม (สวชา เผอกอม, 2556, ออนไลน)

ภาพท 5 กระบวนการของโปรแกรม THSplitlib

ผศกษาน าขอมลค าถามจากขนตอนจดเตรยมขอมล (Data Preparation) มาใชโดยการน าค าถามทละประโยคผานกระบวนการของโปรแกรม THSplitlib(โปรแกรมตดค า) เพอจ าแนกค าออกจากประโยค ตามตวอยางดงน Q1 “8ปสมครใหมตองท าอยางไรบางคะ” “8 | ป | สมคร | ใหม | ตอง | ท า | อยางไรบาง | คะ” Q2 “อยากทราบวาจะเปลยนคณะเปนรฐศาสตรตองท ายงไงบางคะ” “อยาก | ทราบ | วา | จะ | เปลยน | คณะ | เปน | รฐศาสตร | ตอง | ท า | ยงไง | บาง | คะ” Q3 “อยากทราบก าหนดวนซอมรบปรญญา” “อยาก | ทราบ | ก าหนด | วน | ซอม | รบปรญญา” Q4 “เปนนกศกษาชนปท 1 รบตารางสอบไดทไหนคะ” “เปน | นกศกษา | ชนป | ท | 1 | รบ | ตาราง | สอบ | ได | ทไหน | คะ” 5.2 การตดเลอกและการแจงประโยค (Parser) ในขนตอนนผศกษาจะท าการวเคราะหค าในประโยคทผานกระบวนการจ าแนกค ามาแลว เนองจากประโยคในภาษาไทยมความซบซอน เชน การตความความหมายของประโยคค าถามทมรปประโยคไมเหมอนกนแตมความหมายเหมอนกน ค าทก ากวม ค าพองรป เปนตน ขนตอนนจะด าเนนการดวยผเชยวชาญ (1) จ าแนกกลมค าในประโยค

“8 | ป | สมคร | ใหม | ตอง | ท า | อยางไรบาง | คะ” “อยาก | ทราบ | วา | จะ | เปลยน | คณะ | เปน | รฐศาสตร | ตอง | ท า | ยงไง | บาง | คะ” “อยาก | ทราบ | ก าหนด | วน | ซอม | รบปรญญา” “เปน | นกศกษา | ชนป | ท | 1 | รบ | ตาราง | สอบ | ได | ทไหน | คะ”

Page 9: THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

9

(1.1) ก าจดค าทไมมสาระส าคญในประโยคออกไป “8 | ป | สมคร | ใหม | ตอง | ท า | อยางไรบาง | คะ” “อยาก | ทราบ | วา | จะ | เปลยน | คณะ | เปน | รฐศาสตร | ตอง | ท า | ยงไง | บาง | คะ” “อยาก | ทราบ | ก าหนด | วน | ซอม | รบปรญญา” “เปน | นกศกษา | ชนป | ท | 1 | รบ | ตาราง | สอบ | ได | ทไหน | คะ”

(2) วเคราะหค าและจดหมวดหมค าถาม ตารางท 4 จดหมวดหมค าถาม

ภาคประธาน ภาคแสดง คยเวรด หมวดหมค าถาม นกศกษาทเรยนครบ 8 ป สมครใหม ท าอยางไรบาง How ผถาม เปลยนคณะ ท ายงไงบาง How ผถาม ซอมรบปรญญา ก าหนด / วน When นกศกษาชนปท 1 รบตารางสอบ ทไหน Where

สรางรปแบบค าถามบนพนฐานของการแจงประโยค ท าอยางไร / สมคร/ v/ ใหม/ adv How to apply? ท าอยางไรบาง / ยาย/ v/ คณะ/ Noun How to transfer the faculty? 1.การท าเหมองขอความ (Text Mining) เปนขนตอนการประมวลผลโดยใชอลกอรทมตางๆเพอหารปแบบของขอมล โดยใชการแบงกลมขอมล (Data clustering) แบงขอมลทมลกษณะคลายกนออกเปนกลม ในงานศกษานใชโปรแกรม Weka 3.6.12 ในการแบงกลม (Clustering) ดวยอลกอรทม K-Mean โดยใชชดขอมลตวอยางจ านวน 50 เอกสารจากคลงค าตอบทผานการตดค าแลวดงน

ภาพท 6 แสดงผล Clustering ดวยอลกอรทม K-Mean

Page 10: THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

10

ทมา :โปรแกรม Weka 3.6.12

ภาพท 7 แสดงผล Clustering ดวยอลกอรทม K-Mean

ทมา :โปรแกรม Weka 3.6.12 2. การจดเกบความรในสวนของค าถามและค าตอบลงฐานขอมลเพอใชงาน ผศกษาท าการน าขอมลความรทไดจากการวเคราะหค าในประโยคโดยแบงฐานขอมลองคความรออกเปน 2 สวน โดยมความสมพนธกน 2.1 ฐานขอมล Question Word เกบหมวดหมของค าถาม ตารางท 5ฐานขอมล Question Word

Q-ID Question Group Question Word 1 When เมอไร, ก าหนด, วน,.... 2 Where ทไหน, สถานท,... 3 How อยางไร, ยงไง, ขนตอน, วธการ,...

2.2 ฐานขอมล Focus Word น าขอมลจากคอลมน ภาคแสดง ในตารางขอมลตวอยางการวเคราะหค าและจดหมวดหมมาจดเกบ ตารางท 6 ฐานขอมล Focus Word

F-ID Focus Word Question Group 1 สมครใหม How 2 เปลยนคณะ How 3 ซอมรบปรญญา When 4 รบตารางสอบ Where

โดยมรปแบบของความสมพนธของฐานขอมลค าถามดงน

Page 11: THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

11

ภาพท 8 รปแบบของความสมพนธของฐานขอมลค าถาม

6. การจดท าฐานขอมลค าตอบ การจดท าฐานขอมลค าตอบ ผศกษาน าขอมลความสมพนธและการแบงกลมค าถาม มาท าการจดเตรยมค าตอบลงในฐานขอมลค าตอบ ตามตวอยางดงน ตารางท 7 การจดท าฐานขอมลค าตอบ

Ans-ID F-ID Answer 1 1 ขนตอนการรบสมครนกศกษาใหม... 2 2 ขนตอนวธการในการยานคณะ.... 3 3 ก าหนดการฝกซอมรบพระราชทานปรญญาบตร... 4 4 สถานทในการรบตารางสอบไลรายบคคล

โดยมรปแบบของความสมพนธของฐานขอมลค าถามกบฐานขอมลค าตอบดงน

Page 12: THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

12

ภาพท 8 รปแบบของความสมพนธของฐานขอมลค าถามกบฐานขอมลค าตอบ

สวนท 2เปนสวนของการใชงานจรงประกอบดวย การสรางตวแบบ ในสวนนผศกษาท าการสรางตวแบบระบบถาม-ตอบอตโนมตโดยการน าฐานขอมลองคความรทไดจากการจดท าฐานขอมลเพอการสบคน มาใชเปนฐานขอมลของตวแบบและพฒนาตวแบบ จดท าในรปแบบเวบไซต โดยมกระบวนการท างานของระบบและรายละเอยด ดงน ขนตอนการสรางตวแบบ

ภาพท 9 ขนตอนการสรางตวแบบ 1. สวนของการรบขอมลเขาผศกษาสรางชองส าหรบรบขอมลเขาและปมสงขอมลเพอสงชดขอมลไปยงขนตอนการดดค า (Word Segmentation) โดยขอมลจะถกเขาสระบบถาม-ตอบอตโนมตในการตอบค าถามในรปแบบภาษาธรรมชาต (Natural Language) ทเปนภาษาไทย เปนหลก 2. ท าการตดค า (Word Segmentation) เพอใชจ าแนกค าในการหาคยเวรด (Keyword) ของประโยคในการวเคราะหค าถาม (Questions Analysis) ในขนตอนตอไป

ภาพท 10 กระบวนการของโปรแกรม THSplitlib

Page 13: THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

13

ภาพท 11 ตวอยางการตดค าโดยใชโปรแกรม THSplitLib

3. การประเมนผลการตดค า (Evaluation) โดยการตรวจสอบวาขอมลมความถกตองและนาเชอถอเพยงพอกอนน าไปใชเพอคนหาขอมลจากฐานขอมลองคความรโดยการใชการวดประสทธภาพโดยการหา คาความเทยง (Precision) คาความระลก (Recall) คาความถกตอง (Accuracy) และคา F-Measure

ภาพท 12 สตรการวดประสทธภาพ ทมา :การจ าแนกกลมค าถามอตโนมตบนกระดานสนทนา โดยใชเทคนคเหมองขอความ(หนา 499),

โดย ราชวทย ทพยเสนา, ฉตรเกลา เจรญผลและกมกาญจน สมประเสรฐศร, 2557

โดยท TP คอจ านวนขอมลทถกดงมาอยางถกตอง FP คอจ านวนขอมลทผดพลาดทถกดงออกมา TN คอจ านวนขอมลทถกตองแตไมถกดงออกมา FN คอจ านวนขอมลทผดพลาดแตไมถกดงออกมา จากการประเมนผลจากการตดค าจากตวอยางค าถามทใชทดสอบเพอประมวลผลจ านวน 100 ค าถามดวยโปรแกรมตดค า THSplitLib ไดดงน จ านวนขอมลทถกดงมาอยางถกตอง(TP) = 88 ค าถาม จ านวนขอมลทผดพลาดทถกดงออกมา(FP) = 12 ค าถาม จ านวนขอมลทถกตองแตไมถกดงออกมา(TN) = 0 ค าถาม จ านวนขอมลทผดพลาดแตไมถกดงออกมา(FN) = 0 ค าถาม วดประสทธภาพไดดงน

Page 14: THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

14

ภาพท 13 ผลการวดประสทธภาพ

ไดคาความถกตอง (Accuracy) เทากบ 88% คาความแมนย าเทากบ (Precision) 0.88 คาการดงกลบไดเทากบ(Recall) 1 และคา F-Measure เทากบ 0.936

4. การวเคราะหค าถาม (Questions Analysis) ในขนตอนนผศกษาท าการวเคราะหค าถามจากประโยคค าถามทผานโปรแกรมตดค ามาแลวและท าการเขยนโปรแกรมเพอหาคยเวรดของประโยคดงน

4.1. น าค าจากการจ าแนกประโยคทได ไปคนหาในฐานขอมลองคความร Question Word(เชน What , When)เพอตรวจสอบวาเปนกลมค าถามใด (Question Identification) แลวจงไปท าขนตอนท 4.2

4.2. น าค าส าคญ (Focus Question) เชน ลงทะเบยน ยายคณะ จากการจ าแนกประโยคทได โดยใช Query จากฐานขอมลเพอสรางรปแบบค าถามทออกแบบไวแลวน าค าถามทได ไปตอบค าถามทขนตอนท 5

5. การตอบค าถามและการแสดงผล ในขนตอนนผศกษาแบงออกไดเปน 2 กรณ ดงน 5.1. กรณกระบวนการวเคราะหค าถามพบขอมลทง 2 ขนตอน ระบบถาม-ตอบอตโนมตจะท าการดงค าตอบจากฐานขอมล Answers ทตรงกบหมวดหมและสาระส าคญท

ไดจากขนตอนการวเคราะหขอมลมาแสดงผล

ภาพท 14 การวเคราะหขอมลมาแสดงผล

5.2. กรณกระบวนการวเคราะหค าถามไมพบขอมลในขนตอนใดขนตอนหนงหรอทง 2 ขนตอน ระบบถาม-ตอบอตโนมตจะสงประโยคจากชองรบขอมลไปยงค าสงประมวลผล Google Search API ทท าหนาทคนหาขอมลทเกยวของกบค าคนและจ ากดการคนหาภายใตโดเมน (Domain) RU.AC.TH และน ามาแสดงผล กระบวนการท างานของตวแบบ

Page 15: THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

15

ภาพท 15 กระบวนการท างานของตวแบบ สรปอภปรายผล

ผลจากการศกษาระบบถาม-ตอบอตโนมตแบบทนท (Real Time Q-A) ผศกษาสามารถสรปผลการศกษาไดดงน

1. สามารถลดคาใชจายของหนวยบรการ รวมทงผถามจะไดค าตอบเพอด าเนนการในกจกรรมการศกษาไดอยางรวดเรวทนความตองการสามารถพฒนาตวแบบเพอแกไขปญหาความลาชาของกระบวนการระบบถาม-ตอบได

2. สามารถน าไปปรบใชเพอเพมประสทธภาพของระบบถาม-ตอบ และระบบอนทมลกษณะการท างานในแบบเดยวกนได

3. ไดตวแบบระบบถาม-ตอบภาษาไทยน ารองเพอพฒนาใหมประสทธภาพมากยงขน

ภาพท 16 การใชงานระบบดวยการสบคนขอมล

ชองกรอกค าถาม

ปมสงค าถาม

Page 16: THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

16

ภาพท 17 การแสดงผลขอมลจากการสบคน

ภาพท 18 การแสดงผลขอมลจากการสบคนเมอไมพบขอมลในระบบ

ขอจ ากดในการศกษาระบบถาม-ตอบอตโนมตในครงน 1. การตดค าในประโยคภาษาไทยของโปรแกรมทใชงาน เนองจากโปรแกรมทน ามาใชตดค า ใชหลกการตดค าโดยใชพจนานกรม (Dictionary-Based-Approach) โดยใชการเปรยบเทยบค ากบค าทจดเกบในพจนานกรม ซงยงมขอผดพลาดอยสงผลถงประสทธภาพในการท างานจงยงมขอผดพลาด

Page 17: THAI QUESTION - ANSWERING SYESTEM TO SUPPORT ...e-book.ru.ac.th/dss/files/2-1464662343_AbstractSingthaiL...แนวค ดของหล กการประมวลผลภาษาธรรมชาต

17

2. การแจงประโยคในภาษาไทย และการขจดค า รวมทงการจดการกบค าก ากวม (ambiguity) ยงใชแรงงานคน สงผลใหตนทนสงในการท างานสวนท 1ซงเปนสวนสนบสนน (Back End) ขอเสนอแนะในการศกษาครงตอไป 1. เนองจากการรบขอมลเพอประมวลผลจะตองพมพขอความเขาไปในระบบ จะสะดวกยงขนหากมระบบแปลงสญญาณเสยงเปนขอความรบเขาไปประมวลผล เพอเปนแนวทางในการพฒนาระบบส าหรบผพการ 2. พฒนาโปรแกรมในการแจงประโยคในภาษาไทย (Thai Sentence Parser) เพอเพมประสทธภาพในการท างานสนบสนนใหเปนระบบ ถาม- ตอบ ทเปนอตโนมตทงระบบ เอกสารอางอง กานดา รณนะพงศา และปโยธร อราธรรมกล. (2548).การตดคาภาษาไทยโดยการปรบปรงกฎและพจนานกรม แบบใหม. คณะวศวกรรมศาสตร, มหาวทยาลยขอนแกน. เกศสดา ตรยากรณ. (2546). ระบบค าถาม-ค าตอบ ส าหรบขอความภาษาไทย. กรงเทพฯ: มหาวทยาลยเกษตรศาสตร. นวภทร ขนธตนธง. (2557). แนวคดการพฒนาระบบถามตอบส าหรบความรดานนวเคลยรขนใชเอง โดยใชวธการประยกตสถาปตยกรรมระบบถามตอบแบบเบองตนและโปรแกรมประยกตบนเวบ. [Online] Available: http://www.tint.or.th/attachments/article/1267/59%20Navapat%20_3 +pages.pdf. [2558, เมษายน 29]. ________ .(2557) ฐานขอมลเวบไซต “มค าถาม-มค าตอบ” (ป 2557-2558) ของมหาวทยาลยรามค าแหง

มหาวทยาลยรามค าแหง. สรวรรณ แตวจตร. (2558). การท าเหมองขอความ (Text Mining). [Online] Available: http://open- miner.com/2010/04/04/text-mining/. [2558, มถนายน 21]. สวชา เผอกอม. (2556). THSplitLib โปรแกรม.[Online] Available: http://www.alogik.com/thsplitlib/. [2558, เมษายน 1]. Keen P. G. W., M. S. Scott Morton. (1978). Decision support systems : an organizational perspective. Reading, Mass.: Addison-Wesley Pub. Co. MacKay, D. (2003). Chapter 20. An Example Inference Task: Clustering (PDF). Information Theory, Inference and Learning Algorithms. Cambridge University Press. pp. 284–292. ISBN 0-521-64298-1. Pechsiri C, Piriyakul R. (2011). Introducing Why-How Question Answering System and

Integrated Causality Graph through Online Community. Adfa, p. 1, 2011. Springer-Verlag Berlin Heidelberg.