Upload
others
View
8
Download
0
Embed Size (px)
Citation preview
1
รายงานการวจย
เรอง
การเปรยบเทยบวธการคดเลอกคณลกษณะทส าคญในการปรบปรง
การพยากรณมะเรงเตานม
COMPARISON OF FEATURE SELECTION METHODS TO IMPROVE
BREAST CANCER PREDICTION
อจจมา มณฑาพนธ
งานวจยน ไดรบทนอดหนนการวจยจากมหาวทยาลยศรปทม
ปการศกษา 2560
2
กตตกรรมประกาศ
รายงานการวจยฉบบนส าเรจและสมบรณเปนรปเลม ดวยความกรณาและเอาใจใสเปน
อยางดจาก ผชวยศาสตราจารย ดร.ชมพล บญคมพรภทร ผทรงคณวฒทไดกรณาใหค าปรกษาและ
แนะแนวทางในการด าเนนการท ารายงานในครงนโดยไมมขอบกพรอง รวมทงขอเสนอแนะและ
ขอคดเหนตางๆ ตลอดท งการตรวจแกไขรายงานฉบบนใหส าเรจสมบรณยง ขน ผ วจ ยจง
ขอขอบพระคณเปนอยางสงไว ณ โอกาสน
ขอขอบพระคณคณครอาจารยทกทานทไดประสทธประสาทวชาความร และประสบการณ
ตลอดจนอ านวยความส าเรจใหบงเกดขน
สดทายนขอขอบพระคณคณาจารยและเจาหนาทคณะเทคโนโลยสารสนเทศ มหาวทยาลย
ศรปทม ทเปนก าลงใจและใหความชวยเหลอในการด าเนนงาน และใหค าแนะน าในการท ารายงาน
การวจยครงนใหส าเรจลลวงดวยดตลอดมา
อจจมา มณฑาพนธ
ผวจย
เมษายน 2562
3
ค าน า
รายงานการวจยฉบบนจดท าขนเพอเปนประโยชนตอผทสนใจศกษาเกยวกบเรองการเปรยบเทยบวธการคดเลอกคณลกษณะทส าคญในการปรบปรงการพยากรณมะเรงเตานม โดยงานวจยฉบบนไดน าเสนอเทคนคตางๆจ านวน 7 เทคนคคอ เทคนค Correlation Based Feature Selection เทคนค Information Gain เทคนค Gain Ratio เทคนค Chi-Square เทคนค Forward Selection เทคนค Backward Elimination และเทคนค Evolutionary Selection ทน ามาใชเพอคดเลอกคณลกษณะทส าคญ หลงจากนนน าผลการคดเลอกคณลกษณะในแตละเทคนคมาค านวณเปรยบเทยบคาประสทธภาพของการพยากรณการเปนมะเรงเตานมดวยเทคนคซพพอรตเวกเตอร แมชชน (Support Vector Machine) เพอดวาเทคนคไหนสามารถคดเลอกคณลกษณะทส าคญซงใหคาประสทธภาพการพยากรณการเปนมะเรงเตานมไดดทสด ผวจยหวงเปนอยางยงวารายงานการวจยฉบบนจะเปนประโยชนตอผทสนใจสามารถน ามาใชประโยชนในการอางองไดตอไป หากมขอบกพรองประการใด ผจดท าขออภยไว ณ โอกาสนดวย
อจจมา มณฑาพนธ
ผวจย
เมษายน 2562
4
หวขอวจย : การเปรยบเทยบวธการคดเลอกคณลกษณะทส าคญในการปรบปรง การพยากรณมะเรงเตานม ผวจย : นางอจจมา มณฑาพนธ
หนวยงาน : มหาวทยาลยศรปทม วทยาเขตบางเขน
ปทพมพ : พ.ศ. 2562
บทคดยอ
งานวจยนไดศกษาเกยวกบการเปรยบเทยบวธการคดเลอกคณลกษณะทส าคญในการปรบปรงการพยากรณมะเรงเตานม มวตถประสงคเพอทจะหาเทคนคการคดเลอกคณลกษณะทส าคญเพอน ามาใชพยากรณมะเรงเตานม โดยใชวธการคดเลอกคณลกษณะจากเทคนคตางๆจ านวน 7 เทคนค ไดแก เทคนค Correlation Based Feature Selection เทคนค Information Gain (IG) เทคนค Gain Ratio (GR) เทคนค Chi-Square เทคนค Forward Selection เทคนค Backward Elimination และเทคนค Evolutionary Selection น าผลทไดจากแตละเทคนคมาค านวณหาคาประสทธภาพในการท านายการเปนมะเรงเตานม ผลการทดลองพบวาเทคนค Evolutionary Selection ไดผลดทสดจากจ านวน 7 เทคนค จากจ านวนคณลกษณะของขอมลทงหมด 30 คณลกษณะ เทคนค Evolutionary Selection สามารถลดคณลกษณะทส าคญเหลอเพยง 16 คณลกษณะ ซงใหผลการวดคาความถกตองในการพยากรณไดดถง 95.26% ค าส าคญ : การคดเลอกคณลกษณะ การพยากรณมะเรงเตานม ซพพอรตเวกเตอรแมชชน เทคนคการคดเลอกแบบอโวลชนนาร
5
Research Title : Comparison of Feature Selection Methods to Improve Breast Cancer Prediction. Name of Researcher : Mrs. Ajjima Montaphan Name of Institution : Sripatum University, Bangkhen Campus
Year of Publication : B.E. 2562
ABSTRACT
This study investigated the comparison of feature selection methods to improve breast cancer prediction. The purpose is to find the key feature selection techniques to improve the predictability of breast cancer using 7 techniques such as Correlation Based Feature Selection (CFS) Technique, Information Gain (IG) Technique, Gain Ratio (GR) Technique, Chi-Square Technique, Forward Selection Technique, Backward Elimination Technique, and Evolutionary Selection Technique. The results of each technique were used to calculate the predictive value of breast cancer and show that the Evolutionary Selection technique has the best effect of 7 techniques from a total of 30 data attributes. The Evolutionary Selection technique significantly reduces to 16 significant attributes, which provides a good predictive accuracy of 95.26%. Keywords : Feature Selection, Breast Cancer Predictions, Support Vector Machine, Evolutionary Selection Technique
6
สารบญ
บทท หนา
1 บทน า ............................................................................................................................ 1
1.1 ความเปนมาและความส าคญของปญหา .................................................... 1
1.2 วตถประสงคของการวจย .......................................................................... 2
1.3 ค าถามการวจย ........................................................................................... 2
1.4 สมมตฐานการวจย ..................................................................................... 2
1.5 ขอบเขตของการวจย .................................................................................. 3
1.6 นยามศพท ................................................................................................. 3
2 วรรณกรรมทเกยวของ .................................................................................................. 5
2.1 ความรพนฐาน ........................................................................................... 5
2.2 ทฤษฎทรองรบเรองทวจย .......................................................................... 8
2.3 ผลการวจยทเกยวของ ................................................................................ 17
3 ระเบยบวธวจย .............................................................................................................. 18
3.1 ขนตอนการด าเนนงานวจย ..................................................................... 18
3.1.1 จดหาขอมลและเตรยมขอมล .................................................................. 20
3.1.2 การวเคราะหขอมลดวยโปรแกรม RapidMiner ...................................... 25
3.2 ผลการทดลอง............................................................................................ 26
4 ผลการวเคราะหขอมล ................................................................................................... 51
4.1 ผลการวเคราะหขอมล ............................................................................... 51
7
สารบญ (ตอ)
บทท หนา
5 สรป อภปราย และขอเสนอแนะ .................................................................................. 55
5.1 สรปผลการวจย.......................................................................................... 55
5.2 อภปรายผล ................................................................................................ 56
5.3 ขอเสนอแนะ ............................................................................................. 56
บรรณานกรม .............................................................................................................................. 57
ประวตยอผวจย ........................................................................................................................... 60
8
สารบญตาราง
ตารางท หนา
1 คาน าหนกของคณลกษณะจากการใชเทคนค CBF ....................................................... 26 2 คาน าหนกของคณลกษณะจากการใชเทคนค IG ........................................................... 31 3 คาความถกตองของการพยากรณการเปนมะเรงเตานมตามจ านวนคณลกษณะทใช
ดวยเทคนค IG .............................................................................................................. 33 4 คาน าหนกของคณลกษณะจากการใชเทคนค GR ......................................................... 36 5 คาความถกตองของการพยากรณการเปนมะเรงเตานมตามจ านวนคณลกษณะทใช
ดวยเทคนค GR ............................................................................................................. 37 6 คาน าหนกของคณลกษณะจากการใชเทคนค Chi Squared ........................................... 40 7 คาความถกตองของการพยากรณการเปนมะเรงเตานมตามจ านวนคณลกษณะทใช
ดวยเทคนค Chi Squared ............................................................................................... 41 8 คาน าหนกของคณลกษณะจากการใชเทคนค Forward Selection ................................. 45 9 คาน าหนกของคณลกษณะจากการใชเทคนค Backward Elimination ........................... 47 10 คาน าหนกของคณลกษณะจากการใชเทคนค Evolutionary Selection .......................... 49
9
สารบญภาพประกอบ
ภาพประกอบ หนา
1 The CRISP-DM Reference Model ............................................................................... 6
2 การคดเลอกคณลกษณะแบบ Filter Approach .............................................................. 8
3 การคดเลอกคณลกษณะแบบ Wrapper Approach ......................................................... 9
4 Greedy (heuristic) methods for attribute subset selection ............................................ 12
5 ต าแหนงขอมลสองกลมในฟเจอรสเปซ (Feature Space) .............................................. 14
6 แสดงขนตอนการด าเนนการวจย .................................................................................. 19
7 แสดงขอมลสรปทน ามาใชในการพยากรณ .................................................................. 20
8 การแสดงรายละเอยดและลกษณะของขอมลแตละคณลกษณะในกลมคาเฉลย ............ 23
9 การแสดงรายละเอยดและลกษณะของขอมลแตละคณลกษณะในกลมความคลาดเคลอน
มาตรฐาน ................................................................................................................... 24
10 การแสดงรายละเอยดและลกษณะของขอมลแตละคณลกษณะในกลมคาทแยทสด ..... 24
11 ภาพรวมแสดงการพยากรณการเปนมะเรงเตานมดวยเทคนค SVM ดวยโปรแกรม
RapidMiner ............................................................................................................... 27
12 การเลอกคณลกษณะทไดรบการคดเลอกเขาประมวลผล .............................................. 28
13 กระบวนการในการท า Validation การประมวลผลดวย SVM ...................................... 28
14 ก าหนดคาพารามเตอรใหกบ SVM ............................................................................... 29
15 ก าหนดคาพารามเตอรในการท า Cross validation ........................................................ 29
10
สารบญภาพประกอบ (ตอ)
ภาพประกอบ หนา
16 ผลการวดประสทธภาพจากการเลอกคณลกษณะของเทคนค CBF ............................... 30
17 ตวอยางการเลอกคณลกษณะโดยการตดคณลกษณะทมคาน าหนกนอยทสดออกของ
เทคนค IG .................................................................................................................. 32
18 ผลการวดประสทธภาพจากการตดคณลกษณะทมคาน าหนกนอยทสดออกของ
เทคนค IG ................................................................................................................... 33
19 การน า 6 คณลกษณะทไดรบการคดเลอกเขาประมวลผลของเทคนค IG ...................... 34
20 ผลการวดประสทธภาพจากการเลอก 6 คณลกษณะของเทคนค IG............................... 35
21 ตวอยางการเลอกคณลกษณะโดยการตดคณลกษณะทมคาน าหนกนอยทสดออกของ
เทคนค GR ................................................................................................................. 38
22 ผลการวดประสทธภาพจากการตดคณลกษณะทมคาน าหนกนอยทสดออกของ
เทคนค GR .................................................................................................................. 39
23 ตวอยางการเลอกคณลกษณะโดยการตดคณลกษณะทมคาน าหนกนอยทสด
ออกดวยเทคนค Chi Squared..................................................................................... 42
24 ผลการวดประสทธภาพจากการตดคณลกษณะทมคาน าหนกนอยทสดออกดวย
เทคนค Chi Squared .................................................................................................... 43
25 การน า 9 คณลกษณะทไดรบการคดเลอกเขาประมวลผลของเทคนค Chi Squared....... 44
11
สารบญภาพประกอบ (ตอ)
ภาพประกอบ หนา
26 ผลการวดประสทธภาพจากการเลอก 9 คณลกษณะดวยเทคนค Chi Squared ............... 44
27 ผลการวดประสทธภาพจากการเลอกคณลกษณะดวยเทคนค Forward Selection ......... 46
28 ผลการวดประสทธภาพจากการเลอกคณลกษณะดวยเทคนค Backward
Elimination ................................................................................................................ 48
29 ผลการวดประสทธภาพจากการเลอกคณลกษณะดวยเทคนค Evolutionary
Selection .................................................................................................................... 50
30 แสดงจ านวนคณลกษณะทส าคญทถกคดเลอกในแตละเทคนค 7 เทคนค .................... 52
31 แสดงการเปรยบเทยบการวดประสทธภาพการพยากรณการเปนมะเรงเตานมจาก 7
เทคนคทเลอกใช ........................................................................................................ 53
32 แสดงจ านวนคณลกษณะและผลการวดประสทธภาพการพยากรณการเปนมะเรง
เตานมของเทคนค 7 เทคนค ....................................................................................... 54
1
บทท 1
บทน า
1.1 ความเปนมาและความส าคญของปญหา
การท าเหมองขอมล (Data Mining) เปนกระบวนการคนรปแบบ หรอความสมพนธทมประโยชนจากขอมลทเกบรวบรวมมาในอดต โดยใชโมเดลตางๆ เพอน ามาใชท านายหรอพยากรณการเกดเหตการณในอนาคต การท าเหมองขอมลมกระบวนการตามมาตรฐานอตสาหกรรม (CRIPS-DM: Cross-Industry Standard Process for Data Mining) ทประกอบดวยขนตอนส าคญๆ 6 ขนตอนคอ
1) ท าความเขาใจปญหา (Business Understanding) ระบเปาหมายทตองการจากการวเคราะหขอมลดวยการท าเหมองขอมล
2) ท าความเขาใจในขอมล (Data Understanding) รวบรวมขอมลทเกยวของ ท าความเขาใจในขอมล ส ารวจความถกตองและจ านวนของขอมลใหมรายละเอยดเพยงพอกบการวเคราะห
3) การเตรยมขอมล (Data Preparation) ขนตอนนจะท าการคดเลอกขอมล โดยจะเลอกเฉพาะขอมลทเกยวของกบสงทตองการวเคราะห ท าการลบขอมลทซ าซอน แกไขขอมลทผดพลาด แปลงรปแบบขอมลใหอยในรปแบบทพรอมจะน าไปวเคราะห
4) การสรางแบบจ าลอง (Modeling) เปนการสรางแบบจ าลองวเคราะหขอมลดวยเทคนคเหมองขอมล โดยแบบจ าลองจะขนอยกบวตถประสงคของการวเคราะหขอมล การเลอกขอมลและปรบพารามเตอรของเทคนคเหมองขอมลเพอใหไดประสทธภาพทด
5) การประเมนวดประสทธภาพของแบบจ าลอง (Evaluation) ขนตอนนจะท าการวดประสทธภาพของแบบจ าลองทสรางขนเพอความถกตอง เพอทจะไดเลอกแบบจ าลองทเหมาะสมทสดไปใชงาน
6) การน าแบบจ าลองไปใชงานจรง (Deployment) เปนการน าแบบจ าลองไปใชงานจรงเพอใหบรรลวตถประสงคของการท าเหมองขอมล
2
โดยในงานวจยฉบบนจะใชเทคนคการท าเหมองขอมล มาปรบปรงการพยากรณการเปนโรคมะเรงเตานม โดยเนนการคดเลอกคณลกษณะ (Feature Selection) ซงอยในขนตอนท 3 (การเตรยมขอมล) ของการท าเหมองขอมล การคดเลอกคณลกษณะเปนเทคนคทชวยลดจ านวนมตทใชในแบบจ าลองใหลดลง ซงเปนขนตอนทส าคญทจะท าใหผลการวเคราะหขอมลมประสทธภาพมากขน
1.2 วตถประสงคของการวจย
การวจยนเปนการวจยองคความร เพอท าการคดเลอกคณลกษณะทส าคญในการวเคราะหขอมลเพอลดจ านวนมตทใชในการปรบปรงการพยากรณการเปนมะเรงเตานม โดยท าการเปรยบเทยบเทคนคทใชในการคดเลอกคณลกษณะทมความส าคญในการวเคราะหขอมล โดยเทคนคทใชในการวจยครงนม 7 แบบคอ เทคนค Correlation Based Feature Selection (CFS) เทคนค Information Gain (IG) เทคนค Gain Ratio (GR) เทคนค Chi-Square เทคนค Forward Selection เทคนค Backward Elimination และเทคนค Evolutionary Selection และใชเทคนค ซพพอรตเวกเตอรแมชชน (Support Vector Machine) ในการจ าแนกขอมลของการเปนมะเรงเตานมหรอการไมเปนมะเรงเตานม
1.3 ค าถามการวจย
ค าถามการวจยไดก าหนดขนตามวตถประสงคของการวจยคอ 1) ในการลดจ านวนคณลกษณะของขอมลทใชในการวเคราะหขอมลโดยเทคนค
Correlation Based Feature Selection (CFS) เทคนค Information Gain (IG) เทคนค Gain Ratio (GR) เทคนค Chi-Square เทคนค Forward Selection เทคนค Backward Elimination และเทคนค Evolutionary Selection เทคนคไหนจะมความสามารถในการลดจ านวนคณลกษณะทใชในการวเคราะหขอมลมากทสด และมประสทธภาพในการวเคราะหขอมลสงสด
2) การลดจ านวนคณลกษณะโดยใชเทคนคขางตน จะสามารถเพมประสทธภาพในการวเคราะหขอมล เมอเทยบกบการไมลดจ านวนคณลกษณะในการวเคราะหขอมลหรอไมอยางไร
3
1.4 สมมตฐานการวจย
การคดเลอกคณลกษณะทส าคญในการวเคราะหขอมล ท าใหจ านวนมตของขอมลทใชในการวเคราะหขอมลลดลง นาจะมผลในการเพมประสทธภาพการวดคาความถกตองในการพยากรณการเปนมะเรงเตานม 1.5 ขอบเขตของการวจย
การวจยจะทดสอบท าการเปรยบเทยบเทคนค เทคนค Correlation Based Feature Selection (CFS) เทคนค Information Gain (IG) เทคนค Gain Ratio (GR) เทคนค Chi-Square เทคนค Forward Selection เทคนค Backward Elimination และเทคนค Evolutionary Selection เพอวดประสทธภาพในการพยากรณการเปนมะเรงเตานม โดยเปรยบเทยบกบการใชขอมลทงหมดทไมมการลดจ านวนมตลง เทคนคซพพอรตเวกเตอรแมชชน (Support Vector Machine) จะถกน ามาใชในการจ าแนกขอมลของการเปนมะเรงเตานมหรอการไมเปนมะเรงเตานม โดยก าหนดระยะเวลาไว 1 ป
1.6 นยามศพท
1.6.1 การท าเหมองขอมล (Data Mining) หมายถงกระบวนการทกระท ากบขอมล(โดยสวนใหญจะมจ านวนมาก) เพอคนหารปแบบ แนวทาง และความสมพนธทซอนอยในชดขอมลนน โดยอาศยหลกสถต การรจ า การเรยนรของเครอง และหลกคณตศาสตร
1.6.2 การคดเลอกคณลกษณะ (Feature Selection) หมายถง การลดขนาดหรอมตของขอมลและยงคงลกษณะส าคญของขอมล
1.6.3 Correlation Based Feature Selection (CFS) หมายถงเทคนคทใชการหากลมคณลกษณะทไดรบการประเมนคาจากความสามารถในการคาดการณ โดยคณลกษณะทถกคดเลอกใชส าหรบการจ าแนกประเภทของขอมล
1.6.4 Information Gain (IG) หมายถงเทคนคการพจารณาจากคาความนาจะเปนของแตละคณลกษณะทเปนไปไดแลววดคาความไรระเบยบ (Entropy) เพอคดเลอกคณลกษณะทมความส าคญในการจ าแนกกลมไดดทสด
1.6.5 Gain Ratio (GR) หมายถงเทคนคการวดจ านวนบตของขอมล เพอใชในการท านายคาดเดาจ าแนกประเภทของขอมล
4
1.6.6 Chi Square หมายถงเทคนคการวดโดยการใชสถตประมาณความสมพนธรวมระหวางคณลกษณะ เฉพาะกบคลาสของคณลกษณะเฉพาะ
1.6.7 Forward Selection เปนเทคนคทใชโดยการเพมคณลกษณะทละ 1 คณลกษณะ ถาคณลกษณะทใสเพมใหประสทธภาพทดกจะเกบไวและเลอกคณลกษณะอนๆมาเพมตอไป จนประสทธภาพของโมเดลไมไดดขนกจะหยดท างาน
1.6.8 Backward Elimination เปนเทคนคทใชโดยการลดคณลกษณะ (Backward Elimination) เรมตนดวยคณลกษณะทงหมดกอน และตดคณลกษณะทไมส าคญทงไปทละคณลกษณะถาประสทธภาพดขนกตดคณลกษณะอนๆตอไป จนกวาจะพบวาคณลกษณะนนมผลท าใหประสทธภาพลดลงอยางมนยส าคญทางสถต
1.6.9 Evolutionary Selection เปนการคดเลอกคณลกษณะ โดยวธการสมเลอกคณลกษณะซงเปนตวแปรพยากรณเขามาในสมการทละตว และท าการทดสอบหาประสทธภาพในการพยากรณค าตอบ หากคาประสทธภาพในการคาดการณสงขนจะเกบคณลกษณะนนไว แลวท าการสมเลอกคณลกษณะอนเขาไปเพม หากคาประสทธภาพต าลงกจะถอดคณลกษณะนนออก
1.6.10 ซพพอรตเวกเตอรแมชชน (Support Vector Machine) หมายถงวธการเรยนรแบบมผสอน ใชเพอการแบงประเภทขอมล
1.6.11 กระบวนการมาตรฐานอตสาหกรรมส าหรบเหมองขอมล (Cross-Industry Standard
Process for Data Mining, CRIPS-DM ) หมายถงกระบวนการมาตรฐานในการวเคราะห
ขอมลดานเหมองขอมล
5
บทท 2
วรรณกรรมทเกยวของ
2.1 ความรพนฐาน
ในการท าเหมองขอมลและการเรยนรการแกปญหาดวยคอมพวเตอรในโลกแหงความ
เปนจรงมกเกยวของกบขอมลทก าลงเรยนรจ านวนมาก อยางไรกตามขอมลบางอยางไมมความ
จ าเปน เนองจากมความซ าซอนหรอแมกระทงไมเกยวของ ซงอาจลดประสทธภาพในการ
ประมวลผลขอมลจากการท าเหมองขอมล หรออาจไดผลไมเปนไปตามวตถประสงค ดงนน
การเลอกขอมลจงเปนสงจ าเปนโดยเฉพาะการเลอกขอมลใหไดตามคณลกษณะทตองการ การ
เลอกคณลกษณะขอมลนอกจากชวยการแกปญหาการประมวลผลขอมลจ านวนมากทไมจ าเปน
ยงสามารถลดมตของขอมลเปนการเรงกระบวนการเรยนรท าใหรปแบบการเรยนรงายขน และ
เพมประสทธภาพการประมวลผลขอมลไดเปนอยางด
การท าเหมองขอมล (Data Mining) เปนกระบวนการคนรปแบบหรอความสมพนธทมประโยชนจากขอมลทเกบรวบรวมมาในอดต โดยใชโมเดลตางๆ เพอน ามาใชท านายหรอพยากรณการเกดเหตการณในอนาคต โดยมกระบวนการตามมาตรฐานอตสาหกรรม (CRIPS-DM: Cross-Industry Standard Process for Data Mining) ประกอบดวยขนตอนส าคญๆ 6 ขนตอน ตามทแสดงในภาพประกอบ 1
6
ภาพประกอบ 1 The CRISP-DM Reference Model
ทมา : https://sharing.luminis.eu/blog/the-forgotten-step-in-crisp-dm-
and-asum-dm-methodologies/
1. ท าความเขาใจปญหา (Business Understanding) ระบเปาหมายทตองการจากการวเคราะห และวางแผนด าเนนการ ซงในขนตอนนถอวาเปนการท าความเขาใจธรกจ ท าความเขาใจวตถประสงคของโครงการจากมมมองทางธรกจ การแปลงความรเปนขอมลเพอแกปญหาดวยการท าเหมองขอมล การพฒนาแผนขนตน การออกแบบเพอใหบรรลวตถประสงค และเพอใหเขาใจวาขอมลใดควรไดรบการวเคราะห ขอมลใดมความส าคญอยางไร การประเมนสถานการณ การก าหนดเปาหมายการท าเหมองขอมลและการสรางแผนโครงการ การก าหนดวตถประสงคทางธรกจ การท าความเขาใจเปาหมายทแทจรงของลกคาเปนสงส าคญส าหรบการคนพบปจจยส าคญทเกยวของกบโครงการทวางแผนไว และเพอใหมนใจวานกวเคราะหไดคนพบวตถประสงคทางธรกจหลก รวมทงค าถามทเกยวของกบธรกจทตองการ
2. ท าความเขาใจในขอมล (Data Understanding) รวบรวมขอมลทเกยวของ ท าความเขาใจในขอมล ส ารวจความถกตองและจ านวนของขอมลใหมรายละเอยดเพยงพอกบการวเคราะหขนตอนนนกวเคราะหจะท าความเขาใจกบขอมล ดวยการรวบรวม และอธบายขอมลเบองตน จากนนจะท าการส ารวจขอมลและการตรวจสอบคณภาพขอมล
7
ระบปญหาคณภาพขอมลเพอคนหาขอมลเชงลก รวมทงการรวบรวมและการบรณาการขอมลจากหลายแหลงในกรณทจ าเปน
3. การเตรยมขอมล (Data Preparation) ขนตอนนจะท าการคดเลอกขอมล โดยจะเลอกเฉพาะขอมลทเกยวของกบสงทตองการวเคราะห ท าการลบขอมลทซ าซอน แกไขขอมลทผดพลาด แปลงรปแบบขอมลใหอยในรปแบบทพรอมจะน าไปวเคราะห การเตรยมขอมลจะครอบคลมกจกรรมทงหมดเพอสรางชดขอมลสดทายหรอขอมลทจะปอนลงในแบบจ าลองจากขอมลดบเรมตน ซงจะรวมถงการบนทกขอมลและการเลอกคณลกษณะบวต การแปลงและการท าความสะอาดขอมลส าหรบเครองมอการสรางแบบจ าลอง โดยมหาขนตอนในการเตรยมท าขอมล ไดแก การเลอกขอมล การท าความสะอาดขอมล การสรางขอมล การรวมขอมล และการจดรปแบบขอมล เลอกขอมล เปนการตดสนใจเกยวกบขอมลทจะใชในการวเคราะห ซงขนอยกบเกณฑหลายประการ รวมถงความเกยวของกบเปาหมายการท าเหมองขอมล ขอจ ากดดานคณภาพของขอมลทมผลโดยตรงกบผลลพธทได เทคนค และปรมาณขอมลหรอชนดขอมล สวนหนงของกระบวนการคดเลอกขอมลควรเกยวของกบการอธบายวาเหตใดขอมลบางอยางถกรวมหรอควรตดออก หรอคณลกษณะไหนมความส าคญมากกวาคณลกษณะอน
4. การสรางแบบจ าลอง (Modeling) เปนการสรางแบบจ าลองวเคราะหขอมลดวยเทคนคเหมองขอมล โดยแบบจ าลองจะขนอยกบวตถประสงคของการวเคราะหขอมล การเลอกขอมลและปรบพารามเตอรของเทคนคเหมองขอมลเพอใหไดประสทธภาพทด ดงนนในขนตอนนจงเปนการเลอกเทคนค เพอการสรางแบบจ าลอง
5. การประเมนวดประสทธภาพของแบบจ าลอง (Evaluation) ขนตอนนจะท าการวดประสทธภาพของแบบจ าลองทสรางขนเพอความถกตอง เพอทจะไดเลอกแบบจ าลองทเหมาะสมทสดไปใชงาน
6. การน าแบบจ าลองไปใชงานจรง (Deployment) เปนการน าแบบจ าลองไปใชงานจรงเพอใหบรรลวตถประสงคของการท าเหมองขอมล
โดยในงานวจยชนนจะใชเทคนคการท าเหมองขอมล มาท านายการเปนโรคมะเรงเตานม โดยเนนการคดเลอกคณลกษณะ (Feature Selection) ซงอยในขนตอนท 3 (การเตรยมขอมล) ของการท าเหมองขอมล การคดเลอกคณลกษณะเปนเทคนคทส าคญและจ าเปน เนองจากสามารถชวยลดจ านวนมตทใชในแบบจ าลองใหลดลง ซงจะเปนผลท าใหการวเคราะหขอมลมประสทธภาพมากขน
8
2.2 ทฤษฎทรองรบเรองทวจย
การคดเลอกคณลกษณะทส าคญ เปนการคดเลอกเซตของคณลกษณะเฉพาะใหมจากเซต
ของคณลกษณะเดม โดยจะเปนเซตยอยของเซตคณลกษณะเดม เพอเพมประสทธภาพในการ
ท านายและการท างานใหเรวขน เนองจากบางคณลกษณะเดมทไมมความส าคญหรอม
ความส าคญนอยไดถกคดเลอกทงไป การคดเลอกคณลกษณะทส าคญสามารถแบงออกเปน 2
วธไดแก
Filter Approach เปนวธทพยายามคดเลอกคณลกษณะทส าคญ โดยการค านวณคาน าหนก
หรอคาความสมพนธของแตละคณลกษณะ โดยเลอกเฉพาะคณลกษณะทมความส าคญเกบ
เอาไว เชนเทคนค Correlation Based Feature Selection (CFS) เทคนค Information Gain (IG)
เทคนค Gain Ratio (GR) เทคนค Chi-Square
ภาพประกอบ 2 การคดเลอกคณลกษณะแบบ Filter Approach
ทมา : Mark A. Hall, 1999
Wrapper Approach เปนวธคดเลอกคณลกษณะทส าคญ โดยการค านวณคาน าหนกการวด
คาความถกตองในการแบงกลมขอมล มาสรางเซตของคณลกษณะใหม โดยการเพมหรอลด
จ านวนคณลกษณะจากเซตเดม เชนเทคนค Forward Selection เทคนค Backward Elimination
เทคนค Evolutionary Selection
9
ภาพประกอบ 3 การคดเลอกคณลกษณะแบบ Wrapper Approach
ทมา : Mark A. Hall, 1999
2.2.1 เทคนค Correlation Based Feature Selection (CFS)
เทคนค Correlation Based Feature Selection (CFS) เปนเทคนคในการเลอกคณสมบตของคณลกษณะโดยใชการพจารณาบนพนฐานความสมพนธ (Correlation-Based Feature Selection : CFS) ของกลมคณลกษณะทไดจากการประเมนคาจากความสามารถในการคาดการณ คณลกษณะทถกคดเลอกใชส าหรบจ าแนกประเภทขอมล และยงสามารถจดการกบคณลกษณะทไมเกยวของ CFS จะจดอนดบกลมยอยของมตขอมล ท าการคดเลอกกลมยอยของมตขอมลทมความสมพนธกนสงกบคลาส และไมมความสมพนธกบคลาสอนๆ ส าหรบมตขอมลทไมเกยวของหรอมความสมพนธต ากบคลาสจะถกลบทง มตขอมลทซ าซอนจะถกขจดออกไปจากกลมมตขอมลทมความสมพนธสง สมการประเมนกลมยอยของมตขอมลแบบ CFS แสดงในสมการท (1) (ภทราวฒ แสงศร, 2553)
𝑀𝑠 = 𝑘𝑟𝑐𝑓
√𝑘+𝑘(𝑘−1)𝑟𝑓𝑓 (1)
โดยท 𝑀𝑠 คอคาทคนหาไดของมตขอมลกลมยอย S ซงประกอบดวยมตขอมล K
𝑟𝑐𝑓 คอคาเฉลยความสมพนธของตวแปรกบคลาส (𝑓 ∈ 𝑠)
𝑟𝑓𝑓 คอคาเฉลยความสมพนธระหวางมตขอมล
10
2.2.2 เทคนค Information Gain (IG)
เทคนค Information Gain (IG) เปนเทคนคทใชในการชวดเพอเลอกคณลกษณะขอมลทตองการทนอยทสดทเหมาะสมในการน าไปใชระบ โดยการค านวณหาคา Gain ส าหรบแตละมตขอมล ซงมตขอมลใดมคา Gain สงสด จะถกคดเลอกเพอน ามาใชระบ สมการท 2 แสดงการค านวณคา Information Gain หรอคา Entropy ของชดขอมลทงหมด สมการท 3 แสดงการค านวณคา Entropy ของชดมตขอมลในแตละคณลกษณะ สมการท 4 เปนการค านวณหาคา Information
Gain ส าหรบการพจารณามตขอมลคณลกษณะ A
𝐸(𝐷) = − ∑ 𝑝𝑖𝑛𝑖=1 log2(𝑝𝑖) (2)
𝐸𝐴(𝐷) = ∑|𝐷𝑗|
𝐷𝑚𝑗=1 × 𝐸(𝐷𝑗) (3)
Gain(A) = E(D) - E𝐴(D) (4)
โดยท pi คอ คาความนาจะเปนทเรคคอรดหนงๆจะมหมวดหมของขอมล
หรอกลาววา การค านวณคา Information Gain คอการวดคา Entropy กอนทจะมการแบง
ขอมลออกตามมตขอมลและหลงการแบงวามประสทธภาพดขนหรอไม ถามประสทธภาพดขนคา
Information Gain จะมคาสง
2.2.3 เทคนค Gain Ratio (GR)
เทคนค Gain Ratio (GR) เปนตวชวดการแบงชดขอมลออกเปนชดขอมลยอยทพฒนามาจาก Information Gain เนองจากการใช Information Gainในการแบงชดขอมลจะมโอกาสท าใหเกดความเอนเอยงขน เมอคณลกษณะทท าการพจารณาไดคา gain ทสงเปนจ านวนมาก ท าใหคณลกษณะทถกคดเลอกไมถกตอง ตวอยางเชนพจารณาคณลกษณะทท าหนาทเปนตวระบเฉพาะเชนรหสผลตภณฑ การแยกรหสผลตภณฑจะสงผลใหมชดขอมลยอยจ านวนมาก แตละชดขอมลยอยมเพยงหนง record ซงเมอน ามาหาคา Information Gain จะไดคาทสงจ านวนมากนนเอง
11
จากความเอนเอยง ท าใหมการพฒนาตวชวดการแบงขอมลใหมทชอเรยกวา Gain Ratio โดยการประยกตใชการท านอรมลไลซคา Information Gain ดวยการใชคา “Split Information” ซงสามารถค านวณไดดงสมการท 5
𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜𝐴(𝐷) = − ∑|𝐷𝑗|
|𝐷|𝑚𝑗=1 x log2
|𝐷𝑗|
|𝐷| (5)
โดยคา SplitInfoA(D) หมายถงปรมาณขอมลทถกพจารณาโดยการแบงขอมลในชดขอมล D ออกเปน m ชดขอมลยอยตามคาคณลกษณะ 𝐴 โดยหลงจากท าการค านวณหาคา SplitInfoA(D) แลว เราจะสามารถค านวณหาคา Gain Ratio ไดดงสมการท 6
𝐺𝑎𝑖𝑛𝑅𝑎𝑡𝑖𝑜(𝐴) = 𝐺𝑎𝑖𝑛(𝐴)
𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜(𝐴) (6)
2.2.4 เทคนค Chi-Square
Chi Squared (𝑥2) การประเมนคาของคณลกษณะโดยการใชการค านวณคา Chi-Square ทาง
สถต เพอศกษา วาการแจกแจงความถของตวแปรคณลกษณะเปนไปตามรปแบบทก าหนดไว
หรอไม ดงแสดงใน สมการท 7
𝑥2 = ∑(𝑂𝑖−𝐸𝑖)2
𝐸𝑖
𝑛𝑖=1 (7)
โดยท O1 , O2 … On เปนความถของตวแปรทไดจากการศกษา
E1 , E2 … En เปนความถทคาดหวง (หรอความถทควรจะเปน)
2.2.5 เทคนค Forward Selection
เทคนค Forward Selection เปนเทคนคทใชวธการคดเลอกคณลกษณะซงเปนตวแปรอสระเขามาในสมการทละตว ขนแรกพจารณาจากคาสมบรณของสมประสทธสหสมพนธ (Correlation Coefficient) ระหวางตวแปรตามกบตวแปรอสระทใหคาสงสด หากตวแปรอสระตวนนมคณสมบตตามเกณฑการน าเขา กจะถกน าเขาสมการ หลงจากนนเปนการพจารณาสมประสทธสหสมพนธบางสวนระหวางตวแปรตามกบตวแปรอสระทไมอยในสมการถดถอยทละตว ตวแปรอสระทมคาสมบรณของสมประสทธสหสมพนธบางสวนสงสดจะถกน าเขาสมการ หากตวแปรนนมคณสมบตตามเกณฑการน าเขา ขนตอนจะท าซ าจนกระทงพบวาไมสามารถน าตวแปรอสระเขาสมการได จงหยด
12
2.2.6 เทคนค Backward Elimination
เทคนค Backward Elimination เปนเทคนคทพยายามคดเลอกตวแปรทดทสดและไดโมเดลประหยดในการพยากรณเชนเดยวกน โดยในตอนแรกจะน าตวแปรพยากรณทกตวเขามาในสมการและด าเนนการพจารณาตวแปรพยากรณทมคาสมประสทธสหสมพนธบางสวน (Partial Correlation) กบตวแปรเกณฑ และควบคมอทธพลของตวแปรพยากรณอนๆ ซงมคาต าทสดออกจากสมการ แลวจงด าเนนการทดสอบวา คา R2 ลดลงอยางมนยส าคญทางสถตหรอไม ถาพบวาลดลงอยางไมมนยส าคญทางสถตแสดงวาตวแปรดงกลาวไมไดมสวนท าใหการพยากรณตวแปรเกณฑเพมขนเลย แสดงวาสามารถขจดออกจากสมการได จากนนจงด าเนนการขจดตวแปรพยากรณทมความส าคญนอยรองลงมาออกไปอก โดยใชวธพจารณาเชนเดยวกนซงการขจดตวแปรพยากรณจะสนสดเมอพบวามผลท าใหคา R2 ลดลงอยางมนยส าคญทางสถต หมายความวา ตวแปรดงกลาวมความส าคญตอการพยากรณตวแปรตาม หากขจดตวแปรดงกลาวออกจากสมการจะท าใหอ านาจการพยากรณตวแปรเกณฑลดลงจงตองคงตวแปรพยากรณดงกลาวไวในสมการพยากรณตอไป (ทรงศกด ภสออน. 2554 : 283 ; Brian S. Everitt. 2010 : 93)
Backward elimination คอการน าตวแปรอสระทงหมดเขาสสมการ หลงจากนนจะคดตวแปรอสระทมความสมพนธกบตวแปรตามนอยทสดออกจากสมการ ด าเนนการซ าจนไมสามารถคดตวแปรอสระออกจากสมการถดถอยได กจะเหลอสมการถดถอยทตวแปรอสระมความความสมพนธกบตวแปรตามเทานน
ภาพประกอบ 4 Greedy (heuristic) methods for attribute subset selection.
ทมา : Jaiwei Han, et al., 2012.
13
2.2.7 เทคนค Evolutionary Selection
เทคนค Evolutionary Selection เปนเทคนคการคดเลอกคณลกษณะโดยน าขอมลคณลกษณะมาหาประสทธภาพในการคาดการณค าตอบ จากนนจงน าคณลกษณะมาจบคกน แลวหาคาประสทธภาพอกครง หากคาประสทธภาพในการคาดการณสงขนจะเกบขอมลนนไว แลวท าการเลอกคณลกษณะอนเขาไปเพม หากคาประสทธภาพต าลงจะถอดคณลกษณะนนออก แลวเลอกคณลกษณะอนเขาไปดงสมการท 8
IG (parent child) = Entropy (parent) – [p(c1) x Entropy(c1) + p(c2) x Entropy(c2)…] (8)
โดยท Entropy(c1) คอ -p(c1) log p(c1) p(c1) คอ คาความนาจะเปนของคา c1
c คอ ปจจยคณลกษณะแตละตวทเกยวของ
ทงนคา Entropy จะใชในการวดความแตกตางกนของขอมล ซงถาขอมลมความแตกตางกนนอยจะมคา Entropy ต า และถาขอมลมความแตกตางกนมากจะมคา Entropy สง (เอกสทธ พชรวงศศกดา, 2557)
14
2.2.8 เทคนคซพพอรตเวกเตอรแมชชน (Support Vector Machine)
เทคนคซพพอรตเวกเตอรแมชชน เปนเทคนคทใชในการแกปญหาทางดานการรจ ารปแบบขอมล โดยอาศยหลกการของการหาสมประสทธของสมการเพอสรางเสนแบงแยกกลมขอมลทถกปอนเขาสกระบวนการสอนใหระบบเรยนร โดยเนนไปยงเสนแบงแยกแยะกลมขอมลทดทสด (Optimal Separating Hyperplane) ส าหรบรากฐานเดมของซพพอรตเวกเตอรแมชชน ถกน ามาใชกบขอมลทเปนเชงเสน แตในความเปนจรงแลวขอมลทน ามาใชในระบบเรยนร มทงทเปนขอมลเชงเสนและขอมลแบบไมเปนเชงเสน ซงสามารถแกปญหาดงกลาวดวยการน าเคอรเนลฟงกชนมาใช เพอท าการแปลงคาเวคเตอรในสเปซขอมลน าเขาไปสสเปซขอมลแบบอนได ท าใหสามารถรองรบขอมลทมมากกวาสองมต แนวความคดของซพพอรตเวกเตอรแมชชน เกดจากการน าคาของกลมขอมลมาวางลงในฟเจอรสเปซ (Feature Space) จากนนจงหาเสนทใชแบงขอมลทงสองออกจากกนโดยจะสรางเสนแบง (Plane) ทเปนเสนตรงขนมา และเพอใหทราบวาเสนตรงทแบงสองกลมออกจากกนนน เสนตรงใดเปนเสนทดทสดดงภาพประกอบ 5
ภาพประกอบ 5 ต าแหนงขอมลสองกลมในฟเจอรสเปซ (Feature Space)
ทมา: จรา แกวสวรรณ, 2006.
15
สามารถน ามาเขยนเปนสมการเพอใชในการแกไขปญหา โดยขอมลทน ามาวางลงในพนท
คณลกษณะนนเปนกลมขอมลทอยในรปของเวกเตอรจะได
𝑋 = ((𝑥1, 𝑦1), … … , (𝑥𝑖, 𝑦𝑖)) (9)
โดยท X คอ ชดคาลกษณะเดน
จากนนท าการก าหนดสมการขนมา ซงสมการดงกลาวมลกษณะเปนสมการเสนตรง เพอน ามาสรางเปนเสนตรงบนไฮเปอรเพลนซงแบงกลมขอมลทมลกษณะเชงเสนสองกลมออกจากกน โดยมการก าหนดกลมของขอมลทงสองฝงเปนเพยงสองคาซงแทนดวยคา y ซงขอมลทเปนตวก าหนดความชนและระนาบทเกดขนบนไฮเปอรเพลนเกดจากคขอมล และก าหนดสมการทเปนตวบงบอกขอมลแตละกลมวาอยสวนไหนของเสนแบงไฮเปอรเพลนแสดงได ดงสมการท 10 และสมการท 11
เมอน าสมการเงอนไขทงหมดมาวเคราะหเชงเรขาคณต โดยพจารณาในกรณทขอมลถกแบงกลมไดสมบรณตามเงอนไขของซพพอรตเวกเตอรแมชชนในสมการท 12 และขอมลการสอนใหระบบเรยนรตองอยในรปแบบของเชงเสน สามารถแสดงลกษณะการวางตวของกลมขอมลไดดงภาพประกอบ 5 เวกเตอรของขอมลทถกปอนเขาสระบบการสอน เพอใหระบบเรยนรแทนดวยสมการ และขอมลทงสองดานแบงเปนบวกและลบ สถานะของขอมลจงแทนดวย ซงมสองคา คอ y = 1 และ y = -1 นน แตทงนกยงตดสนไมไดวาเสนแบงนนควรจะเปนเสนใดจงจะดทสด วธการทใชในการหาเสนแบงทดทสดคอการเพมเสนขอบใหกบเสนทงสองขาง ท าใหไดเสนใหมทจะถอเปนเสนขอบของขอมลแตละฝงอกดวย เสนขอบ (Margin) ทเปนเสนขอบของเสนแบงนนจะเปนเสนทสมผสกบคาขอมลในฟเจอรสเปซ (Feature Space) ทใกลทสด เสนขอบของทงสองเสนทเพมขนมานถกแทนดวยสมการ 𝑤𝑇 𝑥 + 𝑏 ≥ 𝑦 ≥ 1 ถาอยดาน y = 1 และ 𝑤𝑇 𝑥 + 𝑏 ≤ 𝑦 ≤ −1 ถา y = -1 หากเสนขอบของเสนแบงใด ๆ ทมความกวางมากทสด แสดงใหเหนวาขอมลสองชดมการแยกกนชดเจนมากทสด ดงนนเสนแบงทมเสนขอบกวางทสดจงเปนเสนแบงทดทสด และเรยกต าแหนงการสมผสขอมลทใกลทสดจากการเพมขอบนวา “เวกเตอรสนบสนน” (Support Vector) โดยเรยกเสนประทแบงขอมลทงสองเสนวาเสนขอบ ซงสามารถเขยนเปนสมการการค านวณความกวางของเสนขอบตองท าการค านวณพจนใหอยในรปปกต (Normalization) โดยการค านวณจากสมการท (15) และ (16) เมอแทนคาลงไปแลว (จรา แกวสวรรณ, 2006)
16
𝑤𝑇 𝑥 + 𝑏 ≥ 𝑦 เมอก าหนดให y = 1 (10)
𝑤𝑇 𝑥 + 𝑏 ≤ 𝑦 เมอก าหนดให y = -1 (11)
𝑦(𝑤𝑇 𝑥 + 𝑏) − 1 ≥ 0 (12)
โดยท y คอ คากลมขอมล (1,-1)
w คอ คาความชน
x คอ คาลกษณะเดน
b คอ คาคงท (คาตดแกน y)
17
2.3 ผลการวจยทเกยวของ
ในการศกษาทผานมาพบวา การคดเลอกคณลกษณะทส าคญในการวเคราะหขอมลเพอลด
จ านวนมตทใชในการท าเหมองขอมลเปนสงส าคญ โดยมการใชเทคนคหลายๆแบบเพอให
เหมาะสมกบขอมลทตองการวเคราะห โดยมงานวจยทเกยวของดงน (ภทราวฒ แสงศร, 2553) การ
ใชเทคนคในการคดเลอกคณลกษณะทส าคญ เพอคดแยกประเภทของมะเรงเมดเลอดขาวแบบ
เฉยบพลน ซงจ านวนมตของขอมลมจ านวน 7,129 มต สามารถลดมตของขอมลลงมาเหลอ 36 มต
และเพมความแมนย าจากรอยละ 73.43% มาเปนรอยละ 88.24 (นภาพร ชนะมาร และพรรณ
สทธเดช, 2557) ไดศกษา การวเคราะหปจจยการเรยนรดวยการคดเลอกคณสมบตและการพยากรณ
โดยใชเทคนคการคดเลอกคณสมบต 3 วธ ไดแก การคดเลอกคณสมบตแบบ Correlation-based
Feature Selection การคดเลอกคณสมบตแบบ Consistency-based Feature Selection และ การ
คดเลอกคณสมบตแบบ Gain Ratio Feature Selection ผลการทดลองทงสามเทคนคสามารถลด
จ านวนของคณสมบตจาก 22 ตวแปร เหลอ 9 ตวแปร 10 ตวแปร และ 11 ตวแปร ตามล าดบ
(พฤฒพงศ เพงศร และคณะ, 2557) ไดศกษาการลดมตขอมลการวเคราะหความสมพนธและการ
ประยกตส าหรบวเคราะหขอมลพนฐานการใชงานสมารทโฟน โดยท าการศกษาเทคนคตาง ๆ ใน
การลดมต โดยท าการเปรยบเทยบเทคนค Partition data of Association with Aprior CFS, Info Gain
และ Relief โดยผานการจ าแนกขอมลดวย ANN (น าทพย มากนคร และมาลรตน โสดานล,
2557) ศกษาการเปรยบเทยบวธการเลอกคณลกษณะทเหมาะสมเพอ การจดหมวดหมเวบเพจผด
กฎหมายโดยใชเทคนคการท าเหมองขอมล โดยใชเทคนค Information Gain, Gain Ratio และ
Chi Squared พบวาวธการจดอนดบแบบ Chi-Square ใหผลลพธทมประสทธภาพดทสดกลาวคอ
เมอลดจ านวนคณลกษณะ 50% ใหคาความถกตอง (Accuracy) รอยละ 95.98 (นธนนท มาตา
และคณะ, 2558) ไดศกษาการสรางโมเดลส าหรบพยากรณการควบคมประตระบายน า โดยมการ
เปรยบเทยบเทคนค การลดมตของขอมลคอ Information Gain, Gain Ratio, Correlation based
Feature Selection (Galavotti L., et al., 2000) ไดศกษาเกยวกบการคดเลอกคณสมบตของขอมล
จากขอมลจ านวนมากในการจดหมวดหมขอมลตวอกษร (Bing Xue., et al., 2016) ไดศกษาสรป
การคดเลอกคณสมบตของขอมลในการลดมตของขอมล และเพมประสทธภาพของขนตอนวธ
Evolutionary Computation Approaches
18
บทท 3
ระเบยบวธวจย
3.1 ขนตอนการด าเนนงานวจย
งานวจยนเปนงานวจยเพอศกษาการคดเลอกคณลกษณะทมความส าคญในการปรบปรงการ
พยากรณโรคมะเรงเตานม โดยมการเปรยบเทยบเทคนคตางๆ ทใชในการคดเลอกคณลกษณะทจะ
น ามาใชในการปรบปรงการท านายมะเรงเตานม โดยมขนตอนการด าเนนงานการวจยประกอบดวย
ขนตอนหลกดงตอไปน
1. การเตรยมขอมล (Data Preparation)
เปนขนตอนของการจดเตรยมขอมลเพอการวเคราะห โดยน าขอมลทไดจาก
แหลงขอมล UCI Machine Learning Repository ซงประกอบไปดวยขอมลจากคนทมชวต
จ านวน 569 คน มจ านวนคณลกษณะ 32 คณลกษณะ ประกอบดวย หมายเลขประจ าตว
และผลการวนจฉย อก 30 คณลกษณะเปนคณลกษณะทางกายภาพ
2. การคดเลอกคณลกษณะทส าคญโดยการใชเทคนคตางๆ
เปนขนตอนการใชเทคนคตางๆจ านวน 7 เทคนคในการคดเลอกคณลกษณะท
ส าคญเพอน ามาใชในการปรบปรงการพยากรณการเปนมะเรงเตานม
3. การท านายคาความถกตองดวยเทคนค Support Vector Machine
เปนขนตอนการน าคณลกษณะทส าคญทถกคดเลอกมาแลวจาก 7 เทคนค มาวด
ประสทธภาพการพยากรณการเปนมะเรงเตานมโดยการใชเทคนค Support Vector
Machine (SVM)
19
4. การเปรยบเทยบผลการวดประสทธภาพการพยากรณการเปนมะเรงเตานมทง 7 เทคนค
เปนขนตอนการน าผลทไดจากการวดประสทธภาพการพยากรณการเปนมะเรงเตานม
จากคณลกษณะทส าคญจากการคดเลอกดวยเทคนคตางๆ 7 เทคนคมาเปรยบเทยบ เพอดวา
เทคนคใดใหคาความถกตองในการพยากรณการเปนมะเรงเตานมไดเทาไร
Correlation Based Feature Selection
Information Gain
Chi Square
Gain Ratio
Forward Selection
Backward Elimination
Evolutionary Selection
� � � 2
� � � �
Support Vector Machine
3
7 � �
4
1
ภาพประกอบ 6 แสดงขนตอนการด าเนนการวจย
20
3.1.1 จดหาขอมลและเตรยมขอมล
เพอการวเคราะหเปรยบเทยบเทคนคตางๆ ทใชในการคดเลอกคณลกษณะทจะน ามาใชใน
การปรบปรงการพยากรณมะเรงเตานม
ในขนตอนนไดน าขอมลทใชในการวเคราะหมาจาก UCI Machine Learning Repository http://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+%28diagnostic%29 โดยมผเชยว ชาญ 3 ทานเปนผสรางขอมล
1. Dr. William H. Wolberg, General Surgery Dept.
University of Wisconsin, Clinical Sciences Center, Madison, WI 53792
wolberg '@' eagle.surgery.wisc.edu
2. W. Nick Street, Computer Sciences Dept.
University of Wisconsin, 1210 West Dayton St., Madison, WI 53706
street '@' cs.wisc.edu 608-262-6619
3. Olvi L. Mangasarian, Computer Sciences Dept.
University of Wisconsin, 1210 West Dayton St., Madison, WI 53706
olvi '@' cs.wisc.edu
ภาพประกอบ 7 แสดงขอมลสรปทน ามาใชในการพยากรณ
ทมา : UCI, “Breast Cancer Wisconsin (Diagnostic) Data Set”, 27 April 2018
เปนขอมลจากคนทมชวตจรงจ านวน 569 คน จ านวนคณลกษณะของขอมลเทากบ 32 คณลกษณะ
โดย 2 คณลกษณะแรก คอ : หมายเลขประจ าตว และผลการวนจฉย อก 30 คณลกษณะทเหลอเปน
คณลกษณะทางดานกายภาพถกน ามาใชในการพยากรณ ดงน
21
1. id หมายถง หมายเลขประจ าตว
2. diagnosis (M = malignant, B = benign) หมายถง การวนจฉยโรค แบงออกเปน 2
ประเภท
M = malignant หมายถง เปน
B = benign หมายถง ไมเปน
และอก 30 คณลกษณะทางดานกายภาพทใชในการพยากรณ ซงมรายละเอยดตอไปน
3. radius_mean (mean of distances from center to points on the perimeter) หมายถง
คาเฉลยของรศม (ระยะทางจากจดศนยกลางไปยงจดบนเสนรอบวง)
4. texture_mean (standard deviation of gray-scale values) หมายถง คาเฉลยของลกษณะ
ผวหนง
5. perimeter_mean หมายถง คาเฉลยของเสนรอบรป
6. area_mean หมายถง คาเฉลยของขนาดพนท
7. smoothness_mean (smoothness : local variation in radius lengths) หมายถง คาเฉลยของ
ความเรยบเนยน
8. compactness_mean (compactness : perimeter^2 / area - 1.0) หมายถง คาเฉลยของความ
กระทดรด
9. concavity_mean (concavity : severity of concave portions of the contour) หมายถง
คาเฉลยของสวนเวา
10. concave points_mean (concave points : number of concave portions of the contour)
หมายถง คาเฉลยจ านวนสวนเวา
11. symmetry_mean หมายถง คาเฉลยของความสมมาตร
12. fractal_dimension_mean (fractal_dimension : “coastline approximation” - 1)
หมายถง คาเฉลยของสดสวนขนาด
22
13. radius_se (standard error ความคลาดเคลอนมาตรฐาน) หมายถง ความคลาดเคลอน
มาตรฐานของรศม
14. texture_se หมายถง ความคลาดเคลอนมาตรฐานของลกษณะผวหนง
15. perimeter_se หมายถง ความคลาดเคลอนมาตรฐานของเสนรอบรป
16. area_se หมายถง ความคลาดเคลอนมาตรฐานของขนาดพนท
17. smoothness_se หมายถง ความคลาดเคลอนมาตรฐานของความเรยบเนยน
18. compactness_se หมายถง ความคลาดเคลอนมาตรฐานของความกระทดรด
19. concavity_se หมายถง ความคลาดเคลอนมาตรฐานของสวนเวา
20. concave points_se หมายถง ความคลาดเคลอนมาตรฐานของจ านวนสวนเวา
21. symmetry_se หมายถง ความคลาดเคลอนมาตรฐานของความสมมาตร
22. fractal_dimension_se หมายถง ความคลาดเคลอนมาตรฐานของสดสวนขนาด
23. radius_worst หมายถง คาทแยทสดของรศม
24. texture_ worst หมายถง คาทแยทสดของลกษณะผวหนง
25. perimeter_ worst หมายถง คาทแยทสดของเสนรอบรป
26. area_ worst หมายถง คาทแยทสดของขนาดพนท
27. smoothness_ worst หมายถง คาทแยทสดของความเรยบเนยน
28. compactness_ worst หมายถง คาทแยทสดของความกระทดรด
29. concavity_ worst หมายถง คาทแยทสดของสวนเวา
30. concave points_ worst หมายถง คาทแยทสดของจ านวนสวนเวา
31. symmetry_ worst หมายถง หมายถง คาทแยทสดของความสมมาตร
32. fractal_dimension_ worst หมายถง คาทแยทสดของสดสวนขนาด
24
ภาพประกอบ 9 การแสดงรายละเอยดและลกษณะของขอมลแตละคณลกษณะใน
กลมความคลาดเคลอนมาตรฐาน
ภาพประกอบ 10 การแสดงรายละเอยดและลกษณะของขอมลแตละคณลกษณะในกลมคาทแยทสด
25
3.1.2 การวเคราะหขอมลดวยโปรแกรม RapidMiner
ท าการทดลองโดยใชเทคนคตางๆเพอเปรยบเทยบประสทธภาพในการคดเลอกคณลกษณะ
ทส าคญในการพยากรณมะเรงเตานม และใชเทคนคซพพอรตเวกเตอรแมชชน (Support Vector
Machine) ในการวดประสทธภาพการจ าแนกขอมลของการเปนมะเรงเตานม ซงมเทคนคทใช
คดเลอกคณลกษณะในการทดลองมดงน
1. เทคนค Correlation Based Feature Selection (CFS)
2. เทคนค Information Gain (IG)
3. เทคนค Gain Ratio (GR)
4. เทคนค Chi-Square
5. เทคนค Forward Selection
6. เทคนค Backward Elimination
7. เทคนค Evolutionary Selection
26
3.2 ผลการทดลอง
1. เทคนค Correlation Based Feature Selection (CFS)
ในการใชเทคนค Correlation Based Feature Selection จากคณลกษณะทงหมด 30
คณลกษณะ ท าใหสามารถเลอกคณลกษณะทส าคญไดจากผลการทดลองตามตารางท 1 ดงตอไปน
ตารางท 1 คาน าหนกของคณลกษณะจากการใชเทคนค CBF
No Attribute Weight No Attribute Weight
1 radius_mean 0 16 compactness_se 0
2 texture_mean 0 17 concavity_se 0
3 perimeter_mean 0 18 concave points_se 0
4 area_mean 0 19 symmetry_se 0
5 smoothness_mean 0 20 fractal_dimension_se 0
6 compactness_mean 0 21 radius_worst 1
7 concavity_mean 0 22 texture_worst 0
8 concave points_mean 0 23 perimeter_worst 0
9 symmetry_mean 0 24 area_worst 0
10 fractal_dimension_mean 0 25 smoothness_worst 0
11 radius_se 1 26 compactness_worst 1
12 texture_se 0 27 concavity_worst 0
13 perimeter_se 0 28 concave points_worst 0
14 area_se 0 29 symmetry_worst 0
15 smoothness_se 0 30 fractal_dimension_worst 0
จากตารางท 1 พบวาคณลกษณะทมคาน าหนกเปน 0 จะไมไดรบการคดเลอก จะท าการ
เลอกเฉพาะคณลกษณะทมคาน าหนกเทากบ 1 เทานน ซงคณลกษณะทถกเลอกจากเทคนค
Correlation Based Feature Selection ไดแก radius_se radius_worst และcompactness_worst
27
หลงจากนนจงไดน าคณลกษณะทง 3 มาหาคาความถกตองในการพยากรณการเปนมะเรง
เตานมดวยเทคนค SVM โดยการใชโปรแกรม RapidMiner ในการประมวลผลการพยากรณซง
ประกอบไปดวยกระบวนการตางๆ ดงแสดงในภาพประกอบ 11 เ รมตนโดยการดงขอมล
คณลกษณะตางๆดวยการใช Operator Retrieve หลงจากนนมการคดเลอกคณลกษณะทส าคญทได
จากเทคนค Correlation Based Feature Selection ดงแสดงในภาพประกอบ 12 ตอจากนนเปน
กระบวนการในการท า Validation การพยากรณการเปนมะเรงเตานมดวยเทคนค SVM ดงแสดงใน
ภาพประกอบ 13 โดยมการเซตพารามเตอรใหกบเทคนค SVM ดวยการก าหนดคา svm type เปน
C-SVC คา kernel type เปน rbf คา gamma เปน 0.0 คา C เปน 0.0 คา cache size เปน 80 คา
epsilon เปน 0.001 มการเลอกการท างานใหเปนแบบ shrinking และ confidence for multiclass ดง
แสดงในภาพประกอบ 14 และมการก าหนดคาพารามเตอรในการท า Cross validation ใหคา
number of folds เปน 10 และลกษณะ sampling type เปนแบบ stratified sampling ดงแสดงใน
ภาพประกอบ 15
ภาพประกอบ 11 ภาพรวมแสดงการพยากรณการเปนมะเรงเตานมดวยเทคนค SVM ดวย
โปรแกรม RapidMiner
28
ภาพประกอบ 12 การเลอกคณลกษณะทไดรบการคดเลอกเขาประมวลผล
ภาพประกอบ 13 กระบวนการในการท า Validation การประมวลผลดวย SVM
30
ภาพประกอบ 16 ผลการวดประสทธภาพจากการเลอกคณลกษณะของเทคนค CBF
จากภาพประกอบ 16 แสดงผลการวดประสทธภาพการพยากรณโดยการคดเลอก
คณลกษณะดวยเทคนค Correlation Based Feature Selection และการหาคาความถกตองในการ
พยากรณการเปนมะเรงเตานมดวยเทคนค SVM ท าใหไดคาความถกตองในการพยากรณการเปน
มะเรงเตานมเทากบ 91.22%
31
2. เทคนค Information Gain (IG)
ในการใชเทคนค Information Gain ดวยคณลกษณะทงหมด 30 คณลกษณะ ท าใหไดคา
น าหนกในแตละคณลกษณะจากการทดลองตามตารางท 2 ดงตอไปน
ตารางท 2 คาน าหนกของคณลกษณะจากการใชเทคนค IG
Attribute Weight Attribute Weight
smoothness_se 0.0135 compactness_worst 0.2412
texture_se 0.0163 compactness_mean 0.2671
fractal_dimension_mean 0.0207 radius_se 0.2869
symmetry_se 0.0228 perimeter_se 0.2887
fractal_dimension_se 0.0346 concavity_worst 0.4017
symmetry_mean 0.0712 area_se 0.4161
fractal_dimension_worst 0.0747 concavity_mean 0.4482
smoothness_mean 0.0971 radius_mean 0.4630
compactness_se 0.1098 perimeter_mean 0.4666
symmetry_worst 0.1098 area_mean 0.4748
smoothness_worst 0.1235 concave points_mean 0.5458
texture_worst 0.1572 concave points_worst 0.5491
texture_mean 0.1593 area_worst 0.5602
concave points_se 0.1637 radius_worst 0.5619
concavity_se 0.1934 perimeter_worst 0.5620
เทคนค Information Gain จะใหคาน าหนกของคณลกษณะทส าคญออกมา โดยคณลกษณะ
ทมความส าคญจะมคาน าหนกมาก คณลกษณะทมความส าคญนอยจะมคาน าหนกนอย จากผลการ
ทดลองพบวา คณลกษณะ perimeter_worst จะมความส าคญมากทสดซงมคาน าหนกท 0.5620
และคณลกษณะ smoothness_se จะมความส าคญนอยทสดซงมคาน าหนกท 0.0135
เนองจากเทคนคนจะใหคาน าหนกของแตละคณลกษณะออกมา ดงนนการตรวจสอบวา
ควรจะใชคณลกษณะใดบางในการหาคาความถกตองในการพยากรณการเปนมะเรงเตานมโดยใช
เทคนค SVM ในการท านายความถกตอง จงไดท าการทดลองโดยการลดคณลกษณะไปทละหนง
คณลกษณะเรมจากคณลกษณะทมคาน าหนกนอยทสด เพอทจะไดคาความถกตองทดทสดในการ
ท านายมะเรงเตานม ผลทไดแสดงในตารางท 3
33
ภาพประกอบ 18 ผลการวดประสทธภาพจากการตดคณลกษณะทมคาน าหนก
นอยทสดออกของเทคนค IG
ตารางท 3 คาความถกตองของการพยากรณการเปนมะเรงเตานมตามจ านวนคณลกษณะทใชดวย
เทคนค IG
Number of Attribute
Attribute Reduction
Accuracy Number of
Attribute Attribute
Reduction Accuracy
30 0 91.39 15 15 91.57
29 1 91.39 14 16 91.57
28 2 91.39 13 17 91.57
27 3 91.39 12 18 91.57
26 4 91.39 11 19 91.57
25 5 91.39 10 20 91.57
24 6 91.39 9 21 92.27
23 7 91.39 8 22 92.27
22 8 91.39 7 23 92.27
21 9 91.39 6 24 92.27
20 10 91.39 5 25 91.22
19 11 91.39 4 26 91.22
18 12 91.39 3 27 91.22
17 13 91.57 2 28 91.57
16 14 91.57 1 29 91.74
34
จากผลการทดลองพบวาคาความถกตองทดทสด โดยมรอยละความถกตองอยท 92.27 ตาม
ตารางท 3 จะใชจ านวนคณลกษณะอยท 6,7,8 หรอ 9 คณลกษณะ ดงนนเราจะเลอกใชจ านวน
คณลกษณะนอยสด 6 คณลกษณะไดแก
1. area_mean
2. area_worst
3. concave points_mean
4. concave points_worst
5. perimeter_worst
6. radius_worst
ภาพประกอบ 19 การน า 6 คณลกษณะทไดรบการคดเลอกเขาประมวลผลของเทคนค IG
35
ภาพประกอบ 20 ผลการวดประสทธภาพจากการเลอก 6 คณลกษณะของเทคนค IG
ผลการวดประสทธภาพการพยากรณโดยการคดเลอกคณลกษณะดวยเทคนค Information
Gain (IG) และการหาคาความถกตองในการพยากรณการเปนมะเรงเตานมดวยเทคนค SVM จาก
การใช 6 คณลกษณะทไดรบการคดเลอก ไดคาความถกตองในการพยากรณการเปนมะเรงเตานม
เทากบ 92.27%
36
3. เทคนค Gain Ratio (GR)
ในการใชเทคนค Gain Ratio ดวยคณลกษณะทงหมด 30 คณลกษณะ ท าใหไดคาน าหนก
ในแตละคณลกษณะจากการทดลองตามตารางท 4 ดงตอไปน
ตารางท 4 คาน าหนกของคณลกษณะจากการใชเทคนค GR
No Attribute Weight No Attribute Weight
1 texture_se 0.0749 16 compactness_mean 0.2695
2 fractal_dimension_se 0.0818 17 compactness_worst 0.2807
3 smoothness_mean 0.1166 18 perimeter_se 0.3336
4 compactness_se 0.1349 19 radius_se 0.3604
5 symmetry_se 0.1450 20 concavity_worst 0.4046
6 symmetry_mean 0.1489 21 area_se 0.4708
7 smoothness_se 0.1489 22 concavity_mean 0.4752
8 fractal_dimension_worst 0.1489 23 radius_mean 0.5237
9 smoothness_worst 0.1589 24 perimeter_mean 0.5340
10 texture_mean 0.1601 25 area_mean 0.5371
11 concave points_se 0.1753 26 concave points_mean 0.5670
12 texture_worst 0.1796 27 concave points_worst 0.6035
13 fractal_dimension_mean 0.1901 28 radius_worst 0.6116
14 concavity_se 0.1968 29 area_worst 0.6182
15 symmetry_worst 0.2382 30 perimeter_worst 0.6384
เทคนค Gain Ratio จะใหคาน าหนกของคณลกษณะทส าคญออกมา โดยคณลกษณะทม
ความส าคญจะมคาน าหนกมาก คณลกษณะทมความส าคญนอยจะมน าหนกนอย จากผลการทดลอง
พบวา คณลกษณะ perimeter_worst จะมความส าคญมากทสดซงมคาน าหนกท 0.6384 และ
คณลกษณะ texture_se จะมความส าคญนอยทสดซงมคาน าหนกท 0.0749
เนองจากเทคนคนจะใหคาน าหนกของแตละคณลกษณะออกมา ดงนนการตรวจสอบวา
ควรจะใชคณลกษณะใดบางในการหาคาความถกตองในการพยากรณการเปนมะเรงเตานมโดยใช
เทคนค SVM จงไดท าการทดลองโดยการลดคณลกษณะไปทละหนงคณลกษณะเรมจาก
คณลกษณะทมคาน าหนกนอยทสด เพอทจะไดคาความถกตองทดทสดในการพยากรณการเปน
มะเรงเตานม ผลทไดแสดงในตารางท 5
37
ตารางท 5 คาความถกตองของการพยากรณการเปนมะเรงเตานมตามจ านวนคณลกษณะทใชดวย
เทคนค GR
Number of Attribute
Attribute Reduction
Accuracy Number of
Attribute Attribute Reduction
Accuracy
30 0 91.39 15 15 91.57
29 1 91.39 14 16 91.57
28 2 91.39 13 17 91.57
27 3 91.39 12 18 91.57
26 4 91.39 11 19 91.57
25 5 91.39 10 20 91.57
24 6 91.39 9 21 92.27
23 7 91.39 8 22 92.27
22 8 91.39 7 23 92.27
21 9 91.39 6 24 92.27
20 10 91.39 5 25 91.22
19 11 91.39 4 26 91.22
18 12 91.57 3 27 91.22
17 13 91.57 2 28 91.22
16 14 91.57 1 29 91.74
39
ภาพประกอบ 22 ผลการวดประสทธภาพจากการตดคณลกษณะทม
คาน าหนกนอยทสดออกของเทคนค GR
จากผลการทดลองพบวาคาความถกตองทดทสด โดยมรอยละความถกตองอยท 92.27 ใช
จ านวนคณลกษณะ 6,7,8 หรอ 9 คณลกษณะ ดงนนเราจะเลอกใชจ านวนคณลกษณะนอยสด 6
คณลกษณะ ไดแก
1. area_mean
2. area_worst
3. concave points_mean
4. concave points_worst
5. radius_worst
6. perimeter_worst
จะพบวาผลการทดลองของ Gain Ratio คาความถกตองทดทสดทไดมลกษณะเหมอนกบ
Information Gain
40
4. เทคนค Chi Squared
ในการใชเทคนค Chi Squared ดวยคณลกษณะทงหมด 30 คณลกษณะ ท าใหไดคาน าหนก
ในแตละคณลกษณะจากการทดลองตามตารางท 6 ดงตอไปน
ตารางท 6 คาน าหนกของคณลกษณะจากการใชเทคนค Chi Squared
No Attribute Weight No Attribute Weight
1 texture_se 13.3265 16 area_se 205.2987
2 smoothness_se 13.5522 17 compactness_worst 208.6836
3 fractal_dimension_mean 24.0610 18 perimeter_se 222.0918
4 fractal_dimension_se 27.9417 19 compactness_mean 222.3855
5 symmetry_se 31.5886 20 radius_se 230.0074
6 concavity_se 51.9918 21 concavity_worst 311.1369
7 fractal_dimension_worst 66.7996 22 area_mean 326.2661
8 symmetry_mean 68.6855 23 concavity_mean 341.0650
9 compactness_se 74.0546 24 radius_mean 344.7614
10 smoothness_mean 81.3973 25 perimeter_mean 359.1691
11 symmetry_worst 100.7488 26 area_worst 364.0997
12 smoothness_worst 109.0351 27 concave points_mean 390.5314
13 concave points_se 126.9527 28 radius_worst 395.6819
14 texture_mean 133.6581 29 perimeter_worst 406.0872
15 texture_worst 134.4097 30 concave points_worst 415.0087
เทคนค Chi Squared จะใหคาน าหนกของคณลกษณะทส าคญออกมา โดยคณลกษณะทม
ความส าคญจะมคาน าหนกมาก คณลกษณะทมความส าคญนอยจะมน าหนกนอย จากผลการทดลอง
พบวา คณลกษณะ concave points_worst มความส าคญมากทสดมคาน าหนกท 415.0087 และ
คณลกษณะ texture_se จะมความส าคญนอยทสดมคาน าหนกท 13.3265
เนองจากเทคนคนจะใหคาน าหนกของแตละคณลกษณะออกมา ดงนนการตรวจสอบวา
ควรจะใชคณลกษณะใดบางในการหาคาความถกตองในการพยากรณการเปนมะเรงเตานมโดยใช
เทคนค SMV จงไดท าการทดลองโดยการลดคณลกษณะไปทละหนงคณลกษณะเรมจาก
41
คณลกษณะทมคาน าหนกนอยทสด เพอทจะไดคาความถกตองทดทสดในการพยากรณมะเรงเตานม
ผลทไดแสดงในตารางท 7
ตารางท 7 คาความถกตองของการพยากรณการเปนมะเรงเตานมตามจ านวนคณลกษณะทใชดวย
เทคนค Chi Squared
Number of Attribute
Attribute Reduction
Accuracy Number of
Attribute Attribute
Reduction Accuracy
30 0 91.39 15 15 91.57
29 1 91.39 14 16 92.27
28 2 91.39 13 17 92.27
27 3 91.39 12 18 92.27
26 4 91.39 11 19 92.27
25 5 91.39 10 20 92.27
24 6 91.39 9 21 92.27
23 7 91.39 8 22 91.57
22 8 91.39 7 23 91.57
21 9 91.39 6 24 91.57
20 10 91.39 5 25 91.22
19 11 91.39 4 26 91.57
18 12 91.39 3 27 91.57
17 13 91.39 2 28 91.74
16 14 91.39 1 29 62.74
43
ภาพประกอบ 24 ผลการวดประสทธภาพจากการตดคณลกษณะทม
คาน าหนกนอยทสดออกดวยเทคนค Chi Squared
จากผลการทดลองพบวาคาความถกตองทดทสด โดยมรอยละความถกตองอยท 92.27 ใช
จ านวนคณลกษณะ 9,10,11,12,13 หรอ 14 คณลกษณะ ดงนนเราจะเลอกใชจ านวนคณลกษณะนอย
สด 9 คณลกษณะ ไดแก
1. area_mean
2. area_worst
3. concavity_mean
4. concave points_mean
5. concave points_worst
6. perimeter_mean
7. perimeter_worst
8. radius_mean
9. radius_worst
44
ภาพประกอบ 25 การน า 9 คณลกษณะทไดรบการคดเลอกเขาประมวลผลของ
เทคนค Chi Squared
ภาพประกอบ 26 ผลการวดประสทธภาพจากการเลอก 9 คณลกษณะดวย
เทคนค Chi Squared
ผลการวดประสทธภาพการพยากรณโดยการคดเลอกคณลกษณะดวยเทคนค Chi Squared
และการหาคาความถกตองในการพยากรณการเปนมะเรงเตานมดวยเทคนค SVM จากการใช 9
คณลกษณะทไดรบการคดเลอก ใหคาความถกตองในการพยากรณการเปนมะเรงเตานมเทากบ
92.27% ดงแสดงในภาพประกอบ 26
45
5. เทคนค Forward Selection
ในการใชเทคนค Forward Selection ดวยคณลกษณะทงหมด 30 คณลกษณะ ท าใหได
คณลกษณะทถกเลอกจากผลการทดลองตามตารางท 8 ดงตอไปน
ตารางท 8 คาน าหนกของคณลกษณะจากการใชเทคนค Forward Selection
No Attribute Weight
No Attribute Weight
1 radius_mean 0 16 compactness_se 0
2 texture_mean 0 17 concavity_se 0
3 perimeter_mean 0 18 concave points_se 0
4 area_mean 0 19 symmetry_se 0
5 smoothness_mean 0 20 fractal_dimension_se 0
6 compactness_mean 0 21 radius_worst 0
7 concavity_mean 0 22 texture_worst 1
8 concave points_mean 0 23 perimeter_worst 1
9 symmetry_mean 0 24 area_worst 0
10 fractal_dimension_mean 0 25 smoothness_worst 0
11 radius_se 0 26 compactness_worst 0
12 texture_se 0 27 concavity_worst 1
13 perimeter_se 0 28 concave points_worst 0
14 area_se 0 29 symmetry_worst 0
15 smoothness_se 0 30 fractal_dimension_worst 0
จากตารางท 8 พบวาคณลกษณะทมคาน าหนกเปน 0 จะไมไดรบการคดเลอก และจะเลอก
คณลกษณะทมคาน าหนกเทากบ 1 เทานน ซงคณลกษณะทถกเลอกจากเทคนค Forward Selection
ไดแก texture_worst, perimeter_worst และ concavity_worst หลงจากนนจงไดน าคณลกษณะทง 3
มาหาคาความถกตองในการพยากรณการเปนมะเรงเตานมดวยเทคนค SVM โดยการใชโปรแกรม
RapidMiner ในการประมวลผลการพยากรณ
46
ภาพประกอบ 27 ผลการวดประสทธภาพจากการเลอกคณลกษณะดวยเทคนค Forward Selection
จากผลการทดลองดวย 3 คณลกษณะทถกเลอกมาโดยเทคนค Forward Selection คา
ความถกตองในการพยากรณการเปนมะเรงเตานม โดยใชเทคนค SVM ในการท านายความถกตอง
อยทรอยละ 95.07 ดงแสดงในภาพประกอบ 27
47
6. เทคนค Backward Elimination
ในการใชเทคนค Backward Elimination ดวยคณลกษณะทงหมด 30 คณลกษณะ ท าใหได
คณลกษณะทถกเลอกจากผลการทดลองตามตารางท 9 ดงตอไปน
ตารางท 9 คาน าหนกของคณลกษณะจากการใชเทคนค Backward Elimination
No Attribute Weight
No Attribute Weight
1 radius_mean 1 16 compactness_se 1
2 texture_mean 1 17 concavity_se 1
3 perimeter_mean 1 18 concave points_se 0
4 area_mean 0 19 symmetry_se 1
5 smoothness_mean 1 20 fractal_dimension_se 1
6 compactness_mean 1 21 radius_worst 1
7 concavity_mean 1 22 texture_worst 1
8 concave points_mean 1 23 perimeter_worst 1
9 symmetry_mean 1 24 area_worst 0
10 fractal_dimension_mean 1 25 smoothness_worst 1
11 radius_se 1 26 compactness_worst 1
12 texture_se 1 27 concavity_worst 1
13 perimeter_se 1 28 concave points_worst 1
14 area_se 0 29 symmetry_worst 1
15 smoothness_se 1 30 fractal_dimension_worst 1
จากผลการทดลองพบวาม 26 คณลกษณะทถกเลอกมาโดยเทคนค Backward Elimination ซงม
คณลกษณะทไมถกเลอกเพยง 4 คณลกษณะคอ area_mean, area_se, concave points_se และ area_worst หลงจากนนจงไดน าคณลกษณะทง 26 คณลกษณะมาหาคาความถกตองในการ
พยากรณการเปนมะเรงเตานมดวยเทคนค SVM โดยการใชโปรแกรม RapidMiner ในการ
ประมวลผลการพยากรณ
48
ภาพประกอบ 28 ผลการวดประสทธภาพจากการเลอกคณลกษณะดวย
เทคนค Backward Elimination
ผลการทดลองดวย 26 คณลกษณะทถกเลอกมาโดยเทคนค Backward Elimination คาความถกตอง
ในการพยากรณการเปนมะเรงเตานม โดยใชเทคนค SVM ในการท านายความถกตองอยทรอยละ
95.08 ดงแสดงในภาพประกอบ 28
49
7. เทคนค Evolutionary Selection
ในการใชเทคนค Evolutionary Selection ดวยคณลกษณะทงหมด 30 คณลกษณะ ท าใหได
คณลกษณะทถกเลอกจากผลการทดลองตามตารางท 10 ดงตอไปน
ตารางท 10 คาน าหนกของคณลกษณะจากการใชเทคนค Evolutionary Selection
No Attribute Weight No Attribute Weight
1 radius_mean 0 16 compactness_se 1
2 texture_mean 1 17 concavity_se 0
3 perimeter_mean 1 18 concave points_se 0
4 area_mean 0 19 symmetry_se 0
5 smoothness_mean 1 20 fractal_dimension_se 1
6 compactness_mean 0 21 radius_worst 1
7 concavity_mean 1 22 texture_worst 1
8 concave points_mean 1 23 perimeter_worst 1
9 symmetry_mean 1 24 area_worst 0
10 fractal_dimension_mean 1 25 smoothness_worst 0
11 radius_se 0 26 compactness_worst 1
12 texture_se 1 27 concavity_worst 0
13 perimeter_se 1 28 concave points_worst 0
14 area_se 0 29 symmetry_worst 1
15 smoothness_se 0 30 fractal_dimension_worst 0
จากตารางท 10 พบวาคณลกษณะทมคาน าหนกเปน 0 จะไมไดรบการคดเลอก และจะ
เลอกคณลกษณะทมคาน าหนกเทากบ 1 เทานน ซงคณลกษณะทถกเลอกจากเทคนค Evolutionary
Selection ไดแก texture_mean, perimeter_mean, smoothness_mean, concavity_mean, concave
points_mean, symmetry_mean, fractal_dimension_mean, texture_se, perimeter_se,
compactness_se, fractal_dimension_se, radius_worst, texture_worst, perimeter_worst,
compactness_worst และsymmetry_worst หลงจากนนจงไดน าคณลกษณะทง 16 คณลกษณะมา
หาคาความถกตองในการพยากรณการเปนมะเรงเตานมดวยเทคนค SVM โดยการใชโปรแกรม
RapidMiner ในการประมวลผลการพยากรณ
50
ภาพประกอบ 29 ผลการวดประสทธภาพจากการเลอกคณลกษณะดวย
เทคนค Evolutionary Selection
จากผลการวดประสทธภาพการพยากรณโดยการคดเลอกคณลกษณะ 16 คณลกษณะดวย
เทคนค Evolutionary Selection และการหาคาความถกตองในการพยากรณการเปนมะเรงเตานม
ดวยเทคนค SVM จะไดคาความถกตองในการพยากรณการเปนมะเรงเตานมเทากบ 95.26% แสดง
ในภาพประกอบ 29
51
บทท 4
ผลการวเคราะหขอมล
4.1 ผลการวเคราะหขอมล
จากผลการทดลองเพอคดเลอกคณลกษณะทเหมาะสมเพอปรบปรงการพยากรณการเปน
มะเรงเตานมจากการใชขอมลผทดลอง 569 คน จ านวนคณลกษณะของขอมล 32 คณลกษณะ โดย
2 คณลกษณะแรก คอ : หมายเลขประจ าตว และผลการวนจฉย อก 30 คณลกษณะทเหลอเปน
คณลกษณะทางดานกายภาพ จากนนใชเทคนคตางๆในการคดเลอกคณลกษณะทส าคญจ านวน 7
เทคนค ไดแก เทคนค Correlation Based Feature Selection (CFS) เทคนค Information Gain (IG)
เทคนค Gain Ratio (GR) เทคนค Chi-Square เทคนค Forward Selection เทคนค Backward
Elimination และเทคนค Evolutionary Selection เพอน ามาเปรยบเทยบการวดประสทธภาพในการ
ท านายมะเรงเตานม สรปผลการทดลองดงแสดงในภาพประกอบ 30 และ ภาพประกอบ 31
52
ภาพประกอบ 30 แสดงจ านวนคณลกษณะทส าคญทถกคดเลอกในแตละเทคนค 7 เทคนค
จากภาพประกอบ 30 แสดงการเปรยบเทยบจ านวนคณลกษณะจากการคดเลอกดวยเทคนคตางๆทง 7 เทคนค พบวาเทคนคทคดเลอกจ านวนคณลกษณะนอยทสดเพยง 3 คณลกษณะมอย 2 เทคนค ไดแก เทคนค Correlation Based Feature Selection และ เทคนค Forward Selection เทคนคทคดเลอกคณลกษณะทส าคญออกมาจ านวนคณลกษณะนอยรองลงมา 6 คณลกษณะจะมอย 2 เทคนค คอ เทคนค Information Gain และเทคนค Gain Ratio ถดมาเปนเทคนค Chi-Square ทคดเลอกคณลกษณะทส าคญออกมาจ านวนคณลกษณะ 9 คณลกษณะ และเทคนค Evolutionary Selection สามารถคดเลอกคณลกษณะทส าคญออกมาจ านวนคณลกษณะ 16 คณลกษณะ ส าหรบเทคนคทคดเลอกคณลกษณะทส าคญออกมาจ านวนคณลกษณะมากทสด 26 คณลกษณะไดแก Backward Elimination
53
ภาพประกอบ 31 แสดงการเปรยบเทยบการวดประสทธภาพการพยากรณการเปนมะเรงเตานมจาก 7 เทคนคทเลอกใช
จากภาพประกอบ 31 แสดงการเปรยบเทยบการวดประสทธภาพการพยากรณการเปนมะเรงเตานมจากเทคนคตางๆจ านวน 7 เทคนค โดยจากผลการเปรยบเทยบเทคนคทวดประสทธภาพไดสงสดคอเทคนค Evolutionary Selection ซงวดคาประสทธภาพไดถง 95.26% รองลงมาไดแก เทคนค Backward Elimination วดคาประสทธภาพได 95.08% เทคนค Forward Selection วดคาประสทธภาพได 95.07% เทคนค Information Gain เทคนค Gain Ratio และเทคนค Chi-Square ทง 3 เทคนควดคาประสทธภาพได 92.27% เทากน ส าหรบเทคนค Correlation Based Feature Selection วดคาประสทธภาพไดต าสดเพยง 91.22%
54
ภาพประกอบ 32 แสดงจ านวนคณลกษณะและผลการวดประสทธภาพการพยากรณการเปนมะเรงเตานมของเทคนค 7 เทคนค
จากภาพประกอบ 32 แสดงจ านวนคณลกษณะและผลการวดคาความถกตองการพยากรณการเปนมะเรงเตานมจากเทคนคตางๆทเลอกจ านวน 7 เทคนค โดยเทคนค Correlation Based Feature Selection คดเลอกคณลกษณะทส าคญออกมาจ านวน 3 คณลกษณะและน าคณลกษณะทเลอกมาวดคาความถกตองการพยากรณได 91.22% เทคนค Information Gain คดเลอกคณลกษณะทส าคญออกมาจ านวน 6 คณลกษณะและน าคณลกษณะทเลอกมาวดคาความถกตองการพยากรณได 92.27% เทคนค Gain Ratio คดเลอกคณลกษณะทส าคญออกมาจ านวน 6 คณลกษณะและน าคณลกษณะทเลอกมาวดคาความถกตองการพยากรณได 92.27% เทคนค Chi-Square คดเลอกคณลกษณะทส าคญออกมาจ านวน 9 คณลกษณะและน าคณลกษณะทเลอกมาวดคาความถกตองการพยากรณได 92.27% เทคนค Forward Selection คดเลอกคณลกษณะทส าคญออกมาจ านวน 3 คณลกษณะและน าคณลกษณะทเลอกมาวดคาความถกตองการพยากรณได 95.07% เทคนค Backward Elimination คดเลอกคณลกษณะทส าคญออกมาจ านวน 26 คณลกษณะและน าคณลกษณะทเลอกมาวดคาความถกตองการพยากรณได 95.08% และเทคนค Evolutionary Selection คดเลอกคณลกษณะทส าคญออกมาจ านวน 16 คณลกษณะและน าคณลกษณะทเลอกมาวดคาความถกตองการพยากรณได 95.26%
บทท 5
สรป อภปราย และขอเสนอแนะ 5.1 สรปผลการวจย
บทความวจยนไดศกษาเกยวกบการเปรยบเทยบวธการคดเลอกคณลกษณะทส าคญในการปรบปรงการพยากรณมะเรงเตานม โดยใชวธการคดเลอกคณลกษณะทส าคญจากเทคนคตางๆจ านวน 7 เทคนค ไดแก เทคนค Correlation Based Feature Selection เทคนค Information Gain (IG) เทคนค Gain Ratio (GR) เทคนค Chi-Square เทคนค Forward Selection เทคนค Backward Elimination และเทคนค Evolutionary Selection หลงจากนนน าผลการคดเลอกในแตละเทคนค มาค านวณหาคาความถกตองในการพยากรณการเปนมะเรงเตานมดวยเทคนคซพพอรตเวกเตอร แมชชน (Support Vector Machine) จากผลการทดลองในการใชเทคนคซพพอรตเวกเตอรแมชชนวดคาความถกตองในการพยากรณการเปนมะเรงเตานมกบจ านวนคณลกษณะของขอมลทไดจากการเกบมาโดยไมมการลดคณลกษณะเลยจ านวน 30 คณลกษณะ ไดคาความถกตองในการพยากรณการเปนมะเรงเตานมเทากบ 91.39% และจะเหนวาเมอใชเทคนคตางๆในการคดเลอกคณลกษณะทส าคญน ามาวดคาความถกตองในการพยากรณการเปนมะเรงเตานมดวยเทคนคซพพอรตเวกเตอรแมชชนสามารถลดจ านวนคณลกษณะและเพมประสทธภาพในการจ าแนกขอมลดงน เทคนค Correlation Based Feature Selection ลดคณลกษณะทส าคญออกมาเหลอเพยงจ านวน 3 คณลกษณะและใหผลการวดคาความถกตองของการพยากรณได 91.22% เทคนค Information Gain ลดคณลกษณะทส าคญออกมาเหลอเพยงจ านวน 9 คณลกษณะและใหผลการวดคาความถกตองของการพยากรณได 92.27% เทคนค Gain Ratio ลดคณลกษณะทส าคญออกมาเหลอเพยงจ านวน 9 คณลกษณะและใหผลการวดคาความถกตองของการพยากรณได 92.27% เทคนค Chi-Square ลดคณลกษณะทส าคญออกมาเหลอเพยงจ านวน 14 คณลกษณะและใหผลการวดคาความถกตองของการพยากรณได 92.27% เทคนค Forward Selection ลดคณลกษณะทส าคญออกมาเหลอเพยงจ านวน 3 คณลกษณะและใหผลการวดคาความถกตองของการพยากรณได 95.07% เทคนค Backward Elimination ลดคณลกษณะทส าคญออกมาเหลอเพยงจ านวน 26 คณลกษณะและใหผลการวดคาความถกตองของการพยากรณได 95.08% และเทคนค Evolutionary Selection สามารถลดคณลกษณะทส าคญ
56
ออกมาเหลอเพยงจ านวน 16 คณลกษณะและใหผลการวดคาความถกตองของการพยากรณได 95.26% 5.2 อภปรายผล
การวจยนมวตถประสงคเพอศกษาการคดเลอกคณลกษณะทส าคญทใชในการวเคราะหขอมลเพอปรบปรงการพยากรณการเปนมะเรงเตานม โดยมสมมตฐานการวจยวา การคดเลอกคณลกษณะทส าคญจะท าใหจ านวนมตของขอมลทใชในการวเคราะหขอมลลดลง และนาจะมผลในการเพมประสทธภาพการวดคาความถกตองในการพยากรณการเปนมะเรงเตานม จงไดท าการศกษาเปรยบเทยบเทคนคการคดเลอกคณลกษณะทส าคญจ านวน 7 เทคนคไดแก เทคนค Correlation Based Feature Selection เทคนค Information Gain (IG) เทคนค Gain Ratio (GR) เทคนค Chi-Square เทคนค Forward Selection เทคนค Backward Elimination และ เทคนค Evolutionary Selection และใชขอมลในการวเคราะหจาก UCI Machine Learning Repository เปนคนทยงมชวตจ านวน 569 คน จากผลการทดลองถาเราใชขอมลทงหมดโดยไมมการลดจ านวนมตขอมลจะไดคาความถกตองการพยากรณการเปนมะเรงเตานมเทากบ 91.39% ขณะทเมอใชเทคนค Evolutionary Selection สามารถคดเลอกคณลกษณะทส าคญเพอใชในการวเคราะหขอมลเพยง 16 คณลกษณะและใหคาความถกตองการพยากรณการเปนมะเรงเตานมไดดทสดเทากบ 95.26% จะเหนวาการคดเลอกคณลกษณะทส าคญดวยเทคนค Evolutionary Selection สามารถลดมตของขอมลจาก 30 คณลกษณะลงมาเหลอเพยง 16 คณลกษณะ และสามารถเพมความแมนย าในการวดคาความถกตองการพยากรณการเปนมะเรงเตานมจาก 91.39% มาเปน 95.26% 5.3 ขอเสนอแนะ เนองจากเทคนคทใชในการวดคาความถกตองการพยากรณการเปนมะเรงเตานมนอกเหนอจากเทคนคซพพอรตเวกเตอรแมชชน (Support Vector Machine) ยงมอกหลายเทคนค เชน เทคนคตนไมการตดสนใจ (Decision Tree) เทคนคแบบเครอขายใยประสาท (Neural Network) หรอเทคนคแบบเบยส (Bayes Classifier) ดงนนจงเปนสงทนาสนใจในการทดลองเพอดวาเทคนคตางๆจะไดคาความถกตองในการพยากรณเปนอยางไรเมอเทยบกบเทคนคซพพอรตเวกเตอรแมชชน
58
บรรณานกรม
จรา แกวสวรรณ. 2006. “การตรวจจบและการแกไขการวางตวของภาพโดยใชซพพอรตเวกเตอร
แมชชน.”, วทยานพนธปรญญามหาบณฑต สาขาเทคโนโลยคอมพวเตอร คณะครศาสตร
อตสาหกรรม สถาบนเทคโนโลยพระจอมเกลาพระนครเหนอ.
ทรงศกด ภสออน. 2554. การประยกตใช SPSS วเคราะหขอมลงานวจย. มหาสารคาม :
มหาวทยาลยมหาสารคาม.
นธนนท มาตา และคณะ. 2558. “การคนหาปจจยเพอสรางโมเดลส าหรบพยากรณการควบคม
ประตระบายน า.”, การประชมวชาการระดบประเทศดานเทคโนโลยสารสนเทศ ครงท 7.
ระหวางวนท 29-30 ตลาคม 2558 ณ สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง
หนา 352-357.
นภาพร ชนะมาร และพรรณ สทธเดช. 2557. “การวเคราะหปจจยการเรยนรดวยการคดเลอก
คณสมบตและการพยากรณ.”, วารสารมหาวทยาลยราชภฏสกลนคร 6(12), 31-45.
น าทพย มากนคร และมาลรตน โสดานล. 2557. “การเปรยบเทยบวธการเลอกคณลกษณะท
เหมาะสมเพอ การจดหมวดหมเวบเพจผดกฎหมายโดยใชเทคนคการท าเหมองขอมล.”,
ประชมวชาการระดบชาตดานคอมพวเตอรและเทคโนโลยสารสนเทศ ครงท 10. 8 - 9
พฤษภาคม 2557 ณ มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ ภเกต, หนา 168-
173.
พฤฒพงศ เพงศร และคณะ. 2557. “การลดมตขอมลการวเคราะหความสมพนธและการประยกต
ส าหรบวเคราะหขอมลพนฐานการใชงานสมารทโฟน.”, ประชมวชาการระดบชาตดาน
คอมพวเตอรและเทคโนโลยสารสนเทศ ครงท 10. 8 - 9 พฤษภาคม 2557 ณ มหาวทยาลย
เทคโนโลยพระจอมเกลาพระนครเหนอ ภเกต, หนา 528–534.
ภทราวฒ แสงศร. 2553. “การคดแยกประเภทของมะเรงเมดเลอดขาวโดยใชวธการจดอนดบ
รวมกบเทคนคซพพอรตเวกเตอรแมชชน.”, วารสารวจย มข.(บศ.) 10 (2) : เม.ย.-ม.ย. 2553,
หนา 10-17.
59
เอกสทธ พชรวงศศกดา. 2557. การวเคราะหขอมลดวยเทคนค ดาตา ไมนนง เบองตน (An
Introduction to Data Mining Techniques). กรงเทพฯ, หนา 53-57
เอกสทธ พชรวงศศกดา. 2559. Advanced Predictive Modeling with R & RapidMiner Studio
7. พมพครงท 6. กรงเทพฯ: เอเชย ดจตอลการพมพ.
Bing Xue, Mengjie Zhang, Will N. Browne. 2016. “A Survey on Evolutionary Computation
Approaches to Feature Selection.” IEEE Transactions on Evolutionary Computation,
Volume: 20 Issue: 4, Aug. 2016
Brian S. Everitt. 2010. Multivariable Modeling and Multivariate Analysis for The
Behavioral Sciences. Taylor & Francis Group, LLC.
Colin Shearer. 2000. “The CRISP-DM Model : The New Blueprint for Data Mining.”
JOURNAL OF DATA WAREHOUSING, Volume 5 Number 4, Fall 2000 : p13
Galavotti, L., Sebastiani, F. and Simi, M. 2000. “Feature Selection and Negative Evidence in
Automated Text Categorization.”, Proceedings of KDD-00, 2000.
Jaiwei Han, Micheline Kamber, and Jian Pei. 2012. Data Mining Concepts and Techniques.
New York: Elsevier Inc., page 104.
Majid Bahrepour. 2018. “The Forgotten Step in CRISP-DM and ASUM-DM Methodologies.” [online] Available: https://sharing.luminis.eu/blog/the-forgotten-step-in-crisp-dm-and-asum- dm-methodologies/, [Accessed : 14/01/2019]
Mark A. Hall. 1999. “Correlation-based Feature Selection for Machine Learning.” Doctor of
Philosophy. Department of Computer Science, The University of Waikato, Hamilton,
New Zealand.
P.-N. Tan, M. Steinbach, and V. Kumar. 2006. Introduction to data mining. vol. 1: Pearson
Addison Wesley Boston, 2006.
60
ประวตยอผวจย
ชอ นางอจจมา มณฑาพนธ
วน เดอน ปเกด วนท 30 สงหาคม 2501
สถานทเกด กรงเทพมหานคร
สถานทอยปจจบน บานเลขท 1486 ซอยปารชาต ถนนสทธสาร
เขตหวยขวาง กทม. 10310
ต าแหนงหนาทการงานปจจบน อาจารยประจ าสาขาวชาวทยาการคอมพวเตอรประยกต
สถานทท างานปจจบน คณะเทคโนโลยสารสนเทศ มหาวทยาลยศรปทม
บางเขน
ประวตการศกษา พ.ศ. 2523 วท.บ. (สถต) จาก มหาวทยาลยศลปากร
ค.ศ. 1982 M.S. (Computer Science)
Florida Institute of Technology, U.S.A.