71
รายงานการวิจัย เรื่อง การเปรียบเทียบวิธีการคัดเลือกคุณลักษณะที่สาคัญในการปรับปรุง การพยากรณ์มะเร็งเต้านม COMPARISON OF FEATURE SELECTION METHODS TO IMPROVE BREAST CANCER PREDICTION อัจจิมา มณฑาพันธุ งานวิจัยนี้ ได ้รับทุนอุดหนุนการวิจัยจากมหาวิทยาลัยศรีปทุม ปีการศึกษา 2560

COMPARISON OF FEATURE SELECTION METHODS TO IMPROVE BREAST …

  • Upload
    others

  • View
    8

  • Download
    0

Embed Size (px)

Citation preview

1

รายงานการวจย

เรอง

การเปรยบเทยบวธการคดเลอกคณลกษณะทส าคญในการปรบปรง

การพยากรณมะเรงเตานม

COMPARISON OF FEATURE SELECTION METHODS TO IMPROVE

BREAST CANCER PREDICTION

อจจมา มณฑาพนธ

งานวจยน ไดรบทนอดหนนการวจยจากมหาวทยาลยศรปทม

ปการศกษา 2560

2

กตตกรรมประกาศ

รายงานการวจยฉบบนส าเรจและสมบรณเปนรปเลม ดวยความกรณาและเอาใจใสเปน

อยางดจาก ผชวยศาสตราจารย ดร.ชมพล บญคมพรภทร ผทรงคณวฒทไดกรณาใหค าปรกษาและ

แนะแนวทางในการด าเนนการท ารายงานในครงนโดยไมมขอบกพรอง รวมทงขอเสนอแนะและ

ขอคดเหนตางๆ ตลอดท งการตรวจแกไขรายงานฉบบนใหส าเรจสมบรณยง ขน ผ วจ ยจง

ขอขอบพระคณเปนอยางสงไว ณ โอกาสน

ขอขอบพระคณคณครอาจารยทกทานทไดประสทธประสาทวชาความร และประสบการณ

ตลอดจนอ านวยความส าเรจใหบงเกดขน

สดทายนขอขอบพระคณคณาจารยและเจาหนาทคณะเทคโนโลยสารสนเทศ มหาวทยาลย

ศรปทม ทเปนก าลงใจและใหความชวยเหลอในการด าเนนงาน และใหค าแนะน าในการท ารายงาน

การวจยครงนใหส าเรจลลวงดวยดตลอดมา

อจจมา มณฑาพนธ

ผวจย

เมษายน 2562

3

ค าน า

รายงานการวจยฉบบนจดท าขนเพอเปนประโยชนตอผทสนใจศกษาเกยวกบเรองการเปรยบเทยบวธการคดเลอกคณลกษณะทส าคญในการปรบปรงการพยากรณมะเรงเตานม โดยงานวจยฉบบนไดน าเสนอเทคนคตางๆจ านวน 7 เทคนคคอ เทคนค Correlation Based Feature Selection เทคนค Information Gain เทคนค Gain Ratio เทคนค Chi-Square เทคนค Forward Selection เทคนค Backward Elimination และเทคนค Evolutionary Selection ทน ามาใชเพอคดเลอกคณลกษณะทส าคญ หลงจากนนน าผลการคดเลอกคณลกษณะในแตละเทคนคมาค านวณเปรยบเทยบคาประสทธภาพของการพยากรณการเปนมะเรงเตานมดวยเทคนคซพพอรตเวกเตอร แมชชน (Support Vector Machine) เพอดวาเทคนคไหนสามารถคดเลอกคณลกษณะทส าคญซงใหคาประสทธภาพการพยากรณการเปนมะเรงเตานมไดดทสด ผวจยหวงเปนอยางยงวารายงานการวจยฉบบนจะเปนประโยชนตอผทสนใจสามารถน ามาใชประโยชนในการอางองไดตอไป หากมขอบกพรองประการใด ผจดท าขออภยไว ณ โอกาสนดวย

อจจมา มณฑาพนธ

ผวจย

เมษายน 2562

4

หวขอวจย : การเปรยบเทยบวธการคดเลอกคณลกษณะทส าคญในการปรบปรง การพยากรณมะเรงเตานม ผวจย : นางอจจมา มณฑาพนธ

หนวยงาน : มหาวทยาลยศรปทม วทยาเขตบางเขน

ปทพมพ : พ.ศ. 2562

บทคดยอ

งานวจยนไดศกษาเกยวกบการเปรยบเทยบวธการคดเลอกคณลกษณะทส าคญในการปรบปรงการพยากรณมะเรงเตานม มวตถประสงคเพอทจะหาเทคนคการคดเลอกคณลกษณะทส าคญเพอน ามาใชพยากรณมะเรงเตานม โดยใชวธการคดเลอกคณลกษณะจากเทคนคตางๆจ านวน 7 เทคนค ไดแก เทคนค Correlation Based Feature Selection เทคนค Information Gain (IG) เทคนค Gain Ratio (GR) เทคนค Chi-Square เทคนค Forward Selection เทคนค Backward Elimination และเทคนค Evolutionary Selection น าผลทไดจากแตละเทคนคมาค านวณหาคาประสทธภาพในการท านายการเปนมะเรงเตานม ผลการทดลองพบวาเทคนค Evolutionary Selection ไดผลดทสดจากจ านวน 7 เทคนค จากจ านวนคณลกษณะของขอมลทงหมด 30 คณลกษณะ เทคนค Evolutionary Selection สามารถลดคณลกษณะทส าคญเหลอเพยง 16 คณลกษณะ ซงใหผลการวดคาความถกตองในการพยากรณไดดถง 95.26% ค าส าคญ : การคดเลอกคณลกษณะ การพยากรณมะเรงเตานม ซพพอรตเวกเตอรแมชชน เทคนคการคดเลอกแบบอโวลชนนาร

5

Research Title : Comparison of Feature Selection Methods to Improve Breast Cancer Prediction. Name of Researcher : Mrs. Ajjima Montaphan Name of Institution : Sripatum University, Bangkhen Campus

Year of Publication : B.E. 2562

ABSTRACT

This study investigated the comparison of feature selection methods to improve breast cancer prediction. The purpose is to find the key feature selection techniques to improve the predictability of breast cancer using 7 techniques such as Correlation Based Feature Selection (CFS) Technique, Information Gain (IG) Technique, Gain Ratio (GR) Technique, Chi-Square Technique, Forward Selection Technique, Backward Elimination Technique, and Evolutionary Selection Technique. The results of each technique were used to calculate the predictive value of breast cancer and show that the Evolutionary Selection technique has the best effect of 7 techniques from a total of 30 data attributes. The Evolutionary Selection technique significantly reduces to 16 significant attributes, which provides a good predictive accuracy of 95.26%. Keywords : Feature Selection, Breast Cancer Predictions, Support Vector Machine, Evolutionary Selection Technique

6

สารบญ

บทท หนา

1 บทน า ............................................................................................................................ 1

1.1 ความเปนมาและความส าคญของปญหา .................................................... 1

1.2 วตถประสงคของการวจย .......................................................................... 2

1.3 ค าถามการวจย ........................................................................................... 2

1.4 สมมตฐานการวจย ..................................................................................... 2

1.5 ขอบเขตของการวจย .................................................................................. 3

1.6 นยามศพท ................................................................................................. 3

2 วรรณกรรมทเกยวของ .................................................................................................. 5

2.1 ความรพนฐาน ........................................................................................... 5

2.2 ทฤษฎทรองรบเรองทวจย .......................................................................... 8

2.3 ผลการวจยทเกยวของ ................................................................................ 17

3 ระเบยบวธวจย .............................................................................................................. 18

3.1 ขนตอนการด าเนนงานวจย ..................................................................... 18

3.1.1 จดหาขอมลและเตรยมขอมล .................................................................. 20

3.1.2 การวเคราะหขอมลดวยโปรแกรม RapidMiner ...................................... 25

3.2 ผลการทดลอง............................................................................................ 26

4 ผลการวเคราะหขอมล ................................................................................................... 51

4.1 ผลการวเคราะหขอมล ............................................................................... 51

7

สารบญ (ตอ)

บทท หนา

5 สรป อภปราย และขอเสนอแนะ .................................................................................. 55

5.1 สรปผลการวจย.......................................................................................... 55

5.2 อภปรายผล ................................................................................................ 56

5.3 ขอเสนอแนะ ............................................................................................. 56

บรรณานกรม .............................................................................................................................. 57

ประวตยอผวจย ........................................................................................................................... 60

8

สารบญตาราง

ตารางท หนา

1 คาน าหนกของคณลกษณะจากการใชเทคนค CBF ....................................................... 26 2 คาน าหนกของคณลกษณะจากการใชเทคนค IG ........................................................... 31 3 คาความถกตองของการพยากรณการเปนมะเรงเตานมตามจ านวนคณลกษณะทใช

ดวยเทคนค IG .............................................................................................................. 33 4 คาน าหนกของคณลกษณะจากการใชเทคนค GR ......................................................... 36 5 คาความถกตองของการพยากรณการเปนมะเรงเตานมตามจ านวนคณลกษณะทใช

ดวยเทคนค GR ............................................................................................................. 37 6 คาน าหนกของคณลกษณะจากการใชเทคนค Chi Squared ........................................... 40 7 คาความถกตองของการพยากรณการเปนมะเรงเตานมตามจ านวนคณลกษณะทใช

ดวยเทคนค Chi Squared ............................................................................................... 41 8 คาน าหนกของคณลกษณะจากการใชเทคนค Forward Selection ................................. 45 9 คาน าหนกของคณลกษณะจากการใชเทคนค Backward Elimination ........................... 47 10 คาน าหนกของคณลกษณะจากการใชเทคนค Evolutionary Selection .......................... 49

9

สารบญภาพประกอบ

ภาพประกอบ หนา

1 The CRISP-DM Reference Model ............................................................................... 6

2 การคดเลอกคณลกษณะแบบ Filter Approach .............................................................. 8

3 การคดเลอกคณลกษณะแบบ Wrapper Approach ......................................................... 9

4 Greedy (heuristic) methods for attribute subset selection ............................................ 12

5 ต าแหนงขอมลสองกลมในฟเจอรสเปซ (Feature Space) .............................................. 14

6 แสดงขนตอนการด าเนนการวจย .................................................................................. 19

7 แสดงขอมลสรปทน ามาใชในการพยากรณ .................................................................. 20

8 การแสดงรายละเอยดและลกษณะของขอมลแตละคณลกษณะในกลมคาเฉลย ............ 23

9 การแสดงรายละเอยดและลกษณะของขอมลแตละคณลกษณะในกลมความคลาดเคลอน

มาตรฐาน ................................................................................................................... 24

10 การแสดงรายละเอยดและลกษณะของขอมลแตละคณลกษณะในกลมคาทแยทสด ..... 24

11 ภาพรวมแสดงการพยากรณการเปนมะเรงเตานมดวยเทคนค SVM ดวยโปรแกรม

RapidMiner ............................................................................................................... 27

12 การเลอกคณลกษณะทไดรบการคดเลอกเขาประมวลผล .............................................. 28

13 กระบวนการในการท า Validation การประมวลผลดวย SVM ...................................... 28

14 ก าหนดคาพารามเตอรใหกบ SVM ............................................................................... 29

15 ก าหนดคาพารามเตอรในการท า Cross validation ........................................................ 29

10

สารบญภาพประกอบ (ตอ)

ภาพประกอบ หนา

16 ผลการวดประสทธภาพจากการเลอกคณลกษณะของเทคนค CBF ............................... 30

17 ตวอยางการเลอกคณลกษณะโดยการตดคณลกษณะทมคาน าหนกนอยทสดออกของ

เทคนค IG .................................................................................................................. 32

18 ผลการวดประสทธภาพจากการตดคณลกษณะทมคาน าหนกนอยทสดออกของ

เทคนค IG ................................................................................................................... 33

19 การน า 6 คณลกษณะทไดรบการคดเลอกเขาประมวลผลของเทคนค IG ...................... 34

20 ผลการวดประสทธภาพจากการเลอก 6 คณลกษณะของเทคนค IG............................... 35

21 ตวอยางการเลอกคณลกษณะโดยการตดคณลกษณะทมคาน าหนกนอยทสดออกของ

เทคนค GR ................................................................................................................. 38

22 ผลการวดประสทธภาพจากการตดคณลกษณะทมคาน าหนกนอยทสดออกของ

เทคนค GR .................................................................................................................. 39

23 ตวอยางการเลอกคณลกษณะโดยการตดคณลกษณะทมคาน าหนกนอยทสด

ออกดวยเทคนค Chi Squared..................................................................................... 42

24 ผลการวดประสทธภาพจากการตดคณลกษณะทมคาน าหนกนอยทสดออกดวย

เทคนค Chi Squared .................................................................................................... 43

25 การน า 9 คณลกษณะทไดรบการคดเลอกเขาประมวลผลของเทคนค Chi Squared....... 44

11

สารบญภาพประกอบ (ตอ)

ภาพประกอบ หนา

26 ผลการวดประสทธภาพจากการเลอก 9 คณลกษณะดวยเทคนค Chi Squared ............... 44

27 ผลการวดประสทธภาพจากการเลอกคณลกษณะดวยเทคนค Forward Selection ......... 46

28 ผลการวดประสทธภาพจากการเลอกคณลกษณะดวยเทคนค Backward

Elimination ................................................................................................................ 48

29 ผลการวดประสทธภาพจากการเลอกคณลกษณะดวยเทคนค Evolutionary

Selection .................................................................................................................... 50

30 แสดงจ านวนคณลกษณะทส าคญทถกคดเลอกในแตละเทคนค 7 เทคนค .................... 52

31 แสดงการเปรยบเทยบการวดประสทธภาพการพยากรณการเปนมะเรงเตานมจาก 7

เทคนคทเลอกใช ........................................................................................................ 53

32 แสดงจ านวนคณลกษณะและผลการวดประสทธภาพการพยากรณการเปนมะเรง

เตานมของเทคนค 7 เทคนค ....................................................................................... 54

1

บทท 1

บทน า

1.1 ความเปนมาและความส าคญของปญหา

การท าเหมองขอมล (Data Mining) เปนกระบวนการคนรปแบบ หรอความสมพนธทมประโยชนจากขอมลทเกบรวบรวมมาในอดต โดยใชโมเดลตางๆ เพอน ามาใชท านายหรอพยากรณการเกดเหตการณในอนาคต การท าเหมองขอมลมกระบวนการตามมาตรฐานอตสาหกรรม (CRIPS-DM: Cross-Industry Standard Process for Data Mining) ทประกอบดวยขนตอนส าคญๆ 6 ขนตอนคอ

1) ท าความเขาใจปญหา (Business Understanding) ระบเปาหมายทตองการจากการวเคราะหขอมลดวยการท าเหมองขอมล

2) ท าความเขาใจในขอมล (Data Understanding) รวบรวมขอมลทเกยวของ ท าความเขาใจในขอมล ส ารวจความถกตองและจ านวนของขอมลใหมรายละเอยดเพยงพอกบการวเคราะห

3) การเตรยมขอมล (Data Preparation) ขนตอนนจะท าการคดเลอกขอมล โดยจะเลอกเฉพาะขอมลทเกยวของกบสงทตองการวเคราะห ท าการลบขอมลทซ าซอน แกไขขอมลทผดพลาด แปลงรปแบบขอมลใหอยในรปแบบทพรอมจะน าไปวเคราะห

4) การสรางแบบจ าลอง (Modeling) เปนการสรางแบบจ าลองวเคราะหขอมลดวยเทคนคเหมองขอมล โดยแบบจ าลองจะขนอยกบวตถประสงคของการวเคราะหขอมล การเลอกขอมลและปรบพารามเตอรของเทคนคเหมองขอมลเพอใหไดประสทธภาพทด

5) การประเมนวดประสทธภาพของแบบจ าลอง (Evaluation) ขนตอนนจะท าการวดประสทธภาพของแบบจ าลองทสรางขนเพอความถกตอง เพอทจะไดเลอกแบบจ าลองทเหมาะสมทสดไปใชงาน

6) การน าแบบจ าลองไปใชงานจรง (Deployment) เปนการน าแบบจ าลองไปใชงานจรงเพอใหบรรลวตถประสงคของการท าเหมองขอมล

2

โดยในงานวจยฉบบนจะใชเทคนคการท าเหมองขอมล มาปรบปรงการพยากรณการเปนโรคมะเรงเตานม โดยเนนการคดเลอกคณลกษณะ (Feature Selection) ซงอยในขนตอนท 3 (การเตรยมขอมล) ของการท าเหมองขอมล การคดเลอกคณลกษณะเปนเทคนคทชวยลดจ านวนมตทใชในแบบจ าลองใหลดลง ซงเปนขนตอนทส าคญทจะท าใหผลการวเคราะหขอมลมประสทธภาพมากขน

1.2 วตถประสงคของการวจย

การวจยนเปนการวจยองคความร เพอท าการคดเลอกคณลกษณะทส าคญในการวเคราะหขอมลเพอลดจ านวนมตทใชในการปรบปรงการพยากรณการเปนมะเรงเตานม โดยท าการเปรยบเทยบเทคนคทใชในการคดเลอกคณลกษณะทมความส าคญในการวเคราะหขอมล โดยเทคนคทใชในการวจยครงนม 7 แบบคอ เทคนค Correlation Based Feature Selection (CFS) เทคนค Information Gain (IG) เทคนค Gain Ratio (GR) เทคนค Chi-Square เทคนค Forward Selection เทคนค Backward Elimination และเทคนค Evolutionary Selection และใชเทคนค ซพพอรตเวกเตอรแมชชน (Support Vector Machine) ในการจ าแนกขอมลของการเปนมะเรงเตานมหรอการไมเปนมะเรงเตานม

1.3 ค าถามการวจย

ค าถามการวจยไดก าหนดขนตามวตถประสงคของการวจยคอ 1) ในการลดจ านวนคณลกษณะของขอมลทใชในการวเคราะหขอมลโดยเทคนค

Correlation Based Feature Selection (CFS) เทคนค Information Gain (IG) เทคนค Gain Ratio (GR) เทคนค Chi-Square เทคนค Forward Selection เทคนค Backward Elimination และเทคนค Evolutionary Selection เทคนคไหนจะมความสามารถในการลดจ านวนคณลกษณะทใชในการวเคราะหขอมลมากทสด และมประสทธภาพในการวเคราะหขอมลสงสด

2) การลดจ านวนคณลกษณะโดยใชเทคนคขางตน จะสามารถเพมประสทธภาพในการวเคราะหขอมล เมอเทยบกบการไมลดจ านวนคณลกษณะในการวเคราะหขอมลหรอไมอยางไร

3

1.4 สมมตฐานการวจย

การคดเลอกคณลกษณะทส าคญในการวเคราะหขอมล ท าใหจ านวนมตของขอมลทใชในการวเคราะหขอมลลดลง นาจะมผลในการเพมประสทธภาพการวดคาความถกตองในการพยากรณการเปนมะเรงเตานม 1.5 ขอบเขตของการวจย

การวจยจะทดสอบท าการเปรยบเทยบเทคนค เทคนค Correlation Based Feature Selection (CFS) เทคนค Information Gain (IG) เทคนค Gain Ratio (GR) เทคนค Chi-Square เทคนค Forward Selection เทคนค Backward Elimination และเทคนค Evolutionary Selection เพอวดประสทธภาพในการพยากรณการเปนมะเรงเตานม โดยเปรยบเทยบกบการใชขอมลทงหมดทไมมการลดจ านวนมตลง เทคนคซพพอรตเวกเตอรแมชชน (Support Vector Machine) จะถกน ามาใชในการจ าแนกขอมลของการเปนมะเรงเตานมหรอการไมเปนมะเรงเตานม โดยก าหนดระยะเวลาไว 1 ป

1.6 นยามศพท

1.6.1 การท าเหมองขอมล (Data Mining) หมายถงกระบวนการทกระท ากบขอมล(โดยสวนใหญจะมจ านวนมาก) เพอคนหารปแบบ แนวทาง และความสมพนธทซอนอยในชดขอมลนน โดยอาศยหลกสถต การรจ า การเรยนรของเครอง และหลกคณตศาสตร

1.6.2 การคดเลอกคณลกษณะ (Feature Selection) หมายถง การลดขนาดหรอมตของขอมลและยงคงลกษณะส าคญของขอมล

1.6.3 Correlation Based Feature Selection (CFS) หมายถงเทคนคทใชการหากลมคณลกษณะทไดรบการประเมนคาจากความสามารถในการคาดการณ โดยคณลกษณะทถกคดเลอกใชส าหรบการจ าแนกประเภทของขอมล

1.6.4 Information Gain (IG) หมายถงเทคนคการพจารณาจากคาความนาจะเปนของแตละคณลกษณะทเปนไปไดแลววดคาความไรระเบยบ (Entropy) เพอคดเลอกคณลกษณะทมความส าคญในการจ าแนกกลมไดดทสด

1.6.5 Gain Ratio (GR) หมายถงเทคนคการวดจ านวนบตของขอมล เพอใชในการท านายคาดเดาจ าแนกประเภทของขอมล

4

1.6.6 Chi Square หมายถงเทคนคการวดโดยการใชสถตประมาณความสมพนธรวมระหวางคณลกษณะ เฉพาะกบคลาสของคณลกษณะเฉพาะ

1.6.7 Forward Selection เปนเทคนคทใชโดยการเพมคณลกษณะทละ 1 คณลกษณะ ถาคณลกษณะทใสเพมใหประสทธภาพทดกจะเกบไวและเลอกคณลกษณะอนๆมาเพมตอไป จนประสทธภาพของโมเดลไมไดดขนกจะหยดท างาน

1.6.8 Backward Elimination เปนเทคนคทใชโดยการลดคณลกษณะ (Backward Elimination) เรมตนดวยคณลกษณะทงหมดกอน และตดคณลกษณะทไมส าคญทงไปทละคณลกษณะถาประสทธภาพดขนกตดคณลกษณะอนๆตอไป จนกวาจะพบวาคณลกษณะนนมผลท าใหประสทธภาพลดลงอยางมนยส าคญทางสถต

1.6.9 Evolutionary Selection เปนการคดเลอกคณลกษณะ โดยวธการสมเลอกคณลกษณะซงเปนตวแปรพยากรณเขามาในสมการทละตว และท าการทดสอบหาประสทธภาพในการพยากรณค าตอบ หากคาประสทธภาพในการคาดการณสงขนจะเกบคณลกษณะนนไว แลวท าการสมเลอกคณลกษณะอนเขาไปเพม หากคาประสทธภาพต าลงกจะถอดคณลกษณะนนออก

1.6.10 ซพพอรตเวกเตอรแมชชน (Support Vector Machine) หมายถงวธการเรยนรแบบมผสอน ใชเพอการแบงประเภทขอมล

1.6.11 กระบวนการมาตรฐานอตสาหกรรมส าหรบเหมองขอมล (Cross-Industry Standard

Process for Data Mining, CRIPS-DM ) หมายถงกระบวนการมาตรฐานในการวเคราะห

ขอมลดานเหมองขอมล

5

บทท 2

วรรณกรรมทเกยวของ

2.1 ความรพนฐาน

ในการท าเหมองขอมลและการเรยนรการแกปญหาดวยคอมพวเตอรในโลกแหงความ

เปนจรงมกเกยวของกบขอมลทก าลงเรยนรจ านวนมาก อยางไรกตามขอมลบางอยางไมมความ

จ าเปน เนองจากมความซ าซอนหรอแมกระทงไมเกยวของ ซงอาจลดประสทธภาพในการ

ประมวลผลขอมลจากการท าเหมองขอมล หรออาจไดผลไมเปนไปตามวตถประสงค ดงนน

การเลอกขอมลจงเปนสงจ าเปนโดยเฉพาะการเลอกขอมลใหไดตามคณลกษณะทตองการ การ

เลอกคณลกษณะขอมลนอกจากชวยการแกปญหาการประมวลผลขอมลจ านวนมากทไมจ าเปน

ยงสามารถลดมตของขอมลเปนการเรงกระบวนการเรยนรท าใหรปแบบการเรยนรงายขน และ

เพมประสทธภาพการประมวลผลขอมลไดเปนอยางด

การท าเหมองขอมล (Data Mining) เปนกระบวนการคนรปแบบหรอความสมพนธทมประโยชนจากขอมลทเกบรวบรวมมาในอดต โดยใชโมเดลตางๆ เพอน ามาใชท านายหรอพยากรณการเกดเหตการณในอนาคต โดยมกระบวนการตามมาตรฐานอตสาหกรรม (CRIPS-DM: Cross-Industry Standard Process for Data Mining) ประกอบดวยขนตอนส าคญๆ 6 ขนตอน ตามทแสดงในภาพประกอบ 1

6

ภาพประกอบ 1 The CRISP-DM Reference Model

ทมา : https://sharing.luminis.eu/blog/the-forgotten-step-in-crisp-dm-

and-asum-dm-methodologies/

1. ท าความเขาใจปญหา (Business Understanding) ระบเปาหมายทตองการจากการวเคราะห และวางแผนด าเนนการ ซงในขนตอนนถอวาเปนการท าความเขาใจธรกจ ท าความเขาใจวตถประสงคของโครงการจากมมมองทางธรกจ การแปลงความรเปนขอมลเพอแกปญหาดวยการท าเหมองขอมล การพฒนาแผนขนตน การออกแบบเพอใหบรรลวตถประสงค และเพอใหเขาใจวาขอมลใดควรไดรบการวเคราะห ขอมลใดมความส าคญอยางไร การประเมนสถานการณ การก าหนดเปาหมายการท าเหมองขอมลและการสรางแผนโครงการ การก าหนดวตถประสงคทางธรกจ การท าความเขาใจเปาหมายทแทจรงของลกคาเปนสงส าคญส าหรบการคนพบปจจยส าคญทเกยวของกบโครงการทวางแผนไว และเพอใหมนใจวานกวเคราะหไดคนพบวตถประสงคทางธรกจหลก รวมทงค าถามทเกยวของกบธรกจทตองการ

2. ท าความเขาใจในขอมล (Data Understanding) รวบรวมขอมลทเกยวของ ท าความเขาใจในขอมล ส ารวจความถกตองและจ านวนของขอมลใหมรายละเอยดเพยงพอกบการวเคราะหขนตอนนนกวเคราะหจะท าความเขาใจกบขอมล ดวยการรวบรวม และอธบายขอมลเบองตน จากนนจะท าการส ารวจขอมลและการตรวจสอบคณภาพขอมล

7

ระบปญหาคณภาพขอมลเพอคนหาขอมลเชงลก รวมทงการรวบรวมและการบรณาการขอมลจากหลายแหลงในกรณทจ าเปน

3. การเตรยมขอมล (Data Preparation) ขนตอนนจะท าการคดเลอกขอมล โดยจะเลอกเฉพาะขอมลทเกยวของกบสงทตองการวเคราะห ท าการลบขอมลทซ าซอน แกไขขอมลทผดพลาด แปลงรปแบบขอมลใหอยในรปแบบทพรอมจะน าไปวเคราะห การเตรยมขอมลจะครอบคลมกจกรรมทงหมดเพอสรางชดขอมลสดทายหรอขอมลทจะปอนลงในแบบจ าลองจากขอมลดบเรมตน ซงจะรวมถงการบนทกขอมลและการเลอกคณลกษณะบวต การแปลงและการท าความสะอาดขอมลส าหรบเครองมอการสรางแบบจ าลอง โดยมหาขนตอนในการเตรยมท าขอมล ไดแก การเลอกขอมล การท าความสะอาดขอมล การสรางขอมล การรวมขอมล และการจดรปแบบขอมล เลอกขอมล เปนการตดสนใจเกยวกบขอมลทจะใชในการวเคราะห ซงขนอยกบเกณฑหลายประการ รวมถงความเกยวของกบเปาหมายการท าเหมองขอมล ขอจ ากดดานคณภาพของขอมลทมผลโดยตรงกบผลลพธทได เทคนค และปรมาณขอมลหรอชนดขอมล สวนหนงของกระบวนการคดเลอกขอมลควรเกยวของกบการอธบายวาเหตใดขอมลบางอยางถกรวมหรอควรตดออก หรอคณลกษณะไหนมความส าคญมากกวาคณลกษณะอน

4. การสรางแบบจ าลอง (Modeling) เปนการสรางแบบจ าลองวเคราะหขอมลดวยเทคนคเหมองขอมล โดยแบบจ าลองจะขนอยกบวตถประสงคของการวเคราะหขอมล การเลอกขอมลและปรบพารามเตอรของเทคนคเหมองขอมลเพอใหไดประสทธภาพทด ดงนนในขนตอนนจงเปนการเลอกเทคนค เพอการสรางแบบจ าลอง

5. การประเมนวดประสทธภาพของแบบจ าลอง (Evaluation) ขนตอนนจะท าการวดประสทธภาพของแบบจ าลองทสรางขนเพอความถกตอง เพอทจะไดเลอกแบบจ าลองทเหมาะสมทสดไปใชงาน

6. การน าแบบจ าลองไปใชงานจรง (Deployment) เปนการน าแบบจ าลองไปใชงานจรงเพอใหบรรลวตถประสงคของการท าเหมองขอมล

โดยในงานวจยชนนจะใชเทคนคการท าเหมองขอมล มาท านายการเปนโรคมะเรงเตานม โดยเนนการคดเลอกคณลกษณะ (Feature Selection) ซงอยในขนตอนท 3 (การเตรยมขอมล) ของการท าเหมองขอมล การคดเลอกคณลกษณะเปนเทคนคทส าคญและจ าเปน เนองจากสามารถชวยลดจ านวนมตทใชในแบบจ าลองใหลดลง ซงจะเปนผลท าใหการวเคราะหขอมลมประสทธภาพมากขน

8

2.2 ทฤษฎทรองรบเรองทวจย

การคดเลอกคณลกษณะทส าคญ เปนการคดเลอกเซตของคณลกษณะเฉพาะใหมจากเซต

ของคณลกษณะเดม โดยจะเปนเซตยอยของเซตคณลกษณะเดม เพอเพมประสทธภาพในการ

ท านายและการท างานใหเรวขน เนองจากบางคณลกษณะเดมทไมมความส าคญหรอม

ความส าคญนอยไดถกคดเลอกทงไป การคดเลอกคณลกษณะทส าคญสามารถแบงออกเปน 2

วธไดแก

Filter Approach เปนวธทพยายามคดเลอกคณลกษณะทส าคญ โดยการค านวณคาน าหนก

หรอคาความสมพนธของแตละคณลกษณะ โดยเลอกเฉพาะคณลกษณะทมความส าคญเกบ

เอาไว เชนเทคนค Correlation Based Feature Selection (CFS) เทคนค Information Gain (IG)

เทคนค Gain Ratio (GR) เทคนค Chi-Square

ภาพประกอบ 2 การคดเลอกคณลกษณะแบบ Filter Approach

ทมา : Mark A. Hall, 1999

Wrapper Approach เปนวธคดเลอกคณลกษณะทส าคญ โดยการค านวณคาน าหนกการวด

คาความถกตองในการแบงกลมขอมล มาสรางเซตของคณลกษณะใหม โดยการเพมหรอลด

จ านวนคณลกษณะจากเซตเดม เชนเทคนค Forward Selection เทคนค Backward Elimination

เทคนค Evolutionary Selection

9

ภาพประกอบ 3 การคดเลอกคณลกษณะแบบ Wrapper Approach

ทมา : Mark A. Hall, 1999

2.2.1 เทคนค Correlation Based Feature Selection (CFS)

เทคนค Correlation Based Feature Selection (CFS) เปนเทคนคในการเลอกคณสมบตของคณลกษณะโดยใชการพจารณาบนพนฐานความสมพนธ (Correlation-Based Feature Selection : CFS) ของกลมคณลกษณะทไดจากการประเมนคาจากความสามารถในการคาดการณ คณลกษณะทถกคดเลอกใชส าหรบจ าแนกประเภทขอมล และยงสามารถจดการกบคณลกษณะทไมเกยวของ CFS จะจดอนดบกลมยอยของมตขอมล ท าการคดเลอกกลมยอยของมตขอมลทมความสมพนธกนสงกบคลาส และไมมความสมพนธกบคลาสอนๆ ส าหรบมตขอมลทไมเกยวของหรอมความสมพนธต ากบคลาสจะถกลบทง มตขอมลทซ าซอนจะถกขจดออกไปจากกลมมตขอมลทมความสมพนธสง สมการประเมนกลมยอยของมตขอมลแบบ CFS แสดงในสมการท (1) (ภทราวฒ แสงศร, 2553)

𝑀𝑠 = 𝑘𝑟𝑐𝑓

√𝑘+𝑘(𝑘−1)𝑟𝑓𝑓 (1)

โดยท 𝑀𝑠 คอคาทคนหาไดของมตขอมลกลมยอย S ซงประกอบดวยมตขอมล K

𝑟𝑐𝑓 คอคาเฉลยความสมพนธของตวแปรกบคลาส (𝑓 ∈ 𝑠)

𝑟𝑓𝑓 คอคาเฉลยความสมพนธระหวางมตขอมล

10

2.2.2 เทคนค Information Gain (IG)

เทคนค Information Gain (IG) เปนเทคนคทใชในการชวดเพอเลอกคณลกษณะขอมลทตองการทนอยทสดทเหมาะสมในการน าไปใชระบ โดยการค านวณหาคา Gain ส าหรบแตละมตขอมล ซงมตขอมลใดมคา Gain สงสด จะถกคดเลอกเพอน ามาใชระบ สมการท 2 แสดงการค านวณคา Information Gain หรอคา Entropy ของชดขอมลทงหมด สมการท 3 แสดงการค านวณคา Entropy ของชดมตขอมลในแตละคณลกษณะ สมการท 4 เปนการค านวณหาคา Information

Gain ส าหรบการพจารณามตขอมลคณลกษณะ A

𝐸(𝐷) = − ∑ 𝑝𝑖𝑛𝑖=1 log2(𝑝𝑖) (2)

𝐸𝐴(𝐷) = ∑|𝐷𝑗|

𝐷𝑚𝑗=1 × 𝐸(𝐷𝑗) (3)

Gain(A) = E(D) - E𝐴(D) (4)

โดยท pi คอ คาความนาจะเปนทเรคคอรดหนงๆจะมหมวดหมของขอมล

หรอกลาววา การค านวณคา Information Gain คอการวดคา Entropy กอนทจะมการแบง

ขอมลออกตามมตขอมลและหลงการแบงวามประสทธภาพดขนหรอไม ถามประสทธภาพดขนคา

Information Gain จะมคาสง

2.2.3 เทคนค Gain Ratio (GR)

เทคนค Gain Ratio (GR) เปนตวชวดการแบงชดขอมลออกเปนชดขอมลยอยทพฒนามาจาก Information Gain เนองจากการใช Information Gainในการแบงชดขอมลจะมโอกาสท าใหเกดความเอนเอยงขน เมอคณลกษณะทท าการพจารณาไดคา gain ทสงเปนจ านวนมาก ท าใหคณลกษณะทถกคดเลอกไมถกตอง ตวอยางเชนพจารณาคณลกษณะทท าหนาทเปนตวระบเฉพาะเชนรหสผลตภณฑ การแยกรหสผลตภณฑจะสงผลใหมชดขอมลยอยจ านวนมาก แตละชดขอมลยอยมเพยงหนง record ซงเมอน ามาหาคา Information Gain จะไดคาทสงจ านวนมากนนเอง

11

จากความเอนเอยง ท าใหมการพฒนาตวชวดการแบงขอมลใหมทชอเรยกวา Gain Ratio โดยการประยกตใชการท านอรมลไลซคา Information Gain ดวยการใชคา “Split Information” ซงสามารถค านวณไดดงสมการท 5

𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜𝐴(𝐷) = − ∑|𝐷𝑗|

|𝐷|𝑚𝑗=1 x log2

|𝐷𝑗|

|𝐷| (5)

โดยคา SplitInfoA(D) หมายถงปรมาณขอมลทถกพจารณาโดยการแบงขอมลในชดขอมล D ออกเปน m ชดขอมลยอยตามคาคณลกษณะ 𝐴 โดยหลงจากท าการค านวณหาคา SplitInfoA(D) แลว เราจะสามารถค านวณหาคา Gain Ratio ไดดงสมการท 6

𝐺𝑎𝑖𝑛𝑅𝑎𝑡𝑖𝑜(𝐴) = 𝐺𝑎𝑖𝑛(𝐴)

𝑆𝑝𝑙𝑖𝑡𝐼𝑛𝑓𝑜(𝐴) (6)

2.2.4 เทคนค Chi-Square

Chi Squared (𝑥2) การประเมนคาของคณลกษณะโดยการใชการค านวณคา Chi-Square ทาง

สถต เพอศกษา วาการแจกแจงความถของตวแปรคณลกษณะเปนไปตามรปแบบทก าหนดไว

หรอไม ดงแสดงใน สมการท 7

𝑥2 = ∑(𝑂𝑖−𝐸𝑖)2

𝐸𝑖

𝑛𝑖=1 (7)

โดยท O1 , O2 … On เปนความถของตวแปรทไดจากการศกษา

E1 , E2 … En เปนความถทคาดหวง (หรอความถทควรจะเปน)

2.2.5 เทคนค Forward Selection

เทคนค Forward Selection เปนเทคนคทใชวธการคดเลอกคณลกษณะซงเปนตวแปรอสระเขามาในสมการทละตว ขนแรกพจารณาจากคาสมบรณของสมประสทธสหสมพนธ (Correlation Coefficient) ระหวางตวแปรตามกบตวแปรอสระทใหคาสงสด หากตวแปรอสระตวนนมคณสมบตตามเกณฑการน าเขา กจะถกน าเขาสมการ หลงจากนนเปนการพจารณาสมประสทธสหสมพนธบางสวนระหวางตวแปรตามกบตวแปรอสระทไมอยในสมการถดถอยทละตว ตวแปรอสระทมคาสมบรณของสมประสทธสหสมพนธบางสวนสงสดจะถกน าเขาสมการ หากตวแปรนนมคณสมบตตามเกณฑการน าเขา ขนตอนจะท าซ าจนกระทงพบวาไมสามารถน าตวแปรอสระเขาสมการได จงหยด

12

2.2.6 เทคนค Backward Elimination

เทคนค Backward Elimination เปนเทคนคทพยายามคดเลอกตวแปรทดทสดและไดโมเดลประหยดในการพยากรณเชนเดยวกน โดยในตอนแรกจะน าตวแปรพยากรณทกตวเขามาในสมการและด าเนนการพจารณาตวแปรพยากรณทมคาสมประสทธสหสมพนธบางสวน (Partial Correlation) กบตวแปรเกณฑ และควบคมอทธพลของตวแปรพยากรณอนๆ ซงมคาต าทสดออกจากสมการ แลวจงด าเนนการทดสอบวา คา R2 ลดลงอยางมนยส าคญทางสถตหรอไม ถาพบวาลดลงอยางไมมนยส าคญทางสถตแสดงวาตวแปรดงกลาวไมไดมสวนท าใหการพยากรณตวแปรเกณฑเพมขนเลย แสดงวาสามารถขจดออกจากสมการได จากนนจงด าเนนการขจดตวแปรพยากรณทมความส าคญนอยรองลงมาออกไปอก โดยใชวธพจารณาเชนเดยวกนซงการขจดตวแปรพยากรณจะสนสดเมอพบวามผลท าใหคา R2 ลดลงอยางมนยส าคญทางสถต หมายความวา ตวแปรดงกลาวมความส าคญตอการพยากรณตวแปรตาม หากขจดตวแปรดงกลาวออกจากสมการจะท าใหอ านาจการพยากรณตวแปรเกณฑลดลงจงตองคงตวแปรพยากรณดงกลาวไวในสมการพยากรณตอไป (ทรงศกด ภสออน. 2554 : 283 ; Brian S. Everitt. 2010 : 93)

Backward elimination คอการน าตวแปรอสระทงหมดเขาสสมการ หลงจากนนจะคดตวแปรอสระทมความสมพนธกบตวแปรตามนอยทสดออกจากสมการ ด าเนนการซ าจนไมสามารถคดตวแปรอสระออกจากสมการถดถอยได กจะเหลอสมการถดถอยทตวแปรอสระมความความสมพนธกบตวแปรตามเทานน

ภาพประกอบ 4 Greedy (heuristic) methods for attribute subset selection.

ทมา : Jaiwei Han, et al., 2012.

13

2.2.7 เทคนค Evolutionary Selection

เทคนค Evolutionary Selection เปนเทคนคการคดเลอกคณลกษณะโดยน าขอมลคณลกษณะมาหาประสทธภาพในการคาดการณค าตอบ จากนนจงน าคณลกษณะมาจบคกน แลวหาคาประสทธภาพอกครง หากคาประสทธภาพในการคาดการณสงขนจะเกบขอมลนนไว แลวท าการเลอกคณลกษณะอนเขาไปเพม หากคาประสทธภาพต าลงจะถอดคณลกษณะนนออก แลวเลอกคณลกษณะอนเขาไปดงสมการท 8

IG (parent child) = Entropy (parent) – [p(c1) x Entropy(c1) + p(c2) x Entropy(c2)…] (8)

โดยท Entropy(c1) คอ -p(c1) log p(c1) p(c1) คอ คาความนาจะเปนของคา c1

c คอ ปจจยคณลกษณะแตละตวทเกยวของ

ทงนคา Entropy จะใชในการวดความแตกตางกนของขอมล ซงถาขอมลมความแตกตางกนนอยจะมคา Entropy ต า และถาขอมลมความแตกตางกนมากจะมคา Entropy สง (เอกสทธ พชรวงศศกดา, 2557)

14

2.2.8 เทคนคซพพอรตเวกเตอรแมชชน (Support Vector Machine)

เทคนคซพพอรตเวกเตอรแมชชน เปนเทคนคทใชในการแกปญหาทางดานการรจ ารปแบบขอมล โดยอาศยหลกการของการหาสมประสทธของสมการเพอสรางเสนแบงแยกกลมขอมลทถกปอนเขาสกระบวนการสอนใหระบบเรยนร โดยเนนไปยงเสนแบงแยกแยะกลมขอมลทดทสด (Optimal Separating Hyperplane) ส าหรบรากฐานเดมของซพพอรตเวกเตอรแมชชน ถกน ามาใชกบขอมลทเปนเชงเสน แตในความเปนจรงแลวขอมลทน ามาใชในระบบเรยนร มทงทเปนขอมลเชงเสนและขอมลแบบไมเปนเชงเสน ซงสามารถแกปญหาดงกลาวดวยการน าเคอรเนลฟงกชนมาใช เพอท าการแปลงคาเวคเตอรในสเปซขอมลน าเขาไปสสเปซขอมลแบบอนได ท าใหสามารถรองรบขอมลทมมากกวาสองมต แนวความคดของซพพอรตเวกเตอรแมชชน เกดจากการน าคาของกลมขอมลมาวางลงในฟเจอรสเปซ (Feature Space) จากนนจงหาเสนทใชแบงขอมลทงสองออกจากกนโดยจะสรางเสนแบง (Plane) ทเปนเสนตรงขนมา และเพอใหทราบวาเสนตรงทแบงสองกลมออกจากกนนน เสนตรงใดเปนเสนทดทสดดงภาพประกอบ 5

ภาพประกอบ 5 ต าแหนงขอมลสองกลมในฟเจอรสเปซ (Feature Space)

ทมา: จรา แกวสวรรณ, 2006.

15

สามารถน ามาเขยนเปนสมการเพอใชในการแกไขปญหา โดยขอมลทน ามาวางลงในพนท

คณลกษณะนนเปนกลมขอมลทอยในรปของเวกเตอรจะได

𝑋 = ((𝑥1, 𝑦1), … … , (𝑥𝑖, 𝑦𝑖)) (9)

โดยท X คอ ชดคาลกษณะเดน

จากนนท าการก าหนดสมการขนมา ซงสมการดงกลาวมลกษณะเปนสมการเสนตรง เพอน ามาสรางเปนเสนตรงบนไฮเปอรเพลนซงแบงกลมขอมลทมลกษณะเชงเสนสองกลมออกจากกน โดยมการก าหนดกลมของขอมลทงสองฝงเปนเพยงสองคาซงแทนดวยคา y ซงขอมลทเปนตวก าหนดความชนและระนาบทเกดขนบนไฮเปอรเพลนเกดจากคขอมล และก าหนดสมการทเปนตวบงบอกขอมลแตละกลมวาอยสวนไหนของเสนแบงไฮเปอรเพลนแสดงได ดงสมการท 10 และสมการท 11

เมอน าสมการเงอนไขทงหมดมาวเคราะหเชงเรขาคณต โดยพจารณาในกรณทขอมลถกแบงกลมไดสมบรณตามเงอนไขของซพพอรตเวกเตอรแมชชนในสมการท 12 และขอมลการสอนใหระบบเรยนรตองอยในรปแบบของเชงเสน สามารถแสดงลกษณะการวางตวของกลมขอมลไดดงภาพประกอบ 5 เวกเตอรของขอมลทถกปอนเขาสระบบการสอน เพอใหระบบเรยนรแทนดวยสมการ และขอมลทงสองดานแบงเปนบวกและลบ สถานะของขอมลจงแทนดวย ซงมสองคา คอ y = 1 และ y = -1 นน แตทงนกยงตดสนไมไดวาเสนแบงนนควรจะเปนเสนใดจงจะดทสด วธการทใชในการหาเสนแบงทดทสดคอการเพมเสนขอบใหกบเสนทงสองขาง ท าใหไดเสนใหมทจะถอเปนเสนขอบของขอมลแตละฝงอกดวย เสนขอบ (Margin) ทเปนเสนขอบของเสนแบงนนจะเปนเสนทสมผสกบคาขอมลในฟเจอรสเปซ (Feature Space) ทใกลทสด เสนขอบของทงสองเสนทเพมขนมานถกแทนดวยสมการ 𝑤𝑇 𝑥 + 𝑏 ≥ 𝑦 ≥ 1 ถาอยดาน y = 1 และ 𝑤𝑇 𝑥 + 𝑏 ≤ 𝑦 ≤ −1 ถา y = -1 หากเสนขอบของเสนแบงใด ๆ ทมความกวางมากทสด แสดงใหเหนวาขอมลสองชดมการแยกกนชดเจนมากทสด ดงนนเสนแบงทมเสนขอบกวางทสดจงเปนเสนแบงทดทสด และเรยกต าแหนงการสมผสขอมลทใกลทสดจากการเพมขอบนวา “เวกเตอรสนบสนน” (Support Vector) โดยเรยกเสนประทแบงขอมลทงสองเสนวาเสนขอบ ซงสามารถเขยนเปนสมการการค านวณความกวางของเสนขอบตองท าการค านวณพจนใหอยในรปปกต (Normalization) โดยการค านวณจากสมการท (15) และ (16) เมอแทนคาลงไปแลว (จรา แกวสวรรณ, 2006)

16

𝑤𝑇 𝑥 + 𝑏 ≥ 𝑦 เมอก าหนดให y = 1 (10)

𝑤𝑇 𝑥 + 𝑏 ≤ 𝑦 เมอก าหนดให y = -1 (11)

𝑦(𝑤𝑇 𝑥 + 𝑏) − 1 ≥ 0 (12)

โดยท y คอ คากลมขอมล (1,-1)

w คอ คาความชน

x คอ คาลกษณะเดน

b คอ คาคงท (คาตดแกน y)

17

2.3 ผลการวจยทเกยวของ

ในการศกษาทผานมาพบวา การคดเลอกคณลกษณะทส าคญในการวเคราะหขอมลเพอลด

จ านวนมตทใชในการท าเหมองขอมลเปนสงส าคญ โดยมการใชเทคนคหลายๆแบบเพอให

เหมาะสมกบขอมลทตองการวเคราะห โดยมงานวจยทเกยวของดงน (ภทราวฒ แสงศร, 2553) การ

ใชเทคนคในการคดเลอกคณลกษณะทส าคญ เพอคดแยกประเภทของมะเรงเมดเลอดขาวแบบ

เฉยบพลน ซงจ านวนมตของขอมลมจ านวน 7,129 มต สามารถลดมตของขอมลลงมาเหลอ 36 มต

และเพมความแมนย าจากรอยละ 73.43% มาเปนรอยละ 88.24 (นภาพร ชนะมาร และพรรณ

สทธเดช, 2557) ไดศกษา การวเคราะหปจจยการเรยนรดวยการคดเลอกคณสมบตและการพยากรณ

โดยใชเทคนคการคดเลอกคณสมบต 3 วธ ไดแก การคดเลอกคณสมบตแบบ Correlation-based

Feature Selection การคดเลอกคณสมบตแบบ Consistency-based Feature Selection และ การ

คดเลอกคณสมบตแบบ Gain Ratio Feature Selection ผลการทดลองทงสามเทคนคสามารถลด

จ านวนของคณสมบตจาก 22 ตวแปร เหลอ 9 ตวแปร 10 ตวแปร และ 11 ตวแปร ตามล าดบ

(พฤฒพงศ เพงศร และคณะ, 2557) ไดศกษาการลดมตขอมลการวเคราะหความสมพนธและการ

ประยกตส าหรบวเคราะหขอมลพนฐานการใชงานสมารทโฟน โดยท าการศกษาเทคนคตาง ๆ ใน

การลดมต โดยท าการเปรยบเทยบเทคนค Partition data of Association with Aprior CFS, Info Gain

และ Relief โดยผานการจ าแนกขอมลดวย ANN (น าทพย มากนคร และมาลรตน โสดานล,

2557) ศกษาการเปรยบเทยบวธการเลอกคณลกษณะทเหมาะสมเพอ การจดหมวดหมเวบเพจผด

กฎหมายโดยใชเทคนคการท าเหมองขอมล โดยใชเทคนค Information Gain, Gain Ratio และ

Chi Squared พบวาวธการจดอนดบแบบ Chi-Square ใหผลลพธทมประสทธภาพดทสดกลาวคอ

เมอลดจ านวนคณลกษณะ 50% ใหคาความถกตอง (Accuracy) รอยละ 95.98 (นธนนท มาตา

และคณะ, 2558) ไดศกษาการสรางโมเดลส าหรบพยากรณการควบคมประตระบายน า โดยมการ

เปรยบเทยบเทคนค การลดมตของขอมลคอ Information Gain, Gain Ratio, Correlation based

Feature Selection (Galavotti L., et al., 2000) ไดศกษาเกยวกบการคดเลอกคณสมบตของขอมล

จากขอมลจ านวนมากในการจดหมวดหมขอมลตวอกษร (Bing Xue., et al., 2016) ไดศกษาสรป

การคดเลอกคณสมบตของขอมลในการลดมตของขอมล และเพมประสทธภาพของขนตอนวธ

Evolutionary Computation Approaches

18

บทท 3

ระเบยบวธวจย

3.1 ขนตอนการด าเนนงานวจย

งานวจยนเปนงานวจยเพอศกษาการคดเลอกคณลกษณะทมความส าคญในการปรบปรงการ

พยากรณโรคมะเรงเตานม โดยมการเปรยบเทยบเทคนคตางๆ ทใชในการคดเลอกคณลกษณะทจะ

น ามาใชในการปรบปรงการท านายมะเรงเตานม โดยมขนตอนการด าเนนงานการวจยประกอบดวย

ขนตอนหลกดงตอไปน

1. การเตรยมขอมล (Data Preparation)

เปนขนตอนของการจดเตรยมขอมลเพอการวเคราะห โดยน าขอมลทไดจาก

แหลงขอมล UCI Machine Learning Repository ซงประกอบไปดวยขอมลจากคนทมชวต

จ านวน 569 คน มจ านวนคณลกษณะ 32 คณลกษณะ ประกอบดวย หมายเลขประจ าตว

และผลการวนจฉย อก 30 คณลกษณะเปนคณลกษณะทางกายภาพ

2. การคดเลอกคณลกษณะทส าคญโดยการใชเทคนคตางๆ

เปนขนตอนการใชเทคนคตางๆจ านวน 7 เทคนคในการคดเลอกคณลกษณะท

ส าคญเพอน ามาใชในการปรบปรงการพยากรณการเปนมะเรงเตานม

3. การท านายคาความถกตองดวยเทคนค Support Vector Machine

เปนขนตอนการน าคณลกษณะทส าคญทถกคดเลอกมาแลวจาก 7 เทคนค มาวด

ประสทธภาพการพยากรณการเปนมะเรงเตานมโดยการใชเทคนค Support Vector

Machine (SVM)

19

4. การเปรยบเทยบผลการวดประสทธภาพการพยากรณการเปนมะเรงเตานมทง 7 เทคนค

เปนขนตอนการน าผลทไดจากการวดประสทธภาพการพยากรณการเปนมะเรงเตานม

จากคณลกษณะทส าคญจากการคดเลอกดวยเทคนคตางๆ 7 เทคนคมาเปรยบเทยบ เพอดวา

เทคนคใดใหคาความถกตองในการพยากรณการเปนมะเรงเตานมไดเทาไร

Correlation Based Feature Selection

Information Gain

Chi Square

Gain Ratio

Forward Selection

Backward Elimination

Evolutionary Selection

� � � 2

� � � �

Support Vector Machine

3

7 � �

4

1

ภาพประกอบ 6 แสดงขนตอนการด าเนนการวจย

20

3.1.1 จดหาขอมลและเตรยมขอมล

เพอการวเคราะหเปรยบเทยบเทคนคตางๆ ทใชในการคดเลอกคณลกษณะทจะน ามาใชใน

การปรบปรงการพยากรณมะเรงเตานม

ในขนตอนนไดน าขอมลทใชในการวเคราะหมาจาก UCI Machine Learning Repository http://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+%28diagnostic%29 โดยมผเชยว ชาญ 3 ทานเปนผสรางขอมล

1. Dr. William H. Wolberg, General Surgery Dept.

University of Wisconsin, Clinical Sciences Center, Madison, WI 53792

wolberg '@' eagle.surgery.wisc.edu

2. W. Nick Street, Computer Sciences Dept.

University of Wisconsin, 1210 West Dayton St., Madison, WI 53706

street '@' cs.wisc.edu 608-262-6619

3. Olvi L. Mangasarian, Computer Sciences Dept.

University of Wisconsin, 1210 West Dayton St., Madison, WI 53706

olvi '@' cs.wisc.edu

ภาพประกอบ 7 แสดงขอมลสรปทน ามาใชในการพยากรณ

ทมา : UCI, “Breast Cancer Wisconsin (Diagnostic) Data Set”, 27 April 2018

เปนขอมลจากคนทมชวตจรงจ านวน 569 คน จ านวนคณลกษณะของขอมลเทากบ 32 คณลกษณะ

โดย 2 คณลกษณะแรก คอ : หมายเลขประจ าตว และผลการวนจฉย อก 30 คณลกษณะทเหลอเปน

คณลกษณะทางดานกายภาพถกน ามาใชในการพยากรณ ดงน

21

1. id หมายถง หมายเลขประจ าตว

2. diagnosis (M = malignant, B = benign) หมายถง การวนจฉยโรค แบงออกเปน 2

ประเภท

M = malignant หมายถง เปน

B = benign หมายถง ไมเปน

และอก 30 คณลกษณะทางดานกายภาพทใชในการพยากรณ ซงมรายละเอยดตอไปน

3. radius_mean (mean of distances from center to points on the perimeter) หมายถง

คาเฉลยของรศม (ระยะทางจากจดศนยกลางไปยงจดบนเสนรอบวง)

4. texture_mean (standard deviation of gray-scale values) หมายถง คาเฉลยของลกษณะ

ผวหนง

5. perimeter_mean หมายถง คาเฉลยของเสนรอบรป

6. area_mean หมายถง คาเฉลยของขนาดพนท

7. smoothness_mean (smoothness : local variation in radius lengths) หมายถง คาเฉลยของ

ความเรยบเนยน

8. compactness_mean (compactness : perimeter^2 / area - 1.0) หมายถง คาเฉลยของความ

กระทดรด

9. concavity_mean (concavity : severity of concave portions of the contour) หมายถง

คาเฉลยของสวนเวา

10. concave points_mean (concave points : number of concave portions of the contour)

หมายถง คาเฉลยจ านวนสวนเวา

11. symmetry_mean หมายถง คาเฉลยของความสมมาตร

12. fractal_dimension_mean (fractal_dimension : “coastline approximation” - 1)

หมายถง คาเฉลยของสดสวนขนาด

22

13. radius_se (standard error ความคลาดเคลอนมาตรฐาน) หมายถง ความคลาดเคลอน

มาตรฐานของรศม

14. texture_se หมายถง ความคลาดเคลอนมาตรฐานของลกษณะผวหนง

15. perimeter_se หมายถง ความคลาดเคลอนมาตรฐานของเสนรอบรป

16. area_se หมายถง ความคลาดเคลอนมาตรฐานของขนาดพนท

17. smoothness_se หมายถง ความคลาดเคลอนมาตรฐานของความเรยบเนยน

18. compactness_se หมายถง ความคลาดเคลอนมาตรฐานของความกระทดรด

19. concavity_se หมายถง ความคลาดเคลอนมาตรฐานของสวนเวา

20. concave points_se หมายถง ความคลาดเคลอนมาตรฐานของจ านวนสวนเวา

21. symmetry_se หมายถง ความคลาดเคลอนมาตรฐานของความสมมาตร

22. fractal_dimension_se หมายถง ความคลาดเคลอนมาตรฐานของสดสวนขนาด

23. radius_worst หมายถง คาทแยทสดของรศม

24. texture_ worst หมายถง คาทแยทสดของลกษณะผวหนง

25. perimeter_ worst หมายถง คาทแยทสดของเสนรอบรป

26. area_ worst หมายถง คาทแยทสดของขนาดพนท

27. smoothness_ worst หมายถง คาทแยทสดของความเรยบเนยน

28. compactness_ worst หมายถง คาทแยทสดของความกระทดรด

29. concavity_ worst หมายถง คาทแยทสดของสวนเวา

30. concave points_ worst หมายถง คาทแยทสดของจ านวนสวนเวา

31. symmetry_ worst หมายถง หมายถง คาทแยทสดของความสมมาตร

32. fractal_dimension_ worst หมายถง คาทแยทสดของสดสวนขนาด

23

ภาพประกอบ 8 การแสดงรายละเอยดและลกษณะของขอมลแตละคณลกษณะในกลมคาเฉลย

24

ภาพประกอบ 9 การแสดงรายละเอยดและลกษณะของขอมลแตละคณลกษณะใน

กลมความคลาดเคลอนมาตรฐาน

ภาพประกอบ 10 การแสดงรายละเอยดและลกษณะของขอมลแตละคณลกษณะในกลมคาทแยทสด

25

3.1.2 การวเคราะหขอมลดวยโปรแกรม RapidMiner

ท าการทดลองโดยใชเทคนคตางๆเพอเปรยบเทยบประสทธภาพในการคดเลอกคณลกษณะ

ทส าคญในการพยากรณมะเรงเตานม และใชเทคนคซพพอรตเวกเตอรแมชชน (Support Vector

Machine) ในการวดประสทธภาพการจ าแนกขอมลของการเปนมะเรงเตานม ซงมเทคนคทใช

คดเลอกคณลกษณะในการทดลองมดงน

1. เทคนค Correlation Based Feature Selection (CFS)

2. เทคนค Information Gain (IG)

3. เทคนค Gain Ratio (GR)

4. เทคนค Chi-Square

5. เทคนค Forward Selection

6. เทคนค Backward Elimination

7. เทคนค Evolutionary Selection

26

3.2 ผลการทดลอง

1. เทคนค Correlation Based Feature Selection (CFS)

ในการใชเทคนค Correlation Based Feature Selection จากคณลกษณะทงหมด 30

คณลกษณะ ท าใหสามารถเลอกคณลกษณะทส าคญไดจากผลการทดลองตามตารางท 1 ดงตอไปน

ตารางท 1 คาน าหนกของคณลกษณะจากการใชเทคนค CBF

No Attribute Weight No Attribute Weight

1 radius_mean 0 16 compactness_se 0

2 texture_mean 0 17 concavity_se 0

3 perimeter_mean 0 18 concave points_se 0

4 area_mean 0 19 symmetry_se 0

5 smoothness_mean 0 20 fractal_dimension_se 0

6 compactness_mean 0 21 radius_worst 1

7 concavity_mean 0 22 texture_worst 0

8 concave points_mean 0 23 perimeter_worst 0

9 symmetry_mean 0 24 area_worst 0

10 fractal_dimension_mean 0 25 smoothness_worst 0

11 radius_se 1 26 compactness_worst 1

12 texture_se 0 27 concavity_worst 0

13 perimeter_se 0 28 concave points_worst 0

14 area_se 0 29 symmetry_worst 0

15 smoothness_se 0 30 fractal_dimension_worst 0

จากตารางท 1 พบวาคณลกษณะทมคาน าหนกเปน 0 จะไมไดรบการคดเลอก จะท าการ

เลอกเฉพาะคณลกษณะทมคาน าหนกเทากบ 1 เทานน ซงคณลกษณะทถกเลอกจากเทคนค

Correlation Based Feature Selection ไดแก radius_se radius_worst และcompactness_worst

27

หลงจากนนจงไดน าคณลกษณะทง 3 มาหาคาความถกตองในการพยากรณการเปนมะเรง

เตานมดวยเทคนค SVM โดยการใชโปรแกรม RapidMiner ในการประมวลผลการพยากรณซง

ประกอบไปดวยกระบวนการตางๆ ดงแสดงในภาพประกอบ 11 เ รมตนโดยการดงขอมล

คณลกษณะตางๆดวยการใช Operator Retrieve หลงจากนนมการคดเลอกคณลกษณะทส าคญทได

จากเทคนค Correlation Based Feature Selection ดงแสดงในภาพประกอบ 12 ตอจากนนเปน

กระบวนการในการท า Validation การพยากรณการเปนมะเรงเตานมดวยเทคนค SVM ดงแสดงใน

ภาพประกอบ 13 โดยมการเซตพารามเตอรใหกบเทคนค SVM ดวยการก าหนดคา svm type เปน

C-SVC คา kernel type เปน rbf คา gamma เปน 0.0 คา C เปน 0.0 คา cache size เปน 80 คา

epsilon เปน 0.001 มการเลอกการท างานใหเปนแบบ shrinking และ confidence for multiclass ดง

แสดงในภาพประกอบ 14 และมการก าหนดคาพารามเตอรในการท า Cross validation ใหคา

number of folds เปน 10 และลกษณะ sampling type เปนแบบ stratified sampling ดงแสดงใน

ภาพประกอบ 15

ภาพประกอบ 11 ภาพรวมแสดงการพยากรณการเปนมะเรงเตานมดวยเทคนค SVM ดวย

โปรแกรม RapidMiner

28

ภาพประกอบ 12 การเลอกคณลกษณะทไดรบการคดเลอกเขาประมวลผล

ภาพประกอบ 13 กระบวนการในการท า Validation การประมวลผลดวย SVM

29

ภาพประกอบ 14 ก าหนดคาพารามเตอรใหกบ SVM

ภาพประกอบ 15 ก าหนดคาพารามเตอรในการท า Cross validation

30

ภาพประกอบ 16 ผลการวดประสทธภาพจากการเลอกคณลกษณะของเทคนค CBF

จากภาพประกอบ 16 แสดงผลการวดประสทธภาพการพยากรณโดยการคดเลอก

คณลกษณะดวยเทคนค Correlation Based Feature Selection และการหาคาความถกตองในการ

พยากรณการเปนมะเรงเตานมดวยเทคนค SVM ท าใหไดคาความถกตองในการพยากรณการเปน

มะเรงเตานมเทากบ 91.22%

31

2. เทคนค Information Gain (IG)

ในการใชเทคนค Information Gain ดวยคณลกษณะทงหมด 30 คณลกษณะ ท าใหไดคา

น าหนกในแตละคณลกษณะจากการทดลองตามตารางท 2 ดงตอไปน

ตารางท 2 คาน าหนกของคณลกษณะจากการใชเทคนค IG

Attribute Weight Attribute Weight

smoothness_se 0.0135 compactness_worst 0.2412

texture_se 0.0163 compactness_mean 0.2671

fractal_dimension_mean 0.0207 radius_se 0.2869

symmetry_se 0.0228 perimeter_se 0.2887

fractal_dimension_se 0.0346 concavity_worst 0.4017

symmetry_mean 0.0712 area_se 0.4161

fractal_dimension_worst 0.0747 concavity_mean 0.4482

smoothness_mean 0.0971 radius_mean 0.4630

compactness_se 0.1098 perimeter_mean 0.4666

symmetry_worst 0.1098 area_mean 0.4748

smoothness_worst 0.1235 concave points_mean 0.5458

texture_worst 0.1572 concave points_worst 0.5491

texture_mean 0.1593 area_worst 0.5602

concave points_se 0.1637 radius_worst 0.5619

concavity_se 0.1934 perimeter_worst 0.5620

เทคนค Information Gain จะใหคาน าหนกของคณลกษณะทส าคญออกมา โดยคณลกษณะ

ทมความส าคญจะมคาน าหนกมาก คณลกษณะทมความส าคญนอยจะมคาน าหนกนอย จากผลการ

ทดลองพบวา คณลกษณะ perimeter_worst จะมความส าคญมากทสดซงมคาน าหนกท 0.5620

และคณลกษณะ smoothness_se จะมความส าคญนอยทสดซงมคาน าหนกท 0.0135

เนองจากเทคนคนจะใหคาน าหนกของแตละคณลกษณะออกมา ดงนนการตรวจสอบวา

ควรจะใชคณลกษณะใดบางในการหาคาความถกตองในการพยากรณการเปนมะเรงเตานมโดยใช

เทคนค SVM ในการท านายความถกตอง จงไดท าการทดลองโดยการลดคณลกษณะไปทละหนง

คณลกษณะเรมจากคณลกษณะทมคาน าหนกนอยทสด เพอทจะไดคาความถกตองทดทสดในการ

ท านายมะเรงเตานม ผลทไดแสดงในตารางท 3

32

ภาพประกอบ 17 ตวอยางการเลอกคณลกษณะโดยการตดคณลกษณะทมคาน าหนก

นอยทสดออกของเทคนค IG

33

ภาพประกอบ 18 ผลการวดประสทธภาพจากการตดคณลกษณะทมคาน าหนก

นอยทสดออกของเทคนค IG

ตารางท 3 คาความถกตองของการพยากรณการเปนมะเรงเตานมตามจ านวนคณลกษณะทใชดวย

เทคนค IG

Number of Attribute

Attribute Reduction

Accuracy Number of

Attribute Attribute

Reduction Accuracy

30 0 91.39 15 15 91.57

29 1 91.39 14 16 91.57

28 2 91.39 13 17 91.57

27 3 91.39 12 18 91.57

26 4 91.39 11 19 91.57

25 5 91.39 10 20 91.57

24 6 91.39 9 21 92.27

23 7 91.39 8 22 92.27

22 8 91.39 7 23 92.27

21 9 91.39 6 24 92.27

20 10 91.39 5 25 91.22

19 11 91.39 4 26 91.22

18 12 91.39 3 27 91.22

17 13 91.57 2 28 91.57

16 14 91.57 1 29 91.74

34

จากผลการทดลองพบวาคาความถกตองทดทสด โดยมรอยละความถกตองอยท 92.27 ตาม

ตารางท 3 จะใชจ านวนคณลกษณะอยท 6,7,8 หรอ 9 คณลกษณะ ดงนนเราจะเลอกใชจ านวน

คณลกษณะนอยสด 6 คณลกษณะไดแก

1. area_mean

2. area_worst

3. concave points_mean

4. concave points_worst

5. perimeter_worst

6. radius_worst

ภาพประกอบ 19 การน า 6 คณลกษณะทไดรบการคดเลอกเขาประมวลผลของเทคนค IG

35

ภาพประกอบ 20 ผลการวดประสทธภาพจากการเลอก 6 คณลกษณะของเทคนค IG

ผลการวดประสทธภาพการพยากรณโดยการคดเลอกคณลกษณะดวยเทคนค Information

Gain (IG) และการหาคาความถกตองในการพยากรณการเปนมะเรงเตานมดวยเทคนค SVM จาก

การใช 6 คณลกษณะทไดรบการคดเลอก ไดคาความถกตองในการพยากรณการเปนมะเรงเตานม

เทากบ 92.27%

36

3. เทคนค Gain Ratio (GR)

ในการใชเทคนค Gain Ratio ดวยคณลกษณะทงหมด 30 คณลกษณะ ท าใหไดคาน าหนก

ในแตละคณลกษณะจากการทดลองตามตารางท 4 ดงตอไปน

ตารางท 4 คาน าหนกของคณลกษณะจากการใชเทคนค GR

No Attribute Weight No Attribute Weight

1 texture_se 0.0749 16 compactness_mean 0.2695

2 fractal_dimension_se 0.0818 17 compactness_worst 0.2807

3 smoothness_mean 0.1166 18 perimeter_se 0.3336

4 compactness_se 0.1349 19 radius_se 0.3604

5 symmetry_se 0.1450 20 concavity_worst 0.4046

6 symmetry_mean 0.1489 21 area_se 0.4708

7 smoothness_se 0.1489 22 concavity_mean 0.4752

8 fractal_dimension_worst 0.1489 23 radius_mean 0.5237

9 smoothness_worst 0.1589 24 perimeter_mean 0.5340

10 texture_mean 0.1601 25 area_mean 0.5371

11 concave points_se 0.1753 26 concave points_mean 0.5670

12 texture_worst 0.1796 27 concave points_worst 0.6035

13 fractal_dimension_mean 0.1901 28 radius_worst 0.6116

14 concavity_se 0.1968 29 area_worst 0.6182

15 symmetry_worst 0.2382 30 perimeter_worst 0.6384

เทคนค Gain Ratio จะใหคาน าหนกของคณลกษณะทส าคญออกมา โดยคณลกษณะทม

ความส าคญจะมคาน าหนกมาก คณลกษณะทมความส าคญนอยจะมน าหนกนอย จากผลการทดลอง

พบวา คณลกษณะ perimeter_worst จะมความส าคญมากทสดซงมคาน าหนกท 0.6384 และ

คณลกษณะ texture_se จะมความส าคญนอยทสดซงมคาน าหนกท 0.0749

เนองจากเทคนคนจะใหคาน าหนกของแตละคณลกษณะออกมา ดงนนการตรวจสอบวา

ควรจะใชคณลกษณะใดบางในการหาคาความถกตองในการพยากรณการเปนมะเรงเตานมโดยใช

เทคนค SVM จงไดท าการทดลองโดยการลดคณลกษณะไปทละหนงคณลกษณะเรมจาก

คณลกษณะทมคาน าหนกนอยทสด เพอทจะไดคาความถกตองทดทสดในการพยากรณการเปน

มะเรงเตานม ผลทไดแสดงในตารางท 5

37

ตารางท 5 คาความถกตองของการพยากรณการเปนมะเรงเตานมตามจ านวนคณลกษณะทใชดวย

เทคนค GR

Number of Attribute

Attribute Reduction

Accuracy Number of

Attribute Attribute Reduction

Accuracy

30 0 91.39 15 15 91.57

29 1 91.39 14 16 91.57

28 2 91.39 13 17 91.57

27 3 91.39 12 18 91.57

26 4 91.39 11 19 91.57

25 5 91.39 10 20 91.57

24 6 91.39 9 21 92.27

23 7 91.39 8 22 92.27

22 8 91.39 7 23 92.27

21 9 91.39 6 24 92.27

20 10 91.39 5 25 91.22

19 11 91.39 4 26 91.22

18 12 91.57 3 27 91.22

17 13 91.57 2 28 91.22

16 14 91.57 1 29 91.74

38

ภาพประกอบ 21 ตวอยางการเลอกคณลกษณะโดยการตดคณลกษณะทม

คาน าหนกนอยทสดออกของเทคนค GR

39

ภาพประกอบ 22 ผลการวดประสทธภาพจากการตดคณลกษณะทม

คาน าหนกนอยทสดออกของเทคนค GR

จากผลการทดลองพบวาคาความถกตองทดทสด โดยมรอยละความถกตองอยท 92.27 ใช

จ านวนคณลกษณะ 6,7,8 หรอ 9 คณลกษณะ ดงนนเราจะเลอกใชจ านวนคณลกษณะนอยสด 6

คณลกษณะ ไดแก

1. area_mean

2. area_worst

3. concave points_mean

4. concave points_worst

5. radius_worst

6. perimeter_worst

จะพบวาผลการทดลองของ Gain Ratio คาความถกตองทดทสดทไดมลกษณะเหมอนกบ

Information Gain

40

4. เทคนค Chi Squared

ในการใชเทคนค Chi Squared ดวยคณลกษณะทงหมด 30 คณลกษณะ ท าใหไดคาน าหนก

ในแตละคณลกษณะจากการทดลองตามตารางท 6 ดงตอไปน

ตารางท 6 คาน าหนกของคณลกษณะจากการใชเทคนค Chi Squared

No Attribute Weight No Attribute Weight

1 texture_se 13.3265 16 area_se 205.2987

2 smoothness_se 13.5522 17 compactness_worst 208.6836

3 fractal_dimension_mean 24.0610 18 perimeter_se 222.0918

4 fractal_dimension_se 27.9417 19 compactness_mean 222.3855

5 symmetry_se 31.5886 20 radius_se 230.0074

6 concavity_se 51.9918 21 concavity_worst 311.1369

7 fractal_dimension_worst 66.7996 22 area_mean 326.2661

8 symmetry_mean 68.6855 23 concavity_mean 341.0650

9 compactness_se 74.0546 24 radius_mean 344.7614

10 smoothness_mean 81.3973 25 perimeter_mean 359.1691

11 symmetry_worst 100.7488 26 area_worst 364.0997

12 smoothness_worst 109.0351 27 concave points_mean 390.5314

13 concave points_se 126.9527 28 radius_worst 395.6819

14 texture_mean 133.6581 29 perimeter_worst 406.0872

15 texture_worst 134.4097 30 concave points_worst 415.0087

เทคนค Chi Squared จะใหคาน าหนกของคณลกษณะทส าคญออกมา โดยคณลกษณะทม

ความส าคญจะมคาน าหนกมาก คณลกษณะทมความส าคญนอยจะมน าหนกนอย จากผลการทดลอง

พบวา คณลกษณะ concave points_worst มความส าคญมากทสดมคาน าหนกท 415.0087 และ

คณลกษณะ texture_se จะมความส าคญนอยทสดมคาน าหนกท 13.3265

เนองจากเทคนคนจะใหคาน าหนกของแตละคณลกษณะออกมา ดงนนการตรวจสอบวา

ควรจะใชคณลกษณะใดบางในการหาคาความถกตองในการพยากรณการเปนมะเรงเตานมโดยใช

เทคนค SMV จงไดท าการทดลองโดยการลดคณลกษณะไปทละหนงคณลกษณะเรมจาก

41

คณลกษณะทมคาน าหนกนอยทสด เพอทจะไดคาความถกตองทดทสดในการพยากรณมะเรงเตานม

ผลทไดแสดงในตารางท 7

ตารางท 7 คาความถกตองของการพยากรณการเปนมะเรงเตานมตามจ านวนคณลกษณะทใชดวย

เทคนค Chi Squared

Number of Attribute

Attribute Reduction

Accuracy Number of

Attribute Attribute

Reduction Accuracy

30 0 91.39 15 15 91.57

29 1 91.39 14 16 92.27

28 2 91.39 13 17 92.27

27 3 91.39 12 18 92.27

26 4 91.39 11 19 92.27

25 5 91.39 10 20 92.27

24 6 91.39 9 21 92.27

23 7 91.39 8 22 91.57

22 8 91.39 7 23 91.57

21 9 91.39 6 24 91.57

20 10 91.39 5 25 91.22

19 11 91.39 4 26 91.57

18 12 91.39 3 27 91.57

17 13 91.39 2 28 91.74

16 14 91.39 1 29 62.74

42

ภาพประกอบ 23 ตวอยางการเลอกคณลกษณะโดยการตดคณลกษณะทม

คาน าหนกนอยทสดออกดวยเทคนค Chi Squared

43

ภาพประกอบ 24 ผลการวดประสทธภาพจากการตดคณลกษณะทม

คาน าหนกนอยทสดออกดวยเทคนค Chi Squared

จากผลการทดลองพบวาคาความถกตองทดทสด โดยมรอยละความถกตองอยท 92.27 ใช

จ านวนคณลกษณะ 9,10,11,12,13 หรอ 14 คณลกษณะ ดงนนเราจะเลอกใชจ านวนคณลกษณะนอย

สด 9 คณลกษณะ ไดแก

1. area_mean

2. area_worst

3. concavity_mean

4. concave points_mean

5. concave points_worst

6. perimeter_mean

7. perimeter_worst

8. radius_mean

9. radius_worst

44

ภาพประกอบ 25 การน า 9 คณลกษณะทไดรบการคดเลอกเขาประมวลผลของ

เทคนค Chi Squared

ภาพประกอบ 26 ผลการวดประสทธภาพจากการเลอก 9 คณลกษณะดวย

เทคนค Chi Squared

ผลการวดประสทธภาพการพยากรณโดยการคดเลอกคณลกษณะดวยเทคนค Chi Squared

และการหาคาความถกตองในการพยากรณการเปนมะเรงเตานมดวยเทคนค SVM จากการใช 9

คณลกษณะทไดรบการคดเลอก ใหคาความถกตองในการพยากรณการเปนมะเรงเตานมเทากบ

92.27% ดงแสดงในภาพประกอบ 26

45

5. เทคนค Forward Selection

ในการใชเทคนค Forward Selection ดวยคณลกษณะทงหมด 30 คณลกษณะ ท าใหได

คณลกษณะทถกเลอกจากผลการทดลองตามตารางท 8 ดงตอไปน

ตารางท 8 คาน าหนกของคณลกษณะจากการใชเทคนค Forward Selection

No Attribute Weight

No Attribute Weight

1 radius_mean 0 16 compactness_se 0

2 texture_mean 0 17 concavity_se 0

3 perimeter_mean 0 18 concave points_se 0

4 area_mean 0 19 symmetry_se 0

5 smoothness_mean 0 20 fractal_dimension_se 0

6 compactness_mean 0 21 radius_worst 0

7 concavity_mean 0 22 texture_worst 1

8 concave points_mean 0 23 perimeter_worst 1

9 symmetry_mean 0 24 area_worst 0

10 fractal_dimension_mean 0 25 smoothness_worst 0

11 radius_se 0 26 compactness_worst 0

12 texture_se 0 27 concavity_worst 1

13 perimeter_se 0 28 concave points_worst 0

14 area_se 0 29 symmetry_worst 0

15 smoothness_se 0 30 fractal_dimension_worst 0

จากตารางท 8 พบวาคณลกษณะทมคาน าหนกเปน 0 จะไมไดรบการคดเลอก และจะเลอก

คณลกษณะทมคาน าหนกเทากบ 1 เทานน ซงคณลกษณะทถกเลอกจากเทคนค Forward Selection

ไดแก texture_worst, perimeter_worst และ concavity_worst หลงจากนนจงไดน าคณลกษณะทง 3

มาหาคาความถกตองในการพยากรณการเปนมะเรงเตานมดวยเทคนค SVM โดยการใชโปรแกรม

RapidMiner ในการประมวลผลการพยากรณ

46

ภาพประกอบ 27 ผลการวดประสทธภาพจากการเลอกคณลกษณะดวยเทคนค Forward Selection

จากผลการทดลองดวย 3 คณลกษณะทถกเลอกมาโดยเทคนค Forward Selection คา

ความถกตองในการพยากรณการเปนมะเรงเตานม โดยใชเทคนค SVM ในการท านายความถกตอง

อยทรอยละ 95.07 ดงแสดงในภาพประกอบ 27

47

6. เทคนค Backward Elimination

ในการใชเทคนค Backward Elimination ดวยคณลกษณะทงหมด 30 คณลกษณะ ท าใหได

คณลกษณะทถกเลอกจากผลการทดลองตามตารางท 9 ดงตอไปน

ตารางท 9 คาน าหนกของคณลกษณะจากการใชเทคนค Backward Elimination

No Attribute Weight

No Attribute Weight

1 radius_mean 1 16 compactness_se 1

2 texture_mean 1 17 concavity_se 1

3 perimeter_mean 1 18 concave points_se 0

4 area_mean 0 19 symmetry_se 1

5 smoothness_mean 1 20 fractal_dimension_se 1

6 compactness_mean 1 21 radius_worst 1

7 concavity_mean 1 22 texture_worst 1

8 concave points_mean 1 23 perimeter_worst 1

9 symmetry_mean 1 24 area_worst 0

10 fractal_dimension_mean 1 25 smoothness_worst 1

11 radius_se 1 26 compactness_worst 1

12 texture_se 1 27 concavity_worst 1

13 perimeter_se 1 28 concave points_worst 1

14 area_se 0 29 symmetry_worst 1

15 smoothness_se 1 30 fractal_dimension_worst 1

จากผลการทดลองพบวาม 26 คณลกษณะทถกเลอกมาโดยเทคนค Backward Elimination ซงม

คณลกษณะทไมถกเลอกเพยง 4 คณลกษณะคอ area_mean, area_se, concave points_se และ area_worst หลงจากนนจงไดน าคณลกษณะทง 26 คณลกษณะมาหาคาความถกตองในการ

พยากรณการเปนมะเรงเตานมดวยเทคนค SVM โดยการใชโปรแกรม RapidMiner ในการ

ประมวลผลการพยากรณ

48

ภาพประกอบ 28 ผลการวดประสทธภาพจากการเลอกคณลกษณะดวย

เทคนค Backward Elimination

ผลการทดลองดวย 26 คณลกษณะทถกเลอกมาโดยเทคนค Backward Elimination คาความถกตอง

ในการพยากรณการเปนมะเรงเตานม โดยใชเทคนค SVM ในการท านายความถกตองอยทรอยละ

95.08 ดงแสดงในภาพประกอบ 28

49

7. เทคนค Evolutionary Selection

ในการใชเทคนค Evolutionary Selection ดวยคณลกษณะทงหมด 30 คณลกษณะ ท าใหได

คณลกษณะทถกเลอกจากผลการทดลองตามตารางท 10 ดงตอไปน

ตารางท 10 คาน าหนกของคณลกษณะจากการใชเทคนค Evolutionary Selection

No Attribute Weight No Attribute Weight

1 radius_mean 0 16 compactness_se 1

2 texture_mean 1 17 concavity_se 0

3 perimeter_mean 1 18 concave points_se 0

4 area_mean 0 19 symmetry_se 0

5 smoothness_mean 1 20 fractal_dimension_se 1

6 compactness_mean 0 21 radius_worst 1

7 concavity_mean 1 22 texture_worst 1

8 concave points_mean 1 23 perimeter_worst 1

9 symmetry_mean 1 24 area_worst 0

10 fractal_dimension_mean 1 25 smoothness_worst 0

11 radius_se 0 26 compactness_worst 1

12 texture_se 1 27 concavity_worst 0

13 perimeter_se 1 28 concave points_worst 0

14 area_se 0 29 symmetry_worst 1

15 smoothness_se 0 30 fractal_dimension_worst 0

จากตารางท 10 พบวาคณลกษณะทมคาน าหนกเปน 0 จะไมไดรบการคดเลอก และจะ

เลอกคณลกษณะทมคาน าหนกเทากบ 1 เทานน ซงคณลกษณะทถกเลอกจากเทคนค Evolutionary

Selection ไดแก texture_mean, perimeter_mean, smoothness_mean, concavity_mean, concave

points_mean, symmetry_mean, fractal_dimension_mean, texture_se, perimeter_se,

compactness_se, fractal_dimension_se, radius_worst, texture_worst, perimeter_worst,

compactness_worst และsymmetry_worst หลงจากนนจงไดน าคณลกษณะทง 16 คณลกษณะมา

หาคาความถกตองในการพยากรณการเปนมะเรงเตานมดวยเทคนค SVM โดยการใชโปรแกรม

RapidMiner ในการประมวลผลการพยากรณ

50

ภาพประกอบ 29 ผลการวดประสทธภาพจากการเลอกคณลกษณะดวย

เทคนค Evolutionary Selection

จากผลการวดประสทธภาพการพยากรณโดยการคดเลอกคณลกษณะ 16 คณลกษณะดวย

เทคนค Evolutionary Selection และการหาคาความถกตองในการพยากรณการเปนมะเรงเตานม

ดวยเทคนค SVM จะไดคาความถกตองในการพยากรณการเปนมะเรงเตานมเทากบ 95.26% แสดง

ในภาพประกอบ 29

51

บทท 4

ผลการวเคราะหขอมล

4.1 ผลการวเคราะหขอมล

จากผลการทดลองเพอคดเลอกคณลกษณะทเหมาะสมเพอปรบปรงการพยากรณการเปน

มะเรงเตานมจากการใชขอมลผทดลอง 569 คน จ านวนคณลกษณะของขอมล 32 คณลกษณะ โดย

2 คณลกษณะแรก คอ : หมายเลขประจ าตว และผลการวนจฉย อก 30 คณลกษณะทเหลอเปน

คณลกษณะทางดานกายภาพ จากนนใชเทคนคตางๆในการคดเลอกคณลกษณะทส าคญจ านวน 7

เทคนค ไดแก เทคนค Correlation Based Feature Selection (CFS) เทคนค Information Gain (IG)

เทคนค Gain Ratio (GR) เทคนค Chi-Square เทคนค Forward Selection เทคนค Backward

Elimination และเทคนค Evolutionary Selection เพอน ามาเปรยบเทยบการวดประสทธภาพในการ

ท านายมะเรงเตานม สรปผลการทดลองดงแสดงในภาพประกอบ 30 และ ภาพประกอบ 31

52

ภาพประกอบ 30 แสดงจ านวนคณลกษณะทส าคญทถกคดเลอกในแตละเทคนค 7 เทคนค

จากภาพประกอบ 30 แสดงการเปรยบเทยบจ านวนคณลกษณะจากการคดเลอกดวยเทคนคตางๆทง 7 เทคนค พบวาเทคนคทคดเลอกจ านวนคณลกษณะนอยทสดเพยง 3 คณลกษณะมอย 2 เทคนค ไดแก เทคนค Correlation Based Feature Selection และ เทคนค Forward Selection เทคนคทคดเลอกคณลกษณะทส าคญออกมาจ านวนคณลกษณะนอยรองลงมา 6 คณลกษณะจะมอย 2 เทคนค คอ เทคนค Information Gain และเทคนค Gain Ratio ถดมาเปนเทคนค Chi-Square ทคดเลอกคณลกษณะทส าคญออกมาจ านวนคณลกษณะ 9 คณลกษณะ และเทคนค Evolutionary Selection สามารถคดเลอกคณลกษณะทส าคญออกมาจ านวนคณลกษณะ 16 คณลกษณะ ส าหรบเทคนคทคดเลอกคณลกษณะทส าคญออกมาจ านวนคณลกษณะมากทสด 26 คณลกษณะไดแก Backward Elimination

53

ภาพประกอบ 31 แสดงการเปรยบเทยบการวดประสทธภาพการพยากรณการเปนมะเรงเตานมจาก 7 เทคนคทเลอกใช

จากภาพประกอบ 31 แสดงการเปรยบเทยบการวดประสทธภาพการพยากรณการเปนมะเรงเตานมจากเทคนคตางๆจ านวน 7 เทคนค โดยจากผลการเปรยบเทยบเทคนคทวดประสทธภาพไดสงสดคอเทคนค Evolutionary Selection ซงวดคาประสทธภาพไดถง 95.26% รองลงมาไดแก เทคนค Backward Elimination วดคาประสทธภาพได 95.08% เทคนค Forward Selection วดคาประสทธภาพได 95.07% เทคนค Information Gain เทคนค Gain Ratio และเทคนค Chi-Square ทง 3 เทคนควดคาประสทธภาพได 92.27% เทากน ส าหรบเทคนค Correlation Based Feature Selection วดคาประสทธภาพไดต าสดเพยง 91.22%

54

ภาพประกอบ 32 แสดงจ านวนคณลกษณะและผลการวดประสทธภาพการพยากรณการเปนมะเรงเตานมของเทคนค 7 เทคนค

จากภาพประกอบ 32 แสดงจ านวนคณลกษณะและผลการวดคาความถกตองการพยากรณการเปนมะเรงเตานมจากเทคนคตางๆทเลอกจ านวน 7 เทคนค โดยเทคนค Correlation Based Feature Selection คดเลอกคณลกษณะทส าคญออกมาจ านวน 3 คณลกษณะและน าคณลกษณะทเลอกมาวดคาความถกตองการพยากรณได 91.22% เทคนค Information Gain คดเลอกคณลกษณะทส าคญออกมาจ านวน 6 คณลกษณะและน าคณลกษณะทเลอกมาวดคาความถกตองการพยากรณได 92.27% เทคนค Gain Ratio คดเลอกคณลกษณะทส าคญออกมาจ านวน 6 คณลกษณะและน าคณลกษณะทเลอกมาวดคาความถกตองการพยากรณได 92.27% เทคนค Chi-Square คดเลอกคณลกษณะทส าคญออกมาจ านวน 9 คณลกษณะและน าคณลกษณะทเลอกมาวดคาความถกตองการพยากรณได 92.27% เทคนค Forward Selection คดเลอกคณลกษณะทส าคญออกมาจ านวน 3 คณลกษณะและน าคณลกษณะทเลอกมาวดคาความถกตองการพยากรณได 95.07% เทคนค Backward Elimination คดเลอกคณลกษณะทส าคญออกมาจ านวน 26 คณลกษณะและน าคณลกษณะทเลอกมาวดคาความถกตองการพยากรณได 95.08% และเทคนค Evolutionary Selection คดเลอกคณลกษณะทส าคญออกมาจ านวน 16 คณลกษณะและน าคณลกษณะทเลอกมาวดคาความถกตองการพยากรณได 95.26%

บทท 5

สรป อภปราย และขอเสนอแนะ 5.1 สรปผลการวจย

บทความวจยนไดศกษาเกยวกบการเปรยบเทยบวธการคดเลอกคณลกษณะทส าคญในการปรบปรงการพยากรณมะเรงเตานม โดยใชวธการคดเลอกคณลกษณะทส าคญจากเทคนคตางๆจ านวน 7 เทคนค ไดแก เทคนค Correlation Based Feature Selection เทคนค Information Gain (IG) เทคนค Gain Ratio (GR) เทคนค Chi-Square เทคนค Forward Selection เทคนค Backward Elimination และเทคนค Evolutionary Selection หลงจากนนน าผลการคดเลอกในแตละเทคนค มาค านวณหาคาความถกตองในการพยากรณการเปนมะเรงเตานมดวยเทคนคซพพอรตเวกเตอร แมชชน (Support Vector Machine) จากผลการทดลองในการใชเทคนคซพพอรตเวกเตอรแมชชนวดคาความถกตองในการพยากรณการเปนมะเรงเตานมกบจ านวนคณลกษณะของขอมลทไดจากการเกบมาโดยไมมการลดคณลกษณะเลยจ านวน 30 คณลกษณะ ไดคาความถกตองในการพยากรณการเปนมะเรงเตานมเทากบ 91.39% และจะเหนวาเมอใชเทคนคตางๆในการคดเลอกคณลกษณะทส าคญน ามาวดคาความถกตองในการพยากรณการเปนมะเรงเตานมดวยเทคนคซพพอรตเวกเตอรแมชชนสามารถลดจ านวนคณลกษณะและเพมประสทธภาพในการจ าแนกขอมลดงน เทคนค Correlation Based Feature Selection ลดคณลกษณะทส าคญออกมาเหลอเพยงจ านวน 3 คณลกษณะและใหผลการวดคาความถกตองของการพยากรณได 91.22% เทคนค Information Gain ลดคณลกษณะทส าคญออกมาเหลอเพยงจ านวน 9 คณลกษณะและใหผลการวดคาความถกตองของการพยากรณได 92.27% เทคนค Gain Ratio ลดคณลกษณะทส าคญออกมาเหลอเพยงจ านวน 9 คณลกษณะและใหผลการวดคาความถกตองของการพยากรณได 92.27% เทคนค Chi-Square ลดคณลกษณะทส าคญออกมาเหลอเพยงจ านวน 14 คณลกษณะและใหผลการวดคาความถกตองของการพยากรณได 92.27% เทคนค Forward Selection ลดคณลกษณะทส าคญออกมาเหลอเพยงจ านวน 3 คณลกษณะและใหผลการวดคาความถกตองของการพยากรณได 95.07% เทคนค Backward Elimination ลดคณลกษณะทส าคญออกมาเหลอเพยงจ านวน 26 คณลกษณะและใหผลการวดคาความถกตองของการพยากรณได 95.08% และเทคนค Evolutionary Selection สามารถลดคณลกษณะทส าคญ

56

ออกมาเหลอเพยงจ านวน 16 คณลกษณะและใหผลการวดคาความถกตองของการพยากรณได 95.26% 5.2 อภปรายผล

การวจยนมวตถประสงคเพอศกษาการคดเลอกคณลกษณะทส าคญทใชในการวเคราะหขอมลเพอปรบปรงการพยากรณการเปนมะเรงเตานม โดยมสมมตฐานการวจยวา การคดเลอกคณลกษณะทส าคญจะท าใหจ านวนมตของขอมลทใชในการวเคราะหขอมลลดลง และนาจะมผลในการเพมประสทธภาพการวดคาความถกตองในการพยากรณการเปนมะเรงเตานม จงไดท าการศกษาเปรยบเทยบเทคนคการคดเลอกคณลกษณะทส าคญจ านวน 7 เทคนคไดแก เทคนค Correlation Based Feature Selection เทคนค Information Gain (IG) เทคนค Gain Ratio (GR) เทคนค Chi-Square เทคนค Forward Selection เทคนค Backward Elimination และ เทคนค Evolutionary Selection และใชขอมลในการวเคราะหจาก UCI Machine Learning Repository เปนคนทยงมชวตจ านวน 569 คน จากผลการทดลองถาเราใชขอมลทงหมดโดยไมมการลดจ านวนมตขอมลจะไดคาความถกตองการพยากรณการเปนมะเรงเตานมเทากบ 91.39% ขณะทเมอใชเทคนค Evolutionary Selection สามารถคดเลอกคณลกษณะทส าคญเพอใชในการวเคราะหขอมลเพยง 16 คณลกษณะและใหคาความถกตองการพยากรณการเปนมะเรงเตานมไดดทสดเทากบ 95.26% จะเหนวาการคดเลอกคณลกษณะทส าคญดวยเทคนค Evolutionary Selection สามารถลดมตของขอมลจาก 30 คณลกษณะลงมาเหลอเพยง 16 คณลกษณะ และสามารถเพมความแมนย าในการวดคาความถกตองการพยากรณการเปนมะเรงเตานมจาก 91.39% มาเปน 95.26% 5.3 ขอเสนอแนะ เนองจากเทคนคทใชในการวดคาความถกตองการพยากรณการเปนมะเรงเตานมนอกเหนอจากเทคนคซพพอรตเวกเตอรแมชชน (Support Vector Machine) ยงมอกหลายเทคนค เชน เทคนคตนไมการตดสนใจ (Decision Tree) เทคนคแบบเครอขายใยประสาท (Neural Network) หรอเทคนคแบบเบยส (Bayes Classifier) ดงนนจงเปนสงทนาสนใจในการทดลองเพอดวาเทคนคตางๆจะไดคาความถกตองในการพยากรณเปนอยางไรเมอเทยบกบเทคนคซพพอรตเวกเตอรแมชชน

57

บรรณานกรม

58

บรรณานกรม

จรา แกวสวรรณ. 2006. “การตรวจจบและการแกไขการวางตวของภาพโดยใชซพพอรตเวกเตอร

แมชชน.”, วทยานพนธปรญญามหาบณฑต สาขาเทคโนโลยคอมพวเตอร คณะครศาสตร

อตสาหกรรม สถาบนเทคโนโลยพระจอมเกลาพระนครเหนอ.

ทรงศกด ภสออน. 2554. การประยกตใช SPSS วเคราะหขอมลงานวจย. มหาสารคาม :

มหาวทยาลยมหาสารคาม.

นธนนท มาตา และคณะ. 2558. “การคนหาปจจยเพอสรางโมเดลส าหรบพยากรณการควบคม

ประตระบายน า.”, การประชมวชาการระดบประเทศดานเทคโนโลยสารสนเทศ ครงท 7.

ระหวางวนท 29-30 ตลาคม 2558 ณ สถาบนเทคโนโลยพระจอมเกลาเจาคณทหารลาดกระบง

หนา 352-357.

นภาพร ชนะมาร และพรรณ สทธเดช. 2557. “การวเคราะหปจจยการเรยนรดวยการคดเลอก

คณสมบตและการพยากรณ.”, วารสารมหาวทยาลยราชภฏสกลนคร 6(12), 31-45.

น าทพย มากนคร และมาลรตน โสดานล. 2557. “การเปรยบเทยบวธการเลอกคณลกษณะท

เหมาะสมเพอ การจดหมวดหมเวบเพจผดกฎหมายโดยใชเทคนคการท าเหมองขอมล.”,

ประชมวชาการระดบชาตดานคอมพวเตอรและเทคโนโลยสารสนเทศ ครงท 10. 8 - 9

พฤษภาคม 2557 ณ มหาวทยาลยเทคโนโลยพระจอมเกลาพระนครเหนอ ภเกต, หนา 168-

173.

พฤฒพงศ เพงศร และคณะ. 2557. “การลดมตขอมลการวเคราะหความสมพนธและการประยกต

ส าหรบวเคราะหขอมลพนฐานการใชงานสมารทโฟน.”, ประชมวชาการระดบชาตดาน

คอมพวเตอรและเทคโนโลยสารสนเทศ ครงท 10. 8 - 9 พฤษภาคม 2557 ณ มหาวทยาลย

เทคโนโลยพระจอมเกลาพระนครเหนอ ภเกต, หนา 528–534.

ภทราวฒ แสงศร. 2553. “การคดแยกประเภทของมะเรงเมดเลอดขาวโดยใชวธการจดอนดบ

รวมกบเทคนคซพพอรตเวกเตอรแมชชน.”, วารสารวจย มข.(บศ.) 10 (2) : เม.ย.-ม.ย. 2553,

หนา 10-17.

59

เอกสทธ พชรวงศศกดา. 2557. การวเคราะหขอมลดวยเทคนค ดาตา ไมนนง เบองตน (An

Introduction to Data Mining Techniques). กรงเทพฯ, หนา 53-57

เอกสทธ พชรวงศศกดา. 2559. Advanced Predictive Modeling with R & RapidMiner Studio

7. พมพครงท 6. กรงเทพฯ: เอเชย ดจตอลการพมพ.

Bing Xue, Mengjie Zhang, Will N. Browne. 2016. “A Survey on Evolutionary Computation

Approaches to Feature Selection.” IEEE Transactions on Evolutionary Computation,

Volume: 20 Issue: 4, Aug. 2016

Brian S. Everitt. 2010. Multivariable Modeling and Multivariate Analysis for The

Behavioral Sciences. Taylor & Francis Group, LLC.

Colin Shearer. 2000. “The CRISP-DM Model : The New Blueprint for Data Mining.”

JOURNAL OF DATA WAREHOUSING, Volume 5 Number 4, Fall 2000 : p13

Galavotti, L., Sebastiani, F. and Simi, M. 2000. “Feature Selection and Negative Evidence in

Automated Text Categorization.”, Proceedings of KDD-00, 2000.

Jaiwei Han, Micheline Kamber, and Jian Pei. 2012. Data Mining Concepts and Techniques.

New York: Elsevier Inc., page 104.

Majid Bahrepour. 2018. “The Forgotten Step in CRISP-DM and ASUM-DM Methodologies.” [online] Available: https://sharing.luminis.eu/blog/the-forgotten-step-in-crisp-dm-and-asum- dm-methodologies/, [Accessed : 14/01/2019]

Mark A. Hall. 1999. “Correlation-based Feature Selection for Machine Learning.” Doctor of

Philosophy. Department of Computer Science, The University of Waikato, Hamilton,

New Zealand.

P.-N. Tan, M. Steinbach, and V. Kumar. 2006. Introduction to data mining. vol. 1: Pearson

Addison Wesley Boston, 2006.

60

ประวตยอผวจย

ชอ นางอจจมา มณฑาพนธ

วน เดอน ปเกด วนท 30 สงหาคม 2501

สถานทเกด กรงเทพมหานคร

สถานทอยปจจบน บานเลขท 1486 ซอยปารชาต ถนนสทธสาร

เขตหวยขวาง กทม. 10310

ต าแหนงหนาทการงานปจจบน อาจารยประจ าสาขาวชาวทยาการคอมพวเตอรประยกต

สถานทท างานปจจบน คณะเทคโนโลยสารสนเทศ มหาวทยาลยศรปทม

บางเขน

ประวตการศกษา พ.ศ. 2523 วท.บ. (สถต) จาก มหาวทยาลยศลปากร

ค.ศ. 1982 M.S. (Computer Science)

Florida Institute of Technology, U.S.A.