90
บบบบบ 9 บบบบบบบบบบบบบบบบบ บบบบ (ANOMALY DETECTION) บบบ บบ. บบบบบบบบบ บบบบ บบบบบบบบบบบ บบบบบบบบบบบบบบบบ บบบบบบบบบบบบบบบบบบบ 1

09 anomaly detection

  • Upload
    -

  • View
    344

  • Download
    3

Embed Size (px)

Citation preview

Page 1: 09 anomaly detection

บทท�� 9 การตรวจจ�บความผิ�ดปกต� (ANOMALY DETECTION)

โดย ดร. หท�ยร�ตน์� เกต�มณี�ชั�ยร�ตน์�

ภาคว�ชัาการจ�ดการเทคโน์โลย�การผิล�ตและสารสน์เทศ

1

Page 2: 09 anomaly detection

เน์"#อหา ความหมายของการตรวจจ�บความผิ�ดปกต�

ต�วอย'างการน์(าไปใชั+ใน์งาน์ด+าน์ต'างๆ ป-ญหาของการตรวจจ�บความผิ�ดปกต�

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

2

Page 3: 09 anomaly detection

ความหมายของการตรวจจ�บความผิ�ดปกต�

การตรวจจ�บความผิ�ดปกต� เป�นการกล่�าวถึ�งร�ปแบบการตรวจจ�บสิ่��งที่��ไม�สิ่อดคล่ องก�บพฤต�กรรมปกต�ที่��ถึ�กสิ่ร างขึ้�$นในชุ'ดขึ้ อม�ล่ ซึ่��งเป�นการตรวจจ�บการบ'กร'กก�จกรรมที่��ผิ�ดแปล่กไปจากพฤต�กรรมปกต�ที่��สิ่ร างขึ้�$น

ต�วอย่�างเชุ�น เด*กม� IQ ได 195 น+$าหน�กขึ้องคน 220 ก�โล่กร�ม ความสิ่�งขึ้องคน 210 ซึ่.ม. ซึ่��งถึ.อว�าม�ความผิ�ดปกต�จากล่'�มขึ้ อม�ล่ที่��วไป

3

Page 4: 09 anomaly detection

ซึ่��งค�าผิ�ดปกต�ม�โอกาสิ่เก�ดขึ้�$นได บนพ.$นฐานขึ้องเหต'ผิล่ 2 ประการค.อ

1) การจดบ�นที่�กหร.อเก*บขึ้ อม�ล่ม�ความคล่าดเคล่.�อน 2) กล่'�มต�วอย่�างที่��เก*บรวบรวมขึ้ อม�ล่มา ม�ความแตกต�างไปจากกล่'�มจร�ง

ซึ่��งการเก�ดค�าผิ�ดปกต�ประการแรกน�$น สิ่ามารถึเก�ดขึ้�$นได เสิ่มอ จ�งควรม�การตรวจสิ่อบขึ้ อม�ล่ให ถึ�กต องก�อนว�เคราะห1สิ่ถึ�ต�ใด ๆ เสิ่�ย่ก�อน

ความหมายของการตรวจจ�บความผิ�ดปกต�

4

Page 5: 09 anomaly detection

ต�วอย'างการน์(าไปใชั+ใน์งาน์ด+าน์ต'างๆ

ต�วอย'างของความผิ�ดปกต�ท��เก�ดข/#น์ใน์ชั�ว�ตจร�ง การตรวจจ�บการบ'กร'กที่างเคร.อขึ้�าย่ การตรวจสิ่อบการที่'จร�ตบ�ตรเครด�ต ที่างด านการแพที่ย่1 การว�น�จฉั�ย่โรค การประมวล่ผิล่ภาพหร.อการตรวจสิ่อบที่างด าน

กล่ องวงจรป5ด5

Page 6: 09 anomaly detection

Fraud Detection

ต�วอย'างการน์(าไปใชั+ใน์งาน์ด+าน์ต'างๆ

การตรวจจ�บการบ'กร'กที่างเคร.อขึ้�าย่

6

Page 7: 09 anomaly detection

การใชุ NIDS ในการตรวจสิ่อบ ความผิ�ดปกต� ในระบบเคร.อ

ขึ้�าย่ โดย่ตรวจสิ่อบจาก

Hardware

Instruction Detection

ต�วอย'างการน์(าไปใชั+ใน์งาน์ด+าน์ต'างๆ

7

Page 8: 09 anomaly detection

ต�วอย่�าง ภาพการระบ'ต+าแหน�งสิ่ภาพพ.$นที่��เก�ดห�มะในเขึ้ตที่��สิ่นใจ

Ecosystem Disturbance

ต�วอย'างการน์(าไปใชั+ใน์งาน์ด+าน์ต'างๆ

8

Page 9: 09 anomaly detection

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต� ได+แก'

1. ธรรมชุาต�ขึ้องขึ้ อม�ล่น+าเขึ้ า (Nature of Input Data)

2. ประเภที่ขึ้องความผิ�ดปกต� (type of anomaly)

3. ล่าเบล่ขึ้ อม�ล่ (Data Label)

4. ผิล่ล่�พธ1ขึ้องการตรวจจ�บความผิ�ดปกต� (Output of anomaly detection)

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�

9

Page 10: 09 anomaly detection

1. ธรรมชัาต�ของข+อม1ลน์(าเข+า (Nature of Input Data)

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�

เป2น์การรวบรวมโดยท��ว ๆ ไปของต�วข+อม1ล ท��เร�ยกว'า

object record point vectorpattern event case sampleobservation entityร1ปแบบของข+อม1ลส'วน์ใหญ'จะเป2น์แบบระเบ�ยน์ (Record)

10

Page 11: 09 anomaly detection

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�1. ธรรมชัาต�ของข+อม1ลน์(าเข+า (Nature of Input Data)

ร1ปแบบของข+อม1ลท��น์(าเข+าแบ'งออกเป2น์ 2 ประเภทใหญ' ๆ ค"อ

1.Univariate 2.Multivariate11

Page 12: 09 anomaly detection

1. ธรรมชัาต�ของข+อม1ลน์(าเข+า (Nature of Input Data)ต�วข+อม1ลสามารถอธ�บายได+โดยใชั+กล�'มของค�ณีล�กษณีะ ท��เร�ยกว'า

variable characteristic feature field dimension ค�ณีล�กษณีะของข+อม1ล ม�ร1ปแบบด�งน์�#

1. Binary2. Categorical3. Continuous4. Hybrid

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�

12

Page 13: 09 anomaly detection

1. ธรรมชัาต�ของข+อม1ลน์(าเข+า (Nature of Input Data)

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�

cate

gorical

contin

uous

contin

uous

cate

gorical

Tid SrcIP Duration Dest IPNumberof bytes

Internal

1 206.163.37.81 0.10 160.94.179.208 150 No

2 206.163.37.99 0.27 160.94.179.235 208 No

3 160.94.123.45 1.23 160.94.179.221 195 Yes

4 206.163.37.37 112.03 160.94.179.253 199 No

5 206.163.37.41 0.32 160.94.179.244 181 No

binar

y

13

Page 14: 09 anomaly detection

2. ประเภทของความผิ�ดปกต� (type of anomaly)ความผิ�ดปกต�สามารถแบ'งออกได+เป2น์ 3 ประเภท

1. ความผิ�ดปกต�ตามต+าแหน�ง (Point anomaly)

2. ความผิ�ดปกต�ตามบร�บที่ (Contextual Anomalies)

3. ความผิ�ดปกต�จากการรวบรวม (Collective Anomalies)

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�

14

Page 15: 09 anomaly detection

2. ประเภทของความผิ�ดปกต� (type of anomaly)

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�

1. ความผิ�ดปกต�ตามต(าแหน์'ง (Point anomaly)

N1 , N2 เป�นพ.$นที่��ขึ้องพฤต�กรรมปกต�O1 , O2 เป�นต+าแหน�งที่��ม�ความผิ�ดปกต�ต+าแหน�งที่��อย่��ภาย่ใน

ขึ้อบเขึ้ต O3 จะเป�นต+าแหน�งที่��ม�ความผิ�ดปกต�ด วย่

15

Page 16: 09 anomaly detection

2. ประเภทของความผิ�ดปกต� (type of anomaly)

2. ความผิ�ดปกต�ตามบร�บท (Contextual Anomalies)

ถึ าต�วขึ้ อม�ล่เป�นความผิ�ดปกต�ในบร�บที่เฉัพาะ ด�งน�$นขึ้ อม�ล่สิ่�วนด�งกล่�าว

จะตกอย่��ในสิ่�วนขึ้องบร�บที่ที่��ม�ความผิ�ดปกต� อธ�บาย่ขึ้ อม�ล่โดย่ใชุ กล่'�มขึ้องค'ณล่�กษณะ 2 กล่'�ม ค.อ

1. ค'ณล่�กษณะบร�บที่ (Contextual attributes)

2. ค'ณล่�กษณะพฤต�กรรม (Behavioral attributes)

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�

16

Page 17: 09 anomaly detection

2. ประเภทของความผิ�ดปกต� (type of anomaly)

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�

2. ความผิ�ดปกต�ตามบร�บท (Contextual Anomalies)

1. ค�ณีล�กษณีะบร�บท (Contextual attributes)

เป�นการใชุ เพ.�อก+าหนดบร�บที่ (หร.อบร�เวณใกล่ เค�ย่ง) สิ่+าหร�บต�วอย่�าง เชุ�น ในชุ'ดขึ้ อม�ล่เก��ย่วก�บอากาศ ต+าแหน�งขึ้องล่องต�จ�ดแล่ะ ล่ะต�จ�ดจะม�ล่�กษณะเป�นค'ณล่�กษณะบร�บที่ ในขึ้ อม�ล่อน'กรมเวล่าสิ่�วนขึ้องเวล่าจะม�ค'ณล่�กษณะบร�บที่ ซึ่��งก+าหนดต+าแหน�งขึ้องต�วอย่�างบนอน'กรมที่�$งหมด

17

Page 18: 09 anomaly detection

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�

2. ค�ณีล�กษณีะพฤต�กรรม (Behavioral attributes)

2. ความผิ�ดปกต�ตามบร�บท (Contextual Anomalies)

จะอธ�บาย่ขึ้ อม�ล่ที่��ไม�เป�นค'ณล่�กษณะบร�บที่ เชุ�น ชุ'ดขึ้ อม�ล่เก��ย่วก�บอากาศที่��อธ�บาย่ค�าเฉัล่��ย่ปร�มาณน+$าฝนที่�$งโล่ก จ+านวนขึ้องปร�มาณน+$าฝนที่'กต+าแหน�ง จะเป�นค'ณล่�กษณะพฤต�กรรม พฤต�กรรมผิ�ดปกต�เป�นการก+าหนดโดย่ใชุ ค�าสิ่+าหร�บค'ณล่�กษณะพฤต�กรรมภาย่ในบร�บที่จ+าเพาะ

18

Page 19: 09 anomaly detection

2. ประเภทของความผิ�ดปกต� (type of anomaly)

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�

2. ความผิ�ดปกต�ตามบร�บท (Contextual Anomalies)

จากภาพ อ�ณีหภ1ม�ท��เวลา t1 และ t2 จะเหม"อน์ก�น์ แต'เก�ดใน์บร�บทท��แตกต'างก�น์ ใน์กรณี�น์�# อ�ณีหภ1ม�ท��เวลา t2 จะถ1กพ�จารณีาเป2น์ความผิ�ดปกต� 19

Page 20: 09 anomaly detection

2. ประเภทของความผิ�ดปกต� (type of anomaly)

3. ความผิ�ดปกต�จากการรวบรวม (Collective Anomalies)

เป�นความผิ�ดปกต�ขึ้องต�วขึ้ อม�ล่ที่��เก�ดจากการเก*บรวบรวมต�วขึ้ อม�ล่ที่��เก��ย่วขึ้ องที่�$งหมด ต�วขึ้ อม�ล่ในความผิ�ดปกต�จากการรวบรวมอาจจะไม�เป�นความผิ�ดปกต�โดย่ต�วม�นเอง แต�การรวบรวมขึ้ อม�ล่ที่��เก�ดขึ้�$นเป�นการรวบรวมที่��ผิ�ดปกต� หร.อที่+าให ต�วขึ้ อม�ล่ที่��ที่+าการรวบรวมเก�ดความผิ�ดปกต�ขึ้�$น ม�ความเก��ย่วขึ้ องก�บขึ้ อม�ล่ประเภที่ที่��เป�น - ข+อม1ลท��เป2น์แบบอน์�กรม , ข+อม1ลท��เก��ยวก�บระยะ , ข+อม1ลท��เป2น์แบบกราฟ

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�

20

Page 21: 09 anomaly detection

2. ประเภทของความผิ�ดปกต� (type of anomaly)

3. ความผิ�ดปกต�จากการรวบรวม (Collective Anomalies)

จากภาพ การรวบรวมข+อม1ลท��เก�ดข/#น์เป2น์การรวบรวมท��ผิ�ดปกต� ท(าให+ต�วข+อม1ลท��ท(าการรวบรวมเก�ดความผิ�ดปกต�ข/#น์

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�

21

Page 22: 09 anomaly detection

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�

3. ลาเบลข+อม1ล (Data Label)

ล่าเบล่เก��ย่วขึ้ องก�บต�วขึ้ อม�ล่ ถึ าขึ้ อม�ล่เป�นความปกต�หร.อความผิ�ดปกต� ต�วขึ้ อม�ล่ควรจะได ร�บล่าเบล่ขึ้ อม�ล่ที่��ถึ�กต อง แล่ะเป�นต�วแที่นขึ้องประเภที่พฤต�กรรมที่�$งหมด

การได ร�บล่าเบล่ขึ้องกล่'�มขึ้ อม�ล่ผิ�ดปกต�ที่�$งหมด เป�นเร.�องที่��ที่+าได ย่ากกว�าการร�บล่าเบล่ขึ้องกล่'�มขึ้ อม�ล่ที่��ปกต�เที่คน�คตรวจจ�บความผิ�ดปกต�ที่��ด+าเน�นการในร�ปแบบน�$ม� 3 ร�ปแบบค.อ

1. Supervised anomaly detection 2. Semi-Supervised anomaly detection 3. Unsupervised anomaly detection

22

Page 23: 09 anomaly detection

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�

3. ลาเบลข+อม1ล (Data Label)

1. Supervised anomaly detection

เที่คน�คน�$ต องการชุ'ดขึ้ อม�ล่การสิ่อนที่��ม�การก+าหนดล่าเบล่ให ก�บขึ้ อม�ล่ที่�$งกล่'�มขึ้ อม�ล่ปกต� แล่ะกล่'�มขึ้ อม�ล่ผิ�ดปกต� ว�ธ�การโดย่ที่��วไปขึ้องเที่คน�คน�$เป�นการสิ่ร างร�ปแบบที่+านาย่สิ่+าหร�บกล่'�มขึ้องความปกต� แล่ะผิ�ดปกต�

2. Semi-Supervised anomaly detection

เที่คน�คน�$ต องการชุ'ดขึ้ อม�ล่การสิ่อนที่��ม�ล่าเบล่ขึ้ อม�ล่สิ่+าหร�บกล่'�มขึ้องความปกต�เพ�ย่งอย่�างเด�ย่ว โดย่กล่'�มขึ้องความผิ�ดปกต�จะไม�ต องการล่าเบล่ก+าก�บ

23

Page 24: 09 anomaly detection

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�

3. ลาเบลข+อม1ล (Data Label)

3. Unsupervised anomaly detection

เที่คน�คน�$ด+าเน�นการโดย่ไม�ต องการชุ'ดขึ้ อม�ล่การสิ่อน แล่ะเป�นเที่คน�คที่��ม�ความเหมาะสิ่มมากที่��สิ่'ด เที่คน�คน�$จะสิ่ร างสิ่มมต�ฐาน โดย่ขึ้ อม�ล่ปกต�จะม�ความถึ��มากกว�าขึ้ อม�ล่ผิ�ดปกต�ในชุ'ดขึ้ อม�ล่ที่ดสิ่อบ ถึ าหากสิ่มมต�ฐานน�$ไม�เป�นจร�งจะเก�ดอ�ตรา False alarm สิ่�ง

24

Page 25: 09 anomaly detection

ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�

4. ผิลล�พธ�ของการตรวจจ�บความผิ�ดปกต� (Output of Anomaly Detection)

1. Label

เป�นการก+าหนดล่าเบล่ (ปกต�หร.อผิ�ดปกต�) ให ก�บแต�ล่ะขึ้ อม�ล่ที่ดสิ่อบ2. Score

เป�นการก+าหนดคะแนนความผิ�ดปกต�ให ก�บขึ้ อม�ล่ในชุ'ดขึ้ อม�ล่ที่ดสิ่อบโดย่ขึ้�$นอย่��ก�บระด�บขึ้องขึ้ อม�ล่ที่��ถึ�กพ�จารณาความผิ�ดปกต� ผิล่ล่�พธ1ขึ้องเที่คน�คน�$เป�นราย่การระด�บชุ�$นขึ้องความผิ�ดปกต� การว�เคราะห1อาจจะเล่.อกว�เคราะห1ความผิ�ดปกต�ที่��อย่��บนสิ่'ด หร.อใชุ threshold เพ.�อเล่.อกความผิ�ดปกต�

25

Page 26: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต� เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต� แบ'งออก

เป2น์ 4 เทคน์�ค ได+แก'1. Statistical Anomaly Detection2. Classification Based Anomaly

Detection Techniques3. Clustering Based Anomaly

Detection Techniques4. Nearest Neighbor Based

Anomaly Detection Techniques 26

Page 27: 09 anomaly detection

1. Statistical Anomaly Detection

ว�ธ�การที่างด านสิ่ถึ�ต�สิ่+าหร�บการตรวจจ�บความผิ�ดปกต�

สถ�ต� หมาย่ถึ�ง ว�ธ�การที่��ว�าด วย่การเก*บรวบรวมขึ้ อม�ล่ การน+าเสิ่นอขึ้ อม�ล่ การว�เคราะห1ขึ้ อม�ล่ แล่ะการต�ความหมาย่ขึ้ อม�ล่ สิ่ถึ�ต�ในความหมาย่น�$เป�นที่�$งว�ที่ย่าศาสิ่ตร1แล่ะศ�ล่ปศาสิ่ตร1 เร�ย่กว�า "สิ่ถึ�ต�ศาสิ่ตร1

ว�ธ�การตรวจจ�บความผิ�ดปกต�และเทคน์�คต'างๆ

27

Page 28: 09 anomaly detection

สิ่ถึ�ต�แบ�งออกเป�น 2 ประเภที่ 1. สถ�ต�พรรณีน์า (Descriptive Statistics) เป�นสิ่ถึ�ต�ที่��ใชุ อธ�บาย่ค'ณล่�กษณะต�าง ๆ ขึ้องสิ่��งที่��ต องการ

ศ�กษาในกล่'�มใดกล่'�มหน��ง ว�ธ�การที่างสิ่ถึ�ต�ที่��อย่��ในประเภที่น�$ เชุ�น การจ�ดกระที่+าก�บขึ้ อม�ล่โดย่น+าเสิ่นอในร�ปขึ้องตารางหร.อ

ร�ปภาพ การแปล่งคะแนนให อย่��ในร�ปแบบอ.�น ๆ เชุ�น เปอร1เซึ่*นต1

ไที่ล่1 คะแนนมาตรฐาน ฯ การค+านวณหาค�าเฉัล่��ย่หร.อการกระจาย่ขึ้องขึ้ อม�ล่ เชุ�น

ม�ชุฌิ�มเล่ขึ้คณ�ต ม�ธย่ฐาน สิ่�วนเบ��ย่งเบนมาตรฐาน พ�สิ่�ย่ ฯ

ว�ธ�การตรวจจ�บความผิ�ดปกต�และเทคน์�คต'างๆ

28

Page 29: 09 anomaly detection

เป�นสิ่ถึ�ต�ที่��ใชุ อธ�บาย่ค'ณล่�กษณะขึ้องสิ่��งที่��ต องการศ�กษาในกล่'�มใดกล่'�มหน��งแล่ วสิ่ามารถึอ างอ�งไปย่�งกล่'�มอ.�น ๆ ได โดย่กล่'�มที่��น+ามาศ�กษาจะต องเป�นต�วแที่นที่��ด�ขึ้องประชุากร ต�วแที่นที่��ด�ขึ้องประชุากรได มาโดย่ว�ธ�การสิ่'�มต�วอย่�าง แล่ะต�วแที่นที่��ด�ขึ้องประชุากรจะเร�ย่กว�า "กล่'�มต�วอย่�าง"

ว�ธ�การตรวจจ�บความผิ�ดปกต�และเทคน์�คต'างๆ

2. สถ�ต�อ+างอ�ง (Inferential Statistics)

29

Page 30: 09 anomaly detection

สถ�ต�อ+างอ�งสามารถแบ'งออกได+เป2น์ 2 ประเภทย'อย ค"อ

1. สถ�ต�ม�พาราม�เตอร� (Parametric Statistics)• ต�วแปรที่��ต องการว�ดจะต องอย่��ในมาตราการว�ด

ระด�บชุ�วงขึ้�$นไป (Interval Scale) • ขึ้ อม�ล่ที่��เก*บรวบรวมได จากกล่'�มต�วอย่�างจะต องม�

การแจกแจงเป�นโค งปกต� • กล่'�มประชุากรแต�ล่ะกล่'�มที่��น+ามาศ�กษาจะต องม�

ความแปรปรวนเที่�าก�น

ว�ธ�การตรวจจ�บความผิ�ดปกต�และเทคน์�คต'างๆ

30

Page 31: 09 anomaly detection

2. สถ�ต�ไร+พาราม�เตอร� (Nonparametric Statistics)ต�วแปรที่��ต องการว�ดอย่��ในมาตราการว�ดระด�บใดก*ได

(Norminal Scale, Ordinal Scale, Interval Scale, RatioScale)

ขึ้ อม�ล่ที่��เก*บรวบรวมได จากกล่'�มต�วอย่�างม�การแจกแจงแบบใดก*ได

กล่'�มประชุากรแต�ล่ะกล่'�มที่��น+ามาศ�กษาไม�จ+าเป�นต องม�ความแปรปรวนเที่�าก�น

สถ�ต�ไร+พาราม�เตอร� เชั'น์ ไคสแควร�, Median Test, Sign test ฯลฯ

ว�ธ�การตรวจจ�บความผิ�ดปกต�และเทคน์�คต'างๆ

31

Page 32: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

การทดสอบส�ดส'วน์ประชัากรว'าเท'าก�บท��คาดหว�งหร"อไม'

0 : P1 : P2 … : Pk = P10 : P20 … : Pk0 1 : Pi Pi0 อย่�างน อย่ 1 ค�า ; i = 1, 2 ,…kโดย่ที่�� Pi0 = สิ่�ดสิ่�วนที่��คาดว�าจะเป�น ซึ่��งเป�นค�าคงที่�� อย่��ระหว�าง 0 – 1สิ่ถึ�ต�ที่��ใชุ ที่ดสิ่อบค.อ n

2 = i i ) 2

i=1 i32

Page 33: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

เม"�อ 2 = สิ่�ญล่�กษณ1ขึ้องไคสิ่แควร1 = ความถึ��ที่��แจงน�บได = ความถึ��ที่��คาดหว�งหร.อที่��ก+าหนดn = จ+านวน

ส1ตรค(าน์วณี = n pi0

เขึ้ตปฏิ�เสิ่ธ จะปฏิ�เสิ่ธ 0 เม.�อ 2 2 : k-1

33

Page 34: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

การทดสอบส�ดส'วน์ประชัากรว'าเท'าก�บท��คาดหว�งหร"อไม'ต�วอย'าง

ย่าแก ปวดศ�รษะชุน�ดหน��ง บร�ษ�ที่อ างว�าร�กษาผิ� ป@วย่หาย่ภาย่ใน 3 ชุ��วโมง ร อย่ล่ะ 90 เพ.�อที่ดสิ่อบสิ่รรพค'ณขึ้องย่าชุน�ดน�$ จ�งเล่.อกผิ� ป@วย่มา 400 คน แล่ะให ก�นย่าด�งกล่�าวพบว�าหาย่ภาย่ใน 3 ชุ��วโมง 320 คนย่าชุน�ดน�$สิ่รรพค'ณตามที่��อ างหร.อไม�

34

Page 35: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�การค(าน์วณี

ถึ าย่าน�$ม�สิ่รรพค'ณที่��อ างผิ� ป@วย่ 100 คน จะต องหาย่ 90 ฉัะน�$นถึ าที่ดล่องก�บผิ� ป@วย่ 400 คน จะต องหาย่ 360 คน แล่ะไม�หาย่ 40 คน จากหล่�กการน�$สิ่ามารถึ ค+านวณหาค�าไคสิ่แควร1 ด�งน�$

สมมต�ฐาน์ สิ่�ดสิ่�วนการหาย่ปวด : ไม�หาย่ปวด = 90 : 10

หร"อ 0 : P1 : P2 = 90 : 10

1 : P1 : P2 90 : 10

= np

35

Page 36: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

36

Page 37: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

ฉัะน�$น 2 = 44.44 น+าไปเปร�ย่บเที่�ย่บก�บค�า 2 ในตาราง df = 2-1 = 1 แล่ะ =0.05 =3.84 แสิ่ดงว�าค�า 2

ท��ค(าน์วณีได+มากกว'าค'าใน์ตาราง หมายความว'า

ย่าน�$ให ผิล่ต�างจากร อย่ล่ะ 90 น�$น ค.อ ไม�ม�สิ่รรพค'ณตามที่��อ างไว อน��ง ในการค+านวณค�า 2 ถึ า df = 1 หร.อ ค�า น อย่กว�า 5 ควรปร�บสิ่�ตรด วย่การเอา 0.5 ล่บออกจากผิล่ที่��ได ไม�ต�ดเคร.�องหมาย่ก�อนแล่ วจ�งย่กก+าล่�งสิ่องจ�งจะที่+าให ค�า 2 ที่��ได ตรงก�บความเป�นจร�งมากขึ้�$น37

Page 38: 09 anomaly detection

Mahalanobis distances

General Concepts:

D2 = (x - m)T c-1 (x - m)

D2 = Mahalanobis distance

x = Vecter of data

m = Vecter of mean values of indepndent variables

C-1 = Inverse Covariance matrix of independent variable

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

38

Page 39: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

Variable X: mean = 500Variable Y: mean = 500

39

Page 40: 09 anomaly detection

Covariance Matrix X Y

X 6291.55737 3754.32851

Y 3754.32851 6280.77066

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

40

Page 41: 09 anomaly detection

Given that Mahalanobis Distance D2 = (x - m)T c-1 (x - m)

(x – m) = 410 – 500 = -90 400 - 500 -100

C-1 = 6291.55737 3754.32851 -1 = 0.00025 - 0.000153754.32851 6280.77066 -0.00015 - 0.00025

Therefore D2 = (-90 -100) * 0.00025 - 0.00015

* -90

-0.00015 0.00025 -100

= 1.825 # answer

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

41

Page 42: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

42

Page 43: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

43

Page 44: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

44

Page 45: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

45

Page 46: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต� 2. Classification Based

Anomaly Detection Techniquesการจ�ดแบ�งประเภที่ได ร�บการน+ามาใชุ เพ.�อเร�ย่นร� ร�ปแบบจากกล่'�มขึ้องล่าเบล่ขึ้ อม�ล่ (การสิ่อน) แล่ะจ�ดกล่'�มขึ้ อม�ล่ที่ดสิ่อบเพ.�อใชุ ในการที่ดสิ่อบ

เที่คน�คในกล่'�มน�$ม�การด+าเน�นใน 2 ขึ้�$นตอนที่��ม�ล่�กษณะคล่ าย่คล่�งก�บขึ้�$นตอนการสิ่อน ต�วจ�ดแบ�งประเภที่จะเร�ย่นร� โดย่ใชุ ล่าเบล่ขึ้ อม�ล่การสิ่อนที่��ได ร�บจากขึ้�$นตอนที่��สิ่อง ต�วจ�ดแบ�งประเภที่จะที่+าการจ�ดกล่'�มขึ้ อม�ล่ที่ดสิ่อบออกเป�นกล่'�มปกต� หร.อผิ�ดปกต�

เที่คน�คในกล่'�มน�$สิ่ามารถึแบ�งออกเป�น 2 กล่'�มค.อ multi-class แล่ะ one-class

46

Page 47: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�Multi-class

จะถึ.อว�า ขึ้ อม�ล่การสิ่อนประกอบด วย่ล่าเบล่ขึ้ อม�ล่ที่��เป�นขึ้องกล่'�มปกต�หล่าย่ๆ กล่'�ม ต�วจ+าแนกจะที่+าการเร�ย่นร� เพ.�อจ+าแนกความแตกต�างระหว�างกล่'�มปกต�ก�บกล่'�มที่��เหล่.อ ขึ้ อม�ล่ที่ดสิ่อบจะถึ�กพ�จารณาว�าเป�นความผิ�ดปกต�

ถึ าไม�ถึ�กจ�ดกล่'�มว�าเป�นความปกต�โดย่ที่'กต�วจ�ดแบ�ง เที่คน�คอ.�นๆ ในกล่'�มน�$เก��ย่วขึ้ องก�บการใชุ คะแนนความเชุ.�อม��นด วย่สิ่ร างการที่+านาย่โดย่ต�วจ�ดแบ�ง

ถึ าต�วจ�ดแบ�งเชุ.�อม��นในการจ�ดแบ�งกล่'�ม ขึ้ อม�ล่ที่ดสิ่อบจะถึ�กก+าหนดเป�นความผิ�ดปกต� แต�ถึ ากล่'�มขึ้ อม�ล่ที่ดสิ่อบม�คะแนนความเชุ.�อม��นต+�าจะถึ�กกพ�จารณาเป�นความผิ�ดปกต�

47

Page 48: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�one-class

จะถึ.อว�าขึ้ อม�ล่การสิ่อนที่�$งหมดจะม�กล่'�มล่าเบล่เพ�ย่งกล่'�มเด�ย่ว แล่ะที่+าการเร�ย่นร� โดย่แย่กแย่ะขึ้อบเขึ้ตรอบๆ ขึ้ อม�ล่ปกต�โดย่ใชุ one-classification algorithm เชุ�น one-class SVMs แล่ะ oneclass Kernel Fisher Discriminates เป�นต น

ที่'ก ๆ ขึ้ อม�ล่ที่ดสิ่อบที่��ไม�ตกอย่��ภาย่ในขึ้อบเขึ้ตที่��เร�ย่นร� ว�าเป�น ความปกต� จะถึ�กประกาศเป�นความผิ�ดปกต�

48

Page 49: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

การจ�ดแบ�งกล่'�มแบบ multi-class (Varun Chandola แล่ะคณะ, 2007)

49

Page 50: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

การจ�ดแบ�งกล่'�มแบบ one-class (Varun Chandola แล่ะคณะ, 2007) 50

Page 51: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�Neural network

ขึ้�าย่งานประสิ่าที่ (Neural Networks) ค.อการจ+าล่องร�ปแบบการที่+างานขึ้องเซึ่ล่ล่1สิ่มองมน'ษย่1ที่��เร�ย่กว�า ต�วเซึ่ล่ล่1 (Cell Body) หร.อ น�วรอน (Neural) โดย่ขึ้�าย่งานประสิ่าที่เที่�ย่มสิ่ามารถึเร�ย่นร� จากประสิ่บการณ1 แล่ะสิ่ามารถึอน'มานจากสิ่��งที่��เร�ย่นร� ไปสิ่��สิ่��งที่��ไม�เคย่เร�ย่นร� มาก�อน ที่��เร�ย่กว�าความสิ่ามารถึในการบ�งชุ�$ที่� �วไป (Generalization)

51

Page 52: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�ขึ้�าย่งานประสิ่าที่ม�ค'ณสิ่มบ�ต� 2 ประการค.อ

- การเร�ย่นร� หร.อการสิ่อน (Learning or Training)

- การระล่�ก หร.อจดจ+าได (Recall)

52

Page 53: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

Supervised Learning

การเร�ยน์แบบม�การสอน์

53

Page 54: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

Unsupervised Learning

การเร�ยน์แบบไม'ม�การสอน์

54

Page 55: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

Beyesian network

ขึ้�าย่งาน Bayesian ถึ�กน+ามาใชุ สิ่+าหร�บการตรวจจ�บความผิ�ดปกต�ในว�ธ�การแบบ multi-class โดย่ขึ้�าย่งาน Bayesian เป�นกราฟอว�ฏิจ�กรระบ'ที่�ศที่าง (directed acyclic graph: DAG)

ขึ้�าย่งาน Bayesian เป�นเคร.�องม.อที่��สิ่+าค�ญชุน�ดหน��งในการสิ่ร างต�วแปรแบบความน�าจะเป�นโดย่การผิสิ่มผิสิ่านระหว�างที่ฤษฏิ�ความน�าจะเป�น แล่ะที่ฤษฏิ�กราฟ ที่+าให การที่+างานม�ประสิ่�ที่ธ�ภาพมากย่��งขึ้�$น

55

Page 56: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

X

56

Page 57: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

Support vector machinesประย่'กต1ใชุ ในการตรวจจ�บความผิ�ดปกต�ในว�ธ�การ One-class แล่ะเก��ย่วขึ้ องก�บว�ธ�การการเร�ย่นร� แบบม�ผิ� สิ่อนถึ�กน+ามาใชุ สิ่+าหร�บการแบ�งประเภที่แล่ะการถึอย่กล่�บ SVM จะสิ่ร างระนาบเก�นหร.อกล่'�มขึ้องระนาบเก�นในพ.$นที่��ขึ้ อม�ล่ม�ต�สิ่�ง โดย่เที่คน�คน�$จะที่+าการแบ�งกล่'�มขึ้ อม�ล่โดย่หาผิล่ล่�พธ1เป�นเสิ่ นแบ�งขึ้ อม�ล่2 กล่'�มค.อ กล่'�มขึ้ อม�ล่ปกต� แล่ะกล่'�มขึ้ อม�ล่ผิ�ดปกต� ออกจากก�นในร�ปแบบขึ้องระนาบหล่าย่ม�ต�เชุ�งเสิ่ น

57

Page 58: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�ผิลล�พธ�ใน์ร1ปแบบของระน์าบหลายม�ต�จะม�ค�ณีสมบ�ต�

เป�นระนาบหล่าย่ม�ต�ที่��ที่+าให ระย่ะห�างระหว�างกล่'�มขึ้ อม�ล่ที่�$งสิ่อง (ระย่ะที่างที่��ใกล่ ที่��สิ่'ดที่��เป�นไปได จากจ'ด 2 จ'ดในคนล่ะกล่'�มก�น) เป�นระย่ะห�างที่��มากที่��สิ่'ด หร.อเร�ย่กว�า ระย่ะขึ้อบมากสิ่'ด (Maximum Margin)

ในการเร�ย่นร� ขึ้อง SVM จะใชุ การเร�ย่นร� เพ�ย่งกล่'�มเด�ย่ว แล่ะเร�ย่นร� ขึ้อบเขึ้ตในสิ่�วนขึ้องขึ้ อม�ล่การสิ่อนที่��เป�นความปกต�

58

Page 59: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

59

Page 60: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

60

Page 61: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

61

Page 62: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

Rule Basedเที่คน�ค Rule Based ม�การประย่'กต1ใชุ ในว�ธ�การแบบ multi-class แล่ะแบบ one-class ซึ่��งกฎสิ่ร างขึ้�$นจากการเร�ย่นร� พฤต�กรรมปกต�ขึ้องระบบ ขึ้ อม�ล่ที่��ไม�ครอบคล่'มโดย่ที่'กๆ กฎจะถึ�กพ�จารณาเป�นความผิ�ดปกต�

เที่คน�คที่��ขึ้�$นก�บ Multi-class rule การที่+างานประกอบด วย่ 2 ขึ้�$นตอน

ข�#น์ตอน์แรกเป�นการเร�ย่นร� กฎจากชุ'ดขึ้ อม�ล่การสิ่อนโดย่ใชุ อ�ล่กอร�ที่�ม rule learning อย่�างเชุ�น RIPPER แล่ะ Decision Treesเป�นต น62

Page 63: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�Rule Based

ข�#น์ตอน์ท��สองเป�นการค นหาขึ้ อม�ล่ที่ดสิ่อบที่��ม�คะแนนความผิ�ดปกต� หร.อค�าความเชุ.�อม��นน อย่จะถึ�กระบ'เป�นความผิ�ดปกต�

63

Page 64: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

Rule Based

กฎความส�มพ�น์ธ� (Association Rule Mining) เป�นว�ธ�การค นหากฎความสิ่�มพ�นธ1ขึ้องขึ้ อม�ล่โดย่ค นหาความสิ่�มพ�นธ1ขึ้องขึ้ อม�ล่สิ่องชุ'ดขึ้ อม�ล่หร.อมากกว�าสิ่องชุ'ดขึ้ อม�ล่ขึ้�$นไปไว ด วย่ก�น กฎจะที่+าการว�ดโดย่ใชุ ขึ้ อม�ล่ 2 ต�วด วย่ก�นค.อค�าสิ่น�บสิ่น'น (Support) ซึ่��งเป�นเปอร1เซึ่*นต1ขึ้องการด+าเน�นการที่��กฎสิ่ามารถึน+าไปใชุ หร.อเป�นเปอร1เซึ่*นต1ขึ้องการด+าเน�นการที่��กฎที่��ใชุ ม�ความถึ�กต อง แล่ะขึ้ อม�ล่ค�าความม��นใจ (Confidence) ซึ่��งเป�นจ+านวนขึ้องกรณ�ที่��กฎถึ�กต องโดย่สิ่�มพ�นธ1ก�บจ+านวนขึ้องกรณ�ที่��กฎสิ่ามารถึน+าไปใชุ ได

64

Page 65: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

Rule Based

ความซึ่�บซึ่ อนในการค+านวณขึ้องเที่คน�คน�$จะขึ้�$นอย่��ก�บอ�ล่กอร�ที่�มจ�ดแบ�งประเภที่(classification algorithm) ที่��น+ามาใชุ งาน

65

Page 66: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต� 3. Clustering Based Anomaly

Detection Techniques การจ�ดกล�'มก+อน์ (Clustering) ค.อการแบ�งว�ตถึ'ใดๆ

ออกเป�นกล่'�มต�างๆ โดย่ที่��สิ่มาชุ�กในกล่'�มเด�ย่วก�น ม�ความคล่ าย่คล่�งก�น (Similarity) มากกว�าสิ่มาชุ�กต�างกล่'�ม

การจ�ดกล�'มแบ'งตามล�กษณีะว�ธ�ได+ 5 ว�ธ�หล�ก ว�ธ�แบ�งสิ่�วน (Partitioning) ว�ธ�ล่+าด�บขึ้�$น (Hierarchical) ว�ธ�ใชุ ความหนาแน�น (Density-Based) ว�ธ�ใชุ ตาราง (Grid-Based) ว�ธ�ใชุ แบบจ+าล่อง (Model-Based)

66

Page 67: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

เทคน์�คใน์กล�'มน์�#สามารถแบ'งตามสมม�ต�ฐาน์ออกเป2น์ 2 กล�'มด�งน์�#

กล�'มแรก ขึ้�$นอย่��ก�บสิ่มม'ต�ฐานที่��ว�า ขึ้ อม�ล่ปกต�“เป�นขึ้ อม�ล่ขึ้อง cluster ขึ้ณะที่��ความผิ�ดปกต�ไม�เป�นขึ้อง cluster ใดๆ ซึ่��งเที่คน�คในกล่'�มแรกน�$ม�”การประย่'กต1ใชุ clustering algorithm เพ.�อเร�ย่นร� ชุ'ดขึ้ อม�ล่ แล่ะการประกาศขึ้ อม�ล่ใดๆ ที่��ไม�เป�นขึ้อง cluster ที่��เป�นความผิ�ดปกต� เชุ�น DBSCAN, ROCK แล่ะ SNN clustering เป�นต น 67

Page 68: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

กล�'มท��สอง ขึ้�$นอย่��ก�บสิ่มม'ต�ฐานที่��ว�า ขึ้ อม�ล่ปกต�“จะอย่��ใกล่ ก�บต+าแหน�งตรงกล่างขึ้อง cluster ขึ้องต�วขึ้ อม�ล่เอง ขึ้ณะที่��ความผิ�ดปกต�จะอย่��ไกล่ออกไปจากต+าแหน�งตรงกล่าง Cluster ขึ้องต�วขึ้ อม�ล่ ”

เที่คน�คในกล่'�มที่��สิ่องน�$ประกอบด วย่ 2 ขึ้�$นตอน ค.อ - ขึ้�$นตอนแรก ขึ้ อม�ล่ถึ�กจ�ดกล่'�มก อนโดย่ใชุ Clustering algorithm - ขึ้�$นตอนที่��สิ่อง สิ่+าหร�บขึ้ อม�ล่ที่ดสิ่อบ โดย่ระย่ะห�างจากต+าแหน�งตรงกล่าง Cluster ขึ้องต�วขึ้ อม�ล่จะถึ�กพ�จารณาเป�นคะแนนความผิ�ดปกต�

68

Page 69: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

เทคน์�คท��ใชั+ใน์ 2 ว�ธ�การน์�# เชั'น์ - Self-Organizing Map (SOM)

- K-means Clustering - Expectation Maximization (EM) เป�นต น

ความซึ่�บซึ่ อนในการค+านวณขึ้องเที่คน�คน�$ขึ้�$นอย่��ก�บ Clustering algorithm ที่��น+ามาใชุ ในการสิ่ร าง cluster จากขึ้ อม�ล่ แล่ะในสิ่�วนขึ้องประสิ่�ที่ธ�ภาพในการที่+างานจะขึ้�$นอย่��ก�บ clustering algorithm ที่��น+ามาใชุ งานด วย่เชุ�นก�น

69

Page 70: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�ว�ธ�ท��วไปของการท(า Clustering

กล่'�มขึ้องขึ้ อม�ล่เก��ย่วก�บจ+านวนจ+าก�ดขึ้องกล่'�ม การว�เคราะห1ขึ้ อม�ล่แต�ล่ะขึ้ อม�ล่ ซึ่��งเก��ย่วขึ้ องก�บ

แต�ล่ะกล่'�มที่��ม�ความใกล่ เค�ย่งที่��สิ่'ด กรณ�การตรวจสิ่อบความผิ�ดปกต�

- กรณ�ขึ้ อม�ล่ที่��ไม�เหมาะสิ่มในกล่'�มใดๆ(สิ่�วนเหล่.อจาก clustering)

- กรณ�ขึ้ อม�ล่ในกล่'�มเล่*กๆ- กรณ�ขึ้ อม�ล่ในกล่'�มความหนาแน�นต+�า- กรณ�ขึ้ อม�ล่ที่��อย่��ไกล่จากจ'ดอ.�นๆในกล่'�ม

เด�ย่วก�น

70

Page 71: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�ร1ปการตรวจจ�บความผิ�ดปกต�ท��ข/#น์โดยว�ธ�

CLUSTERING

71

Page 72: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

FINDOUT ALGORITHMค.อขึ้�$นตอนว�ธ�การที่��หาออกมาโดย่ใชุ

(WaveCluster) คล่.�นในการแบ�งกล่'�มการแปล่งขึ้ อม�ล่กล่าย่เป�นสิ่�ญญาณหล่าย่

ล่�กษณะ(multidimensional signals) โดย่ใชุ คล่.�นล่�กเล่*ก(wavelet)ในการแปล่ง

72

Page 73: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�FINDOUT

ALGORITHMความถึ��สิ่�งขึ้องสิ่�ญญาณจะสิ่อดคล่ องก�บพ.$นที่�� เน.�องจากการเปล่��ย่นแปล่ง อย่�างรวดเร*วขึ้องการกระจาย่ เป�นเคร.�องแบ�งเขึ้ตขึ้องการแบ�งกล่'�ม

สิ่�วนความถึ��ต+�าจะตรงก�บพ.$นที่�� ที่��เป�นขึ้ อม�ล่ที่��เขึ้ ม

73

Page 74: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

เม.�อความถึ��สิ่�งแล่ะต+�าความถึ��เหล่�าน�$ถึ�กRemove แล่ะสิ่�วนที่��เหล่.อที่�$งหมดจะกล่าย่เป�นจ'ดที่��อย่��ขึ้ างนอก

FINDOUT ALGORITHM

74

Page 75: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต� ข+อด�

- ไม�ม�การควบค'ม - ขึ้�$นตอนว�ธ�ที่��ม�อย่��ในกล่'�มสิ่ามารถึเชุ.�อมเขึ้ าได

ข+อเส�ย- ถึ าหากขึ้ อม�ล่ไม�ม�กล่'�มหร.อขึ้�$นตอนว�ธ�ขึ้องกล่'�มไม�

สิ่ามารถึตรวจพบได น�$น ว�ธ�การอาจล่ มเหล่ว- การค+านวณที่��ม�ราคาแพง- โดย่ใชุ โครงสิ่ร างเป�นต�วว�ดหร.อต�วบ�งชุ�$อาจที่+าให เก�ด

ปCญหาน�$ได - ในชุ�องว�างที่��ม�ม�ต�สิ่�ง- ขึ้ อม�ล่จะเบาบางแล่ะระย่ะที่างระหว�างขึ้ อม�ล่ที่�$งสิ่อง

ขึ้ อม�ล่ที่��ม�การบ�นที่�กอาจม� ความคล่ าย่ก�นมาก

75

Page 76: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต� 4. Nearest Neighbor Based Anomaly Detection Techniques

หล�กการ เป�นการแบ�งประเภที่ขึ้องขึ้ อม�ล่ ในสิ่�วนขึ้องการclassification โดย่การแบ�งประเภที่ขึ้องขึ้ อม�ล่น�$น

ขึ้�$นอย่��ก�บ Attributes แล่ะ Trainning Samples

ในที่��น�$ เราจะก+าหนดจ'ดการค นหา ค�า k ซึ่��งเป�น การ หาระย่ะที่างที่��ใกล่ ระหว�างจ'ด query instance

(จ'ดที่��หาค�า,จ'ดที่��สิ่นใจ) แล่ะtraining samples 76

Page 77: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�K nearest neighbor

algorithm

ค.อ สิ่��งที่��เขึ้ าใจได ง�าย่ ที่+างานบนพ.$นฐานขึ้องระย่ะห�าง ที่��น อย่ที่��สิ่'ดจาก ต�วอย่�างค+าถึาม (query

instance) ถึ�ง training samples เพ.�อ พ�จารณา

K-nearest neighbors. หล่�งจากการรวมกล่'�ม ขึ้อง K nearest neighbors

เราจะสิ่นใจองค1ประกอบใหญ�เด�ย่ว สิ่��งน�$ K-nearest neighbors สิ่ามารถึพย่ากรณ1ต�วอย่�างค+าถึามได

77

Page 78: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�ต�วอย'างการน์(าไปใชั+

จากขึ้ อม�ล่เราม� ขึ้ อม�ล่ที่��เป�น training data แล่ะ ต องการที่+านาย่ ค�า

ในตาราง y ในที่��น�$ เราให เป�นคล่าสิ่

คลาส ค.อ ค�าที่��เราจะที่+านาย่ ว�า ขึ้ อม�ล่น�$นจะ ถึ�กแบ�งออกมาได เป�นสิ่องคล่าสิ่ ค.อ บวก(+) แล่ะ

ล่บ(-) คล่ าย่ ๆ ก�บหล่�กการขึ้อง K-mean

78

Page 79: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

79

Page 80: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

80

Page 81: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต� เราไม�อาจที่ราบว�า ค�าที่��เราจะที่+านาย่น�$น จะเป�นค�า

บวก หร.อค�าล่บ จ�งต องน+าหล่�กการที่าง Nearest Neighbor algorithm มาที่+าการที่+านาย่ โดย่เรา

จะก+าหนดค�า k =8 หร.อ (เราให ม�เพ.�อนบ านที่��ใกล่ ที่��สิ่'ดที่��เป�นไปได

ม�ค�าเที่�าก�บ 8) เป�นพาราม�เตอร1เพ.�อที่��จะใชุ ค+านวณ ระย่ะที่างระหว�าง จ'ด query instance ก�บ

training samples ให ใชุ ค�าที่��ว�ดได เป�น Xi

เรา จะได query instance = xq

1,xq2 เป�นระบบ

พ�ก�ดจ'ดหร.อระบบcoordinate แล่ะจะได training data = xt

1,xt2

ด�งน์�#น์จะเข�ยน์เป2น์สมการได+ว'า

81

Page 82: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

เราสามารถใชั+ Euclidean distance ใน์ การหาระยะทาง ของ X

i ได+

*ค�า Xi ค.อ ค�าที่��ระย่ะที่างที่��จ'ดกระจาย่อย่��ในแต�ล่ะจ'ด

82

Page 83: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

เม"�อทราบจ�ดท��ส�#น์ท��ส�ดแล+ว ก<จะด(าเน์�น์การด�ง ภาพ (KNN)

83

Page 84: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�

การใชั+ KNN เข+ามาจ�ดการจ(าแน์กข+อม1ล

84

Page 85: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�การประย�กต�ใชั+

เราม�ขึ้ อม�ล่จากการสิ่+ารวจแบบสิ่อบถึาม (ขึ้อความค�ดเห*นคน) แล่ะการที่ดสิ่อบว�ตถึ'ประสิ่งค1สิ่อง

ล่�กษณะ (ที่นกรดแล่ะความแขึ้*งแรง) เพ.�อแย่กประเภที่ว�าเน.$อเย่.�อกระดาษพ�เศษด�หร.อไม�. เราสิ่ามารถึคาดเดาสิ่��งที่��จ+าแนกเน.$อเย่.�อใหม�น�$

ค.ออะไร

ข+อด�ของ algorithm น์�# (KNN) - ชุ�วย่ให ค'ณสิ่ามารถึคาดการณ1ประเภที่ขึ้องปCญหาน�$.

85

Page 86: 09 anomaly detection

เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต� การเชั"�อมโยงก�บ Intrusion Detection

การตรวจสิ่อบการบ'กร'ก การบ'กร'กหล่�ก ๆ ม�อย่��สิ่องประเภที่ ค.อ เคร.อขึ้�าย่การใชุ (NIDS)

ยกต�วอย'างการตรวจสอบสภาพการจราจร

อ'ปกรณ1เชุ.�อมต�อที่างเคร.อขึ้�าย่ เชุ�น สิ่ว�ตซึ่1 หร.อ ฮั�บ หร.อการตรวจสิ่อบ การไหล่ขึ้องน+$าในที่�อประปาว�าม�การร��วซึ่�มหร.อไม�

86

Page 87: 09 anomaly detection

แผิน์ผิ�งการตรวจจ�บความผิ�ดปกต�

87

Page 88: 09 anomaly detection

END

88

Page 89: 09 anomaly detection

HW#9 จงอธ�บาย่ความหมาย่ขึ้องการตรวจจ�บความผิ�ดปกต� จงย่กต�วอย่�างความผิ�ดปกต�ที่��เก�ดขึ้�$นในชุ�ว�ตประจ+าว�น จงอธ�บาย่ปCญหาที่างด านการตรวจจ�บความผิ�ดปกต� จงบอกเที่คน�คต�าง ๆ ที่��ใชุ ในการตรวจจ�บความผิ�ดปกต� บร�ษ�ที่ Aroma ขึ้าย่น+$าหอมสิ่+าหร�บรถึย่นต1แห�งหน��งโฆษณา

ว�า รถึย่นต1 90% จะใชุ น+$าหอมที่��ผิล่�ตจากบร�ษ�ที่น�$ แล่ะจากค+ากล่�าวอ างด�งกล่�าวที่+าให บร�ษ�ที่ค��แขึ้�งซึ่��งชุ.�อว�า Botta ย่อมร�บไม�ได จ�งที่+าการสิ่+ารวจตล่าดโดย่ได ที่+าการสิ่'�มต�วอย่�างรถึย่นต1 400 ค�นพบว�า ใชุ น+$าหอมขึ้องบร�ษ�ที่ Aroma 320 ค�น ค+ากล่�าวอ างขึ้องบร�ษ�ที่ Aroma เป�นจร�งหร.อไม� ณ ระด�บน�ย่สิ่+าค�ญ 0.05

89

Page 90: 09 anomaly detection

HW#9

90