Upload
-
View
344
Download
3
Embed Size (px)
Citation preview
บทท�� 9 การตรวจจ�บความผิ�ดปกต� (ANOMALY DETECTION)
โดย ดร. หท�ยร�ตน์� เกต�มณี�ชั�ยร�ตน์�
ภาคว�ชัาการจ�ดการเทคโน์โลย�การผิล�ตและสารสน์เทศ
1
เน์"#อหา ความหมายของการตรวจจ�บความผิ�ดปกต�
ต�วอย'างการน์(าไปใชั+ใน์งาน์ด+าน์ต'างๆ ป-ญหาของการตรวจจ�บความผิ�ดปกต�
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
2
ความหมายของการตรวจจ�บความผิ�ดปกต�
การตรวจจ�บความผิ�ดปกต� เป�นการกล่�าวถึ�งร�ปแบบการตรวจจ�บสิ่��งที่��ไม�สิ่อดคล่ องก�บพฤต�กรรมปกต�ที่��ถึ�กสิ่ร างขึ้�$นในชุ'ดขึ้ อม�ล่ ซึ่��งเป�นการตรวจจ�บการบ'กร'กก�จกรรมที่��ผิ�ดแปล่กไปจากพฤต�กรรมปกต�ที่��สิ่ร างขึ้�$น
ต�วอย่�างเชุ�น เด*กม� IQ ได 195 น+$าหน�กขึ้องคน 220 ก�โล่กร�ม ความสิ่�งขึ้องคน 210 ซึ่.ม. ซึ่��งถึ.อว�าม�ความผิ�ดปกต�จากล่'�มขึ้ อม�ล่ที่��วไป
3
ซึ่��งค�าผิ�ดปกต�ม�โอกาสิ่เก�ดขึ้�$นได บนพ.$นฐานขึ้องเหต'ผิล่ 2 ประการค.อ
1) การจดบ�นที่�กหร.อเก*บขึ้ อม�ล่ม�ความคล่าดเคล่.�อน 2) กล่'�มต�วอย่�างที่��เก*บรวบรวมขึ้ อม�ล่มา ม�ความแตกต�างไปจากกล่'�มจร�ง
ซึ่��งการเก�ดค�าผิ�ดปกต�ประการแรกน�$น สิ่ามารถึเก�ดขึ้�$นได เสิ่มอ จ�งควรม�การตรวจสิ่อบขึ้ อม�ล่ให ถึ�กต องก�อนว�เคราะห1สิ่ถึ�ต�ใด ๆ เสิ่�ย่ก�อน
ความหมายของการตรวจจ�บความผิ�ดปกต�
4
ต�วอย'างการน์(าไปใชั+ใน์งาน์ด+าน์ต'างๆ
ต�วอย'างของความผิ�ดปกต�ท��เก�ดข/#น์ใน์ชั�ว�ตจร�ง การตรวจจ�บการบ'กร'กที่างเคร.อขึ้�าย่ การตรวจสิ่อบการที่'จร�ตบ�ตรเครด�ต ที่างด านการแพที่ย่1 การว�น�จฉั�ย่โรค การประมวล่ผิล่ภาพหร.อการตรวจสิ่อบที่างด าน
กล่ องวงจรป5ด5
Fraud Detection
ต�วอย'างการน์(าไปใชั+ใน์งาน์ด+าน์ต'างๆ
การตรวจจ�บการบ'กร'กที่างเคร.อขึ้�าย่
6
การใชุ NIDS ในการตรวจสิ่อบ ความผิ�ดปกต� ในระบบเคร.อ
ขึ้�าย่ โดย่ตรวจสิ่อบจาก
Hardware
Instruction Detection
ต�วอย'างการน์(าไปใชั+ใน์งาน์ด+าน์ต'างๆ
7
ต�วอย่�าง ภาพการระบ'ต+าแหน�งสิ่ภาพพ.$นที่��เก�ดห�มะในเขึ้ตที่��สิ่นใจ
Ecosystem Disturbance
ต�วอย'างการน์(าไปใชั+ใน์งาน์ด+าน์ต'างๆ
8
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต� ได+แก'
1. ธรรมชุาต�ขึ้องขึ้ อม�ล่น+าเขึ้ า (Nature of Input Data)
2. ประเภที่ขึ้องความผิ�ดปกต� (type of anomaly)
3. ล่าเบล่ขึ้ อม�ล่ (Data Label)
4. ผิล่ล่�พธ1ขึ้องการตรวจจ�บความผิ�ดปกต� (Output of anomaly detection)
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�
9
1. ธรรมชัาต�ของข+อม1ลน์(าเข+า (Nature of Input Data)
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�
เป2น์การรวบรวมโดยท��ว ๆ ไปของต�วข+อม1ล ท��เร�ยกว'า
object record point vectorpattern event case sampleobservation entityร1ปแบบของข+อม1ลส'วน์ใหญ'จะเป2น์แบบระเบ�ยน์ (Record)
10
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�1. ธรรมชัาต�ของข+อม1ลน์(าเข+า (Nature of Input Data)
ร1ปแบบของข+อม1ลท��น์(าเข+าแบ'งออกเป2น์ 2 ประเภทใหญ' ๆ ค"อ
1.Univariate 2.Multivariate11
1. ธรรมชัาต�ของข+อม1ลน์(าเข+า (Nature of Input Data)ต�วข+อม1ลสามารถอธ�บายได+โดยใชั+กล�'มของค�ณีล�กษณีะ ท��เร�ยกว'า
variable characteristic feature field dimension ค�ณีล�กษณีะของข+อม1ล ม�ร1ปแบบด�งน์�#
1. Binary2. Categorical3. Continuous4. Hybrid
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�
12
1. ธรรมชัาต�ของข+อม1ลน์(าเข+า (Nature of Input Data)
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�
cate
gorical
contin
uous
contin
uous
cate
gorical
Tid SrcIP Duration Dest IPNumberof bytes
Internal
1 206.163.37.81 0.10 160.94.179.208 150 No
2 206.163.37.99 0.27 160.94.179.235 208 No
3 160.94.123.45 1.23 160.94.179.221 195 Yes
4 206.163.37.37 112.03 160.94.179.253 199 No
5 206.163.37.41 0.32 160.94.179.244 181 No
binar
y
13
2. ประเภทของความผิ�ดปกต� (type of anomaly)ความผิ�ดปกต�สามารถแบ'งออกได+เป2น์ 3 ประเภท
1. ความผิ�ดปกต�ตามต+าแหน�ง (Point anomaly)
2. ความผิ�ดปกต�ตามบร�บที่ (Contextual Anomalies)
3. ความผิ�ดปกต�จากการรวบรวม (Collective Anomalies)
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�
14
2. ประเภทของความผิ�ดปกต� (type of anomaly)
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�
1. ความผิ�ดปกต�ตามต(าแหน์'ง (Point anomaly)
N1 , N2 เป�นพ.$นที่��ขึ้องพฤต�กรรมปกต�O1 , O2 เป�นต+าแหน�งที่��ม�ความผิ�ดปกต�ต+าแหน�งที่��อย่��ภาย่ใน
ขึ้อบเขึ้ต O3 จะเป�นต+าแหน�งที่��ม�ความผิ�ดปกต�ด วย่
15
2. ประเภทของความผิ�ดปกต� (type of anomaly)
2. ความผิ�ดปกต�ตามบร�บท (Contextual Anomalies)
ถึ าต�วขึ้ อม�ล่เป�นความผิ�ดปกต�ในบร�บที่เฉัพาะ ด�งน�$นขึ้ อม�ล่สิ่�วนด�งกล่�าว
จะตกอย่��ในสิ่�วนขึ้องบร�บที่ที่��ม�ความผิ�ดปกต� อธ�บาย่ขึ้ อม�ล่โดย่ใชุ กล่'�มขึ้องค'ณล่�กษณะ 2 กล่'�ม ค.อ
1. ค'ณล่�กษณะบร�บที่ (Contextual attributes)
2. ค'ณล่�กษณะพฤต�กรรม (Behavioral attributes)
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�
16
2. ประเภทของความผิ�ดปกต� (type of anomaly)
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�
2. ความผิ�ดปกต�ตามบร�บท (Contextual Anomalies)
1. ค�ณีล�กษณีะบร�บท (Contextual attributes)
เป�นการใชุ เพ.�อก+าหนดบร�บที่ (หร.อบร�เวณใกล่ เค�ย่ง) สิ่+าหร�บต�วอย่�าง เชุ�น ในชุ'ดขึ้ อม�ล่เก��ย่วก�บอากาศ ต+าแหน�งขึ้องล่องต�จ�ดแล่ะ ล่ะต�จ�ดจะม�ล่�กษณะเป�นค'ณล่�กษณะบร�บที่ ในขึ้ อม�ล่อน'กรมเวล่าสิ่�วนขึ้องเวล่าจะม�ค'ณล่�กษณะบร�บที่ ซึ่��งก+าหนดต+าแหน�งขึ้องต�วอย่�างบนอน'กรมที่�$งหมด
17
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�
2. ค�ณีล�กษณีะพฤต�กรรม (Behavioral attributes)
2. ความผิ�ดปกต�ตามบร�บท (Contextual Anomalies)
จะอธ�บาย่ขึ้ อม�ล่ที่��ไม�เป�นค'ณล่�กษณะบร�บที่ เชุ�น ชุ'ดขึ้ อม�ล่เก��ย่วก�บอากาศที่��อธ�บาย่ค�าเฉัล่��ย่ปร�มาณน+$าฝนที่�$งโล่ก จ+านวนขึ้องปร�มาณน+$าฝนที่'กต+าแหน�ง จะเป�นค'ณล่�กษณะพฤต�กรรม พฤต�กรรมผิ�ดปกต�เป�นการก+าหนดโดย่ใชุ ค�าสิ่+าหร�บค'ณล่�กษณะพฤต�กรรมภาย่ในบร�บที่จ+าเพาะ
18
2. ประเภทของความผิ�ดปกต� (type of anomaly)
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�
2. ความผิ�ดปกต�ตามบร�บท (Contextual Anomalies)
จากภาพ อ�ณีหภ1ม�ท��เวลา t1 และ t2 จะเหม"อน์ก�น์ แต'เก�ดใน์บร�บทท��แตกต'างก�น์ ใน์กรณี�น์�# อ�ณีหภ1ม�ท��เวลา t2 จะถ1กพ�จารณีาเป2น์ความผิ�ดปกต� 19
2. ประเภทของความผิ�ดปกต� (type of anomaly)
3. ความผิ�ดปกต�จากการรวบรวม (Collective Anomalies)
เป�นความผิ�ดปกต�ขึ้องต�วขึ้ อม�ล่ที่��เก�ดจากการเก*บรวบรวมต�วขึ้ อม�ล่ที่��เก��ย่วขึ้ องที่�$งหมด ต�วขึ้ อม�ล่ในความผิ�ดปกต�จากการรวบรวมอาจจะไม�เป�นความผิ�ดปกต�โดย่ต�วม�นเอง แต�การรวบรวมขึ้ อม�ล่ที่��เก�ดขึ้�$นเป�นการรวบรวมที่��ผิ�ดปกต� หร.อที่+าให ต�วขึ้ อม�ล่ที่��ที่+าการรวบรวมเก�ดความผิ�ดปกต�ขึ้�$น ม�ความเก��ย่วขึ้ องก�บขึ้ อม�ล่ประเภที่ที่��เป�น - ข+อม1ลท��เป2น์แบบอน์�กรม , ข+อม1ลท��เก��ยวก�บระยะ , ข+อม1ลท��เป2น์แบบกราฟ
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�
20
2. ประเภทของความผิ�ดปกต� (type of anomaly)
3. ความผิ�ดปกต�จากการรวบรวม (Collective Anomalies)
จากภาพ การรวบรวมข+อม1ลท��เก�ดข/#น์เป2น์การรวบรวมท��ผิ�ดปกต� ท(าให+ต�วข+อม1ลท��ท(าการรวบรวมเก�ดความผิ�ดปกต�ข/#น์
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�
21
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�
3. ลาเบลข+อม1ล (Data Label)
ล่าเบล่เก��ย่วขึ้ องก�บต�วขึ้ อม�ล่ ถึ าขึ้ อม�ล่เป�นความปกต�หร.อความผิ�ดปกต� ต�วขึ้ อม�ล่ควรจะได ร�บล่าเบล่ขึ้ อม�ล่ที่��ถึ�กต อง แล่ะเป�นต�วแที่นขึ้องประเภที่พฤต�กรรมที่�$งหมด
การได ร�บล่าเบล่ขึ้องกล่'�มขึ้ อม�ล่ผิ�ดปกต�ที่�$งหมด เป�นเร.�องที่��ที่+าได ย่ากกว�าการร�บล่าเบล่ขึ้องกล่'�มขึ้ อม�ล่ที่��ปกต�เที่คน�คตรวจจ�บความผิ�ดปกต�ที่��ด+าเน�นการในร�ปแบบน�$ม� 3 ร�ปแบบค.อ
1. Supervised anomaly detection 2. Semi-Supervised anomaly detection 3. Unsupervised anomaly detection
22
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�
3. ลาเบลข+อม1ล (Data Label)
1. Supervised anomaly detection
เที่คน�คน�$ต องการชุ'ดขึ้ อม�ล่การสิ่อนที่��ม�การก+าหนดล่าเบล่ให ก�บขึ้ อม�ล่ที่�$งกล่'�มขึ้ อม�ล่ปกต� แล่ะกล่'�มขึ้ อม�ล่ผิ�ดปกต� ว�ธ�การโดย่ที่��วไปขึ้องเที่คน�คน�$เป�นการสิ่ร างร�ปแบบที่+านาย่สิ่+าหร�บกล่'�มขึ้องความปกต� แล่ะผิ�ดปกต�
2. Semi-Supervised anomaly detection
เที่คน�คน�$ต องการชุ'ดขึ้ อม�ล่การสิ่อนที่��ม�ล่าเบล่ขึ้ อม�ล่สิ่+าหร�บกล่'�มขึ้องความปกต�เพ�ย่งอย่�างเด�ย่ว โดย่กล่'�มขึ้องความผิ�ดปกต�จะไม�ต องการล่าเบล่ก+าก�บ
23
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�
3. ลาเบลข+อม1ล (Data Label)
3. Unsupervised anomaly detection
เที่คน�คน�$ด+าเน�นการโดย่ไม�ต องการชุ'ดขึ้ อม�ล่การสิ่อน แล่ะเป�นเที่คน�คที่��ม�ความเหมาะสิ่มมากที่��สิ่'ด เที่คน�คน�$จะสิ่ร างสิ่มมต�ฐาน โดย่ขึ้ อม�ล่ปกต�จะม�ความถึ��มากกว�าขึ้ อม�ล่ผิ�ดปกต�ในชุ'ดขึ้ อม�ล่ที่ดสิ่อบ ถึ าหากสิ่มมต�ฐานน�$ไม�เป�นจร�งจะเก�ดอ�ตรา False alarm สิ่�ง
24
ป-ญหาทางด+าน์การตรวจจ�บความผิ�ดปกต�
4. ผิลล�พธ�ของการตรวจจ�บความผิ�ดปกต� (Output of Anomaly Detection)
1. Label
เป�นการก+าหนดล่าเบล่ (ปกต�หร.อผิ�ดปกต�) ให ก�บแต�ล่ะขึ้ อม�ล่ที่ดสิ่อบ2. Score
เป�นการก+าหนดคะแนนความผิ�ดปกต�ให ก�บขึ้ อม�ล่ในชุ'ดขึ้ อม�ล่ที่ดสิ่อบโดย่ขึ้�$นอย่��ก�บระด�บขึ้องขึ้ อม�ล่ที่��ถึ�กพ�จารณาความผิ�ดปกต� ผิล่ล่�พธ1ขึ้องเที่คน�คน�$เป�นราย่การระด�บชุ�$นขึ้องความผิ�ดปกต� การว�เคราะห1อาจจะเล่.อกว�เคราะห1ความผิ�ดปกต�ที่��อย่��บนสิ่'ด หร.อใชุ threshold เพ.�อเล่.อกความผิ�ดปกต�
25
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต� เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต� แบ'งออก
เป2น์ 4 เทคน์�ค ได+แก'1. Statistical Anomaly Detection2. Classification Based Anomaly
Detection Techniques3. Clustering Based Anomaly
Detection Techniques4. Nearest Neighbor Based
Anomaly Detection Techniques 26
1. Statistical Anomaly Detection
ว�ธ�การที่างด านสิ่ถึ�ต�สิ่+าหร�บการตรวจจ�บความผิ�ดปกต�
สถ�ต� หมาย่ถึ�ง ว�ธ�การที่��ว�าด วย่การเก*บรวบรวมขึ้ อม�ล่ การน+าเสิ่นอขึ้ อม�ล่ การว�เคราะห1ขึ้ อม�ล่ แล่ะการต�ความหมาย่ขึ้ อม�ล่ สิ่ถึ�ต�ในความหมาย่น�$เป�นที่�$งว�ที่ย่าศาสิ่ตร1แล่ะศ�ล่ปศาสิ่ตร1 เร�ย่กว�า "สิ่ถึ�ต�ศาสิ่ตร1
ว�ธ�การตรวจจ�บความผิ�ดปกต�และเทคน์�คต'างๆ
27
สิ่ถึ�ต�แบ�งออกเป�น 2 ประเภที่ 1. สถ�ต�พรรณีน์า (Descriptive Statistics) เป�นสิ่ถึ�ต�ที่��ใชุ อธ�บาย่ค'ณล่�กษณะต�าง ๆ ขึ้องสิ่��งที่��ต องการ
ศ�กษาในกล่'�มใดกล่'�มหน��ง ว�ธ�การที่างสิ่ถึ�ต�ที่��อย่��ในประเภที่น�$ เชุ�น การจ�ดกระที่+าก�บขึ้ อม�ล่โดย่น+าเสิ่นอในร�ปขึ้องตารางหร.อ
ร�ปภาพ การแปล่งคะแนนให อย่��ในร�ปแบบอ.�น ๆ เชุ�น เปอร1เซึ่*นต1
ไที่ล่1 คะแนนมาตรฐาน ฯ การค+านวณหาค�าเฉัล่��ย่หร.อการกระจาย่ขึ้องขึ้ อม�ล่ เชุ�น
ม�ชุฌิ�มเล่ขึ้คณ�ต ม�ธย่ฐาน สิ่�วนเบ��ย่งเบนมาตรฐาน พ�สิ่�ย่ ฯ
ว�ธ�การตรวจจ�บความผิ�ดปกต�และเทคน์�คต'างๆ
28
เป�นสิ่ถึ�ต�ที่��ใชุ อธ�บาย่ค'ณล่�กษณะขึ้องสิ่��งที่��ต องการศ�กษาในกล่'�มใดกล่'�มหน��งแล่ วสิ่ามารถึอ างอ�งไปย่�งกล่'�มอ.�น ๆ ได โดย่กล่'�มที่��น+ามาศ�กษาจะต องเป�นต�วแที่นที่��ด�ขึ้องประชุากร ต�วแที่นที่��ด�ขึ้องประชุากรได มาโดย่ว�ธ�การสิ่'�มต�วอย่�าง แล่ะต�วแที่นที่��ด�ขึ้องประชุากรจะเร�ย่กว�า "กล่'�มต�วอย่�าง"
ว�ธ�การตรวจจ�บความผิ�ดปกต�และเทคน์�คต'างๆ
2. สถ�ต�อ+างอ�ง (Inferential Statistics)
29
สถ�ต�อ+างอ�งสามารถแบ'งออกได+เป2น์ 2 ประเภทย'อย ค"อ
1. สถ�ต�ม�พาราม�เตอร� (Parametric Statistics)• ต�วแปรที่��ต องการว�ดจะต องอย่��ในมาตราการว�ด
ระด�บชุ�วงขึ้�$นไป (Interval Scale) • ขึ้ อม�ล่ที่��เก*บรวบรวมได จากกล่'�มต�วอย่�างจะต องม�
การแจกแจงเป�นโค งปกต� • กล่'�มประชุากรแต�ล่ะกล่'�มที่��น+ามาศ�กษาจะต องม�
ความแปรปรวนเที่�าก�น
ว�ธ�การตรวจจ�บความผิ�ดปกต�และเทคน์�คต'างๆ
30
2. สถ�ต�ไร+พาราม�เตอร� (Nonparametric Statistics)ต�วแปรที่��ต องการว�ดอย่��ในมาตราการว�ดระด�บใดก*ได
(Norminal Scale, Ordinal Scale, Interval Scale, RatioScale)
ขึ้ อม�ล่ที่��เก*บรวบรวมได จากกล่'�มต�วอย่�างม�การแจกแจงแบบใดก*ได
กล่'�มประชุากรแต�ล่ะกล่'�มที่��น+ามาศ�กษาไม�จ+าเป�นต องม�ความแปรปรวนเที่�าก�น
สถ�ต�ไร+พาราม�เตอร� เชั'น์ ไคสแควร�, Median Test, Sign test ฯลฯ
ว�ธ�การตรวจจ�บความผิ�ดปกต�และเทคน์�คต'างๆ
31
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
การทดสอบส�ดส'วน์ประชัากรว'าเท'าก�บท��คาดหว�งหร"อไม'
0 : P1 : P2 … : Pk = P10 : P20 … : Pk0 1 : Pi Pi0 อย่�างน อย่ 1 ค�า ; i = 1, 2 ,…kโดย่ที่�� Pi0 = สิ่�ดสิ่�วนที่��คาดว�าจะเป�น ซึ่��งเป�นค�าคงที่�� อย่��ระหว�าง 0 – 1สิ่ถึ�ต�ที่��ใชุ ที่ดสิ่อบค.อ n
2 = i i ) 2
i=1 i32
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
เม"�อ 2 = สิ่�ญล่�กษณ1ขึ้องไคสิ่แควร1 = ความถึ��ที่��แจงน�บได = ความถึ��ที่��คาดหว�งหร.อที่��ก+าหนดn = จ+านวน
ส1ตรค(าน์วณี = n pi0
เขึ้ตปฏิ�เสิ่ธ จะปฏิ�เสิ่ธ 0 เม.�อ 2 2 : k-1
33
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
การทดสอบส�ดส'วน์ประชัากรว'าเท'าก�บท��คาดหว�งหร"อไม'ต�วอย'าง
ย่าแก ปวดศ�รษะชุน�ดหน��ง บร�ษ�ที่อ างว�าร�กษาผิ� ป@วย่หาย่ภาย่ใน 3 ชุ��วโมง ร อย่ล่ะ 90 เพ.�อที่ดสิ่อบสิ่รรพค'ณขึ้องย่าชุน�ดน�$ จ�งเล่.อกผิ� ป@วย่มา 400 คน แล่ะให ก�นย่าด�งกล่�าวพบว�าหาย่ภาย่ใน 3 ชุ��วโมง 320 คนย่าชุน�ดน�$สิ่รรพค'ณตามที่��อ างหร.อไม�
34
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�การค(าน์วณี
ถึ าย่าน�$ม�สิ่รรพค'ณที่��อ างผิ� ป@วย่ 100 คน จะต องหาย่ 90 ฉัะน�$นถึ าที่ดล่องก�บผิ� ป@วย่ 400 คน จะต องหาย่ 360 คน แล่ะไม�หาย่ 40 คน จากหล่�กการน�$สิ่ามารถึ ค+านวณหาค�าไคสิ่แควร1 ด�งน�$
สมมต�ฐาน์ สิ่�ดสิ่�วนการหาย่ปวด : ไม�หาย่ปวด = 90 : 10
หร"อ 0 : P1 : P2 = 90 : 10
1 : P1 : P2 90 : 10
= np
35
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
36
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
ฉัะน�$น 2 = 44.44 น+าไปเปร�ย่บเที่�ย่บก�บค�า 2 ในตาราง df = 2-1 = 1 แล่ะ =0.05 =3.84 แสิ่ดงว�าค�า 2
ท��ค(าน์วณีได+มากกว'าค'าใน์ตาราง หมายความว'า
ย่าน�$ให ผิล่ต�างจากร อย่ล่ะ 90 น�$น ค.อ ไม�ม�สิ่รรพค'ณตามที่��อ างไว อน��ง ในการค+านวณค�า 2 ถึ า df = 1 หร.อ ค�า น อย่กว�า 5 ควรปร�บสิ่�ตรด วย่การเอา 0.5 ล่บออกจากผิล่ที่��ได ไม�ต�ดเคร.�องหมาย่ก�อนแล่ วจ�งย่กก+าล่�งสิ่องจ�งจะที่+าให ค�า 2 ที่��ได ตรงก�บความเป�นจร�งมากขึ้�$น37
Mahalanobis distances
General Concepts:
D2 = (x - m)T c-1 (x - m)
D2 = Mahalanobis distance
x = Vecter of data
m = Vecter of mean values of indepndent variables
C-1 = Inverse Covariance matrix of independent variable
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
38
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
Variable X: mean = 500Variable Y: mean = 500
39
Covariance Matrix X Y
X 6291.55737 3754.32851
Y 3754.32851 6280.77066
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
40
Given that Mahalanobis Distance D2 = (x - m)T c-1 (x - m)
(x – m) = 410 – 500 = -90 400 - 500 -100
C-1 = 6291.55737 3754.32851 -1 = 0.00025 - 0.000153754.32851 6280.77066 -0.00015 - 0.00025
Therefore D2 = (-90 -100) * 0.00025 - 0.00015
* -90
-0.00015 0.00025 -100
= 1.825 # answer
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
41
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
42
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
43
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
44
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
45
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต� 2. Classification Based
Anomaly Detection Techniquesการจ�ดแบ�งประเภที่ได ร�บการน+ามาใชุ เพ.�อเร�ย่นร� ร�ปแบบจากกล่'�มขึ้องล่าเบล่ขึ้ อม�ล่ (การสิ่อน) แล่ะจ�ดกล่'�มขึ้ อม�ล่ที่ดสิ่อบเพ.�อใชุ ในการที่ดสิ่อบ
เที่คน�คในกล่'�มน�$ม�การด+าเน�นใน 2 ขึ้�$นตอนที่��ม�ล่�กษณะคล่ าย่คล่�งก�บขึ้�$นตอนการสิ่อน ต�วจ�ดแบ�งประเภที่จะเร�ย่นร� โดย่ใชุ ล่าเบล่ขึ้ อม�ล่การสิ่อนที่��ได ร�บจากขึ้�$นตอนที่��สิ่อง ต�วจ�ดแบ�งประเภที่จะที่+าการจ�ดกล่'�มขึ้ อม�ล่ที่ดสิ่อบออกเป�นกล่'�มปกต� หร.อผิ�ดปกต�
เที่คน�คในกล่'�มน�$สิ่ามารถึแบ�งออกเป�น 2 กล่'�มค.อ multi-class แล่ะ one-class
46
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�Multi-class
จะถึ.อว�า ขึ้ อม�ล่การสิ่อนประกอบด วย่ล่าเบล่ขึ้ อม�ล่ที่��เป�นขึ้องกล่'�มปกต�หล่าย่ๆ กล่'�ม ต�วจ+าแนกจะที่+าการเร�ย่นร� เพ.�อจ+าแนกความแตกต�างระหว�างกล่'�มปกต�ก�บกล่'�มที่��เหล่.อ ขึ้ อม�ล่ที่ดสิ่อบจะถึ�กพ�จารณาว�าเป�นความผิ�ดปกต�
ถึ าไม�ถึ�กจ�ดกล่'�มว�าเป�นความปกต�โดย่ที่'กต�วจ�ดแบ�ง เที่คน�คอ.�นๆ ในกล่'�มน�$เก��ย่วขึ้ องก�บการใชุ คะแนนความเชุ.�อม��นด วย่สิ่ร างการที่+านาย่โดย่ต�วจ�ดแบ�ง
ถึ าต�วจ�ดแบ�งเชุ.�อม��นในการจ�ดแบ�งกล่'�ม ขึ้ อม�ล่ที่ดสิ่อบจะถึ�กก+าหนดเป�นความผิ�ดปกต� แต�ถึ ากล่'�มขึ้ อม�ล่ที่ดสิ่อบม�คะแนนความเชุ.�อม��นต+�าจะถึ�กกพ�จารณาเป�นความผิ�ดปกต�
47
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�one-class
จะถึ.อว�าขึ้ อม�ล่การสิ่อนที่�$งหมดจะม�กล่'�มล่าเบล่เพ�ย่งกล่'�มเด�ย่ว แล่ะที่+าการเร�ย่นร� โดย่แย่กแย่ะขึ้อบเขึ้ตรอบๆ ขึ้ อม�ล่ปกต�โดย่ใชุ one-classification algorithm เชุ�น one-class SVMs แล่ะ oneclass Kernel Fisher Discriminates เป�นต น
ที่'ก ๆ ขึ้ อม�ล่ที่ดสิ่อบที่��ไม�ตกอย่��ภาย่ในขึ้อบเขึ้ตที่��เร�ย่นร� ว�าเป�น ความปกต� จะถึ�กประกาศเป�นความผิ�ดปกต�
48
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
การจ�ดแบ�งกล่'�มแบบ multi-class (Varun Chandola แล่ะคณะ, 2007)
49
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
การจ�ดแบ�งกล่'�มแบบ one-class (Varun Chandola แล่ะคณะ, 2007) 50
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�Neural network
ขึ้�าย่งานประสิ่าที่ (Neural Networks) ค.อการจ+าล่องร�ปแบบการที่+างานขึ้องเซึ่ล่ล่1สิ่มองมน'ษย่1ที่��เร�ย่กว�า ต�วเซึ่ล่ล่1 (Cell Body) หร.อ น�วรอน (Neural) โดย่ขึ้�าย่งานประสิ่าที่เที่�ย่มสิ่ามารถึเร�ย่นร� จากประสิ่บการณ1 แล่ะสิ่ามารถึอน'มานจากสิ่��งที่��เร�ย่นร� ไปสิ่��สิ่��งที่��ไม�เคย่เร�ย่นร� มาก�อน ที่��เร�ย่กว�าความสิ่ามารถึในการบ�งชุ�$ที่� �วไป (Generalization)
51
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�ขึ้�าย่งานประสิ่าที่ม�ค'ณสิ่มบ�ต� 2 ประการค.อ
- การเร�ย่นร� หร.อการสิ่อน (Learning or Training)
- การระล่�ก หร.อจดจ+าได (Recall)
52
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
Supervised Learning
การเร�ยน์แบบม�การสอน์
53
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
Unsupervised Learning
การเร�ยน์แบบไม'ม�การสอน์
54
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
Beyesian network
ขึ้�าย่งาน Bayesian ถึ�กน+ามาใชุ สิ่+าหร�บการตรวจจ�บความผิ�ดปกต�ในว�ธ�การแบบ multi-class โดย่ขึ้�าย่งาน Bayesian เป�นกราฟอว�ฏิจ�กรระบ'ที่�ศที่าง (directed acyclic graph: DAG)
ขึ้�าย่งาน Bayesian เป�นเคร.�องม.อที่��สิ่+าค�ญชุน�ดหน��งในการสิ่ร างต�วแปรแบบความน�าจะเป�นโดย่การผิสิ่มผิสิ่านระหว�างที่ฤษฏิ�ความน�าจะเป�น แล่ะที่ฤษฏิ�กราฟ ที่+าให การที่+างานม�ประสิ่�ที่ธ�ภาพมากย่��งขึ้�$น
55
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
X
56
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
Support vector machinesประย่'กต1ใชุ ในการตรวจจ�บความผิ�ดปกต�ในว�ธ�การ One-class แล่ะเก��ย่วขึ้ องก�บว�ธ�การการเร�ย่นร� แบบม�ผิ� สิ่อนถึ�กน+ามาใชุ สิ่+าหร�บการแบ�งประเภที่แล่ะการถึอย่กล่�บ SVM จะสิ่ร างระนาบเก�นหร.อกล่'�มขึ้องระนาบเก�นในพ.$นที่��ขึ้ อม�ล่ม�ต�สิ่�ง โดย่เที่คน�คน�$จะที่+าการแบ�งกล่'�มขึ้ อม�ล่โดย่หาผิล่ล่�พธ1เป�นเสิ่ นแบ�งขึ้ อม�ล่2 กล่'�มค.อ กล่'�มขึ้ อม�ล่ปกต� แล่ะกล่'�มขึ้ อม�ล่ผิ�ดปกต� ออกจากก�นในร�ปแบบขึ้องระนาบหล่าย่ม�ต�เชุ�งเสิ่ น
57
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�ผิลล�พธ�ใน์ร1ปแบบของระน์าบหลายม�ต�จะม�ค�ณีสมบ�ต�
เป�นระนาบหล่าย่ม�ต�ที่��ที่+าให ระย่ะห�างระหว�างกล่'�มขึ้ อม�ล่ที่�$งสิ่อง (ระย่ะที่างที่��ใกล่ ที่��สิ่'ดที่��เป�นไปได จากจ'ด 2 จ'ดในคนล่ะกล่'�มก�น) เป�นระย่ะห�างที่��มากที่��สิ่'ด หร.อเร�ย่กว�า ระย่ะขึ้อบมากสิ่'ด (Maximum Margin)
ในการเร�ย่นร� ขึ้อง SVM จะใชุ การเร�ย่นร� เพ�ย่งกล่'�มเด�ย่ว แล่ะเร�ย่นร� ขึ้อบเขึ้ตในสิ่�วนขึ้องขึ้ อม�ล่การสิ่อนที่��เป�นความปกต�
58
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
59
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
60
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
61
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
Rule Basedเที่คน�ค Rule Based ม�การประย่'กต1ใชุ ในว�ธ�การแบบ multi-class แล่ะแบบ one-class ซึ่��งกฎสิ่ร างขึ้�$นจากการเร�ย่นร� พฤต�กรรมปกต�ขึ้องระบบ ขึ้ อม�ล่ที่��ไม�ครอบคล่'มโดย่ที่'กๆ กฎจะถึ�กพ�จารณาเป�นความผิ�ดปกต�
เที่คน�คที่��ขึ้�$นก�บ Multi-class rule การที่+างานประกอบด วย่ 2 ขึ้�$นตอน
ข�#น์ตอน์แรกเป�นการเร�ย่นร� กฎจากชุ'ดขึ้ อม�ล่การสิ่อนโดย่ใชุ อ�ล่กอร�ที่�ม rule learning อย่�างเชุ�น RIPPER แล่ะ Decision Treesเป�นต น62
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�Rule Based
ข�#น์ตอน์ท��สองเป�นการค นหาขึ้ อม�ล่ที่ดสิ่อบที่��ม�คะแนนความผิ�ดปกต� หร.อค�าความเชุ.�อม��นน อย่จะถึ�กระบ'เป�นความผิ�ดปกต�
63
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
Rule Based
กฎความส�มพ�น์ธ� (Association Rule Mining) เป�นว�ธ�การค นหากฎความสิ่�มพ�นธ1ขึ้องขึ้ อม�ล่โดย่ค นหาความสิ่�มพ�นธ1ขึ้องขึ้ อม�ล่สิ่องชุ'ดขึ้ อม�ล่หร.อมากกว�าสิ่องชุ'ดขึ้ อม�ล่ขึ้�$นไปไว ด วย่ก�น กฎจะที่+าการว�ดโดย่ใชุ ขึ้ อม�ล่ 2 ต�วด วย่ก�นค.อค�าสิ่น�บสิ่น'น (Support) ซึ่��งเป�นเปอร1เซึ่*นต1ขึ้องการด+าเน�นการที่��กฎสิ่ามารถึน+าไปใชุ หร.อเป�นเปอร1เซึ่*นต1ขึ้องการด+าเน�นการที่��กฎที่��ใชุ ม�ความถึ�กต อง แล่ะขึ้ อม�ล่ค�าความม��นใจ (Confidence) ซึ่��งเป�นจ+านวนขึ้องกรณ�ที่��กฎถึ�กต องโดย่สิ่�มพ�นธ1ก�บจ+านวนขึ้องกรณ�ที่��กฎสิ่ามารถึน+าไปใชุ ได
64
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
Rule Based
ความซึ่�บซึ่ อนในการค+านวณขึ้องเที่คน�คน�$จะขึ้�$นอย่��ก�บอ�ล่กอร�ที่�มจ�ดแบ�งประเภที่(classification algorithm) ที่��น+ามาใชุ งาน
65
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต� 3. Clustering Based Anomaly
Detection Techniques การจ�ดกล�'มก+อน์ (Clustering) ค.อการแบ�งว�ตถึ'ใดๆ
ออกเป�นกล่'�มต�างๆ โดย่ที่��สิ่มาชุ�กในกล่'�มเด�ย่วก�น ม�ความคล่ าย่คล่�งก�น (Similarity) มากกว�าสิ่มาชุ�กต�างกล่'�ม
การจ�ดกล�'มแบ'งตามล�กษณีะว�ธ�ได+ 5 ว�ธ�หล�ก ว�ธ�แบ�งสิ่�วน (Partitioning) ว�ธ�ล่+าด�บขึ้�$น (Hierarchical) ว�ธ�ใชุ ความหนาแน�น (Density-Based) ว�ธ�ใชุ ตาราง (Grid-Based) ว�ธ�ใชุ แบบจ+าล่อง (Model-Based)
66
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
เทคน์�คใน์กล�'มน์�#สามารถแบ'งตามสมม�ต�ฐาน์ออกเป2น์ 2 กล�'มด�งน์�#
กล�'มแรก ขึ้�$นอย่��ก�บสิ่มม'ต�ฐานที่��ว�า ขึ้ อม�ล่ปกต�“เป�นขึ้ อม�ล่ขึ้อง cluster ขึ้ณะที่��ความผิ�ดปกต�ไม�เป�นขึ้อง cluster ใดๆ ซึ่��งเที่คน�คในกล่'�มแรกน�$ม�”การประย่'กต1ใชุ clustering algorithm เพ.�อเร�ย่นร� ชุ'ดขึ้ อม�ล่ แล่ะการประกาศขึ้ อม�ล่ใดๆ ที่��ไม�เป�นขึ้อง cluster ที่��เป�นความผิ�ดปกต� เชุ�น DBSCAN, ROCK แล่ะ SNN clustering เป�นต น 67
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
กล�'มท��สอง ขึ้�$นอย่��ก�บสิ่มม'ต�ฐานที่��ว�า ขึ้ อม�ล่ปกต�“จะอย่��ใกล่ ก�บต+าแหน�งตรงกล่างขึ้อง cluster ขึ้องต�วขึ้ อม�ล่เอง ขึ้ณะที่��ความผิ�ดปกต�จะอย่��ไกล่ออกไปจากต+าแหน�งตรงกล่าง Cluster ขึ้องต�วขึ้ อม�ล่ ”
เที่คน�คในกล่'�มที่��สิ่องน�$ประกอบด วย่ 2 ขึ้�$นตอน ค.อ - ขึ้�$นตอนแรก ขึ้ อม�ล่ถึ�กจ�ดกล่'�มก อนโดย่ใชุ Clustering algorithm - ขึ้�$นตอนที่��สิ่อง สิ่+าหร�บขึ้ อม�ล่ที่ดสิ่อบ โดย่ระย่ะห�างจากต+าแหน�งตรงกล่าง Cluster ขึ้องต�วขึ้ อม�ล่จะถึ�กพ�จารณาเป�นคะแนนความผิ�ดปกต�
68
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
เทคน์�คท��ใชั+ใน์ 2 ว�ธ�การน์�# เชั'น์ - Self-Organizing Map (SOM)
- K-means Clustering - Expectation Maximization (EM) เป�นต น
ความซึ่�บซึ่ อนในการค+านวณขึ้องเที่คน�คน�$ขึ้�$นอย่��ก�บ Clustering algorithm ที่��น+ามาใชุ ในการสิ่ร าง cluster จากขึ้ อม�ล่ แล่ะในสิ่�วนขึ้องประสิ่�ที่ธ�ภาพในการที่+างานจะขึ้�$นอย่��ก�บ clustering algorithm ที่��น+ามาใชุ งานด วย่เชุ�นก�น
69
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�ว�ธ�ท��วไปของการท(า Clustering
กล่'�มขึ้องขึ้ อม�ล่เก��ย่วก�บจ+านวนจ+าก�ดขึ้องกล่'�ม การว�เคราะห1ขึ้ อม�ล่แต�ล่ะขึ้ อม�ล่ ซึ่��งเก��ย่วขึ้ องก�บ
แต�ล่ะกล่'�มที่��ม�ความใกล่ เค�ย่งที่��สิ่'ด กรณ�การตรวจสิ่อบความผิ�ดปกต�
- กรณ�ขึ้ อม�ล่ที่��ไม�เหมาะสิ่มในกล่'�มใดๆ(สิ่�วนเหล่.อจาก clustering)
- กรณ�ขึ้ อม�ล่ในกล่'�มเล่*กๆ- กรณ�ขึ้ อม�ล่ในกล่'�มความหนาแน�นต+�า- กรณ�ขึ้ อม�ล่ที่��อย่��ไกล่จากจ'ดอ.�นๆในกล่'�ม
เด�ย่วก�น
70
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�ร1ปการตรวจจ�บความผิ�ดปกต�ท��ข/#น์โดยว�ธ�
CLUSTERING
71
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
FINDOUT ALGORITHMค.อขึ้�$นตอนว�ธ�การที่��หาออกมาโดย่ใชุ
(WaveCluster) คล่.�นในการแบ�งกล่'�มการแปล่งขึ้ อม�ล่กล่าย่เป�นสิ่�ญญาณหล่าย่
ล่�กษณะ(multidimensional signals) โดย่ใชุ คล่.�นล่�กเล่*ก(wavelet)ในการแปล่ง
72
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�FINDOUT
ALGORITHMความถึ��สิ่�งขึ้องสิ่�ญญาณจะสิ่อดคล่ องก�บพ.$นที่�� เน.�องจากการเปล่��ย่นแปล่ง อย่�างรวดเร*วขึ้องการกระจาย่ เป�นเคร.�องแบ�งเขึ้ตขึ้องการแบ�งกล่'�ม
สิ่�วนความถึ��ต+�าจะตรงก�บพ.$นที่�� ที่��เป�นขึ้ อม�ล่ที่��เขึ้ ม
73
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
เม.�อความถึ��สิ่�งแล่ะต+�าความถึ��เหล่�าน�$ถึ�กRemove แล่ะสิ่�วนที่��เหล่.อที่�$งหมดจะกล่าย่เป�นจ'ดที่��อย่��ขึ้ างนอก
FINDOUT ALGORITHM
74
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต� ข+อด�
- ไม�ม�การควบค'ม - ขึ้�$นตอนว�ธ�ที่��ม�อย่��ในกล่'�มสิ่ามารถึเชุ.�อมเขึ้ าได
ข+อเส�ย- ถึ าหากขึ้ อม�ล่ไม�ม�กล่'�มหร.อขึ้�$นตอนว�ธ�ขึ้องกล่'�มไม�
สิ่ามารถึตรวจพบได น�$น ว�ธ�การอาจล่ มเหล่ว- การค+านวณที่��ม�ราคาแพง- โดย่ใชุ โครงสิ่ร างเป�นต�วว�ดหร.อต�วบ�งชุ�$อาจที่+าให เก�ด
ปCญหาน�$ได - ในชุ�องว�างที่��ม�ม�ต�สิ่�ง- ขึ้ อม�ล่จะเบาบางแล่ะระย่ะที่างระหว�างขึ้ อม�ล่ที่�$งสิ่อง
ขึ้ อม�ล่ที่��ม�การบ�นที่�กอาจม� ความคล่ าย่ก�นมาก
75
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต� 4. Nearest Neighbor Based Anomaly Detection Techniques
หล�กการ เป�นการแบ�งประเภที่ขึ้องขึ้ อม�ล่ ในสิ่�วนขึ้องการclassification โดย่การแบ�งประเภที่ขึ้องขึ้ อม�ล่น�$น
ขึ้�$นอย่��ก�บ Attributes แล่ะ Trainning Samples
ในที่��น�$ เราจะก+าหนดจ'ดการค นหา ค�า k ซึ่��งเป�น การ หาระย่ะที่างที่��ใกล่ ระหว�างจ'ด query instance
(จ'ดที่��หาค�า,จ'ดที่��สิ่นใจ) แล่ะtraining samples 76
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�K nearest neighbor
algorithm
ค.อ สิ่��งที่��เขึ้ าใจได ง�าย่ ที่+างานบนพ.$นฐานขึ้องระย่ะห�าง ที่��น อย่ที่��สิ่'ดจาก ต�วอย่�างค+าถึาม (query
instance) ถึ�ง training samples เพ.�อ พ�จารณา
K-nearest neighbors. หล่�งจากการรวมกล่'�ม ขึ้อง K nearest neighbors
เราจะสิ่นใจองค1ประกอบใหญ�เด�ย่ว สิ่��งน�$ K-nearest neighbors สิ่ามารถึพย่ากรณ1ต�วอย่�างค+าถึามได
77
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�ต�วอย'างการน์(าไปใชั+
จากขึ้ อม�ล่เราม� ขึ้ อม�ล่ที่��เป�น training data แล่ะ ต องการที่+านาย่ ค�า
ในตาราง y ในที่��น�$ เราให เป�นคล่าสิ่
คลาส ค.อ ค�าที่��เราจะที่+านาย่ ว�า ขึ้ อม�ล่น�$นจะ ถึ�กแบ�งออกมาได เป�นสิ่องคล่าสิ่ ค.อ บวก(+) แล่ะ
ล่บ(-) คล่ าย่ ๆ ก�บหล่�กการขึ้อง K-mean
78
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
79
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
80
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต� เราไม�อาจที่ราบว�า ค�าที่��เราจะที่+านาย่น�$น จะเป�นค�า
บวก หร.อค�าล่บ จ�งต องน+าหล่�กการที่าง Nearest Neighbor algorithm มาที่+าการที่+านาย่ โดย่เรา
จะก+าหนดค�า k =8 หร.อ (เราให ม�เพ.�อนบ านที่��ใกล่ ที่��สิ่'ดที่��เป�นไปได
ม�ค�าเที่�าก�บ 8) เป�นพาราม�เตอร1เพ.�อที่��จะใชุ ค+านวณ ระย่ะที่างระหว�าง จ'ด query instance ก�บ
training samples ให ใชุ ค�าที่��ว�ดได เป�น Xi
เรา จะได query instance = xq
1,xq2 เป�นระบบ
พ�ก�ดจ'ดหร.อระบบcoordinate แล่ะจะได training data = xt
1,xt2
ด�งน์�#น์จะเข�ยน์เป2น์สมการได+ว'า
81
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
เราสามารถใชั+ Euclidean distance ใน์ การหาระยะทาง ของ X
i ได+
*ค�า Xi ค.อ ค�าที่��ระย่ะที่างที่��จ'ดกระจาย่อย่��ในแต�ล่ะจ'ด
82
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
เม"�อทราบจ�ดท��ส�#น์ท��ส�ดแล+ว ก<จะด(าเน์�น์การด�ง ภาพ (KNN)
83
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�
การใชั+ KNN เข+ามาจ�ดการจ(าแน์กข+อม1ล
84
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต�การประย�กต�ใชั+
เราม�ขึ้ อม�ล่จากการสิ่+ารวจแบบสิ่อบถึาม (ขึ้อความค�ดเห*นคน) แล่ะการที่ดสิ่อบว�ตถึ'ประสิ่งค1สิ่อง
ล่�กษณะ (ที่นกรดแล่ะความแขึ้*งแรง) เพ.�อแย่กประเภที่ว�าเน.$อเย่.�อกระดาษพ�เศษด�หร.อไม�. เราสิ่ามารถึคาดเดาสิ่��งที่��จ+าแนกเน.$อเย่.�อใหม�น�$
ค.ออะไร
ข+อด�ของ algorithm น์�# (KNN) - ชุ�วย่ให ค'ณสิ่ามารถึคาดการณ1ประเภที่ขึ้องปCญหาน�$.
85
เทคน์�คต'าง ๆ ท��ใชั+ใน์การตรวจจ�บความผิ�ดปกต� การเชั"�อมโยงก�บ Intrusion Detection
การตรวจสิ่อบการบ'กร'ก การบ'กร'กหล่�ก ๆ ม�อย่��สิ่องประเภที่ ค.อ เคร.อขึ้�าย่การใชุ (NIDS)
ยกต�วอย'างการตรวจสอบสภาพการจราจร
อ'ปกรณ1เชุ.�อมต�อที่างเคร.อขึ้�าย่ เชุ�น สิ่ว�ตซึ่1 หร.อ ฮั�บ หร.อการตรวจสิ่อบ การไหล่ขึ้องน+$าในที่�อประปาว�าม�การร��วซึ่�มหร.อไม�
86
แผิน์ผิ�งการตรวจจ�บความผิ�ดปกต�
87
END
88
HW#9 จงอธ�บาย่ความหมาย่ขึ้องการตรวจจ�บความผิ�ดปกต� จงย่กต�วอย่�างความผิ�ดปกต�ที่��เก�ดขึ้�$นในชุ�ว�ตประจ+าว�น จงอธ�บาย่ปCญหาที่างด านการตรวจจ�บความผิ�ดปกต� จงบอกเที่คน�คต�าง ๆ ที่��ใชุ ในการตรวจจ�บความผิ�ดปกต� บร�ษ�ที่ Aroma ขึ้าย่น+$าหอมสิ่+าหร�บรถึย่นต1แห�งหน��งโฆษณา
ว�า รถึย่นต1 90% จะใชุ น+$าหอมที่��ผิล่�ตจากบร�ษ�ที่น�$ แล่ะจากค+ากล่�าวอ างด�งกล่�าวที่+าให บร�ษ�ที่ค��แขึ้�งซึ่��งชุ.�อว�า Botta ย่อมร�บไม�ได จ�งที่+าการสิ่+ารวจตล่าดโดย่ได ที่+าการสิ่'�มต�วอย่�างรถึย่นต1 400 ค�นพบว�า ใชุ น+$าหอมขึ้องบร�ษ�ที่ Aroma 320 ค�น ค+ากล่�าวอ างขึ้องบร�ษ�ที่ Aroma เป�นจร�งหร.อไม� ณ ระด�บน�ย่สิ่+าค�ญ 0.05
89
HW#9
90