133
BGIÁO DỤC VÀ ĐÀO TẠO VIN HÀN LÂM KHOA HC VÀ CÔNG NGHVIT NAM HC VIN KHOA HC VÀ CÔNG NGH----------------------------- HTHPHƯỢNG PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI THEO TIẾP CẬN TẬP THÔ MỜ LUN ÁN TIẾN SĨ MÁY TÍNH HÀ NỘI - 2021

PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

  • Upload
    others

  • View
    4

  • Download
    0

Embed Size (px)

Citation preview

Page 1: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-----------------------------

HỒ THỊ PHƯỢNG

PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH

TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI

THEO TIẾP CẬN TẬP THÔ MỜ

LUẬN ÁN TIẾN SĨ MÁY TÍNH

HÀ NỘI - 2021

Page 2: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

BỘ GIÁO DỤC VÀ ĐÀO TẠO VIỆN HÀN LÂM KHOA HỌC

VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

-----------------------------

HỒ THỊ PHƯỢNG

PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH

TRONG BẢNG QUYẾT ĐỊNH THAY ĐỔI

THEO TIẾP CẬN TẬP THÔ MỜ

Chuyên ngành : Khoa học máy tính

Mã số : 9 48 01 01

LUẬN ÁN TIẾN SĨ MÁY TÍNH

Người hướng dẫn khoa học: PGS.TS. Nguyễn Long Giang

HÀ NỘI - 2021

Page 3: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

LỜI CẢM ƠN

Luân an nay đươc hoan thanh vơi sự nỗ lực không ngừng cua tac gia va sự giup

đỡ hết mình từ cac thây giao hương dẫn, ban be va ngươi thân. Đâu tiên, tac gia xin

bay to lơi tri ân tơi PGS.TS Nguyễn Long Giang, Viên Công nghê Thông tin, Viên

Hàn lâm Khoa hoc va Công nghê Viêt Nam ngươi thây đã tân tình hương dẫn tác gia

hoàn thành luân án này.

Tác gia xin gửi lơi cam ơn sâu sắc đến thây cô, ban bè công tác tai Viên Công

nghê Thông tin, Viên Hàn lâm Khoa hoc va Công nghê Viêt Nam đã nhiêt tình giup đỡ

va tao ra môi trương nghiên cứu tốt để tác gia hoan thanh công trình cua mình; cam ơn

các thây cô va cac đồng nghiêp ở cac nơi ma tac gia tham gia viết bai đã có những góp

ý chính xac để tác gia có đươc những công bố như ngày hôm nay.

Cam ơn Hoc Viên Khoa hoc và Công nghê Viêt Nam đã tao moi điều kiên

thuân lơi để tác gia hoàn thành Luân án này.

Tac gia xin gửi lơi cam ơn tơi Đang uy, Ban Giam hiêu trương Đai hoc Tây

Nguyên nơi tac gia công tac đã ung hô va tao moi điều kiên để tac gia hoan thanh luân

an đung thơi han.

Cuối cung, tac gia xin gửi tơi ban be, ngươi thân lơi cam ơn chân thanh nhât vì

đã đồng hanh cung tac gia trong suốt thơi gian qua. Con xin cam ơn Cha, Mẹ và gia

đình đã luôn la chỗ dựa vững chắc về tinh thân và vât chât, cũng la những ngươi luôn

mong moi cho con thành công; cam ơn chồng và các anh chị em đã ganh vac công viêc

gia đình thay cho em; xin lỗi các con vì phân nao đó đã chịu thiêt thòi trong thơi gian

mẹ hoc tâp nghiên cứu, chính các con là nguồn đông lực lơn lao giúp mẹ hoàn thành

đươc công viêc khó khăn nay.

Hà Nôi, tháng 01 năm 2021

Hồ Thị Phượng

Page 4: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

LỜI CAM ĐOAN

Cac kết qua trình bay trong luân an la công trình nghiên cứu cua tôi đươc hoan

thanh dươi sự hương dẫn cua PGS.TS. Nguyễn Long Giang. Những kết qua trình bay

la mơi va chưa từng đươc công bố ở cac công trình cua ngươi khac.

Tôi xin chịu trach nhiêm về những lơi cam đoan cua mình.

Hà Nội, Ngày….tháng ….năm 2021

Nghiên cứu sinh

Hồ Thị Phượng

Page 5: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

i

MỤC LỤC

MỞ ĐẦU ........................................................................................................................................ 1

CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH THEO TẬP

THÔ MỜ ........................................................................................................................................ 8

1.1. Tổng quan về rút gon thuôc tính............................................................................... 8

1.2. Cac hương tiếp cân filter-wrapper trong rút gon thuôc tính ................................... 10

1.3. Tổng quan về tâp thô mơ ........................................................................................ 11

1.3.1. Bang quyết định va quan hê tương đương............................................................... 12

1.3.2. Quan hê tương đương mơ ......................................................................................... 12

1.3.3. Ma trân tương đương mơ .......................................................................................... 14

1.3.4. Phân hoach mơ ........................................................................................................... 14

1.4. Các nghiên cứu liên quan đến rút gon thuôc tính theo tiếp cân tâp thô mơ ........... 17

1.4.1. Rut gon thuôc tính theo tiếp cân tâp thô mơ............................................................ 17

1.4.2. Phương phap gia tăng rut gon thuôc tính theo tiếp cân tâp thô mơ....................... 19

1.5. Tóm tắt cac đóng góp cua luân án .......................................................................... 23

1.6. Kết luân chương 1 .................................................................................................. 24

CHƯƠNG 2. THUẬT TOÁN FIFTER-WRAPPER RÚT GỌN THUỘC

TÍNH TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ ................. 25

2.1. Mở đâu .................................................................................................................... 25

2.2. Xây dựng khoang cách giữa hai tâp mơ ................................................................. 26

2.2.1. Đô đo khoang cach mơ .............................................................................................. 27

2.2.2. Đô đo khoang cach mơ va cac tính chât .................................................................. 27

2.3. Thuât toán filter tìm tâp rút gon sử dụng khoang cách mơ .................................... 30

2.4. Thuât toán filter-wrapper tìm tâp rút gon sử dụng khoang cách mơ ...................... 36

2.5. Thực nghiêm va đanh gia kết qua các thuât toán ................................................... 37

2.5.1. Mục tiêu thực nghiêm ................................................................................................ 37

2.5.2. Số liêu, phương phap va môi trương thực nghiêm ................................................. 38

2.5.3. Kết qua so sanh đô chính xac phân lơp va số lương thuôc tính tâp

rut gon ......................................................................................................................... 39

2.5.4. Kết qua so sanh thơi gian thực hiên ......................................................................... 41

2.6. Kết luân Chương 2.................................................................................................. 42

Page 6: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

ii

CHƯƠNG 3. THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP

RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP ĐỐI TƯỢNG ............................................. 44

3.1. Mở đâu .................................................................................................................... 44

3.2. Thuât toán gia tăng filter-wrapper tìm tâp rút gon bổ sung tâp đối tương ............. 47

3.2.1. Công thức gia tăng để tính khoang cach mơ khi bổ sung môt đối tương ............. 47

3.2.2. Công thức gia tăng tính khoang cach mơ khi bổ sung tâp đối tương ................... 50

3.3. Thuât toan gia tăng fifter-wrapper tìm tâp rut gon khi loai bo tâp đối tương ........... 71

3.4. Kết luân Chương 3.................................................................................................. 88

CHƯƠNG 4. THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP

RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH .......................................... 90

4.1. Mở đâu .................................................................................................................... 90

4.2. Thuât toan gia tăng filter-wrapper tìm tâp rut gon khi bổ sung tâp thuôc tính .............. 93

4.2.1. Công thức gia tăng câp nhât khoang cach khi bổ sung tâp thuôc tính .................. 93

4.2.2. Thuât toan gia tăng filter-wrapper tìm tâp rut gon khi bổ sung tâp

thuôc tính ................................................................................................................. 94

4.2.3. Thực nghiêm va đanh gia thuât toan ........................................................................ 97

4.3. Thuât toan gia tăng filter-wrapper tìm tâp rut gon khi loai bo tâp thuôc tính ............. 106

4.3.1. Công thức câp nhât khoang cach khi loai bo tâp thuôc tính ................................ 106

4.3.2. Thuât toan gia tăng filter-wrapper câp nhât tâp rut gon khi loai bo tâp

thuôc tính ................................................................................................................. 106

4.4. Kết luân Chương 4................................................................................................ 108

KẾT LUẬN ............................................................................................................................... 110

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ .................................................................. 111

TÀI LIỆU THAM KHẢO ...................................................................................................... 112

Page 7: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

iii

DANH MỤC CÁC THUẬT NGỮ

Thuật ngữ tiếng Việt Thuật ngữ tiếng Anh

Tập thô Rough Set

Tập thô mờ Fuzzy Rough Set

Hệ thông tin Information System

Bảng quyết định Decision Tables

Bảng quyết định mờ Fuzzy Decision Tables

Quan hệ tương đương Equivalence Relation

Quan hệ tương đương mờ Fuzzy Equivalence Relation

Phân hoạch mờ Fuzzy Partition

Ma trận tương đương mờ Fuzzy Equivalence Matrix

Lớp tương đương mờ Fuzzy equivalence Classes

Xấp xỉ dưới mờ Fuzzy Lower Approximation

Xấp xỉ trên mờ Fuzzy Upper Approximation

Rút gọn thuộc tính Attribute Reduction

Tập rút gọn Reduct

Phương pháp gia tăng Incremental Methods

Khoảng cách mờ Fuzzy Distance

Hàm thuộc mờ Fuzzy Dependency Function

Lọc Filter

Đóng gói Wrapper

Page 8: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

iv

BẢNG CÁC KÝ HIỆU, TỪ VIẾT TẮT

Ký hiệu, từ viết tắt Diễn giải

,DS U C D Bang quyết định

U Số đối tương

C Số thuôc tính điều kiên trong bang quyết định

u a Giá trị cua đối tương u tai thuôc tính a

IND B Quan hê tương đương trên B

/U P Phân hoach cua U trên P

B

u Lơp tương đương chứa u cua phân hoach /U P

Ra Quan hê tương đương mơ R .

PR Quan hê tương đương mơ �� trên tâp thuôc tính P

( )PM R Ma trân tương đương mơ cua ��𝑃

Φ PR Phân hoach mơ trên ��𝑃

i Px

Lơp tương đương mơ cua ix thuôc phân hoach mơ Φ PR

i Px Lực lương lơp tương đương mơ i P

x

PX Tâp xâp xỉ dươi mơ cua X đối vơi PR

PX Tâp xâp xỉ trên mơ cua X đối vơi PR

FPD Φ ,ΦP QR R Khoang cách mơ giữa hai phân hoach mơ Φ  PR và Φ QR

Page 9: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

v

DANH MỤC CÁC BẢNG

Bảng 1.1 Bang quyết định cua Ví dụ 1.1 ...................................................................... 16

Bảng 1.2 Liêt kê các nghiên cứu liên quan đến các thuât toán heuristic tìm tâp rút gon

cua bang quyết định theo tiếp cân tâp thô mơ. .............................................................. 18

Bảng 1.3 Liêt kê các nghiên cứu liên quan đến các thuât toan gia tăng tìm tâp rút gon

cua bang quyết định theo tiếp cân tâp thô mơ. .............................................................. 21

Bảng 2.1 Bang quyết định cua Ví dụ 2.2 ...................................................................... 33

Bảng 2.2 Bô dữ liêu thử nghiêm thuât toán FW_FDBAR ............................................ 38

Bảng 2.3 Đô chính xác phân lơp và số lương thuôc tính tâp rút gon............................ 39

Bảng 2.4 Thơi gian thực hiên FW_FDBAR, FEBAR, FPDAR ................................... 41

Bảng 3.1 Bang quyết định cua Ví dụ 3.1 ...................................................................... 48

Bảng 3.2 Bang quyết định sau khi thêm đối tương u4 cua Ví dụ 3.1 ............................ 49

Bảng 3.3 Bang quyết định cua Ví dụ 3.2 ...................................................................... 51

Bảng 3.4 Bang quyết định cua Ví dụ 3.2 sau khi thêm tâp đối tương .......................... 52

Bảng 3.5 Bô dữ liêu thử nghiêm khi thêm tâp đối tương ............................................. 59

Bảng 3.6 Thơi gian thực hiên cua các thuât toán IFW_FDAR_AdObj, IV-FS-FRS-2

IARM, ASS-IAR và IFSA (tính bằng giây) .................................................................. 60

Bảng 3.7 Đô chính xác phân lơp và số lương thuôc tính tâp rút gon cua các thuât toán

IFW_FDAR_AdObj, IV-FS-FRS-2, IARM, ASS-IAR và IFSA .................................. 65

Bảng 3.8 Bang quyết định cua Ví dụ 3.3 ...................................................................... 72

Bảng 3.9 Bang quyết định sau khi loai bo 1 đối tương cua Ví dụ 3.3 .......................... 74

Bảng 3.10 Bang quyết định cua Ví dụ 3.4 .................................................................... 76

Bảng 3.11 Bang quyết định sau khi loai bo tâp đối tương cua Ví dụ 3.4 ..................... 78

Bảng 3.12 Mô ta dữ liêu khi loai bo tâp đối tương ....................................................... 83

Bảng 3.13 Thơi gian thực hiên cua thuât toán IFW_FDAR_DelObj và IFSD ............. 84

Bảng 3.14 Đô chính xác phân lơp cua thuât toán IFW_FDAR_DelObj và IFSD ....... 86

Bảng 4.1 Bô dữ liêu thử nghiêm ................................................................................... 98

Bảng 4.2 Số lương thuôc tính tâp rút gon va đô chính xác phân lơp cua

IFW_FDAR_AA và FRSA-IFS-HIS(AA) .................................................................... 99

Bảng 4.3 Thơi gian thực hiên cua IFW_FDAR_AA và FRSA-IFS-HIS(AA) ........... 103

Page 10: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

vi

DANH SÁCH CÁC HÌNH VẼ

Hình 1.1 Quy trình rút gon thuôc tính ......................................................................... 10

Hình 1.2 Cách tiếp cân filter và wrapper trong rút gon thuôc tính .............................. 11

Hình 2.1 Đô chính xác phân lơp cua ba thuât toán ...................................................... 40

Hình 2.2 Số lương thuôc tính tâp rút gon cua ba thuât toán ......................................... 41

Hình 2.3 Thơi gian thực thiên cua ba thuât toán........................................................... 42

Hình 3.1 Thơi gian thực hiên các thuât toán IFW_FDAR_AdObj, IV-FS-FRS-2

IARM, ASS-IAR và IFSA ............................................................................................. 64

Hình 3.2 Số lương thuôc tính tâp rút gon cua các thuât toán IFW_FDAR_AdObj, IV-

FS-FRS-2 IARM, ASS-IAR và IFSA ........................................................................... 71

Hình 3.3 Thơi gian thực hiên các thuât toán IFW_FDAR_DelObj và IFSD ............... 86

Hình 3.4 Số lương thuôc tính tâp rút gon cua các thuât toán IFW_FDAR_DelObj và

IFSD ............................................................................................................................... 88

Hình 4.1 Đô chính xác phân lơp cua các thuât toán IFW_FDAR_AA và FRSA-IFS-

HIS(AA) ...................................................................................................................... 103

Hình 4.2 Thơi gian thực hiên cua thuât toán IFW_FDAR_AA và FRSA-IFS-

HIS(AA) ...................................................................................................................... 105

Page 11: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

1

MỞ ĐẦU

1. Tính cấp thiết

Rút gon thuôc tính là bài toán quan trong trong bươc tiền xử lý dữ liêu cua quá

trình khai phá tri thức từ dữ liêu. Mục tiêu cua rút gon thuôc tính là loai bo các thuôc

tính dư thừa, không cân thiết nhằm nâng cao tính hiêu qua cua các mô hình khai phá

dữ liêu. Rút gon thuôc tính cua bang quyết định là quá trình lựa chon tâp con nho nhât

cua tâp thuôc tính điều kiên, loai bo các thuôc tính dư thừa mà bao toàn thông tin phân

lơp cua bang quyết định, goi là tâp rút gon (reduct). Kết qua rút gon thuôc tính anh

hưởng trực tiếp đến hiêu qua thực hiên các nhiêm vụ khai pha: Gia tăng tốc đô, cai

thiên chât lương, tính dễ hiểu cua các kết qua thu đươc. Cho đến nay, có hai hương

tiếp cân chính đối vơi bài toán lựa chon thuôc tính: Loc (filter) va đóng gói (wrapper).

Cách tiếp cân fifter thực hiên viêc lựa chon thuôc tính đôc lâp vơi thuât toán khai phá

sử dụng sau này. Các thuôc tính đươc chon chỉ dựa trên đô quan trong cua chúng trong

viêc mô ta dữ liêu. Trong khi đó, cach tiếp cân wrapper tiến hành viêc lựa chon bằng

cách áp dụng ngay thuât khai pha, đô chính xác cua kết qua đươc lây làm tiêu chuẩn để

lựa chon các tâp con thuôc tính.

Lý thuyết tập thô mờ (fuzzy rough set) do Dübois và các công sự [1] đề xuât là

công cụ hiêu qua giai quyết bài toán rút gon thuôc tính trực tiếp trên bang quyết định

gốc không qua bươc tiền xử lý dữ liêu nhằm nâng cao hiêu qua đô chính xác mô hình

phân lơp. Cho đến nay, nhiều phương phap rut gon thuôc tính theo tiếp cân tâp thô mơ

đã đươc đề xuât, điển hình la cac phương phap sử dụng hàm thuôc mơ [2, 3, 4], các

phương phap sử dụng miền dương mơ [5, 6], cac phương phap sử dụng entropy mơ [7,

8, 9], cac phương phap sử dụng khoang cách mơ [10, 11, 12] và môt số phương phap

khác [13, 14, 15, 16, 17, 18]. Trong xu thế dữ liêu lơn (Big data) hiên nay, các bang

quyết định ngày càng có số thuôc tính rât lơn, ví dụ các bang dữ liêu trong lĩnh vực tin

sinh hoc có hàng triêu thuôc tính. Hơn nữa, các bang quyết định luôn luôn thay đổi,

câp nhât vơi các tình huống như bổ sung và loai bo tâp đối tương, bổ sung và loai bo

tâp thuôc tính, giá trị tâp đối tương, tâp thuôc tính thay đổi. Để xây dựng mô hình phân

lơp hiêu qua, ta cân giai quyết bài toán rút gon thuôc tính trên các bang quyết định

kích thươc lơn va thay đổi. Cac phương phap rut gon thuôc tính theo tiếp cân truyền

thống trên các bang quyết định như vây gặp hai thách thức. Thứ nhât, vơi các bang

quyết định có kích thươc lơn, viêc thực hiên các thuât toán tìm tâp rút gon gặp khó

Page 12: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

2

khăn về không gian lưu trữ và tốc đô tính toán. Thứ hai, vơi các bang quyết định thay

đổi, câp nhât, các thuât toán này phai tính toán lai tâp rút gon trên toàn bô bang quyết

định sau khi thay đổi, do đó chi phí về thơi gian tính toan tăng lên đang kể. Để giai

quyết hai thách thức trên, các nhà nghiên cứu đề xuât hương tiếp cân tính toan gia tăng

tìm tâp rút gon. Các thuât toan gia tăng chỉ câp nhât lai tâp rút gon trên phân dữ liêu bị

thay đổi mà không tính lai tâp rút gon trên toàn bô bang quyết định ban đâu. Do đó,

chúng giam thiểu đang kể thơi gian thực hiên. Hơn nữa, các thuât toan gia tăng có thể

thực hiên đươc trên các bang quyết định kích thươc lơn bằng giai pháp chia nho bang

quyết định thành nhiều phân, tâp rút gon đươc tính khi lân lươt bổ sung từng phân.

Hương tiếp cân tính toan gia tăng tìm tâp rút gon cua bang quyết định đã va

đang thu hut sự quan tâm cua các nhà nghiên cứu trong suốt hơn thâp kỷ qua.

Theo tiếp cận lý thuyết tập thô truyền thống của Pawlak [19] và các mô hình

tập thô mở rộng, các nhà nghiên cứu đã đề xuât nhiều thuât toan gia tăng tìm tâp rút

gon cua bang quyết định thay đổi. Với trường hợp bổ sung, loại bỏ tập đối tượng, môt

số thuât toan gia tăng đề xuât sử dụng khoang cách [20, 21], hat thông tin [22, 23, 24,

25, 26, 27], ma trân phân biêt [28, 29, 30, 31, 32], miền dương [33, 34, 35], ham thuôc

[36], quan hê không phân biêt đươc [37], entropy thông tin [38], đô đo không nhât

quán [39], lựa chon mẫu kích hoat [40]. Với trường hợp bổ sung, loại bỏ tập thuộc

tính, môt số thuât toan gia tăng tìm tâp rút gon đã đươc đề xuât sử dụng miền dương

[41], entropy thông tin [42], ma trân phân biêt [43, 44, 45], quan hê không phân biêt

[46, 47], khoang cach [48], đô phụ thuôc cua thuôc tính [49], hat tri thức [50, 51].

Theo tiếp cận tập thô mờ [1], trong mây năm gân đây môt số thuât toan gia tăng

tìm tâp rút gon cua bang quyết định đã đươc đề xuât vơi cac trương hơp: bổ sung và

loai bo tâp đối tương [52, 53, 54, 56, 57], bổ sung và loai bo tâp thuôc tính [58]. Với

trường hợp bổ sung, loại bỏ tập đối tượng, Liu và các công sự [52] xây dựng công

thức gia tăng tính đô phụ thuôc mơ va đề xuât thuât toan giăng FIAT tìm tâp rút gon

khi bổ sung tâp đối tương. Yang và các công sự [53] xây dựng công thức gia tăng tính

quan hê phân biêt, trên cơ sở đó xây dựng thuât toan gia tăng IARM tìm tâp rút gon

khi bổ sung tâp đối tương. Yang và các công sự [54] xây dựng cơ chế câp nhât quan hê

phân biêt va đề xuât hai thuât toán IV-FS-FRS-1 và IV-FS-FRS-2 tìm tâp rút gon trong

trương hơp bổ sung tâp đối tương. Zhang và các công sự [56] đề xuât thuât toán gia

Page 13: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

3

tăng AIFWAR tìm tâp rút gon sử dụng entropy có điều kiên mở rông trong trương hơp

bổ sung tâp đối tương. Ni và các công sự [57] đưa ra khai niêm tâp đối tương chính

(key instance set), trên cơ sở đó xây dựng hai thuât toan gia tăng tìm tâp rút gon dựa

trên tâp đối tương chính trong trương hơp bổ sung tâp đối tương: thuât toán DIAR sử

dụng hàm thuôc mơ và thuât toán PIAR sử dụng miền dương mơ. Với trường hợp bổ

sung, loại bỏ tập thuộc tính, các kết qua nghiên cứu về các thuât toan gia tăng tìm tâp

rút gon theo tiếp cân tâp thô mơ còn han chế. Zeng và các công sự [58] xây dựng các

công thức gia tăng câp nhât đô phụ thuôc mơ trong hê thông tin hỗn hơp (HIS), trên cơ

sở đó đề xuât hai thuât toan gia tăng câp nhât tâp rút gon sử dụng đô phụ thuôc mơ:

thuât toán FRSA-IFS-HIS(AA) trong trương hơp bổ sung tâp thuôc tính và thuât toán

FRSA-IFS-HIS(AD) trong trương hơp loai bo tâp thuôc tính. Kết qua thực nghiêm

trong các công trình nêu trên cho thây, các thuât toan gia tăng giam thiểu đang kể thơi

gian thực hiên so vơi các thuât toan không gia tăng. Do đó, chung có thể thực thi hiêu

qua trên các bang quyết định có kích thươc lơn va thay đổi, câp nhât. Tuy nhiên, phần

lớn các thuật toán đề xuất đều theo hướng tiếp cận lọc (filter) truyền thống. Vơi cách

tiếp cân này, tâp rút gon tìm đươc là tâp thuôc tính tối thiểu bao toan đô đo đươc xây

dựng. Viêc đanh gia đô chính xác phân lơp đươc thực hiên sau khi tìm đươc tâp rút

gon. Vì vây, tâp rút gon thu đươc chưa phai là lựa chon tốt nhât trên hai tiêu chí: số

lương thuôc tính tâp rút gon va đô chính xác phân lơp. Do đó, đông lực nghiên cứu cua

luân án là nghiên cứu, đề xuất các thuật toán gia tăng theo tiếp cận kết hợp filter-

wrapper nhằm mục tiêu giảm thiểu số thuộc tính tập rút gọn và cải thiện độ chính xác

mô hình phân lớp.

2. Mục tiêu nghiên cứu

Nghiên cứu, đề xuât các thuât toan gia tăng tìm tâp rút gon cua bang quyết định

thay đổi dựa trên tâp thô mơ theo tiếp cân kết hơp filter-wrapper nhằm giảm thiểu số

lượng thuộc tính tập rút gọn và cải thiện độ chính xác của mô hình phân lớp, từ đó

giam thiểu đô phức tap cua mô hình khai phá dữ liêu.

Với mục tiêu đặt ra, luận án đã thu được các kết quả chính như sau:

1) Đề xuât thuât toán filter-wrapper tìm tâp rút gon cua bang quyết định sử

dụng đô đo khoang cách mơ. Đóng góp nay đươc trình bày ở Chương 2 cua

luân án.

Page 14: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

4

2) Đề xuât hai thuât toan gia tăng filter-wrapper tìm tâp rút gon cua bang quyết

định thay đổi trong trương hơp bổ sung, loai bo tâp đối tương. Đóng góp nay

đươc trình bày ở Chương 3 cua luân án.

3) Đề xuât hai thuât toan gia tăng filter-wrapper tìm tâp rút gon cua bang quyết

định thay đổi trong trương hơp bổ sung, loai bo tâp thuôc tính. Đóng góp

nay đươc trình bày ở Chương 4 cua luân án.

3. Đối tượng nghiên cứu của luận án:

- Tâp thô mơ va cac phương phap rut gon thuôc tính theo tiếp cân tâp thô mơ

- Bang quyết định thay đổi trong trương hơp bổ sung, loai bo tâp đối tương, tâp

thuôc tính.

- Cac đô đo đươc sử dụng trong lý thuyết tâp thô mơ, tâp trung vao đô đo

khoang cách mơ.

4. Phạm vi nghiên cứu

Về lý thuyết: Nghiên cứu các thuât toán heuristic tìm tâp rút gon cua bang quyết

định thay đổi (bổ sung, loai bo tâp đối tương; bổ sung, loai bo tâp thuôc tính) sử dụng

cac đô đo trong tâp thô mơ.

Về thử nghiệm: Thử nghiêm, so sanh, đanh gia cac thuât toan đề xuât vơi các

thuât toan đã công bố trên các bô dữ liêu mẫu từ kho dữ liêu UCI [59] nhằm đanh gia

tính hiêu qua cua các thuât toan đề xuât theo các mục tiêu đặt ra.

5. Phương pháp nghiên cứu

Nghiên cứu lý thuyết: Tổng hơp các nghiên cứu liên quan về cac phương phap

gia tăng rut gon thuôc tính theo tiếp cân tâp thô mơ, trên cơ sở đó phân tích, đanh gia

các vân đề còn tồn tai và xây dựng cac đề xuât cai tiến: Cai tiến về đô chính xác mô

hình phân lơp và cai tiến về số lương thuôc tính tâp rút gon, từ đó giam đô phức tap

cua mô hình.

Nghiên cứu thực nghiệm: Các thuât toan đề xuât đươc cai đặt, chay thử nghiêm,

so sanh, đanh gia vơi các thuât toán khác trên các bô số liêu mẫu từ kho dữ liêu UCI

[59] nhằm minh chứng về tính hiêu qua cua các nghiên cứu về lý thuyết.

Page 15: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

5

6. Nội dung nghiên cứu

1) Nghiên cứu cac phương phap rut gon thuôc tính trong bang quyết định dựa

trên mô hình tâp thô mơ theo tiếp cân kết hơp filter-wrapper.

2) Nghiên cứu cac phương phap gia tăng rut gon thuôc tính trong bang quyết

định thay đổi theo tiếp cân kết hơp filter-wrapper. Bang quyết định thay đổi trong

trương hơp bổ sung, loai bo tâp đối tương; bổ sung, loai bo tâp thuôc tính.

3) Cai đặt, thử nghiêm, so sanh, đanh gia cac thuât toan đề xuât vơi các thuât

toan khac đã công bố trên các bô dữ liêu thử nghiêm từ kho dữ liêu UCI [59].

7. Ý nghĩa khoa học và thực tiễn

Ý nghĩa khoa học:

Đề xuât các thuât toán mơi tìm tâp rút gon cua bang quyết định theo tiếp cân kết

hơp filter-wrapper trong trương hơp bang quyết định thay đổi. Cụ thể luân án có các

kết qua chính như sau:

1) Xây dựng môt đô đo khoang cách mơ va đề xuât thuât toán theo tiếp cân kết

hơp filter-wrapper FW_FDBAR tìm tâp rút gon cua bang quyết định sử dụng đô đo

khoang cách mơ. Kết qua thử nghiêm trên các bô số liêu mẫu từ kho dữ liêu UCI [59]

cho thây, thuât thoán filter-wrapper FW_FDBAR giam thiểu đang kể số lương thuôc

tính tâp rút gon và cai thiên đô chính xác mô hình phân lơp so vơi các thuât toán filter

truyền thống khác.

2) Xây dựng cac công thức gia tăng tính khoang cach va đề xuât 04 thuât toan

gia tăng filter-wrapper tìm tâp rút gon cua bang quyết định :

a. Thuât toan gia tăng filter-wrapper IFW_FDAR_AdObj tìm tâp rút gon trong

trương hơp bổ sung tâp đối tương.

b. Thuât toan gia tăng filter-wrapper IFW_FDAR_DelObj tìm tâp rút gon trong

trương hơp loai bo tâp đối tương.

c. Thuât toan gia tăng filter-wrapper IFW_FDAR_AA tìm tâp rút gon trong

trương hơp bổ sung tâp thuôc tính.

d. Thuât toan gia tăng filter-wrapper IFW_FDAR_DA tìm tâp rút gon trong

trương hơp loai bo tâp thuôc tính.

Page 16: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

6

Kết qua thử nghiêm trên các bô số liêu mẫu từ kho dữ liêu UCI [59] cho thây,

bốn thuât toan đề xuât đều theo tiếp cân kết hơp filter-wrapper, trong đó giai đoan

filter tìm các ứng viên cho tâp rút gon (là các tâp thuôc tính bao toan đô đo sử dụng),

giai đoan wrapper tìm tâp rút gon có đô chính xác phân lơp cao nhât. Bốn thuât toan đề

xuât đều giam thiểu số thuôc tính tâp rút gon và cai thiên đô chính xác mô hình phân

lơp so vơi các thuât toan đươc so sánh.

Ý nghĩa thực tiễn

Các thuât toan đề xuât có thể áp dụng để giai quyết bài toán rút gon thuôc tính

trong các ứng dụng thực tiễn nhằm loai bo các thuôc tính dư thừa, nâng cao hiêu qua

các mô hình khai phá dữ liêu và hoc may, đặc biêt là trong các hê thống cơ sở dữ liêu

trong cac lĩnh vực chẩn đoan y tế, tài chính ngân hàng,...

8. Bố cục của luận án

Bố cục cua luân án gồm: phân mở đâu và bốn chương nôi dung, phân kết luân

và danh mục các tài liêu tham khao. Cụ thể như sau:

Chương 1 trình bay môt số khái niêm cơ ban gồm: tổng quan về rút gon thuôc

tính và về cách tiếp cân filter-wrapper trong rút gon thuôc tính. Chương 1 cũng trình

bày các nghiên cứu liên quan đến rút gon thuôc tính theo tiếp cân tâp thô mơ, các

nghiên cứu liên quan đến phương phap gia tăng rut gon thuôc tính theo tiếp cân tâp thô

mơ trong mây năm gân đây. Trên cơ sở đó, luân án phân tích các vân đề còn tồn tai và

nêu rõ các mục tiêu nghiên cứu cùng vơi tóm tắt các kết qua đat đươc. Các kiến thức

cơ ban nay đươc sử dụng trong cac chương sau, la cac đóng góp chính cua luân án.

Cac đóng góp chính cua luân an đươc trình bày trong Chương 2, Chương 3 và

Chương 4. Chương 2 trình bày kết qua nghiên cứu về xây dựng đô đo khoang cách mơ

va đề xuât thuât toán kết hơp filter-wrapper FW_FDBAR tìm tâp rut gon cua bang

quyết định.

Chương 3 va Chương 4 đề xuât các công thức gia tính khoang cách mơ và vân

dụng các khoang cach nay để xây dựng 4 thuât toan gia tăng filter-wrapper; thuât toán

gia tăng filter-wrapper thứ nhât tìm tâp rút gon cua bang quyết định trong trương hơp

bổ sung tâp đối tương; thuât toan gia tăng filter-wrapper thứ hai tìm tâp rút gon cua

bang quyết định trong trương hơp loai bo tâp đối tương; thuât toan gia tăng filter-

Page 17: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

7

wrapper thứ ba tìm tâp rút gon cua bang quyết định trong trương hơp bổ sung tâp

thuôc tính; thuât toan gia tăng filter-wrapper thứ bốn tìm tâp rút gon cua bang quyết

định trong trương hơp loai bo tâp thuôc tính. Ca bốn thuât toan đề xuât đều sử dụng đô

đo khoang cách mơ đề xuât ở Chương 2 va đều có mục tiêu là giam thiểu thơi gian

thực hiên so vơi thuât toan không gia tăng, nâng cao đô chính xác phân lơp và tối thiểu

hóa số lương thuôc tính tâp rút gon so vơi các thuât toan gia tăng khac đã công bố.

Cuối cùng, phân kết luân nêu những đóng góp cua luân an, hương phát triển và

những vân đề quan tâm cua tác gia.

Page 18: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

8

CHƯƠNG 1. TỔNG QUAN VỀ RÚT GỌN THUỘC TÍNH

THEO TẬP THÔ MỜ

Trong chương nay, luân án sẽ trình bày tổng quan về rút gon thuôc tính, các

hương tiếp cân filter va hương tiếp cân kết hơp fifter-wrapper trong rút gon thuôc tính,

nhằm rút ra những ưu nhươc điểm cua các cách tiếp cân trên, từ đó đề xuât hương tiếp

cân phù hơp; trình bày tổng quan lý thuyết tâp thô mơ là những khái niêm cơ ban để

nghiên cứu vân dụng vào bài toán rút gon trên tâp mơ, la cơ sở nền tang để đưa ra đề

xuât thuât toán rút gon thuôc tính sử dụng khoang cách mơ theo tiếp cân filter-wrapper

va cũng la căn cứ cơ ban để chúng tôi nghiên cứu và phát triển cho các thuât toán gia

tăng rut gon thuôc tính trong cac chương tiếp theo.

1.1. Tổng quan về rút gọn thuộc tính

Trong bối canh ngay nay, cac cơ sở dữ liêu ngay cang gia tăng về dung lương

dữ liêu cũng như số lương thuôc tính, gây rât nhiều khó khăn cho viêc thực thi các

thuât toán khai phá dữ liêu. Vân đề đặt ra là phai tìm cách rút gon số lương thuôc tính

mà không làm mât mát những thông tin cân thiết phục vụ nhiêm vụ khai phá dữ liêu.

Do đó, rut gon thuôc tính (hay còn goi là rút gon chiều – dimension reduction, rút gon

đặc trưng – feature reduction) trở thanh đề tài thu hút sự quan tâm cua nhiều nhà

nghiên cứu trong viêc xử lý dữ liêu lơn thuôc các hê thống Internet of Things (IoT) nơi

xuât hiên môt lương lơn dữ liêu ở các dang và khối lương khác nhau.

Rút gọn thuộc tính là bài toán quan trong trong bươc tiền xử lý dữ liêu vơi mục

tiêu là loai bo các thuôc tính dư thừa, không liên quan, chỉ giữ lai các thuôc tính hữu

ích nhât từ môt tâp các thuôc tính ban đâu nhằm tăng tính hiêu qua cua các thuât toán

khai phá dữ liêu: Gia tăng tốc đô, cai thiên chât lương và tính dễ hiểu cua các kết qua

thu đươc.

Các kỹ thuât rút gon thuôc tính thương đươc phân thành hai loai: Lựa chọn

thuộc tính (Attribute selection) và biến đổi thuộc tính (Attribute transformation). [60]

Lựa chọn thuộc tính là chon môt tâp con tối tiểu tốt nhât (theo môt nghĩa nao

đó) từ tâp thuôc tính ban đâu cua tâp dữ liêu.

Biến đổi thuộc tính là thực hiên viêc biến đổi các thuôc tính ban đâu thành môt

tâp các thuôc tính mơi vơi số lương ít hơn sao cho bao tồn đươc thông tin nhiều nhât.

Page 19: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

9

Vơi những cách thực hiên viêc rút gon thuôc tính như trên, trong qua trình phân

tích luân an đề xuât nghiên cứu hương tiếp cân lựa chọn thuộc tính, goi chung là rút

gọn thuộc tính.

Các công trình nghiên cứu về rút gon thuôc tính thương tâp trung vào nghiên

cứu các kỹ thuât lựa chon thuôc tính. Lựa chọn thuộc tính là quá trình lựa chon môt

tâp con gồm P thuôc tính từ tâp gồm A thuôc tính (P A) sao cho không gian thuôc

tính đươc thu gon lai môt cách tối ưu theo môt tiêu chuẩn nhât định. Viêc tìm ra môt

tâp con thuôc tính tốt nhât thương khó thực hiên; bài toán liên quan đến vân đề này

thuôc lơp bài toán NP-khó. Nhìn chung, môt thuât toán lựa chon thuôc tính thương

bao gồm bốn khâu cơ ban:

(1) Tao lâp tâp con;

(2) Đanh gia tâp con;

(3 ) Kiểm tra điều kiên dừng;

(4) Kiểm chứng kết qua.

Tao lâp tâp con thuôc tính là quá trình tìm kiếm liên tiếp nhằm tao ra các tâp

con để đanh gia, lựa chon. Gia sử có A thuôc tính trong tâp dữ liêu ban đâu, khi đó số

tât ca các tâp con từ A thuôc tính sẽ là 2A . Như vây, rât khó khăn khi tìm tâp con tối ưu

từ tât ca các tâp con nay. Phương phap chung để tìm tâp con thuôc tính tối ưu la lân

lươt tao ra các tâp con để so sánh. Mỗi tâp con sinh ra bởi môt thu tục sẽ đươc đanh

giá theo môt tiêu chuẩn nhât định va đem so sánh vơi tâp con tốt nhât trươc đó. Nếu

tâp con này tốt hơn, nó sẽ thay thế tâp cũ. Qua trình tìm kiếm tâp con thuôc tính tối ưu

sẽ dừng khi môt trong bốn điều kiên sau xay ra:

- Đã thu đươc số thuôc tính quy định.

- Số bươc lặp quy định cho quá trình lựa chon đã hết.

- Viêc thêm vào hay loai bơt môt thuôc tính nao đó không lam cho môt tâp con

trở nên tốt hơn.

- Đã thu đươc tâp con tốt nhât theo tiêu chuẩn đanh gia.

Tâp con tốt nhât cuối cùng phai đươc kiểm chứng thông qua viêc tiến hành các

phép kiểm định, so sánh các kết qua khai phá vơi tâp thuôc tính “tốt nhât” nay va tâp

Page 20: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

10

thuôc tính ban đâu trên các tâp dữ liêu khác nhau. Quá trình lựa chon thuôc tính đươc

biểu diễn như hình sau: [60]

Hình 1.1 Quy trình rút gọn thuộc tính

1.2. Các hướng tiếp cận filter-wrapper trong rút gọn thuộc tính

Hiên nay có hai cách tiếp cân chính đối vơi bài toán lựa chon thuôc tính: Loc

(filter) va đóng gói (wrapper), vơi mỗi hương tiếp cân có những mục tiêu riêng về

giam số lương thuôc tính hoặc nâng cao đô chính xác cua mô hình phân lơp.

Cách tiếp cân kiểu loc thực hiên viêc lựa chon thuôc tính đôc lâp vơi các thuât

toán khai phá sử dụng sau này. Các thuôc tính đươc chon chỉ dựa trên đô quan trong

cua chúng trong viêc mô ta dữ liêu.

Cách tiếp cân kiểu loc có ưu điểm là thơi gian tính toan nhanh, nhươc điểm là

không sử dụng thông tin nhãn lơp cua các bô dữ liêu nên đô chính xác không cao

Ngươc lai vơi cách tiếp cân loc, lựa chon thuôc tính kiểu đóng gói tiến hành

viêc lựa chon bằng cách áp dụng ngay kỹ thuât khai phá cụ thể vơi tâp rút gon vừa

thu đươc, đô chính xác cua kết qua đươc lây làm tiêu chuẩn để lựa chon các tâp con

thuôc tính.

Cac hương tiếp cân loc va đóng gói cua bài toán lựa chon thuôc tính đươc biểu

diễn.[60]

Page 21: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

11

Tập thuộc tínhTập con

được chọnThuật toán học

Filter

Tập thuộc tínhTạo lập

các tập conThuật toán học

WrapperCác thuộc

tính

Sự đánh

giá

Tập con được lựa chọn

Hình 1.2 Cách tiếp cận filter và wrapper trong rút gọn thuộc tính

Từ những ưu nhươc điểm cua 2 cách tiếp cân trên, nghiên cứu sinh đã nghiên

cứu va đề xuât môt số cách tiếp cân mơi nhằm kết hơp những ưu điểm cua phương

pháp filter, wapper và loai bo đi những nhươc điểm cua nó, nghiên cứu sinh đã đề xuât

môt số cách tiếp cân mơi, như la: cách tiếp cận kết hợp fifter-wrapper [9, 61]

1.3. Tổng quan về tập thô mờ

Lý thuyết tập thô truyền thống cua Pawlak [19] sử dụng quan hê tương đương

để xâp xỉ tâp hơp. Trong khi đó, lý thuyết tập thô mờ (Fuzzy Rough Set) do D.

Dübois và các công sự [1] đề xuât sử dụng quan hệ tương đương mờ để xâp xỉ tâp

mơ. Giống như lý thuyết tập thô truyền thống, lý thuyết tập thô mờ đươc xem là công

cụ hiêu qua giai quyết bài toán rút gon thuôc tính và trích loc luât trên bang quyết

định. Cho đến nay, các nghiên cứu liên quan đến rút gon thuôc tính theo tiếp cân tâp

thô mơ tâp trung vao hai hương chính: thứ nhât là rút gon thuôc tính trên các bang

quyết định mơ (bang quyết định vơi giá trị thuôc tính là các tâp mơ); thứ hai là rút

gon thuôc tính trực tiếp trên bang quyết định gốc (bang quyết định không qua bươc

rơi rac hóa dữ liêu) nhằm nâng cao đô chính xác cua mô hình phân lơp. Luân án

nghiên cứu hương thứ hai, do đó trong phân này luân án trình bày môt số khái niêm

cơ ban về mô hình tâp thô mơ trên bang quyết định. Các khái niêm nay đươc sử dụng

trong cac chương sau cua luân án.

Page 22: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

12

1.3.1. Bảng quyết định và quan hệ tương đương

Bảng quyết định la môt cặp ,DS U C D trong đó U la tâp hữu han, khac

rỗng cac đối tương; C la tâp thuôc tính điều kiên, D la tâp thuôc tính quyết định vơi

C D .

Lý thuyết tâp thô truyền thống cua Pawlak [19] sử dụng quan hê tương đương để

xâp xỉ tâp hơp. Xét bang quyết định ,DS U C D , mỗi tâp con thuôc tính P C xác

định môt quan hê tương đương trên miền gia trị thuôc tính, ký hiêu la PR .

, ,PR x y U U a P a x a y

Vơi a x la gia trị thuôc tính a tai đối tương x. Quan hê PR xac định môt phân

hoach trên U, ký hiêu la / p PK P U R x x U vơi

Px la lơp tương đương chứa

đối tương x, , PPx y U x y R . Vơi X U , tâp xâp xỉ dươi va xâp xỉ trên cua X

tương ứng la PPX x U x X và P

PX x U x X . Cặp ,PX PX đươc

goi la tâp thô (rough set) cua X đối vơi PR

1.3.2. Quan hệ tương đương mờ

Định nghĩa 1.1. [1] Cho bang quyết định ,DS U C D , môt quan hê R xác

định trên miền giá trị thuôc tính đươc goi là quan hệ tương đương mờ nếu thoa mãn

cac điều kiên sau vơi moi , ,x y z U

1) Tính phan xa (reflexive):   , 1R x x ;

2) Tính đối xứng (symetric): , ,R x y R y x ;

3)Tính bắc câu max-min (max-min transitive):

, sup min   , , ,z UR x y R x z R y z vơi ,  R x y là giá trị quan hê giữa hai đối tương

x và y.

Mệnh đề 1.1. [58] Cho bang quyết định ,DS U C D và quan hệ tương

đương mờ  R . Ký hiêu PR , QR tương ứng là quan hê  R xac định trên tâp thuôc tính

P, Q. Khi đó, vơi moi ,x y U ta có:

Page 23: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

13

1) , ,P Q P QR R R x y R x y

2) ( , ) max , ,   ,P Q P Q P QR R R R x y R x y R x y

3) ( , ) min , ,   ,P Q P Q P QR R R R x y R x y R x y

4)   ,   ,P Q P QR R R x y R x y

Môt số quan hệ tương đương mờ đươc sử dụng trong bài toán rút gon thuôc tính:

1) Trong các công trình [62, 63, 64], các tác gia sử dụng quan hệ tương đương mờ theo

công thức (1.1) trên thuôc tính a C có miền giá trị số

max min max min

1 4* 0.25

0

,

,

i j i j

i j

a x a x a x a x, if

a a a a

othe

x

r

R

wise

x

(1.1)

vơi ia x là giá trị cua thuôc tính a tai đối tương ix , max min,a a tương ứng là giá

trị lơn nhât, nho nhât cua thuôc tính a C .

2) Trong các công trình [9], các tác gia sử dụng quan hệ tương đương mờ theo công

thức (1.2) trên thuôc tính a C có miền giá trị thực thuôc đoan [0, 1].

1, i ji j aR x xx x a (1.2)

Trong trương hơp giá trị thuôc tính a không thuôc đoan [0, 1], các tác gia sử

dụng môt phương phap tiền xử lý để ánh xa miền giá trị thuôc tính a về đoan [0, 1].

Ngoài ra, môt số công trình [53] sử dụng quan hệ tương đương mờ

min ,,i j a x a yR x x trên thuôc tính a C có miền giá trị số thuôc đoan [0, 1].

3) Trên các thuôc tính a C có miền giá trị định danh (nominal) hoặc nhị phân

(binary), các tác gia sử dụng quan hê tương đương. Quan hê tương đương đươc xem là

quan hệ tương đương mờ theo công thức (1.3) như sau:

1, i

f,

f

0, i

i j

j

i j

i

a x a xR

a xx

a xx

(1.3)

Page 24: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

14

1.3.3. Ma trận tương đương mờ

Ma trận tương đương mờ là công cụ biểu diễn giá trị quan hệ tương đương mờ

giữa cac đối tương cua bảng quyết định va đươc định nghĩa như sau:

Định nghĩa 1.2.[58] Cho bảng quyết định ,DS U C D vơi

1 2, ,..., nU x x x và PR là quan hệ tương đương mờ xac định trên tâp thuôc tính

P C . Khi đó, ma trận tương đương mờ biểu diễn PR , ký hiêu là ij( )n nPM pR

đươc định nghĩa như sau:

11 12 1

21 22 2

1 2

...

...( )

... ... ... ...

...

n

n

P

n n nn

p p p

p p pM R

p p p

vơi ,Pij i jp R x x là giá trị cua quan hê giữa hai đối tương ix và jx trên tâp

thuôc tính P, 0,1ijp , , ,1 ,i jx x U i j n .

Như vây, giá trị các phân tử cua ma trận tương đương mơ ( )PM R phụ thuôc vào

quan hệ tương đương mờ PR đươc chon. Mặt khác, ma trận tương đương mờ la cơ sở để

xây dựng cac đô đo sử dụng để giai quyết bài toán rút gon thuôc tính trong bang quyết

định. Do đó, viêc lựa chon các quan hệ tương đương mờ anh hưởng đến kết qua thực hiên

các phương pháp rút gọn thuộc tính.

1.3.4. Phân hoạch mờ

Mệnh đề 1.2.[64] Cho bang quyết định ,DS U C D và ,P Q C . Gia sử

ij( )n nPM pR

, ij

( )n nQ

M qR

tương ứng là ma trận tương đương mờ cua PR , Q

R

khi đó ma trận tương đương mờ trên tâp thuôc tính S P Q là:

ij( )S P Qn n

M R M R s

vơi ij ij ijmin ,s p q

Định nghĩa 1.3.[64] Cho bang quyết định ,DS U C D vơi P C ,

1 2, ,..., nU x x x và PR là quan hê tương đương mơ trên P. Khi đó phân hoach mơ trên

Page 25: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

15

U sinh bởi PR , ký hiêu là: Φ PR đươc xac định như sau:

11Φ / , ,

n

P P i nP P PiR U R x x x

(1.4)

vơi 1 1 2 2/ / ... /i i i in nPx p x p x p x là môt tâp mơ đóng vai trò la môt lơp tương

đương mơ (fuzzy equivalent class) cua đối tương ix U .

Vơi lơp tương đương mơ i Px , hàm thuôc cua các cua cac đối tương

jx U

đươc xac định bởi , ,

Pi Pi j P i jRj ijx

x x R xx x p và lực lương cua lơp đương

đương mơ i Px đươc tính bởi

1

ii

n

P j

j

x p

.

Goi là tâp tât ca các phân hoach mơ trên U xac định bởi các quan hê tương

đương mơ trên các tâp thuôc tính, khi đó đươc goi là môt không gian phân hoach

mơ trên U. Như vây, môt không gian phân hoach mơ đươc xac định bởi quan hê

tương đương mơ định nghĩa trực tiếp trên miền giá trị thuôc tính.

Định nghĩa 1.4. Xét phân hoach mơ 1

Φn

P i P iR x

sinh bởi quan hê tương

đương mơ PR vơi 1 1/ ... /i i in nPx p x p x , có 2 trương hơp đặc biêt xay ra:

(1) Nếu 0,   )  à  1ij iip i j v p (vơi 1 ,i j n thì 1i Px ,  i n , phân hoach

mơ Φ PR đươc goi là mịn nhât ký hiêu là Φ .

(2) Nếu 1ijp vơi 1 ,i j n thì i Px U , i n , phân hoach mơ Φ PR đươc

goi là thô nhât (roughest) ký hiêu là Φ .

Định nghĩa 1.5 [64]. Xét hai phân hoach mơ  Φ , ΦP QR R , quan hê thứ

tự bô phân đươc định nghĩa như sau:

Φ Φ , , ,P Q i i ij ijP QR R x x i n p q i j n , viết tắt là P QR R .

Dâu đẳng thức Φ Φ , , , ,  P Q i i ij ijP QR R x x i n p q i j n viết tắt là

P QR R .

Φ Φ Φ    ΦP Q P QR R R R và Φ ΦP QR R , viết tắt là P QR R .

Page 26: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

16

Ví dụ 1.1. Cho bang quyết định ,DS U C d trong Bang 1.1 vơi

1 2 3 4, , ,U u u u u và 1 2 3 4, , ,C c c c c

Bảng 1.1 Bảng quyết định của Ví dụ 1.1

U 𝑐1 𝑐2 𝑐3 𝑐4 D

𝑢1 0.5 0.6 0.8 0.4 1

𝑢2 0.8 0.6 0.8 0.4 1

𝑢3 0.2 0.2 1.0 0.6 0

𝑢4 0.2 0.8 0.6 0.6 0

Luân án dùng quan hê tương đương mơ trong [9] trên mỗi thuôc tính điều kiên

như sau: , 1aR x y a x a y  vơi a C và ,x y U

Gia sử rằng 1 2,P c c , ta có:

1 2

1 0.7 0.7 0.7 1 1 0.6 0.8

0.7 1 0.4 0.4 1 1 0.6 0.8,

0.7 0.4 1 1 0.6 0.6 1 0.4

0.7 0.4 1 1 0.8 0.8 0.4 1

c cM R M R

1 0.7 0.6 0.7

0.7 1 0.4 0.4

0.6 0.4 1 0.4

0.7 0.4 0.4 1

PM R

Phân hoach mơ trên PR như sau: 1 2 3 4, , ,P P P P PR u u u u

vơi 1 1 2 3 4 11/ 0.7 / 0.6 / 0.7 / 3,P P

u u u u u u

2 1 2 3 4 20.7 / 1/ 0.4 / 0.4 / 2.5,P P

u u u u u u

4 33 1 2 30.6 / 0.4 / 1/ 0.4 / 2.4,P P

u u u u u u

4 1 2 3 4 4  0.7 / 0.4 / 0.4 / 1/ 2.5,P P

u u u u u u

Cho 2 3,Q c c , 3 4,S c c , tính toan tương tự ta có

1 2 3 4, , ,  Q Q Q Q QR u u u u vơi: 1 1 2 3 4  1/ 1/ 0.6 / 0.8 /

Qu u u u u ,

Page 27: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

17

2 1 2 3 41/ 1/ 0.6 / 0.8 /Q

u u u u u , 3 1 2 3 4  0.6 / 0.6 / 1/ 0.4 /Q

u u u u u ,

4 1 2 3 4  0.8 / 0.8 / 0.4 / 1/Q

u u u u u .

Và 1 2 3 4, , ,  S S S S SR u u u u vơi 1 1 2 3 4  1/ 1/ 0.8 / 0.8 /

Su u u u u ,

2 1 2 3 41/ 1/ 0.8 / 0.8 /S

u u u u u , 3 1 2 3 40.8 / 0.8 / 1/ 0.6 /S

u u u u u ,

4 1 2 3 4  0.8 / 0.8 / 0.6 / 1/S

u u u u u .

Điều đó chỉ ra rằng Φ ΦP SR R và Φ ΦQ SR R .

1.4. Các nghiên cứu liên quan đến rút gọn thuộc tính theo tiếp cận tập thô mờ

Kể từ khi Lý thuyết tâp thô mơ (Fuzzy rough set) do Dübois và các công sự

[1] đề xuât, cac phương phap rut gon thuôc tính trên bang quyết định theo tiếp cân

tâp thô mơ đã thu hut sự quan tâm cua công đồng nghiên cứu. Trong phân này, luân

án trình bày tóm tắt các nghiên cứu liên quan đến rút gon thuôc tính theo tiếp cân

tâp thô mơ

1.4.1. Rút gọn thuộc tính theo tiếp cận tập thô mờ

1.4.1.1 Các nghiên cứu liên quan

Cac phương phap rut gon thuôc tính trong bang quyết định theo tiếp cân tâp thô

mơ đều dựa trên cac phương phap rut gon thuôc tính theo tiếp cân tâp thô đã đươc

nghiên cứu lâu nay. Đây la cac phương phap heuristic theo tiếp cân filter, bao gồm các

bươc xây dựng đô đo, định nghĩa tâp rút gon va đô quan trong cua thuôc tính sử dụng

đô đo đươc xây dựng, trên cơ sở đó xây dựng thuât toán heuristic tìm tâp rút gon theo

tiêu chuẩn la đô quan trong cua thuôc tính. Viêc đanh gia đô chính xác cua mô hình

phân lơp đươc thực hiên sau khi tìm đươc tâp rút gon. Cho đến nay, các nghiên cứu

liên quan đến rút gon thuôc tính theo tiếp cân tâp thô mơ tâp trung vao cac phương

phap chính như: phương phap sử dụng hàm thuôc mơ, phương phap sử dụng miền

dương mơ, cac phương phap sử dụng entropy mơ, phương phap sử dụng khoang cách

mơ và môt số phương phap mở rông gân đây.

Page 28: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

18

Bảng 1. 2 Liệt kê các nghiên cứu liên quan đến các thuật toán heuristic tìm tập rút gọn

của bảng quyết định theo tiếp cận tập thô mờ.

STT Công bố, năm xuất bản Thuật toán

1) Hàm thuộc mờ

1

Anoop Kumar Tiwari 2018, [3]

Z. Wang và công sự 2017, [4]

Zhang và công sự 2018, [5]

Cac thuât toan tìm tâp rut gon sử

dụng ham thuôc mơ

2) Miền dương mờ

2 T.K. Sheeja và công sự 2018, [6]

Y. Lin và công sự 2018, [7]

Cac phương phap sử dụng miền

dương mơ

3) Entropy mờ

3

J.H. Dai và công sự 2018, [8]

Q.H. Hu và công sự 2016, [9]

X. Zhang và công sự 2016,[10]

Cac thuât toan tìm tâp rut gon sử

dụng phương phap entropy mơ.

4) Phương pháp sử dụng khoảng cách mờ

4

C.Z. Wang và công sự 2019, [11]

C.Z. Wang và công sự 2015, [12]

Cao Chinh Nghia và công sự 2016,

[13]

Cac thuât toan tìm tâp rut gon sử

dụng đô đo phương phap khoang

cách mơ

5) Các phương pháp khác

5

J.H. Dai và công sự 2018, [14]

J.H. Dai và công sự 2017, [15]

L.J.Ping và công sự 2020, [16]

W.P. Ding và công sự 2019, [17]

X.M. Liu và công sự 2019, [18]

Y.J. Lin và công sự 2017, [19]

Cac thuât toan tìm tâp rut gon sử

dụng môt số phương phap khac

1.4.1.2 Các điểm chung của các nghiên cứu liên quan

Từ các nghiên cứu liên quan đươc trình bày ở phân 1.4.1.1, tác gia tổng kết các

phương phap rut gon thuôc tính theo tiếp cân tâp thô mơ có cac điểm chung như sau:

1) Cac phương phap rut gon thuôc tính theo tiếp cân tâp thô mơ có đô chính xác

phân lơp cao hơn cac phương phap rut gon thuôc tính theo tiếp cân tâp thô truyền

thống. Điều nay đươc thể hiên ở các kết qua thử nghiêm trên các tâp dữ liêu mẫu trong

các công bố.

2) Mục tiêu chung cua cac phương phap đề xuât la nâng cao đô chính xác phân

lơp, tối thiểu hóa số thuôc tính cua tâp rút gon và thơi gian thực hiên. Vì vây, các

Page 29: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

19

phương phap đã đề xuât trong luân án đều cố gắng cai thiên đô chính xác mô hình

phân lơp, rút gon thuôc tính và cai thiên đang kể thơi gian thực hiên so vơi cac phương

phap trươc đó.

3) Giống như cac phương phap rut gon thuôc tính theo tiếp cân tâp thô, các

phương phap rut gon thuôc tính theo tiếp cân tâp thô mơ la cac phương phap heuristic

theo tiếp cân filter. Nghĩa la, đô chính xác phân lơp đươc đanh gia sau khi tìm đươc

tâp rút gon. Cac phương phap bao gồm 03 bươc chính: (1) Xây dựng đô đo, (2) xây

dựng tâp rút gon va đô quan trong cua thuôc tính dựa trên đô đo va (3) xây dựng thuât

toán heuristic tìm môt tâp rút gon theo tiêu chuẩn đô quan trong cua thuôc tính.

1.4.1.3 Các vấn đề còn tồn tại

Các thuât toan đã đề xuât đươc trình bày trong Bang 1.2 nêu trên đều là các

thuât toán heuristic theo tiếp cân filter truyền thống, nghĩa la tâp rút gon thu đươc là

tâp thuôc tính tối thiểu bao toan đô đo đươc định nghĩa. Viêc đanh gia đô chính xác

cua mô hình phân lơp đươc thực hiên sau khi tìm đươc tâp rút gon. Do đó, tâp rút gon

cua các thuât toan filter nêu trên chưa tối ưu về số lương thuôc tính va đô chính xác

phân lơp.

1.4.1.4 Đề xuất nghiên cứu của luận án

Trong cac đô đo đươc sử dụng trong các thuât toán trong Bang 1.2, khoang

cách mơ đươc chứng minh la đô đo hiêu qua giai quyết bài toán rút gon thuôc tính

trong bang quyết định. Đông lực nghiên cứu thứ nhât là nghiên cứu, đề xuât các

thuật toán tìm tập rút gọn theo hướng tiếp cận kết hợp filter-wrapper sử dụng

độ đo khoảng cách mờ, là sự kết hơp giữa tiếp cân loc (filter) và đóng gói

(wrapper). Vơi cách tiếp cân nay, giai đoan filter tìm ra các tâp rút gon xâp xỉ, giai

đoan wrapper sử dụng các bô phân lơp để tính đô chính xác cua các tâp rút gon xâp

xỉ và tìm ra tâp rút gon xâp xỉ có đô chính xác phân lơp cao nhât, đồng thơi giam

thiểu số lương thuôc tính tâp rút gon.

1.4.2. Phương pháp gia tăng rút gọn thuộc tính theo tiếp cận tập thô mờ

Trong xu thế dữ liêu lơn (Big data) hiên nay, các bang quyết định ngày càng có

số thuôc tính rât lơn, ví dụ các bang dữ liêu trong lĩnh vực tin sinh hoc có hàng triêu

thuôc tính. Hơn nữa, các bang quyết định luôn luôn thay đổi, câp nhât vơi các tình

Page 30: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

20

huống như bổ sung và loai bo tâp đối tương, bổ sung và loai bo tâp thuôc tính, giá trị

tâp đối tương, tâp thuôc tính thay đổi. Trong đó, trương hơp bổ sung, loai bo tâp

thuôc tính xuât hiên ngày càng phổ biến. Ví dụ bài toán chuẩn đoan bênh trong lĩnh

vực y tế, các triêu chứng lâm sang đươc xem như cac thuôc tính ban đâu để bac sĩ

chẩn đoan bênh. Sau đó, cac chỉ số xét nghiêm đươc xem như cac thuôc tính tiếp

theo liên tục đươc bổ sung, câp nhât nhằm hỗ trơ bac sĩ trong viêc nâng cao đô chính

xác chẩn đoan. Để xây dựng mô hình phân lơp hiêu qua, ta cân giai quyết bài toán rút

gon thuôc tính trên các bang quyết định kích thươc lơn va thay đổi. Viêc ap dụng cac

thuât toan tìm tâp rut gon theo phương phap truyền thống gặp nhiều thach thức. Vơi

trương hơp bang quyết định có kích thươc lơn, viêc thực hiên cac thuât toan tìm tâp

rut gon gặp khó khăn do han chế về không gian lưu trữ va tốc đô tính toan. Vơi

trương hơp bang quyết định thay đổi, câp nhât, cac thuât toan nay phai tính toan lai

tâp rut gon trên toan bô bang quyết định sau khi thay đổi, do đó chi phí về thơi gian

tính toan tăng lên đang kể. Để vươt qua cac thach thức trên, cac nha nghiên cứu đề

xuât hương tiếp cân tính toan gia tăng tìm tâp rut gon. Cac thuât toan gia tăng chỉ câp

nhât lai tâp rut gon trên phân dữ liêu bị thay đổi ma không tính lai tâp rut gon trên

toan bô bang quyết định. Vơi cac bang quyết định thay đổi, câp nhât, cac thuât toan

gia tăng giam thiểu đang kể thơi gian thực hiên. Hơn nữa, cac thuât toan gia tăng có

thể thực hiên đươc trên cac bang quyết định kích thươc lơn bằng giai phap chia nho

bang quyết định thanh nhiều phân, sau đó tâp rut gon đươc tính khi lân lươt bổ sung

từng phân vao bang quyết định.

Hương tiếp cân tính toan gia tăng tìm tâp rut gon đã va đang thu hut sự quan

tâm cua cac nha nghiên cứu trong suốt hơn hai thâp kỷ qua. Trong phân nay, tac gia

trình bay cac nghiên cứu liên quan đến cac thuât toan gia tăng tìm tâp rut gon cua bang

quyết định theo tiếp cân tâp thô mơ, trên cơ sở đó đưa ra cac vân đề còn tồn tai va

đông lực nghiên cứu cua luân an.

1.4.2.1. Các nghiên cứu liên quan đến thuật toán gia tăng tìm tập rút gọn theo tiếp cận

tập thô mờ

Cac hương nghiên cứu đươc liêt kê tóm tắt trong bang dươi đây:

Page 31: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

21

Bảng 1.3 Liệt kê các nghiên cứu liên quan đến các thuật toán gia tăng tìm tập rút gọn

của bảng quyết định theo tiếp cận tập thô mờ.

STT Công bố, năm xuất bản Thuật toán

1. Trường hợp bổ sung, loại bỏ tập đối tượng

1.1. Tiếp cận tập thô truyền thống

1

Demetrovics, J., Thi, V.D., & Giang,

N.L. [20], 2014

Huong, N. T. L., &Giang, N. L. [

21], (2016)

Các thuât toan gia tăng tìm tâp rút

gon sử dụng khoang cách

2

Y.G. Jing và công sự [22, 23], 2017

Zhang và công sự [24], 2020

Cai và công sự [25], 2019

Zhang và công sự [26], 2019

Zhang và công sự [27], 2020

Cac thuât toan gia tăng tìm tâp rut

gon sử dụng hat thông tin

3

W. Wei và công sự 2018, [28]

G. Lang và công sự 2017, [29]

Ma và công sự 2019, [30]

Yang và công sự, [31]

Liu và công sự, [32]

Cac thuât toan gia tăng tìm tâp rut

gon sử dụng ma trân phân biêt

4

Das và công sự 2018, [33]

Lang và công sự 2018, [34]

Hao và công sự 2019, [35]

Cac thuât toan gia tăng tìm tâp rut

gon sử dụng miền dương

5 Shua và công sự 2019, [36] Cac thuât toan gia tăng tìm tâp rut

gon sử dụng ham thuôc

6

Nandhini và công sự 2019, [37] Cac thuât toan gia tăng tìm tâp rut

gon sử dụng quan hê không phân

biêt đươc

7 Shu và công sự 2020, [38] Cac thuât toan gia tăng tìm tâp rut

gon sử dụng entropy thông tin

8 Xie và công sự 2018, [39] Thuât toan gia tăng tìm tâp rut gon

sử dụng đô đo không nhât quan

9 Y.Y. Yang và công sự Cac thuât toan gia tăng tìm tâp rut

gon sử dụng lựa chon mẫu kích hoat

1.2. Tiếp cận tập thô mờ

10 Liu và các công sự 2017, [52] Thuât toan gia tăng FIAT tìm tâp rut

gon sử dụng đô phụ thuôc mơ.

11

Yang và các công sự 2017, [53] Cac thuât toan gia tăng IARM tìm

tâp rut gon sử dụng quan hê phân

biêt mơ.

12

Yang và các công sự 2017, [54] Cac thuât toan gia tăng IV-FS-FRS-

1 và IV-FS-FRS-2 tìm tâp rut gon

sử dụng quan hê phân biêt mơ.

Page 32: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

22

13

Giang và các công sự 2020, [55] Cac thuât toan gia tăng

IFW_FDAR_AdObj và

IFW_FDAR_DelObj tìm tâp rut gon

sử dụng quan hê khoang cach mơ.

14

Zhang và các công sự 2020, [56] Thuât toan gia tăng AIFWAR tìm

tâp rut gon sử dụng entropy có điều

kiên mở rông

15

Ni và các công sự 2020, [57] Thuât toan gia tăng DIAR sử dụng

ham thuôc mơ va thuât toan PIAR

sử dụng miền dương mơ tìm tâp rut

gon dựa trên tâp đối tương chính

2. Trường hợp bổ sung, loại bỏ tập thuộc tính

2.1. Tiếp cận tập thô truyền thống

16 W.H. Shu và công sự 2014, [41] Thuât toan gia tăng tìm tâp rut gon

sử dụng miền dương

17 F. Wang và công sự 2013, [42] Thuât toan gia tăng tìm tâp rut gon

sử dụng entropy thông tin

18

M.J. Cai và công sự 2017, [43]

Ma và công sự 2019, [44]

Wei và công sự 2019, [45]

Thuât toan gia tăng tìm tâp rut gon

sử dụng ma trân phân biêt.

19 Nandhini và công sự 2019, [46]

Chen và công sự 2020, [47]

Thuât toan gia tăng tìm tâp rut gon

sử dụng quan hê không phân biêt.

20 Demetrovics Janos và công sự 2016,

[48]

Thuât toan gia tăng tìm tâp rut gon

sử dụng khoang cach.

21

M.S. Raza và công sự 2016, [49] Thuât toan gia tăng tìm tâp rut gon

sử dụng đô phụ thuôc cua thuôc

tính.

22

Y. Jing và công sự 2016, [50]

Y.G. Jing và công sự 2018, [51]

Cac thuât toan gia tăng tìm tâp rut

gon sử dụng hat tri thức.

2.2. Tiếp cận tập thô mờ

23

A.P. Zeng và các công sự 2015, [58] Xây dựng các công thức gia tăng

câp nhât đô phụ thuôc mơ trong hê

thông tin hỗn hơp (HIS), trên cơ sở

đó đề xuât hai thuât toan gia tăng

câp nhât tâp rút gon sử dụng đô phụ

thuôc mơ: thuât toán FRSA-IFS-

HIS(AA) trong trương hơp bổ sung

tâp thuôc tính và thuât toán FRSA-

IFS-HIS(AD) trong trương hơp loai

bo tâp thuôc tính

Page 33: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

23

1.4.2.2 Các vấn đề còn tồn tại

Các thuât toan gia tăng tìm tâp rút gon theo tiếp cân tâp thô mơ nêu trên có thơi

gian thực hiên nho hơn đang kể các thuât toan không gia tăng va có thể thực thi trên

các bang dữ liêu kích thươc lơn. Tuy nhiên, các thuât toan nêu trên đều theo hương

tiếp cân loc truyền thống (filter). Trong đó, tâp rút gon tìm đươc là tâp thuôc tính tối

thiểu bao toan đô đo đươc định nghĩa (ham thuôc mơ, quan hê phân biêt…), viêc đanh

gia đô chính xác phân lơp đươc thực hiên sau khi tìm đươc tâp rút gon. Vì vây, tâp rút

gon tìm đươc cua các thuât toán nêu trên chưa tối ưu ca về số lương thuôc tính va đô

chính xác phân lơp, nghĩa la tâp rút gon tìm đươc chưa chắc có đô chính xác phân lơp

tốt nhât.

1.4.2.3 Các đề xuất của luận án

Từ vân đề còn tồn tai cua các thuât toan gia tăng đã trình bay ở trên, đông lực

nghiên cứu cua luân án là:

1) Nghiên cứu, đề xuât các thuật toán gia tăng tìm tập rút gọn của bảng

quyết định theo tiếp cận kết hợp filter-wrapper nhằm giam thiểu số lương

thuôc tính tâp rút gon, trong khi cố gắng bao toàn và cai thiên đô chính xác

mô hình phân lơp.

2) Các thuât toan gia tăng tìm tâp rút gon cua bang quyết định theo tiếp cân kết

hơp đươc nghiên cứu, đề xuât trong cac trương hơp: bổ sung, loại bỏ tập đối

tượng; bổ sung, loại bỏ tập thuộc tính.

1.5. Tóm tắt các đóng góp của luận án

Dựa trên lý thuyết tâp thô mơ, luân an đề xuât các thuật toán cải tiến tìm tập rút

gọn theo tiếp cận tập thô mờ bằng thuật toán kết hợp filter-wrapper nhằm giai

quyết các vân đề còn tồn tai đươc trình bày ở mục 1.4.1 và 1.4.2 vơi hai đóng góp chính

như sau:

1) Đề xuât thuật toán filter-wrapper tìm tập rút gọn của bảng quyết định

theo tiếp cận tập thô mờ: Thuật toán sử dụng khoảng cách mờ. Đô đo

khoang cách mơ đươc xây dựng là mở rông cua đô đo khoang cách trong công

trình [65]. Cac đóng góp nay đươc trình bày ở Chương 2 cua luân an va đươc

công bố trong các công trình 1, 2 phân “Danh mục công trình cua tác gia”.

Page 34: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

24

2) Đề xuât các thuật toán gia tăng filter-wrapper tìm tập rút gọn của bảng

quyết định trong trường hợp bổ sung, loại bỏ tập đối tượng và bổ sung,

loại bỏ tập thuộc tính. Cac đóng góp nay đươc trình bày ở Chương 3 và

Chương 4 cua luân an va đươc công bố trong công trình 1,3,4 phân “Danh

mục công trình cua tác gia”.

1.6. Kết luận chương 1

Trong chương 1 luân an đã nêu tổng quan về những vân đề cơ ban:

Tổng quan về rút gon thuôc tính, cac hương tiếp cân fifter - wrapper trong rút

gon thuôc tính; môt số khái niêm cơ ban về tâp thô mơ nhằm giai quyết bài toán rút

gon thuôc tính. Ngoai ra, chương 1 còn trình bay tổng quan về rút gon thuôc tính từ

đó đưa ra các thuât toán fifter-wrapper về tìm tâp rút gon cua bang quyết định va định

hương nghiên cứu cua luân án. Các khái niêm đươc trình bày ở chương 1 la kiến thức

nền tang đươc sử dụng trong cac chương sau cua luân án.

Page 35: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

25

CHƯƠNG 2. THUẬT TOÁN FIFTER-WRAPPER RÚT GỌN THUỘC TÍNH

TRONG BẢNG QUYẾT ĐỊNH SỬ DỤNG KHOẢNG CÁCH MỜ

2.1. Mở đầu

Trong mây năm gân đây, nhóm nghiên cứu cua PGS.TS Nguyễn Long Giang và

công sự đã sử dụng cac đô đo khoang cach để giai quyết bài toán rút gon thuôc tính

trong bang quyết định theo tiếp cân tâp thô truyền thống [48, 66, 67, 68] và bang quyết

định không đây đu theo tiếp cân tâp thô dung sai [66, 69, 70, 71, 72]. Đang chu ý theo

tiếp cân tâp thô mơ, nhóm nghiên cứu đã mở rông cac đô đo khoang cach đã đề xuât

thanh cac đô đo khoang cách mơ va đã có môt số kết qua trong viêc sử dụng đô đo

khoang cách mơ để giai quyết bài toán rút gon thuôc tính trên bang quyết định có miền

giá trị số. Trong công trình [73], nhóm tác gia xây dựng đô đo khoang cách Jaccard

mơ giữa hai tâp thuôc tính dựa trên khoang cách Jaccard giữa hai tâp hơp hữu han và

chứng minh môt số tính chât cua nó. Trong công trình [74], các tác gia đã sử dụng

khoang cách Jaccard mơ trong [73] để giai quyết bài toán rút gon thuôc tính trực tiếp

trên bang quyết định gốc có miền giá trị số. Trong công trình [12], các tác gia xây

dựng đô đo khoang cách mơ và sử dụng khoang cách mơ giai quyết bài toán rút gon

thuôc tính trên bang quyết định có miền giá trị số.

Tiếp tục hương nghiên cứu này, vơi mục tiêu tìm kiếm cac đô đo khoang cách

hiêu qua (có công thức tính toan đơn gian) giai quyết bài toán rút gon thuôc tính, giam

thiểu thơi gian thực hiên, trong chương nay luân an đề xuât đô đo khoang cách mơ

(sau đây goi là khoang cách mơ) dựa trên đô đo khoang cách phân hoach trong công

trình [65]. Sử dụng khoang cách mơ đươc xây dựng, luân an đề xuât phương phap

filter-wrapper rút gon thuôc tính trong bang quyết định nhằm nâng cao đô chính xác

phân lơp và giam thiểu số lương thuôc tính tâp rút gon. Bao gồm các nôi dung sau:

(1) Xây dựng khoang cách giữa hai tâp mơ;

(2) Xây dựng khoang cách mơ giữa hai phân hoach mơ;

(3) Thuât toán filter tìm tâp rút gon sử dụng khoang cách mơ;

(4) Thuât toán filter-wrapper tìm tâp rút gon sử dụng khoang cách mơ;

(5) Thử nghiêm va đanh gia tính hiêu qua cua các thuât toan đề xuât.

Các kết qua trong chương nay đươc công bố trong các công trình 1, 2 phân

“Danh mục công trình cua tác gia”.

Page 36: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

26

2.2. Xây dựng khoảng cách giữa hai tập mờ

Trong hê thông tin, mỗi tâp thuôc tính sinh ra môt tri thức về tâp cac đối

tương, trong đó mỗi phân tử cua tri thức là môt lơp tương đương, hay môt khối.

Khoang cach cho phép đanh gia đô gân nhau (hay đô tương đương) giữa các tri thức,

nghĩa la khoang cách giữa hai tri thức càng nho thì hai tri thức đó cang gân nhau,

hay cang tương đương nhau va ngươc lai. Như vây, khi môt khoang cach nao đó

đươc định nghĩa trên tâp các tri thức thì cũng có nghĩa la môt khoang cach đã đươc

xác lâp trên tâp các thuôc tính. Sử dụng khoang cach để đanh gia sự khác nhau giữa

các thuôc tính, phát hiên các thuôc tính quan trong [63, 66, 67, 75]. Nhơ đó, xây

dựng thuât toán hiêu qua để giai quyết bài toán rút gon thuôc tính trong lý thuyết tâp

thô mơ.

Kế thừa sự thành công cua kỹ thuât rút gon thuôc tính sử dụng khoang cách

phân hoach theo tiếp cân tâp thô truyền thống [76] luân an đề xuât thuât toán heuristic

để rút gon thuôc tính cua bang quyết định miền giá trị thực sử dụng khoang cách mơ.

Khoang cách mơ giữa hai tâp thuôc tính đươc xây dựng dựa trên khoang cách mơ giữa

hai tâp mơ. Kết qua thực nghiêm trên môt số bô số liêu lây từ kho dữ liêu UCI[59] cho

thây, phương phap đề xuât cai thiên đô chính xác phân lơp dữ liêu tốt hơn so vơi các

công bố trươc đây [77].

Đâu tiên trong chương nay luân án xây dựng đô đo khoang cách giữa hai tâp

mơ, goi là khoang cách mơ.

Cho bang quyết định ,DS U C D vơi 1 2, ,..., nU x x x

,P Q C va hai phân hoach trên P và Q, KP

P x vơi x U ,

K    Q

Q x mà x U , Liang va công sự [65] chứng minh rằng:

1

1K ,K

i i i iU P Q P Q

i

x x x xD P Q

U U

là khoang cách phân hoach giữa K P và K Q với X là lực lương cua X. Luân án

mở rông khoang cach nay để xây dựng khoang cách mơ.

Page 37: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

27

2.2.1. Độ đo khoảng cách mờ

Bộ đề 2.1 [12]. Cho 3 tâp mơ 𝑋, 𝑌, 𝑍 trên tâp đối tương U, khi đó ta có:

X X Y Z Z X Z Z Y

Mệnh đề 2.1. Cho 2 tập mờ 𝑋, 𝑌 trên tập đối tượng U, khi đó

,FD X Y X Y X Y là khoảng cách giữa 𝑋 và 𝑌.

Chứng minh: Đâu tiên, bât đẳng thức X Y X Y suy ra FD , 0X Y .

Hơn nữa, ta có FD , FD ,X Y Y X . FD ,X Y la đô đo khoang cach nếu nó thoa mãn

bât đẳng thức tam giac. Không mât tính tổng quat, ta cân chứng minh

FD , FD , FD ,X Y X Z Y Z . Theo Bô đề 2.1, ta có:

X X Y Z Z X Z Z Y (1)

X X Z Y Y X Y Y Z (2)

Công (1) va (2) vế theo vế, ta có:

2 2 2X Y X Y X Z X Z Y Z Y Z (3)

Vơi 2 số bât kì a, b, ta có max , min ,a b a b a b . Khi đó, ta có

max , min ,X i Y i X i Y i X i Yu u u u u u vơi moi iu U . Điều nay

có nghĩa la X Y X Y X Y . Từ (3), ta có:

X Y X Y X Z X Z Y Z Y Z

Hoặc FD , FD , FD ,X Y X Z Y Z .

Từ đó, FD ,X Y la 1 đô đo khoang cach giữa hai tâp mơ X va Y.

2.2.2. Độ đo khoảng cách mờ và các tính chất

Mệnh đề 2.2. Cho bảng quyết định ,  DS U C D với 1 2, , , nU x x x và

PR , QR là 2 phân hoạch mờ sinh bởi hai quan hệ tương đương mờ PR , QR trên

P ,Q C khi đó: 2 1

1FPD Φ ,Φ

n

P Q i i i iP Q P QiR R x x x x

n (2.1)

Page 38: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

28

La môt khoang cach mơ giữa hai phân hoach mơ PR và QR , goi la

khoang cach mơ.

Chứng minh: Rõ ràng FPD Φ ,Φ 0P QR R và

FPD Φ ,Φ FPD Φ ,ΦP Q Q PR R R R . Chung ta cân chứng minh (2.1) thoa mãn

bât đẳng thức tam giac. Không mât tính tổng quat vơi moi PR , QR , Φ SR , ta

cân chứng minh:. FPD Φ ,Φ FPD Φ ,Φ FPD Φ ,ΦP Q Q S P SR R R R R R

Theo Mênh đề 2.1, vói moi ix U ta có

FD , FD , FD ,i i i i i iP Q P Q Q Sx x x x x x . Từ đó, ta cũng có:

FPD Φ ,Φ FPD Φ ,ΦP Q P SR R R R

2 21 1

1 1n n

i i i i i i i iP Q P Q P S P Si ix x x x x x x x

n n

2 2 21 1 1

1 1 1FD , FD , FD ,

n n n

i i i i i iP Q P S P Si i ix x x x x x

n n n

FPD Φ ,ΦQ SR R

Gia trị cua FPD Φ ,ΦP QR R đat gia trị nho nhât la 0 khi va chỉ khi

Φ ΦP QR R . Gia trị cua FPD Φ ,ΦP QR R đat gia trị lơn nhât la 1

(1 )n

(nếu va

chỉ nếu Φ ΦPR và Φ ΦQR ) (hoặc Φ ΦPR và Φ ΦQR ). Do

đó, 10 FPD Φ ,Φ 1 .P QR R

n

Ví dụ 2.1 (Tiếp tục từ Ví dụ 1.1), theo Mênh đề 2.2, khi đó ta có

FPD , 0.125P QR R , FPD , 0.075Q SR R ,  FPD , 0.2.  P SR R

Vì vây:

FPD , FPD , FPD ,P Q Q S P SR R R R R R

FPD , FPD , FPD ,P Q P S Q SR R R R R R

FPD , FPD , FPD ,Q S P S P QR R R R R R

Page 39: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

29

Mệnh đề 2.3. Cho bảng quyết định ,DS U C D với 1 2, , , nU x x x và R

là một quan hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện, khi

đó khoảng cách mờ giữa hai tập thuộc tính C và C D được xác định như sau:

2 1

1FPD Φ ,Φ   

n

C C D i i iC C DiR R x x x

n

(2.2)

Chứng minh:

Từ Mênh đề 2.2, ta có:

2 1

1FPD Φ ,Φ

n

C C D i i i iC C D C C DiR R x x x x

n

2 21 1

1 1n n

i i i i i i i iC C D C D C C Di ix x x x x x x x

n n

Nếu Φ Φ  C DR R thì khoang cach mơ đat gia trị nho nhât khi

FPD Φ ,Φ 0C C DR R , nếu Φ ΦCR và i iDx x for 1 i n thì khoang

cach mơ đat gia trị lơn nhât 1FPD Φ ,Φ 1C C DR R

n . Do đó,

10 FPD Φ ,Φ 1C C DR R

n .

Mệnh đề 2.4. Cho bảng quyết định ,DS U C D với, B C và R là quan hệ

tương đương mờ trên miền giá trị tập thuộc tính điều kiện. Khi đó

, ,B B D C C DFPD R R FPD R R .

Chứng minh: Từ B C , theo [29] ta có Φ ΦC BR R . Nghĩa la i iC Bx x

vơi 1 i n i iC Bx x vơi 1 i n . Xét đối tương ix U , ta có:

1 1min ,

i i iC C D

n n

i i i j j jx x xC C D j jx x x x x x

1 1min ,

i i iB B D

n n

i i i j j jx x xB B D j jx x x x x x

(1) vơi j i Dx x ta có 1

i Djx

x , do đó

0i i i i i iC C D B B Dx x x x x x

Page 40: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

30

(2) vơi j i Dx x ta có 0

i Djx

x , vì vây

i i i i i i i iC C D C B B B Dx x x x x x x x .

Từ (1) va (2) ta có: i i i i i iB B D C C Dx x x x x x

2 21 1

1 1n n

i i i i i iB B D C C Di ix x x x x x

n n

FPD Φ ,Φ FPD Φ ,ΦB B D C C DR R R R .

FPD Φ ,Φ FPD Φ ,ΦB B D C C DR R R R xay ra khi va chỉ khi i iB Cx x

vơi moi ix U .

Mênh đề 2.4 cho thây FPD Φ ,ΦC C DR R thoa mãn tính phan đơn điêu vơi

tâp thuôc tính điều kiên. Nghĩa la vơi moi ,B C tâp thuôc tính điều kiên B cang nho,

khoang cach mơ FPD Φ ,ΦB B DR R cang lơn. Do đó, FPD Φ ,ΦC C DR R có

thể đươc sử dụng lam tiêu chuẩn lựa chon thuôc tính trong thuât toan tìm tâp rut gon,

đươc trình bay ở mục tiếp theo.

2.3. Thuật toán filter tìm tập rút gọn sử dụng khoảng cách mờ

Trong mục nay, chung tôi trình bay phương phap rut gon thuôc tính sử dụng

khoang cách mơ theo tiếp cân filter. Giống cac phương phap filter khac theo tiếp cân

tâp thô, phương phap đề xuât bao gồm cac bươc:

(1) Định nghĩa tâp rút gon dựa trên khoang cách mơ;

(2) Định nghĩa đô quan trong cua thuôc tính dựa trên khoang cách mơ;

(3) Xây dựng thuât toán filter tìm tâp rút gon sử dụng khoang cách mơ;

(4) Đô chính xác phân lơp đươc đanh gia sau khi tìm đươc tâp rút gon.

Định nghĩa 2.1. Bang quyết định ,DS U C D và ,  B CR R là các quan hê

tương đương mơ trên tâp thuôc tính điều kiên B, C vơi B C . Nếu:

1) FPD Φ ,Φ FPD Φ ,ΦB B D C C DR R R R

2)   , FPD Φ ,Φ  FPD Φ ,ΦC C DB b B b Db B R R R R

Page 41: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

31

Thì B la tâp rut gon cua bang quyết định sử dụng khoang cach mơ.

Định nghĩa 2.2. Bang quyết định ,DS U C D vơi B C và b C B . Đô

quan trong cua thuôc tính 𝑏 đối vơi 𝐵 đươc định nghĩa bởi:

FPD Φ ,Φ FPD Φ ,ΦB B B D B b B b DSIG b R R R R

(2.3)

Theo tính chât cua khoang cách mơ (Mênh đề 2.4) ta có 0BSIG b . Đô quan

trong BSIG b đặc trưng cho chât lương phân lơp cua thuôc tính b đối vơi thuôc tính

quyết định D va đươc sử dụng làm tiêu chuẩn lựa chon thuôc tính cho thuât toán filter

F_FDBAR tìm tâp rút gon.

Thuật toán F_FDBAR (Filter - Fuzzy Distance Based

Attribute Reduction): Thuật toán filter tìm tập rút gọn sử

dụng khoảng cách mờ.

Đầu vào: Bảng quyết định ,DS U C D , quan hệ tương

đương mờ R xác định trên tập thuộc tính điều kiện.

Đầu ra: Một tập rút gọn B

1. B ; , 1B B DFPD R R ;

2. Tính khoảng cách mờ ,C C DFPD R R ;

// Thêm dần vào B các thuộc tính có độ quan trọng

lớn nhất

3. While , ,B B D C C DFPD R R FPD R R do

4. Begin

5. Với mỗi a C B tính

, ,B B D B a B a DBSIG a FPD R R FPD R R

6. Chọn ma C B sao cho B m Ba C B

SIG a Max SIG a

;

7.

mB B a ;

8. End;

//Loại bỏ các thuộc tính dư thừa trong B

nếu có

9. For each a B

10. Begin

11. Tính ,B a B a DFPD R R ;

12. If , ,B a B a D C C DFPD R R FPD R R then

Page 42: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

32

B B a ;

13. End;

14. Return B;

Tiếp theo, luân an đanh gia đô phức tap thơi gian cua thuât toán F_FDBAR, goi

tắt la đô phức tap. Gia sử D d và ký hiêu ,C U tương ứng là số thuôc tính điều kiên

và số đối tương. Đô phức tap tính ma trân tương đương mơ ( )CM R là 2O C U , do đó

đô phức tap tính khoang cách mơ trong câu lênh 2 là 2O C U . Xét vòng lặp While từ

câu lênh 3 đến 8, để tính BSIG a ta phai tính ,B a B a DFPD R R vì

,B B DFPD R R đã đươc tính ở bươc trươc. Đô phức tap tính

,B a B a DFPD R R bằng đô phức tap tính ma trân tương đương mơ cua thuôc

tính a, nghĩa la 2O U . Do có hai vòng lặp lồng nhau theo C nên đô phức tap cua vòng

lặp While là 2 2O C U . Tương tự, đô phức tap cua vòng lặp For từ dòng lênh số 9 đến

13 là 2 2O C U . Do đó, đô phức tap cua thuât toán F_FDBAR là 2 2

O C U

Ví dụ 2.2. Xét bang quyết định ,DS U C d

cho ở Bang 2.1 vơi

1 2 3 4 5 6, , , , ,U u u u u u u , 1 2 3 4 5 6, , , , ,C c c c c c c , { }D d . Vơi các thuôc tính điều kiên,

chúng tôi sử dụng quan hê tương đương mơ aR trên thuôc tính a C trong [10] như sau:

, 1a i j i jR u u a u a u

ơi ,i ju u U

Vơi thuôc tính quyết định D chúng tôi sử dụng quan hê tương đương DR .

Page 43: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

33

Bảng 2.1 Bảng quyết định của Ví dụ 2.2

U 1c 2c

3c 4c

5c 6c D

1u 0.8 0.2 0.6 0.4 1 0 0

2u 0.8 0.2 0 0.6 0.2 0.8 1

3u 0.6 0.4 0.8 0.2 0.6 0.4 0

4u 0 0.4 0.6 0.4 0 1 1

5u 0 0.6 0.6 0.4 0 1 1

6u 0 0.6 0 1 0 1 0

Áp dụng cac bươc cua thuât toán F_FDBAR tìm tâp rút gon, ta có:

Khởi tao B ; , 1d

FPD R R . Tính các ma trân tương đương mơ

1 2 3 4 5 6( ), ( ), ( ), ( ), ( ), ( ), ( ), ( )c c c c c c C DM M M M RM MR R R R R M RMR

1 2

1 1 0.8 0.2 0.2 0.2

1 1 0.8 0.2 0.2 0.2

0.8 0.8 1 0.4 0.4 0.4( ) ,

0.2 0.2 0.4 1 1 1

0.2 0.2 0.4 1 1 1

0.2 0.2 0.4 1 1 1

1 1

1 1 0.8 0.6 0.6

0.8 0.8 1 1 0.8 0.8

0.8 0.8 1 1 0.8 0.8

0.6 0.6 0.8 0.8 1 1

0.6 0.6 0.8 0.

0.8 0.8 0.6 0.6

0.8

8

( )

1 1

c cM R RM

3 4,

1 0.8 0.4 1 0.8 0.4

1 1 0.8 0.8

0.8 0.2 1 0.8 0.2 0.6 1 0.8 0.2

1 1

1 0 1

0.2 0.4 1

0.4 1 1 0.8 1 1

0.4 0.2 0.4 0.4 1 0.8 0.6 0.6

0.8 0.8 0.8( ) ( )

1 0.4 0.8 1 0.4 1 0.8 0.8 1 0.4

1 0.4 0.8 1 0.4 1 .8 0.8 1 0.4

0.4 1 0.4 0.4 0.6 0.2 0.40.4

c cR RM M

1

4 5,

0.8 1 1 0.2 0.6 0

0.8 0.6 0.6 0.2 0.6 0.8 0.8 0.8

0.8 0.8 0.6 0.6 0.4 0.4( ) ( )

1 0.8 0.8 1 0.4 0.8 0.4 1 1

1 0.8 0.8 1 0.4 0.8 0.4 1

0.4 0.6 0.2

1 0.8 0.4 1 0 0

1 0.8 0.8 1

0.6 1 0.8

80.4 0 0. 0.

1

2

44 1

0. 1 0.4

1 0

1 0 1 1

0. 1 1 1

c cR RM M

Page 44: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

34

5 6,

0.2 0.6 0 0.2 0.6

0.2 0.6 0.8 0.8 0.8 0.2 0.6 0.8 0.8

0.6 0.6 0.4 0.4 0.6 0.6 0.4( ) ( )

0.8 0.4 1 1 0.8 0

1 0 0 1 0 0 0

1 1 0.8

1 0.4 1 0.4 0.4

0 1 0 1

0 1 1 0 1 1

1

.4 1 1

0.8 0.4 1 0.8 0.4 1

0 0 11 0 1.8 0.4 1 0 4 1.8 0.

c cR RM M

6

0.2 0.6

0.2 0.6 0.8 0.8

0.6 0.6 0.4( )

0.8 0.4 1 1

0.8 0.4 1

0.8 1

1 0 0 0

1 0.8

1 0.4 0.4

0 1

0 1 1

0 0.4 1 1

cRM

,

0.2 0.6 0 1 1

0.2 0.2 0.2 0.2 0.2 0 0 1 1 0

0.6 0.4 0.4 0.2 1 0 0 0 1( ) ( )

0.4 0.8 1 0 1

0.

1 0 0 0 1 0 0

1 1

0.2 1 1

0 0.2 1 0.

0

4 0 1 0

0 0.4 0.8 1 0 1

0 0.2 0.2 0. 0

2 0.4 1 0 1

4

0

. 14 1 11 0 0

C DR RM M

Từ đó ta có: , 4.4 / 36C C dR RFPD

,

1 1

, 10.4 / 36c c d

F R RPD

, 2 2

, 14.8 / 36c c d

F R RPD

,

3 3

, 12 / 36c c d

R RFPD

,

6 6, 8,8 / 36

c c dR RFPD

,

4 4

, 12.8 / 36c c d

F R RPD

,

5 5, 8,8 / 36

c c dR RFPD

,

Chon 5SIG c có giá trị lơn nhât và 5B c .

Do

5 5, ,C C dc c d

RFPD FPDR R R

nên tiếp tục vòng lặp

While,

ta có:

51 1.2 / 36

cSIG c ;

5

2 0.8 / 36c

SIG c ;

53 3.2 / 36

cSIG c ;

5

4 2.8 / 36c

SIG c ;

56 0

cSIG c .

Chon 3c có đô quan trong lơn nhât và 3 5,B c c .

Tính

3 5 3 5, ,, 5.6 / 36 ,C C dc c c c d

FPD FR R R RPD

nên tiếp

tục vòng lặp While.

Page 45: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

35

Ta có

3 51,

1.2 / 36c c

SIG c ;

3 52,

0.4 / 36c c

SIG c ;

3 54,

0.4 / 36c c

SIG c ;

3 56,

0c c

SIG c

. Chon 1c có đô quan trong lơn nhât và 1 3 5, ,B c c c .

Do

1 3 5 1 3 5, , , ,, , 4.4 / 36C C dc c c c c c d

F R R R RPD FPD

nên

thuât toán dừng và 1 3 5, ,B c c c là tâp rút gon tìm đươc cua thuât toán.

Xét bang quyết định ,DS U C D vơi 1 2, ,..., mC a a a và R là quan hê

tương đương mơ xac định trên miền giá trị thuôc tính điều kiên. Đặt

,C C DD RF RP . Theo thuât toán F_FDBAR, gia sử các thuôc tính 1 2, ,...i ia a

đươc thêm vào tâp rỗng theo giá trị lơn nhât cua đô quan trong thuôc tính cho đến khi

tồn tai 1,2,...t m sao cho

1 2 1 2, ,..., , ,...,

,i i i i i it t

a a a a a a DFP R RD

. Kết thúc thuât

toan, ta thu đươc tâp rút gon 1 2, ,...,

ti i iB a a a , đô chính xác phân lơp trên tâp dữ liêu

đươc tính bởi đô chính xác phân lơp trên B. Do đó, thuât toán F_FDBAR theo hương

tiếp cân filter truyền thống.

Mặt khác, theo Mênh đề 2.4 ta có

1 1 1 2 1 2

1 1

, ,

,..., ,...,

, , ...

,

i i i i i i

i i i it t

a a D a a a a D

a a a a D

R R R R

R

FPD FPD

FPD R

Vơi ngưỡng

cho

trươc, đặt 1,...,

kk i iB a a thoa mãn ,k kB B DR RFPD và

1 1

,k i k ik k

B a B a DFPD R R

. Khi đó, kB được gọi là tập rút gọn xấp xỉ ngưỡng

. Nếu kB và 1,...,

k tk i iB a a

đươc sử dụng để xây dựng bô phân lơp, công bố [9]

cho thây, đô chính xác phân lơp trên 1,...,

k tk i iB a a

chưa chắc đã tốt hơn trên kB .

Gia sử kB có đô chính xác phân lơp tốt hơn 1,...,

k tk i iB a a

. Khi đó, nếu chon kB là

kết qua cua thuât toán thì kB có đô chính xác phân lơp cao hơn, có số lương thuôc tính

ít hơn nên kha năng khai quat hóa va hiêu năng thực hiên các thuât toán phân lơp sẽ

cao hơn. Điều đó dẫn đến hương tiếp cân kết hơp tìm tâp rút gon xâp xỉ, là sự kết hơp

giữa filter (loc) và wrapper (gói). Phương phap filter tìm ra cac tâp rút gon xâp xỉ,

phương phap wrapper kiểm tra đô chính xác phân lơp cua các tâp rút gon xâp xỉ để

Page 46: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

36

chon tâp rút gon có đô chính xác cao nhât. Vơi hương tiếp cân nay, đô chính xác phân

lơp trên tâp rút gon tìm đươc cao hơn so vơi cac phương phap filter truyền thống. Tuy

nhiên, thơi gian thực hiên sẽ lơn hơn vì phai thực hiên các bô phân lơp.

2.4. Thuật toán filter-wrapper tìm tập rút gọn sử dụng khoảng cách mờ

Thuât toán filter-wrapper tìm tâp rút gon xâp xỉ sử dụng khoang cách mơ đươc

mô ta như sau:

Thuật toán FW_FDBAR (Filter-Wrapper Fuzzy Distance

Based Attribute Reduction): Thuật toán filter-wrapper tìm

tập rút gọn xấp xỉ sử dụng khoảng cách mờ.

Đầu vào: Bảng quyết định ,DS U C D , quan hệ tương

đương mờ R trên miền giá trị thuộc tính điều kiện.

Đầu ra: Tập rút gọn xấp xỉ xB có độ chính xác phân

lớp tốt nhất.

// Khởi tạo

1. B; , 1B B DF D RP R ;

2. Tính khoảng cách mờ ,C C DFPD R R ;

// Giai đoạn filter, tìm các ứng viên cho tập rút gọn

// Thêm dần vào B các thuộc tính có độ quan trọng

lớn nhất

3. While , ,B B D C C DFPD FPDR R R R do

4. Begin

5. Với mỗi a C B tính

, ,B B B D B a B a DS RIG a FPD FP R RDR

;

6. Chọn ma C B sao cho B m Ba C B

SIG a Max SIG a

;

7.

mB B a ;

8. End;

// Giai đoạn Wrapper,tìm tập rút gọn có độ chính xác

phân lớp cao nhất

9. Đặt t B // t là số phần tử của B, B chứa các

chuỗi thuộc tính được chọn tại mỗi bước lặp của

vòng lặp While, nghĩa là 1 1 2 1 2

, , ,..., , ,...,ti i i i i iB a a a a a a ;

10. Đặt 1 1 2 1 21 2, , ,..., , ,...,

ti i i t i i iB a B a a B a a a

Page 47: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

37

11. For j = 1 to t

12. Begin

13. Tính độ chính xác phân lớp trên jB bằng một

bộ phân lớp và sử dụng phương pháp 10-fold;

14. End

15. x joB B với joB có độ chính xác phân lớp lớn nhất.

Return xB ;

Tiếp theo, chung tôi đanh gia đô phức tap thơi gian cua thuât toán filter-wrapper

FW_FDBAR, goi tắt la đô phức tap. Gia sử D d và ký hiêu ,C U tương ứng là số

thuôc tính điều kiên và số đối tương cua DS. Theo mục 2.3, đô phức tap cua thuât toán

filter F_FDBAR là 2 2*O C U , do đó đô phức tap cua giai đoan filter (từ câu lênh 3

đến 8) là 2 2*O C U . Đô phức tap cua giai đoan wrapper (từ câu lênh số 9 đến số 15)

phụ thuôc vao đô phức tap cua bô phân lơp đươc sử dụng. Gia sử đô phức tap cua bô

phân lơp là O T , khi đó đô phức tap cua giai đoan wrapper là *O C T . Vì vây, đô

phức tap cua thuât toán FW_FDBAR là 2 2* *O C U O C T

2.5. Thực nghiệm và đánh giá kết quả các thuật toán

2.5.1. Mục tiêu thực nghiệm

Theo hương tiếp cân filter, các tác gia trong công trình [12] đã xây dựng môt đô

đo khoang cách mơ và xây dựng thuât toán filter tìm tâp rút gon sử dụng khoang cách

mơ, goi là thuât toán FPDAR (Fuzzy Partition Distance Based Attribute Reduction).

Các tác gia trong [12] cũng chỉ ra bằng thực nghiêm thuât toán FPDAR hiêu qua hơn

các thuât toán sử dụng miền dương mơ và entropy mơ về thơi gian thực hiên va đô

chính xác phân lơp. Hơn nữa, công thức khoang cách mơ trong [12] đơn gian hơn công

thức khoang cách Jaccard mơ trong [74] nên thuât toán FPDAR hiêu qua hơn thuât

toán trong [74] về thơi gian thực hiên.

Theo hương tiếp cân filter-wrapper, gân đây Zhang và các công sự [9] đề xuât

thuât toán filter-wrapper FEBAR (Fuzzy Entropy Based Attribute Reduction) tìm tâp

rút gon xâp xỉ sử dụng đô đo -entropy mơ, là cai tiến cua đô đo entropy mơ trong

[8,78, 79]. Để tính -entropy mơ cân mât chi phí tính hê số dựa vào miền dương mơ.

Do đó, chi phí thơi gian cua FEBAR sẽ tăng lên.

Page 48: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

38

Mục tiêu cua thực nghiêm là:

1) So sánh thuât toán filter-wrapper đề xuât FW_FDBAR vơi thuât toán filter-

wrapper FEBAR trong [9] về thơi gian thực hiên, đô chính xác phân lơp và số lương

thuôc tính tâp rút gon.

2) So sánh thuât toán filter-wrapper đề xuât FW_FDBAR vơi thuât toán filter

FPDAR trong [12] về thơi gian thực hiên, số lương thuôc tính tâp rút gon va đô chính

xác phân lơp.

2.5.2. Số liệu, phương pháp và môi trường thực nghiệm

Viêc thực nghiêm đươc thực hiên trên 8 bô dữ liêu mẫu lây từ kho dữ liêu UCI

[59] cho ở Bang 2.2. Trên mỗi bô dữ liêu, vơi mỗi thuôc tính a có miền giá trị thực,

chúng tôi chuẩn hóa về miền [0, 1] như sau vơi ix U

min

max min

i

i

a x aa x

a a

vơi max(a), min(a) là giá trị lơn nhât, nho nhât trên miền giá trị thuôc tính a. Luân án

sử dụng quan hê tương đương mơ aR trên thuôc tính a trong [9, 54] như sau

, 1a i j i jx x a x a xR

vơi ,i jx x U

Vơi các thuôc tính a có miền giá trị định danh (nominal) hoặc phân loai

(catergorized), chúng tôi sử dụng quan hê tương đương mơ aR , vơi ,i jx x U

1,

,0,

i j

a i j

a x a xx x

otherwiseR

Bảng 2 2 Bộ dữ liệu thử nghiệm thuật toán FW_FDBAR

STT Bộ dữ liệu Mô tả Số đối

tượng

Số thuộc tính điều kiện

Số lớp

quyết

định

Tất

cả

Thuộc tính

định danh

(nominal)

Thuộc tính

thực

(Real-

valued)

1 Lympho Lymphography 148 18 18 0 2

2 Wine Wine 178 13 0 13 3

3 Libra Libras movement 360 90 0 90 15

4 WDBC

Wisconsin

diagnostic breast

cancer

569 30 0 30 2

Page 49: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

39

5 Horse Horse colic 368 22 15 7 2

6 Heart Statlog (heart) 270 13 7 6 2

7 Credit Credit approval 690 15 9 6 2

8 German German credit data 1000 20 13 7 2

Vơi các thuât toán filter-wrapper FW_FDBAR và FEBAR [9], chúng tôi sử dụng

bô phân lơp CART (cây phân lơp, hồi quy) để tính đô chính xác phân lơp trong giai

đoan wrapper. Vơi thuât toán filter FPDAR [12], chung tôi cũng sử dụng bô phân lơp

CART để tính đô chính xác phân lơp sau khi tìm đươc tâp rút gon. Chúng tôi sử dụng

phương phap kiểm tra chéo 10-fold, nghĩa la bô dữ liêu đươc chia thành 10 phân xâp

xỉ bằng nhau, lây ngẫu nhiên 1 phân làm bô dữ liêu kiểm tra, 9 phân còn lai làm dữ

liêu huân luyên. Qua trình đươc lặp lai 10 lân. Đô chính xác phân lơp đươc biểu diễn

bởi v trong đó v là giá trị đô chính xác trung bình (mean) cua 10 lân lặp và là

sai số chuẩn (standard error). Công cụ lâp trình thực nghiêm là ngôn ngữ lâp trình C#

và công cụ phân tích dữ liêu R.

Môi trương thực nghiêm là máy tính PC vơi câu hình Intel(R) Core(TM) i7-

3770CPU @3.40 GHz, sử dụng hê điều hành Windows 7, 32 bit.

2.5.3. Kết quả so sánh độ chính xác phân lớp và số lượng thuộc tính tập rút gọn

Kết qua so sanh đô chính xác phân lơp và số lương thuôc tính tâp rút gon cua 3

thuât toan đươc mô ta ở Bang 2.3 va Hình 2.1. Trong đó, ký hiêu C là số thuôc tính

cua bô dữ liêu ban đâu, B là số thuôc tính cua tâp rút gon. Kết qua ở Bang 2.3 và

Hình 2.1 cho thây, so vơi thuât toán FPDAR sử dụng khoang cách mơ theo tiếp cân

filter, số thuôc tính tâp rút gon cua thuât toan đề xuât FW_FDBAR nho hơn nhiều, đặc

biêt la đối vơi các bô dữ liêu Horse, Heart, Credit, German. Đô chính xác cua

FW_FDBAR cao hơn FPDAR trên tât ca các bô dữ liêu. Do đó, hiêu năng va tính khai

quát hóa cua tâp luât phân lơp trên tâp rút gon cua FW_FDBAR cao hơn nhiều so vơi

FPDAR. Vơi thuât toán filter-wrapper FEBAR [9] sử dụng -entropy mơ, số lương

thuôc tính tâp rút gon cua FW_FDAR xâp xỉ FEBAR, đô chính xác phân lơp cua

FW_FDBAR xâp xỉ FEBAR.

Bảng 2.3 Độ chính xác phân lớp và số lượng thuộc tính tập rút gọn

FW_FDBAR, FEBAR, FPDAR

STT Bộ dữ liệu Độ chính xác

ban đầu

Thuật toán

FW_FDBAR

Thuật toán

FEBAR [9]

Thuật toán

FPDAR [12]

Page 50: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

40

C

Đô

chính

xác

B Đô chính

xác B

Đô

chính

xác

B

Đô

chính

xác

1 Lympho 18 0.776±

0.008 4

0.768 ±

0.085 4

0.768 ±

0.085 6

0.722 ±

0.062

2 Wine 13 0.910 ±

0.066 5

0.893 ±

0.072 5

0.893 ±

0.072 7

0.886 ±

0.058

3 Libra 90 0.566 ±

0.137 7

0.658 ±

0.077 8

0.605 ±

0.103 26

0.556 ±

0.205

4 WDBC 30 0.924 ±

0.037 4

0.968 ±

0.058 3

0.952 ±

0.027 6

0.925 ±

0.644

5 Horse 22 0.829 ±

0.085 5

0.816 ±

0.052 4

0.802 ±

0.066 12

0.798 ±

0.058

6 Heart 13 0.744 ±

0.072 3

0.803 ±

0.074 3

0.803 ±

0.074 12

0.752 ±

0.055

7 Credit 15 0.826 ±

0.052 3

0.865 ±

0.028 2

0.846 ±

0.048 14

0.820 ±

0.078

8 German 20 0.692 ±

0.030 6

0.716 ±

0.029 5

0.702 ±

0.043 11

0.684 ±

0.024

Hình 2.1 Độ chính xác phân lớp của ba thuật toán

Page 51: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

41

Hình 2.2 Số lượng thuộc tính tập rút gọn của ba thuật toán

2.5.4. Kết quả so sánh thời gian thực hiện

Bảng 2.4 Thời gian thực hiện FW_FDBAR, FEBAR, FPDAR

STT Bộ dữ liệu

Thuật toán FW_FDBAR Thuật toán FEBAR [9] Thuật

toán

FPDAR

[12]

Thủ

tục

Filer

Thủ tục

Wrapper

Tổng

cộng

Thủ

tục

Filer

Thủ tục

Wrapper

Tổng

cộng

1 Lympho 0.32 0.50 0.82 0.38 0.52 0.90 0.34

2 Wine 0.46 1.21 1.67 0.51 1.18 1.69 0.48

3 Libra 46.28 86.18 132,46 55.12 88.26 143.38 48.48

4 WDBC 20.15 8.74 28.89 26.38 8.22 34.60 22.32

5 Horse 4.85 2.68 7.53 5.26 2.65 7.91 4.98

6 Heart 1.22 1.52 2.74 1.45 1.78 3.23 1.26

7 Credit 16.58 3.42 20.00 19.26 3.98 23.24 18.02

8 German 52.48 8.64 61.12 71.22 8.28 79.50 54.65

Page 52: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

42

Hình 2.3 Thời gian thực thiện của ba thuật toán

Kết qua so sánh về thơi gian thực hiên ở Bang 2.4 và Hình 2.3 cho thây, thuât

toán FW_FDBAR có thơi gian thực hiên nho hơn đang kể thuât toán FEBAR [9], chu

yếu là ở thu tục filter tìm tâp rút gon. Nguyên nhân là thuât toán FEBAR phai tính

miền dương mơ để xac định hê số , hơn nữa thuât toán FEBAR phai tính toán các

công thức logarit phức tap trong công thức entropy Shannon. Tuy nhiên, các thuât toán

theo tiếp cân filter-wrapper FW_FDBAR và FEBAR [9] có thơi gian thực hiên lơn

hơn thuât toán theo tiếp cân filter FPDAR [12] vì phai thực hiên bô phân lơp để tính

đô chính xác cua các tâp rút gon xâp xỉ trong giai đoan wrapper.

2.6. Kết luận Chương 2

Trong Chương 2, luân án trình bày kết qua xây dựng môt đô đo khoang cách

trong bang quyết định. Dựa vao đô đo khoang cach đươc xây dựng, luân án xây dựng

thuât toán F_FDBAR tìm tâp rút gon cua bang quyết định theo tiếp cân filter truyền

thống, trên cơ sở đó đề xuât thuât toán theo tiếp cân kết hơp filter-wrapper FW_DBAR

nhằm giam thiểu số thuôc tính cua tâp rút gon va nâng cao đô chính xác cua mô hình

phân lơp. Kết qua thử nghiêm trên các bô số liêu mẫu từ kho dữ liêu UCI [59] cho thây,

thuât toán filter-wrapper FW_DBAR đề xuât giam thiểu đang kể số lương thuôc tính

tâp rut gon so vơi cac thuât toan filter FPDAR. Hơn nữa, thuât toan FW_DBAR duy trì

va nâng cao đô chính xac phân lơp so vơi thuât toan filter FPDAR. Tuy nhiên, thuât

toán FW_FDBAR mât thêm chi phí thơi gian tính toan cac bô phân lơp. Vơi các bài

toán có số lương thuôc tính lơn (high dimention data), ví dụ trong lĩnh vực tin sinh

Page 53: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

43

hoc, viêc giam thiểu số lương thuôc tính có ý nghĩa quan trong vì giam thiểu đô phức

tap cua mô hình, do đó lựa chon các thuât toán filter-wrapper FW_DBAR là phù hơp.

Tuy nhiên, vơi các bang có số thuôc tính nho và có dữ liêu lơn, viêc chon các thuât

toán filter phù hơp hơn vì thơi gian thực hiên nho hơn.

Page 54: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

44

CHƯƠNG 3. THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER TÌM TẬP

RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP ĐỐI TƯỢNG

Nôi dung chương nay trình bay hai thuât toan gia tăng rut gon thuôc tính trong

bang quyết định sử dụng khoang cach mơ: thuât toan gia tăng filter-wrapper rut gon

thuôc tính sử dụng khoang cach mơ khi bổ sung tâp đối tương va thuât toan gia tăng

fifter-wrapper rut gon thuôc tính khi loai bo tâp đối tương. Bằng lý thuyết va thực

nghiêm đanh gia hiêu qua về thơi gian thực hiên, đô chính xac phân lơp va số lương

thuôc tính cua từng thuât toan so vơi cac thuât toan truyền thống khac.

3.1. Mở đầu

Rút gon thuôc tính là bài toán quan trong trong bươc tiền xử lý dữ liêu cua quá

trình khai phá tri thức từ dữ liêu. Mục tiêu cua rút gon thuôc tính là loai bo các thuôc

tính dư thừa, không cân thiết nhằm nâng cao tính hiêu qua cua các mô hình khai phá

dữ liêu. Lý thuyết tâp thô mơ (fuzzy rough set) do Dübois và công sự [1] đề xuât đươc

chứng minh là công cụ hiêu qua giai quyết bài toán rút gon thuôc tính trực tiếp trên

bang quyết định gốc mà không qua tiền xử lý dữ liêu. Trong các bài toán thực tế, các

bang quyết định thương có kích thươc lơn va luôn thay đổi, câp nhât. Viêc áp dụng các

thuât toán tìm tâp rút gon dựa trên tâp thô mơ theo tiếp cân truyền thống gặp nhiều

thách thức. Trương hơp bang quyết định thay đổi, câp nhât, các thuât toán này tính lai

tâp rút gon trên toàn bô bang quyết định sau khi thay đổi nên chi phí về thơi gian tính

toan tăng lên đang kể. Trương hơp bang quyết định có kích thươc lơn, viêc thực hiên

thuât toán trên toàn bô bang quyết định kích thươc lơn sẽ gặp khó khăn về dung lương

bô nhơ lưu trữ và thơi gian thực hiên. Do đó, cac nha nghiên cứu đã đề xuât hương tiếp

cân tính toan gia tăng (incremental) tìm tâp rút gon. Các thuât toan gia tăng chỉ thực

hiên câp nhât lai tâp rút gon trên phân dữ liêu thay đổi, do đó chung giam thiểu đang

kể thơi gian thực hiên. Theo tiếp cân tâp thô truyền thống cua Pawlak [19] và các mô

hình tâp thô mở rông, môt số thuât toan gia tăng tìm tâp rút gon đã đươc đề xuât trong

trương hơp bổ sung, loai bo tâp đối tương, bổ sung, loai bo tâp thuôc tính. Vơi trương

hơp bổ sung, loai bo tâp đối tương, môt số thuât toan gia tăng đề xuât sử dụng khoang

cách [20, 21], hat thông tin [22, 23, 24, 25, 26, 27], ma trân phân biêt [28, 29, 30, 31,

32], miền dương [33, 34, 35], ham thuôc [36], quan hê không phân biêt đươc [37],

entropy thông tin [38], đô đo không nhât quán [39], lựa chon mẫu kích hoat [40]. Vơi

trương hơp bổ sung, loai bo tâp thuôc tính, môt số thuât toan gia tăng tìm tâp rút gon

Page 55: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

45

đã đươc đề xuât sử dụng miền dương [41], entropy thông tin [42], ma trân phân biêt

[43, 44, 45], quan hê không phân biêt [46, 47], khoang cach [48], đô phụ thuôc cua

thuôc tính [49], hat tri thức [50, 51], ngoài ra còn môt số phương phap khac[80, 81,82,

83, 84, 90, 98, 102, 105, 106, 107, 108, 109, 110]

Theo tiếp cân tâp thô mơ [1], trong mây năm gân đây đã có môt số nghiên cứu

đề xuât các thuât toan gia tăng tìm tâp rút gon cua bang quyết định thay đổi. Vơi

trương hơp bổ sung và loai bo tâp thuôc tính, Zeng và công sự [16] đã giơi thiêu mô

hình tâp thô mơ mở rông dựa trên các hê thống thông tin lai (HIS) va đề xuât hai

thuât toan gia tăng (FRSA-IFS-HIS-AA và FRSA-IFS-HIS-AD) tìm ra tâp rút gon

dựa trên hàm phụ thuôc mơ. Vơi trương hơp bổ sung tâp đối tương, Liu và công sự

[17] đã xây dựng các công thức gia tăng tính ham thanh viên mơ va đề xuât thuât

toan gia tăng FIAR tìm tâp rút gon. Yang và công sự [18] đã xây dựng cơ chế gia

tăng tính quan hê không phân biêt mơ va đề xuât thuât toan gia tăng IARM tìm tâp

rút gon. Yang và công sự [20] đề xuât hai thuât toan gia tăng (V-FS-FRS-1 và V-FS-

FRS-2) tìm tâp rút gon dựa trên ma trân phân biêt mơ. Theo tiếp cân tâp thô mơ [1],

trong mây năm gân đây môt số thuât toan gia tăng tìm tâp rút gon cua bang quyết

định đã đươc đề xuât vơi cac trương hơp: bổ sung và loai bo tâp đối tương [52, 53,

54, 55, 56], bổ sung và loai bo tâp thuôc tính [57], và môt số phương phap khac [86,

87, 88, 89 ,93 ,94 ,95 ,96 ,97]. Vơi trương hơp bổ sung, loai bo tâp đối tương, Liu và

các công sự [52] xây dựng công thức gia tăng tính đô phụ thuôc mơ va đề xuât thuât

toan giăng FIAT tìm tâp rút gon khi bổ sung tâp đối tương. Yang và các công sự [53]

xây dựng công thức gia tăng tính quan hê phân biêt, trên cơ sở đó xây dựng thuât

toan gia tăng IARM tìm tâp rút gon khi bổ sung tâp đối tương. Yang và các công sự

[54] xây dựng cơ chế câp nhât quan hê phân biêt va đề xuât hai thuât toán IV-FS-

FRS-1 và IV-FS-FRS-2 tìm tâp rút gon trong trương hơp bổ sung tâp đối tương.

Zhang và các công sự [56] đề xuât thuât toan gia tăng AIFWAR tìm tâp rút gon sử

dụng entropy có điều kiên mở rông trong trương hơp bổ sung tâp đối tương. Ni và

các công sự [57] đưa ra khai niêm tâp đối tương chính (key instance set), trên cơ sở

đó xây dựng hai thuât toan gia tăng tìm tâp rút gon dựa trên tâp đối tương chính

trong trương hơp bổ sung tâp đối tương: thuât toán DIAR sử dụng hàm thuôc mơ và

thuât toán PIAR sử dụng miền dương mơ. Vơi trương hơp bổ sung, loai bo tâp thuôc

Page 56: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

46

tính, các kết qua nghiên cứu về các thuât toan gia tăng tìm tâp rút gon theo tiếp cân

tâp thô mơ còn han chế. Zeng và các công sự [58] xây dựng các công thức gia tăng

câp nhât đô phụ thuôc mơ trong hê thông tin hỗn hơp (HIS), trên cơ sở đó đề xuât hai

thuât toan gia tăng câp nhât tâp rút gon sử dụng đô phụ thuôc mơ: thuât toán FRSA-

IFS-HIS(AA) trong trương hơp bổ sung tâp thuôc tính và thuât toán FRSA-IFS-

HIS(AD) trong trương hơp loai bo tâp thuôc tính. Kết qua thực nghiêm trong các

công trình nêu trên cho thây, các thuât toan gia tăng giam thiểu đang kể thơi gian

thực hiên so vơi các thuât toan không gia tăng. Do đó, chung có thể thực thi hiêu qua

trên các bang quyết định có kích thươc lơn va thay đổi, câp nhât.Tuy nhiên, các thuât

toan nêu trên đều theo hương tiếp cân loc truyền thống (filter). Trong đó, tâp rút gon

tìm đươc là tâp thuôc tính tối thiểu bao toan đô đo đươc định nghĩa (ham thuôc mơ,

quan hê phân biêt…), viêc đanh gia đô chính xác phân lơp đươc thực hiên sau khi

tìm đươc tâp rút gon. Vì vây, tâp rút gon tìm đươc cua các thuât toan nêu trên chưa

tối ưu ca về số lương thuôc tính va đô chính xác phân lơp, nghĩa la tâp rút gon tìm

đươc chưa chắc có đô chính xác phân lơp tốt nhât.

Từ những vân đề phân tích nêu trên, trong chương nay, trươc hết luân án trình

bày các công thức gia tăng câp nhât khoang cách mơ (đươc đề xuât ở Chương 2) trong

trương hơp bổ sung, loai bo tâp đối tương. Dựa trên các công thức tính toan gia tăng

khoang cách mơ đươc xây dựng, luân án trình bày 02 thuât toan gia tăng tìm tâp rút

gon cua bang quyết định theo tiếp cân kết hơp filter-wrapper:

1) Thuât toan gia tăng filter-wrapper IFW_FDAR_AdObj tìm tâp rút gon trong

trương hơp bổ sung tâp đối tương.

2) Thuât toan gia tăng filter-wrapper IFW_FDAR_DelObj tìm tâp rút gon trong

trương hơp loai bo tâp đối tương.

Hai thuât toan đề xuât nêu trên đều theo tiếp cân kết hơp filter-wrapper, hai

thuât toán này nhằm mục tiêu giam thiểu số thuôc tính tâp rút gon và cai thiên đô

chính xác mô hình phân lơp.

Kết qua nghiên cứu ở chương nay đươc công bố ở công trình số 1, 3 phân “Danh

mục các công trình cua tác gia”.

Page 57: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

47

3.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn bổ sung tập đối tượng

Trong phân này, luân án trình bày thuât toan gia tăng filter-wrapper tìm tâp rút

gon sử dụng khoang cách mơ khi bổ sung tâp đối tương vào bang quyết định. Trươc

hết, luân án xây dựng các công thức gia tăng tính khoang cách mơ khi bổ sung môt đối

tương và môt tâp đối tương.

3.2.1. Công thức gia tăng để tính khoảng cách mờ khi bổ sung một đối tượng

Cho bang quyết định ,DS U C D vơi 1 2, ,..., nU x x x và R là quan hê

tương đương mơ xac định trên miền giá trị tâp thuôc tính điều kiên. Theo Mênh đề 2.3

cua Chương 2 , khoang cách mơ sinh bởi C và C D trên U là:

2 1

1FPD Φ ,Φ     

n

C C D i i iC C DiR R x x x

n

Mệnh đề 3.1. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x và �� là quan

hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Giá sử đối

tượng x được bổ sung vào U . Khi đó, công thức tính gia tăng khoảng cách mờ là:

2

2

2FPD Φ ,Φ   FPD Φ ,Φ

1 1C C D U C C DU x C C D

nR R R R x x x

n n

Chứng minh: Gia sử ijU C n nM R m

,

ij 1 1CU x n n

M R m

tương ứng la ma

trân tương đương mơ cua CR trên U và U x , vơi

1,1 1 1,2 2 1, 1 1/ / ... /n n n n nCx m x m x m x . Ma trân tương đương cua D trên U va

U x là ijU D n nM R d

,

ij 1 1DU x n n

M R d

.

Khi đó ta có:

1

2 1

1FPD Φ ,Φ

1

n

C C D i i iU x C C DiR R x x x

n

Mặt khac

1, 1, 1, , , ,1 1 1min , min ,

n n n

i i i n i n i n i i i iC C Di i im m d m m d x x x

2 *FPD Φ ,ΦU C C Dn R R

Từ đó ta có:

2

2

2FPD Φ ,Φ   FPD Φ ,Φ

1 1C C D U C C DU x C C D

nR R R R x x x

n n

Page 58: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

48

1 1 12

1...

1n n nC C D C C D C C D

x x x x x x x x xn

1 1

1, 1, 1, , , ,2 1 1

1min , min ,

1

n n

i i i n i n i n i C C Di im m d m m d x x x

n

1, 1, 1, , , ,2 1 1

1min , min ,

1

n n

i i i n i n i n i C C Di im m d m m d x x x

n

1, 1 1, 1 1, 1 , 1 , 1 , 1min , ... min ,n n n n n n n n nm m d m m d

1, 1, 1, , , ,2 1 1

1( min , min , 2*

1

n n

i i i n i n i n i C C Di im m d m m d x x x

n

Ví dụ 3.1

Cho bang quyết định ,DS U C D , vơi 1 2 3, u ,uU u và 1 2 3 4,c ,c ,cC c

Bảng 3.1 Bảng quyết định của Ví dụ 3.1

Luân án sử dụng quan hê tương đương mơ ��𝑎 trên thuôc tính a C như sau:

, 1 ,i j i ia j j

u u a u a u u u UR vơi ,i ju u U

Từ đó, tính các ma trân tương đương mơ lân lươt là:

1 2 3 4

1 0.2 0.2 1 1 0.6 1 1 1 1 1 1

( ) 0.2 1 0.8 ( ) 1 1 0.8 ( ) 1 1 1 ( ) 1 1 1

0.2 0.8 1 0.6 0.8 1 1 1 1 1 1 1

1 0 0 1 0.2 0.2

( ) 0 1 1 ( ) 0.2 1 0.8

0 1 1 0.2 0.8 1

c c c c

D c

M

M

R R R R

R

M M M

M R

Áp dụng công thức tính khoang cách mơ sinh bởi C và C D trên U là:

2 1 9

1FP

0.8D Φ ,Φ

n

C C D i i iC C DiR R x x x

n

Tiếp theo tiến hành bổ sung môt đối tương 1 0,0.6,0,1x

U c1 c2 c3 c4 D

u1 0.8 0.2 0.6 0.4 0

u2 0 0.4 0.6 0.4 1

u3 0 0.6 0.6 0.4 1

Page 59: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

49

Bảng 3.2 Bang quyết định sau khi thêm đối tương u4 cua Ví dụ 3.1

U c1 c2 c3 c4 D

u1 0.8 0.2 0.6 0.4 0

u2 0 0.4 0.6 0.4 1

u3 0 0.6 0.6 0.4 1

x1 0 0.6 0 1 0

1)Tính khoảng cách mờ theo công thức gia tăng cho bởi Mệnh đề 3.1

Các ma trân tương đương mơ sau khi bổ sung môt đối tương x1

1 2 3 4( ), ( ), ( ), ( ), ( ), ( )c c c c C DM M M MR R R R RM RM

1 2 3

1 0.2 0.2 0.2 1 1 0.6 0.6 1 1 1 0.4

0.2 1 1 1 1 1 0.8 0.8 1 1 1 0.4( ) , ( ) , ( )

0.2 1 1 1 0.6 0.8 1 1 1 1 1 0.4

0.2 1 1 1 0.6 0.8 1 1 0.4 0.4 0.4 1

c c cM MR RMR

4

1 1 1 0.4 1 0.2 0.2 0.2 1 0 0 1

1 1 1 0.4 0.2 1 0.8 0.4 0 1 1 0( ) , ( ) , ( )

1 1 1 0.4 0.2 0.8 1 0.4 0 1 1 0

0.4 0.4 0.4 1 0.2 0.4 0.4 1 1 0 0 1

c C DM M MR R R

Ta có:

2

2

2FPD Φ ,Φ   FPD Φ ,Φ

1 1C C D U C C DU x C C D

nR R R R x x x

n n

=2.4

16

2)Tính khoảng cách trên toàn bộ bảng quyết định theo công thức không gia tăng

Vơi n= 4

4 2 1

1Φ ,Φ

2.4

16

n

C C D i i iC Cu DiUF R R x xD xPn

Như vây, kết qua tính toán khoang cách mơ bởi công thức gia tăng cua Mênh đề

3.1 và công thức không gia tăng khi bổ sung thêm môt đối tương trên toàn bô bang

quyết định la như nhau, điều này chứng minh tính đung đắn cua công thức gia tăng.

Page 60: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

50

3.2.2. Công thức gia tăng tính khoảng cách mờ khi bổ sung tập đối tượng

Từ Mênh đề 3.1, chúng tôi giơi thiêu công thức gia tăng tính khoang cách mơ

khi thêm môt tâp đối tương ở Mênh đề 3.2

Mệnh đề 3.2. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x và R là quan

hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện. Giả sử tập đối

tượng gồm s phần tử 1 2, ,...,n n n sU x x x được bổ sung vào U, mà s2. Với

ij ij,U U C U U Dn s n s n s n s

M R m M R d là ma trận tương đương mờ

tương ứng trên C và D. Khi đó, công thức gia tăng khoảng cách mờ như sau:

2

2 1

FPD Φ ,Φ

2FPD Φ ,Φ   

U U C C D

s

U C C D n i n i n i iC C Di

R R

nR R x x x

n s n s

mà 1

, 1 , 1 , 1min ,s

i n i n j n i n j n i n jj im m d

Chứng minh: Ký hiêu 1 2FPD ,FPD ,...,FPDs tương ứng la công thức tính khoang cach

mơ khi thêm lân lươt cac đối tương 1 2, ,...,n n n sx x x

vào U, và 0FPD la khoang cach

mơ trên tâp đối tương ban đâu U.

Khi bổ sung đối tương 1nx vào U, ta có:

2

1 0 1 1 12

2FPD FPD (

1 1n n nC C D

nx x x

n n

(2.1)

Ở đây, lơp tương đương mơ 1n Cx

tính trên 1n đối tương. Để tính toán trên

n s đối tương sau khi bổ sung (tương ứng vơi ma trân quan hê   U U CM R , công

thức (2.1) trở thành:

2

1 0 1 1 1 12

2FPD FPD

1 1n n nC C D

nx x x

n n

2

2 1 2 2 2 22

1 2FPD FPD

2 2n n nC C D

nx x x

n n

Vơi

1 1, 2 1, 2 1, 2 1, 1, 1,min , ... min ,n n n n n n n n s n n s n n sm m d m m d

Page 61: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

51

2 2, 3 2, 3 2, 3 2, 2, 2,min , ... min ,n n n n n n n n s n n s n n sm m d m m d

Tính tương tự như vây, ta đươc:

2

0 2 1

2FPD FPD

s

s n i n i n i iC C Di

nx x x

n s n s

Vơi 1

, 1 , 1 , 1min ,s

i n i n j n i n j n i n jj im m d

Ví dụ 3.2 Cho bang quyết định ,DS U C D , vơi

1 2 3 1 2 3 4 5 6, u ,u , ,c ,c ,c ,c ,cU u C c

Bảng 3.3 Bảng quyết định của Ví dụ 3.2

Luân án sử dụng quan hê tương đương mơ aR trên thuôc tính a C như sau:

, 1 ,a i j i j i j

u u a u a u u u UR vơi ,i ju u U

Từ đó, tính các ma trân tương đương mơ lân lươt:

1 2 3

4 5 6

1 1 0.8 1 1 0.8 1 0.4 0.8

( ) 1 1 0.8 , ( ) 1 1 0.8 , ( ) 0.4 1 0.2

0.8 0.8 1 0.8 0.8 1 0.8 0.2 1

1 0.8 0.8 1 0.2 0.6 1

( ) 0.8 1 0.8 , ( ) 0.2 1 0.6 , ( )

0.8 0.8 1 0.6 0.6 1

c c c

c c c

M M M

M M M

R R R

R R R

0.2 0.6

0.2 1 0.6

0.2 0.6 1

1 0.2 0.6 1 0 1

) 0.2 1 0.2 , ( ) 0 1 0

0.2 0.2 1 1 0 1

C DM RMR

Khoang cách mơ giữa hai tâp thuôc tính C và D cua bang quyết định

,DS U C D đươc tính bằng công thức không gia tăng:

2 1

0.8

9

1Φ ,Φ

n

C C D i i iC C DiUF R R x xD xPn

Tiếp theo, tiến hành bổ sung tâp đối tương 1 2 3, ,U x x x vào bang quyết định

U c1 c2 c3 c4 c5 c6 D

u1 0.8 0.2 0.6 0.4 1 0 0

u2 0.8 0.2 0 0.6 0.2 0.8 1

u3 0.6 0.4 0.8 0.2 0.6 0.4 0

Page 62: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

52

,DS U C D .

Bảng 3.4 Bảng quyết định của Ví dụ 3.2 sau khi thêm tập đối tượng

U c1 c2 c3 c4 c5 c6 D

u1 0.8 0.2 0.6 0.4 1 0 0

u2 0.8 0.2 0 0.6 0.2 0.8 1

u3 0.6 0.4 0.8 0.2 0.6 0.4 0

1x 0 0.4 0.6 0.4 0 1 1

2x 0 0.6 0.6 0.4 0 1 1

3x 0 0.6 0 1 0 1 0

1)Tính khoảng cách mờ theo công thức gia tăng cho bởi Mệnh đề 3.2

Cac ma trân tương đương mơ khi bổ sung tâp đối tương 1 2 3, ,U x x x

1 2

1 1 0.8 0.2 0.2 0.2

1 1 0.8 0.2 0.2 0.2

0.8 0.8 1 0.4 0.4 0.4( ) , ( )

0.2 0.2 0.4 1 1 1

0.2 0.2 0.4 1 1 1

0.2 0.2 0.4 1 1 1

1 1

1 1 0.8 0.6 0.6

0.8 0.8 1 1 0.8 0.8

0.8 0.8 1 1 0.8 0.8

0.6 0.6 0.8 0.8 1 1

0.6 0.6 0.8 0.

0.8 0.8 0.6 0.6

0.8

8 1 1

c cM MR R

,

3 4( ) , ( )

0.4 1 1 0.8 1 1

0.4 0.2 0.4 0.4 1 0.8 0.6 0.6

0.8 0.8 0.8

1 0.4 0.8 1 0.4 1 0.8 0.8 1 0.4

1 0.4 0.8 1 0.4 1 0.8 0.8 1 0.4

0.4 1 0.4

1 0.8 0.4 1 0.8 0.4

1 1 0

4

.8 0.8

0.8 0

0

.2 1 0.8 0.2 0.6 1 0.8 0.2

1 1

1 1

0.2 0 ..4 0.6 0.2.4 1 0 4 0.

c cM MR R

,

1

5 6( ) , ( )

0.2 0.6 0 0.2 0.6

0.2 0.6 0.8 0.8 0.8 0.2 0.6 0.8 0.8

0.6 0.6 0.4 0.4 0.6 0.6 0.4

0.8 0.4 1 1 0.

1

1 0 0 1 0

8 0.4 1 1

0.8 0.4 1

1

0.8 0.4 1

0 0.8 0.4 0.

0 0

1 1 0.8

1 0.4 1 0.4 0.4

0 1 0 1

0 1 1 0 1 1

48 11 0 0. 1 1

c cM MR R

,

Page 63: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

53

( ) , ( )

0.2 0.6 0 1 1

0.2 0.2 0.2 0.2 0.2 0 0 1 1 0

0.6 0.4 0.4 0.2 1 0 0 0 1

0.4 0.8 1 0 1

0.2 0.4 1 0 1 0

0

1 0 0 0 1 0 0

1 1

0.2 1 1

0 0.2 1 0.4 0 1 0

0 0.4 0.8 1 0 1

0 0.2 0 1..2 0. 044 1 0 1 10

C DM MR R

Ta có: 2 1

1 4.4

36Φ ,Φ

n

C C D i i iC DiU CF R R x x x

nPD

2) Tính khoảng cách mờ trên toàn bộ bảng quyết định theo công thức không gia

tăng

Vơi n= 3, s=3, ta có:

2

2 1

FPD Φ ,Φ

2FPD Φ ,Φ   

U U C C D

s

U C C D n i n i n i iC C Di

R R

nR R x x x

n s n s

Vơi 1

, 1 , 1 , 1min ,s

i n i n j n i n j n i n jj im m d

4.4FPD Φ ,Φ

36U U C C DR R

Như vây, kết qua tính toán khoang cách mơ bởi công thức gia tăng cua Mênh đề

3.2 và công thức không gia tăng khi bổ sung thêm tâp đối tương trên toàn bô bang

quyết định la như nhau, điều này chứng minh tính đung đắn cua công thức gia tăng.

3.2.3. Thuật toán gia tăng fifter-wrapper tìm tập rút gọn sau khi bổ sung tập

đối tượng

Mệnh đề 3.3. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x và R là quan

hệ tương đương mờ xác định trên miền giá trị tập thuộc tính điều kiện, B C là tập

rút gọn dựa trên khoảng cách mờ. Giả sử tập đối tượng gồm s phần tử

1 2, ,...,n n n sU x x x được bổ sung vào U . Khi đó ta có:

1) Nếu n iD x d với mọi 1,2, ,i s thì:

Page 64: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

54

2

2 1

FPD Φ ,Φ

2FPD Φ ,Φ

U U C C D

s

U C C D n i n i n iC C Di

R R

nR R x x x

n s n s

2) Nếu n i n iB Dx x với mọi 1,2,...,i s thì

FPD Φ ,Φ FPD Φ ,ΦU U B B D U U C C DR R R R .

Chứng minh: Gia sử

,C B

U U C ij U U B ijn s n s n s n sM R m M R m

tương ứng

la ma trân tương đương mơ trên C và B.

1) Nếu n iD x d vơi moi 1,2,...,i s thì vơi moi 1,2,...,i s và , , 1j i s ta

có , 1 1n i n jd . Do đó, , 1 , 1 , 1min ,C C

n i n j n i n j n i n jm d m , từ Mênh đề 3.2 ta có công

thức trong trương hơp đâu tiên.

2) Nếu n i n iB Dx x vơi moi 1,2,...,i s thì n i n i n iC B D

x x x . Khi đó, ta

có n i n i n iB D Bx x x và n i n i n iC D C

x x x . Do đó

0n i n i n iB B Dx x x , 1

0s

n i n i n iB B Dix x x

,

0n i n i n iC C Dx x x , 1

0s

n i n i n iC C Dix x x

.

Hơn nữa, , 1 , 1 , 1 , 1 , 1 , 1min , , min ,B B C C

n i n j n i n j n i n j n i n j n i n j n i n jm d m m d m vơi

1.. , .. 1i s j i s . Từ Mênh đề 3.2 ta có:

2

FPD Φ ,Φ FPD Φ ,ΦU U B B D U B B D

nR R R R

n s

(3.1)

2

FPD Φ ,Φ FPD Φ ,ΦU U C C D U C C D

nR R R R

n s

(3.2)

Từ B la tâp rut gon cua C nên ta có:

FPD Φ ,Φ FPD Φ ,ΦU B B D U C C DR R R R . Từ (3.1) va (3.2) ta có:

FPD Φ ,Φ FPD Φ ,ΦU U B B D U U C C DR R R R

Từ kết qua cua Mênh đề 3.3, thuât toan gia tăng filter-wrapper rut gon thuôc

tính sử dụng khoang cach mơ IFW_FDAR_AdObj gồm 3 bươc chính:

Page 65: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

55

Algorithm IFW_FDAR_AdObj

Đầu vào:

1. Bảng quyết định ,DS U C D với 1 2, ,..., nU x x x , quan

hệ tương đương mờ R, tập rút gọn  B C .

2. Các ma trận tương đương mờ

, , U B ij U C ij U D ijn n n n n nM R b M R c M R d

3. Tập đối tượng bổ sung 1 2, ,...,n n n sU x x x

Đầu ra: Tập rút gọn xấp xỉ bestB của ,DS U U C D với

độ chính xác phân loại cao nhất.

Bước 1: Khởi tạo

1. : ;T // T chứa ứng của viên tập rút gọn tốt nhất

2. Tính các ma trận tương đương mờ trên tập đối tượng

U U

, U U B ij U U D ijn s n s n s n sM R b M R d

;

Bước 2: Kiểm tra tập đối tượng thêm vào

3. Đặt :X U ;

4. For 1 i to s do

5. If n i n iB Dx x then : n iX X x ;

6. If X then Return 0B ; // Tập xấp xỉ

không thay đổi

7. Đặt : ; :U X s U ; //Gán lại tập đối tượng

Bước 3: Tìm tập rút gọn tốt nhất

8. Tính các khoảng cách mờ ban đầu

FPD Φ ,Φ ; FPD Φ ,ΦU B B D U C C DR R R R ;

9. Tính khoảng cách mờ bởi công thức gia tăng:

FPD Φ ,Φ ; FPD Φ ,ΦU U B B D U U C C DR R R R

// Giai đoạn fifter: tìm các ứng viên cho tập

rút gọn

10. While FPD Φ ,Φ FPD Φ ,ΦU U B B D U U C C DR R R R do

11. Begin

Page 66: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

56

12. For each a C B do

13. Begin

14. Tính FPD Φ ,ΦU U B a B a D

R R bởi công thức gia

tăng;

15. Tính

FPD Φ ,Φ FPD Φ ,Φ ;B U U B B D U U B a B a DSIG a R R R R

16. End;

17. Selecta C B satisfying B m Ba C B

SIG a Max SIG a

;

18. : mB B a ;

19. 0 0: mB B a ;

20. 0:T T B ;

21. End;

//Giai đoạn Wrapper: tìm tập rút gọn với độ chính xác

phân loại cao nhất

22. Đặt :t T //t là số phần tử của T,

0 1 0 1 2 0 1 2, , ,...,   , ,..., tT B a B a a B a a a ;

23. Đặt 1 0 1 2 0 1 2 0 1 2: ; : , ;...; : , ,...,t tT B a T B a a T B a a a ;

24. For j:= 1 to t do

25. Tính độ chính xác phân lớp trên jT bằng một bộ

phân lớp sử dụng phương pháp 10-fold;

26. :best joB T với joT có độ chính xác phân lớp cao nhất;

Return bestB ;

3.2.4. Đánh giá độ phức tạp của thuật toán

Trong phân nay, Luân an sẽ đanh gia đô phức tap cua thuât toan

IFW_FDAR_AdObj . Gia sử D d , , ,C U U tương ứng la số thuôc tính điều

kiên, số đối tương va số đối tương bổ sung từ tâp ban đâu. Đô phức tap cua thuât toan

đươc tính dựa trên thuât toan trên.

Đô phức tap cua ma trân tương đương mơ ở câu lênh 2 trên U U là

Page 67: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

57

* *O B U U U va đô phức tap cua vòng for ở câu lênh 4, 5 la

*O U U U . Trong trương hơp tốt nhât, thuât toan kết thuc ở câu lênh 6 (tâp

rut gon không thay đổi). Khi đó, đô phức tap cua thuât toán IFW_FDAR_AdObj là

* *O B U U U . Ngươc lai, đô phức tap cua khoang cach mơ ở câu lênh 9 la

* *O C U U U , đô phức tap tính gia tăng FPD Φ ,ΦU U B a B a d

R R

là *O U U U . Bằng cach tính đô phức tap tương tự như thuât toan

FW_FDBAR ở trong phân 2.4, đô phức tap cua vòng lặp While (từ câu lênh 10 đến

câu lênh 21) la 2

*O C B U U U . Kết qua đô phức tap cua giai đoan

fifter trong trương hơp xâu nhât la 2

*O C B U U U . Đô phức tap cua giai

đoan wrapper phụ thuôc vao đô phức tap cua bô phân lơp đươc sử dụng. Gia sử đô

phức tap cua bô phân lơp la O T , khi đó đô phức tap cua giai đoan wrapper la

*O C B T .

Từ những phân tích trên đô phức tap cua thuât toan IFW_FDAR_AdObj là:

2

max * * , * * *O B U U U O C B U U U O C B T

Nếu thực hiên thuât toan không gia tăng FW_FDBAR trực tiếp trên bang

quyết định có số đối tương U U , theo mục 2.4 cua Chương 2, đô phức tap cua

FW_FDBAR là 22

* *O C U U O C T . Dựa trên kết qua nay chung ta thây

rằng thuât toan IFW_FDAR_AdObj giam thiểu đang kể thơi gian thực hiên, đặc biêt

trong trương hơp tâp đối tương U lơn hoặc tâp điều kiên C lơn va B nho.

3.2.5. Thực nghiệm thuật toán

3.2.5.1 Mục tiêu thực nghiệm

1) Đanh gia về thơi gian thực hiên cua thuât toan gia tăng filter-wrapper

IFW_FDAR_AdObj vơi hai thuât toan gia tăng theo tiếp cân filter trên tâp thô mơ IV-

FS-FRS-2 [54], IARM [18]) và hai thuât toán filter trên tâp thô (ASS-IAR [40], IFSA

[36])). Đặc biêt, thuât toán IV-FS-FRS-2 là môt thuât toán filter dựa trên ma trân phân

biêt mơ, trong khi IARM là môt thuât toán filter dựa trên quan hê phân biêt. ASS-IAR

Page 68: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

58

là thuât toán filter dựa trên lựa chon mẫu hoat đông, trong khi IFSA là thuât toán filter

dựa trên chức năng phụ thuôc.

2) Đanh gia tính hiêu qua về đô chính xác phân lơp và số lương thuôc tính cua

tâp rút gon cua thuât toan gia tăng filter-wrapper IFW_FDAR_AdObj so vơi bốn thuât

toán filter nêu trên.

3.2.5.2 Dữ liệu thực nghiệm

Viêc thực nghiêm đươc triển khai trên 8 tâp dữ liêu mẫu lây từ kho dữ liêu

UCI[59] trong Bảng 3.5.

Vơi thuât toan IV-FS-FRS-2 va IARM bằng cach tiếp cân tâp thô mơ, tât ca

cac thuôc tính gia trị thực đươc chuẩn hóa thanh gia trị trong khoang [0, 1] trên mỗi

tâp dữ liêu [54]:

min

max min

i

i

a x aa x

a a

(3.3)

Vơi max( )a , min( )a tương ứng la gia trị lơn nhât va nho nhât cua thuôc tính a .

Quan hê tương đương mơ aR [9,54] trên thuôc tính a đươc xac định như sau:

, 1a i j i jR x x a x a x vơi ,i jx x U (3.4)

vơi mỗi thuôc tính a C có gia trị định danh hoặc nhị phân, quan hê tương

đương mơ aR trong (3.5) vơi ,i jx x U :

1,

0,

i j

a

a x a x

otherwiseR

(3.5)

Trên thuôc tính quyết định d , Luân an sử dụng quan hê tương đương d

R .

Vơi ,i jx x U

1,

0,

i j

dR

o

d x d x

therwise

(3.6)

Phân hoach / id d

U R x , vơi ix U và , 1i j i jdd

x x U R x x là

môt lơp tương đương. Khi đó, lơp tương đương i dx đươc xem la lơp tương đương mơ,

Page 69: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

59

ký hiêu bởi i dx . Ham thanh viên đươc định nghĩa la 1

i djx

x nếu j i dx x và

0i d

jxx nếu j i d

x x .

Vơi thuât toan ASS-IAR và IFSA đươc tiếp cân theo tâp thô truyền thống, luân

án dung thuât toan phân cụm C-mean mơ (FCM) để phân biêt dữ liêu có gia trị thực

trươc khi rut gon thuôc tính.

Mỗi tâp dữ liêu đươc chia thanh 2 phân xâp xỉ nhau: dữ liêu ban đâu (Côt 5

trong Bảng 3.5) va dữ liêu gia tăng (Côt 6 trong Bảng 3.5). Dữ liêu ban đâu đươc ký

hiêu la U0. Tâp dữ liêu gia tăng đươc tach ngẫu nhiên thanh 5 phân bằng nhau, mỗi

phân đươc ký hiêu tương ứng la U1, U2, U3, U4, U5.

Để ap dụng thuât toan gia tăng IFW_FDAR_AdObj, IV-FS-FRS-2, IARM,

ASS-IAR và IFSA, đâu tiên chúng tôi thực hiên thuât toan nay trên bô dữ liêu gốc.

Tiếp đến, thuât toan nay sẽ đươc bổ sung lân lươt từ phân đâu tiên đến phân thứ năm

cua bô dữ liêu gia tăng.

Bảng 3.5 Bộ dữ liệu thử nghiệm khi thêm tập đối tượng

Stt Bộ dữ

liệu Mô tả

Số đối

tượng

Số đối

tượng

ban đầu

Số

đối

tượng

gia

tăng

Số thuộc tính điều kiện Số

lớp

quyết

định

Tổng

số

Giá

trị

định

danh

Giá

trị

thực

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)

1 Libra Libras movement 360 180 180 90 0 90 15

2 WDBC

Wisconsin

diagnostic breast

cancer

569 284 285 30 0 30 2

3 Horse Horse colic 368 183 185 22 15 7 2

4 Heart Statlog (heart) 270 135 135 13 7 6 2

5 Credit Credit approval 690 345 345 15 9 6 2

6 German German credit

data 1000 500 500 20 13 7 2

7 Cmc Contraceptive

Method Choice 1473 733 740 9 7 2 3

8 Wave Waveform 5000 2500 2500 21 0 21 3

3.2.5.3 Phương pháp, công cụ và môi trường thử nghiệm

Chúng tôi dung bô phân lơp CART (CART – Classification And Regression

Tree) để tính đô chính xac phân lơp trong giai đoan wrapper cua thuât toan

Page 70: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

60

IFW_FDAR_AdObj. Đồng thơi dung bô phân lơp CART để tính đô chính xac phân

lơp cho cac thuât toan IFW_FDAR_AdObj , IV-FS-FRS-2, IARM, ASS-IAR sau khi

rut gon tâp thuôc tính. Chúng tôi sử dụng phương phap kiểm tra chéo 10-fold và chia

bô dữ liêu thành 10 phân xâp xỉ bằng nhau. Lây ngẫu nhiên môt phân làm bô dữ liêu

kiểm tra, các phân còn lai làm dữ liêu huân luyên. Qua trình đươc lặp lai 10 lân. Đô

chính xac đươc biểu diễn bởi 𝑣 ± 𝜎 vơi 𝑣 la gia trị đô chính xac trung bình cua 10 lân

lặp và 𝜎 la sai số chuẩn (standard error). Tât ca cac thử nghiêm đươc cai đặt trên PC

Core(TM) Intel (R) i7-3770CPU, 3.40 GHz, Windows 7 sử dụng Matlab.

3.2.5.4 Kết quả so sánh thời gian thực hiện của thuật toán gia tăng filter-wrapper

IFW_FDAR_AdObj với thuật toán IV-FS-FRS-2, IARM, ASS-IAR, IFSA

Bang 3.6 va Hình 3.1 trình bay thể hiên kết qua so sanh về thơi gian thực hiên

cua thuât toan IFW_FDAR_AdObj vơi cac thuât toan IV-FS-FRS-2, IARM, ASS-IAR,

IFSA vơi cac côt T0, T1, T2, T3, T4 tương ứng la tổng thơi gian tính toan cua cac thuât

toán IFW_FDAR_AdObj, IV-FS-FRS-2, IARM, ASS-IAR, IFSA. Côt DS la dữ liêu

gia tăng ban đâu.

Bảng 3.6 Thời gian thực hiện của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2

IARM, ASS-IAR và IFSA (tính bằng giây)

Stt Bộ dữ

liệu DS T0 T1 T2 T3 T4

1 Libra

U0 4.26 3.12 3.04 3.82 3.02

U1 4.84 3.98 3.86 3.86 3.16

U2 5.22 4.46 4.24 3.94 3.49

U3 5.68 4.98 4.56 4.12 3.98

U4 6.28 5.24 4.86 4.48 4.54

U5 6.78 5.76 5.08 4.86 5.06

2 WDBC

U0 2.86 2.12 2.10 2.63 2.06

U1 3.04 2.46 2.42 2.72 2.18

U2 3.28 2.72 2.68 2.80 2.34

U3 3.56 2.91 2.85 2.89 2.61

U4 3.85 3.24 3.02 2.98 2.88

U5 4.08 3.35 3.12 3.04 3.19

3 Horse

U0 0.68 0.54 0.52 0.58 0.50

U1 0.76 0.59 0.58 0.63 0.54

U2 0.85 0.66 0.67 0.69 0.59

U3 0.94 0.74 0.75 0.72 0.66

U4 0.99 0.78 0.79 0.75 0.75

U5 1.08 0.82 0.86 0.78 0.84

Page 71: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

61

4 Heart

U0 0.68 0.11 0.11 0.14 0.10

U1 0.72 0.13 0.14 0.15 0.12

U2 0.86 0.18 0.18 0.17 0.14

U3 0.92 0.19 0.20 0.18 0.17

U4 1.08 0.20 0.21 0.19 0.20

U5 1.26 0.22 0.22 0.20 0.24

5 Credit

U0 0.74 0.52 0.52 0.56 0.48

U1 0.96 0.68 0.66 0.62 0.56

U2 1.29 0.82 0.81 0.69 0.68

U3 1.54 0.94 0.92 0.78 0.79

U4 1.75 1.05 1.04 0.88 0.94

U5 1.86 1.18 1.15 1.12 1.18

6 German

U0 2.36 2.04 2.02 2.86 2.04

U1 2.58 2.25 2.21 2.92 2.12

U2 2.94 2.62 2.58 2.98 2.26

U3 3.28 2.98 2.92 3.06 2.48

U4 3.68 3.36 3.28 3.12 2.96

U5 4.26 3.84 3.46 3.18 3.42

7 Cmc

U0 1.92 1.54 1.55 1.86 1.58

U1 2.12 1.76 1.78 1.98 1.72

U2 2.48 1.98 2.01 2.12 1.96

U3 2.74 2.25 2.28 2.28 2.32

U4 2.98 2.34 242 2.45 2.58

U5 3.22 2.72 2.96 2.64 2.82

8 Wave

U0 182.26 164.26 160.68 172.58 154.28

U1 198.64 182.98 175.48 176.12 162.18

U2 210.12 198.24 189.28 182.64 173.69

U3 228.84 209.17 202.85 189.25 188.26

U4 252.26 223.89 219.46 192.46 202.17

U5 274.48 238.64 226.26 198.16 220.46

Hình 3.1a. Thời gian thực hiện các thuật toán trên bộ dữ liệu Libra

Page 72: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

62

2

2,5

3

3,5

4

4,5

U0 U1 U2 U3 U4 U5

Thơ

i gia

n t

hự

c hiê

n

Tâp đối tương cua dữ liêu WDBC

IFW_FDAR_AdObj

IV-FS-FRS-2

IARM

ASS-IAR

IFSA

0

0,2

0,4

0,6

0,8

1

1,2

U0 U1 U2 U3 U4 U5

Thơ

i gia

n t

hự

c hiê

n

Tâp đối tương cua dữ liêu Horse

IFW_FDAR_AdObj

IV-FS-FRS-2

IARM

ASS-IAR

IFSA

Hình 3.1b. Thời gian thực hiện các thuật toán trên bộ dữ liệu WDBC

Hình 3.1c. Thời gian thực hiện các thuật toán trên bộ dữ liệu Horse

Hình 3.1d. Thời gian thực hiện các thuật toán trên bộ dữ liệu Heart

Page 73: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

63

2

2,5

3

3,5

4

4,5

U0 U1 U2 U3 U4 U5

Thơ

i gia

n t

hự

c hiê

n

Tâp dữ liêu cua đối tương German

IFW_FDAR_AdObj

IV-FS-FRS-2

IARM

ASS-IAR

IFSA

1,5

2

2,5

3

3,5

U0 U1 U2 U3 U4 U5

Thơ

i gia

n t

hự

c hiê

n

Tâp đối tương cua dữ liêu Cmc

IFW_FDAR_AdObj

IV-FS-FRS-2

IARM

ASS-IAR

IFSA

Hình 3.1.e Thời gian thực hiện các thuật toán trên bộ dữ liệu Credit

Hình 3.1.f Thời gian thực hiện các thuật toán trên bộ dữ liệu German

Hình 3.1.g Thời gian thực hiện các thuật toán trên bộ dữ liệu Cmc

Page 74: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

64

Hình 3.1.h Thời gian thực hiện các thuật toán trên bộ dữ liệu Wave

Hình 3.1 Thời gian thực hiện các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2 IARM,

ASS-IAR và IFSA

Bang 3.6 và Hình 3.1 chỉ ra rằng thơi gian thực hiên cua thuât toan

IFW_FDAR_AdObj cao hơn thơi gian thực hiên cua cac thuât toan IV-FS-FRS-2 và

IARM trên tât ca cac bô dữ liêu. Mặc du viêc tính toan khoang cach mơ trong thuât

toán IFW_FDAR_AdObj đơn gian hơn viêc tính toan đô đo trong cac thuât toan IV-

FS-FRS-2, IARM, ASS-IAR và IFSA, thuât toan IFW_FDAR_AdObj cân nhiều thơi

gian hơn để thực hiên phân lơp. Thơi gian thực hiên cua thuât toan ASS-IAR la nho

nhât vì loai bo cac dữ liêu nhiễu trong tính toan gia tăng.

3.2.5.5 Kết quả so sánh độ chính xác phân lớp và số lượng thuộc tính của tập rút

gọn của thuật toán gia tăng filter-wrapper IFW_FDAR_AdObj với thuật toán IV-

FS-FRS-2, IARM, ASS-IAR, IFSA

Kết qua cua đô chính xac phân lơp va số lương thuôc tính cua tâp rut gon

đươc trình bay trong Bang 3.7. Theo kết qua nay, số lương thuôc tính cua tâp rut gon

tai mỗi bươc tăng dân, thuât toan filter-wrapper IFW_FDAR_AdObj đề xuât có số

lương thuôc tính cua tâp rut gon nho hơn nhiều cac thuât toan IV-FS-FRS-2, IARM,

ASS-IAR và IFSA. Đồng thơi, tính chính xac va tính khai quat hóa cua tâp luât phân

lơp trên tâp rut gon cua thuât toan IFW_FDAR_AdObj tốt hơn cac thuât toan IV-FS-

FRS-2, IARM, ASS-IAR va IFSA. Hơn nữa, vơi viêc chon tâp rut gon có đô chính

xac cao nhât trong giai đoan wrapper, đô chính xac phân lơp cua thuât toan

Page 75: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

65

IFW_FDAR_AdObj cao hơn cac thuât toan IV-FS-FRS-2, IARM, ASS-IAR và IFSA

trên tât ca cac bô dữ liêu. Đô chính xac phân lơp cua thuât toan IV-FS-FRS-2, IARM

theo tiếp cân tâp thô mơ cao hơn cac thuât toan ASS-IAR, IFSA theo tiếp cân tâp thô

truyền thống.

Vơi mỗi bô dữ liêu, chung ta thây rằng, đô chính xac phân lơp không tăng khi

bổ sung bô dữ liêu gia tăng. Điều nay la do có môt vai đối tương nhiễu trong bô dữ

liêu gia tăng lam giam đô chính xac phân lơp cua thuât toan hoc.

Bảng 3.7 Độ chính xác phân lớp và số lượng thuộc tính tập rút gọn của các

thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2, IARM, ASS-IAR và IFSA

(Gia trị tô đâm trên mỗi hang la gia trị tốt nhât trên bô dữ liêu đó)

Stt Bộ dữ

liệu

Dữ

liệu

gốc,

dữ

liệu

gia

tăng

IFW-FDAR-

AdObj IV-FS-FRS-2 IARM ASS-IAR IFSA

B

Độ

chính

xác

B

Độ

chính

xác

B

Độ

chính

xác

B

Độ

chính

xác

B

Độ

chính

xác

1 Libra

U0 7 0.546 ±

0.028 34

0.518 ±

0.037 33

0.508 ±

0.028 29

0.492

±

0.021

30

0.496

±

0.016

U1 8 0.594 ±

0.032 38

0.556 ±

0.026 36

0.564 ±

0.037 32

0.524

±

0.042

33

0.528

±

0.023

U2 8 0.594 ±

0.032 42

0.580 ±

0.019 41

0.588 ±

0.028 36

0.556

±

0.017

37

0.542

±

0.036

U3 9 0.649 ±

0.028 46

0.621 ±

0.034 44

0.632 ±

0.016 39

0.602

±

0.028

39

0.598

±

0.029

U4 9 0.649 ±

0.028 48

0.628 ±

0.028 47

0.614 ±

0.038 42

0.576

±

0.041

42

0.565

±

0.018

U5 10 0.582 ±

0.076 51

0.502 ±

0.020 48

0.517 ±

0.014 45

0.498

±

0.024

45

0.496

±

0.012

2 WDBC

U0 4 0.889 ±

0.018 18

0.886 ±

0.043 12

0.852 ±

0.028 11

0.846

±

0.028

12

0.836

±

0.016

U1 4 0.889 ±

0.018 18

0.886 ±

0.043 12

0.852 ±

0.028 11

0.846

± 12

0.836

±

Page 76: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

66

0.028 0.016

U2 5 0.841 ±

0.025 20

0.824 ±

0.032 14

0.849 ±

0.034 12

0.818

±

0.032

13

0.812

±

0.018

U3 5 0.841 ±

0.025 20

0.824 ±

0.032 14

0.849 ±

0.034 12

0.818

±

0.032

13

0.812

±

0.018

U4 6 0.932 ±

0.056 23

0.885 ±

0.018 15

0.908 ±

0.019 14

0.872

±

0.029

15

0.862

±

0.022

U5 6 0.932 ±

0.056 24

0.895 ±

0.012 16

0.912 ±

0.014 15

0.886

±

0.025

16

0.874

±

0.017

3 Horse

U0 4 0.765 ±

0.048 8

0.712 ±

0.028 9

0.706 ±

0.032 7

0.705

±

0.012

8

0.702

±

0.026

U1 4 0.765 ±

0.048 8

0.712 ±

0.028 9

0.706 ±

0.032 7

0.705

±

0.012

8

0.702

±

0.026

U2 4 0.765 ±

0.048 9

0.708 ±

0.016 10

0.701 ±

0.024 8

0.695

±

0.028

9

0.693

±

0.021

U3 5 0.806 ±

0.052 10

0.769 ±

0.028 11

0.758 ±

0.036 9

0.742

±

0.036

10

0.722

±

0.037

U4 5 0.806 ±

0.052 11

0.795 ±

0.037 11

0.758 ±

0.036 10

0.758

±

0.024

10

0.722

±

0.037

U5 5 0.806 ±

0.052 12

0.788 ±

0.048 12

0.744 ±

0.023 11

0.742

±

0.018

12

0.718

±

0.024

4 Heart

U0 3 0.768 ±

0.064 6

0.744 ±

0.052 7

0.726 ±

0.038 6

0.712

±

0.028

7

0.706

±

0.025

U1 3 0.768 ±

0.064 7

0.758 ±

0.026 8

0.738 ±

0.018 7

0.728

±

0.019

8

0.719

±

0.019

U2 4 0.864 ±

0.048 7

0.758 ±

0.026 8

0.738 ±

0.018 7

0.728

±

0.019

8

0.719

±

0.019

U3 4 0.864 ±

0.048 8

0.815 ±

0.052 9

0.806 ±

0.047 8

0.764

±

0.028

9

0.745

±

0.024

U4 4 0.864 ±

0.048 8

0.815 ±

0.052 10

0.798 ±

0.049 8

0.764

± 10

0.726

±

Page 77: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

67

0.028 0.021

U5 5 0.812 ±

0.072 10

0.766 ±

0.058 11

0.772 ±

0.014 9

0.738

±

0.039

10

0.726

±

0.036

5 Credit

U0 3 0.802 ±

0.048 8

0.786 ±

0.027 8

0.764 ±

0.027 7

0.684

±

0.018

7

0.692

±

0.026

U1 3 0.802 ±

0.048 8

0.786 ±

0.027 8

0.764 ±

0.027 7

0.684

±

0.018

7

0.692

±

0.026

U2 4 0.865 ±

0.026 9

0.798 ±

0.035 9

0.792 ±

0.026 8

0.696

±

0.029

8

0.708

±

0.032

U3 4 0.865 ±

0.026 10

0.839 ±

0.029 11

0.818 ±

0.034 9

0.789

±

0.036

10

0.782

±

0.036

U4 4 0.865 ±

0.026 11

0.806 ±

0.048 12

0.802 ±

0.022 10

0.743

±

0.024

11

0.736

±

0.027

U5 4 0.865 ±

0.026 13

0.828 ±

0.014 14

0.826 ±

0.014 10

0.743

±

0.024

11

0.736

±

0.027

6 German

U0 3 0.725 ±

0.026 6

0.706 ±

0.018 6

0.706 ±

0.018 5

0.684

±

0.029

5

0.695

±

0.028

U1 5 0.768 ±

0.026 8

0.748 ±

0.029 8

0.748 ±

0.029 7

0.705

±

0.032

6

0.714

±

0.019

U2 5 0.768 ±

0.026 8

0.748 ±

0.029 8

0.748 ±

0.029 8

0.702

±

0.026

8

0.709

±

0.019

U3 6 0.716 ±

0.028 9

0.642 ±

0.038 9

0.642 ±

0.038 9

0.622

±

0.037

9

0.615

±

0.024

U4 6 0.716 ±

0.028 10

0.696 ±

0.024 10

0.696 ±

0.024 9

0.622

±

0.037

9

0.615

±

0.033

U5 6 0.716 ±

0.028 12

0.688 ±

0.032 11

0.690 ±

0.015 10

0.618

±

0.018

10

0.602

±

0.022

7 Cmc

U0 3 0.692 ±

0.012 6

0.512 ±

0.027 6

0.505

±0.038 5

0.502

±

0.017

5

0.504

±

0.026

U1 3 0.692 ±

0.012 7

0.586 ±

0.048 7

0.576 ±

0.042 6

0.543

± 6

0.552

±

Page 78: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

68

0,45

0,5

0,55

0,6

0,65

U0 U1 U2 U3 U4 U5

Độ

ch

ính

xác

ph

ân lớ

p

Các tập đối tượng của dữ liệu Libra

IFW-FDAR-AdObj

IV-FS-FRS-2

IARM

ASS-IAR

IFSA

0.028 0.037

U2 3 0.692 ±

0.012 7

0.586 ±

0.048 7

0.576 ±

0.042 6

0.543

±

0.028

6

0.552

±

0.037

U3 4 0.658 ±

0.072 8

0.502 ±

0.035 8

0.502 ±

0.029 7

0.498

±

0.036

7

0.492

±

0.023

U4 4 0.658 ±

0.072 8

0.502 ±

0.035 8

0.502 ±

0.029 7

0.498

±

0.036

7

0.492

±

0.023

U5 4 0.658 ±

0.072 9

0.489 ±

0.042 9

0.482 ±

0.012 8

0.476

±

0.029

8

0.469

±

0.024

8 Wave

U0 5 0.785 ±

0.016 11

0.694 ±

0.036 13

0.682 ±

0.015 10

0.646

±

0.026

11

0.652

±

0.027

U1 6 0.794 ±

0.025 13

0.716 ±

0.012 14

0.706 ±

0.011 12

0.695

±

0.038

13

0.702

±

0.034

U2 6 0.816 ±

0.017 13

0.716 ±

0.012 16

0.765 ±

0.032 12

0.695

±

0.038

13

0.704

±

0.029

U3 7 0.806 ±

0.048 14

0.764 ±

0.043 16

0.728 ±

0.036 14

0.723

±

0.026

14

0.726

±

0.029

U4 7 0.811 ±

0.016 15

0.786 ±

0.028 18

0.732 ±

0.018 15

0.726

±

0.017

15

0.716

±

0.017

U5 8 0.812 ±

0.022 17

0.784 ±

0.016 21

0.702 ±

0.024 17

0.701

±

0.029

17

0.702

±

0.028

Hình 3.2a. Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Libra

Page 79: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

69

0,7

0,75

0,8

0,85

0,9

U0 U1 U2 U3 U4 U5

Đô

chín

h x

ac p

hân

p

Cac tâp đối tương cua dữ liêu Heart

IFW-FDAR-AdObj

IV-FS-FRS-2

IARM

ASS-IAR

IFSA

Hình 3.2.b Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu WDBC

Hình 3.2.c Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Horse

Hình 3.2.d Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Heart

0,65

0,7

0,75

0,8

0,85

U0 U1 U2 U3 U4 U5

Đô

chín

h x

ac p

hân

p

Cac tâp đối tương cua dữ liêu Horse

IFW-FDAR-AdObj

IV-FS-FRS-2

IARM

ASS-IAR

IFSA

Page 80: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

70

0,6

0,65

0,7

0,75

0,8

U0 U1 U2 U3 U4 U5

Đô

chín

h x

ac p

hân

p

Cac tâp đối tương cua dữ liêu Germen

IFW-FDAR-AdObj

IV-FS-FRS-2

IARM

ASS-IAR

IFSA

0,45

0,5

0,55

0,6

0,65

0,7

0,75

U0 U1 U2 U3 U4 U5

Đô

chín

h x

ac p

hân

p

Cac tâp đối tương cua dữ liêu Cmc

IFW-FDAR-AdObj

IV-FS-FRS-2

IARM

ASS-IAR

IFSA

Hình 3.2.e Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Credit

Hình 3.2.f Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Germen

Hình 3.2.g Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Cmc

Page 81: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

71

Hình 3.2.h Độ chính xác phân lớp của các thuật toán trên bộ dữ liệu Wave

Hình 3.2 Đô chính xac phân lơp của các thuật toán IFW_FDAR_AdObj, IV-FS-FRS-2

IARM, ASS-IAR và IFSA

3.3. Thuật toán gia tăng fifter-wrapper tìm tập rút gọn khi loại bỏ tập đối tượng

Tiếp theo, chúng tôi trình bày thuât toán filter-wrapper tìm tâp rút gon sử dụng

khoang cách mơ khi loai bo tâp đối tương theo hương tiếp cân tính toan gia tăng.

Trươc hết, chúng tôi xây dựng các công thức câp nhât khoang cách mơ khi loai bo môt

đối tương.

3.3.1. Cập nhật khoảng cách mờ khi loại bỏ một đối tượng

Mệnh đề 3.4: Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x và R là một

quan hệ tương đương mờ được xác định trên miền giá trị của tập thuộc tính điều

kiện. Giả sử đối tượng kx U bị loại khỏi U. Khi đó, công thức tính khoảng cách mờ

như sau:

2

2

FPD Φ ,Φ

2FPD Φ ,Φ

1 1

kC C DU x

U C C D k k kC C D

R R

nR R x x x

n n

(3.7)

Với FPD Φ ,Φ ,FPD Φ ,Φk

U C C D C C DU xR R R R

tương ứng là khoảng

cách mờ trên các tập đối tượng , kU U x .

Chứng minh: Gia sử rằng ,k

U C CU xM R M R

tương ứng la ma trân tương

Page 82: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

72

đương mơ cua CR trên  U và kU x . Khi đó, ta có:

2 1,

1FPD Φ ,Φ

1k

n

C C D i i iU x C C Di i kR R x x x

n

1 1 1 1 1 12

1 1 1

1

1

...

k k kC C D C C D

k k k n n nC C D C C D

x x x x x xn

x x x x x x

1, 1, 1, , , ,1, 1,

2

, , ,1,

min , ... ,1

1 min ,

n n

i i i n i n i n ii i k i i k

n

k i k i k ii i k

m m d m min m d

n m m d

1, 1, 1, , , ,1 1,

2

, , ,1

min , ... min ,1

1 2* min ,

n n

i i i n i n i n ii i

n

k i k i k ii

m m d m m d

n m m d

2

2

1*FPD Φ ,Φ 2*

1U C C D k k kC C D

n R R x x xn

2

2

2FPD Φ ,Φ

1 1U C C D k k kC C D

nR R x x x

n n

Ví dụ 3.3. Cho bang quyết định ,DS U C D vơi

1 2 3 4 5 6 1 2 3 4 5 6, u ,u , ,u ,u , ,c ,c ,c ,c ,cU u u C c

Bảng 3.8 Bảng quyết định của Ví dụ 3.3

U c1 c2 c3 c4 c5 c6 D

u1 0.8 0.2 0.6 0.4 1 0 0

u2 0.8 0.2 0 0.6 0.2 0.8 1

u3 0.6 0.4 0.8 0.2 0.6 0.4 0

u4 0 0.4 0.6 0.4 0 1 1

u5 0 0.6 0.6 0.4 0 1 1

u6 0 0.6 0 1 0 1 0

Luân án sử dụng quan hê tương đương mơ aR trên thuôc tính a C như sau:

, 1 ,a i j i j i j

u u a u a u u u UR

vơi ,i ju u U

Từ đó, tính các ma trân tương đương mơ lân lươt:

Page 83: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

73

1

1 1 0.8 0.2 0.2 0.2

1 1 0.8 0.2 0.2 0.2

0.8 0.8 1 0.4 0.4 0.4( )

0.2 0.2 0.4 1 1 1

0.2 0.2 0.4 1 1 1

0.2 0.2 0.4 1 1 1

cM R

, 2

( )

1 1

1 1 0.8 0.6 0.6

0.8 0.8 1 1 0.8 0.8

0.8 0.8 1 1 0.8 0.8

0.6 0.6 0.8 0.8 1 1

0.6 0.6 0.8 0.

0.8 0.8 0.6 0.6

0.8

8 1 1

cM R

3

( )

0.4 1 1

0.4 0.2 0.4 0.4 1

0.8

1 0.4 0

1 0.8 0.4

1

0

1.8 1 0.4

.

1 0.4

.

0.8 1 0.4

0.4 1 .

0.8 0 2 1 0 8 0.2

1

0. 142 0.4

cM R

, 4

( )

0.8 1 1

0.8 0.6 0.6

0.8 0.8

1 0.8 0.8 1 0.4

1 0.8 0.8 1 0.4

0.4 0.6 0.2 0

1 0.8 0.4

1 0.8 0.8

0.6 1 0.8 0.2

1

1

.4 40. 1

cM R

5

( ) ,

1 0 0

1

1 0.4

0 1

0.2 0.

0

6 0

0.2 0.6 0.8 0.8 0.8

0.6 0.6 0.4 0.4

0.8 0.4 1 1

0. 1 1

1 1

8 0.4 1

0 0.8 0.4 1

cM R

6

( )

0.2 0.6

0.2 0.6 0.

4

8 0.8

0.6 0.

0

6 0.4

0.

1

8 0.

1 0 0 0

0.8

1 0.4 0.4

14 1 1

0.8 0.

1

0 1 1

1

4 1

00 ..8 10

cM R

0.2 0.6

0.2 0.2 0.2 0.2 0.2

0.6 0.4 0.4 0.2( )

0.4

1 0 0 0

1

0.2

.

1

0 0.2 1 0.4

0 0.

0.8

0.2 0

4

4 0.8 1

0 0.2 0.2 0.4 1

.4

0

CRM

,

0 1 1

0 0 1 1 0

1 0

0

0

0 0 1( )

1

0

0 1

1

1 0

1

1

0

1 0

0

1

1

1

1

0

1 0 0

DRM

Khoang cách mơ giữa hai tâp thuôc tính C và D cua bang quyết định

,DS U C D đươc tính bằng công thức không gia tăng:

21

4.4Φ ,Φ

36

1C C D k k kC C

n

U

iD

FPDn

R R x x x

Tiếp theo, ta tiến hành loai bo 1 đối tương khoi bang quyết định

Page 84: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

74

,DS U C D .

Bảng 3.9 Bảng quyết định sau khi loại bỏ 1 đối tượng của Ví dụ 3.3

U c1 c2 c3 c4 c5 c6 D

u1 0.8 0.2 0.6 0.4 1 0 0

u2 0.8 0.2 0 0.6 0.2 0.8 1

u3 0 0.4 0.6 0.4 0 1 1

u4 0 0.6 0.6 0.4 0 1 1

u5 0 0.6 0 1 0 1 0

1)Tính khoảng cách mờ theo công thức gia tăng cho bởi Mệnh đề 3.4

Cac ma trân tương đương mơ khi loai bo 1 đối tương

1

1 1 0.2 0.2 0.2

1 1 0.2 0.2 0.2

( ) 0.2 0.2 1 1 1

0.2 0.2 1 1 1

0.2 0.2 1 1 1

cM R

, 2

1 1 0.8 0.6 0.6

1 1 0.8 0.6 0.6

( ) 0.8 0.8 1 0.8 0.8

0.6 0.6 0.8 1 1

0.6 0.6 0.8 1 1

cM R

3

1 0.4 1 1 0.4

0.4 1 0.4 0.4 1

( ) 1 0.4 1 1 0.4

1 0.4 1 1 0.4

0.4 1 0.4 0.4 1

cM R

, 4

1 0.8 1 1 0.6

0.8 1 1 0.8 0.6

( ) 1 1 1 1 0.4

1 0.8 1 1 0.4

0.6 0.6 0.4 0.4 1

cM R

5

1 0.2 0 0 0

0.2 1 0.8 0.8 0.8

( ) 0 0.8 1 1 1

1 0.8 1 1 1

0 0.8 1 1 1

cM R

, 6

1 1 0.8 0.6 0.6

1 1 0.8 0.6 0.6

( ) 0.8 0.8 1 0.8 0.8

0.6 0.6 0.8 1 1

0.6 0.6 0.8 1 1

cM R

1 0.2 0 0 0

0.2 1 0.2 0.2 0.2

0 0.2 1 0.8 0.4

0 0.2 0.8 1 0.4

0 0.2 0.4 0.4 1

( )CRM

,

1 0 0 0 1

0 1 1 1 0

0 1 1 1 0

0 1 1 1 0

1 0 0 0 1

( )DRM

Page 85: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

75

2

2

FPD Φ ,Φ

2FPD Φ ,Φ

1 1

2.4

25

kC C DU x

U C C D k k kC C D

R R

nR R x x x

n n

2)Tính khoảng cách mờ trên toàn bộ bảng quyết định theo công thức không gia

tăng

3

2.4FPD Φ ,Φ

25C C DU u

R R

Như vây, kết qua tính toán khoang cách mơ bởi công thức gia tăng cua Mênh đề

3.4 và công thức không gia tăng khi loai bo 1 đối tương trên toàn bô bang quyết định

la như nhau, điều này chứng minh tính đung đắn cua công thức gia tăng.

3.3.2. Cập nhật khoảng cách mờ khi loại bỏ tập đối tượng

Trên cơ sở Mênh đề 3.4, chúng tôi xây dựng công thức câp nhât khoang cách

mơ trong trương hơp loai bo tâp đối tương bởi Mênh đề 3.5 như sau:

Mệnh đề 3.5. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x và R là một

quan hệ tương đương mờ. Giả sử tập đối tượng gồm s phần tử 1 1, ,...,k k k sU x x x

bị loại khỏi U, s n . Ma trận tương đương mờ và ma trận tương đương trên C và D

tương ứng được xác định bởi

ij ij,U U C U U Dn s n s n s n s

M R m M R d .

Khi đó, công thức cập nhật khoảng cách mờ như sau:

2

1

2 0

FPD Φ ,Φ

2FPD Φ ,Φ

U U C C D

s

U C C D k i k i k i iC C Di

R R

nR R x x x

n s n s

(3.8)

Vơi i , , ,0min ,

i

k i k j k i k j k i k jjm m d

Chứng minh: Ký hiêu 1 2FPD ,FPD ,...,FPDs tương ứng la khoang cach mơ khi

loai bo lân lươt cac đối tương 1 1, ,...,k k k sx x x khoi U va 0FPD là khoang cach mơ trên

tâp đối tương ban đâu U. Áp dụng Mênh đề 3.4, ta có:

Page 86: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

76

2

1 0 , , ,2

2FPD FPD min ,

1 1k k k k k k k k kC C D

nx x x m m d

n n

2

2 1

1 1 1 1, 1, 1, 1, 1 1, 1 1, 12

1FPD FPD

2

2min , min ,

2k k k k k k k k k k k k k k kC C D

n

n

x x x m m d m m dn

2

2 0 , , ,2

1 1 1 1, 1, 1, 1, 1 1, 1 1, 1

2FPD FPD min ,

2 2

min , min ,

k k k k k k k k kC C D

k k k k k k k k k k k k k k kC C D

nx x x m m d

n n

x x x m m d m m d

Tính tương tự như vây, ta đươc:

21

0 2 0

, , ,0

2FPD FPD

min ,

k i k i k iC C Ds

s i i

k i k j k i k j k i k jj

x x xn

n s n s m m d

Vì vây,

21

0 2 0

2FPD FPD

s

s k i k i k i iC C Di

nx x x

n s n s

Vơi , , ,0min ,

i

i k i k j k i k j k i k jjm m d

Ví dụ 3.4 Cho bang quyết định ,DS U C D , vơi

1 2 3 4 5 6 1 2 3 4 5 6, u ,u , ,u ,u , ,c ,c ,c ,c ,cU u u C c

Bảng 3. 10 Bảng quyết định của Ví dụ 3.4

U c1 c2 c3 c4 c5 c6 D

u1 0.8 0.2 0.6 0.4 1 0 0

u2 0.8 0.2 0 0.6 0.2 0.8 1

u3 0.6 0.4 0.8 0.2 0.6 0.4 0

u4 0 0.4 0.6 0.4 0 1 1

u5 0 0.6 0.6 0.4 0 1 1

u6 0 0.6 0 1 0 1 0

Luân án sử dụng quan hê tương đương mơ aR trên thuôc tính a C như sau:

, 1 ,a i j i j i j

u u a u a u u u UR vơi ,i ju u U

Từ đó, tính các ma trân tương đương mơ lân lươt:

Page 87: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

77

1

1 1 0.8 0.2 0.2 0.2

1 1 0.8 0.2 0.2 0.2

0.8 0.8 1 0.4 0.4 0.4( )

0.2 0.2 0.4 1 1 1

0.2 0.2 0.4 1 1 1

0.2 0.2 0.4 1 1 1

cM R

, 2

( )

1 1

1 1 0.8 0.6 0.6

0.8 0.8 1 1 0.8 0.8

0.8 0.8 1 1 0.8 0.8

0.6 0.6 0.8 0.8 1 1

0.6 0.6 0.8 0.

0.8 0.8 0.6 0.6

0.8

8 1 1

cM R

3

( )

0.4 1 1

0.4 0.2 0.4 0.4 1

0.8

1 0.4 0

1 0.8 0.4

1

0

1.8 1 0.4

.

1 0.4

.

0.8 1 0.4

0.4 1 .

0.8 0 2 1 0 8 0.2

1

0. 142 0.4

cM R

, 4

( )

0.8 1 1

0.8 0.6 0.6

0.8 0.8

1 0.8 0.8 1 0.4

1 0.8 0.8 1 0.4

0.4 0.6 0.2 0

1 0.8 0.4

1 0.8 0.8

0.6 1 0.8 0.2

1

1

.4 40. 1

cM R

5 6

( ) ( )

0.2 0.6 0 0.2 0.6

0.2 0.6 0.8 0.8 0.8 0.2 0.6 0.8 0.8

0.6 0.6 0.4 0.4 0.6 0.6 0.4

0.8 0.4 1 1 0.8 0.4 1 1

0.8 0.4 1 0.8 0.4 1

0 0.8 0.4 1

1 0 0 1 0 0 0

1 1 0.8

1 0.4 1 0.4 0.4

0 1

10 1

0 1

0 1 1 0 1 1

1 1 0 0.8 4. 1

c cM MR R

,

0.2 0.6 0 1 1

0.2 0.2 0.2 0.2 0.2 0 0 1 1 0

0.6 0.4 0.4 0.2 1 0 0 0 1( ) ( )

0.4 0.8 1 0 1

0.2 0.4 1 0 1 0

0.4 1

1 0 0 0 1 0 0

1 1

0.2 1 1

0 0.2 1 0.4 0 1 0

0 0.4 0.8 1 0 1

0 0.2 0. 1 0 11 02 0.4 0

C DR RM M

Khoang cách mơ giữa hai tâp thuôc tính C và D cua bang quyết định

,DS U C D đươc tính bằng công thức không gia tăng:

21

4.4Φ ,Φ

36

1C C D k k kC C

n

U

iD

FPDn

R R x x x

Tiếp theo, ta tiến hành loai bo tâp đối tương 4 5 6, , ,U u u u khoi bang quyết

định ,DS U C D .

Page 88: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

78

Bảng 3.11 Bảng quyết định sau khi loại bỏ tập đối tượng của Ví dụ 3.4

U 1c 2c

3c 4c

5c 6c D

1u 0.8 0.2 0.6 0.4 1 0 0

2u 0.8 0.2 0 0.6 0.2 0.8 1

3u 0.6 0.4 0.8 0.2 0.6 0.4 0

1)Tính khoảng cách mờ theo công thức gia tăng cho bởi Mệnh đề 3.5

Ta có các ma trân

1 2 3

1 1 0.8 1 1 0.8 1 0.4 0.8

( ) 1 1 0.8 ( ) 1 1 0.8 ( ) 0.4 1 0.2

0.8 0.8 1 0.8 0.8 1 0.8 0.2 1

c c cM R RM M R

4 5 6

1 0.8 0.8 1 0.2 0.6 1 0.2 0.6

( ) 0.8 1 0.8 ( ) 0.2 1 0.6 ( ) 0.2 1 0.6

0.8 0.8 1 0.6 0.6 1 0.2 0.6 1

c c cM R RM M R

1 0.2 0.6 1 0 1

0.2 1 0.2 0 1 0

0.2 0.2 1 1 0 1

( ) ( )C DR RM M

2

1

2 0

FPD Φ ,Φ

2FPD Φ ,Φ

0.8

9

U U C C D

s

U C C D k i k i k i iC C Di

R R

nR R x x x

n s n s

2)Tính khoảng cách mờ trên toàn bộ bảng quyết định theo công thức không gia

tăng

0.8Φ ,Φ

9CU U C DFP R RD

Như vây, kết qua tính toán khoang cách mơ bởi công thức gia tăng cua Mênh đề

3.5 và công thức không gia tăng khi loai bo tâp đối tương trên toàn bô bang quyết định

la như nhau, điều này chứng minh tính đung đắn cua công thức gia tăng.

3.3.3. Thuật toán fifter-wrapper để cập nhật tập rút gọn khi loại bỏ tập đối tượng

Cho bang quyết định ,DS U C D vơi 1 2, ,..., nU x x x và R la môt quan hê

tương đương mơ. Gia sử tâp đối tương gồm s phân tử 1 1, ,...,k k k sU x x x bị loai

Page 89: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

79

khoi U, s n . Ma trân tương đương mơ va ma trân tương đương trên C va D tương

ứng đươc xac định bởi

ij ij,U U C U U Dn s n s n s n s

M R m M R d . Khi đó,

công thức câp nhât khoang cach phân mơ như sau:

Mệnh đề 3.6. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU x x x và R là một

quan hệ tương đương mờ xác định trên miền giá trị của tập thuộc tính điều kiện.

B C là tập rút gọn dựa trên khoảng cách mờ. Giả sử tập đối tượng gồm s phần tử

1 1, ,...,k k k sU x x x bị loại khỏi U , s n . Khi đó ta có:

1) Nếu k iD x d vơi i 0,...,s 1 thì

2

1

2 0

FPD Φ ,Φ

2FPD Φ ,Φ

U U C C D

s

U C C D k i k i k iC C Di

R R

nR R x x x

n s n s

2) Nếu k i k iB Dx x vơi 0,..., 1i s thì .

FPD Φ ,Φ FPD Φ ,ΦU U B B D U U C C DR R R R

Chứng minh. Gia sử

,C B

U U C ij U U B ijn s n s n s n sM R m M R m

tương ứng

là ma trân tương đương mơ trên C và B sau khi loai bo tâp đối tương 𝛥𝑈. Có hai trương

hơp xay ra:

- Nếu k iD x d vơi 0,..., 1i s thì vơi moi 0,..., 1 ;   , , 2i s j i s ta có

, 1 1k i k jd . Do đó, , 1 , 1 , 1min ,C C

n i n j n i n j n i n jm d m . Từ Mênh đề 3.5 ta có công thức (1).

- Nếu k i k iB Dx x vơi moi 0, , 1i s thì k i k i k iC B D

x x x . Khi đó ta có

k i k i k iB D Bx x x và k i k i k iC D C

x x x . Do đó, ta có

0k i k i k iB B Dx x x ,

1

00

s

k i k i k iB B Dix x x

0k i k i k iC C Dx x x ,

1

00

s

k i k i k iC C Dix x x

. Hơn nữa, vơi

0,..., 1 ; ,..., 2i s j i s , có hai công thức

, 1 , 1 , 1 , 1 , 1 , 1min , , min ,B B C C

k i k j k i k j k i k j k i k j k i k j k i k jm d m m d m .

Từ kết qua cua Mênh đề 3.5, ta có:

Page 90: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

80

2

FPD Φ ,Φ FPD Φ ,ΦU U B B D U B B D

nR R R R

n s

(3.9)

2

FPD Φ ,Φ FPD Φ ,ΦU U C C D U C C D

nR R R R

n s

(3.10)

Mặt khac do B la tâp rut gon cua C, ta có

FPD Φ ,Φ FPD Φ ,ΦU B B D U C C DR R R R Từ (3.9) va (3.10) ta có công thức 2).

Dựa trên kết qua cua Mênh đề 3.6, thuât toan filter-wrapper câp nhât tâp rut gon

xâp xỉ có đô chính xac phân lơp tốt nhât sử dụng khoang cach mơ khi loai bo tâp đối

tương U đươc thực hiên như sau:

Page 91: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

81

Algorithm IFW_FDAR_DelObj

Input: Đầu vào

1. Bảng quyết định ,DS U C D với 1 2, ,..., nU x x x , một quan

hệ tương đương mờ R , tập rút gọn B C ;

2. Ma trận tương đương mờ

, ,B C

U B ij U C ij U D ij n nn n n nM R m M R m M R d

3. Tập đối tượng gồm s phần tử bị loại bỏ

1 2 1, ,...,k k k sU x x x ,  s n

Output: Tập rút gọn xấp xỉ bestB của ,  DS U U C D có độ

chính xác phân lớp cao nhất.

1. :T ;

2. Đặt : ;X U

3. For 0 i to 1s do

4. If k i k iB Dx x then : ;k iX X x

5. If X then Return 0B ;

6. Đặt : ;U X s U ;

7. Tính các FPDs ban đầu:

FPD Φ ,Φ ; FPD Φ ,ΦU B B D U C C DR R R R

8. Tính khoảng cách mờ bởi Mệnh đề 3.6 khi loại tập đối

tượng U :

FPD Φ ,Φ ; FPD Φ ,Φ ;U U B B D U U C C DR R R R

// Giai đoạn Fifter, tìm các ứng viên cho tập rút gọn

9. While FPD Φ ,Φ FPD Φ ,ΦU U B B D U U C C DR R R R do

10. Begin

11. For each a B do

12. Begin

13. Tính FPD Φ ,ΦU U B a B a DR R

bởi Mệnh đề

3.6 khi loại bỏ tập đối tượng U ;

14. Tính

: FPD Φ ,Φ FPD Φ ,ΦU U U U B B DB a B a B a DSIG a R R R R

;

15. End;

16. Chọn ma B sao cho B m B aa B

SIG a Min SIG a

;

17.   : mB B a ;

18. 0 0  : mB B a ;

Page 92: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

82

19. 0  : ;T T B

20. End;

// Giai đoạn Wrapper tìm tập rút gọn có độ chính xác phân

lớp cao nhất

21. Đặt :t T // 0 1 0 1 2 0 1 2, , ,..., , ,..., tT B a B a a B a a a ;

22. Đặt 1 0 1 2 0 1 2 0 1 2: ; : , ;...; : , ,...,t tT B a T B a a T B a a a ;

23. For j:= 1 to t do

24. Tính độ chính xác phân lớp trên jT bằng một bộ phân

lớp sử dụng phương pháp 10-fold;

25. :best joB T với joT có độ chính xác phân lớp cao nhất;

Return bestB ;

3.3.4. Phân tích độ phức tạp của thuật toán

Đô phức tâp cua thuât toan IFW_FDAR_DelObj đươc tính như bên dươi. Gia

sử D d . Đô phức tap cua vòng lặp trong câu lênh 3 (For) la *O U U .

Trong trương hơp tốt nhât, thuât toan kết thuc ở câu lênh 5 (khi tâp rut gon

không thay đổi). Đô phức tap cua thuât toan IFW_FDAR_DelObj là *O U U .

Ngươc lai, đô phức tap cua thuât toan tính khoang cach mơ ở câu lênh 7 la O U . Để

tính đô phức tap cua thuât toan khi loai bo tâp U ra khoi U ở câu lênh 8, đô phức tap

là *O U U . Để tính gia trị cua BSIG a , ta phai tính

FPD Φ ,ΦU U B a B a dR R

. Đô phức tap cua FPD Φ ,ΦU U B a B a dR R

là *O U U . Do đó, đô phức tap cua vòng lặp While la 2* *O B U U va đô

phức tap cua giai đoan fifter trong trương hơp xâu nhât la 2* *O B U U . Gia sử đô

phức tap cua bô phân lơp la O T khi đó đô phức tap cua giai đoan wrapper la

*O B T .

Tóm lai, đô phức tap cua thuât toan IFW_FDAR_DelObj là

2* * *O B U U O B T . Khi ap dụng thuât toan FW_FDBAR trực tiếp vao bang

quyết định vơi U U đối tương, từ kết qua cua phân 2.4 đô phức tap cua

Page 93: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

83

FW_FDBAR là 22*O C U U . Nếu U nho, thuât toan IFW_FDAR_DelObj

tốt hơn thuât toan FW_FDBAR. Nhưng nếu U và B đều lơn, thuât toan

FW_FDBAR tốt hơn thuât toan IFW_FDAR_DelObj.

3.3.5. Thực nghiệm thuật toán

3.3.5.1 Mục tiêu thử nghiệm

Trong phân nay chúng tôi cai đặt thử nghiêm để đanh gia đô chính xac phân

loai cua thuât toan IFW_FDAR_DelObj so vơi cac thuât toan gia tăng dựa trên tâp thô

theo tiếp cân fifter IFSD [36]. IFSD la thuât toan gia tăng rut gon thuôc tính dựa trên

ham phụ thuôc khi loai bo tâp đối tương.

3.3.5.2 Dữ liệu thử nghiệm

Cac thử nghiêm đươc triển khai trên môt số bô dữ liêu mẫu lây từ kho dữ liêu

UCI [59] trong Bảng 3.12. Tât ca dữ liêu mẫu trong Bảng 3.12 la dữ liêu đã đươc rơi

rac, luân an sử dụng quan hê tương đương mơ aR như sau:

1,

0,

i j

a

a x a x

otherwiseR

Vơi ,i jx x U và a C .

Dung bô phân lơp CART để tính toan đô chính xac phân lơp trong giai đoan

wrapper cua thuât toan IFW_FDAR_DelObj. Chúng tôi cũng sử dụng bô phân lơp

CART để tính đô chính xac phân lơp cho cac thuât toan IFW_FDAR_DelObj, IFSD

sau khi rut gon thuôc tính. Đồng thơi sử dụng phương phap kiểm tra chéo 10-fold.

Bảng 3.12 Mô tả dữ liệu khi loại bỏ tập đối tượng

Stt Bộ dữ liệu Số đối tượng Số các thuộc tính

điều kiện Số lớp quyết định

1 Audiology 226 69 24

2 Dermatology 366 34 6

3 Arrhythmia 452 279 16

4 Mfeat-factor 2000 216 10

5 Chess-kr-vs-kp 3196 36 2

6 Satimage 6435 36 6

7 Mushroom 8124 22 2

Page 94: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

84

8 Letter 20000 16 26

Để đanh gia hiêu qua về thơi gian thực hiên va đô chính xac cua thuât toan,

chúng tôi chon xóa ngẫu nhiên 10%, 20%, 30%, 40% đối tương trên mỗi bô dữ liêu

khi xóa cac tâp đối tương ký hiêu tương ứng U1, U2, U3, U4. Dữ liêu ban đâu ký hiêu

là U.

3.3.5.3 Kết quả so sánh thời gian thực hiện của thuật toán IFW_FDAR_DelObj với

thuật toán IFSD

Bang 3.13 so sanh kết qua về thơi gian thực hiên cua thuât toan

IFW_FDAR_DelObj vơi thuât toan IFSD, ma cac côt T1, T2 tương ứng la thơi gian

thực hiên cua IFW_FDAR_DelObj, IFSD. Bang 3.12 chỉ ra rằng thơi gian thực hiên

cua thuât toan IFW_FDAR_DelObj cao hơn thuât toan IFSD trên tât ca cac bô dữ liêu

vì thuât toan IFW_FDAR_DelObj cân nhiều thơi gian để xử lý bô phân lơp.

Bảng 3.13 Thời gian thực hiện của thuật toán IFW_FDAR_DelObj và IFSD

(tính bằng giây)

Stt Bộ dữ liệu Tập đối tượng bị loại T1 T2

1 Audiology

U1 1.15 0.98

U2 1.84 1.36

U3 2.26 1.82

U4 2.98 2.24

2 Dermatology

U1 1.18 1.02

U2 2.16 1.84

U3 2.86 2.26

U4 3.12 2.84

3 Arrhythmia

U1 9.98 7.06

U2 13.26 9.84

U3 18.64 12.16

U4 22.36 15.06

4 Mfeat-factor

U1 28.67 23.16

U2 34.16 28.68

U3 39.08 32.36

U4 48.58 38.64

5 Chess-kr-vs-kp

U1 21.06 18.06

U2 28.65 23.08

U3 34.08 29.16

U4 39.89 33.18

6 Statimage

U1 58.29 51.18

U2 74.28 68.24

U3 79.14 72.06

Page 95: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

85

0

0,5

1

1,5

2

2,5

3

3,5

U1 U2 U3 U4

Thơ

i gia

n t

hự

c hiê

n

Tâp đối tương bị loai

cua Bô dữ liêu Audiology

IFW_FDAR_DelObj

IFSD

U4 86.68 78.85

7 Mushroom

U1 19.26 16.46

U2 24.76 20.08

U3 30.12 24.58

U4 39.08 32.06

8 Letter

U1 116.78 98.06

U2 128.68 112.87

U3 199.46 178.89

U4 228.69 202.65

Page 96: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

86

Hình 3.3 Thời gian thực hiện các thuật toán IFW_FDAR_DelObj và IFSD

3.3.5.4 Kết quả so sánh độ chính xác phân lớp và số lượng thuộc tính tập rút gọn

thu được bởi thuật toán IFW_FDAR_DelObj và thuật toán IFSD

Kết qua cua đô chính xac phân lơp thu đươc bởi IFW_FDAR_DelObj và IFSD

đươc trình bay ở Bảng 3.14 vơi B là số lương thuôc tính cua tâp rut gon, Acc la đô

chính xac phân lơp cua tâp rut gon. Theo kết qua trong bang nay, đô chính xac phân

lơp cua thuât toan IFW_FDAR_DelObj cao hơn thuât toan IFSD trên tât ca cac bô dữ

liêu. Hơn nữa, số thuôc tính trong tâp rut gon cua thuât toan IFW_FDAR_DelObj nho

hơn thuât toan IFSD.

Bảng 3.14 Độ chính xác phân lớp của thuật toán IFW_FDAR_DelObj và IFSD

Stt Bộ dữ liệu RO IFW_FDAR_DelObj IFSD

B Acc B Acc

1 Audiology

U1 10 0.729 ± 0.086 15 0.724 ± 0.058

U2 9 0.710 ± 0.032 14 0.692 ± 0.044

U3 8 0.692 ± 0.037 12 0.687 ± 0.064

U4 8 0.691 ± 0.056 12 0.689 ± 0.042

2 Dermatology

U1 7 0.901 ± 0.024 11 0.894 ± 0.038

U2 6 0.931 ± 0.048 10 0.923 ± 0.062

U3 6 0.931 ± 0.022 10 0.923 ± 0.062

U4 5 0.927 ± 0.054 8 0.912 ± 0.028

3 Arrhythmia

U1 15 0.756 ± 0.058 22 0.745 ± 0.086

U2 13 0.723 ± 0.072 21 0.713 ± 0.072

U3 11 0.739 ± 0.064 19 0.722 ± 0.069

U4 11 0.739 ± 0.027 19 0.722 ± 0.034

4 Mfeat-factor U1 12 0.831 ± 0.064 18 0.782 ± 0.052

Page 97: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

87

U2 12 0.831 ± 0.086 17 0.815 ± 0.083

U3 10 0.822 ± 0.079 15 0.803 ± 0.092

U4 9 0.803 ± 0.064 14 0.798 ± 0.058

5 Chess-kr-vs-kp

U1 18 0.861 ± 0.064 29 0.848 ± 0.073

U2 16 0.844 ± 0.069 28 0.840 ± 0.058

U3 14 0.838 ± 0.018 27 0.831 ± 0.049

U4 14 0.838 ± 0.026 27 0.831 ± 0.049

6 Statimage

U1 10 0.842 ± 0.046 12 0.837 ± 0.069

U2 10 0.843 ± 0.038 12 0.837 ± 0.074

U3 8 0.820 ± 0.025 11 0.815 ± 0.082

U4 8 0.819 ± 0.048 10 0.804 ± 0.078

7 Mushroom

U1 6 0.987 ± 0.026 6 0.983 ± 0.038

U2 5 0.991 ± 0.059 6 0.983 ± 0.069

U3 4 0.972 ± 0.064 5 0.968 ± 0.026

U4 4 0.972 ± 0.025 5 0.968 ± 0.041

8 Letter

U1 8 0.857 ± 0.047 10 0.842 ± 0.064

U2 8 0.860 ± 0.058 9 0.852 ± 0.073

U3 7 0.835 ± 0.019 8 0.822 ± 0.028

U4 6 0.829 ± 0.026 8 0.822 ± 0.034

Page 98: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

88

Hình 3.4 Số lượng thuộc tính tập rút gọn của các thuật toán IFW_FDAR_DelObj

và IFSD

3.4. Kết luận Chương 3

Trong Chương 3, luân án trình bày kết qua xây dựng các công thức gia tăng tính

khoang cách mơ đề xuât ở Chương 2 trong trương hơp bổ sung, loai bo tâp đối tương.

Dựa vào các công thức gia tăng đươc xây dựng, luân án trình bày kết qua đề xuât cua

hai thuât toan gia tăng tìm tâp rút gon cua bang quyết định theo tiếp cân filter-wrapper:

1) Thuât toan gia tăng filter-wrapper IFW_FDAR_AdObj tìm tâp rút gon trong

trương hơp bổ sung tâp đối tương.

2) Thuât toan gia tăng filter-wrapper IFW_FDAR_DelObj tìm tâp rút gon trong

trương hơp loai bo tâp đối tương.

Các thuât toan gia tăng đề xuât sử dụng đô đo khoang cách mơ nên hiêu qua hơn

các thuât toan gia tăng khac sử dụng quan hê phân biêt giữa các cặp đối tương trong

tâp thô mơ. Kết qua thử nghiêm trên các tâp dữ liêu mẫu từ kho dữ liêu UCI cho

những kết luân quan trong:

Page 99: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

89

Số thuôc tính trong tâp rut gon cua thuât toan IFW_FDAR_AdObj nho hơn thuât

toán IV-FS-FRS-2 [54], IARM [18], ASS-IAR [40] và IFSA [36]. Hơn nữa thuât toan

IFW_FDAR_AdObj có đô chính xac phân lơp cao hơn cac thuât toan IV-FS-FRS-2,

IARM, ASS-IAR và IFSA.

Số thuôc tính trong tâp rút gon cua thuât toán IFW_FDAR_DelObj nho hơn thuât

toán IFSD [36] và thuât toán IFW_FDAR_DelObj có đô chính xác phân lơp cao hơn

thuât toán IFSD.

Về thơi gian thực hiên cua các thuât toan gia tăng filter-wrapper rút gon thuôc

tính trong trương hơp bổ sung, loai bo tâp đối tương đề xuât đều cao hơn so vơi các

thuât toan gia tăng filter truyền trống trên tât ca các tâp dữ liêu, nguyên nhân là các

thuât toan gia tăng kết hơp filter-wrapper đều mât thêm chi phí thơi gian thực hiên bô

phân lơp trong giai đoan wrapper, đây cũng la nhươc điểm chung cua các thuât toán

theo tiếp cân filter-wrapper. Tuy nhiên, vơi mục tiêu giam thiểu đô phức tap va tăng

đô chính xác cua tâp luât phân lơp thì chi phí về thơi gian tìm tâp rút gon cua thuât

toan đề xuât là châp nhân đươc.

Page 100: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

90

CHƯƠNG 4. THUẬT TOÁN GIA TĂNG FIFTER-WRAPPER

TÌM TẬP RÚT GỌN KHI BỔ SUNG, LOẠI BỎ TẬP THUỘC TÍNH

Tiếp nối sự thành công cua thuât toan gia tăng filter-wrapper sử dụng khoang

cách mơ trong chương trươc, Chương 4 cua luân án tiếp tục đề xuât hai thuât toán gia

tăng filter-wrapper sử dụng công thức tính khoang cách mơ rút gon thuôc tính trong

trương hơp bổ sung, loai bo tâp thuôc tính. Dựa trên công thức gia tăng câp nhât

khoang cách mơ đề xuât, chương này xây dựng các thuât toan gia tăng rut gon thuôc

tính cua bang quyết định trong trương hơp bổ sung, loai bo tâp thuôc tính. Thử nghiêm

trên môt số bô dữ liêu cho thây, thuât toán đề xuât hiêu qua hơn thuât toán gia tăng

filter truyền thống theo tiêu chí đanh gia đô chính xác phân lơp dữ liêu và thơi gian

thực hiên cua thuât toán.

4.1. Mở đầu

Trong xu thế dữ liêu lơn (Big data) hiên nay, cac bang quyết định ngày càng có

số thuôc tính rât lơn, ví dụ cac bang dữ liêu trong lĩnh vực tin sinh hoc có hang triêu

thuôc tính. Hơn nữa, cac bang quyết định luôn luôn thay đổi, câp nhât vơi cac tình

huống như bổ sung va loai bo tâp đối tương, bổ sung va loai bo tâp thuôc tính, gia trị

tâp đối tương, tâp thuôc tính thay đổi. Trong đó, trương hơp bổ sung, loai bo tâp thuôc

tính xuât hiên ngay cang phổ biến. Ví dụ bai toan chẩn đoan bênh trong lĩnh vực y tế,

cac triêu chứng lâm sang đươc xem như cac thuôc tính ban đâu để bac sĩ chẩn đoan

bênh. Sau đó, cac chỉ số xét nghiêm đươc xem như cac thuôc tính tiếp theo liên tục

đươc bổ sung, câp nhât nhằm hỗ trơ bac sĩ trong viêc nâng cao đô chính xac chẩn

đoan. Để xây dựng mô hình phân lơp hiêu qua, ta cân giai quyết bai toan rut gon thuôc

tính trên cac bang quyết định kích thươc lơn va thay đổi. Cac phương phap rut gon

thuôc tính theo tiếp cân truyền thống trên cac bang quyết định như vây gặp hai thach

thức. Thứ nhât, vơi cac bang quyết định có kích thươc lơn, viêc thực hiên cac thuât

toan tìm tâp rut gon gặp khó khăn về không gian lưu trữ va tốc đô tính toan. Thứ hai,

vơi cac bang quyết định thay đổi, câp nhât, cac thuât toan nay phai tính toan lai tâp rut

gon trên toan bô bang quyết định sau khi thay đổi, do đó chi phí về thơi gian tính toan

tăng lên đang kể. Để giai quyết hai thach thức trên, cac nha nghiên cứu đề xuât hương

tiếp cân tính toan gia tăng tìm tâp rut gon. Cac thuât toan gia tăng chỉ câp nhât lai tâp

rut gon trên phân dữ liêu bị thay đổi ma không tính lai tâp rut gon trên toan bô bang

Page 101: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

91

quyết định ban đâu. Do đó, chung giam thiểu đang kể thơi gian thực hiên. Hơn nữa,

cac thuât toan gia tăng có thể thực hiên đươc trên cac bang quyết định kích thươc lơn

bằng giai phap chia nho bang quyết định thanh nhiều phân, tâp rut gon đươc tính khi

lân lươt bổ sung từng phân.

Hương tiếp cân tính toan gia tăng tìm tâp rut gon cua bang quyết định đã va

đang thu hut sự quan tâm cua cac nha nghiên cứu trong suốt hơn thâp kỷ qua. Theo

tiếp cận lý thuyết tập thô truyền thống cua của Pawlak [19] và các mô hình tập thô mở

rộng, cac nha nghiên cứu đã đề xuât nhiều thuât toan gia tăng tìm tâp rut gon cua bang

quyết định thay đổi. Vơi trương hơp bổ sung, loai bo tâp đối tương, môt số thuât toan

gia tăng đề xuât sử dụng khoang cach [20, 21], hat thông tin [22, 23, 24, 25, 26, 27],

ma trân phân biêt [28, 29, 30, 31, 32], miền dương [33, 34, 35], ham thuôc [36], quan

hê không phân biêt đươc [37], entropy thông tin [38], đô đo không nhât quan [39], lựa

chon mẫu kích hoat [40]. Vơi trương hơp bổ sung, loai bo tâp thuôc tính, môt số thuât

toan gia tăng tìm tâp rut gon đã đươc đề xuât sử dụng miền dương [41], entropy thông

tin [42], ma trân phân biêt [43, 44, 45], quan hê không phân biêt [46, 47], khoang cach

[48], đô phụ thuôc cua thuôc tính [49], hat tri thức [50, 51].

Theo tiếp cận tập thô mờ [1], trong mây năm gân đây môt số thuât toan gia tăng

tìm tâp rut gon cua bang quyết định đã đươc đề xuât vơi cac trương hơp: bổ sung va

loai bo tâp đối tương [52, 53, 54, 55, 56], bổ sung va loai bo tâp thuôc tính [57]. Với

trường hợp bổ sung, loại bỏ tập đối tượng, Liu va cac công sự [52] xây dựng công

thức gia tăng tính đô phụ thuôc mơ va đề xuât thuât toan giăng FIAT tìm tâp rut gon

khi bổ sung tâp đối tương. Yang va cac công sự [53] xây dựng công thức gia tăng tính

quan hê phân biêt, trên cơ sở đó xây dựng thuât toan gia tăng IARM tìm tâp rut gon

khi bổ sung tâp đối tương. Yang va cac công sự [54] xây dựng cơ chế câp nhât quan hê

phân biêt va đề xuât hai thuât toan IV-FS-FRS-1 và IV-FS-FRS-2 tìm tâp rut gon trong

trương hơp bổ sung tâp đối tương. Trong Chương 2 cua luân an nay đã xây dựng công

thức gia tăng tính khoang cach mơ, trên cơ sở đó trong Chương 3 đã đề xuât hai thuât

toan gia tăng filter – wrapper tìm tâp rut gon: thuât toan IFW_FDAR_AdObj trong

trương hơp bổ sung tâp đối tương va thuât toan IFW_FDAR_DelObj trong trương hơp

loai bo tâp đối tương. Zhang va cac công sự [56] đề xuât thuât toan gia tăng AIFWAR

tìm tâp rut gon sử dụng entropy có điều kiên mở rông trong trương hơp bổ sung tâp đối

tương. Ni va cac công sự [57] đưa ra khai niêm tâp đối tương chính (key instance set),

Page 102: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

92

trên cơ sở đó xây dựng hai thuât toan gia tăng tìm tâp rut gon dựa trên tâp đối tương

chính trong trương hơp bổ sung tâp đối tương: thuât toan DIAR sử dụng ham thuôc

mơ va thuât toan PIAR sử dụng miền dương mơ. Với trường hợp bổ sung, loại bỏ tập

thuộc tính, cac kết qua nghiên cứu về cac thuât toan gia tăng tìm tâp rut gon theo tiếp

cân tâp thô mơ còn han chế. Zeng va cac công sự [58] xây dựng cac công thức gia

tăng câp nhât đô phụ thuôc mơ trong hê thông tin hỗn hơp (HIS), trên cơ sở đó đề xuât

hai thuât toan gia tăng câp nhât tâp rut gon sử dụng đô phụ thuôc mơ: thuât toan

FRSA-IFS-HIS(AA) trong trương hơp bổ sung tâp thuôc tính va thuât toan FRSA-IFS-

HIS(AD) trong trương hơp loai bo tâp thuôc tính. Kết qua thực nghiêm trong cac công

trình nêu trên cho thây, cac thuât toan gia tăng giam thiểu đang kể thơi gian thực hiên

so vơi cac thuât toan không gia tăng. Do đó, chung có thể thực thi hiêu qua trên cac

bang quyết định có kích thươc lơn va thay đổi, câp nhât. Tuy nhiên, phân lơn cac thuât

toan đề xuât đều theo hương tiếp cân loc (filter) truyền thống. Vơi cach tiếp cân nay,

tâp rut gon tìm đươc la tâp thuôc tính tối thiểu bao toan đô đo đươc xây dựng. Viêc

đanh gia đô chính xac phân lơp đươc thực hiên sau khi tìm đươc tâp rut gon. Do đó,

tâp rut gon thu đươc chưa phai la lựa chon tốt nhât trên hai tiêu chí: số lương thuôc

tính tâp rut gon va đô chính xac phân lơp. Vơi trương hơp bổ sung, loai bo tâp đối

tương nêu trên, cac tac gia trong [55, 56] đã đề xuât cac thuât toan gia tăng tìm tâp rut

gon theo tiếp cân kết hơp filter-wrapper, trong đó giai đoan filter tìm cac ứng viên tâp

rut gon khi bổ sung thuôc tính có đô quan trong lơn nhât, giai đoan wapper tìm tâp rut

gon có đô chính xac phân lơp cao nhât. Cac kết qua thử nghiêm cho thây, tâp rut gon

thu đươc cua cach tiếp cân filter-wrapper giam thiểu số lương thuôc tính va cai thiên

đô chính xac phân lơp so vơi cach tiếp cân filter.

Đồng thơi qua kết qua nghiên cứu Chương 3 cua luân án cho thây sự hiêu qua

cua thuât toán gia tăng filter-wrapper rút gon thuôc tính trong trương hơp bổ sung, loai

bo tâp đối tương sử dụng khoang cách mơ. Vì vây, đông lực nghiên cứu cua chương

nay la tiếp tục ap dụng hương tiếp cân filter-wrapper vao viêc xây dựng cac thuât toan

gia tăng tìm tâp rut gon trong trương hơp bổ sung, loai bo tâp thuôc tính nhằm giam

thiểu số lương thuôc tính tâp rut gon va cai thiên đô chính xac mô hình phân lơp.

Từ những vân đề phân tích nêu trên, trong chương nay, trươc hết luân án trình

bày các công thức gia tăng câp nhât khoang cách mơ (đươc đề xuât ở Chương 2) trong

trương hơp bổ sung, loai bo tâp thuôc tính. Dựa trên các công thức tính toan gia tăng

Page 103: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

93

khoang cách mơ đươc xây dựng, luân án trình bày 02 thuât toan gia tăng tìm tâp rút

gon cua bang quyết định theo tiếp cân kết hơp filter-wrapper:

1) Thuât toán gia tăng filter-wrapper IFW_FDAR_AA tìm tâp rút gon trong

trương hơp bổ sung tâp thuôc tính.

2) Thuât toán gia tăng filter-wrapper IFW_FDAR_DA tìm tâp rút gon trong

trương hơp loai bo tâp thuôc tính.

Hai thuât toan đề xuât nêu trên đều theo tiếp cân kết hơp filter-wrapper, hai thuât

toán nêu trên nhằm mục tiêu giam thiểu số thuôc tính tâp rút gon và cai thiên đô chính

xác mô hình phân lơp.

Kết qua nghiên cứu ở chương nay đươc công bố ở công trình số 4, phân “Danh

mục công trình cua tác gia”.

4.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính

4.2.1. Công thức gia tăng cập nhật khoảng cách khi bổ sung tập thuộc tính

Cho bang quyết định ,DS U C D vơi 1 2, ,..., nU x x x khi đó, khoang cách

mơ giữa hai tâp thuôc tính C và D theo Mênh đề 2.3 đươc đề xuât trong Chương 2

đươc xac định như sau:

2 1

1FPD Φ ,Φ   

n

C C D i i iC C DiR R x x x

n

Mệnh đề 4.1. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU u u u . Giả sử tập

thuộc tính điều kiện B được bổ sung vào C với B C . Giả sử ij( )B n nM bR

,

ij( )C n nM cR

, ij( )D n n

M dR

là các ma trận tương đương mờ của các quan hệ

tương đương mờ , ,B C DR R R trên B, C, D tương ứng. Khi đó ta có:

1) Nếu ij ijc d

với mọi 1 ,i j n thì , 0FPD C B C B D

2) Nếu

ij ijb c với mọi 1 ,i j n thì

21 1

1, , . min ,

n n

ij ij ij

i j

FPD C B C B D FPD C C D c c dn

3) Nếu ij ijb c với mọi 1 ,i j n thì

Page 104: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

94

21 1

1, , . min ,

n n

ij ij ij

i j

FPD C B C B D FPD B B D b b dn

Chứng minh: Khi bổ sung thêm B vào C, theo mục 2.4 cua Chương 2 về khoang cách

mơ đươc xac định như sau:

21

1,

n

i i iC B C B Di

FPD C B C B D u u un

2 21 1 1

1 1. min , min , ,

n n n

i i i i i ij ij ij ij ijC B C B Di i j

u u u u u c b c b dn n

1) Nếu ij ijc d vơi moi 1 ,i j n thì i iC D

u u và i i i i iC B D C Bu u u u u .

Từ đó ta có:

21

1, .

n

i i iC B C B Di

FPD C B C B D u u un

21

1. 0

n

i i i i iC B C B Di

u u u u un

2) Từ ij ijb c ta có i iC B

u u và i i iC B Cu u u vơi moi iu U . Từ đó ta có:

21

1, .

n

i i i i iC B C B Di

FPD C B C B D u u u u un

2 21 1 1

1 1, . min ,

n n n

i i i ij ij ijC C Di i j

u u u FPD C C d c c dn n

3) Từ ij ijb c ta có i iB C

u u và i i iC B Bu u u vơi moi iu U . Từ đó ta có:

21

1, .

n

i i i i iC B C B Di

FPD C B C B D u u u u un

2 21 1 1

1 1, . min ,

n n n

i i i ij ij ijB B Di i j

u u u FPD B B D b b dn n

4.2.2. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi bổ sung tập thuộc tính

Từ công thức gia tăng tính khoang cach mơ trong Mênh đề 4.1 ta có Mênh đề 4.2

sau đây:

Mệnh đề 4.2. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU u u u và R C là

tập rút gọn dựa trên khoảng cách mờ. Giá sử tập thuộc tính điều kiện B được bổ sung

vào C với B C . Đặt ij( )B n nM bR

, ij( )C n n

M cR

, ij( )D n nM dR

là các ma

Page 105: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

95

trận tương đương mờ của các quan hệ tương đương mờ , ,B C DR R R trên B, C, D tương

ứng. Khi đó ta có:

1) Nếu ij ijb c vơi moi 1 ,1i n j n thì R là tập rút gọn của

1 ,DS U C B D .

2) Nếu ij ijb c vơi moi 1 ,1i n j n thì B chứa một tập rút gọn của

1 ,DS U C B D .

Chứng minh:

1) Theo Mênh đề 4.1, nếu ij ijb c vơi 1 ,1i n j n thì

, ,FPD C B C B D FPD C C D . Do R là tâp rút gon cua DS nên

, , ,FPD R R D FPD C C D FPD C B C B D và

, , ,r R FPD R r R r D FPD C C D . Theo Định nghĩa 2.1 cua Chương 2, R

là tâp rút gon cua 1 ,DS U C B D .

2) Cũng theo Mênh đề 4.1, nếu ij ijb c vơi 1 ,1i n j n thì

, ,FPD C B C B D FPD B B D , nghĩa la tồn tai 1B B sao cho 1B thoa mãn

Định nghĩa 1 về tâp rút gon cua 1 ,DS U C B D .

Dựa trên Mênh đề 4.2, đề xuât thuât toan gia tăng filter-wrapper tìm tâp rut gon

trong bang quyết định sử dụng khoang cach mơ khi bổ sung tâp thuôc tính B vào C.

Thuât toan gồm hai giai đoan: giai đoan filter tìm các ứng viên cho tâp rút gon mỗi khi

bổ sung thuôc tính có đô quan trong lơn nhât, giai đoan wapper tìm tâp rút gon có đô

chính xác phân lơp cao nhât. Thuât toan đươc mô ta như sau:

Thuật toán IFW_FDAR_AA (Incremental Filter-Wrapper Fuzzy

Distance-based Attribute Reduction Algorithm when Adding

Attributes).

Đầu vào:

1) Bảng quyết định ,DS U C D với 1 2, ,..., nU u u u , tập

rút gọn R C , các ma trận tương đương mờ ij( )C n nM cR

, ij( )D n nM dR

của các quan hệ tương đương mờ ,C DR R ,

khoảng cách mờ ,FPD C C D ;

Page 106: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

96

2) Tập thuộc tính bổ sung B với B C ;

Đầu ra: Tập rút gọn 1R của 1 ,DS U C B D

Bước 1: Khởi tạo và kiểm tra tập thuộc tính bổ sung

1. ; // Chứa các ứng viên tập rút gọn

2. Tính ma trận quan hệ tương đương mờ ij( )Bn n

M R b

;

3. If ij ijb c với mọi 1 ,1i n j n then Return R ;

4. If ij ijb c với mọi 1 ,1i n j n then R ; //Tìm

tập rút gọn trong tập B

Bước 2: Thực hiện thuật toán tìm tập rút gọn

// Giai đoạn filter, tìm các ứng viên cho

tập rút gọn xuất phát từ tập R.

5. While , ,FPD R R D FPD C B C B D do

6. Begin

7. For each a B tính

, ,RSIG a FPD R R D FPD R a R a D với ,FPD R a R a D

được tính bởi công thức trong Mệnh đề 3.7.

8. Chọn ma B sao cho R m R

a BSIG a Max SIG a

;

9.

: mR R a ;

10.

:T T R ;

11. End;

// Giai đoạn Wrapper,tìm tập rút gọn có độ chính xác phân

lớp cao nhất

12. Đặt //t là số phần tử của T, T chứa các

chuỗi thuộc tính được chọn, nghĩa là

1 1 2 1 2

, , ,..., , ,...,ti i i i i iT R a R a a R a a a ;

13. Đặt 1 1 2 1 21 2: ; : , ;...; : , ,...,

ti i i t i i iT R a T R a a T R a a a

14. For j = 1 to t tính độ chính xác phân lớp trên

bằng một bộ phân lớp;

15. 1 : joR T với có độ chính xác phân lớp cao nhất.

:T

:t T

jT

joT

Page 107: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

97

Return 1R ;

Tiếp theo, chung tôi đanh gia đô phức tap cua thuât toán IFW_FDAR_AA. Ký

hiêu , ,C U B tương ứng là số thuôc tính điều kiên, số đối tương và số thuôc tính điều

kiên bổ sung thêm. Ở câu lênh 2, đô phức tap tính quan hê tương đương mơ ( )BM R

2O B U . Trong trương hơp tốt nhât, thuât toán kết thúc ở câu lênh 3 (tâp rút gon

không thay đổi). Khi đó, đô phức tap thuât toán IFW_FDAR_AA là 2O B U .

Ngươc lai xét vòng lặp While từ câu lênh 5 đến 11, để tính BSIG a ta phai tính

,FPD R a R a D . Đô phức tap tính ,FPD R a R a D là 2

O U . Do đó, đô

phức tap cua vòng lặp While là 2 2O B U va đô phức tap cua giai đoan filter là

2 2O B U . Gia sử đô phức tap cua bô phân lơp là O T , khi đó đô phức tap cua giai

đoan wrapper là *O B T . Vì vây, đô phức tap cua thuât toán IFW_FDAR_AA là

2 2

*O B U O B T . Nếu thực hiên thuât toan không gia tăng filter-wrapper

FW_FDAR trong mục 2.4 cua Chương 2 trực tiếp trên bang quyết định có số thuôc

tính C B , đô phức tap là 2 2* *O C B U O C B T . Do đó, thuât toan gia tăng

IFW_FDAR_AA giam thiểu đang kể đô phức tap thơi gian thực hiên, đặc biêt trong

trương hơp B nho.

4.2.3. Thực nghiệm và đánh giá thuật toán

4.2.3.1. Mục tiêu thực nghiệm

Trong phân này, chúng tôi trình bày kết qua thử nghiêm nhằm đanh gia tính

hiêu qua cua thuât toan gia tăng filter-wrapper đề xuât IFW_FDAR_AA vơi thuât toán

gia tăng filter FRSA-IFS-HIS(AA) trong công trình [58] về số lương thuôc tính tâp rút

gon va đô chính xác cua mô hình phân lơp. FRSA-IFS-HIS(AA) là thuât toan gia tăng

filter tìm tâp rút gon sử dụng đô phụ thuôc mơ trong tâp thô mơ trong trương hơp bổ

sung tâp thuôc tính.

4.2.3.2. Dữ liệu thực nghiệm

Page 108: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

98

Viêc thử nghiêm đươc thực hiên trên 06 bô dữ liêu mẫu lây từ kho dữ liêu UCI

[59] đươc mô ta ở Bang 3.14. Trên mỗi tâp dữ liêu, vơi các thuôc tính có miền giá trị

thực, chúng tôi chuẩn hóa miền dữ liêu về đoan [0, 1] sử dụng công thức [9,54]

' min

max min

i

i

a x aa x

a a

vơi max(a), min(a) là giá trị lơn nhât, nho nhât trên miền giá trị thuôc tính a. Chúng tôi

sử dụng quan hê tương đương mơ aR trong [9,54] trên thuôc tính a như sau

, 1a i j i jx x a x a xR

vơi ,i jx x U

Vơi các thuôc tính a C có miền giá trị định danh hoặc nhị phân (nominal hoặc

binary), chúng tôi sử dụng quan hê tương đương aR , vơi ,i jx x U

1,

0,

i j

a

a x a x

otherwiseR

Trên thuôc tính quyết định D d chúng tôi sử dụng quan hê tương đương

dR . Phân hoach

/

d dU R x x U

vơi

( , ) 1dd

x y U R x y là môt lơp

tương đương. Khi đó, lơp tương đương d

x đươc xem là lơp đương đương mơ, ký

hiêu là d

x , vơi hàm thuôc 1d

xy nếu

dy x và 0

dx

y nếu d

y x .

Mỗi tâp thuôc tính đươc chia ngẫu nhiên thành hai phân: tâp thuôc tính ban đâu

(côt 5 Bang 4.1) ký hiêu là C0, và tâp thuôc tính gia tăng (côt 6 Bang 4.1). Tâp thuôc

tính gia tăng đươc chia ngẫu nhiên thành 5 phân bằng nhau, ký hiêu tương ứng là C1,

C2, C3, C4, C5.

Bảng 4.1 Bộ dữ liệu thử nghiệm

STT Tập dữ liệu Số đối

tượng

Số thuộc

tính điều

kiện

Số thuộc

tính ban

đầu

Số thuộc

tính gia

tăng

Số lớp

quyết định

(1) (2) (3) (4) (5) (6) (7)

1 Libras movement

(Libra) 360 90 45 45 15

2

Wisconsin diagnostic

breast cancer

(WDBC)

569 30 15 15 2

Page 109: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

99

3 Horse colic (Horse) 368 22 12 10 2

4 Credit approval

(Credit) 690 15 5 10 2

5 German credit data

(German) 1000 20 10 10 2

6 Waveform (Wave) 5000 21 11 10 3

4.2.3.3. Phương pháp, công cụ và môi trường thử nghiệm

Để tiến hành thử nghiêm hai thuât toán IFW_FDAR_AA và FRSA-IFS-

HIS(AA), trươc hết chúng tôi thực hiên hai thuât toán trên tâp dữ liêu vơi tâp thuôc

tính ban đâu (coi tâp thuôc tính ban đâu là tâp gia tăng). Tiếp theo, thực hiên hai thuât

toán khi lân lươt bổ sung từ phân thứ nhât đến phân thứ năm cua tâp thuôc tính gia

tăng. Vơi thuât toan đề xuât theo tiếp cân lai filter-wrapper IFW_FDAR_AA, chúng

tôi sử dụng bô phân lơp CART (cây phân lơp, hồi quy) để tính đô chính xác phân lơp

trong bươc tìm tâp rút gon có đô chính xác tốt nhât. Chúng tôi sử dụng phương phap

kiểm tra chéo 10-fold, nghĩa la bô dữ liêu đươc chia thành 10 phân xâp xỉ bằng nhau,

lây ngẫu nhiên 1 phân làm bô dữ liêu kiểm tra, 9 phân còn lai làm dữ liêu huân luyên.

Qua trình đươc lặp lai 10 lân. Công cụ thực hiên thử nghiêm là Matlab R2016a. Môi

trương thử nghiêm là máy tính PC vơi câu hình Intel(R) Core(TM) i7-3770CPU

@3.40 GHz, sử dụng hê điều hành Windows 7, 32 bit.

4.2.3.4. Kết quả so sánh số lượng thuộc tính của tập rút gọn và độ chính xác phân lớp

của hai thuật toán IFW_FDAR_AA và thuật toán FRSA-IFS-HIS(AA)

Bang 4.2 và Hình 4.1 trình bày kết qua so sánh về số lương thuôc tính tâp rút

gon (ký hiêu là R ) va đô chính xác phân lơp cua hai thuât toán IFW_FDAR_AA và

FRSA-IFS-HIS(AA). Kết qua Bang 4.2 cho thây, vơi mỗi bươc lặp khi bổ sung tâp

thuôc tính gia tăng va trên toan bô thuôc tính, đô chính xác phân lơp cua

IFW_FDAR_AA cao hơn FRSA-IFS-HIS(AA) môt chút trên tât ca các tâp dữ liêu.

Hơn nữa, số thuôc tính tâp rút gon cua IFW_FDAR_AA nho hơn kha nhiều FRSA-

IFS-HIS(AA), đặc biêt trên tâp rút gon có số thuôc tính lơn như Libra. Do đó, thơi

gian thực hiên và tính khái quát hóa cua tâp luât phân lơp trên tâp rút gon cua

IFW_FDAR_AA hiêu qua hơn so vơi FRSA-IFS-HIS(AA).

Bảng 4.2 Số lượng thuộc tính tập rút gọn và độ chính xác phân lớp của

IFW_FDAR_AA và FRSA-IFS-HIS(AA)

STT Tập dữ liệu

Tập

thuộc

tính

Số

thuộc

tính

Tổng số

thuộc

tính

IFW_FDAR_AA FRSA-IFS-

HIS(AA)

R Độ chính

xác R Độ chính

xác

Page 110: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

100

1 Libra

0C 45 45 6 58.45 16 56.94

1C 9 54 7 59.02 21 58.72

2C 9 63 7 59.95 26 59.24

3C 9 72 8 61.48 32 60.98

4C 9 81 9 61.87 38 61.26

5C 9 90 10 62.16 46 61.48

2 WDBC

0C 15 15 3 76.14 5 75.96

1C 3 18 4 79.02 8 78.25

2C 3 21 4 79.02 9 79.82

3C 3 24 5 85.98 12 84.85

4C 3 27 6 93.18 15 89.36

5C 3 30 6 93.18 16 92.86

3 Horse

0C 12 12 6 80.26 8 78.47

1C 2 14 7 82.49 9 81.06

2C 2 16 7 82.49 9 81.06

3C 2 18 8 84.78 10 83.92

4C 2 20 9 85.02 11 84.45

5C 2 22 9 86.75 12 86.26

4 Credit

0C 5 5 3 78.64 4 77.92

1C 2 7 4 81.92 5 80.15

2C 2 9 5 84.26 6 82.39

3C 2 11 5 84.26 6 82.39

4C 2 13 6 86.05 7 84.72

5C 2 15 6 86.05 8 85.96

5 German

0C 10 10 5 72.16 6 70.46

1C 2 12 5 72.16 7 72.02

2C 2 14 6 73.08 8 73.08

3C 2 16 6 73.08 8 73.08

4C 2 18 7 74.28 10 73.92

5C 2 20 7 74.28 11 74.16

Page 111: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

101

6 Wave

0C 11 11 4 65.96 9 65.02

1C 2 13 5 68.72 11 67.78

2C 2 15 6 69.08 13 68.25

3C 2 17 6 69.08 14 68.97

4C 2 19 7 70.88 16 70.02

5C 2 21 8 71.49 17 70.85

Hình 4.1.a. Tập dữ liệu Libra

Hình 4.1.b. Tập dữ liệu WDBC

Page 112: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

102

Hình 4.1.c. Tập dữ liệu Horse

Hình 4.1.e. Tập dữ liệu Credit

Hình 4.1.f. Tập dữ liệu German

Page 113: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

103

Hình 4.1.g. Tập dữ liệu Wave

Hình 4. 1 Độ chính xác phân lớp của các thuật toán IFW_FDAR_AA

và FRSA-IFS-HIS(AA)

4.2.3.5. Kết quả so sánh thời gian thực hiện của thuật toán gia tăng filter-wrapper

IFW_FDAR_AA và thuật toán FRSA-IFS-HIS(AA)

Bang 4.3 và Hình 4.2 trình bày kết qua so sánh thơi gian thực hiên hai thuât

toán IFW_FDAR_AA và FRSA-IFS-HIS(AA) (tính bằng giây s). Kết qua Bang 4.3

cho thây, thơi gian thực hiên cua IFW_FDAR_AA cao hơn FRSA-IFS-HIS(AA) trên

tât ca các tâp dữ liêu, nguyên nhân là IFW_FDAR_AA mât thêm chi phí thơi gian thực

hiên bô phân lơp trong giai đoan wrapper, đây cũng la nhươc điểm chung cua các thuât

toán theo tiếp cân filter-wrapper. Tuy nhiên, vơi mục tiêu giam thiểu đô phức tap và

tăng đô chính xác cua tâp luât phân lơp thì chi phí về thơi gian tìm tâp rút gon cua

thuât toan đề xuât là châp nhân đươc.

Bảng 4.3 Thời gian thực hiện của IFW_FDAR_AA và FRSA-IFS-HIS(AA)

(Tính bằng s)

STT Tập dữ liệu

Tập

thuộc

tính

Số

thuộc

tính

Tổng

số

thuộ

c

tính

IFW_FDAR_AA FRSA-IFS-

HIS(AA)

Thời

gian

Tổng thời

gian

Thời

gian

Tổng thời

gian

1 Libra

0C 45 45 4.26 4.26 3.68 3.68

1C 9 54 0.42 4.68 0.24 3.92

2C 9 63 0.46 5.14 0.35 4.27

3C 9 72 0.61 5.75 0.27 4.54

4C 9 81 0.57 6.32 0.22 4.76

60

62

64

66

68

70

72

C0 C1 C2 C3 C4 C5

Đô

chín

h x

ac p

hân

p

Cac tâp thuôc tính cua dữ liêu Wave

IFW_FDAR_AA

Page 114: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

104

5C 9 90 0.52 6.84 0.16 4.92

2 WDBC

0C 15 15 2.92 2.92 2.16 2.16

1C 3 18 0.33 3.25 0.28 2.44

2C 3 21 0.34 3.59 0.32 2.76

3C 3 24 0.22 3.81 0.20 2.96

4C 3 27 0.21 4.02 0.18 3.14

5C 3 30 0.24 4.26 0.16 3.30

3 Horse

0C 12 12 1.86 1.86 1.45 1.45

1C 2 14 0.29 2.15 0.17 1.62

2C 2 16 0.19 2.34 0.18 1.80

3C 2 18 0.24 2.59 0.18 1.98

4C 2 20 0.13 2.72 0.17 2.15

5C 2 22 0.22 2.94 0.20 2.35

4 Credit

0C 5 5 2.05 2.05 1.74 1.74

1C 2 7 0.24 2.29 0.18 1.92

2C 2 9 0.29 2.58 0.22 2.14

3C 2 11 0.26 2.84 0.21 2.35

4C 2 13 0.28 3.12 0.20 2.55

5C 2 15 0.22 3.34 0.18 2.73

5 German

0C 10 10 3.08 3.08 2.64 2.64

1C 2 12 0.21 3.29 0.17 2.81

2C 2 14 0.30 3.59 0.17 2.98

3C 2 16 0.32 3.91 0.21 3.19

4C 2 18 0.38 4.29 0.24 3.43

5C 2 20 0.35 4.64 0.26 3.69

6 Wave

0C 11 11 64.56 64.56 56.02 56.02

1C 2 13 8.00 72.56 6.8 62.82

2C 2 15 6.52 79.08 5.62 68.44

3C 2 17 7.17 86.25 6.08 74.52

4C 2 19 5.79 92.04 4.94 79.46

5C 2 21 6.68 98.72 5.18 84.64

Page 115: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

105

Hình 4.2 Thời gian thực hiện của thuật toán IFW_FDAR_AA và FRSA-IFS-HIS(AA)

Tiếp theo, chúng tôi trình bày thuât toán filter-wrapper tìm tâp rút gon sử dụng

khoang cách mơ khi loai bo tâp thuôc tính theo hương tiếp cân tính toan gia tăng.

Trươc hết, chúng tôi xây dựng các công thức câp nhât khoang cách khi loai bo tâp

thuôc tính.

Page 116: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

106

4.3. Thuật toán gia tăng filter-wrapper tìm tập rút gọn khi loại bỏ tập thuộc tính

4.3.1. Công thức cập nhật khoảng cách khi loại bỏ tập thuộc tính

Mệnh đề 4.3. Cho bảng quyết định ,DS U C D với 1 2, ,..., nU u u u . Giá sử tập

thuộc tính điều kiện B được loại bỏ khỏi C với B C và A C B là tập thuộc tính

còn lại. Đặt ij( )B n nM bR

,

ij( )C n n

M cR

, ij( )A n nM aR

, ij( )D n n

M dR

tương ứng là ma trận tương đương mờ của các quan hệ tương đương mờ , , ,B C A DR R R R .

Khi đó ta có:

21 1

1, , min , min ,

n n

ij ij ij ij ij ij

i j

FPD A A d FPD C C d a c c d a dn

Chứng minh: Ta có:

21

1, .

n

i i iA A Di

FPD A A D u u un

2 2 2 21 1 1 1

1 1 1 1. . . .

n n n n

i i i i i i i i iC C D A C C D A Di i i i

u u u u u u u u un n n n

2 2 21 1 1

1 1 1, . . min , . min ,

n n n

ij ij ij ij ij ij

i i i

FPD C C d a c c d a dn n n

21 1

1, min , min ,

n n

ij ij ij ij ij ij

i j

FPD C C d a c c d a dn

4.3.2. Thuật toán gia tăng filter-wrapper cập nhật tập rút gọn khi loại bỏ tập

thuộc tính

Dựa trên Mênh đề 4.3, thuât toan gia tăng filter-wrapper tìm tâp rut gon trong

bang quyết định sử dụng khoang cach mơ khi loai bo tâp thuôc tính B như sau:

Thuật toán IFW_FDAR_DA (Incremental Filter-Wrapper Fuzzy

Distance-based Attribute Reduction Algorithm when Deleting

Attributes).

Đầu vào:

1) Bảng quyết định ,DS U C D với 1 2, ,..., nU u u u , tập

rút gọn , các ma trận tương đương mờ ij( )C n nM cR

,

ij( )D n nM dR

, khoảng cách mờ ,FPD C C D ;

2) Tập thuộc tính B loại bỏ khỏi C với B C ;

R C

Page 117: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

107

Đầu ra: Tập rút gọn 1R của 1 ,DS U C B D ;

1) Trường hợp 1: If B C R then Retturn (R);

2) Trường hợp 2: If R B then thực hiện thuật toán

không gia tăng filter-wrapper tìm tập rút gọn sử

dụng khoảng cách FW_FDBAR trong mục 2.4 của Chương

2.

3) Trường hợp 3: If R B then thực hiện các bước

của thuật toán tìm tập rút gọn.

Bước 1: Khởi tạo

1. Đặt

; :A C B ; // Chứa các ứng viên tập rút

gọn

2.Tính ma trận tương đương mờ ij( )B n nM bR

,

ij( )A n nM aR

3.Đặt :R R B //Xét các thuộc tính trong tập rút gọn

Bước 2: Thực hiện thuật toán tìm tập rút gọn

// Giai đoạn filter, tìm các ứng viên cho tập rút gọn

xuất phát từ tập R.

4. While , ,FPD R R D FPD A A D do

5. Begin

6. For each a R tính

, ,RSIG a D R a R a D D R R D với

,FPD R a R a D được tính bởi công thức trong

3.9;

7. Chọn ma R sao cho R m Ra R

SIG a Min SIG a

;

8. : mR R a ;

9.

;

10. End;

// Giai đoạn Wrapper, tìm tập rút gọn có độ chính xác

phân lớp cao nhất

11. Đặt //t là số phần tử của T, T chứa các

chuỗi thuộc tính được chọn, nghĩa là

1 1 2 1

, , ,..., ,...,ti i i i iT R a R a a R a a ;

12. Đặt 1 1 2 11 2, , ,..., ,...,

ti i i t i iT R a T R a a T R a a

13. For j = 1 to t tính độ chính xác phân lớp

trên bằng một bộ phân lớp;

14. với có độ chính xác phân lớp lớn

nhất.

:T

:T T R

:t T

jT

1 : joR TjoT

Page 118: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

108

15. Return ;

Tiếp theo, chung tôi đanh gia đô phức tap cua thuât toán IFW_FDAR_DA. Ký

hiêu tương ứng là số thuôc tính điều kiên, số đối tương và số thuôc tính điều

kiên xóa khoi C.

Trường hợp tốt nhất, thuât toan rơi vao Trường hợp 1, nghĩa la tâp rút gon không

thay đổi.

Trường hợp xấu nhất, thuât toan rơi vao Trường hợp 2, thực hiên lai thuât toán

FW_FDAR tìm tâp rút gon trên bang quyết định sau khi xóa tâp thuôc tính B vơi đô

phức tap là: 2 2* *O C B U O C B T .

Tiếp theo, ta xét đô phức tap trong Trường hợp 3. Xét vòng lặp While từ câu

lênh 4 đến 10, để tính RSIG a ta phai tính ,FPD R a R a D . Đô phức tap tính

,FPD R a R a D là . Do đó, đô phức tap cua vòng lặp While là

2 2*O R B U va đô phức tap cua giai đoan filter là 2 2

*O R B U . Gia sử đô

phức tap cua bô phân lơp là , khi đó đô phức tap cua giai đoan wrapper là

*O R B T . Vì vây, đô phức tap cua thuât toán IFW_FDAR_DA là

2 2* *O R B U O R B T . Nếu thực hiên thuât toan không gia tăng filter-

wrapper FW_FDBAR trực tiếp trên bang quyết định có số thuôc tính C B , đô phức

tap là 2 2* *O C B U O C B T . Do đó, vơi Trường hợp 3 thì thuât toán

IFW_FDAR_DA hiêu qua. Nếu R càng nho thì thuât toán IFW_FDAR_DA càng hiêu

qua. Nếu thuât toan rơi vao Trường hợp 2 (tính lai tâp rút gon) thì đô phức tap thuât

toán IFW_FDAR_DA tương đương thuât toán FW_FDBAR .

4.4. Kết luận Chương 4

Trong Chương 4, luân án trình bày kết qua xây dựng các công thức gia tăng tính

khoang cách mơ đề xuât ở Chương 2 trong trương hơp bổ sung, loai bo tâp thuôc tính.

Dựa vào các công thức gia tăng đươc xây dựng, luân án trình bày kết qua đề xuât hai

thuât toan gia tăng tìm tâp rút gon cua bang quyết định theo tiếp cân filter-wrapper:

1R

, ,C U B

2O U

O T

Page 119: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

109

1)Thuât toan gia tăng filter-wrapper IFW_FDAR_AA tìm tâp rút gon trong

trương hơp bổ sung tâp thuôc tính.

2)Thuât toan gia tăng filter-wrapper IFW_FDAR_DA tìm tâp rút gon trong

trương hơp loai bo tâp thuôc tính.

Các thuât toan gia tăng đề xuât sử dụng đô đo khoang cách mơ nên hiêu qua hơn

các thuât toan gia tăng khac sử dụng quan hê phân biêt giữa các cặp đối tương trong

tâp thô mơ. Kết qua thử nghiêm trên các tâp dữ liêu mẫu từ kho dữ liêu UCI cho

những kết luân quan trong:

Đô chính xác phân lơp cua thuât toán IFW_FDAR_AA cao hơn thuât toán

FRSA-IFS-HIS(AA) trên tât ca các tâp dữ liêu. Hơn nữa, số thuôc tính tâp rút gon cua

IFW_FDAR_AA nho hơn kha nhiều FRSA-IFS-HIS(AA), đặc biêt trên tâp rút gon có

số thuôc tính lơn như Libra.

Về thơi gian thực hiên cua các thuât toan gia tăng filter-wrapper đề xuât đều cao

hơn so vơi các thuât toan gia tăng filter truyền trống trên tât ca các tâp dữ liêu, nguyên

nhân là các thuât toán gia tăng kết hơp filter-wrapper đều mât thêm chi phí thơi gian

thực hiên bô phân lơp trong giai đoan wrapper, đây cũng la nhươc điểm chung cua các

thuât toán theo tiếp cân filter-wrapper. Tuy nhiên, vơi mục tiêu giam thiểu đô phức tap

va tăng đô chính xác cua tâp luât phân lơp thì chi phí về thơi gian tìm tâp rút gon cua

thuât toan đề xuât là châp nhân đươc.

Page 120: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

110

KẾT LUẬN

1. Các kết quả đạt được của luận án

Luân án nghiên cứu hương tiếp cân kết hơp filter-wrapper tìm tâp rút gon cua bang

quyết định nhằm giam thiểu số lương thuôc tính tâp rút gon, từ đó giam thiểu đô phức tap

cua mô hình phân lơp va nâng cao đô chính xác cua mô hình phân lơp. Kết qua chính cua

luân án bao gồm:

(1) Đề xuât hai thuât toan gia tăng filter-wrapper tìm tâp rút gon cua bang quyết

định thay đổi trong trương hơp bổ sung, loai bo tâp đối tương. Đóng góp nay đươc

trình bày ở Chương 3 cua luân án.

(2) Đề xuât hai thuât toan gia tăng filter-wrapper tìm tâp rút gon cua bang quyết

định thay đổi trong trương hơp bổ sung, loai bo tâp thuôc tính. Đóng góp nay đươc

trình bày ở Chương 4 cua luân án.

2. Định hướng phát triển

(1) Triển khai các thuât toan đề xuât vào viêc giai quyết các lơp bài toán trong

thực tiễn, đặc biêt các bài toán có dữ liêu vơi số thuôc tính lơn (high dimention data)

trong cac lĩnh vực khac nhau như dữ liêu gen trong tin sinh hoc…

(2) Tiếp tục nghiên cứu, đề xuât các thuât toan gia tăng filter-wrapper hiêu qua

nhằm giam thiểu thơi gian thực hiên dựa trên các mô hình tâp thô mở rông khác phù

hơp vơi các lơp bài toán trong thực tiễn.

Page 121: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

111

DANH MỤC CÔNG TRÌNH CỦA TÁC GIẢ

STT TÊN BÀI BÁO

1 Nguyen Long Giang, Le Hoang Son, Tran Thi Ngan, Tran Manh Tuan, Ho

Thi Phuong, Mohamed Abdel-Basset, Antônio Roberto L. de Macêdo,

VictorHugo C. de Albuquerque, “Novel Incremental Algorithms for

Attribute Reduction from DynamicDecision Tables using Hybrid Filter–

Wrapper with Fuzzy Partition Distance”, IEEE Transactions on Fuzzy

Systems, Volume 28, Issue 5, pp. 858-873, 2020 (SCIE, Q1, IF = 9.518).

2 Hồ Thị Phương, Cao Chính Nghĩa, Nguyễn Long Giang, Nguyễn Ngoc

Cương, “Về môt thuât toán filter-wrapper tìm tâp rút gon cua bang quyết

định sử dụng khoang cách mơ”, Kỷ yếu Hội thảo Quốc gia lần thứ XXII -

Một số vấn đề chọn lọc của CNTT và TT, Thái Bình, 28-29/6/2019, Tr. 333-

339.

3 Hồ Thị Phương, Cao Chính Nghĩa, Nguyễn Long Giang, “Về thuât toán gia

tăng filter-wrapper tìm tâp rút gon cua bang quyết định sử dụng khoang cách

mơ”, Kỷ yếu Hội thảo Quốc gia lần thứ XXII - Một số vấn đề chọn lọc của

CNTT và TT, Quảng Ninh, 5-6/11/2020, Tr. 483-490.

4 Ho Thi Phuong, Nguyen Long Giang, “fuzzy distance-based filter-wrapper

incremental algorithms for attribute reduction when adding or deleting

attribute set”, Vietnam Journal of Science and Technology - Vietnam

Academy of Science and Technology. Accepted (06/01/2021)

Page 122: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

112

TÀI LIỆU THAM KHẢO

[1] D. Dübois, H. Prade, “Rough fuzzy sets and fuzzy rough sets”, International

Journal of General Systems 17, pp.191-209, 1990.

[2] Anoop Kumar Tiwari, Shivam Shreevastava, Tanmoy Som, K.K. Shukla,

“Tolerance-based intuitionistic fuzzy-rough set approach for attribute

reduction”, Expert Systems With Applications 101, pp. 205–212, 2018.

[3] Z. Wang, Y.L. Qi, M.W. Shao, Q.H. Hu, D.G. Chen, Y.H. Qian, Y.J. Lin, “A

Fitting Model for Feature Selection with Fuzzy Rough Sets”, IEEE

Transactions on Fuzzy Systems, Volume: 25, Issue: 4, pp. 741-753, 2017.

[4] Zhang, C.L. Mei, D.G. Chen, Y.Y. Yang, “A fuzzy rough set-based feature

selection method using representative instances”, Knowledge-Based Systems,

Vol. 151, pp. 216-229, 2018.

[5] T.K. Sheeja, A. Sunny Kuriakose, “A novel feature selection method using

fuzzy rough sets”, Computers in Industry 97, pp. 111- 116, 2018.

[6] Y. Lin, Y. Li, C. Wang, J. Chen, “Attribute reduction for multi-label learning

with fuzzy rough set”, Knowl.-Based Syst. 152, pp. 51-61, 2018.

[7] J.H. Dai, Y.J. Yan, Z.W. Li, B.S. Liao, “Dominance-based fuzzy rough set

approach for incomplete interval-valued data”, Journal of Intelligent & Fuzzy

Systems 34, pp. 423-436, 2018.

[8] Q.H. Hu, D.R. Yu, Z.X. Xie, “Information-preserving hybrid data reduction

based on fuzzy-rough techniques”, Pattern Recognit. Lett. 27(5), pp. 414-423,

2016.

[9] X. Zhang, C.L. Mei, D. G. Chen, J. Li, “Feature selection in mixed data: A

method using a novel fuzzy rough set-based information entropy”, Pattern

Recognition 56, pp. 1-15, 2016.

[10] C.Z. Wang, Y.Huang, M.W. Shao, X.D.Fan, “Fuzzy rough setbased attribute

reduction using distance measures”, Knowledge-Based Systems, Vol. 164,

2019, pp. 205-212.

Page 123: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

113

[11] C.Z. Wang, Y. Qi, Q. He, “Attribute reduction using distancebased fuzzy rough

sets”, International Conference on Machine Learning and Cybernetics, IEEE,

2015.

[12] Cao Chinh Nghia, Demetrovics Janos, Nguyen Long Giang, Vu Duc Thi,

“About a fuzzy distance between two fuzzy partitions and attribute reduction

problem”, Cybernetics and Information Technologies, Vol 16, No 4, pp. 13-28,

2016

[13] J.H. Dai, H. Hu, W.Z. Wu,Y.H. Qian, D.B. Huang, “Maximal Discernibility

Pairs Based Approach to Attribute Reduction in Fuzzy Rough Sets”, IEEE

Transactions on Fuzzy Systems, Vol. 26, Issue 4, pp. 2174-2187, 2018.

[14] J.H. Dai, Q.H. Hu, H. Hu, D.B.Huang, “Neighbor inconsistent pair selection for

attribute reduction by rough set approach”. IEEE Transactions on Fuzzy

Systems, Vol. 26, Issue 2, pp. 937-950, 2017.

[15] L.J.Ping, Z. W. Xia, T.Z. Hui, X.Y. Fang, M. T. Yu, Z.J. Jing, Z. G. Yong, J. P.

Niyoyita, “learning with fuzzy rough set-based attribute selection”, Expert

Systems with Applications, Vol. 139, pp. 1- 17, 2020.

[16] W.P. Ding, C.T. Lin, Z.H. Cao, “Deep neuro-cognitive coevolution for fuzzy

attribute reduction by quantum leaping PSO with nearest-neighbor

memeplexes”, IEEE Transactions on Cybernetics, 49(7):2744-2757, 2019

[17] X.M. Liu, C. Shen, W. Wang, X.H. Guan, “CoEvil: A Coevolutionary Model

for Crime Inference Based on Fuzzy Rough Feature Selection”, IEEE

Transactions on Fuzzy Systems, Early Access, 2019.

[18] Y.J. Lin, Q.H. Hu, J.H. Liu, J.J. Li, X.D. Wu, “Streaming feature selection for

multi-label learning based on fuzzy mutual information”, IEEE Transactions on

Fuzzy Systems, Vol. 25, Issue 6, pp. 1491-1507, 2017.

[19] Z. Pawlak, Rough sets: Theoretical Aspects of Reasoning about Data, Kluwer

Academic Publisher, London, 1991.

[20] Demetrovics, J., Thi, V.D., & Giang, N.L. (2014). Metric Based Attribute

Reduction in Dynamic Decision systems. Annales Univ. Sci. Budapest., Sect.

Comp, Vol. 42, 157-172.

Page 124: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

114

[21] Huong, N. T. L., &Giang, N. L. (2016). Incremental algorithms based on metric

for finding reduct in dynamic decision systems. Journal on Research and

Development on Information & Communications Technology, Vol.E-3, No.9,

26-39.

[22] Y.G. Jing, T.R. Li, J.F. Huang, H.M. Chen, S.J. Horng, “A Group Incremental

Reduction Algorithm with Varying Data Values”, International Journal of

Intelligent Systems 32(9), pp. 900-925, 2017.

[23] Y.G. Jing, T.R. Li, H. Fujita, Z. Yu, B. Wang, “An incremental attribute

reduction approach based on knowledge granularity with a multi-granulation

view”, Information Sciences 411, pp. 23-38, 2017.

[24] Zhang, C., Dai, J. & Chen, J. (2020). Knowledge granularity based incremental

attribute reduction for incomplete decision systems. International Journal of

Machine Learning and Cybernetics. https://doi.org/10.1007/s13042-020-01089-4.

[25] Cai, M.J., Lang, G.M., Hamido, F., Li, Z.Y., &Yang, T. (2019). Incremental

approaches to updating reducts under dynamic covering granularity.

Knowledge-Based Systems 172, 130-140.

[26] Zhang, C., &Dai, J. (2019). An incremental attribute reduction approach based

on knowledge granularity for incomplete decision systems. Granular

Computing, 1-15.

[27] Zhang, C., Dai, J. &Chen, J. (2020). Knowledge granularity based incremental

attribute reduction for incomplete decision systems. International Journal of

Machine Learning and Cybernetics. https://doi.org/10.1007/s13042-020-01089-4.

[28] W. Wei, X.Y. Wu, J.Y. Liang, J.B. Cui, Y.J. Sun, “Discernibility matrix based

incremental attribute reduction for dynamic data”, Knowledge-Based Systems,

Vol. 140, pp. 142-157, 2018.

[29] G. Lang, Q. Li, M. Cai, T. Yang, Q. Xiao, “Incremental approaches to

knowledg reduction based on characteristic matrices”, Int. J. Mach. Learn.

Cybern. 8 (1) pp. 203-222, 2017.

Page 125: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

115

[30] Ma, F.M., Ding, M.W., Zhang, T.F., &Cao, J. (2019). Compressed binary

discernibility matrix based incremental attribute reduction algorithm for group

dynamic data. Neurocomputing, Vol. 344, No. 7, 20-27.

[31] Yang, C.J., Ge, H., Li, L.S., &Ding, J. (2019). A unified incremental reduction

with the variations of the object for decision tables. Soft Computing 23, 6407-

6427.

[32] Liu, Y., Zheng, L.D., Xiu, Y.L., Yin, H., Zhao, S.Y., Wang, X.H., Chen, H., &Li,

C.P. (2020). Discernibility matrix based incremental feature selection on fused

decision tables. International Journal of Approximate Reasoning 118, 1-26.

[33] Das, A. K., Sengupta, S., & Bhattacharyya, S. (2018). A group incremental

feature selection for classification using rough set theory based genetic

algorithm. Applied Soft Computing, 65, 400-411.

[34] Lang, G., Cai, M., Fujita, H., &Xiao, Q. (2018). Related families-based

attribute reduction of dynamic covering decision information

systems. Knowledge-Based Systems, 162, 161-173.

[35] Hao, G., Longshu, L., Chuanjian, Y., &Jian, D. (2019). Incremental reduction

algorithm with acceleration strategy based on conflict region. Artificial

Intelligence Review, 51(4), 507-536.

[36] Shua, W.H., Qian, W.B., &Xie, Y.H. (2019). Incremental approaches for

feature selection from dynamic data with the variation of multiple objects.

Knowledge-Based Systems, Vol. 163, 320-331.

[37] Nandhini, N., &Thangadurai, K. (2019). An incremental rough set approach for

faster attribute reduction, International Journal of Information Technology.

https://doi.org/10.1007/s41870-019-00326-6.

[38] Shu, W.H., Qian, W., &Xie, Y. (2020). Incremental feature selection for

dynamic hybrid data using neighborhood rough set. Knowledge-Based Systems

194, 105516.

[39] Xie, X., &Qin, X. (2018). A novel incremental attribute reduction approach for

dynamic incomplete decision systems. International Journal of Approximate

Reasoning, 93, 443-462.

Page 126: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

116

[40] Y.Y. Yang, D.G. Chen, H. Wang, “Active Sample Selection Based Incremental

Algorithm for Attribute Reduction With Rough Sets”, IEEE Transactions on

Fuzzy Systems, Vol. 25, Issue 4, pp. 825- 838, 2017.

[41] W.H. Shu, H. Shen, “Updating attribute reduction in incomplete decision

systems with the variation of attribute set”, International Journal of

Approximate Reasoning, vol. 55, no.3, pp. 867-884, 2014.

[42] F. Wang, J.Y. Liang, Y.H. Qian, “Attribute reduction: A dimension incremental

strategy”, Knowledge-Based Systems, Volume 39, pp. 95-108, 2013.

[43] M.J. Cai, Q.G. Li, J.M. Ma, “Knowledge reduction of dynamic covering

decision information systems caused by variations of attribute values”,

International Journal of Machine Learning and Cybernetics 8(4), pp. 1131-

1144, 2017.

[44] Ma, F.M., Ding, M.W., Zhang, T.F., &Cao, J. (2019). Compressed binary

discernibility matrix based incremental attribute reduction algorithm for group

dynamic data. Neurocomputing, Vol. 344, No. 7, 20-27.

[45] Wei, W., Song, P., Liang, J.Y., &Wu, X.Y. (2019). Accelerating incremental

attribute reduction algorithm by compacting a decision system. International

Journal of Machine Learning and Cybernetics 10, 2355-2373.

[46] Nandhini, N., &Thangadurai, K. (2019). An incremental rough set approach for

faster attribute reduction, International Journal of Information Technology.

https://doi.org/10.1007/s41870-019-00326-6.

[47] Chen, D.G., Dong, L.J., &Mi, J.H. (2020). Incremental mechanism of attribute

reduction based on discernible relations for dynamically increasing attribute.

Soft Computing 24, 321-332.

[48] Demetrovics Janos, Nguyen Thi Lan Huong, Vu Duc Thi, Nguyen Long Giang,

“Metric Based Attribute Reduction Method in Dynamic Decision Tables”,

Cybernetics and Information Technologies, Vol.16, No.2, pp. 3-15, 2016.

[49] M.S. Raza,U. Qamar, “An incremental dependency calculation technique for

feature selection using rough sets”, Information Sciences 343–344, pp. 41–65,

2016.

Page 127: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

117

[50] Y. Jing, T. Li, J. Huang, et al., “An incremental attribute reduction approach

based on knowledge granularity under the attribute generalization”, Int. J.

Approx. Reason. 76, pp.80-95, 2016.

[51] Y.G. Jing, T.R. Li, H. Fujita, B.L. Wang, N. Cheng, “An incremental attribute

reduction method for dynamic data mining”, Information Sciences 465, pp. 202-

218, 2018.

[52] Y.M. Liu, S.Y. Zhao, H. Chen, C.P. Li, Y.M. Lu, “Fuzzy Rough Incremental

Attribute Reduction Applying Dependency Measures”, APWeb-WAIM 2017:

Web and Big Data, pp 484-492, 2017.

[53] Y.Y. Yang, D.G. Chen, H. Wang, Eric C.C.Tsang, D.L. Zhang, “Fuzzy rough

set based incremental attribute reduction from dynamic data with sample

arriving”, Fuzzy Sets and Systems, Volume 312, pp. 66-86, 2017

[54] Y.Y. Yang, D.G. Chen, H. Wang, X.H. Wang, “Incremental perspective for

feature selection based on fuzzy rough sets”, IEEE Transactions on Fuzzy

Systems, Vol. 26, Issue 3, pp. 1257-1273, 2017.

[55] Vu Van Dinh, Vu Duc Thi, Ngo Quoc Tao, Nguyen Long Giang, “Partition

Distance Based Attribute Reduction in Incomplete Decision Tables”, Journal on

Information Communications Technology, Research and Development on

Information & Communications Technology, Vol. V-2, No. 14(34), pp. 23-32,

12-2015.

[56] Zhang, X., Mei, C.L., Chen, D.G., Yang, Y.Y., &Li, J.H. (2020). Active

Incremental Feature Selection Using a Fuzzy-Rough-Set-Based Information

Entropy. IEEE Transactions on Fuzzy Systems, Volume 28, Issue 5, 901-915.

[57] Ni, P., Zhao, S.Y., Wang, X.H., Chen, H., Li, C.P., Tsang, E.C.C (2020).

Incremental Feature Selection Based on Fuzzy Rough Sets. Information

Sciences.

[58] A.P. Zeng, T.R. Li, D. Liu, J.B. Zhang, H.M. Chen, “A fuzzy rough set

approach for incremental feature selection on hybrid information systems”,

Fuzzy Sets and Systems, Vol. 258, pp. 39-60, 2015.

Page 128: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

118

[59] The UCI machine learning repository, http://archive.ics.uci.edu/ml/

datasets.html. https://sourceforge.net/projects/weka/

[60] Jensen, R., and Q. Shen, Q.(2008), Computational Intelligence and Feature

Selection, Rough and Fuzzy Approaches, Aberystwyth University, IEEE

Computational Intelligence Society, Sponsor.

[61] N. Long, D. Gianola, K.A. Weigel, “Dimension reduction and variable selection

for genomic selection : application to predicting milk yield in Holsteins”, Journal

of Animal Breeding and Genetics. 128 (4), pp. 247–257, 2011.

[62] J. Zhang, T. Li, D. Ruan, “Rough sets based matrix approaches with dynamic

attribute variation in set-valued information systems”, Int. J. Approx. Reason,

Vol.53, pp. 620-635, 2012

[63] Q.H. Hu, Z.X. Xie, D.R. Yu, “Hybrid attribute reduction based on a novel

fuzzy-rough model and information granulation”, Pattern Recognition 40, pp.

3509-3521, 2007.

[64] Y.H. Qian., J.Y. Liang, W.Z. Wu, C.Y. Dang, “Information Granularity in

Fuzzy Binary GrC Model”, IEEE Trans. Fuzzy Syst. 19, No 2, pp. 253-264,

2011.

[65] J.Y. Liang, R. Li, Y. H. Qian, “Distance: A more comprehensible perspective

for measures in rough set theory”, Knowledge-Based Systems, Volume 27, pp.

126-136, 2012.

[66] Nguyễn Long Giang, Nguyễn Thanh Tung, Vũ Đức Thi, Môt phương phap mơi

rút gon thuôc tính trong bang quyết định không đây đu sử dụng metric, Tạp chí

Tin học và Điều khiển học, T.28, S.2, 2012, tr. 129-140.

[67] Long Giang Nguyen, “Metric Based Attribute Reduction in Decision Tables”,

Federated Conference on Computer Science and Information System

(FEDCSIS), Wroclaw, Poland, IEEE, pp. 311-316, 2012.

[68] Nguyen Thi Lan Huong, Nguyen Long Giang, “Incremental algorithms based

on metric for finding reduct in dynamic decision tables”, Journal on Research

and Development on Information & Communications Technology, Vol.E-3,

No.9 (13), pp. 26-39, 2016.

Page 129: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

119

[69] Nguyen Long Giang, Nguyen Thi Lan Huong, Metric Based Attribute

Reduction in Incomplete Information Systems, Kỷ yếu Hội thảo Quốc gia lần

thứ XV “Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông”, Hà

Nôi 11/2012, 2013, Tr. 185-190.

[70] Vũ Văn Định, Vũ Đức Thi, Ngô Quốc Tao, Nguyễn Long Giang, Phương pháp

rút gọn thuộc tính trong bảng quyết định không đầy đủ sử dụng khoảng cách

phân hoạch, Các công trình nghiên cứu, phát triển và ứng dụng CNTT&TT,

Tap chí CNTT&TT, Tâp V-2, số 14(34), 12-2015, Trang 23-32.

[71] Demetrovics Janos, Vu Duc Thi, Nguyen Long Giang, “A Distance-based

Method for Attribute Reduction in Incomplete Decision Systems”, Serdica

Journal of Computing 7, No 4, pp. 355-374, 2013.

[72] Long Giang Nguyen, Hung Son Nguyen, “Metric Based Attribute Reduction in

Incomplete Decision Tables”, Proceedings of 14th International Conference,

Rough Sets, Fuzzy Sets, Data Mining, and Granular Computing, RSFDGrC

2013, Halifax, NS, Canada, Lecture Notes in Computer Science, SpingerLink,

Vol. 8170, pp. 99-110, 2013.

[73] Nguyễn Long Giang, Cao Chính Nghĩa, Nguyễn Quang Huy, Nguyễn Thị Lan

Hương, Nguyễn Ngoc Cương, Trân Anh Tú, Về một độ đo khoảng cách mờ và

ứng dụng rút gọn thuộc tính trong bảng quyết định, Kỷ yếu Hôi thao Quốc gia

lân thứ XX - Môt số vân đề chon loc cua CNTT va TT, Quy Nhơn, 23-

24/11/2017, Tr. 404-409.

[74] Cao Chinh Nghia, Vu Duc Thi, Nguyen Long Giang, Tan Hanh, “Fuzzy distance

based attribute reduction in decision tables”, Journal on Information

Communications Technology, Research and Development on Information &

Communications Technology, Vietnam, Vol. V-2, No. 16 (36), pp. 104-111, 2016.

[75] Qian, Y., Li, Y., Liang, J., Lin, G., and Dang, C. (2015), Fuzzy granular

structure distance, IEEE Transactions on Fuzzy Systems, 23(6), pp. 2245-2259.

[76] Nguyễn Long Giang (2012), Nghiên cứu môt số phương phap khai pha dữ liêu

theo tiếp cân lý thuyết tâp thô, Luân án Tiến sĩ Toan hoc, Viên Công nghê

thông tin.

Page 130: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

120

[77] Qian, Y., Wang, Q., Cheng, H., Liang, J., and Dang, C. (2015), Fuzzy-rough

feature selection accelerator, Fuzzy Sets and Systems, 258, pp. 61-78.

[78] J.H. Dai, Q. Xu, “Attribute selection based on information gain ratio in fuzzy

rough set theory with application to tumor classification”, Applied Soft

Computing 13, pp. 211-221, 2013.

[79] Q.H. Hu, D.R. Yu, Z.X. Xie, J. F. Liu, “Fuzzy probabilistic approximation

spaces and their information measures”, IEEE Transaction on Fuzzy Systems,

vol. 14, no. 2, pp. 191-201, 2006.

[80] Pradipta Maji, Partha Garai, “On fuzzy-rough attribute selection: Criteria of

Max-Dependency, Max-Relevance, Min-Redundancy, and Max-Significance”,

Applied Soft Computing 13, pp. 3968-3980, 2013.

[81] Q. Shen, R. Jensen, “Selecting informative features with fuzzy-rough sets and

its application for complex systems monitoring”, Pattern Recognition 37, pp.

1351 – 1363, 2004.

[82] Nguyễn Thị Lan Hương, “Rut gon thuôc tính trong bang quyết định đông theo

tiếp cân tâp thô”, Luân án Tiến sĩ Toan hoc, Viên Công nghê thông tin, 2017.

[83] Vũ Văn Định, “Rut gon thuôc tính trong bang quyết định không đây đu theo tiếp

cân tâp thô dung sai”, Luân án Tiến sĩ Toan hoc, Viên Công nghê thông tin, 2016.

[84] A.P. Zeng , T.R. Li, J. Hu, H.M. Chen, Chuan Luo, “Dynamical updating fuzzy

rough approximations for hybrid data under the variation of attribute values”,

Information Sciences 000, pp. 1-26, 2016.

[85] Nguyễn Văn Thiên, “Môt số phương phap kết hơp trong rút gon thuôc tính theo

tiếp cân tâp thô mơ”, Luân án Tiến sĩ May tính, Hoc viên Khoa hoc và Công

nghê, 2018

[86] C. Luo, T. R. Li and H. M. Chen, “Dynamic maintenance of approximations in

setvalued ordered decision systems under the attribute generalization”,

Information Sciences 257, pp. 210 - 228, 2014.

[87] C. Luo, T.R. Li, H.M. Chen, H. Fujita, Z. Yi, “Efficient updating of

probabilistic approximations with incremental objects”, Knowledge-Based

Systems 109, pp. 71-83, 2017.

Page 131: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

121

[88] C. Luo, T.R. Li, Y. Yao, “Dynamic probabilistic rough sets with incomplete

data”, Information Sciences 417, pp. 39–54, 2017.

[89] C. Luo, T.R. Li, Y.Y. Huang, H. Fujita, “Updating three-way decisions in

incomplete multi-scale information systems”, Information Sciences 476, pp.

274-289, 2019.

[90] C.X. Hu, S.X. Liu, G.X. Liu, “Matrix-based approaches for dynamic updating

approximations in multigranulation rough sets”, Knowl Based Syst 122, pp. 51-

63, 2017.

[91] C.Z. Wang, Y. Qi, Q. He, Attribute reduction using distance-based fuzzy rough

sets, 2015 International Conference on Machine Learning and Cybernetics ,

IEEE, 2015.

[92] C.Z. Wang, Y.Huang, M.W. Shao, X.D.Fan, Fuzzy rough set-based attribute

reduction using distance measures, Knowledge-Based Systems, Volume 164, 15

January 2019, pp. 205-212.

[93] D.G. Chen, Y. Yang, Z. Dong, “An incremental algorithm for attribute

reduction with variable precision rough sets”, Appl. Soft Comput., vol. 45, pp.

129-149, 2016.

[94] DF.M. Ma, J.W. Chen, W. Han, “A Positive Region Based Incremental

Attribute Reduction Algorithm for Incomplete System”, International

Conference on Electronic Information Technology and Intellectualization

(ICEITI 2016), pp. 153-158, 2016.

[95] F.M. Ma, T.F. Zhang, “Generalized binary discernibility matrix

for attribute reduction in incomplete information systems”, The Journal of

China Universities of Posts and Telecommunications, Volume 24, Issue 4, pp.

57-75, 2017.

[96] G.M. Lang, Q. Li, M.J. Cai, T. Yang, Q.M. Xiao, Incremental approaches to

knowledge reduction based on characteristic matrices, Int. J. Mach. Learn.

Cybern. 8 (1) pp. 203-222, 2017.

[97] G.M. Lang, D.Q. Miao , M.J. Cai, Z.F. Zhang, “ Incremental approaches for

updating reducts in dynamic covering information systems, Knowledge Based

Systems 134, pp. 85..104, 2017.

Page 132: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

122

[98] G. Q. Wang, “ Valid Incremental Attribute Reduction Algorithm Based on

Attribute Generalization for an Incomplete Information System”, Chinese

Journal of Electronics, Vol.28, No.4, 2019.

[99] Huyen Tran, Thinh Cao, Koichi Yamada, Do Van Nguyen, “Incremental

Updating Methods with Three-way Decision Models in Incomplete Information

Systems”, IEEE Joint 10th International Conference on Soft Computing and

Intelligent Systems, pp. 27-32, 2018.

[100] J. Hu, K. Wang, H. Yu, “Attribute Reduction on Distributed Incomplete

Decision Information System”, IJCRS 2017, pp 289-305, 2017.

[101] J. Qian, C.Y. Dang, X.D. Yue, N. Zhang, “Attribute reduction for sequential

three-way decisions under dynamic granulation”, International Journal of

Approximate Reasoning 85(2017) 196-216.

[102] J. Yu, L. Sang, H. Dong, “Based on Attribute Order for Dynamic Attribute

Reduction in the Incomplete Information System”, IEEE IMCEC 2018, pp.

2475-2478, 2018.

[103] L.N. Wang , X. Yang , Y. Chen , L. Liu , S.Y. An , P. Zhuo , “ Dynamic

composite decision-theoretic rough set under the change of attributes”, Int. J.

Comput. Intell.Syst. 11 (2018) 355–370 .

[104] Long Giang Nguyen, Thien Nguyen, Nhu Son Nguyen , “Fuzzy Partition

Distance based Attribute Reduction in Decision Tables”, IJCRS 2018:

International Joint Conference on Rough Sets 2018, LNCS, Vol. 11103,

Springer Link, 2018, pp. 614-627.

[105] M. Kryszkiewicz (1998), “Rough set approach to incomplete information

systems”, Information Science, Vol. 112, pp. 39-49.

[106] Nguyen Long Giang, Vu Van Dinh, Relationships Among the Concepts of

Reduct in Incomplete Decision Tables, Frontiers in Artificial Intelligence and

Applications (FAIA), Volume 252: Advanced Methods and Technologies for

Agent and Multi-Agent Systems, IOS Press, 2013, pp. 417-426.

Page 133: PHƯƠNG PHÁP GIA TĂNG RÚT GỌN THUỘC TÍNH TRONG BẢNG …

123

[107] S. Li, T. Li, “Incremental update of approximations in dominance-based rough

sets approach under the variation of attribute values”, Inf. Sci. 294, pp.348-361,

2015

[108] S. Wang , T. Li , C. Luo , H. Fujita , Efficient updating rough approximations

with multi-dimensional variation of ordered data, Inf. Sci. 372, pp. 690-708,

2016.

[109] Y.Y. Huang , T.R. Li , C. Luo , H. Fujita , S.J. Horng , Matrix-based dynamic

updating rough fuzzy approximations for data mining, Knowl. Based Syst. 119,

pp. 273-283, 2017.

[110] W.B. Qian, W.H. Shu, “Mutual information criterion for feature selection

from incomplete data”, Neurocomputing, Volume 168, pp. 210-220, 2015.